From 2b1c975903018e490baa72d990024d5263370e3b Mon Sep 17 00:00:00 2001
From: "github-actions[bot]"
 <41898282+github-actions[bot]@users.noreply.github.com>
Date: Sat, 25 May 2024 21:59:51 +0000
Subject: [PATCH] Deployed 43a2b87 with MkDocs version: 1.6.0

---
 .nojekyll                                     |     0
 404.html                                      |  5915 +++++++
 AvailableModels/index.html                    |  6212 +++++++
 Bits/index.html                               |  6018 +++++++
 CONTRIBUTING/index.html                       |  6142 +++++++
 DataProcessing/index.html                     |  6052 +++++++
 EasyAttentionExample/index.html               |  6133 +++++++
 EasyStateExample/index.html                   |  6169 +++++++
 Falcon/index.html                             |  6131 +++++++
 FineTuningExample/index.html                  |  6125 +++++++
 Install/index.html                            |  6219 +++++++
 JAXServer/index.html                          |  6518 ++++++++
 Llama/index.html                              |  6238 +++++++
 Llama2/index.html                             |  6208 +++++++
 LoRA-TransferLearningExample/index.html       |  6142 +++++++
 Mistral/index.html                            |  6133 +++++++
 MosaicMPT/index.html                          |  6094 +++++++
 Parameter-Quantization/index.html             |  6249 +++++++
 PyTorchServer/index.html                      |  6018 +++++++
 assets/_mkdocstrings.css                      |   119 +
 assets/images/favicon.png                     |   Bin 0 -> 1870 bytes
 assets/javascripts/bundle.081f42fc.min.js     |    29 +
 assets/javascripts/bundle.081f42fc.min.js.map |     7 +
 assets/javascripts/lunr/min/lunr.ar.min.js    |     1 +
 assets/javascripts/lunr/min/lunr.da.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.de.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.du.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.el.min.js    |     1 +
 assets/javascripts/lunr/min/lunr.es.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.fi.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.fr.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.he.min.js    |     1 +
 assets/javascripts/lunr/min/lunr.hi.min.js    |     1 +
 assets/javascripts/lunr/min/lunr.hu.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.hy.min.js    |     1 +
 assets/javascripts/lunr/min/lunr.it.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.ja.min.js    |     1 +
 assets/javascripts/lunr/min/lunr.jp.min.js    |     1 +
 assets/javascripts/lunr/min/lunr.kn.min.js    |     1 +
 assets/javascripts/lunr/min/lunr.ko.min.js    |     1 +
 assets/javascripts/lunr/min/lunr.multi.min.js |     1 +
 assets/javascripts/lunr/min/lunr.nl.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.no.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.pt.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.ro.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.ru.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.sa.min.js    |     1 +
 .../lunr/min/lunr.stemmer.support.min.js      |     1 +
 assets/javascripts/lunr/min/lunr.sv.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.ta.min.js    |     1 +
 assets/javascripts/lunr/min/lunr.te.min.js    |     1 +
 assets/javascripts/lunr/min/lunr.th.min.js    |     1 +
 assets/javascripts/lunr/min/lunr.tr.min.js    |    18 +
 assets/javascripts/lunr/min/lunr.vi.min.js    |     1 +
 assets/javascripts/lunr/min/lunr.zh.min.js    |     1 +
 assets/javascripts/lunr/tinyseg.js            |   206 +
 assets/javascripts/lunr/wordcut.js            |  6708 ++++++++
 .../workers/search.b8dbb3d2.min.js            |    42 +
 .../workers/search.b8dbb3d2.min.js.map        |     7 +
 assets/stylesheets/main.6543a935.min.css      |     1 +
 assets/stylesheets/main.6543a935.min.css.map  |     1 +
 assets/stylesheets/palette.06af60db.min.css   |     1 +
 .../stylesheets/palette.06af60db.min.css.map  |     1 +
 generated-cli-cli/index.html                  |  6024 +++++++
 .../index.html                                |  6042 +++++++
 generated-etils-auto_tx/index.html            |  6602 ++++++++
 generated-etils-configs/index.html            |  6193 +++++++
 generated-etils-easystate/index.html          | 10665 ++++++++++++
 generated-etils-errors/index.html             |  6042 +++++++
 generated-etils-etils/index.html              |  6757 ++++++++
 generated-eval-lm_eval/index.html             |  6139 +++++++
 .../index.html                                |  6048 +++++++
 .../index.html                                |  6044 +++++++
 generated-modules-_attentions-ring/index.html |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6696 ++++++++
 .../index.html                                | 10291 ++++++++++++
 generated-modules-attention_module/index.html |  9008 +++++++++++
 .../index.html                                |  8890 ++++++++++
 .../index.html                                |  6754 ++++++++
 .../index.html                                | 12560 +++++++++++++++
 .../index.html                                |  6046 +++++++
 .../index.html                                |  8968 +++++++++++
 .../index.html                                |  7035 ++++++++
 .../index.html                                |  9072 +++++++++++
 .../index.html                                | 11175 +++++++++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  7025 ++++++++
 .../index.html                                |  8049 +++++++++
 .../index.html                                |  6865 ++++++++
 .../index.html                                |  7599 +++++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6046 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6762 ++++++++
 .../index.html                                | 10882 +++++++++++++
 .../index.html                                |  6602 ++++++++
 .../index.html                                |  6108 +++++++
 .../index.html                                |  7984 +++++++++
 .../index.html                                | 13435 +++++++++++++++
 .../index.html                                |  6513 ++++++++
 .../index.html                                |  6441 ++++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  7372 +++++++++
 .../index.html                                |  7780 +++++++++
 .../index.html                                | 10813 +++++++++++++
 .../index.html                                |  6610 ++++++++
 .../index.html                                |  6441 ++++++++
 .../index.html                                |  7906 +++++++++
 .../index.html                                | 10250 ++++++++++++
 .../index.html                                |  6796 ++++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6575 ++++++++
 .../index.html                                | 10137 ++++++++++++
 .../index.html                                |  8042 +++++++++
 .../index.html                                |  6186 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  7579 +++++++++
 .../index.html                                |  6332 ++++++++
 .../index.html                                |  7431 +++++++++
 .../index.html                                |  6400 ++++++++
 .../index.html                                | 13438 ++++++++++++++++
 .../index.html                                |  6872 ++++++++
 .../index.html                                | 13385 +++++++++++++++
 .../index.html                                |  7136 ++++++++
 .../index.html                                |  6767 ++++++++
 .../index.html                                | 12998 +++++++++++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6236 +++++++
 .../index.html                                |  8279 ++++++++++
 .../index.html                                |  6324 ++++++++
 .../index.html                                |  6756 ++++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 generated-partitioning-partitioner/index.html |  6280 ++++++++
 .../index.html                                |  6228 +++++++
 .../index.html                                |  6454 ++++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  7419 +++++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6259 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6268 +++++++
 .../index.html                                |  7238 +++++++++
 generated-serve-jax_serve/index.html          | 12200 ++++++++++++++
 .../index.html                                |  6580 ++++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  6832 ++++++++
 generated-serve-serve_engine-serve/index.html |  9114 +++++++++++
 generated-serve-torch_serve/index.html        |  9394 +++++++++++
 generated-serve-utils/index.html              |  6910 ++++++++
 generated-smi-smi/index.html                  |  6547 ++++++++
 generated-trainer-base_trainer/index.html     |  8532 ++++++++++
 .../index.html                                |  8544 ++++++++++
 .../index.html                                |  6633 ++++++++
 .../index.html                                |  6044 +++++++
 generated-trainer-dpo-dpo_trainer/index.html  | 10603 ++++++++++++
 .../index.html                                |  8389 ++++++++++
 .../index.html                                |  6044 +++++++
 generated-trainer-dpo-utils/index.html        |  6334 ++++++++
 .../index.html                                |  7329 +++++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                | 10305 ++++++++++++
 generated-trainer-orpo-utils/index.html       |  6028 +++++++
 generated-trainer-sft-stf_trainer/index.html  |  6860 ++++++++
 generated-trainer-sft-utils/index.html        |  6028 +++++++
 .../index.html                                |  9843 +++++++++++
 generated-trainer-utils/index.html            |  7160 ++++++++
 .../index.html                                |  6526 ++++++++
 .../index.html                                |  6044 +++++++
 .../index.html                                |  8396 ++++++++++
 .../index.html                                |  7057 ++++++++
 generated-transform-falcon/index.html         |  6108 +++++++
 generated-transform-llama/index.html          |  6164 +++++++
 generated-transform-mistral/index.html        |  6164 +++++++
 generated-transform-mpt/index.html            |  6110 +++++++
 generated-transform-utils/index.html          |  6042 +++++++
 generated-utils-checker/index.html            |  6042 +++++++
 generated-utils-prompters/index.html          |  6715 ++++++++
 generated-utils-tensor_utils/index.html       |  6174 +++++++
 generated-utils-utils/index.html              |  7588 +++++++++
 index.html                                    |  6227 +++++++
 objects.inv                                   |   Bin 0 -> 9707 bytes
 search/search_index.json                      |     1 +
 sitemap.xml                                   |     3 +
 sitemap.xml.gz                                |   Bin 0 -> 127 bytes
 204 files changed, 1107584 insertions(+)
 create mode 100644 .nojekyll
 create mode 100644 404.html
 create mode 100644 AvailableModels/index.html
 create mode 100644 Bits/index.html
 create mode 100644 CONTRIBUTING/index.html
 create mode 100644 DataProcessing/index.html
 create mode 100644 EasyAttentionExample/index.html
 create mode 100644 EasyStateExample/index.html
 create mode 100644 Falcon/index.html
 create mode 100644 FineTuningExample/index.html
 create mode 100644 Install/index.html
 create mode 100644 JAXServer/index.html
 create mode 100644 Llama/index.html
 create mode 100644 Llama2/index.html
 create mode 100644 LoRA-TransferLearningExample/index.html
 create mode 100644 Mistral/index.html
 create mode 100644 MosaicMPT/index.html
 create mode 100644 Parameter-Quantization/index.html
 create mode 100644 PyTorchServer/index.html
 create mode 100644 assets/_mkdocstrings.css
 create mode 100644 assets/images/favicon.png
 create mode 100644 assets/javascripts/bundle.081f42fc.min.js
 create mode 100644 assets/javascripts/bundle.081f42fc.min.js.map
 create mode 100644 assets/javascripts/lunr/min/lunr.ar.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.da.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.de.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.du.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.el.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.es.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.fi.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.fr.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.he.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.hi.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.hu.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.hy.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.it.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.ja.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.jp.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.kn.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.ko.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.multi.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.nl.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.no.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.pt.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.ro.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.ru.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.sa.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.stemmer.support.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.sv.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.ta.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.te.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.th.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.tr.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.vi.min.js
 create mode 100644 assets/javascripts/lunr/min/lunr.zh.min.js
 create mode 100644 assets/javascripts/lunr/tinyseg.js
 create mode 100644 assets/javascripts/lunr/wordcut.js
 create mode 100644 assets/javascripts/workers/search.b8dbb3d2.min.js
 create mode 100644 assets/javascripts/workers/search.b8dbb3d2.min.js.map
 create mode 100644 assets/stylesheets/main.6543a935.min.css
 create mode 100644 assets/stylesheets/main.6543a935.min.css.map
 create mode 100644 assets/stylesheets/palette.06af60db.min.css
 create mode 100644 assets/stylesheets/palette.06af60db.min.css.map
 create mode 100644 generated-cli-cli/index.html
 create mode 100644 generated-data_preprocessing-_processor/index.html
 create mode 100644 generated-etils-auto_tx/index.html
 create mode 100644 generated-etils-configs/index.html
 create mode 100644 generated-etils-easystate/index.html
 create mode 100644 generated-etils-errors/index.html
 create mode 100644 generated-etils-etils/index.html
 create mode 100644 generated-eval-lm_eval/index.html
 create mode 100644 generated-modules-_attentions-blockwise_attn/index.html
 create mode 100644 generated-modules-_attentions-flash/index.html
 create mode 100644 generated-modules-_attentions-ring/index.html
 create mode 100644 generated-modules-_attentions-vanilla/index.html
 create mode 100644 generated-modules-arctic-arctic_configuration/index.html
 create mode 100644 generated-modules-arctic-modelling_arctic_flax/index.html
 create mode 100644 generated-modules-attention_module/index.html
 create mode 100644 generated-modules-auto_easydel_model/index.html
 create mode 100644 generated-modules-cohere-cohere_configuration/index.html
 create mode 100644 generated-modules-cohere-modelling_cohere_flax/index.html
 create mode 100644 generated-modules-dbrx-dbrx_configuration/index.html
 create mode 100644 generated-modules-dbrx-modelling_dbrx_flax/index.html
 create mode 100644 generated-modules-deepseek_v2-deepseek_configuration/index.html
 create mode 100644 generated-modules-deepseek_v2-modeling_deepseek_flax/index.html
 create mode 100644 generated-modules-easydel_modelling_utils/index.html
 create mode 100644 generated-modules-falcon-falcon_configuration/index.html
 create mode 100644 generated-modules-falcon-modelling_falcon_flax/index.html
 create mode 100644 generated-modules-flax_modelling_utils/index.html
 create mode 100644 generated-modules-gemma-gemma_configuration/index.html
 create mode 100644 generated-modules-gemma-modelling_gemma_flax/index.html
 create mode 100644 generated-modules-gpt2-gpt2_configuration/index.html
 create mode 100644 generated-modules-gpt2-modelling_gpt2_flax/index.html
 create mode 100644 generated-modules-gpt_j-gpt_j_configuration/index.html
 create mode 100644 generated-modules-gpt_j-modelling_gpt_j_flax/index.html
 create mode 100644 generated-modules-gpt_neo_x-gpt_neo_x_configuration/index.html
 create mode 100644 generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/index.html
 create mode 100644 generated-modules-grok_1-grok_1_configuration/index.html
 create mode 100644 generated-modules-grok_1-modelling_grok_1_flax/index.html
 create mode 100644 generated-modules-jetmoe-jetmoe_configuration/index.html
 create mode 100644 generated-modules-jetmoe-modelling_jetmoe_flax/index.html
 create mode 100644 generated-modules-llama-llama_configuration/index.html
 create mode 100644 generated-modules-llama-modelling_llama_flax/index.html
 create mode 100644 generated-modules-llama-modelling_vision_llama_flax/index.html
 create mode 100644 generated-modules-llama-vision_llama_configuration/index.html
 create mode 100644 generated-modules-lucid_transformer-lt_configuration/index.html
 create mode 100644 generated-modules-lucid_transformer-modelling_lt_flax/index.html
 create mode 100644 generated-modules-mamba-mamba_configuration/index.html
 create mode 100644 generated-modules-mamba-modelling_mamba_flax/index.html
 create mode 100644 generated-modules-mistral-mistral_configuration/index.html
 create mode 100644 generated-modules-mistral-modelling_mistral_flax/index.html
 create mode 100644 generated-modules-mistral-modelling_vision_mistral_flax/index.html
 create mode 100644 generated-modules-mistral-vision_mistral_configuration/index.html
 create mode 100644 generated-modules-mixtral-mixtral_configuration/index.html
 create mode 100644 generated-modules-mixtral-modelling_mixtral_flax/index.html
 create mode 100644 generated-modules-mosaic_mpt-modelling_mpt_flax/index.html
 create mode 100644 generated-modules-mosaic_mpt-mosaic_configuration/index.html
 create mode 100644 generated-modules-olmo-modelling_olmo_flax/index.html
 create mode 100644 generated-modules-olmo-olmo_configuration/index.html
 create mode 100644 generated-modules-openelm-modelling_openelm_flax/index.html
 create mode 100644 generated-modules-openelm-openelm_configuration/index.html
 create mode 100644 generated-modules-opt-modelling_opt_flax/index.html
 create mode 100644 generated-modules-opt-opt_configuration/index.html
 create mode 100644 generated-modules-palm-modelling_palm_flax/index.html
 create mode 100644 generated-modules-palm-palm_configuration/index.html
 create mode 100644 generated-modules-phi-modelling_phi_flax/index.html
 create mode 100644 generated-modules-phi-phi_configuration/index.html
 create mode 100644 generated-modules-phi3-modelling_phi3_flax/index.html
 create mode 100644 generated-modules-phi3-phi3_configuration/index.html
 create mode 100644 generated-modules-qwen1-modelling_qwen1_flax/index.html
 create mode 100644 generated-modules-qwen1-qwen1_configuration/index.html
 create mode 100644 generated-modules-qwen2-modelling_qwen_flax/index.html
 create mode 100644 generated-modules-qwen2-qwen_configuration/index.html
 create mode 100644 generated-modules-qwen2_moe-configuration_qwen2_moe/index.html
 create mode 100644 generated-modules-qwen2_moe-modeling_qwen2_moe_flax/index.html
 create mode 100644 generated-modules-roberta-modelling_roberta_flax/index.html
 create mode 100644 generated-modules-roberta-roberta_configuration/index.html
 create mode 100644 generated-modules-rwkv-modelling_rwkv_flax/index.html
 create mode 100644 generated-modules-rwkv-rwkv_configuration/index.html
 create mode 100644 generated-modules-stablelm-modelling_stablelm_flax/index.html
 create mode 100644 generated-modules-stablelm-stablelm_configuration/index.html
 create mode 100644 generated-modules-t5-modelling_t5_flax/index.html
 create mode 100644 generated-modules-t5-t5_configuration/index.html
 create mode 100644 generated-modules-whisper-modelling_whisper_flax/index.html
 create mode 100644 generated-modules-whisper-whisper_configuration/index.html
 create mode 100644 generated-partitioning-partitioner/index.html
 create mode 100644 generated-reinforcement_learning-core/index.html
 create mode 100644 generated-reinforcement_learning-models-modelling_casual_language_rl/index.html
 create mode 100644 generated-reinforcement_learning-trainer-partitioner_config/index.html
 create mode 100644 generated-reinforcement_learning-trainer-ppo_config/index.html
 create mode 100644 generated-reinforcement_learning-trainer-ppo_trainer/index.html
 create mode 100644 generated-reinforcement_learning-trainer-training_configs/index.html
 create mode 100644 generated-reinforcement_learning-trainer-utils/index.html
 create mode 100644 generated-reinforcement_learning-utils-collectors/index.html
 create mode 100644 generated-serve-gradio_user_interface_base/index.html
 create mode 100644 generated-serve-jax_serve/index.html
 create mode 100644 generated-serve-prompters-base_prompter/index.html
 create mode 100644 generated-serve-prompters-cargo_prompter/index.html
 create mode 100644 generated-serve-prompters-chatml_prompter/index.html
 create mode 100644 generated-serve-prompters-gemma_prompter/index.html
 create mode 100644 generated-serve-prompters-guanaco_prompter/index.html
 create mode 100644 generated-serve-prompters-llama2_prompter/index.html
 create mode 100644 generated-serve-prompters-openchat_prompter/index.html
 create mode 100644 generated-serve-prompters-zephyr_prompter/index.html
 create mode 100644 generated-serve-serve_engine-client/index.html
 create mode 100644 generated-serve-serve_engine-configuration/index.html
 create mode 100644 generated-serve-serve_engine-serve/index.html
 create mode 100644 generated-serve-torch_serve/index.html
 create mode 100644 generated-serve-utils/index.html
 create mode 100644 generated-smi-smi/index.html
 create mode 100644 generated-trainer-base_trainer/index.html
 create mode 100644 generated-trainer-causal_language_model_trainer-causal_language_model_trainer/index.html
 create mode 100644 generated-trainer-causal_language_model_trainer-fwd_bwd_functions/index.html
 create mode 100644 generated-trainer-causal_language_model_trainer-modeling_output/index.html
 create mode 100644 generated-trainer-dpo-dpo_trainer/index.html
 create mode 100644 generated-trainer-dpo-fwd_bwd_functions/index.html
 create mode 100644 generated-trainer-dpo-modelling_output/index.html
 create mode 100644 generated-trainer-dpo-utils/index.html
 create mode 100644 generated-trainer-orpo-fwd_bwd_functions/index.html
 create mode 100644 generated-trainer-orpo-modelling_output/index.html
 create mode 100644 generated-trainer-orpo-orpo_trainer/index.html
 create mode 100644 generated-trainer-orpo-utils/index.html
 create mode 100644 generated-trainer-sft-stf_trainer/index.html
 create mode 100644 generated-trainer-sft-utils/index.html
 create mode 100644 generated-trainer-training_configurations/index.html
 create mode 100644 generated-trainer-utils/index.html
 create mode 100644 generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/index.html
 create mode 100644 generated-trainer-vision_causal_language_model_trainer-modelling_output/index.html
 create mode 100644 generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/index.html
 create mode 100644 generated-transform-easydel_transform/index.html
 create mode 100644 generated-transform-falcon/index.html
 create mode 100644 generated-transform-llama/index.html
 create mode 100644 generated-transform-mistral/index.html
 create mode 100644 generated-transform-mpt/index.html
 create mode 100644 generated-transform-utils/index.html
 create mode 100644 generated-utils-checker/index.html
 create mode 100644 generated-utils-prompters/index.html
 create mode 100644 generated-utils-tensor_utils/index.html
 create mode 100644 generated-utils-utils/index.html
 create mode 100644 index.html
 create mode 100644 objects.inv
 create mode 100644 search/search_index.json
 create mode 100644 sitemap.xml
 create mode 100644 sitemap.xml.gz

diff --git a/.nojekyll b/.nojekyll
new file mode 100644
index 000000000..e69de29bb
diff --git a/404.html b/404.html
new file mode 100644
index 000000000..5e1c03503
--- /dev/null
+++ b/404.html
@@ -0,0 +1,5915 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+      
+      
+      <link rel="icon" href="/assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="/assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="/assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("/",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href="/." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href="/." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="/Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+  <h1>404 - Not found</h1>
+
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "/", "features": [], "search": "/assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="/assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/AvailableModels/index.html b/AvailableModels/index.html
new file mode 100644
index 000000000..60d67e086
--- /dev/null
+++ b/AvailableModels/index.html
@@ -0,0 +1,6212 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-utils-utils/">
+      
+      
+        <link rel="next" href="../CONTRIBUTING/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Available models - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#available-models" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Available models
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="available-models">Available Models</h1>
+<table>
+<thead>
+<tr>
+<th>Model</th>
+<th>Video Model</th>
+<th>CausalLM</th>
+<th>AttentionModule</th>
+<th>Parameters Quantization</th>
+<th>Operation Bit Quantization</th>
+</tr>
+</thead>
+<tbody>
+<tr>
+<td>Gptj</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>LucidTransformer</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Mixtral</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Opt</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Qwen2Moe</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Stablelm</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Cohere</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Arctic</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>OpenELM</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Gemma</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>GptNeoX</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Jetmoe</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Mamba</td>
+<td>❌</td>
+<td>✅</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>MosaicMpt</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Palm</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Qwen1</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Roberta</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>T5</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Dbrx</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Falcon</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Gpt2</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Grok1</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Llama</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Mistral</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Olmo</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Phi</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Phi 3</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Qwen2</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Rwkv</td>
+<td>❌</td>
+<td>✅</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+<tr>
+<td>Whisper</td>
+<td>❌</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+<td>✅</td>
+</tr>
+</tbody>
+</table>
+<p>you can also tell me the model you want in Flax/Jax version and ill try my best to build it ;)</p>
+<blockquote>
+<p>More Models might have been added to <code>~HEAD</code> but not mentioned here </p>
+</blockquote>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/Bits/index.html b/Bits/index.html
new file mode 100644
index 000000000..a9659b702
--- /dev/null
+++ b/Bits/index.html
@@ -0,0 +1,6018 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../CONTRIBUTING/">
+      
+      
+        <link rel="next" href="../DataProcessing/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Easy Bits - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#about-bits-in-easydel" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Easy Bits
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#about-bits-in-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      About Bits in EasyDeL
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#about-bits-in-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      About Bits in EasyDeL
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+  <h1>Easy Bits</h1>
+
+<h2 id="about-bits-in-easydel">About Bits in EasyDeL</h2>
+<p>In easydel bits are totally different from huggingface and in EasyDeL training model with 8 bit is supported too without
+needs to change the code just change the bit and that's all you have todo but by the way you still have to pass
+the dtype and param_dtype cause unlike the transformers and bitsandbytes which store parameters in int8 and do
+operations
+in float16, bfloat16, float32 we don't do that like this in Jax we still store parameters as float16,bfloat16 or float32
+and
+do operations in bits like 8 6 4, and you can still train your model in this way and make it much more accurate than
+bitsandbytes or peft fine-tuning</p>
+<blockquote>
+<p>Right now im looking to make EasyBITs in EasyDeL work on TPU-v3 cause on low amp GPUs and old TPUs it
+might now work as good as it does on TPU-v4/5</p>
+</blockquote>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/CONTRIBUTING/index.html b/CONTRIBUTING/index.html
new file mode 100644
index 000000000..a3f008d45
--- /dev/null
+++ b/CONTRIBUTING/index.html
@@ -0,0 +1,6142 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../AvailableModels/">
+      
+      
+        <link rel="next" href="../Bits/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Contributing - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#contributing-to-easydel" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Contributing
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#how-to-contribute" class="md-nav__link">
+    <span class="md-ellipsis">
+      How to Contribute
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#code-of-conduct" class="md-nav__link">
+    <span class="md-ellipsis">
+      Code of Conduct
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#reporting-bugs" class="md-nav__link">
+    <span class="md-ellipsis">
+      Reporting Bugs
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#suggesting-enhancements" class="md-nav__link">
+    <span class="md-ellipsis">
+      Suggesting Enhancements
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#development-setup" class="md-nav__link">
+    <span class="md-ellipsis">
+      Development Setup
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#pull-request-guidelines" class="md-nav__link">
+    <span class="md-ellipsis">
+      Pull Request Guidelines
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#license" class="md-nav__link">
+    <span class="md-ellipsis">
+      License
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#how-to-contribute" class="md-nav__link">
+    <span class="md-ellipsis">
+      How to Contribute
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#code-of-conduct" class="md-nav__link">
+    <span class="md-ellipsis">
+      Code of Conduct
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#reporting-bugs" class="md-nav__link">
+    <span class="md-ellipsis">
+      Reporting Bugs
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#suggesting-enhancements" class="md-nav__link">
+    <span class="md-ellipsis">
+      Suggesting Enhancements
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#development-setup" class="md-nav__link">
+    <span class="md-ellipsis">
+      Development Setup
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#pull-request-guidelines" class="md-nav__link">
+    <span class="md-ellipsis">
+      Pull Request Guidelines
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#license" class="md-nav__link">
+    <span class="md-ellipsis">
+      License
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="contributing-to-easydel">Contributing to EasyDeL</h1>
+<p>Thank you for considering contributing to EasyDeL! We welcome your input. To ensure a smooth collaboration, please review and adhere to the following guidelines.</p>
+<h2 id="how-to-contribute">How to Contribute</h2>
+<p>To contribute to EasyDeL, follow these steps:
+1. Fork the repository.
+2. Create a new branch for your feature or bug fix.
+3. Make your changes and commit them with clear and descriptive messages.
+4. Push your changes to your branch in your forked repository.
+5. Submit a pull request to the main EasyDeL repository, detailing the changes you've made and the problem it solves.</p>
+<h2 id="code-of-conduct">Code of Conduct</h2>
+<p>Please adhere to the <a href="https://www.apache.org/foundation/policies/conduct.html">Apache Code of Conduct</a> in all interactions related to EasyDeL.</p>
+<h2 id="reporting-bugs">Reporting Bugs</h2>
+<p>If you encounter a bug, please open an issue on the EasyDeL repository, providing a clear and detailed description of the issue, including steps to reproduce it.</p>
+<h2 id="suggesting-enhancements">Suggesting Enhancements</h2>
+<p>If you have ideas for enhancements, feel free to open an issue on the EasyDeL repository. Provide a clear and detailed description of your proposed enhancement.</p>
+<h2 id="development-setup">Development Setup</h2>
+<p>To set up EasyDeL for development, follow the instructions in the README.md file.</p>
+<h2 id="pull-request-guidelines">Pull Request Guidelines</h2>
+<p>When submitting a pull request, please ensure the following:
+- Your code follows the project's coding standards.
+- Your commits are accompanied by clear and descriptive messages.
+- Your pull request addresses a single issue or feature.</p>
+<h2 id="license">License</h2>
+<p>By contributing to EasyDeL, you agree that your contributions will be licensed under the Apache License, Version 2.0.</p>
+<p>Thank you for your interest in contributing to EasyDeL! We appreciate your support.</p>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/DataProcessing/index.html b/DataProcessing/index.html
new file mode 100644
index 000000000..cf6b90125
--- /dev/null
+++ b/DataProcessing/index.html
@@ -0,0 +1,6052 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../Bits/">
+      
+      
+        <link rel="next" href="../EasyStateExample/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>DataProcessing - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#data-processing" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              DataProcessing
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#data-processing" class="md-nav__link">
+    <span class="md-ellipsis">
+      Data Processing
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#data-processing" class="md-nav__link">
+    <span class="md-ellipsis">
+      Data Processing
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+  <h1>DataProcessing</h1>
+
+<h2 id="data-processing">Data Processing</h2>
+<p>here in this case you will see an example data required by EasyDeL to pre-train or fine-tune models</p>
+<pre><code class="language-python">from datasets import load_dataset
+from easydel.data_preprocessing import DataProcessor, DataProcessorArguments
+from transformers import LlamaTokenizerFast
+
+
+def main():
+    tokenizer = LlamaTokenizerFast.from_pretrained(&quot;meta-llama/Llama-2-7b-chat-hf&quot;)
+    dataset = load_dataset(&quot;erfanzar/orca-lite&quot;)
+    print(dataset)
+
+    #     DatasetDict({
+    #         train: Dataset({
+    #             features: ['user', 'gpt', 'system', 'llama_2_prompt_style', 'prompt_length'],
+    #             num_rows: 101397
+    #         })
+    #     })
+
+    processor_arguments = DataProcessorArguments(
+        max_position_embeddings=2048,
+        num_proc=6,
+        prompt_field='llama_2_prompt_style',
+
+    )
+
+    easydel_dataset = DataProcessor.process_data(
+        data=dataset['train'],
+        tokenizer=tokenizer,
+        arguments=processor_arguments,
+        field='train'
+    )
+    print(easydel_dataset)
+    # DatasetDict({
+    #     train: Dataset({
+    #         features: ['input_ids', 'attention_mask'],
+    #         num_rows: 101397
+    #     })
+    # })
+
+
+if __name__ == &quot;__main__&quot;:
+    main()
+</code></pre>
+<p>now you can pass this data to Trainer and train your model 😇.</p>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/EasyAttentionExample/index.html b/EasyAttentionExample/index.html
new file mode 100644
index 000000000..a948ac4ba
--- /dev/null
+++ b/EasyAttentionExample/index.html
@@ -0,0 +1,6133 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>AttentionModule - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#attentionmodule" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              AttentionModule
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#what-is-attentionmodule" class="md-nav__link">
+    <span class="md-ellipsis">
+      what is AttentionModule
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#example-of-using-flash-attention-on-tpu" class="md-nav__link">
+    <span class="md-ellipsis">
+      Example of Using Flash Attention on TPU
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="attentionmodule">AttentionModule</h1>
+<h2 id="what-is-attentionmodule">what is <code>AttentionModule</code></h2>
+<p>AttentionModule is a EasyDeL module that can perform attention operation with different strategies to help user achieve
+the best possible performance and numerical stability, here are some strategies supported right now.</p>
+<ol>
+<li>Flash Attention TPU known as "flash"</li>
+<li>Flash Attention GPU known as "cudnn"</li>
+<li>Ring Attention to Support higher context length such 1 Million or above known as "ring"</li>
+<li>Normal Attention which use flax.linen.attention with shard map known as "vanilla"</li>
+<li>Splash Attention on TPUs which is known as "splash"</li>
+<li>Local Ring attention via "local_ring"</li>
+<li>Wise Ring attention via "wise_ring"</li>
+<li>sharded Attention with shard map known as "sharded_vanilla"</li>
+</ol>
+<h2 id="example-of-using-flash-attention-on-tpu">Example of Using Flash Attention on TPU</h2>
+<pre><code class="language-python">import jax
+import flax.linen.attention as flt
+from fjformer import GenerateRNG
+from easydel.modules.attention_module import AttentionModule
+from easydel.modules.easydel_modelling_utils import EasyDeLPretrainedConfig
+from jax import numpy as jnp, random, lax
+import math
+
+rng_gen = GenerateRNG(seed=42)
+config = EasyDeLPretrainedConfig(
+    axis_dims=(1, -1, 1, 1),
+    axis_names=(&quot;dp&quot;, &quot;fsdp&quot;, &quot;tp&quot;, &quot;sp&quot;),
+    block_q=512,
+    block_k=512
+)
+
+BATCH_SIZE = len(jax.devices())
+NUM_ATTN_HEADS = 32
+CONTEXT_LENGTH = 8192
+HEAD_DIM = 256
+
+
+def make_fake_input_data(
+        batch_size: int,
+        num_attention_head: int,
+        context_length: int,
+        head_dim: int,
+):
+    q = random.normal(next(rng_gen), (batch_size, context_length, num_attention_head, head_dim), dtype=jnp.float32)
+    k = random.normal(next(rng_gen), (batch_size, context_length, num_attention_head, head_dim), dtype=jnp.float32)
+    v = random.normal(next(rng_gen), (batch_size, context_length, num_attention_head, head_dim), dtype=jnp.float32)
+
+    attention_mask = jnp.ones((batch_size, context_length))
+    causal_mask = flt.make_causal_mask(attention_mask)
+
+    cm_ = jnp.broadcast_to(causal_mask, (batch_size,) + causal_mask.shape[1:])
+    at_ = jnp.broadcast_to(jnp.expand_dims(attention_mask, axis=(-3, -2)), cm_.shape)
+    at_ = flt.combine_masks(at_, cm_)
+
+    attention_bias = lax.select(
+        at_ &gt; 0,
+        jnp.full(at_.shape, 0.0).astype(jnp.float32),
+        jnp.full(at_.shape, jnp.finfo(jnp.float32).min).astype(jnp.float32),
+    )
+
+    return (
+        q, k, v, attention_mask, causal_mask, attention_bias
+    )
+
+
+q, k, v, attention_mask, causal_mask, attention_bias = make_fake_input_data(
+    BATCH_SIZE,
+    NUM_ATTN_HEADS,
+    CONTEXT_LENGTH,
+    HEAD_DIM
+)
+
+flash_attention = AttentionModule(
+
+    block_k_major=config.block_k_major,
+    block_b=config.block_b,
+    block_q=config.block_q,
+    block_k=config.block_k,
+    block_q_major_dkv=config.block_q_major_dkv,
+    block_k_major_dkv=config.block_k_major_dkv,
+    block_k_major_dq=config.block_k_major_dq,
+    block_k_dkv=config.block_k_dkv,
+    block_q_dkv=config.block_q_dkv,
+    block_q_dq=config.block_q_dq,
+    block_k_dq=config.block_k_dq,
+    num_attention_heads=NUM_ATTN_HEADS,
+    attention_dropout=0.0,
+    head_dims=HEAD_DIM,
+    attention_partition_spec=config.attention_partition_spec,
+    shard_attention_computation=config.shard_attention_computation,
+    precision=lax.Precision(&quot;fastest&quot;),
+    force_float32_tpu=True,
+    attn_mechanism=&quot;flash&quot;,
+    dtype=jnp.float32,
+    bias_partition_spec=config.bias_partition_spec,
+    key_partition_spec=config.key_partition_spec,
+    query_partition_spec=config.query_partition_spec,
+    generation_query_partition_spec=config.generation_query_partition_spec,
+    generation_bias_partition_spec=config.generation_bias_partition_spec,
+    value_partition_spec=config.value_partition_spec,
+    scan_ring_attention=config.scan_ring_attention,
+    mesh=config.jax_mesh(),
+    sm_scale=1 / math.sqrt(q.shape[-1]),
+)
+
+normal_attention = AttentionModule(
+
+    block_k_major=config.block_k_major,
+    block_b=config.block_b,
+    block_q=config.block_q,
+    block_k=config.block_k,
+    block_q_major_dkv=config.block_q_major_dkv,
+    block_k_major_dkv=config.block_k_major_dkv,
+    block_k_major_dq=config.block_k_major_dq,
+    block_k_dkv=config.block_k_dkv,
+    block_q_dkv=config.block_q_dkv,
+    block_q_dq=config.block_q_dq,
+    block_k_dq=config.block_k_dq,
+    num_attention_heads=NUM_ATTN_HEADS,
+    attention_dropout=0.0,
+    head_dims=HEAD_DIM,
+    attention_partition_spec=config.attention_partition_spec,
+    shard_attention_computation=config.shard_attention_computation,
+    precision=lax.Precision(&quot;fastest&quot;),
+    force_float32_tpu=True,
+    attn_mechanism=&quot;normal&quot;,
+    dtype=jnp.float32,
+    bias_partition_spec=config.bias_partition_spec,
+    key_partition_spec=config.key_partition_spec,
+    query_partition_spec=config.query_partition_spec,
+    generation_query_partition_spec=config.generation_query_partition_spec,
+    generation_bias_partition_spec=config.generation_bias_partition_spec,
+    value_partition_spec=config.value_partition_spec,
+    scan_ring_attention=config.scan_ring_attention,
+    mesh=config.jax_mesh(),
+    sm_scale=1 / math.sqrt(q.shape[-1]),
+)
+
+with config.jax_mesh():
+    flash_attn_out = flash_attention(
+        query_states=q,
+        key_states=k,
+        value_states=v,
+        bias=attention_bias,
+        key_value_sequence_length=CONTEXT_LENGTH,
+        query_sequence_length=CONTEXT_LENGTH
+    )
+    normal_attn_out = normal_attention(
+        query_states=q,
+        key_states=k,
+        value_states=v,
+        bias=attention_bias,
+        key_value_sequence_length=CONTEXT_LENGTH,
+        query_sequence_length=CONTEXT_LENGTH
+    )
+
+print(
+    flash_attn_out.attention_outputs[0, CONTEXT_LENGTH - 5, NUM_ATTN_HEADS - 1, HEAD_DIM - 10:]
+)
+# Array([-0.05915311,  0.0078501 ,  0.03785717,  0.0134844 ,  0.08464689,
+#        0.06667967, -0.02629154, -0.0180066 , -0.02972782,  0.02833381],      dtype=float32)
+print(
+    normal_attn_out.attention_outputs[0, CONTEXT_LENGTH - 5, NUM_ATTN_HEADS - 1, HEAD_DIM - 10:]
+)
+
+# Array([-0.0590958 ,  0.00796138,  0.03789062,  0.01350671,  0.08461153,
+#        0.06662725, -0.0262386 , -0.01806086, -0.0296791 ,  0.02824247],      dtype=float32)
+</code></pre>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/EasyStateExample/index.html b/EasyStateExample/index.html
new file mode 100644
index 000000000..a460654c1
--- /dev/null
+++ b/EasyStateExample/index.html
@@ -0,0 +1,6169 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../DataProcessing/">
+      
+      
+        <link rel="next" href="../Falcon/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>EasyState - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#easydelstate" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              EasyState
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#easydelstate" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLState
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="EasyDeLState">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#fine-tuning" class="md-nav__link">
+    <span class="md-ellipsis">
+      Fine-tuning
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#converting-to-huggingface-and-pytorch" class="md-nav__link">
+    <span class="md-ellipsis">
+      Converting to Huggingface and Pytorch
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#other-use-cases" class="md-nav__link">
+    <span class="md-ellipsis">
+      Other Use Cases
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#easydelstate" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLState
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="EasyDeLState">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#fine-tuning" class="md-nav__link">
+    <span class="md-ellipsis">
+      Fine-tuning
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#converting-to-huggingface-and-pytorch" class="md-nav__link">
+    <span class="md-ellipsis">
+      Converting to Huggingface and Pytorch
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#other-use-cases" class="md-nav__link">
+    <span class="md-ellipsis">
+      Other Use Cases
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+  <h1>EasyState</h1>
+
+<h2 id="easydelstate">EasyDeLState</h2>
+<p>EasyDeLState is a cool feature in easydel and have a lot of options like
+storing <code>Model Parameters</code>, <em>Optimizer State, Model Config, Model Type, Optimizer and Scheduler Configs</em></p>
+<p>Let see and examples of using EasyDeLState</p>
+<h3 id="fine-tuning">Fine-tuning</h3>
+<p>Fine-tuning from a previous State or a new state</p>
+<pre><code class="language-python">from easydel import (
+    AutoEasyDeLConfig,
+    EasyDeLState
+)
+from transformers import AutoTokenizer
+from jax import numpy as jnp, lax
+import jax
+
+huggingface_model_repo_id = &quot;REPO_ID&quot;
+checkpoint_name = &quot;CKPT_NAME&quot;
+
+state = EasyDeLState.from_pretrained(
+    pretrained_model_name_or_path=huggingface_model_repo_id,
+    filename=checkpoint_name,
+    optimizer=&quot;adamw&quot;,
+    scheduler=&quot;none&quot;,
+    tx_init=None,
+    device=jax.devices('cpu')[0],  # Offload Device
+    dtype=jnp.bfloat16,
+    param_dtype=jnp.bfloat16,
+    precision=lax.Precision(&quot;fastest&quot;),
+    sharding_axis_dims=(1, -1, 1, 1),
+    sharding_axis_names=(&quot;dp&quot;, &quot;fsdp&quot;, &quot;tp&quot;, &quot;sp&quot;),
+    query_partition_spec=jax.sharding.PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None),
+    key_partition_spec=jax.sharding.PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None),
+    value_partition_spec=jax.sharding.PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None),
+    bias_partition_spec=jax.sharding.PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), None, None, None),
+    attention_partition_spec=jax.sharding.PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None),
+    shard_attention_computation=False,
+    input_shape=(1, 1),
+    backend=None,
+    init_optimizer_state=False,
+    free_optimizer_state=True,
+    verbose=True,
+    state_shard_fns=None,
+)
+
+config = AutoEasyDeLConfig.from_pretrained(
+    huggingface_model_repo_id
+)
+
+tokenizer = AutoTokenizer.from_pretrained(
+    huggingface_model_repo_id,
+    trust_remote_code=True
+)
+
+max_length = config.max_position_embeddings
+
+configs_to_initialize_model_class = {
+    'config': config,
+    'dtype': jnp.bfloat16,
+    'param_dtype': jnp.bfloat16,
+    'input_shape': (8, 8)
+}
+</code></pre>
+<p><code>EasyDeLState</code> also has <code>.load_state()</code> and <code>.save_state()</code> with some other usable options like <code>.free_opt_state()</code>
+which
+free optimizer state or <code>.shard_params()</code> which shard parameters you can read docs in order to find out more about these
+options.</p>
+<h3 id="converting-to-huggingface-and-pytorch">Converting to Huggingface and Pytorch</h3>
+<p>Let see how you can convert a EasyDeLMistral Model to Huggingface Pytorch Mistral Model from a trained State</p>
+<pre><code class="language-python">
+from transformers import MistralForCausalLM
+from easydel import (
+    AutoEasyDeLConfig,
+    EasyDeLState,
+    easystate_to_huggingface_model
+)
+import jax
+
+huggingface_model_repo_id = &quot;REPO_ID&quot;
+
+config = AutoEasyDeLConfig.from_pretrained(
+    huggingface_model_repo_id
+)
+with jax.default_device(jax.devices(&quot;cpu&quot;)[0]):
+    model = easystate_to_huggingface_model(
+        state=EasyDeLState.load_state(
+            &quot;PATH_TO_CKPT&quot;,
+            input_shape=(8, 2048)
+        ),  # You can Pass EasyDeLState here
+        base_huggingface_module=MistralForCausalLM,
+        config=config,
+    )
+
+model = model.half()  # it's a huggingface model now
+</code></pre>
+<h3 id="other-use-cases">Other Use Cases</h3>
+<p><code>EasyDeLState</code> have a general use you can use it everywhere in easydel for example for a stand-alone model
+, serve, fine-tuning and many other features, it's up to you to test how creative you are 😇.</p>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/Falcon/index.html b/Falcon/index.html
new file mode 100644
index 000000000..eb04cb5a9
--- /dev/null
+++ b/Falcon/index.html
@@ -0,0 +1,6131 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../EasyStateExample/">
+      
+      
+        <link rel="next" href="../FineTuningExample/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Falcon Models - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#about-falcon-models" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Falcon Models
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#how-to-useload-them-in-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      How to Use/Load Them in EasyDeL
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="How to Use/Load Them in EasyDeL">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#use-with-jaxserver" class="md-nav__link">
+    <span class="md-ellipsis">
+      Use With JaxServer
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#how-to-useload-them-in-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      How to Use/Load Them in EasyDeL
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="How to Use/Load Them in EasyDeL">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#use-with-jaxserver" class="md-nav__link">
+    <span class="md-ellipsis">
+      Use With JaxServer
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="about-falcon-models">About Falcon Models</h1>
+<p>Sure, here is a document about Falcon Models:</p>
+<p><strong>Falcon Models</strong></p>
+<p>Falcon Models is a family of large language models (LLMs) developed by the Technology Innovation Institute (TII) in Abu
+Dhabi. The models are trained on a massive dataset of text and code, and can be used for a variety of tasks, including</p>
+<ul>
+<li>Natural language understanding (NLU)</li>
+<li>Natural language generation (NLG)</li>
+<li>Machine translation</li>
+<li>Text summarization</li>
+<li>Question answering</li>
+<li>Code generation</li>
+</ul>
+<p>The Falcon models are available under the Apache 2.0 license, which means that they can be freely used, modified, and
+redistributed.</p>
+<p><strong>Falcon-40B</strong></p>
+<p>The Falcon-40B is the largest model in the Falcon family. It has 40 billion parameters, and is trained on a dataset of
+500 billion words. The model is capable of state-of-the-art performance on a variety of NLP tasks.</p>
+<p><strong>Falcon-7B</strong></p>
+<p>The Falcon-7B is a smaller version of the Falcon-40B. It has 7 billion parameters, and is trained on a dataset of 100
+billion words. The model is still capable of achieving strong performance on NLP tasks, but it is more efficient to
+train and deploy.</p>
+<p><strong>Falcon-180B</strong></p>
+<p>The Falcon-180B is the newest model in the Falcon family. It has 180 billion parameters, and is trained on a dataset of
+2 trillion words. The model is the largest openly available LLM, and it is capable of achieving state-of-the-art
+performance on a variety of NLP tasks.</p>
+<p><strong>Use Cases</strong></p>
+<p>The Falcon models can be used for a variety of tasks, including:</p>
+<ul>
+<li>Natural language understanding (NLU): The Falcon models can be used to understand the meaning of text, such as
+  identifying the entities and relationships in a sentence.</li>
+<li>Natural language generation (NLG): The Falcon models can be used to generate text, such as writing different kinds of
+  creative content, like poems, code, scripts, musical pieces, email, letters, etc.</li>
+<li>Machine translation: The Falcon models can be used to translate text from one language to another.</li>
+<li>Text summarization: The Falcon models can be used to summarize a text document into a shorter, more concise version.</li>
+<li>Question answering: The Falcon models can be used to answer questions about a text document.</li>
+<li>Code generation: The Falcon models can be used to generate code, such as Python scripts or Java classes.</li>
+</ul>
+<p><strong>Availability</strong></p>
+<p>The Falcon models are available through the Hugging Face Hub. The models are also available in the TensorFlow Hub and
+the PyTorch Hub ( and EasyDeL).</p>
+<p><strong>Conclusion</strong></p>
+<p>The Falcon models are a powerful family of LLMs that can be used for a variety of tasks. The models are open source and
+available for free, making them a valuable resource for researchers and developers.</p>
+<h2 id="how-to-useload-them-in-easydel">How to Use/Load Them in EasyDeL</h2>
+<pre><code class="language-python">import jax
+from easydel import AutoEasyDeLModelForCausalLM
+
+model, params = AutoEasyDeLModelForCausalLM.from_pretrained(
+    'tiiuae/falcon-7b',
+    # other kwargs
+)
+</code></pre>
+<p>also keep that in mind that returned <code>config</code> includes <code>.get_partition_rules(fsdp=True)</code></p>
+<h4 id="use-with-jaxserver">Use With JaxServer</h4>
+<pre><code class="language-python">from easydel.serve import JAXServer, JAXServerConfig
+from easydel import AutoEasyDeLModelForCausalLM
+from transformers import AutoTokenizer
+
+model, params = AutoEasyDeLModelForCausalLM.from_pretrained(
+    'tiiuae/falcon-7b',
+    # other kwargs
+)
+
+
+class FalconJaxServer(JAXServer):
+    ...
+    # You have to Custom this one yourself as you 
+    # need read JaxServer Documents inorder to learn how
+
+
+server = FalconJaxServer.from_parameters(
+    params=params,
+    model=model,
+    config_model=model.config,
+    add_params_field=True,
+    tokenizer=AutoTokenizer.from_pretrained('tiiuae/falcon-7b'),
+    verbose=False,
+    do_memory_log=True,
+    server_config=JAXServerConfig()
+)
+
+server.fire()  # Launch FastAPI functions
+
+shared_urls = server.launch(
+    share_chat=True,
+    share_inst=True
+)
+</code></pre>
+<p>Done 😇 this method can be used for all the Falcon models</p>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/FineTuningExample/index.html b/FineTuningExample/index.html
new file mode 100644
index 000000000..15c1b746e
--- /dev/null
+++ b/FineTuningExample/index.html
@@ -0,0 +1,6125 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../Falcon/">
+      
+      
+        <link rel="next" href="../JAXServer/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Fine Tuning Example - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#finetuning-causal-language-model" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Fine Tuning Example
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#finetuning-causal-language-model" class="md-nav__link">
+    <span class="md-ellipsis">
+      FineTuning Causal Language Model 🥵
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#finetuning-causal-language-model" class="md-nav__link">
+    <span class="md-ellipsis">
+      FineTuning Causal Language Model 🥵
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+  <h1>Fine Tuning Example</h1>
+
+<h2 id="finetuning-causal-language-model">FineTuning Causal Language Model 🥵</h2>
+<p>with using EasyDeL FineTuning LLM (CausalLanguageModels) are easy as much as possible with using Jax and Flax
+and having the benefit of <code>TPUs</code> for the best speed here's a simple code to use in order to finetune your
+own Model</p>
+<p><em>Days Has Been Passed and now using easydel in Jax is way more similar to HF/PyTorch Style
+now it's time to finetune our model</em>.</p>
+<pre><code class="language-python">import jax.numpy
+from easydel import (
+    TrainArguments,
+    CausalLanguageModelTrainer,
+    AutoEasyDeLModelForCausalLM,
+    EasyDeLOptimizers,
+    EasyDeLSchedulers,
+    EasyDeLGradientCheckPointers
+)
+from datasets import load_dataset
+import flax
+from jax import numpy as jnp
+from transformers import AutoTokenizer
+
+huggingface_repo_id_or_path = &quot;TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T&quot;
+
+model, params = AutoEasyDeLModelForCausalLM.from_pretrained(huggingface_repo_id_or_path, )
+
+max_length = 2048
+tokenizer = AutoTokenizer.from_pretrained(
+    huggingface_repo_id_or_path,
+    trust_remote_code=True
+)
+tokenizer.pad_token = tokenizer.eos_token
+
+model.config.add_basic_configurations(
+    attn_mechanism=&quot;flash&quot;,  # Change to 'normal' if the model you are using
+    # don't support flash attention, or you don't want to apply flash attention for the model
+    block_b=1,
+    block_q=1024,
+    block_k=1024,
+    block_k_major=1024,
+)
+
+configs_to_initialize_model_class = {
+    &quot;config&quot;: model.config,
+    &quot;dtype&quot;: jnp.bfloat16,
+    &quot;param_dtype&quot;: jnp.bfloat16,
+    &quot;input_shape&quot;: (1, 1)
+}
+
+train_arguments = TrainArguments(
+    model_class=type(model),
+    model_name=&quot;my_first_model_to_train_using_easydel&quot;,
+    num_train_epochs=3,
+    configs_to_initialize_model_class=configs_to_initialize_model_class,
+    learning_rate=5e-5,
+    learning_rate_end=1e-6,
+    optimizer=EasyDeLOptimizers.ADAMW,  # &quot;adamw&quot;, &quot;lion&quot;, &quot;adafactor&quot; are supported
+    scheduler=EasyDeLSchedulers.LINEAR,
+    # &quot;linear&quot;,&quot;cosine&quot;, &quot;none&quot; ,&quot;warm_up_cosine&quot; and &quot;warm_up_linear&quot;  are supported
+    weight_decay=0.01,
+    total_batch_size=64,
+    max_training_steps=None,  # None to let trainer Decide
+    do_train=True,
+    do_eval=False,  # it's optional but supported 
+    backend=&quot;tpu&quot;,  # default backed is set to cpu, so you must define you want to use tpu cpu or gpu
+    max_length=max_length,  # Note that you have to change this in the model config too
+    gradient_checkpointing=EasyDeLGradientCheckPointers.NOTHING_SAVEABLE,
+    sharding_array=(1, -1, 1, 1),  # the way to shard model across gpu,cpu or TPUs using sharding array (1, -1, 1, 1)
+    # everything training will be in fully FSDP automatic and share data between devices
+    remove_ckpt_after_load=True,
+    gradient_accumulation_steps=8,
+    loss_re_mat=&quot;&quot;,
+    dtype=jnp.bfloat16
+)
+
+
+def ultra_chat_prompting_process(
+        data_chunk
+):
+    user_part = [
+        chunk[&quot;content&quot;] for chunk in data_chunk[&quot;messages&quot;] if chunk[&quot;role&quot;] == &quot;user&quot;
+    ]
+    assistant_part = [
+        chunk[&quot;content&quot;] for chunk in data_chunk[&quot;messages&quot;] if chunk[&quot;role&quot;] == &quot;assistant&quot;
+    ]
+
+    prompt = &quot;&quot;
+
+    for uc, ac in zip(user_part, assistant_part):
+        prompt += f&quot;&lt;|user|&gt;\n{uc}&lt;/s&gt;\n&lt;|assistant|&gt;\n{ac}&lt;/s&gt;\n&quot;
+
+    return {&quot;prompt&quot;: prompt}
+
+
+tokenization_process = lambda data_chunk: tokenizer(
+    data_chunk[&quot;prompt&quot;],
+    add_special_tokens=False,
+    max_length=max_length,
+    padding=&quot;max_length&quot;
+)
+
+dataset = load_dataset(&quot;HuggingFaceH4/ultrachat_200k&quot;)
+dataset_train = dataset[&quot;train_gen&quot;].map(ultra_chat_prompting_process, num_proc=12)
+dataset_train = dataset_train.map(
+    tokenization_process,
+    num_proc=12,
+    remove_columns=dataset_train.column_names
+)
+
+# you can do the same for evaluation process dataset
+
+trainer = CausalLanguageModelTrainer(
+    train_arguments,
+    dataset_train,
+    checkpoint_path=None
+)
+
+output = trainer.train(flax.core.FrozenDict({&quot;params&quot;: params}))
+print(f&quot;Hey ! , here's where your model saved {output.checkpoint_path}&quot;)
+</code></pre>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/Install/index.html b/Install/index.html
new file mode 100644
index 000000000..bd7307c3c
--- /dev/null
+++ b/Install/index.html
@@ -0,0 +1,6219 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="..">
+      
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Install - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#installing-easydel" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Install
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#installing-jax" class="md-nav__link">
+    <span class="md-ellipsis">
+      Installing Jax
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Installing Jax">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#tpu" class="md-nav__link">
+    <span class="md-ellipsis">
+      TPU
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#gpu" class="md-nav__link">
+    <span class="md-ellipsis">
+      GPU
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="GPU">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#cuda-12" class="md-nav__link">
+    <span class="md-ellipsis">
+      CUDA-12
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#cuda-11" class="md-nav__link">
+    <span class="md-ellipsis">
+      CUDA-11
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#installing-go" class="md-nav__link">
+    <span class="md-ellipsis">
+      Installing GO
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Installing GO">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#note-this-library-needs-golang-to-run-for-some-tracking-stuff-on-tpugpucpu" class="md-nav__link">
+    <span class="md-ellipsis">
+      Note this Library needs golang to run (for some tracking stuff on TPU/GPU/CPU)
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#ubuntu-go-installation" class="md-nav__link">
+    <span class="md-ellipsis">
+      Ubuntu GO installation
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#manjaroarch-go-installation" class="md-nav__link">
+    <span class="md-ellipsis">
+      Manjaro/Arch GO installation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#installing-jax" class="md-nav__link">
+    <span class="md-ellipsis">
+      Installing Jax
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Installing Jax">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#tpu" class="md-nav__link">
+    <span class="md-ellipsis">
+      TPU
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#gpu" class="md-nav__link">
+    <span class="md-ellipsis">
+      GPU
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="GPU">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#cuda-12" class="md-nav__link">
+    <span class="md-ellipsis">
+      CUDA-12
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#cuda-11" class="md-nav__link">
+    <span class="md-ellipsis">
+      CUDA-11
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#installing-go" class="md-nav__link">
+    <span class="md-ellipsis">
+      Installing GO
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Installing GO">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#note-this-library-needs-golang-to-run-for-some-tracking-stuff-on-tpugpucpu" class="md-nav__link">
+    <span class="md-ellipsis">
+      Note this Library needs golang to run (for some tracking stuff on TPU/GPU/CPU)
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#ubuntu-go-installation" class="md-nav__link">
+    <span class="md-ellipsis">
+      Ubuntu GO installation
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#manjaroarch-go-installation" class="md-nav__link">
+    <span class="md-ellipsis">
+      Manjaro/Arch GO installation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="installing-easydel">Installing EasyDeL</h1>
+<p>EasyDeL uses FJFormer and JAX as main dependencies in order to run the scripts but there are some things that needs to be installed such as GO-lang to JAX specific platform installations, but you can simply install EasyDeL via pip:</p>
+<pre><code>pip install easydel
+</code></pre>
+<h2 id="installing-jax">Installing Jax</h2>
+<p>JAX uses XLA to compile and run your NumPy programs on GPUs and TPUs. Compilation happens under the hood by default, with library calls getting just-in-time compiled and executed. But JAX also lets you just-in-time compile your own Python functions into XLA-optimized kernels using a one-function API, jit.</p>
+<p>you can install other version too but easydel required at least version of 0.4.16</p>
+<h3 id="tpu">TPU</h3>
+<pre><code class="language-shell">!pip install jax[tpu] -f https://storage.googleapis.com/jax-releases/libtpu_releases.html -q
+</code></pre>
+<h3 id="gpu">GPU</h3>
+<h4 id="cuda-12">CUDA-12</h4>
+<pre><code class="language-shell">pip install --upgrade pip
+# CUDA 12 installation
+# Note: wheels only available on linux.
+pip install --upgrade &quot;jax[cuda12_pip]&quot; -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
+</code></pre>
+<h4 id="cuda-11">CUDA-11</h4>
+<pre><code class="language-shell">pip install --upgrade pip
+# CUDA 11 installation
+# Note: wheels only available on linux.
+pip install --upgrade &quot;jax[cuda11_pip]&quot; -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
+</code></pre>
+<h2 id="installing-go">Installing GO</h2>
+<h4 id="note-this-library-needs-golang-to-run-for-some-tracking-stuff-on-tpugpucpu">Note this Library needs golang to run (for some tracking stuff on TPU/GPU/CPU)</h4>
+<h4 id="ubuntu-go-installation">Ubuntu GO installation</h4>
+<pre><code class="language-shell">sudo apt-get update &amp;&amp; apt-get upgrade -y
+sudo apt-get install golang -y 
+</code></pre>
+<h4 id="manjaroarch-go-installation">Manjaro/Arch GO installation</h4>
+<pre><code class="language-shell">sudo pacman -Syyuu go
+</code></pre>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/JAXServer/index.html b/JAXServer/index.html
new file mode 100644
index 000000000..60996db1b
--- /dev/null
+++ b/JAXServer/index.html
@@ -0,0 +1,6518 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../FineTuningExample/">
+      
+      
+        <link rel="next" href="../Llama/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>JAXServer - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#jaxserver" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              JAXServer
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#jaxserver" class="md-nav__link">
+    <span class="md-ellipsis">
+      JAXServer 🧬
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="JAXServer 🧬">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#input-configs" class="md-nav__link">
+    <span class="md-ellipsis">
+      Input Configs
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#jaxserver-functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      JAXServer Functions
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="JAXServer Functions">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#gradio-functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      Gradio Functions 🤖
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Gradio Functions 🤖">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#chat-gradio-function" class="md-nav__link">
+    <span class="md-ellipsis">
+      Chat Gradio Function
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#fastapi" class="md-nav__link">
+    <span class="md-ellipsis">
+      FastAPI 🌪
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FastAPI 🌪">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#instruct-api" class="md-nav__link">
+    <span class="md-ellipsis">
+      Instruct API
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#chat-api" class="md-nav__link">
+    <span class="md-ellipsis">
+      Chat API
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#status" class="md-nav__link">
+    <span class="md-ellipsis">
+      Status 📣
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#jaxserver" class="md-nav__link">
+    <span class="md-ellipsis">
+      JAXServer 🧬
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="JAXServer 🧬">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#input-configs" class="md-nav__link">
+    <span class="md-ellipsis">
+      Input Configs
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#jaxserver-functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      JAXServer Functions
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="JAXServer Functions">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#gradio-functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      Gradio Functions 🤖
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Gradio Functions 🤖">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#chat-gradio-function" class="md-nav__link">
+    <span class="md-ellipsis">
+      Chat Gradio Function
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#fastapi" class="md-nav__link">
+    <span class="md-ellipsis">
+      FastAPI 🌪
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FastAPI 🌪">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#instruct-api" class="md-nav__link">
+    <span class="md-ellipsis">
+      Instruct API
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#chat-api" class="md-nav__link">
+    <span class="md-ellipsis">
+      Chat API
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#status" class="md-nav__link">
+    <span class="md-ellipsis">
+      Status 📣
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+  <h1>JAXServer</h1>
+
+<h2 id="jaxserver">JAXServer 🧬</h2>
+<p><code>JAXServer</code> is one of offered utilities by EasyDeL, and it's help hosting using and doing process with LLMs
+and its also hackable, so you can override your own method in it and use it support both mid-level and high-level apis
+and also give you a Gradio Chat and Instruct Pre-build and ready to use page</p>
+<ul>
+<li>Supported Models are:<ul>
+<li>EveryModel that have <code>transformers.FlaxPretrainedModel</code> as their Parent :)</li>
+</ul>
+</li>
+</ul>
+<h3 id="input-configs">Input Configs</h3>
+<p>The config input is a dictionary that contains the following keys:</p>
+<ul>
+<li><code>port</code>: The port number that the server will listen on.<ul>
+<li><em>Default Value has been set to  <code>2059</code></em></li>
+</ul>
+</li>
+<li><code>batch_size</code>: The batch size for training.<ul>
+<li><em>Default Value has been set to  <code>1</code></em></li>
+</ul>
+</li>
+<li><code>max_sequence_length</code>: The maximum length of a sequence.<ul>
+<li><em>Default Value has been set to  <code>2048</code></em></li>
+</ul>
+</li>
+<li><code>max_new_tokens</code>: The maximum number of new tokens generated by the model in a single step.<ul>
+<li><em>Default Value has been set to  <code>2048</code></em></li>
+</ul>
+</li>
+<li><code>max_compile_tokens</code>: The maximum number of tokens that can be streamed to the model in a single batch.<ul>
+<li><em>Default Value has been set to  <code>32</code></em></li>
+</ul>
+</li>
+<li><code>temperature</code>: The temperature parameter for sampling from the model's output distribution.<ul>
+<li><em>Default Value has been set to  <code>0.1</code></em></li>
+</ul>
+</li>
+<li><code>top_p</code>: The top-p parameter for sampling from the model's output distribution.<ul>
+<li><em>Default Value has been set to  <code>0.95</code></em></li>
+</ul>
+</li>
+<li><code>top_k</code>: The top-k parameter for sampling from the model's output distribution.<ul>
+<li><em>Default Value has been set to  <code>50</code></em></li>
+</ul>
+</li>
+<li><code>mesh_axes_shape</code>: The shape of the mesh axes for distributed training.<ul>
+<li><em>Default Value has been set to  <code>(1, -1, 1, 1)</code></em></li>
+</ul>
+</li>
+<li><code>host</code>: The host address for the server.<ul>
+<li><em>Default Value has been set to  <code>'0.0.0.0'</code></em></li>
+</ul>
+</li>
+<li><code>dtype</code>: The data type for the model's parameters.<ul>
+<li><em>Default Value has been set to  <code>'fp16'</code></em></li>
+</ul>
+</li>
+<li><code>mesh_axes_names</code>: The names of the mesh axes for distributed training.<ul>
+<li><em>Default Value has been set to  <code>("dp", "fsdp", "tp", "sp")</code></em></li>
+</ul>
+</li>
+<li><code>logging</code>: Whether the model should log its training progress.:<ul>
+<li><em>Default Value has been set to  <code>True</code></em></li>
+</ul>
+</li>
+<li><code>stream_tokens_for_gradio</code>: Whether the model should stream tokens to Gradio.<ul>
+<li><em>Default Value has been set to  <code>True</code></em></li>
+</ul>
+</li>
+<li><code>use_prefix_tokenizer</code>: Whether the model should use a prefix tokenizer.<ul>
+<li><em>Default Value has been set to  <code>True</code></em></li>
+</ul>
+</li>
+<li><code>pre_compile</code>: Whether the model should be pre-compiled.<ul>
+<li><em>Default Value has been set to  <code>True</code></em></li>
+</ul>
+</li>
+</ul>
+<h2 id="jaxserver-functions">JAXServer Functions</h2>
+<p><code>JAXServer</code> has <code>format_chat</code> and <code>format_instruct</code> funcs that you have to implement them to prompt your model</p>
+<pre><code class="language-python">
+def format_instruct(self, system: str, instruction: str) -&gt; str:
+    &quot;&quot;&quot;
+    Here you will get the system and instruction from user, and you can apply your prompting style
+    &quot;&quot;&quot;
+    raise NotImplementedError()
+
+
+def format_chat(self, history: typing.List[str], prompt: str, system: typing.Union[str, None]) -&gt; str:
+    &quot;&quot;&quot;
+    Here you will get the system, prompt and history from user, and you can apply your prompting style
+    &quot;&quot;&quot;
+    raise NotImplementedError()
+</code></pre>
+<p><code>JAXServer</code> Contains a method named <code>.sample</code> and with using <code>sample</code> method you can generate text from text</p>
+<p>what does this do and how this works ? here's the inputs that <code>sample</code> function takes in</p>
+<pre><code class="language-python">def sample(self,
+           string,
+           *,
+           greedy: bool = False,
+           max_new_tokens: int = None,
+           **kwargs
+           ) -&gt; [str, int]:
+    ...
+</code></pre>
+<ul>
+<li><em>Arguments</em>:<ul>
+<li>string : String to be tokenized <code>(String)</code></li>
+<li>Greedy : Use Greedy Search Method or NO <code>(Bool)</code></li>
+<li>Max New Tokens : Number Of new Tokens to be Generated <code>(Int)</code></li>
+</ul>
+</li>
+<li><em>Yields</em>:<ul>
+<li>String : Next Tokens Predicted to String <code>(String)</code></li>
+<li>Number of Used Tokens : Number of Used Tokens to generate answer <code>(Int)</code></li>
+</ul>
+</li>
+</ul>
+<p>you can use this function outside the class like this</p>
+<pre><code class="language-python">for string, num_used_tokens in server.sample(
+        'im a string',
+        greedy=False,
+        max_new_tokens=256  # or None to use Maximum numbers passed in Config
+):
+    print(f'\r{num_used_tokens}: {string}', end=&quot;&quot;)
+</code></pre>
+<h3 id="gradio-functions">Gradio Functions 🤖</h3>
+<p>if you want to change gradio response functions you can override them like this</p>
+<h4 id="chat-gradio-function">Chat Gradio Function</h4>
+<p>this is the default gradio functions and this is how it looks :</p>
+<pre><code class="language-python">def sample_gradio_chat(self, prompt, history, max_new_tokens, system, greedy):
+    string = self.chat_format(history=history, prompt=prompt, system=system)
+
+    if not self.config.stream_tokens_for_gradio:
+        response = &quot;&quot;
+        for response, _ in self.sample(
+                string=string,
+                greedy=greedy,
+                max_new_tokens=max_new_tokens,
+        ):
+            ...
+        history.append([prompt, response])
+    else:
+        history.append([prompt, &quot;&quot;])
+        for response, _ in self.sample(
+                string=string,
+                greedy=greedy,
+                max_new_tokens=max_new_tokens,
+        ):
+            history[-1][-1] = response
+            yield &quot;&quot;, history
+    return &quot;&quot;, history
+</code></pre>
+<p>and here's a example of changing that in order to use Llama Models</p>
+<pre><code class="language-python">def sample_gradio_chat(self, prompt, history, max_new_tokens, system, greedy):
+    def prompt_llama2_model(message: str, chat_history,
+                            system_prompt: str) -&gt; str:
+
+        do_strip = False
+        texts = [f'&lt;s&gt;[INST] &lt;&lt;SYS&gt;&gt;\n{system_prompt}\n&lt;&lt;/SYS&gt;&gt;\n\n']
+        for user_input, response in chat_history:
+            user_input = user_input.strip() if do_strip else user_input
+            do_strip = True
+            texts.append(f'{user_input} [/INST] {response.strip()} &lt;/s&gt;&lt;s&gt;[INST] ')
+        message = message.strip() if do_strip else message
+        texts.append(f'{message} [/INST]')
+        return &quot;&quot;.join(texts)
+
+    string = prompt_llama2_model(
+        message=prompt,
+        chat_history=history or [],
+        system_prompt=system
+    )
+    if not self.config.stream_tokens_for_gradio:
+        response = &quot;&quot;
+        for response, _ in self.sample(
+                string=string,
+                greedy=greedy,
+                max_new_tokens=max_new_tokens,
+        ):
+            ...
+        history.append([prompt, response])
+    else:
+        history.append([prompt, &quot;&quot;])
+        for response, _ in self.sample(
+                string=string,
+                greedy=greedy,
+                max_new_tokens=max_new_tokens
+        ):
+            history[-1][-1] = response
+            yield &quot;&quot;, history
+
+    return &quot;&quot;, history
+
+</code></pre>
+<p>as you see you can easily override the functions just like how you want and use them with some simple changes,
+and you can Also Use Their <code>Gradio Client</code> or use <code>JAXServer</code> <code>FastAPI</code> builtin methods</p>
+<h3 id="fastapi">FastAPI 🌪</h3>
+<h4 id="instruct-api">Instruct API</h4>
+<p>to Override this api you have to code <code>forward_instruct</code> just like what you want the default implementation of this
+function is</p>
+<pre><code class="language-python">def forward_instruct(self, data: InstructRequest):
+    if not self._funcs_generated:
+        return {
+            'status': &quot;down&quot;
+        }
+
+    string = self.config.instruct_format.format(instruct=data.prompt, system=data.system)
+    response, used_tokens = [None] * 2
+    for response, used_tokens in self.sample(
+            string=string,
+            greedy=data.greedy,
+            max_new_tokens=None
+    ):
+        ...
+    self.number_of_served_request_until_last_up_time += 1
+    return {
+        'input': f'{string}',
+        'response': response,
+        'tokens_used': used_tokens,
+    }
+</code></pre>
+<ul>
+<li>BaseModel Class For PYData in FastAPI :</li>
+</ul>
+<pre><code class="language-python">class InstructRequest(BaseModel):
+    prompt: str
+    system: Optional[str] = None
+    temperature: Optional[float] = None
+    greedy: Optional[bool] = False
+</code></pre>
+<ul>
+<li>And here's an example of using this api via python and creating a simple client with using <code>requests</code> library in
+  python :</li>
+</ul>
+<pre><code class="language-python">import requests
+
+content = {
+    'prompt': 'can you code a simple neural network in c++ for me',
+    'system': 'You are an AI assistant generate short and useful response',
+    'temperature': 0.1,
+    'greedy': False
+}
+
+response = requests.post(
+    url='http://ip:port/instruct',
+    json=content
+).json()
+
+print(response['response'])
+# Response of model
+print(response['input'])
+# The input passed to the model
+
+</code></pre>
+<h4 id="chat-api">Chat API</h4>
+<p>to Override this api you have to code <code>forward_chat</code> just like what you want the default implementation of this function
+is</p>
+<pre><code class="language-python">def forward_chat(self, data: ChatRequest):
+    if not self._funcs_generated:
+        return {
+            'status': &quot;down&quot;
+        }
+
+    history = self.process_chat_history(data.history or [])
+    history += self.config.prompt_prefix_chat + data.prompt + self.config.prompt_postfix_chat
+
+    response, used_tokens = [None] * 2
+    for response, used_tokens in self.process(
+            string=history,
+            greedy=data.greedy,
+            max_new_tokens=None
+    ):
+        ...
+    self.number_of_served_request_until_last_up_time += 1
+    return {
+        'input': f'{history}',
+        'response': response,
+        'tokens_used': used_tokens,
+    }
+</code></pre>
+<ul>
+<li>BaseModel Class For PYData in FastAPI :</li>
+</ul>
+<pre><code class="language-python">class ChatRequest(BaseModel):
+    prompt: str
+    history: Union[List[List], None] = None
+    temperature: Optional[float] = None
+    greedy: Optional[bool] = False
+</code></pre>
+<ul>
+<li>And here's an example of using this api via python and creating a simple client with using <code>requests</code> library in
+  python :</li>
+</ul>
+<pre><code class="language-python">import requests
+
+content = {
+    'prompt': 'can you code a simple neural network in c++ for me',
+    'history': [
+        ['hello how are you', 'Hello\nthanks, im here to assist you you have any question that i could help you with']
+    ],
+    'temperature': 0.1,
+    'greedy': False
+}
+
+response = requests.post(
+    url='http://ip:port/chat',
+    json=content
+).json()
+
+print(response['response'])
+# Response of model
+print(response['input'])
+# The input passed to the model
+
+</code></pre>
+<h4 id="status">Status 📣</h4>
+<p>Simply by sending a get API to <code>https://ip:port/status</code> you will receive base information about the server and
+how it being run, num cores in use, number of generated prompt , number of request and ...</p>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/Llama/index.html b/Llama/index.html
new file mode 100644
index 000000000..a26a3f4cd
--- /dev/null
+++ b/Llama/index.html
@@ -0,0 +1,6238 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../JAXServer/">
+      
+      
+        <link rel="next" href="../Llama2/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Llama Models - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#about-llama-models" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Llama Models
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#how-to-useload-them-in-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      How to Use/Load Them in EasyDeL
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="How to Use/Load Them in EasyDeL">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#use-with-jaxserver" class="md-nav__link">
+    <span class="md-ellipsis">
+      Use With JaxServer
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#how-to-useload-them-in-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      How to Use/Load Them in EasyDeL
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="How to Use/Load Them in EasyDeL">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#use-with-jaxserver" class="md-nav__link">
+    <span class="md-ellipsis">
+      Use With JaxServer
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="about-llama-models">About Llama Models</h1>
+<ul>
+<li><strong>Introduction</strong></li>
+</ul>
+<p>Llama models are a family of large language models (LLMs) developed by Meta AI. They are trained on a massive dataset of
+text and code, and they can be used for a variety of tasks, such as text generation, translation, summarization,
+question answering, code generation, and natural language inference.</p>
+<ul>
+<li><strong>Model Architecture</strong></li>
+</ul>
+<p>Llama models are based on the Transformer architecture, which is a neural network architecture that has been shown to be
+very effective for natural language processing tasks. The Transformer architecture uses self-attention to learn
+long-range dependencies between words in a sentence.</p>
+<ul>
+<li><strong>Training Data</strong></li>
+</ul>
+<p>Llama models are trained on a massive dataset of text and code. The text dataset includes text from a variety of
+sources, such as books, articles, and websites. The code dataset includes code from a variety of programming languages,
+such as Python, Java, and C++.</p>
+<ul>
+<li><strong>Fine-tuning</strong></li>
+</ul>
+<p>After being pre-trained on a massive dataset, Llama models can be fine-tuned for specific tasks. Fine-tuning involves
+training the model on a smaller dataset of data that is relevant to the specific task.</p>
+<ul>
+<li><strong>Applications</strong></li>
+</ul>
+<p>Llama models can be used for a variety of tasks, such as:</p>
+<pre><code>* Text generation: Llama models can be used to generate text, such as poems, code, scripts, and musical pieces.
+* Translation: Llama models can be used to translate text from one language to another.
+* Summarization: Llama models can be used to summarize text.
+* Question answering: Llama models can be used to answer questions about text.
+* Code generation: Llama models can be used to generate code.
+* Natural language inference: Llama models can be used to determine the relationship between two sentences.
+</code></pre>
+<ul>
+<li><strong>Availability</strong></li>
+</ul>
+<p>Llama models are available for free for research and commercial use. They can be downloaded from the Hugging Face Hub.</p>
+<ul>
+<li><strong>Limitations</strong></li>
+</ul>
+<p>Llama models are still under development, and they have some limitations. For example, they can sometimes generate
+incorrect or misleading text. They can also be biased, reflecting the biases that are present in the training data.</p>
+<ul>
+<li><strong>Future Work</strong></li>
+</ul>
+<p>Llama models are a promising new technology with the potential to be used for a variety of applications. Future work on
+Llama models will focus on improving their accuracy, reducing their bias, and making them more robust to errors.</p>
+<ul>
+<li>Text generation</li>
+<li>Translation</li>
+<li>Summarization</li>
+<li>Question answering</li>
+<li>Code generation</li>
+<li>Natural language inference</li>
+</ul>
+<p>Here is a table comparing the different sizes of Llama models:</p>
+<table>
+<thead>
+<tr>
+<th>Model</th>
+<th>Parameters</th>
+</tr>
+</thead>
+<tbody>
+<tr>
+<td>Llama 7B</td>
+<td>7 billion</td>
+</tr>
+<tr>
+<td>Llama 13B</td>
+<td>13 billion</td>
+</tr>
+<tr>
+<td>Llama 33B</td>
+<td>33 billion</td>
+</tr>
+<tr>
+<td>Llama 65B</td>
+<td>65 billion</td>
+</tr>
+<tr>
+<td>Llama 70B</td>
+<td>70 billion</td>
+</tr>
+</tbody>
+</table>
+<h2 id="how-to-useload-them-in-easydel">How to Use/Load Them in EasyDeL</h2>
+<pre><code class="language-python">from easydel import AutoEasyDeLModelForCausalLM
+
+model, params = AutoEasyDeLModelForCausalLM.from_pretrained(
+    'meta-llama/Llama-2-7b',
+    # other kwargs
+)
+</code></pre>
+<p>also keep that in mind that returned <code>config</code> includes <code>.get_partition_rules(fsdp=True)</code></p>
+<h4 id="use-with-jaxserver">Use With JaxServer</h4>
+<pre><code class="language-python">from easydel.serve import JAXServer, JAXServerConfig
+import jax
+from transformers import AutoTokenizer
+
+from easydel import AutoEasyDeLModelForCausalLM
+
+model, params = AutoEasyDeLModelForCausalLM.from_pretrained(
+    'meta-llama/Llama-2-7b',
+    # other kwargs
+)
+
+DEFAULT_SYSTEM_PROMPT = &quot;You are a helpful, respectful and honest assistant and act as wanted&quot;
+
+
+class Llama2JaxServer(JAXServer):
+    def sample_gradio_chat(self, prompt, history, max_new_tokens, system, greedy):
+
+        system = None if system == &quot;&quot; else system
+        string = self.prompt_llama2_model(
+            message=prompt,
+            chat_history=history or [],
+            system_prompt=system or DEFAULT_SYSTEM_PROMPT
+        )
+        if not self.server_config.stream_tokens_for_gradio:
+            response = &quot;&quot;
+            for response, _ in self.sample(
+                    string=string,
+                    greedy=greedy,
+                    max_new_tokens=max_new_tokens,
+            ):
+                ...
+            history.append([prompt, response])
+        else:
+            history.append([prompt, &quot;&quot;])
+            for response, _ in self.sample(
+                    string=string,
+                    greedy=greedy,
+                    max_new_tokens=max_new_tokens
+            ):
+                history[-1][-1] = response
+                yield &quot;&quot;, history
+
+        return &quot;&quot;, history
+
+    def sample_gradio_instruct(self, prompt, system, max_new_tokens, greedy):
+        string = self.prompt_llama2_model(system_prompt=DEFAULT_SYSTEM_PROMPT, message=prompt, chat_history=[])
+        if not self.server_config.stream_tokens_for_gradio:
+            response = &quot;&quot;
+            for response, _ in self.sample(
+                    string=string,
+                    greedy=greedy,
+                    max_new_tokens=max_new_tokens,
+            ):
+                pass
+        else:
+            response = &quot;&quot;
+            for response, _ in self.sample(
+                    string=string,
+                    greedy=greedy,
+                    max_new_tokens=max_new_tokens,
+                    stream=True
+            ):
+                yield &quot;&quot;, response
+        return &quot;&quot;, response
+
+    @staticmethod
+    def prompt_llama2_model(message: str, chat_history,
+                            system_prompt: str) -&gt; str:
+
+        do_strip = False
+        texts = [f'&lt;s&gt;[INST] &lt;&lt;SYS&gt;&gt;\n{system_prompt}\n&lt;&lt;/SYS&gt;&gt;\n\n']
+        for user_input, response in chat_history:
+            user_input = user_input.strip() if do_strip else user_input
+            do_strip = True
+            texts.append(f'{user_input} [/INST] {response.strip()} &lt;/s&gt;&lt;s&gt;[INST] ')
+        message = message.strip() if do_strip else message
+        texts.append(f'{message} [/INST]')
+        return &quot;&quot;.join(texts)
+
+
+server = Llama2JaxServer.from_parameters(
+    params=params,
+    model=model,
+    config_model=model.config,
+    add_params_field=True,
+    tokenizer=AutoTokenizer.from_pretrained('meta-llama/Llama-2-7b'),
+    verbose=False,
+    do_memory_log=True,
+    server_config=JAXServerConfig()
+)
+
+server.fire()  # Launch FastAPI functions
+
+shared_urls = server.launch(
+    share_chat=True,
+    share_inst=True
+)
+</code></pre>
+<p>Done 😇 this method can be used for all the llama models</p>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/Llama2/index.html b/Llama2/index.html
new file mode 100644
index 000000000..627da6a72
--- /dev/null
+++ b/Llama2/index.html
@@ -0,0 +1,6208 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../Llama/">
+      
+      
+        <link rel="next" href="../LoRA-TransferLearningExample/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Llama2 Models - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#about-llama2-models" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Llama2 Models
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#about-llama2-models" class="md-nav__link">
+    <span class="md-ellipsis">
+      About Llama2 Models
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#how-to-useload-them-in-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      How to Use/Load Them in EasyDeL
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="How to Use/Load Them in EasyDeL">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#use-with-jaxserver" class="md-nav__link">
+    <span class="md-ellipsis">
+      Use With JaxServer
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#about-llama2-models" class="md-nav__link">
+    <span class="md-ellipsis">
+      About Llama2 Models
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#how-to-useload-them-in-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      How to Use/Load Them in EasyDeL
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="How to Use/Load Them in EasyDeL">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#use-with-jaxserver" class="md-nav__link">
+    <span class="md-ellipsis">
+      Use With JaxServer
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+  <h1>Llama2 Models</h1>
+
+<h2 id="about-llama2-models">About Llama2 Models</h2>
+<p><strong>Llama2 Models</strong></p>
+<p>Llama2 Models is a family of pretrained and fine-tuned large language models (LLMs) developed by Meta AI. The models are
+trained on a massive dataset of text and code, and can be used for a variety of tasks, including</p>
+<ul>
+<li>Natural language understanding (NLU)</li>
+<li>Natural language generation (NLG)</li>
+<li>Machine translation</li>
+<li>Text summarization</li>
+<li>Question answering</li>
+<li>Code generation</li>
+</ul>
+<p>The Llama2 models are available under the Apache 2.0 license, which means that they can be freely used, modified, and
+redistributed.</p>
+<p><strong>Model Architecture</strong></p>
+<p>The Llama2 models are based on the Transformer architecture, which is a neural network architecture that has been shown
+to be very effective for NLP tasks. The models are trained using a technique called masked language modeling, which
+involves predicting the missing words in a sequence of text.</p>
+<p><strong>Model Sizes</strong></p>
+<p>The Llama2 models come in a variety of sizes, ranging from 7 billion to 70 billion parameters. The larger models have
+more capacity to learn complex patterns in language, but they are also more computationally expensive to train and
+deploy.</p>
+<p><strong>Fine-tuning</strong></p>
+<p>The Llama2 models are pretrained on a massive dataset of text and code, but they can be further fine-tuned on a specific
+task to improve their performance. Fine-tuning involves training the model on a dataset of labeled data for the specific
+task.</p>
+<p><strong>Use Cases</strong></p>
+<p>The Llama2 models can be used for a variety of tasks, including:</p>
+<ul>
+<li>Natural language understanding (NLU): The Llama2 models can be used to understand the meaning of text, such as
+  identifying the entities and relationships in a sentence.</li>
+<li>Natural language generation (NLG): The Llama2 models can be used to generate text, such as writing different kinds of
+  creative content, like poems, code, scripts, musical pieces, email, letters, etc.</li>
+<li>Machine translation: The Llama2 models can be used to translate text from one language to another.</li>
+<li>Text summarization: The Llama2 models can be used to summarize a text document into a shorter, more concise version.</li>
+<li>Question answering: The Llama2 models can be used to answer questions about a text document.</li>
+<li>Code generation: The Llama2 models can be used to generate code, such as Python scripts or Java classes.</li>
+</ul>
+<p><strong>Availability</strong></p>
+<p>The Llama2 models are available through the Hugging Face Hub. The models are also available in the TensorFlow Hub , the
+PyTorch Hub and EasyDeL.</p>
+<p><strong>Conclusion</strong></p>
+<p>The Llama2 models are a powerful family of LLMs that can be used for a variety of tasks. The models are open source and
+available for free, making them a valuable resource for researchers and developers.</p>
+<h2 id="how-to-useload-them-in-easydel">How to Use/Load Them in EasyDeL</h2>
+<pre><code class="language-python">from easydel import AutoEasyDeLModelForCausalLM
+
+model, params = AutoEasyDeLModelForCausalLM.from_pretrained(
+    'meta-llama/Llama-2-7b',
+    # other kwargs
+)
+</code></pre>
+<p>also keep that in mind that returned <code>config</code> includes <code>.get_partition_rules(fsdp=True)</code></p>
+<h4 id="use-with-jaxserver">Use With JaxServer</h4>
+<pre><code class="language-python">from easydel.serve import JAXServer, JAXServerConfig
+import jax
+from transformers import AutoTokenizer
+
+from easydel import AutoEasyDeLModelForCausalLM
+
+model, params = AutoEasyDeLModelForCausalLM.from_pretrained(
+    'meta-llama/Llama-2-7b',
+    # other kwargs
+)
+
+DEFAULT_SYSTEM_PROMPT = &quot;You are a helpful, respectful and honest assistant and act as wanted&quot;
+
+
+class Llama2JaxServer(JAXServer):
+    def sample_gradio_chat(self, prompt, history, max_new_tokens, system, greedy):
+
+        system = None if system == &quot;&quot; else system
+        string = self.prompt_llama2_model(
+            message=prompt,
+            chat_history=history or [],
+            system_prompt=system or DEFAULT_SYSTEM_PROMPT
+        )
+        if not self.server_config.stream_tokens_for_gradio:
+            response = &quot;&quot;
+            for response, _ in self.sample(
+                    string=string,
+                    greedy=greedy,
+                    max_new_tokens=max_new_tokens,
+            ):
+                ...
+            history.append([prompt, response])
+        else:
+            history.append([prompt, &quot;&quot;])
+            for response, _ in self.sample(
+                    string=string,
+                    greedy=greedy,
+                    max_new_tokens=max_new_tokens
+            ):
+                history[-1][-1] = response
+                yield &quot;&quot;, history
+
+        return &quot;&quot;, history
+
+    def sample_gradio_instruct(self, prompt, system, max_new_tokens, greedy):
+        string = self.prompt_llama2_model(system_prompt=DEFAULT_SYSTEM_PROMPT, message=prompt, chat_history=[])
+        if not self.server_config.stream_tokens_for_gradio:
+            response = &quot;&quot;
+            for response, _ in self.sample(
+                    string=string,
+                    greedy=greedy,
+                    max_new_tokens=max_new_tokens,
+            ):
+                pass
+        else:
+            response = &quot;&quot;
+            for response, _ in self.sample(
+                    string=string,
+                    greedy=greedy,
+                    max_new_tokens=max_new_tokens,
+                    stream=True
+            ):
+                yield &quot;&quot;, response
+        return &quot;&quot;, response
+
+    @staticmethod
+    def prompt_llama2_model(message: str, chat_history,
+                            system_prompt: str) -&gt; str:
+
+        do_strip = False
+        texts = [f'&lt;s&gt;[INST] &lt;&lt;SYS&gt;&gt;\n{system_prompt}\n&lt;&lt;/SYS&gt;&gt;\n\n']
+        for user_input, response in chat_history:
+            user_input = user_input.strip() if do_strip else user_input
+            do_strip = True
+            texts.append(f'{user_input} [/INST] {response.strip()} &lt;/s&gt;&lt;s&gt;[INST] ')
+        message = message.strip() if do_strip else message
+        texts.append(f'{message} [/INST]')
+        return &quot;&quot;.join(texts)
+
+
+server = Llama2JaxServer.from_parameters(
+    params=params,
+    model=model,
+    config_model=model.config,
+    add_params_field=True,
+    tokenizer=AutoTokenizer.from_pretrained('meta-llama/Llama-2-7b'),
+    verbose=False,
+    do_memory_log=True,
+    server_config=JAXServerConfig()
+)
+
+server.fire()  # Launch FastAPI functions
+
+shared_urls = server.launch(
+    share_chat=True,
+    share_inst=True
+)
+</code></pre>
+<p>Done 😇 this method can be used for all the llama2 models</p>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/LoRA-TransferLearningExample/index.html b/LoRA-TransferLearningExample/index.html
new file mode 100644
index 000000000..7cf6f4d81
--- /dev/null
+++ b/LoRA-TransferLearningExample/index.html
@@ -0,0 +1,6142 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../Llama2/">
+      
+      
+        <link rel="next" href="../Mistral/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>LoRA and Transfer Learning - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#easydelxrapture-for-layer-tuning-and-lora" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              LoRA and Transfer Learning
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#easydelxrapture-for-layer-tuning-and-lora" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLXRapTure for layer tuning and LoRA
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#easydelxrapture-for-layer-tuning-and-lora" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLXRapTure for layer tuning and LoRA
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+  <h1>LoRA and Transfer Learning</h1>
+
+<h2 id="easydelxrapture-for-layer-tuning-and-lora">EasyDeLXRapTure for layer tuning and LoRA</h2>
+<p>in case of using LoRA and applying that on the EasyDeL models there are some other things
+that you might need to config on your own but a lot of things being handled by EasyDeL so let just jump into an example
+for LoRA fine-tuning section and use <em>EasyDeLXRapTure</em> in for mistral models with flash attention example</p>
+<pre><code class="language-python">from flax.core import FrozenDict
+from easydel import (
+    TrainArguments,
+    CausalLanguageModelTrainer,
+    AutoEasyDeLModelForCausalLM,
+    EasyDeLOptimizers,
+    EasyDeLSchedulers,
+    EasyDeLGradientCheckPointers,
+    EasyDeLXRapTureConfig
+)
+from datasets import load_dataset
+import flax
+from jax import numpy as jnp
+from transformers import AutoTokenizer
+
+huggingface_repo_id_or_path = &quot;mistralai/Mistral-7B-Instruct-v0.1&quot;
+
+model, params = AutoEasyDeLModelForCausalLM.from_pretrained(huggingface_repo_id_or_path, )
+
+max_length = 8196
+model_parameters = FrozenDict({&quot;params&quot;: params})
+
+dtype = jnp.bfloat16
+param_dtype = jnp.bfloat16  # you can change that if you want 
+
+tokenizer = AutoTokenizer.from_pretrained(
+    huggingface_repo_id_or_path,
+    trust_remote_code=True
+)
+
+model.config.add_basic_configurations(
+    attn_mechanism=&quot;flash&quot;,  # Using FlashAttention
+    block_b=1,
+    block_q=1024,
+    block_k=1024,
+    block_k_major=1024,
+)
+
+tokenizer.pad_token = tokenizer.eos_token
+configs_to_initialize_model_class = {
+    &quot;config&quot;: model.config,
+    &quot;dtype&quot;: dtype,
+    &quot;param_dtype&quot;: param_dtype,
+    &quot;input_shape&quot;: (1, 1)
+}
+
+rapture = EasyDeLXRapTureConfig(
+    parameters=model_parameters,
+    lora_dim=64,
+    fully_fine_tune_parameters=[&quot;embed_tokens&quot;],  # Model layer to be fully fine tuned
+    lora_fine_tune_parameters=[&quot;q_proj&quot;, &quot;v_proj&quot;, &quot;k_proj&quot;, &quot;o_proj&quot;],  # LoRA Layer Targets you can pass this to none
+    # For only Layer Tuning or transfer learning
+    verbose=True
+)
+
+train_arguments = TrainArguments(
+    model_class=type(model),
+    model_name=&quot;EasyDeL-Lora-Example&quot;,
+    num_train_epochs=3,
+    configs_to_initialize_model_class=configs_to_initialize_model_class,
+    learning_rate=1e-4,  # Using higher learning rate is recommended
+    learning_rate_end=8e-5,
+    optimizer=EasyDeLOptimizers.ADAMW,  # &quot;adamw&quot;, &quot;lion&quot;, &quot;adafactor&quot; are supported
+    scheduler=EasyDeLSchedulers.LINEAR,
+    # &quot;linear&quot;,&quot;cosine&quot;, &quot;none&quot; ,&quot;warm_up_cosine&quot; and &quot;warm_up_linear&quot;  are supported
+    weight_decay=0.01,
+    total_batch_size=512,
+    max_training_steps=None,  # None to let trainer Decide
+    do_train=True,
+    do_eval=False,  # it's optional but supported 
+    backend=&quot;tpu&quot;,  # default backed is set to cpu, so you must define you want to use tpu cpu or gpu
+    max_length=max_length,  # Note that you have to change this in the model config too
+    gradient_checkpointing=EasyDeLGradientCheckPointers.NOTHING_SAVEABLE,
+    sharding_array=(1, -1, 1, 1),  # the way to shard model across gpu,cpu or TPUs using sharding array (1, -1, 1, 1)
+    # everything training will be in fully FSDP automatic and share data between devices
+    remove_ckpt_after_load=True,
+    gradient_accumulation_steps=1,
+    loss_re_mat=&quot;&quot;,
+    dtype=dtype,
+    param_dtype=param_dtype,
+    rapture_config=rapture,
+    merge_lora_rapture_parameters=True  # turning this off is still not supported and not recommended to do so
+    # What this does ? this will merge the lora parameters with the original model parameters and the end of training
+)
+
+
+def ultra_chat_prompting_sample(
+        data_chunk
+):
+    user_part = [
+        chunk[&quot;content&quot;] for chunk in data_chunk[&quot;messages&quot;] if chunk[&quot;role&quot;] == &quot;user&quot;
+    ]
+    assistant_part = [
+        chunk[&quot;content&quot;] for chunk in data_chunk[&quot;messages&quot;] if chunk[&quot;role&quot;] == &quot;assistant&quot;
+    ]
+
+    prompt = &quot;&quot;
+
+    for uc, ac in zip(user_part, assistant_part):
+        prompt += f&quot;&lt;|user|&gt;\n{uc}&lt;/s&gt;\n&lt;|assistant|&gt;\n{ac}&lt;/s&gt;\n&quot;
+
+    return {&quot;prompt&quot;: prompt}
+
+
+tokenization_process = lambda data_chunk: tokenizer(
+    data_chunk[&quot;prompt&quot;],
+    add_special_tokens=False,
+    max_length=max_length,
+    padding=&quot;max_length&quot;
+)
+
+dataset = load_dataset(&quot;HuggingFaceH4/ultrachat_200k&quot;)
+dataset_train = dataset[&quot;train_gen&quot;].map(ultra_chat_prompting_process, num_proc=12)
+dataset_train = dataset_train.map(
+    tokenization_process,
+    num_proc=12,
+    remove_columns=dataset_train.column_names
+)
+
+# you can do the same for evaluation process dataset
+
+trainer = CausalLanguageModelTrainer(
+    train_arguments,
+    dataset_train,
+    checkpoint_path=None
+)
+
+output = trainer.train()  # you should not pass the parameters in Trainer.train anymore when
+# you are using LoRA or transfer Learning
+print(f&quot;Hey ! , here's where your model saved {output.checkpoint_path}&quot;)
+</code></pre>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/Mistral/index.html b/Mistral/index.html
new file mode 100644
index 000000000..11a9c59b1
--- /dev/null
+++ b/Mistral/index.html
@@ -0,0 +1,6133 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../LoRA-TransferLearningExample/">
+      
+      
+        <link rel="next" href="../Parameter-Quantization/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Mistral Models - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#mistral-models" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Mistral Models
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#mistral-models" class="md-nav__link">
+    <span class="md-ellipsis">
+      Mistral Models
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#mistral-model-in-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      Mistral Model In EasyDeL
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#mistral-models" class="md-nav__link">
+    <span class="md-ellipsis">
+      Mistral Models
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#mistral-model-in-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      Mistral Model In EasyDeL
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h2 id="mistral-models">Mistral Models</h2>
+<p>Mistral LLM models. Mistral AI is a French startup that develops large language models (LLMs). Mistral's first LLM,
+Mistral-7B-v0.1, was released in October 2023. It is a 7 billion parameter decoder-based LM with a number of
+architectural innovations, including sliding window attention, grouped query attention, and byte-fallback BPE tokenizer.
+Mistral-7B-v0.1 has been shown to achieve state-of-the-art performance on a number of NLP benchmarks, including GLUE,
+SuperGLUE, and the Stanford Question Answering Dataset.</p>
+<p>Mistral AI has not yet released a commercial version of Mistral-7B-v0.1, but it is available for free download and
+evaluation. The company is also working on developing larger and more powerful LLMs, including a 100 billion parameter
+model.</p>
+<p>Mistral's LLMs have been praised for their ability to generate creative and informative text, as well as their ability
+to perform a wide range of NLP tasks, such as translation, question answering, and summarization. However, some concerns
+have been raised about the potential for Mistral's LLMs to be used to generate harmful content, such as instructions on
+how to make bombs or how to self-harm.</p>
+<p>Overall, Mistral AI is a promising startup in the field of LLM development. Its LLMs have the potential to be used in a
+wide range of applications, such as customer service, education, and creative writing. However, it is important to be
+aware of the potential risks associated with using LLMs, such as the risk of generating harmful content.</p>
+<p><strong>README.md</strong></p>
+<p><strong>Mistral LLM models</strong></p>
+<p>Mistral LLM models are a set of large language models (LLMs) developed by Mistral AI, a French startup. Mistral's LLMs
+are trained on massive datasets of text and code, and can be used to perform a variety of NLP tasks, including:</p>
+<ul>
+<li>Text generation</li>
+<li>Translation</li>
+<li>Question answering</li>
+<li>Summarization</li>
+<li>Code generation</li>
+<li>Creative writing</li>
+</ul>
+<p><strong>Mistral-7B-v0.1</strong> is the first LLM released by Mistral AI. It is a 7 billion parameter decoder-based LM with a number
+of architectural innovations, including sliding window attention, grouped query attention, and byte-fallback BPE
+tokenizer. Mistral-7B-v0.1 has been shown to achieve state-of-the-art performance on a number of NLP benchmarks,
+including GLUE, SuperGLUE, and the Stanford Question Answering Dataset.</p>
+<p><strong>To use a Mistral LLM model:</strong></p>
+<ol>
+<li>Download the model weights from the Mistral AI website: https://mistral.ai/.</li>
+<li>Install the necessary dependencies, such as the Transformers library.</li>
+<li>Load the model weights into a Python script or notebook.</li>
+<li>Call the model's <code>generate()</code> method to generate text, translate languages, answer questions, or perform other NLP
+   tasks.</li>
+</ol>
+<p><strong>Mistral LLM models are still under development, but they have the potential to be used in a wide range of
+applications.</strong> If you are interested in using Mistral's LLMs, please visit the Mistral AI website: https://mistral.ai/
+for more information.</p>
+<h1 id="mistral-model-in-easydel">Mistral Model In EasyDeL</h1>
+<p>using Mistral Models are the same as all the other models in EasyDeL Collection but let take a look at how can we train
+or finetune a Mistral model</p>
+<pre><code class="language-python">from easydel.trainer import TrainArguments, CausalLanguageModelTrainer
+from datasets import load_dataset
+from transformers import AutoTokenizer
+from jax import numpy as jnp
+import flax
+import easydel
+from easydel import (
+    AutoEasyDeLModelForCausalLM,
+    EasyDeLOptimizers,
+    EasyDeLSchedulers,
+    EasyDeLGradientCheckPointers
+)
+
+model_huggingface_repo_id = 'mistralai/Mistral-7B-v0.1'
+dataset_train = load_dataset('&lt;TOKENIZED_MISTRAL_DATASET_AT_HUGGINGFACE&gt;')
+tokenizer = AutoTokenizer.from_pretrained(model_huggingface_repo_id, trust_remote_code=True)
+model, params = AutoEasyDeLModelForCausalLM.from_pretrained(model_huggingface_repo_id)
+config = model.config
+config.freq_max_position_embeddings = config.max_position_embeddings  # 32768
+config.max_position_embeddings = 4096  # Let use context length of 4096 for training
+config.c_max_position_embeddings = config.max_position_embeddings
+
+max_sequence_length = config.max_position_embeddings
+
+train_args = TrainArguments(
+    model_class=easydel.FlaxMistralForCausalLM,
+    configs_to_initialize_model_class={
+        'config': config,
+        'dtype': jnp.bfloat16,
+        'param_dtype': jnp.bfloat16,
+        'input_shape': (1, 1)
+    },
+    custom_rule=config.get_partition_rules(True),
+    model_name='Test',
+    num_train_epochs=2,
+    learning_rate=4e-5,
+    learning_rate_end=5e-6,
+    optimizer=EasyDeLOptimizers.ADAMW,
+    scheduler=EasyDeLSchedulers.WARM_UP_COSINE,
+    weight_decay=0.01,
+    total_batch_size=32,
+    max_training_steps=None,
+    do_train=True,
+    do_eval=False,
+    backend='tpu',
+    max_sequence_length=max_sequence_length,
+    gradient_checkpointing=EasyDeLGradientCheckPointers.NOTHING_SAVEABLE,
+    sharding_array=(1, -1, 1, 1),
+    gradient_accumulation_steps=8,
+    remove_ckpt_after_load=True,
+    ids_to_pop_from_dataset=['token_type_ids'],
+    loss_re_mat=&quot;&quot;,
+    dtype=jnp.bfloat16
+)
+
+trainer = CausalLanguageModelTrainer(
+    train_args,
+    dataset_train['train'],
+    checkpoint_path=None
+)
+
+output = trainer.train(flax.core.FrozenDict({'params': params}))
+# And Here were easydel goes brrrrrr and start training 
+</code></pre>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/MosaicMPT/index.html b/MosaicMPT/index.html
new file mode 100644
index 000000000..13a89c88a
--- /dev/null
+++ b/MosaicMPT/index.html
@@ -0,0 +1,6094 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../Parameter-Quantization/">
+      
+      
+        <link rel="next" href="../PyTorchServer/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>MosaicMPT Models - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#about-mosaicmpt-models" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              MosaicMPT Models
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#how-to-useload-them-in-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      How to Use/Load Them in EasyDeL
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="How to Use/Load Them in EasyDeL">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#open-an-issue-or-a-request-to-update-this-section" class="md-nav__link">
+    <span class="md-ellipsis">
+      Open an issue or a request to update this section
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#how-to-useload-them-in-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      How to Use/Load Them in EasyDeL
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="How to Use/Load Them in EasyDeL">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#open-an-issue-or-a-request-to-update-this-section" class="md-nav__link">
+    <span class="md-ellipsis">
+      Open an issue or a request to update this section
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="about-mosaicmpt-models">About MosaicMPT Models</h1>
+<p><strong>MosaicMPT Models</strong></p>
+<p>MosaicMPT Models is a family of large language models (LLMs) developed by MosaicML. The models are trained on a massive
+dataset of text and code, and can be used for a variety of tasks, including</p>
+<ul>
+<li>Natural language understanding (NLU)</li>
+<li>Natural language generation (NLG)</li>
+<li>Machine translation</li>
+<li>Text summarization</li>
+<li>Question answering</li>
+<li>Code generation</li>
+</ul>
+<p>The MosaicMPT models are available under the Apache 2.0 license, which means that they can be freely used, modified, and
+redistributed.</p>
+<p><strong>Model Architecture</strong></p>
+<p>The MosaicMPT models are based on the Transformer architecture, which is a neural network architecture that has been
+shown to be very effective for NLP tasks. The models are trained using a technique called masked language modeling,
+which involves predicting the missing words in a sequence of text.</p>
+<p><strong>Model Sizes</strong></p>
+<p>The MosaicMPT models come in a variety of sizes, ranging from 7 billion to 70 billion parameters. The larger models have
+more capacity to learn complex patterns in language, but they are also more computationally expensive to train and
+deploy.</p>
+<p><strong>MosaicPretrainedTransformer (MPT) Architecture</strong></p>
+<p>The MosaicPretrainedTransformer (MPT) architecture is a modified transformer architecture that is optimized for
+efficient training and inference. The MPT architecture includes the following changes:</p>
+<ul>
+<li>Performance-optimized layer implementations</li>
+<li>Architecture changes that provide greater training stability</li>
+<li>Elimination of context length limits by replacing positional embeddings with Attention with Linear Biases (ALiBi)</li>
+</ul>
+<p>Thanks to these modifications, MPT models can be trained with high throughput efficiency and stable convergence. MPT
+models can also be served efficiently with both standard HuggingFace pipelines and NVIDIA's FasterTransformer.</p>
+<p><strong>Use Cases</strong></p>
+<p>The MosaicMPT models can be used for a variety of tasks, including:</p>
+<ul>
+<li>Natural language understanding (NLU): The MosaicMPT models can be used to understand the meaning of text, such as
+  identifying the entities and relationships in a sentence.</li>
+<li>Natural language generation (NLG): The MosaicMPT models can be used to generate text, such as writing different kinds
+  of creative content, like poems, code, scripts, musical pieces, email, letters, etc.</li>
+<li>Machine translation: The MosaicMPT models can be used to translate text from one language to another.</li>
+<li>Text summarization: The MosaicMPT models can be used to summarize a text document into a shorter, more concise
+  version.</li>
+<li>Question answering: The MosaicMPT models can be used to answer questions about a text document.</li>
+<li>Code generation: The MosaicMPT models can be used to generate code, such as Python scripts or Java classes.</li>
+</ul>
+<p><strong>Availability</strong></p>
+<p>The MosaicMPT models are available through the Hugging Face Hub. The models are also available in the TensorFlow Hub,
+the PyTorch Hub and EasyDeL.</p>
+<p><strong>Conclusion</strong></p>
+<p>The MosaicMPT models are a powerful family of LLMs that can be used for a variety of tasks. The models are open source
+and available for free, making them a valuable resource for researchers and developers.</p>
+<h2 id="how-to-useload-them-in-easydel">How to Use/Load Them in EasyDeL</h2>
+<h3 id="open-an-issue-or-a-request-to-update-this-section">Open an issue or a request to update this section</h3>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/Parameter-Quantization/index.html b/Parameter-Quantization/index.html
new file mode 100644
index 000000000..f3fca4a64
--- /dev/null
+++ b/Parameter-Quantization/index.html
@@ -0,0 +1,6249 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../Mistral/">
+      
+      
+        <link rel="next" href="../MosaicMPT/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Model Parameter Quantization - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#whats-8-bit-quantization-how-does-it-help" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Model Parameter Quantization
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#why-does-it-use-less-gputpu-memory" class="md-nav__link">
+    <span class="md-ellipsis">
+      Why does it use less GPU/TPU Memory?
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#example-of-using-parameters-quantization-in-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      Example of Using Parameters Quantization in EasyDeL
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Example of Using Parameters Quantization in EasyDeL">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#using-quantized-model-via-generate-function" class="md-nav__link">
+    <span class="md-ellipsis">
+      Using Quantized Model via generate Function
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#using-quantized-model-via-jaxserver" class="md-nav__link">
+    <span class="md-ellipsis">
+      Using Quantized Model via JAXServer
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#why-does-it-use-less-gputpu-memory" class="md-nav__link">
+    <span class="md-ellipsis">
+      Why does it use less GPU/TPU Memory?
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#example-of-using-parameters-quantization-in-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      Example of Using Parameters Quantization in EasyDeL
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Example of Using Parameters Quantization in EasyDeL">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#using-quantized-model-via-generate-function" class="md-nav__link">
+    <span class="md-ellipsis">
+      Using Quantized Model via generate Function
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#using-quantized-model-via-jaxserver" class="md-nav__link">
+    <span class="md-ellipsis">
+      Using Quantized Model via JAXServer
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="whats-8-bit-quantization-how-does-it-help">What's 8-bit quantization? How does it help ?</h1>
+<p>Quantization in the context of deep learning is the process of constraining the number of bits that represent the
+weights and biases of the model.</p>
+<p>Weights and Biases numbers that we need in backpropagation.</p>
+<p>In 8-bit quantization, each weight or bias is represented using only 8 bits as opposed to the typical 32 bits used in
+single-precision floating-point format (float32).</p>
+<h2 id="why-does-it-use-less-gputpu-memory">Why does it use less GPU/TPU Memory?</h2>
+<p>The primary advantage of using 8-bit quantization is the reduction in model size and memory usage. Here's a simple
+explanation:</p>
+<p>A float32 number takes up 32 bits of memory.
+A 8-bit quantized number takes up only 8 bits of memory.
+So, theoretically, you can fit 4 times more 8-bit quantized numbers into the same memory space as float32 numbers. This
+allows you to load larger models into the GPU memory or use smaller GPUs that might not have been able to handle the
+model otherwise.</p>
+<p>The amount of memory used by an integer in a computer system is directly related to the number of bits used to represent
+that integer.</p>
+<p>Memory Usage for 8-bit Integer
+A 8-bit integer uses 8 bits of memory.</p>
+<p>Memory Usage for 32-bit Integer
+A 32-bit integer uses 32 bits of memory.</p>
+<p>Conversion to Bytes
+To convert these to bytes (since memory is often measured in bytes):</p>
+<ul>
+<li>1 byte = 8 bits</li>
+<li>8-bit integer would use ( 8/8 = 1 ) bytes.</li>
+<li>A 16-bit integer would use ( 16/8 = 2 ) bytes.</li>
+</ul>
+<h2 id="example-of-using-parameters-quantization-in-easydel">Example of Using Parameters Quantization in EasyDeL</h2>
+<p>in case of serving models or using them with <code>JAX</code> The Easiest and the best way you can find
+is EasyDeL (you can explore more if you want) you have 4 ways to use models</p>
+<ol>
+<li>Create The Pipeline and everything from scratch yourself.</li>
+<li>Use JAXServer API from EasyDeL.</li>
+<li>use ServeEngine from EasyDeL.</li>
+<li>use builtin generate method from HuggingFace Transformers and EasyDeL</li>
+</ol>
+<p>let assume we want to run a 7B model on only 12 GB of vram let just jump into codding</p>
+<h3 id="using-quantized-model-via-generate-function">Using Quantized Model via generate Function</h3>
+<p>let assume we want to run <code>Qwen/Qwen1.5-7B-Chat</code></p>
+<pre><code class="language-python">from jax import numpy as jnp
+from easydel import AutoEasyDeLModelForCausalLM, create_generate_function
+
+from transformers import AutoTokenizer, GenerationConfig
+
+import pickle
+import torch
+
+repo_id = &quot;Qwen/Qwen1.5-7B-Chat&quot;
+model, params = AutoEasyDeLModelForCausalLM.from_pretrained(
+    repo_id,
+    sharding_axis_dims=(1, 1, 1, -1),
+    config_kwargs=dict(
+        gradient_checkpointing=&quot;&quot;,
+        use_scan_mlp=False,  # Turn this one if you want to go beyond 32K sequence length.
+        shard_attention_computation=True,
+        use_sharded_kv_caching=True
+    ),
+    dtype=jnp.float16,
+    param_dtype=jnp.float16,
+    auto_shard_params=True,
+    load_in_8bit=True,
+    torch_dtype=torch.float16,
+    device_map=&quot;cpu&quot;  # this one will be passed to transformers.AutoModelForCausalLM
+)
+
+# params is now an 8 Bit pytree.
+
+tokenizer = AutoTokenizer.from_pretrained(repo_id)
+mesh = model.config.jax_mesh()
+
+gen_fn = create_generate_function(
+    model,
+    GenerationConfig(
+        do_sample=True,
+        max_new_tokens=512,
+        pad_token_id=tokenizer.pad_token_id,
+        bos_token_id=tokenizer.bos_token_id,
+        temperature=0.2,
+        top_p=0.95,
+        top_k=10,
+        num_beams=1
+    ),
+    {&quot;params&quot;: params},
+    return_prediction_only=True
+)
+
+tokenizer.padding_side = &quot;left&quot;
+encoded = tokenizer.apply_chat_template(
+    [{&quot;role&quot;: &quot;user&quot;, &quot;content&quot;: &quot;generate an story about stars&quot;}],
+    return_tensors=&quot;np&quot;,
+    return_dict=True,
+    max_length=512,
+    padding=&quot;max_length&quot;,
+    add_generation_prompt=True
+)
+
+rep = 1  # in case that you are using fsdp instead of sequence sharing change this to your fsdp mesh shape 
+input_ids, attention_mask = encoded.input_ids.repeat(rep, 0), encoded.attention_mask.repeat(rep, 0)
+with mesh:
+    response = gen_fn(
+        {&quot;params&quot;: params},
+        input_ids,
+        attention_mask
+    )
+
+    response_string = tokenizer.decode(response[0], skip_special_tokens=True)
+print(
+    f&quot;Model Response:\n{response_string}&quot;
+)
+
+# you want to save these quantized parameters for later?
+
+pickle.dump((model, params, tokenizer), open(&quot;EasyDeL-Qwen7B-Chat&quot;, &quot;wb&quot;))
+
+# And load that like this ;)
+
+(model, params, tokenizer) = pickle.load(open(&quot;EasyDeL-Qwen7B-Chat&quot;, &quot;wb&quot;))
+
+</code></pre>
+<h3 id="using-quantized-model-via-jaxserver">Using Quantized Model via JAXServer</h3>
+<pre><code class="language-python">from jax import numpy as jnp
+from jax.sharding import PartitionSpec
+from easydel import JAXServer, JAXServerConfig
+
+import torch
+
+server_config = JAXServerConfig(
+    mesh_axes_shape=(1, 1, 1, -1),
+    generation_ps=PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;),
+    max_sequence_length=1024,
+    max_new_tokens=4096,
+    max_compile_tokens=128
+)
+
+server = JAXServer.from_torch_pretrained(
+    pretrained_model_name_or_path=&quot;Qwen/Qwen1.5-7B-Chat&quot;,
+    server_config=server_config,
+    sharding_axis_dims=(1, 1, 1, -1),
+    model_config_kwargs=dict(
+        gradient_checkpointing=&quot;&quot;,
+        use_scan_mlp=False,
+        shard_attention_computation=True,
+        use_sharded_kv_caching=True
+    ),
+    dtype=jnp.float16,
+    param_dtype=jnp.float16,
+    auto_shard_params=True,
+    load_in_8bit=True,
+    torch_dtype=torch.float16,
+    device_map=&quot;cpu&quot;  # this one will be passed to transformers.AutoModelForCausalLM
+)
+
+conversation = []
+while True:
+    conversation.append({&quot;role&quot;: &quot;user&quot;, &quot;content&quot;: input(&quot;\n## User: &quot;)})
+    printed_response_length = 0
+    print(&quot;\n## Assistant : &quot;, end=&quot;&quot;)
+    response = &quot;&quot;
+    for response, used_tokens in server.sample(
+            server.tokenizer.apply_chat_template(
+                conversation,
+                tokenize=False
+            )
+    ):
+        print(response[printed_response_length:], end=&quot;&quot;)
+        printed_response_length = len(response)
+    conversation.append({&quot;role&quot;: &quot;assistant&quot;, &quot;content&quot;: response})
+
+</code></pre>
+<p>or you can launch it for serve </p>
+<pre><code class="language-python">server.gradio_inference.launch()
+</code></pre>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/PyTorchServer/index.html b/PyTorchServer/index.html
new file mode 100644
index 000000000..a9268a3cd
--- /dev/null
+++ b/PyTorchServer/index.html
@@ -0,0 +1,6018 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../MosaicMPT/">
+      
+      
+        <link rel="next" href="..">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>PytorchServer - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#pytorchserver" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              PytorchServer
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#pytorchserver" class="md-nav__link">
+    <span class="md-ellipsis">
+      PyTorchServer 🧬
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#pytorchserver" class="md-nav__link">
+    <span class="md-ellipsis">
+      PyTorchServer 🧬
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+  <h1>PytorchServer</h1>
+
+<h2 id="pytorchserver">PyTorchServer 🧬</h2>
+<p><code>PyTorchServer</code> is one of offered utilities by EasyDeL, and it's help hosting using and doing sample with LLMs
+and its also hackable, so you can override your own method in it and use it support both mid-level and high-level apis
+and also give you a Gradio Chat and Instruct Pre-build and ready to use page</p>
+<ul>
+<li>Supported Models are:<ul>
+<li>EveryModel that have <code>transformers.PretrainedModel</code> as their Parent :)</li>
+</ul>
+</li>
+</ul>
+<p>Documents are On The Way Amigos...</p>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/assets/_mkdocstrings.css b/assets/_mkdocstrings.css
new file mode 100644
index 000000000..85449ec79
--- /dev/null
+++ b/assets/_mkdocstrings.css
@@ -0,0 +1,119 @@
+
+/* Avoid breaking parameter names, etc. in table cells. */
+.doc-contents td code {
+  word-break: normal !important;
+}
+
+/* No line break before first paragraph of descriptions. */
+.doc-md-description,
+.doc-md-description>p:first-child {
+  display: inline;
+}
+
+/* Max width for docstring sections tables. */
+.doc .md-typeset__table,
+.doc .md-typeset__table table {
+  display: table !important;
+  width: 100%;
+}
+
+.doc .md-typeset__table tr {
+  display: table-row;
+}
+
+/* Defaults in Spacy table style. */
+.doc-param-default {
+  float: right;
+}
+
+/* Backward-compatibility: docstring section titles in bold. */
+.doc-section-title {
+  font-weight: bold;
+}
+
+/* Symbols in Navigation and ToC. */
+:root,
+[data-md-color-scheme="default"] {
+  --doc-symbol-attribute-fg-color: #953800;
+  --doc-symbol-function-fg-color: #8250df;
+  --doc-symbol-method-fg-color: #8250df;
+  --doc-symbol-class-fg-color: #0550ae;
+  --doc-symbol-module-fg-color: #5cad0f;
+
+  --doc-symbol-attribute-bg-color: #9538001a;
+  --doc-symbol-function-bg-color: #8250df1a;
+  --doc-symbol-method-bg-color: #8250df1a;
+  --doc-symbol-class-bg-color: #0550ae1a;
+  --doc-symbol-module-bg-color: #5cad0f1a;
+}
+
+[data-md-color-scheme="slate"] {
+  --doc-symbol-attribute-fg-color: #ffa657;
+  --doc-symbol-function-fg-color: #d2a8ff;
+  --doc-symbol-method-fg-color: #d2a8ff;
+  --doc-symbol-class-fg-color: #79c0ff;
+  --doc-symbol-module-fg-color: #baff79;
+
+  --doc-symbol-attribute-bg-color: #ffa6571a;
+  --doc-symbol-function-bg-color: #d2a8ff1a;
+  --doc-symbol-method-bg-color: #d2a8ff1a;
+  --doc-symbol-class-bg-color: #79c0ff1a;
+  --doc-symbol-module-bg-color: #baff791a;
+}
+
+code.doc-symbol {
+  border-radius: .1rem;
+  font-size: .85em;
+  padding: 0 .3em;
+  font-weight: bold;
+}
+
+code.doc-symbol-attribute {
+  color: var(--doc-symbol-attribute-fg-color);
+  background-color: var(--doc-symbol-attribute-bg-color);
+}
+
+code.doc-symbol-attribute::after {
+  content: "attr";
+}
+
+code.doc-symbol-function {
+  color: var(--doc-symbol-function-fg-color);
+  background-color: var(--doc-symbol-function-bg-color);
+}
+
+code.doc-symbol-function::after {
+  content: "func";
+}
+
+code.doc-symbol-method {
+  color: var(--doc-symbol-method-fg-color);
+  background-color: var(--doc-symbol-method-bg-color);
+}
+
+code.doc-symbol-method::after {
+  content: "meth";
+}
+
+code.doc-symbol-class {
+  color: var(--doc-symbol-class-fg-color);
+  background-color: var(--doc-symbol-class-bg-color);
+}
+
+code.doc-symbol-class::after {
+  content: "class";
+}
+
+code.doc-symbol-module {
+  color: var(--doc-symbol-module-fg-color);
+  background-color: var(--doc-symbol-module-bg-color);
+}
+
+code.doc-symbol-module::after {
+  content: "mod";
+}
+
+.doc-signature .autorefs {
+  color: inherit;
+  border-bottom: 1px dotted currentcolor;
+}
diff --git a/assets/images/favicon.png b/assets/images/favicon.png
new file mode 100644
index 0000000000000000000000000000000000000000..1cf13b9f9d978896599290a74f77d5dbe7d1655c
GIT binary patch
literal 1870
zcmV-U2eJ5xP)<h;3K|Lk000e1NJLTq001xm001xu1^@s6R|5Hm000LSNkl<Zc-qC6
z-%nIm5Xa90FNHT=R6u@%Dgvs=DnCU;MPy---z<U;QtPWtY@&@eHnCO{YySmh(Hf(P
zP1GkyjJ45dV`CEmRY7HaUMyMlVfvlhJ)X<ly|^l?lYH`>Gc)JR9QMau)O=X#!i9;T
z37kk-upj^(fsR36MHs_+1RCI)NNu9}lD0S{B^g8PN?Ww(5|~L#Ng*g{WsqleV}|#l
zz8@ri&cTzw_h33bHI+12+kK6WN$h#n5cD8OQt`5kw6p~9H3()bUQ8OS4Q4HTQ=1Ol
z_JAocz`fLbT2^{`8n~UAo=#AUOf=SOq4pYkt;XbC&f#7lb$*7=$na!mWCQ`dBQsO0
zLFBSPj*N?#u5&pf2t4XjEGH|=pPQ8xh7tpx;US<pCUP3oSao8bt`#wjtl{2%^)Z&4
zo$b%d&L$>5Cx_Ju;<?6m<a4ze--*b%^!cz$<mcvkFmxD7OKjxF2-jl2jB`xp%(<eE
z*dGS5y`7fk<)wk(lDs@(mNNPI29BGYUULp=d|+ziK5?!*L&wDoQ_#6T*vpnINdUJ2
zxv^Zv&`7S=dptB02+*TPk1PUb&X8yATF&V+q;GKV%lTWt{VTR$*|LFxrAukKpuk|Q
zQK#b$EnmN$UIv3C?fLWPd<nVV333*qKUDACt)khA<;#;m5YRht5UWJy3vKJ)&YdGS
zJ9GLp*XcdN7r6JF;#rlnq7^F+78Vo`)B-*ueZ6+oiKkD=&Bn*Z$fbvj%bv34fU;Y0
zVPP_uE=F=?Q4ztP4dOE9Ry#2<;eLVf@mS8as~aKY%@4p;MMb+-6&DlWp%~+vHDi1R
zzDC!bKYyOwEHF5z>!O`ya-yF`)b%TEt5>eP1ZX~}sjjA%FJF?h7cX8=b!DZl<6%Cv
z*G0uvvU+vmnpLZ2paivG-(cd*y3$hCIcsZcYOGh{$&)A6*XX&kXZd3G8m)G$Zz-LV
z^GF3VAW^Mdv!)4<hLfyrvBwxF6bjLk$B*fc8#m~elP9UQr6u~Fk`mXm+FD!b*HfqH
z&zm=`i%w5Z(}M>OM8EgqRiz~*Cji;uzl2uC9^=8I84vNp;ltJ|q-*uQwGp2ma6cY7
z;`%`!9UXO@fr&Ebapfs34OmS9^u6$)bJ<hmzumXbvG2S6`)P7=lBCHCh*^vuJvOND
zR~ac=w~p3Fz}oK1n7Dwu@%z52qJpaM!M$+d0>xrucutf>`dKPKT%%*d3XlFVKunp9
zasduxjrjs>f8V=D|J=XNZp;_Zy^WgQ<z;0$u5+WRqO9yyMR_?vxxi9uEqy4%Z;^Nz
zF5sL&tOe5wFY&9&$V**iQ|((hp!F$!D#Xk9r$(jd%gEU(8C(cDt*Wc4#;TFnP*p{&
z)kY;8kM9M>$9WDjgY=z@stwiEBm9u5*|34&1Na8BMjjgf3+SHcr`5~>oz1Y?SW^=K
z^bTyO6>Gar#P<TGubd(JOoOU+<Hi$!Hr3V=tAyi>_W2<cFMIg#q3&Z>gEMwq)ot3;
zREHn~U&Dp0l6YT0&k-wLwYjb?5zGK`W6S2v+K>AM(95m2<X`ZWVnflTty{K`25aFP
zos8oJ9^nG$5i1v!w)(AGcLA!euP0WCJ@@mmV>C20L|3m~rN8dprPr@t)5lsk9Hu*W
z?pS990s;Ez=+Rj{x7p``4>+c0G5^pYnB1^!TL=(?HLHZ<j<v73nGPR1MAxoeqc?Bf
z(EE%peC5g&I)pvg>+HicG{~4F1d^5Awl_2!1jICM-!9eoLhbbT^;yHcefyTAaqRcY
zmuctDopPT!%k+}x%lZRKnzykr2}}XfG_ne?nRQO~?%hkzo;@RN{P6o`&mMUWBYMTe
z6i8ChtjX&gXl`nvrU>jah)2iNM%JdjqoaeaU%yVn!^70x-flljp6Q5tK}5}&X8&&G
zX3fpb3E(!rH=zVI_<WXHgRqJkS*Oq7dU>9Gjl45w@{(ITqngWFe7@9{mX;tO25Z_8
zQHEpI+F<f#k8=(6u^M=vV~<bN`b_^Rkg8&_9Xob-Ko}6y3ZnV~k(X;{j4v<Gh+faL
zl&TN0*49>kTU#4xu>RkN>b3Tnc3UpWzPXWm#o55GKF09j^Mh~)K7{QqbO_~(@CVq!
zS<8954|P8mXN2MRs86xZ&Q4EfM@JB94b=(YGuk)s&^jiSF=t3*oNK3`rD{H`yQ?d;
ztE=laAUoZx5?RC8*WKOj`%LXEkgDd>&^Q4M^z`%u0rg-It=hLCVsq!Z%^6eB-OvOT
zFZ28TN&cRmgU}Elrnk43)!>Z1FCPL2K$7}gwzIc48NX}#!A1BpJP?#v5wkNprhV**
z?Cpalt1oH&{r!o3eSKc&ap)iz2BTn_VV`4>9M^b3;(YY}4>#ML6{~(4mH+?%07*qo
IM6N<$f(jP3KmY&$

literal 0
HcmV?d00001

diff --git a/assets/javascripts/bundle.081f42fc.min.js b/assets/javascripts/bundle.081f42fc.min.js
new file mode 100644
index 000000000..32734cd37
--- /dev/null
+++ b/assets/javascripts/bundle.081f42fc.min.js
@@ -0,0 +1,29 @@
+"use strict";(()=>{var Fi=Object.create;var gr=Object.defineProperty;var ji=Object.getOwnPropertyDescriptor;var Wi=Object.getOwnPropertyNames,Dt=Object.getOwnPropertySymbols,Ui=Object.getPrototypeOf,xr=Object.prototype.hasOwnProperty,no=Object.prototype.propertyIsEnumerable;var oo=(e,t,r)=>t in e?gr(e,t,{enumerable:!0,configurable:!0,writable:!0,value:r}):e[t]=r,R=(e,t)=>{for(var r in t||(t={}))xr.call(t,r)&&oo(e,r,t[r]);if(Dt)for(var r of Dt(t))no.call(t,r)&&oo(e,r,t[r]);return e};var io=(e,t)=>{var r={};for(var o in e)xr.call(e,o)&&t.indexOf(o)<0&&(r[o]=e[o]);if(e!=null&&Dt)for(var o of Dt(e))t.indexOf(o)<0&&no.call(e,o)&&(r[o]=e[o]);return r};var yr=(e,t)=>()=>(t||e((t={exports:{}}).exports,t),t.exports);var Di=(e,t,r,o)=>{if(t&&typeof t=="object"||typeof t=="function")for(let n of Wi(t))!xr.call(e,n)&&n!==r&&gr(e,n,{get:()=>t[n],enumerable:!(o=ji(t,n))||o.enumerable});return e};var Vt=(e,t,r)=>(r=e!=null?Fi(Ui(e)):{},Di(t||!e||!e.__esModule?gr(r,"default",{value:e,enumerable:!0}):r,e));var ao=(e,t,r)=>new Promise((o,n)=>{var i=p=>{try{s(r.next(p))}catch(c){n(c)}},a=p=>{try{s(r.throw(p))}catch(c){n(c)}},s=p=>p.done?o(p.value):Promise.resolve(p.value).then(i,a);s((r=r.apply(e,t)).next())});var co=yr((Er,so)=>{(function(e,t){typeof Er=="object"&&typeof so!="undefined"?t():typeof define=="function"&&define.amd?define(t):t()})(Er,function(){"use strict";function e(r){var o=!0,n=!1,i=null,a={text:!0,search:!0,url:!0,tel:!0,email:!0,password:!0,number:!0,date:!0,month:!0,week:!0,time:!0,datetime:!0,"datetime-local":!0};function s(H){return!!(H&&H!==document&&H.nodeName!=="HTML"&&H.nodeName!=="BODY"&&"classList"in H&&"contains"in H.classList)}function p(H){var mt=H.type,ze=H.tagName;return!!(ze==="INPUT"&&a[mt]&&!H.readOnly||ze==="TEXTAREA"&&!H.readOnly||H.isContentEditable)}function c(H){H.classList.contains("focus-visible")||(H.classList.add("focus-visible"),H.setAttribute("data-focus-visible-added",""))}function l(H){H.hasAttribute("data-focus-visible-added")&&(H.classList.remove("focus-visible"),H.removeAttribute("data-focus-visible-added"))}function f(H){H.metaKey||H.altKey||H.ctrlKey||(s(r.activeElement)&&c(r.activeElement),o=!0)}function u(H){o=!1}function h(H){s(H.target)&&(o||p(H.target))&&c(H.target)}function w(H){s(H.target)&&(H.target.classList.contains("focus-visible")||H.target.hasAttribute("data-focus-visible-added"))&&(n=!0,window.clearTimeout(i),i=window.setTimeout(function(){n=!1},100),l(H.target))}function A(H){document.visibilityState==="hidden"&&(n&&(o=!0),te())}function te(){document.addEventListener("mousemove",J),document.addEventListener("mousedown",J),document.addEventListener("mouseup",J),document.addEventListener("pointermove",J),document.addEventListener("pointerdown",J),document.addEventListener("pointerup",J),document.addEventListener("touchmove",J),document.addEventListener("touchstart",J),document.addEventListener("touchend",J)}function ie(){document.removeEventListener("mousemove",J),document.removeEventListener("mousedown",J),document.removeEventListener("mouseup",J),document.removeEventListener("pointermove",J),document.removeEventListener("pointerdown",J),document.removeEventListener("pointerup",J),document.removeEventListener("touchmove",J),document.removeEventListener("touchstart",J),document.removeEventListener("touchend",J)}function J(H){H.target.nodeName&&H.target.nodeName.toLowerCase()==="html"||(o=!1,ie())}document.addEventListener("keydown",f,!0),document.addEventListener("mousedown",u,!0),document.addEventListener("pointerdown",u,!0),document.addEventListener("touchstart",u,!0),document.addEventListener("visibilitychange",A,!0),te(),r.addEventListener("focus",h,!0),r.addEventListener("blur",w,!0),r.nodeType===Node.DOCUMENT_FRAGMENT_NODE&&r.host?r.host.setAttribute("data-js-focus-visible",""):r.nodeType===Node.DOCUMENT_NODE&&(document.documentElement.classList.add("js-focus-visible"),document.documentElement.setAttribute("data-js-focus-visible",""))}if(typeof window!="undefined"&&typeof document!="undefined"){window.applyFocusVisiblePolyfill=e;var t;try{t=new CustomEvent("focus-visible-polyfill-ready")}catch(r){t=document.createEvent("CustomEvent"),t.initCustomEvent("focus-visible-polyfill-ready",!1,!1,{})}window.dispatchEvent(t)}typeof document!="undefined"&&e(document)})});var Yr=yr((Rt,Kr)=>{/*!
+ * clipboard.js v2.0.11
+ * https://clipboardjs.com/
+ *
+ * Licensed MIT © Zeno Rocha
+ */(function(t,r){typeof Rt=="object"&&typeof Kr=="object"?Kr.exports=r():typeof define=="function"&&define.amd?define([],r):typeof Rt=="object"?Rt.ClipboardJS=r():t.ClipboardJS=r()})(Rt,function(){return function(){var e={686:function(o,n,i){"use strict";i.d(n,{default:function(){return Ii}});var a=i(279),s=i.n(a),p=i(370),c=i.n(p),l=i(817),f=i.n(l);function u(V){try{return document.execCommand(V)}catch(_){return!1}}var h=function(_){var O=f()(_);return u("cut"),O},w=h;function A(V){var _=document.documentElement.getAttribute("dir")==="rtl",O=document.createElement("textarea");O.style.fontSize="12pt",O.style.border="0",O.style.padding="0",O.style.margin="0",O.style.position="absolute",O.style[_?"right":"left"]="-9999px";var j=window.pageYOffset||document.documentElement.scrollTop;return O.style.top="".concat(j,"px"),O.setAttribute("readonly",""),O.value=V,O}var te=function(_,O){var j=A(_);O.container.appendChild(j);var D=f()(j);return u("copy"),j.remove(),D},ie=function(_){var O=arguments.length>1&&arguments[1]!==void 0?arguments[1]:{container:document.body},j="";return typeof _=="string"?j=te(_,O):_ instanceof HTMLInputElement&&!["text","search","url","tel","password"].includes(_==null?void 0:_.type)?j=te(_.value,O):(j=f()(_),u("copy")),j},J=ie;function H(V){"@babel/helpers - typeof";return typeof Symbol=="function"&&typeof Symbol.iterator=="symbol"?H=function(O){return typeof O}:H=function(O){return O&&typeof Symbol=="function"&&O.constructor===Symbol&&O!==Symbol.prototype?"symbol":typeof O},H(V)}var mt=function(){var _=arguments.length>0&&arguments[0]!==void 0?arguments[0]:{},O=_.action,j=O===void 0?"copy":O,D=_.container,Y=_.target,ke=_.text;if(j!=="copy"&&j!=="cut")throw new Error('Invalid "action" value, use either "copy" or "cut"');if(Y!==void 0)if(Y&&H(Y)==="object"&&Y.nodeType===1){if(j==="copy"&&Y.hasAttribute("disabled"))throw new Error('Invalid "target" attribute. Please use "readonly" instead of "disabled" attribute');if(j==="cut"&&(Y.hasAttribute("readonly")||Y.hasAttribute("disabled")))throw new Error(`Invalid "target" attribute. You can't cut text from elements with "readonly" or "disabled" attributes`)}else throw new Error('Invalid "target" value, use a valid Element');if(ke)return J(ke,{container:D});if(Y)return j==="cut"?w(Y):J(Y,{container:D})},ze=mt;function Ie(V){"@babel/helpers - typeof";return typeof Symbol=="function"&&typeof Symbol.iterator=="symbol"?Ie=function(O){return typeof O}:Ie=function(O){return O&&typeof Symbol=="function"&&O.constructor===Symbol&&O!==Symbol.prototype?"symbol":typeof O},Ie(V)}function _i(V,_){if(!(V instanceof _))throw new TypeError("Cannot call a class as a function")}function ro(V,_){for(var O=0;O<_.length;O++){var j=_[O];j.enumerable=j.enumerable||!1,j.configurable=!0,"value"in j&&(j.writable=!0),Object.defineProperty(V,j.key,j)}}function Ai(V,_,O){return _&&ro(V.prototype,_),O&&ro(V,O),V}function Ci(V,_){if(typeof _!="function"&&_!==null)throw new TypeError("Super expression must either be null or a function");V.prototype=Object.create(_&&_.prototype,{constructor:{value:V,writable:!0,configurable:!0}}),_&&br(V,_)}function br(V,_){return br=Object.setPrototypeOf||function(j,D){return j.__proto__=D,j},br(V,_)}function Hi(V){var _=Pi();return function(){var j=Wt(V),D;if(_){var Y=Wt(this).constructor;D=Reflect.construct(j,arguments,Y)}else D=j.apply(this,arguments);return ki(this,D)}}function ki(V,_){return _&&(Ie(_)==="object"||typeof _=="function")?_:$i(V)}function $i(V){if(V===void 0)throw new ReferenceError("this hasn't been initialised - super() hasn't been called");return V}function Pi(){if(typeof Reflect=="undefined"||!Reflect.construct||Reflect.construct.sham)return!1;if(typeof Proxy=="function")return!0;try{return Date.prototype.toString.call(Reflect.construct(Date,[],function(){})),!0}catch(V){return!1}}function Wt(V){return Wt=Object.setPrototypeOf?Object.getPrototypeOf:function(O){return O.__proto__||Object.getPrototypeOf(O)},Wt(V)}function vr(V,_){var O="data-clipboard-".concat(V);if(_.hasAttribute(O))return _.getAttribute(O)}var Ri=function(V){Ci(O,V);var _=Hi(O);function O(j,D){var Y;return _i(this,O),Y=_.call(this),Y.resolveOptions(D),Y.listenClick(j),Y}return Ai(O,[{key:"resolveOptions",value:function(){var D=arguments.length>0&&arguments[0]!==void 0?arguments[0]:{};this.action=typeof D.action=="function"?D.action:this.defaultAction,this.target=typeof D.target=="function"?D.target:this.defaultTarget,this.text=typeof D.text=="function"?D.text:this.defaultText,this.container=Ie(D.container)==="object"?D.container:document.body}},{key:"listenClick",value:function(D){var Y=this;this.listener=c()(D,"click",function(ke){return Y.onClick(ke)})}},{key:"onClick",value:function(D){var Y=D.delegateTarget||D.currentTarget,ke=this.action(Y)||"copy",Ut=ze({action:ke,container:this.container,target:this.target(Y),text:this.text(Y)});this.emit(Ut?"success":"error",{action:ke,text:Ut,trigger:Y,clearSelection:function(){Y&&Y.focus(),window.getSelection().removeAllRanges()}})}},{key:"defaultAction",value:function(D){return vr("action",D)}},{key:"defaultTarget",value:function(D){var Y=vr("target",D);if(Y)return document.querySelector(Y)}},{key:"defaultText",value:function(D){return vr("text",D)}},{key:"destroy",value:function(){this.listener.destroy()}}],[{key:"copy",value:function(D){var Y=arguments.length>1&&arguments[1]!==void 0?arguments[1]:{container:document.body};return J(D,Y)}},{key:"cut",value:function(D){return w(D)}},{key:"isSupported",value:function(){var D=arguments.length>0&&arguments[0]!==void 0?arguments[0]:["copy","cut"],Y=typeof D=="string"?[D]:D,ke=!!document.queryCommandSupported;return Y.forEach(function(Ut){ke=ke&&!!document.queryCommandSupported(Ut)}),ke}}]),O}(s()),Ii=Ri},828:function(o){var n=9;if(typeof Element!="undefined"&&!Element.prototype.matches){var i=Element.prototype;i.matches=i.matchesSelector||i.mozMatchesSelector||i.msMatchesSelector||i.oMatchesSelector||i.webkitMatchesSelector}function a(s,p){for(;s&&s.nodeType!==n;){if(typeof s.matches=="function"&&s.matches(p))return s;s=s.parentNode}}o.exports=a},438:function(o,n,i){var a=i(828);function s(l,f,u,h,w){var A=c.apply(this,arguments);return l.addEventListener(u,A,w),{destroy:function(){l.removeEventListener(u,A,w)}}}function p(l,f,u,h,w){return typeof l.addEventListener=="function"?s.apply(null,arguments):typeof u=="function"?s.bind(null,document).apply(null,arguments):(typeof l=="string"&&(l=document.querySelectorAll(l)),Array.prototype.map.call(l,function(A){return s(A,f,u,h,w)}))}function c(l,f,u,h){return function(w){w.delegateTarget=a(w.target,f),w.delegateTarget&&h.call(l,w)}}o.exports=p},879:function(o,n){n.node=function(i){return i!==void 0&&i instanceof HTMLElement&&i.nodeType===1},n.nodeList=function(i){var a=Object.prototype.toString.call(i);return i!==void 0&&(a==="[object NodeList]"||a==="[object HTMLCollection]")&&"length"in i&&(i.length===0||n.node(i[0]))},n.string=function(i){return typeof i=="string"||i instanceof String},n.fn=function(i){var a=Object.prototype.toString.call(i);return a==="[object Function]"}},370:function(o,n,i){var a=i(879),s=i(438);function p(u,h,w){if(!u&&!h&&!w)throw new Error("Missing required arguments");if(!a.string(h))throw new TypeError("Second argument must be a String");if(!a.fn(w))throw new TypeError("Third argument must be a Function");if(a.node(u))return c(u,h,w);if(a.nodeList(u))return l(u,h,w);if(a.string(u))return f(u,h,w);throw new TypeError("First argument must be a String, HTMLElement, HTMLCollection, or NodeList")}function c(u,h,w){return u.addEventListener(h,w),{destroy:function(){u.removeEventListener(h,w)}}}function l(u,h,w){return Array.prototype.forEach.call(u,function(A){A.addEventListener(h,w)}),{destroy:function(){Array.prototype.forEach.call(u,function(A){A.removeEventListener(h,w)})}}}function f(u,h,w){return s(document.body,u,h,w)}o.exports=p},817:function(o){function n(i){var a;if(i.nodeName==="SELECT")i.focus(),a=i.value;else if(i.nodeName==="INPUT"||i.nodeName==="TEXTAREA"){var s=i.hasAttribute("readonly");s||i.setAttribute("readonly",""),i.select(),i.setSelectionRange(0,i.value.length),s||i.removeAttribute("readonly"),a=i.value}else{i.hasAttribute("contenteditable")&&i.focus();var p=window.getSelection(),c=document.createRange();c.selectNodeContents(i),p.removeAllRanges(),p.addRange(c),a=p.toString()}return a}o.exports=n},279:function(o){function n(){}n.prototype={on:function(i,a,s){var p=this.e||(this.e={});return(p[i]||(p[i]=[])).push({fn:a,ctx:s}),this},once:function(i,a,s){var p=this;function c(){p.off(i,c),a.apply(s,arguments)}return c._=a,this.on(i,c,s)},emit:function(i){var a=[].slice.call(arguments,1),s=((this.e||(this.e={}))[i]||[]).slice(),p=0,c=s.length;for(p;p<c;p++)s[p].fn.apply(s[p].ctx,a);return this},off:function(i,a){var s=this.e||(this.e={}),p=s[i],c=[];if(p&&a)for(var l=0,f=p.length;l<f;l++)p[l].fn!==a&&p[l].fn._!==a&&c.push(p[l]);return c.length?s[i]=c:delete s[i],this}},o.exports=n,o.exports.TinyEmitter=n}},t={};function r(o){if(t[o])return t[o].exports;var n=t[o]={exports:{}};return e[o](n,n.exports,r),n.exports}return function(){r.n=function(o){var n=o&&o.__esModule?function(){return o.default}:function(){return o};return r.d(n,{a:n}),n}}(),function(){r.d=function(o,n){for(var i in n)r.o(n,i)&&!r.o(o,i)&&Object.defineProperty(o,i,{enumerable:!0,get:n[i]})}}(),function(){r.o=function(o,n){return Object.prototype.hasOwnProperty.call(o,n)}}(),r(686)}().default})});var ti=yr((gT,ei)=>{"use strict";/*!
+ * escape-html
+ * Copyright(c) 2012-2013 TJ Holowaychuk
+ * Copyright(c) 2015 Andreas Lubbe
+ * Copyright(c) 2015 Tiancheng "Timothy" Gu
+ * MIT Licensed
+ */var ts=/["'&<>]/;ei.exports=rs;function rs(e){var t=""+e,r=ts.exec(t);if(!r)return t;var o,n="",i=0,a=0;for(i=r.index;i<t.length;i++){switch(t.charCodeAt(i)){case 34:o="&quot;";break;case 38:o="&amp;";break;case 39:o="&#39;";break;case 60:o="&lt;";break;case 62:o="&gt;";break;default:continue}a!==i&&(n+=t.substring(a,i)),a=i+1,n+=o}return a!==i?n+t.substring(a,i):n}});var e0=Vt(co());/*! *****************************************************************************
+Copyright (c) Microsoft Corporation.
+
+Permission to use, copy, modify, and/or distribute this software for any
+purpose with or without fee is hereby granted.
+
+THE SOFTWARE IS PROVIDED "AS IS" AND THE AUTHOR DISCLAIMS ALL WARRANTIES WITH
+REGARD TO THIS SOFTWARE INCLUDING ALL IMPLIED WARRANTIES OF MERCHANTABILITY
+AND FITNESS. IN NO EVENT SHALL THE AUTHOR BE LIABLE FOR ANY SPECIAL, DIRECT,
+INDIRECT, OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES WHATSOEVER RESULTING FROM
+LOSS OF USE, DATA OR PROFITS, WHETHER IN AN ACTION OF CONTRACT, NEGLIGENCE OR
+OTHER TORTIOUS ACTION, ARISING OUT OF OR IN CONNECTION WITH THE USE OR
+PERFORMANCE OF THIS SOFTWARE.
+***************************************************************************** */var wr=function(e,t){return wr=Object.setPrototypeOf||{__proto__:[]}instanceof Array&&function(r,o){r.__proto__=o}||function(r,o){for(var n in o)Object.prototype.hasOwnProperty.call(o,n)&&(r[n]=o[n])},wr(e,t)};function re(e,t){if(typeof t!="function"&&t!==null)throw new TypeError("Class extends value "+String(t)+" is not a constructor or null");wr(e,t);function r(){this.constructor=e}e.prototype=t===null?Object.create(t):(r.prototype=t.prototype,new r)}function po(e,t,r,o){function n(i){return i instanceof r?i:new r(function(a){a(i)})}return new(r||(r=Promise))(function(i,a){function s(l){try{c(o.next(l))}catch(f){a(f)}}function p(l){try{c(o.throw(l))}catch(f){a(f)}}function c(l){l.done?i(l.value):n(l.value).then(s,p)}c((o=o.apply(e,t||[])).next())})}function Nt(e,t){var r={label:0,sent:function(){if(i[0]&1)throw i[1];return i[1]},trys:[],ops:[]},o,n,i,a;return a={next:s(0),throw:s(1),return:s(2)},typeof Symbol=="function"&&(a[Symbol.iterator]=function(){return this}),a;function s(c){return function(l){return p([c,l])}}function p(c){if(o)throw new TypeError("Generator is already executing.");for(;r;)try{if(o=1,n&&(i=c[0]&2?n.return:c[0]?n.throw||((i=n.return)&&i.call(n),0):n.next)&&!(i=i.call(n,c[1])).done)return i;switch(n=0,i&&(c=[c[0]&2,i.value]),c[0]){case 0:case 1:i=c;break;case 4:return r.label++,{value:c[1],done:!1};case 5:r.label++,n=c[1],c=[0];continue;case 7:c=r.ops.pop(),r.trys.pop();continue;default:if(i=r.trys,!(i=i.length>0&&i[i.length-1])&&(c[0]===6||c[0]===2)){r=0;continue}if(c[0]===3&&(!i||c[1]>i[0]&&c[1]<i[3])){r.label=c[1];break}if(c[0]===6&&r.label<i[1]){r.label=i[1],i=c;break}if(i&&r.label<i[2]){r.label=i[2],r.ops.push(c);break}i[2]&&r.ops.pop(),r.trys.pop();continue}c=t.call(e,r)}catch(l){c=[6,l],n=0}finally{o=i=0}if(c[0]&5)throw c[1];return{value:c[0]?c[1]:void 0,done:!0}}}function de(e){var t=typeof Symbol=="function"&&Symbol.iterator,r=t&&e[t],o=0;if(r)return r.call(e);if(e&&typeof e.length=="number")return{next:function(){return e&&o>=e.length&&(e=void 0),{value:e&&e[o++],done:!e}}};throw new TypeError(t?"Object is not iterable.":"Symbol.iterator is not defined.")}function N(e,t){var r=typeof Symbol=="function"&&e[Symbol.iterator];if(!r)return e;var o=r.call(e),n,i=[],a;try{for(;(t===void 0||t-- >0)&&!(n=o.next()).done;)i.push(n.value)}catch(s){a={error:s}}finally{try{n&&!n.done&&(r=o.return)&&r.call(o)}finally{if(a)throw a.error}}return i}function q(e,t,r){if(r||arguments.length===2)for(var o=0,n=t.length,i;o<n;o++)(i||!(o in t))&&(i||(i=Array.prototype.slice.call(t,0,o)),i[o]=t[o]);return e.concat(i||Array.prototype.slice.call(t))}function nt(e){return this instanceof nt?(this.v=e,this):new nt(e)}function lo(e,t,r){if(!Symbol.asyncIterator)throw new TypeError("Symbol.asyncIterator is not defined.");var o=r.apply(e,t||[]),n,i=[];return n={},a("next"),a("throw"),a("return"),n[Symbol.asyncIterator]=function(){return this},n;function a(u){o[u]&&(n[u]=function(h){return new Promise(function(w,A){i.push([u,h,w,A])>1||s(u,h)})})}function s(u,h){try{p(o[u](h))}catch(w){f(i[0][3],w)}}function p(u){u.value instanceof nt?Promise.resolve(u.value.v).then(c,l):f(i[0][2],u)}function c(u){s("next",u)}function l(u){s("throw",u)}function f(u,h){u(h),i.shift(),i.length&&s(i[0][0],i[0][1])}}function mo(e){if(!Symbol.asyncIterator)throw new TypeError("Symbol.asyncIterator is not defined.");var t=e[Symbol.asyncIterator],r;return t?t.call(e):(e=typeof de=="function"?de(e):e[Symbol.iterator](),r={},o("next"),o("throw"),o("return"),r[Symbol.asyncIterator]=function(){return this},r);function o(i){r[i]=e[i]&&function(a){return new Promise(function(s,p){a=e[i](a),n(s,p,a.done,a.value)})}}function n(i,a,s,p){Promise.resolve(p).then(function(c){i({value:c,done:s})},a)}}function k(e){return typeof e=="function"}function ft(e){var t=function(o){Error.call(o),o.stack=new Error().stack},r=e(t);return r.prototype=Object.create(Error.prototype),r.prototype.constructor=r,r}var zt=ft(function(e){return function(r){e(this),this.message=r?r.length+` errors occurred during unsubscription:
+`+r.map(function(o,n){return n+1+") "+o.toString()}).join(`
+  `):"",this.name="UnsubscriptionError",this.errors=r}});function qe(e,t){if(e){var r=e.indexOf(t);0<=r&&e.splice(r,1)}}var Fe=function(){function e(t){this.initialTeardown=t,this.closed=!1,this._parentage=null,this._finalizers=null}return e.prototype.unsubscribe=function(){var t,r,o,n,i;if(!this.closed){this.closed=!0;var a=this._parentage;if(a)if(this._parentage=null,Array.isArray(a))try{for(var s=de(a),p=s.next();!p.done;p=s.next()){var c=p.value;c.remove(this)}}catch(A){t={error:A}}finally{try{p&&!p.done&&(r=s.return)&&r.call(s)}finally{if(t)throw t.error}}else a.remove(this);var l=this.initialTeardown;if(k(l))try{l()}catch(A){i=A instanceof zt?A.errors:[A]}var f=this._finalizers;if(f){this._finalizers=null;try{for(var u=de(f),h=u.next();!h.done;h=u.next()){var w=h.value;try{fo(w)}catch(A){i=i!=null?i:[],A instanceof zt?i=q(q([],N(i)),N(A.errors)):i.push(A)}}}catch(A){o={error:A}}finally{try{h&&!h.done&&(n=u.return)&&n.call(u)}finally{if(o)throw o.error}}}if(i)throw new zt(i)}},e.prototype.add=function(t){var r;if(t&&t!==this)if(this.closed)fo(t);else{if(t instanceof e){if(t.closed||t._hasParent(this))return;t._addParent(this)}(this._finalizers=(r=this._finalizers)!==null&&r!==void 0?r:[]).push(t)}},e.prototype._hasParent=function(t){var r=this._parentage;return r===t||Array.isArray(r)&&r.includes(t)},e.prototype._addParent=function(t){var r=this._parentage;this._parentage=Array.isArray(r)?(r.push(t),r):r?[r,t]:t},e.prototype._removeParent=function(t){var r=this._parentage;r===t?this._parentage=null:Array.isArray(r)&&qe(r,t)},e.prototype.remove=function(t){var r=this._finalizers;r&&qe(r,t),t instanceof e&&t._removeParent(this)},e.EMPTY=function(){var t=new e;return t.closed=!0,t}(),e}();var Tr=Fe.EMPTY;function qt(e){return e instanceof Fe||e&&"closed"in e&&k(e.remove)&&k(e.add)&&k(e.unsubscribe)}function fo(e){k(e)?e():e.unsubscribe()}var $e={onUnhandledError:null,onStoppedNotification:null,Promise:void 0,useDeprecatedSynchronousErrorHandling:!1,useDeprecatedNextContext:!1};var ut={setTimeout:function(e,t){for(var r=[],o=2;o<arguments.length;o++)r[o-2]=arguments[o];var n=ut.delegate;return n!=null&&n.setTimeout?n.setTimeout.apply(n,q([e,t],N(r))):setTimeout.apply(void 0,q([e,t],N(r)))},clearTimeout:function(e){var t=ut.delegate;return((t==null?void 0:t.clearTimeout)||clearTimeout)(e)},delegate:void 0};function Qt(e){ut.setTimeout(function(){var t=$e.onUnhandledError;if(t)t(e);else throw e})}function he(){}var uo=function(){return Sr("C",void 0,void 0)}();function ho(e){return Sr("E",void 0,e)}function bo(e){return Sr("N",e,void 0)}function Sr(e,t,r){return{kind:e,value:t,error:r}}var it=null;function dt(e){if($e.useDeprecatedSynchronousErrorHandling){var t=!it;if(t&&(it={errorThrown:!1,error:null}),e(),t){var r=it,o=r.errorThrown,n=r.error;if(it=null,o)throw n}}else e()}function vo(e){$e.useDeprecatedSynchronousErrorHandling&&it&&(it.errorThrown=!0,it.error=e)}var Mt=function(e){re(t,e);function t(r){var o=e.call(this)||this;return o.isStopped=!1,r?(o.destination=r,qt(r)&&r.add(o)):o.destination=qi,o}return t.create=function(r,o,n){return new at(r,o,n)},t.prototype.next=function(r){this.isStopped?Mr(bo(r),this):this._next(r)},t.prototype.error=function(r){this.isStopped?Mr(ho(r),this):(this.isStopped=!0,this._error(r))},t.prototype.complete=function(){this.isStopped?Mr(uo,this):(this.isStopped=!0,this._complete())},t.prototype.unsubscribe=function(){this.closed||(this.isStopped=!0,e.prototype.unsubscribe.call(this),this.destination=null)},t.prototype._next=function(r){this.destination.next(r)},t.prototype._error=function(r){try{this.destination.error(r)}finally{this.unsubscribe()}},t.prototype._complete=function(){try{this.destination.complete()}finally{this.unsubscribe()}},t}(Fe);var Vi=Function.prototype.bind;function Or(e,t){return Vi.call(e,t)}var Ni=function(){function e(t){this.partialObserver=t}return e.prototype.next=function(t){var r=this.partialObserver;if(r.next)try{r.next(t)}catch(o){Kt(o)}},e.prototype.error=function(t){var r=this.partialObserver;if(r.error)try{r.error(t)}catch(o){Kt(o)}else Kt(t)},e.prototype.complete=function(){var t=this.partialObserver;if(t.complete)try{t.complete()}catch(r){Kt(r)}},e}(),at=function(e){re(t,e);function t(r,o,n){var i=e.call(this)||this,a;if(k(r)||!r)a={next:r!=null?r:void 0,error:o!=null?o:void 0,complete:n!=null?n:void 0};else{var s;i&&$e.useDeprecatedNextContext?(s=Object.create(r),s.unsubscribe=function(){return i.unsubscribe()},a={next:r.next&&Or(r.next,s),error:r.error&&Or(r.error,s),complete:r.complete&&Or(r.complete,s)}):a=r}return i.destination=new Ni(a),i}return t}(Mt);function Kt(e){$e.useDeprecatedSynchronousErrorHandling?vo(e):Qt(e)}function zi(e){throw e}function Mr(e,t){var r=$e.onStoppedNotification;r&&ut.setTimeout(function(){return r(e,t)})}var qi={closed:!0,next:he,error:zi,complete:he};var ht=function(){return typeof Symbol=="function"&&Symbol.observable||"@@observable"}();function le(e){return e}function go(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];return Lr(e)}function Lr(e){return e.length===0?le:e.length===1?e[0]:function(r){return e.reduce(function(o,n){return n(o)},r)}}var F=function(){function e(t){t&&(this._subscribe=t)}return e.prototype.lift=function(t){var r=new e;return r.source=this,r.operator=t,r},e.prototype.subscribe=function(t,r,o){var n=this,i=Ki(t)?t:new at(t,r,o);return dt(function(){var a=n,s=a.operator,p=a.source;i.add(s?s.call(i,p):p?n._subscribe(i):n._trySubscribe(i))}),i},e.prototype._trySubscribe=function(t){try{return this._subscribe(t)}catch(r){t.error(r)}},e.prototype.forEach=function(t,r){var o=this;return r=xo(r),new r(function(n,i){var a=new at({next:function(s){try{t(s)}catch(p){i(p),a.unsubscribe()}},error:i,complete:n});o.subscribe(a)})},e.prototype._subscribe=function(t){var r;return(r=this.source)===null||r===void 0?void 0:r.subscribe(t)},e.prototype[ht]=function(){return this},e.prototype.pipe=function(){for(var t=[],r=0;r<arguments.length;r++)t[r]=arguments[r];return Lr(t)(this)},e.prototype.toPromise=function(t){var r=this;return t=xo(t),new t(function(o,n){var i;r.subscribe(function(a){return i=a},function(a){return n(a)},function(){return o(i)})})},e.create=function(t){return new e(t)},e}();function xo(e){var t;return(t=e!=null?e:$e.Promise)!==null&&t!==void 0?t:Promise}function Qi(e){return e&&k(e.next)&&k(e.error)&&k(e.complete)}function Ki(e){return e&&e instanceof Mt||Qi(e)&&qt(e)}function Yi(e){return k(e==null?void 0:e.lift)}function y(e){return function(t){if(Yi(t))return t.lift(function(r){try{return e(r,this)}catch(o){this.error(o)}});throw new TypeError("Unable to lift unknown Observable type")}}function T(e,t,r,o,n){return new Bi(e,t,r,o,n)}var Bi=function(e){re(t,e);function t(r,o,n,i,a,s){var p=e.call(this,r)||this;return p.onFinalize=a,p.shouldUnsubscribe=s,p._next=o?function(c){try{o(c)}catch(l){r.error(l)}}:e.prototype._next,p._error=i?function(c){try{i(c)}catch(l){r.error(l)}finally{this.unsubscribe()}}:e.prototype._error,p._complete=n?function(){try{n()}catch(c){r.error(c)}finally{this.unsubscribe()}}:e.prototype._complete,p}return t.prototype.unsubscribe=function(){var r;if(!this.shouldUnsubscribe||this.shouldUnsubscribe()){var o=this.closed;e.prototype.unsubscribe.call(this),!o&&((r=this.onFinalize)===null||r===void 0||r.call(this))}},t}(Mt);var bt={schedule:function(e){var t=requestAnimationFrame,r=cancelAnimationFrame,o=bt.delegate;o&&(t=o.requestAnimationFrame,r=o.cancelAnimationFrame);var n=t(function(i){r=void 0,e(i)});return new Fe(function(){return r==null?void 0:r(n)})},requestAnimationFrame:function(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];var r=bt.delegate;return((r==null?void 0:r.requestAnimationFrame)||requestAnimationFrame).apply(void 0,q([],N(e)))},cancelAnimationFrame:function(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];var r=bt.delegate;return((r==null?void 0:r.cancelAnimationFrame)||cancelAnimationFrame).apply(void 0,q([],N(e)))},delegate:void 0};var yo=ft(function(e){return function(){e(this),this.name="ObjectUnsubscribedError",this.message="object unsubscribed"}});var g=function(e){re(t,e);function t(){var r=e.call(this)||this;return r.closed=!1,r.currentObservers=null,r.observers=[],r.isStopped=!1,r.hasError=!1,r.thrownError=null,r}return t.prototype.lift=function(r){var o=new Eo(this,this);return o.operator=r,o},t.prototype._throwIfClosed=function(){if(this.closed)throw new yo},t.prototype.next=function(r){var o=this;dt(function(){var n,i;if(o._throwIfClosed(),!o.isStopped){o.currentObservers||(o.currentObservers=Array.from(o.observers));try{for(var a=de(o.currentObservers),s=a.next();!s.done;s=a.next()){var p=s.value;p.next(r)}}catch(c){n={error:c}}finally{try{s&&!s.done&&(i=a.return)&&i.call(a)}finally{if(n)throw n.error}}}})},t.prototype.error=function(r){var o=this;dt(function(){if(o._throwIfClosed(),!o.isStopped){o.hasError=o.isStopped=!0,o.thrownError=r;for(var n=o.observers;n.length;)n.shift().error(r)}})},t.prototype.complete=function(){var r=this;dt(function(){if(r._throwIfClosed(),!r.isStopped){r.isStopped=!0;for(var o=r.observers;o.length;)o.shift().complete()}})},t.prototype.unsubscribe=function(){this.isStopped=this.closed=!0,this.observers=this.currentObservers=null},Object.defineProperty(t.prototype,"observed",{get:function(){var r;return((r=this.observers)===null||r===void 0?void 0:r.length)>0},enumerable:!1,configurable:!0}),t.prototype._trySubscribe=function(r){return this._throwIfClosed(),e.prototype._trySubscribe.call(this,r)},t.prototype._subscribe=function(r){return this._throwIfClosed(),this._checkFinalizedStatuses(r),this._innerSubscribe(r)},t.prototype._innerSubscribe=function(r){var o=this,n=this,i=n.hasError,a=n.isStopped,s=n.observers;return i||a?Tr:(this.currentObservers=null,s.push(r),new Fe(function(){o.currentObservers=null,qe(s,r)}))},t.prototype._checkFinalizedStatuses=function(r){var o=this,n=o.hasError,i=o.thrownError,a=o.isStopped;n?r.error(i):a&&r.complete()},t.prototype.asObservable=function(){var r=new F;return r.source=this,r},t.create=function(r,o){return new Eo(r,o)},t}(F);var Eo=function(e){re(t,e);function t(r,o){var n=e.call(this)||this;return n.destination=r,n.source=o,n}return t.prototype.next=function(r){var o,n;(n=(o=this.destination)===null||o===void 0?void 0:o.next)===null||n===void 0||n.call(o,r)},t.prototype.error=function(r){var o,n;(n=(o=this.destination)===null||o===void 0?void 0:o.error)===null||n===void 0||n.call(o,r)},t.prototype.complete=function(){var r,o;(o=(r=this.destination)===null||r===void 0?void 0:r.complete)===null||o===void 0||o.call(r)},t.prototype._subscribe=function(r){var o,n;return(n=(o=this.source)===null||o===void 0?void 0:o.subscribe(r))!==null&&n!==void 0?n:Tr},t}(g);var _r=function(e){re(t,e);function t(r){var o=e.call(this)||this;return o._value=r,o}return Object.defineProperty(t.prototype,"value",{get:function(){return this.getValue()},enumerable:!1,configurable:!0}),t.prototype._subscribe=function(r){var o=e.prototype._subscribe.call(this,r);return!o.closed&&r.next(this._value),o},t.prototype.getValue=function(){var r=this,o=r.hasError,n=r.thrownError,i=r._value;if(o)throw n;return this._throwIfClosed(),i},t.prototype.next=function(r){e.prototype.next.call(this,this._value=r)},t}(g);var Lt={now:function(){return(Lt.delegate||Date).now()},delegate:void 0};var _t=function(e){re(t,e);function t(r,o,n){r===void 0&&(r=1/0),o===void 0&&(o=1/0),n===void 0&&(n=Lt);var i=e.call(this)||this;return i._bufferSize=r,i._windowTime=o,i._timestampProvider=n,i._buffer=[],i._infiniteTimeWindow=!0,i._infiniteTimeWindow=o===1/0,i._bufferSize=Math.max(1,r),i._windowTime=Math.max(1,o),i}return t.prototype.next=function(r){var o=this,n=o.isStopped,i=o._buffer,a=o._infiniteTimeWindow,s=o._timestampProvider,p=o._windowTime;n||(i.push(r),!a&&i.push(s.now()+p)),this._trimBuffer(),e.prototype.next.call(this,r)},t.prototype._subscribe=function(r){this._throwIfClosed(),this._trimBuffer();for(var o=this._innerSubscribe(r),n=this,i=n._infiniteTimeWindow,a=n._buffer,s=a.slice(),p=0;p<s.length&&!r.closed;p+=i?1:2)r.next(s[p]);return this._checkFinalizedStatuses(r),o},t.prototype._trimBuffer=function(){var r=this,o=r._bufferSize,n=r._timestampProvider,i=r._buffer,a=r._infiniteTimeWindow,s=(a?1:2)*o;if(o<1/0&&s<i.length&&i.splice(0,i.length-s),!a){for(var p=n.now(),c=0,l=1;l<i.length&&i[l]<=p;l+=2)c=l;c&&i.splice(0,c+1)}},t}(g);var wo=function(e){re(t,e);function t(r,o){return e.call(this)||this}return t.prototype.schedule=function(r,o){return o===void 0&&(o=0),this},t}(Fe);var At={setInterval:function(e,t){for(var r=[],o=2;o<arguments.length;o++)r[o-2]=arguments[o];var n=At.delegate;return n!=null&&n.setInterval?n.setInterval.apply(n,q([e,t],N(r))):setInterval.apply(void 0,q([e,t],N(r)))},clearInterval:function(e){var t=At.delegate;return((t==null?void 0:t.clearInterval)||clearInterval)(e)},delegate:void 0};var vt=function(e){re(t,e);function t(r,o){var n=e.call(this,r,o)||this;return n.scheduler=r,n.work=o,n.pending=!1,n}return t.prototype.schedule=function(r,o){var n;if(o===void 0&&(o=0),this.closed)return this;this.state=r;var i=this.id,a=this.scheduler;return i!=null&&(this.id=this.recycleAsyncId(a,i,o)),this.pending=!0,this.delay=o,this.id=(n=this.id)!==null&&n!==void 0?n:this.requestAsyncId(a,this.id,o),this},t.prototype.requestAsyncId=function(r,o,n){return n===void 0&&(n=0),At.setInterval(r.flush.bind(r,this),n)},t.prototype.recycleAsyncId=function(r,o,n){if(n===void 0&&(n=0),n!=null&&this.delay===n&&this.pending===!1)return o;o!=null&&At.clearInterval(o)},t.prototype.execute=function(r,o){if(this.closed)return new Error("executing a cancelled action");this.pending=!1;var n=this._execute(r,o);if(n)return n;this.pending===!1&&this.id!=null&&(this.id=this.recycleAsyncId(this.scheduler,this.id,null))},t.prototype._execute=function(r,o){var n=!1,i;try{this.work(r)}catch(a){n=!0,i=a||new Error("Scheduled action threw falsy error")}if(n)return this.unsubscribe(),i},t.prototype.unsubscribe=function(){if(!this.closed){var r=this,o=r.id,n=r.scheduler,i=n.actions;this.work=this.state=this.scheduler=null,this.pending=!1,qe(i,this),o!=null&&(this.id=this.recycleAsyncId(n,o,null)),this.delay=null,e.prototype.unsubscribe.call(this)}},t}(wo);var Ar=function(){function e(t,r){r===void 0&&(r=e.now),this.schedulerActionCtor=t,this.now=r}return e.prototype.schedule=function(t,r,o){return r===void 0&&(r=0),new this.schedulerActionCtor(this,t).schedule(o,r)},e.now=Lt.now,e}();var gt=function(e){re(t,e);function t(r,o){o===void 0&&(o=Ar.now);var n=e.call(this,r,o)||this;return n.actions=[],n._active=!1,n}return t.prototype.flush=function(r){var o=this.actions;if(this._active){o.push(r);return}var n;this._active=!0;do if(n=r.execute(r.state,r.delay))break;while(r=o.shift());if(this._active=!1,n){for(;r=o.shift();)r.unsubscribe();throw n}},t}(Ar);var se=new gt(vt),Cr=se;var To=function(e){re(t,e);function t(r,o){var n=e.call(this,r,o)||this;return n.scheduler=r,n.work=o,n}return t.prototype.schedule=function(r,o){return o===void 0&&(o=0),o>0?e.prototype.schedule.call(this,r,o):(this.delay=o,this.state=r,this.scheduler.flush(this),this)},t.prototype.execute=function(r,o){return o>0||this.closed?e.prototype.execute.call(this,r,o):this._execute(r,o)},t.prototype.requestAsyncId=function(r,o,n){return n===void 0&&(n=0),n!=null&&n>0||n==null&&this.delay>0?e.prototype.requestAsyncId.call(this,r,o,n):(r.flush(this),0)},t}(vt);var So=function(e){re(t,e);function t(){return e!==null&&e.apply(this,arguments)||this}return t}(gt);var Hr=new So(To);var Oo=function(e){re(t,e);function t(r,o){var n=e.call(this,r,o)||this;return n.scheduler=r,n.work=o,n}return t.prototype.requestAsyncId=function(r,o,n){return n===void 0&&(n=0),n!==null&&n>0?e.prototype.requestAsyncId.call(this,r,o,n):(r.actions.push(this),r._scheduled||(r._scheduled=bt.requestAnimationFrame(function(){return r.flush(void 0)})))},t.prototype.recycleAsyncId=function(r,o,n){var i;if(n===void 0&&(n=0),n!=null?n>0:this.delay>0)return e.prototype.recycleAsyncId.call(this,r,o,n);var a=r.actions;o!=null&&((i=a[a.length-1])===null||i===void 0?void 0:i.id)!==o&&(bt.cancelAnimationFrame(o),r._scheduled=void 0)},t}(vt);var Mo=function(e){re(t,e);function t(){return e!==null&&e.apply(this,arguments)||this}return t.prototype.flush=function(r){this._active=!0;var o=this._scheduled;this._scheduled=void 0;var n=this.actions,i;r=r||n.shift();do if(i=r.execute(r.state,r.delay))break;while((r=n[0])&&r.id===o&&n.shift());if(this._active=!1,i){for(;(r=n[0])&&r.id===o&&n.shift();)r.unsubscribe();throw i}},t}(gt);var me=new Mo(Oo);var M=new F(function(e){return e.complete()});function Yt(e){return e&&k(e.schedule)}function kr(e){return e[e.length-1]}function Xe(e){return k(kr(e))?e.pop():void 0}function He(e){return Yt(kr(e))?e.pop():void 0}function Bt(e,t){return typeof kr(e)=="number"?e.pop():t}var xt=function(e){return e&&typeof e.length=="number"&&typeof e!="function"};function Gt(e){return k(e==null?void 0:e.then)}function Jt(e){return k(e[ht])}function Xt(e){return Symbol.asyncIterator&&k(e==null?void 0:e[Symbol.asyncIterator])}function Zt(e){return new TypeError("You provided "+(e!==null&&typeof e=="object"?"an invalid object":"'"+e+"'")+" where a stream was expected. You can provide an Observable, Promise, ReadableStream, Array, AsyncIterable, or Iterable.")}function Gi(){return typeof Symbol!="function"||!Symbol.iterator?"@@iterator":Symbol.iterator}var er=Gi();function tr(e){return k(e==null?void 0:e[er])}function rr(e){return lo(this,arguments,function(){var r,o,n,i;return Nt(this,function(a){switch(a.label){case 0:r=e.getReader(),a.label=1;case 1:a.trys.push([1,,9,10]),a.label=2;case 2:return[4,nt(r.read())];case 3:return o=a.sent(),n=o.value,i=o.done,i?[4,nt(void 0)]:[3,5];case 4:return[2,a.sent()];case 5:return[4,nt(n)];case 6:return[4,a.sent()];case 7:return a.sent(),[3,2];case 8:return[3,10];case 9:return r.releaseLock(),[7];case 10:return[2]}})})}function or(e){return k(e==null?void 0:e.getReader)}function W(e){if(e instanceof F)return e;if(e!=null){if(Jt(e))return Ji(e);if(xt(e))return Xi(e);if(Gt(e))return Zi(e);if(Xt(e))return Lo(e);if(tr(e))return ea(e);if(or(e))return ta(e)}throw Zt(e)}function Ji(e){return new F(function(t){var r=e[ht]();if(k(r.subscribe))return r.subscribe(t);throw new TypeError("Provided object does not correctly implement Symbol.observable")})}function Xi(e){return new F(function(t){for(var r=0;r<e.length&&!t.closed;r++)t.next(e[r]);t.complete()})}function Zi(e){return new F(function(t){e.then(function(r){t.closed||(t.next(r),t.complete())},function(r){return t.error(r)}).then(null,Qt)})}function ea(e){return new F(function(t){var r,o;try{for(var n=de(e),i=n.next();!i.done;i=n.next()){var a=i.value;if(t.next(a),t.closed)return}}catch(s){r={error:s}}finally{try{i&&!i.done&&(o=n.return)&&o.call(n)}finally{if(r)throw r.error}}t.complete()})}function Lo(e){return new F(function(t){ra(e,t).catch(function(r){return t.error(r)})})}function ta(e){return Lo(rr(e))}function ra(e,t){var r,o,n,i;return po(this,void 0,void 0,function(){var a,s;return Nt(this,function(p){switch(p.label){case 0:p.trys.push([0,5,6,11]),r=mo(e),p.label=1;case 1:return[4,r.next()];case 2:if(o=p.sent(),!!o.done)return[3,4];if(a=o.value,t.next(a),t.closed)return[2];p.label=3;case 3:return[3,1];case 4:return[3,11];case 5:return s=p.sent(),n={error:s},[3,11];case 6:return p.trys.push([6,,9,10]),o&&!o.done&&(i=r.return)?[4,i.call(r)]:[3,8];case 7:p.sent(),p.label=8;case 8:return[3,10];case 9:if(n)throw n.error;return[7];case 10:return[7];case 11:return t.complete(),[2]}})})}function we(e,t,r,o,n){o===void 0&&(o=0),n===void 0&&(n=!1);var i=t.schedule(function(){r(),n?e.add(this.schedule(null,o)):this.unsubscribe()},o);if(e.add(i),!n)return i}function be(e,t){return t===void 0&&(t=0),y(function(r,o){r.subscribe(T(o,function(n){return we(o,e,function(){return o.next(n)},t)},function(){return we(o,e,function(){return o.complete()},t)},function(n){return we(o,e,function(){return o.error(n)},t)}))})}function Qe(e,t){return t===void 0&&(t=0),y(function(r,o){o.add(e.schedule(function(){return r.subscribe(o)},t))})}function _o(e,t){return W(e).pipe(Qe(t),be(t))}function Ao(e,t){return W(e).pipe(Qe(t),be(t))}function Co(e,t){return new F(function(r){var o=0;return t.schedule(function(){o===e.length?r.complete():(r.next(e[o++]),r.closed||this.schedule())})})}function Ho(e,t){return new F(function(r){var o;return we(r,t,function(){o=e[er](),we(r,t,function(){var n,i,a;try{n=o.next(),i=n.value,a=n.done}catch(s){r.error(s);return}a?r.complete():r.next(i)},0,!0)}),function(){return k(o==null?void 0:o.return)&&o.return()}})}function nr(e,t){if(!e)throw new Error("Iterable cannot be null");return new F(function(r){we(r,t,function(){var o=e[Symbol.asyncIterator]();we(r,t,function(){o.next().then(function(n){n.done?r.complete():r.next(n.value)})},0,!0)})})}function ko(e,t){return nr(rr(e),t)}function $o(e,t){if(e!=null){if(Jt(e))return _o(e,t);if(xt(e))return Co(e,t);if(Gt(e))return Ao(e,t);if(Xt(e))return nr(e,t);if(tr(e))return Ho(e,t);if(or(e))return ko(e,t)}throw Zt(e)}function ue(e,t){return t?$o(e,t):W(e)}function I(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];var r=He(e);return ue(e,r)}function $r(e,t){var r=k(e)?e:function(){return e},o=function(n){return n.error(r())};return new F(t?function(n){return t.schedule(o,0,n)}:o)}var ir=ft(function(e){return function(){e(this),this.name="EmptyError",this.message="no elements in sequence"}});function Po(e){return e instanceof Date&&!isNaN(e)}function m(e,t){return y(function(r,o){var n=0;r.subscribe(T(o,function(i){o.next(e.call(t,i,n++))}))})}var oa=Array.isArray;function na(e,t){return oa(t)?e.apply(void 0,q([],N(t))):e(t)}function Ze(e){return m(function(t){return na(e,t)})}var ia=Array.isArray,aa=Object.getPrototypeOf,sa=Object.prototype,ca=Object.keys;function Ro(e){if(e.length===1){var t=e[0];if(ia(t))return{args:t,keys:null};if(pa(t)){var r=ca(t);return{args:r.map(function(o){return t[o]}),keys:r}}}return{args:e,keys:null}}function pa(e){return e&&typeof e=="object"&&aa(e)===sa}function Io(e,t){return e.reduce(function(r,o,n){return r[o]=t[n],r},{})}function z(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];var r=He(e),o=Xe(e),n=Ro(e),i=n.args,a=n.keys;if(i.length===0)return ue([],r);var s=new F(Pr(i,r,a?function(p){return Io(a,p)}:le));return o?s.pipe(Ze(o)):s}function Pr(e,t,r){return r===void 0&&(r=le),function(o){Fo(t,function(){for(var n=e.length,i=new Array(n),a=n,s=n,p=function(l){Fo(t,function(){var f=ue(e[l],t),u=!1;f.subscribe(T(o,function(h){i[l]=h,u||(u=!0,s--),s||o.next(r(i.slice()))},function(){--a||o.complete()}))},o)},c=0;c<n;c++)p(c)},o)}}function Fo(e,t,r){e?we(r,e,t):t()}function jo(e,t,r,o,n,i,a,s){var p=[],c=0,l=0,f=!1,u=function(){f&&!p.length&&!c&&t.complete()},h=function(A){return c<o?w(A):p.push(A)},w=function(A){i&&t.next(A),c++;var te=!1;W(r(A,l++)).subscribe(T(t,function(ie){n==null||n(ie),i?h(ie):t.next(ie)},function(){te=!0},void 0,function(){if(te)try{c--;for(var ie=function(){var J=p.shift();a?we(t,a,function(){return w(J)}):w(J)};p.length&&c<o;)ie();u()}catch(J){t.error(J)}}))};return e.subscribe(T(t,h,function(){f=!0,u()})),function(){s==null||s()}}function oe(e,t,r){return r===void 0&&(r=1/0),k(t)?oe(function(o,n){return m(function(i,a){return t(o,i,n,a)})(W(e(o,n)))},r):(typeof t=="number"&&(r=t),y(function(o,n){return jo(o,n,e,r)}))}function yt(e){return e===void 0&&(e=1/0),oe(le,e)}function Wo(){return yt(1)}function je(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];return Wo()(ue(e,He(e)))}function C(e){return new F(function(t){W(e()).subscribe(t)})}var la=["addListener","removeListener"],ma=["addEventListener","removeEventListener"],fa=["on","off"];function d(e,t,r,o){if(k(r)&&(o=r,r=void 0),o)return d(e,t,r).pipe(Ze(o));var n=N(ha(e)?ma.map(function(s){return function(p){return e[s](t,p,r)}}):ua(e)?la.map(Uo(e,t)):da(e)?fa.map(Uo(e,t)):[],2),i=n[0],a=n[1];if(!i&&xt(e))return oe(function(s){return d(s,t,r)})(W(e));if(!i)throw new TypeError("Invalid event target");return new F(function(s){var p=function(){for(var c=[],l=0;l<arguments.length;l++)c[l]=arguments[l];return s.next(1<c.length?c:c[0])};return i(p),function(){return a(p)}})}function Uo(e,t){return function(r){return function(o){return e[r](t,o)}}}function ua(e){return k(e.addListener)&&k(e.removeListener)}function da(e){return k(e.on)&&k(e.off)}function ha(e){return k(e.addEventListener)&&k(e.removeEventListener)}function ar(e,t,r){return r?ar(e,t).pipe(Ze(r)):new F(function(o){var n=function(){for(var a=[],s=0;s<arguments.length;s++)a[s]=arguments[s];return o.next(a.length===1?a[0]:a)},i=e(n);return k(t)?function(){return t(n,i)}:void 0})}function Me(e,t,r){e===void 0&&(e=0),r===void 0&&(r=Cr);var o=-1;return t!=null&&(Yt(t)?r=t:o=t),new F(function(n){var i=Po(e)?+e-r.now():e;i<0&&(i=0);var a=0;return r.schedule(function(){n.closed||(n.next(a++),0<=o?this.schedule(void 0,o):n.complete())},i)})}function S(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];var r=He(e),o=Bt(e,1/0),n=e;return n.length?n.length===1?W(n[0]):yt(o)(ue(n,r)):M}var Ke=new F(he);var ba=Array.isArray;function Et(e){return e.length===1&&ba(e[0])?e[0]:e}function v(e,t){return y(function(r,o){var n=0;r.subscribe(T(o,function(i){return e.call(t,i,n++)&&o.next(i)}))})}function Ct(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];var r=Xe(e),o=Et(e);return o.length?new F(function(n){var i=o.map(function(){return[]}),a=o.map(function(){return!1});n.add(function(){i=a=null});for(var s=function(c){W(o[c]).subscribe(T(n,function(l){if(i[c].push(l),i.every(function(u){return u.length})){var f=i.map(function(u){return u.shift()});n.next(r?r.apply(void 0,q([],N(f))):f),i.some(function(u,h){return!u.length&&a[h]})&&n.complete()}},function(){a[c]=!0,!i[c].length&&n.complete()}))},p=0;!n.closed&&p<o.length;p++)s(p);return function(){i=a=null}}):M}function Do(e){return y(function(t,r){var o=!1,n=null,i=null,a=!1,s=function(){if(i==null||i.unsubscribe(),i=null,o){o=!1;var c=n;n=null,r.next(c)}a&&r.complete()},p=function(){i=null,a&&r.complete()};t.subscribe(T(r,function(c){o=!0,n=c,i||W(e(c)).subscribe(i=T(r,s,p))},function(){a=!0,(!o||!i||i.closed)&&r.complete()}))})}function Le(e,t){return t===void 0&&(t=se),Do(function(){return Me(e,t)})}function Ye(e,t){return t===void 0&&(t=null),t=t!=null?t:e,y(function(r,o){var n=[],i=0;r.subscribe(T(o,function(a){var s,p,c,l,f=null;i++%t===0&&n.push([]);try{for(var u=de(n),h=u.next();!h.done;h=u.next()){var w=h.value;w.push(a),e<=w.length&&(f=f!=null?f:[],f.push(w))}}catch(ie){s={error:ie}}finally{try{h&&!h.done&&(p=u.return)&&p.call(u)}finally{if(s)throw s.error}}if(f)try{for(var A=de(f),te=A.next();!te.done;te=A.next()){var w=te.value;qe(n,w),o.next(w)}}catch(ie){c={error:ie}}finally{try{te&&!te.done&&(l=A.return)&&l.call(A)}finally{if(c)throw c.error}}},function(){var a,s;try{for(var p=de(n),c=p.next();!c.done;c=p.next()){var l=c.value;o.next(l)}}catch(f){a={error:f}}finally{try{c&&!c.done&&(s=p.return)&&s.call(p)}finally{if(a)throw a.error}}o.complete()},void 0,function(){n=null}))})}function ve(e){return y(function(t,r){var o=null,n=!1,i;o=t.subscribe(T(r,void 0,void 0,function(a){i=W(e(a,ve(e)(t))),o?(o.unsubscribe(),o=null,i.subscribe(r)):n=!0})),n&&(o.unsubscribe(),o=null,i.subscribe(r))})}function Vo(e,t,r,o,n){return function(i,a){var s=r,p=t,c=0;i.subscribe(T(a,function(l){var f=c++;p=s?e(p,l,f):(s=!0,l),o&&a.next(p)},n&&function(){s&&a.next(p),a.complete()}))}}function Rr(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];var r=Xe(e);return r?go(Rr.apply(void 0,q([],N(e))),Ze(r)):y(function(o,n){Pr(q([o],N(Et(e))))(n)})}function We(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];return Rr.apply(void 0,q([],N(e)))}function Ht(e){return y(function(t,r){var o=!1,n=null,i=null,a=function(){if(i==null||i.unsubscribe(),i=null,o){o=!1;var s=n;n=null,r.next(s)}};t.subscribe(T(r,function(s){i==null||i.unsubscribe(),o=!0,n=s,i=T(r,a,he),W(e(s)).subscribe(i)},function(){a(),r.complete()},void 0,function(){n=i=null}))})}function _e(e,t){return t===void 0&&(t=se),y(function(r,o){var n=null,i=null,a=null,s=function(){if(n){n.unsubscribe(),n=null;var c=i;i=null,o.next(c)}};function p(){var c=a+e,l=t.now();if(l<c){n=this.schedule(void 0,c-l),o.add(n);return}s()}r.subscribe(T(o,function(c){i=c,a=t.now(),n||(n=t.schedule(p,e),o.add(n))},function(){s(),o.complete()},void 0,function(){i=n=null}))})}function Be(e){return y(function(t,r){var o=!1;t.subscribe(T(r,function(n){o=!0,r.next(n)},function(){o||r.next(e),r.complete()}))})}function Te(e){return e<=0?function(){return M}:y(function(t,r){var o=0;t.subscribe(T(r,function(n){++o<=e&&(r.next(n),e<=o&&r.complete())}))})}function X(){return y(function(e,t){e.subscribe(T(t,he))})}function No(e){return m(function(){return e})}function Ir(e,t){return t?function(r){return je(t.pipe(Te(1),X()),r.pipe(Ir(e)))}:oe(function(r,o){return W(e(r,o)).pipe(Te(1),No(r))})}function Ge(e,t){t===void 0&&(t=se);var r=Me(e,t);return Ir(function(){return r})}function K(e,t){return t===void 0&&(t=le),e=e!=null?e:va,y(function(r,o){var n,i=!0;r.subscribe(T(o,function(a){var s=t(a);(i||!e(n,s))&&(i=!1,n=s,o.next(a))}))})}function va(e,t){return e===t}function Z(e,t){return K(function(r,o){return t?t(r[e],o[e]):r[e]===o[e]})}function zo(e){return e===void 0&&(e=ga),y(function(t,r){var o=!1;t.subscribe(T(r,function(n){o=!0,r.next(n)},function(){return o?r.complete():r.error(e())}))})}function ga(){return new ir}function ne(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];return function(r){return je(r,I.apply(void 0,q([],N(e))))}}function L(e){return y(function(t,r){try{t.subscribe(r)}finally{r.add(e)}})}function Ae(e,t){var r=arguments.length>=2;return function(o){return o.pipe(e?v(function(n,i){return e(n,i,o)}):le,Te(1),r?Be(t):zo(function(){return new ir}))}}function Fr(e){return e<=0?function(){return M}:y(function(t,r){var o=[];t.subscribe(T(r,function(n){o.push(n),e<o.length&&o.shift()},function(){var n,i;try{for(var a=de(o),s=a.next();!s.done;s=a.next()){var p=s.value;r.next(p)}}catch(c){n={error:c}}finally{try{s&&!s.done&&(i=a.return)&&i.call(a)}finally{if(n)throw n.error}}r.complete()},void 0,function(){o=null}))})}function qo(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];var r=He(e),o=Bt(e,1/0);return e=Et(e),y(function(n,i){yt(o)(ue(q([n],N(e)),r)).subscribe(i)})}function Pe(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];return qo.apply(void 0,q([],N(e)))}function st(e){var t,r=1/0,o;return e!=null&&(typeof e=="object"?(t=e.count,r=t===void 0?1/0:t,o=e.delay):r=e),r<=0?function(){return M}:y(function(n,i){var a=0,s,p=function(){if(s==null||s.unsubscribe(),s=null,o!=null){var l=typeof o=="number"?Me(o):W(o(a)),f=T(i,function(){f.unsubscribe(),c()});l.subscribe(f)}else c()},c=function(){var l=!1;s=n.subscribe(T(i,void 0,function(){++a<r?s?p():l=!0:i.complete()})),l&&p()};c()})}function jr(e,t){return y(Vo(e,t,arguments.length>=2,!0))}function pe(e){e===void 0&&(e={});var t=e.connector,r=t===void 0?function(){return new g}:t,o=e.resetOnError,n=o===void 0?!0:o,i=e.resetOnComplete,a=i===void 0?!0:i,s=e.resetOnRefCountZero,p=s===void 0?!0:s;return function(c){var l,f,u,h=0,w=!1,A=!1,te=function(){f==null||f.unsubscribe(),f=void 0},ie=function(){te(),l=u=void 0,w=A=!1},J=function(){var H=l;ie(),H==null||H.unsubscribe()};return y(function(H,mt){h++,!A&&!w&&te();var ze=u=u!=null?u:r();mt.add(function(){h--,h===0&&!A&&!w&&(f=Wr(J,p))}),ze.subscribe(mt),!l&&h>0&&(l=new at({next:function(Ie){return ze.next(Ie)},error:function(Ie){A=!0,te(),f=Wr(ie,n,Ie),ze.error(Ie)},complete:function(){w=!0,te(),f=Wr(ie,a),ze.complete()}}),W(H).subscribe(l))})(c)}}function Wr(e,t){for(var r=[],o=2;o<arguments.length;o++)r[o-2]=arguments[o];if(t===!0){e();return}if(t!==!1){var n=new at({next:function(){n.unsubscribe(),e()}});return W(t.apply(void 0,q([],N(r)))).subscribe(n)}}function B(e,t,r){var o,n,i,a,s=!1;return e&&typeof e=="object"?(o=e.bufferSize,a=o===void 0?1/0:o,n=e.windowTime,t=n===void 0?1/0:n,i=e.refCount,s=i===void 0?!1:i,r=e.scheduler):a=e!=null?e:1/0,pe({connector:function(){return new _t(a,t,r)},resetOnError:!0,resetOnComplete:!1,resetOnRefCountZero:s})}function Ce(e){return v(function(t,r){return e<=r})}function Ur(e){return y(function(t,r){var o=!1,n=T(r,function(){n==null||n.unsubscribe(),o=!0},he);W(e).subscribe(n),t.subscribe(T(r,function(i){return o&&r.next(i)}))})}function Q(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];var r=He(e);return y(function(o,n){(r?je(e,o,r):je(e,o)).subscribe(n)})}function b(e,t){return y(function(r,o){var n=null,i=0,a=!1,s=function(){return a&&!n&&o.complete()};r.subscribe(T(o,function(p){n==null||n.unsubscribe();var c=0,l=i++;W(e(p,l)).subscribe(n=T(o,function(f){return o.next(t?t(p,f,l,c++):f)},function(){n=null,s()}))},function(){a=!0,s()}))})}function U(e){return y(function(t,r){W(e).subscribe(T(r,function(){return r.complete()},he)),!r.closed&&t.subscribe(r)})}function Dr(e,t){return t===void 0&&(t=!1),y(function(r,o){var n=0;r.subscribe(T(o,function(i){var a=e(i,n++);(a||t)&&o.next(i),!a&&o.complete()}))})}function E(e,t,r){var o=k(e)||t||r?{next:e,error:t,complete:r}:e;return o?y(function(n,i){var a;(a=o.subscribe)===null||a===void 0||a.call(o);var s=!0;n.subscribe(T(i,function(p){var c;(c=o.next)===null||c===void 0||c.call(o,p),i.next(p)},function(){var p;s=!1,(p=o.complete)===null||p===void 0||p.call(o),i.complete()},function(p){var c;s=!1,(c=o.error)===null||c===void 0||c.call(o,p),i.error(p)},function(){var p,c;s&&((p=o.unsubscribe)===null||p===void 0||p.call(o)),(c=o.finalize)===null||c===void 0||c.call(o)}))}):le}function Qo(e,t){return y(function(r,o){var n=t!=null?t:{},i=n.leading,a=i===void 0?!0:i,s=n.trailing,p=s===void 0?!1:s,c=!1,l=null,f=null,u=!1,h=function(){f==null||f.unsubscribe(),f=null,p&&(te(),u&&o.complete())},w=function(){f=null,u&&o.complete()},A=function(ie){return f=W(e(ie)).subscribe(T(o,h,w))},te=function(){if(c){c=!1;var ie=l;l=null,o.next(ie),!u&&A(ie)}};r.subscribe(T(o,function(ie){c=!0,l=ie,!(f&&!f.closed)&&(a?te():A(ie))},function(){u=!0,!(p&&c&&f&&!f.closed)&&o.complete()}))})}function ct(e,t,r){t===void 0&&(t=se);var o=Me(e,t);return Qo(function(){return o},r)}function ee(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];var r=Xe(e);return y(function(o,n){for(var i=e.length,a=new Array(i),s=e.map(function(){return!1}),p=!1,c=function(f){W(e[f]).subscribe(T(n,function(u){a[f]=u,!p&&!s[f]&&(s[f]=!0,(p=s.every(le))&&(s=null))},he))},l=0;l<i;l++)c(l);o.subscribe(T(n,function(f){if(p){var u=q([f],N(a));n.next(r?r.apply(void 0,q([],N(u))):u)}}))})}function Ko(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];return y(function(r,o){Ct.apply(void 0,q([r],N(e))).subscribe(o)})}function Vr(){for(var e=[],t=0;t<arguments.length;t++)e[t]=arguments[t];return Ko.apply(void 0,q([],N(e)))}function Yo(){let e=new _t(1);return d(document,"DOMContentLoaded",{once:!0}).subscribe(()=>e.next(document)),e}function $(e,t=document){return Array.from(t.querySelectorAll(e))}function P(e,t=document){let r=fe(e,t);if(typeof r=="undefined")throw new ReferenceError(`Missing element: expected "${e}" to be present`);return r}function fe(e,t=document){return t.querySelector(e)||void 0}function Re(){var e,t,r,o;return(o=(r=(t=(e=document.activeElement)==null?void 0:e.shadowRoot)==null?void 0:t.activeElement)!=null?r:document.activeElement)!=null?o:void 0}var xa=S(d(document.body,"focusin"),d(document.body,"focusout")).pipe(_e(1),Q(void 0),m(()=>Re()||document.body),B(1));function et(e){return xa.pipe(m(t=>e.contains(t)),K())}function kt(e,t){return C(()=>S(d(e,"mouseenter").pipe(m(()=>!0)),d(e,"mouseleave").pipe(m(()=>!1))).pipe(t?Ht(r=>Me(+!r*t)):le,Q(e.matches(":hover"))))}function Bo(e,t){if(typeof t=="string"||typeof t=="number")e.innerHTML+=t.toString();else if(t instanceof Node)e.appendChild(t);else if(Array.isArray(t))for(let r of t)Bo(e,r)}function x(e,t,...r){let o=document.createElement(e);if(t)for(let n of Object.keys(t))typeof t[n]!="undefined"&&(typeof t[n]!="boolean"?o.setAttribute(n,t[n]):o.setAttribute(n,""));for(let n of r)Bo(o,n);return o}function sr(e){if(e>999){let t=+((e-950)%1e3>99);return`${((e+1e-6)/1e3).toFixed(t)}k`}else return e.toString()}function wt(e){let t=x("script",{src:e});return C(()=>(document.head.appendChild(t),S(d(t,"load"),d(t,"error").pipe(b(()=>$r(()=>new ReferenceError(`Invalid script: ${e}`))))).pipe(m(()=>{}),L(()=>document.head.removeChild(t)),Te(1))))}var Go=new g,ya=C(()=>typeof ResizeObserver=="undefined"?wt("https://unpkg.com/resize-observer-polyfill"):I(void 0)).pipe(m(()=>new ResizeObserver(e=>e.forEach(t=>Go.next(t)))),b(e=>S(Ke,I(e)).pipe(L(()=>e.disconnect()))),B(1));function ce(e){return{width:e.offsetWidth,height:e.offsetHeight}}function ge(e){let t=e;for(;t.clientWidth===0&&t.parentElement;)t=t.parentElement;return ya.pipe(E(r=>r.observe(t)),b(r=>Go.pipe(v(o=>o.target===t),L(()=>r.unobserve(t)))),m(()=>ce(e)),Q(ce(e)))}function Tt(e){return{width:e.scrollWidth,height:e.scrollHeight}}function cr(e){let t=e.parentElement;for(;t&&(e.scrollWidth<=t.scrollWidth&&e.scrollHeight<=t.scrollHeight);)t=(e=t).parentElement;return t?e:void 0}function Jo(e){let t=[],r=e.parentElement;for(;r;)(e.clientWidth>r.clientWidth||e.clientHeight>r.clientHeight)&&t.push(r),r=(e=r).parentElement;return t.length===0&&t.push(document.documentElement),t}function Ue(e){return{x:e.offsetLeft,y:e.offsetTop}}function Xo(e){let t=e.getBoundingClientRect();return{x:t.x+window.scrollX,y:t.y+window.scrollY}}function Zo(e){return S(d(window,"load"),d(window,"resize")).pipe(Le(0,me),m(()=>Ue(e)),Q(Ue(e)))}function pr(e){return{x:e.scrollLeft,y:e.scrollTop}}function De(e){return S(d(e,"scroll"),d(window,"scroll"),d(window,"resize")).pipe(Le(0,me),m(()=>pr(e)),Q(pr(e)))}var en=new g,Ea=C(()=>I(new IntersectionObserver(e=>{for(let t of e)en.next(t)},{threshold:0}))).pipe(b(e=>S(Ke,I(e)).pipe(L(()=>e.disconnect()))),B(1));function tt(e){return Ea.pipe(E(t=>t.observe(e)),b(t=>en.pipe(v(({target:r})=>r===e),L(()=>t.unobserve(e)),m(({isIntersecting:r})=>r))))}function tn(e,t=16){return De(e).pipe(m(({y:r})=>{let o=ce(e),n=Tt(e);return r>=n.height-o.height-t}),K())}var lr={drawer:P("[data-md-toggle=drawer]"),search:P("[data-md-toggle=search]")};function rn(e){return lr[e].checked}function Je(e,t){lr[e].checked!==t&&lr[e].click()}function Ve(e){let t=lr[e];return d(t,"change").pipe(m(()=>t.checked),Q(t.checked))}function wa(e,t){switch(e.constructor){case HTMLInputElement:return e.type==="radio"?/^Arrow/.test(t):!0;case HTMLSelectElement:case HTMLTextAreaElement:return!0;default:return e.isContentEditable}}function Ta(){return S(d(window,"compositionstart").pipe(m(()=>!0)),d(window,"compositionend").pipe(m(()=>!1))).pipe(Q(!1))}function on(){let e=d(window,"keydown").pipe(v(t=>!(t.metaKey||t.ctrlKey)),m(t=>({mode:rn("search")?"search":"global",type:t.key,claim(){t.preventDefault(),t.stopPropagation()}})),v(({mode:t,type:r})=>{if(t==="global"){let o=Re();if(typeof o!="undefined")return!wa(o,r)}return!0}),pe());return Ta().pipe(b(t=>t?M:e))}function xe(){return new URL(location.href)}function pt(e,t=!1){if(G("navigation.instant")&&!t){let r=x("a",{href:e.href});document.body.appendChild(r),r.click(),r.remove()}else location.href=e.href}function nn(){return new g}function an(){return location.hash.slice(1)}function sn(e){let t=x("a",{href:e});t.addEventListener("click",r=>r.stopPropagation()),t.click()}function Sa(e){return S(d(window,"hashchange"),e).pipe(m(an),Q(an()),v(t=>t.length>0),B(1))}function cn(e){return Sa(e).pipe(m(t=>fe(`[id="${t}"]`)),v(t=>typeof t!="undefined"))}function $t(e){let t=matchMedia(e);return ar(r=>t.addListener(()=>r(t.matches))).pipe(Q(t.matches))}function pn(){let e=matchMedia("print");return S(d(window,"beforeprint").pipe(m(()=>!0)),d(window,"afterprint").pipe(m(()=>!1))).pipe(Q(e.matches))}function Nr(e,t){return e.pipe(b(r=>r?t():M))}function zr(e,t){return new F(r=>{let o=new XMLHttpRequest;return o.open("GET",`${e}`),o.responseType="blob",o.addEventListener("load",()=>{o.status>=200&&o.status<300?(r.next(o.response),r.complete()):r.error(new Error(o.statusText))}),o.addEventListener("error",()=>{r.error(new Error("Network error"))}),o.addEventListener("abort",()=>{r.complete()}),typeof(t==null?void 0:t.progress$)!="undefined"&&(o.addEventListener("progress",n=>{var i;if(n.lengthComputable)t.progress$.next(n.loaded/n.total*100);else{let a=(i=o.getResponseHeader("Content-Length"))!=null?i:0;t.progress$.next(n.loaded/+a*100)}}),t.progress$.next(5)),o.send(),()=>o.abort()})}function Ne(e,t){return zr(e,t).pipe(b(r=>r.text()),m(r=>JSON.parse(r)),B(1))}function ln(e,t){let r=new DOMParser;return zr(e,t).pipe(b(o=>o.text()),m(o=>r.parseFromString(o,"text/html")),B(1))}function mn(e,t){let r=new DOMParser;return zr(e,t).pipe(b(o=>o.text()),m(o=>r.parseFromString(o,"text/xml")),B(1))}function fn(){return{x:Math.max(0,scrollX),y:Math.max(0,scrollY)}}function un(){return S(d(window,"scroll",{passive:!0}),d(window,"resize",{passive:!0})).pipe(m(fn),Q(fn()))}function dn(){return{width:innerWidth,height:innerHeight}}function hn(){return d(window,"resize",{passive:!0}).pipe(m(dn),Q(dn()))}function bn(){return z([un(),hn()]).pipe(m(([e,t])=>({offset:e,size:t})),B(1))}function mr(e,{viewport$:t,header$:r}){let o=t.pipe(Z("size")),n=z([o,r]).pipe(m(()=>Ue(e)));return z([r,t,n]).pipe(m(([{height:i},{offset:a,size:s},{x:p,y:c}])=>({offset:{x:a.x-p,y:a.y-c+i},size:s})))}function Oa(e){return d(e,"message",t=>t.data)}function Ma(e){let t=new g;return t.subscribe(r=>e.postMessage(r)),t}function vn(e,t=new Worker(e)){let r=Oa(t),o=Ma(t),n=new g;n.subscribe(o);let i=o.pipe(X(),ne(!0));return n.pipe(X(),Pe(r.pipe(U(i))),pe())}var La=P("#__config"),St=JSON.parse(La.textContent);St.base=`${new URL(St.base,xe())}`;function ye(){return St}function G(e){return St.features.includes(e)}function Ee(e,t){return typeof t!="undefined"?St.translations[e].replace("#",t.toString()):St.translations[e]}function Se(e,t=document){return P(`[data-md-component=${e}]`,t)}function ae(e,t=document){return $(`[data-md-component=${e}]`,t)}function _a(e){let t=P(".md-typeset > :first-child",e);return d(t,"click",{once:!0}).pipe(m(()=>P(".md-typeset",e)),m(r=>({hash:__md_hash(r.innerHTML)})))}function gn(e){if(!G("announce.dismiss")||!e.childElementCount)return M;if(!e.hidden){let t=P(".md-typeset",e);__md_hash(t.innerHTML)===__md_get("__announce")&&(e.hidden=!0)}return C(()=>{let t=new g;return t.subscribe(({hash:r})=>{e.hidden=!0,__md_set("__announce",r)}),_a(e).pipe(E(r=>t.next(r)),L(()=>t.complete()),m(r=>R({ref:e},r)))})}function Aa(e,{target$:t}){return t.pipe(m(r=>({hidden:r!==e})))}function xn(e,t){let r=new g;return r.subscribe(({hidden:o})=>{e.hidden=o}),Aa(e,t).pipe(E(o=>r.next(o)),L(()=>r.complete()),m(o=>R({ref:e},o)))}function Pt(e,t){return t==="inline"?x("div",{class:"md-tooltip md-tooltip--inline",id:e,role:"tooltip"},x("div",{class:"md-tooltip__inner md-typeset"})):x("div",{class:"md-tooltip",id:e,role:"tooltip"},x("div",{class:"md-tooltip__inner md-typeset"}))}function yn(...e){return x("div",{class:"md-tooltip2",role:"tooltip"},x("div",{class:"md-tooltip2__inner md-typeset"},e))}function En(e,t){if(t=t?`${t}_annotation_${e}`:void 0,t){let r=t?`#${t}`:void 0;return x("aside",{class:"md-annotation",tabIndex:0},Pt(t),x("a",{href:r,class:"md-annotation__index",tabIndex:-1},x("span",{"data-md-annotation-id":e})))}else return x("aside",{class:"md-annotation",tabIndex:0},Pt(t),x("span",{class:"md-annotation__index",tabIndex:-1},x("span",{"data-md-annotation-id":e})))}function wn(e){return x("button",{class:"md-clipboard md-icon",title:Ee("clipboard.copy"),"data-clipboard-target":`#${e} > code`})}function qr(e,t){let r=t&2,o=t&1,n=Object.keys(e.terms).filter(p=>!e.terms[p]).reduce((p,c)=>[...p,x("del",null,c)," "],[]).slice(0,-1),i=ye(),a=new URL(e.location,i.base);G("search.highlight")&&a.searchParams.set("h",Object.entries(e.terms).filter(([,p])=>p).reduce((p,[c])=>`${p} ${c}`.trim(),""));let{tags:s}=ye();return x("a",{href:`${a}`,class:"md-search-result__link",tabIndex:-1},x("article",{class:"md-search-result__article md-typeset","data-md-score":e.score.toFixed(2)},r>0&&x("div",{class:"md-search-result__icon md-icon"}),r>0&&x("h1",null,e.title),r<=0&&x("h2",null,e.title),o>0&&e.text.length>0&&e.text,e.tags&&e.tags.map(p=>{let c=s?p in s?`md-tag-icon md-tag--${s[p]}`:"md-tag-icon":"";return x("span",{class:`md-tag ${c}`},p)}),o>0&&n.length>0&&x("p",{class:"md-search-result__terms"},Ee("search.result.term.missing"),": ",...n)))}function Tn(e){let t=e[0].score,r=[...e],o=ye(),n=r.findIndex(l=>!`${new URL(l.location,o.base)}`.includes("#")),[i]=r.splice(n,1),a=r.findIndex(l=>l.score<t);a===-1&&(a=r.length);let s=r.slice(0,a),p=r.slice(a),c=[qr(i,2|+(!n&&a===0)),...s.map(l=>qr(l,1)),...p.length?[x("details",{class:"md-search-result__more"},x("summary",{tabIndex:-1},x("div",null,p.length>0&&p.length===1?Ee("search.result.more.one"):Ee("search.result.more.other",p.length))),...p.map(l=>qr(l,1)))]:[]];return x("li",{class:"md-search-result__item"},c)}function Sn(e){return x("ul",{class:"md-source__facts"},Object.entries(e).map(([t,r])=>x("li",{class:`md-source__fact md-source__fact--${t}`},typeof r=="number"?sr(r):r)))}function Qr(e){let t=`tabbed-control tabbed-control--${e}`;return x("div",{class:t,hidden:!0},x("button",{class:"tabbed-button",tabIndex:-1,"aria-hidden":"true"}))}function On(e){return x("div",{class:"md-typeset__scrollwrap"},x("div",{class:"md-typeset__table"},e))}function Ca(e){var o;let t=ye(),r=new URL(`../${e.version}/`,t.base);return x("li",{class:"md-version__item"},x("a",{href:`${r}`,class:"md-version__link"},e.title,((o=t.version)==null?void 0:o.alias)&&e.aliases.length>0&&x("span",{class:"md-version__alias"},e.aliases[0])))}function Mn(e,t){var o;let r=ye();return e=e.filter(n=>{var i;return!((i=n.properties)!=null&&i.hidden)}),x("div",{class:"md-version"},x("button",{class:"md-version__current","aria-label":Ee("select.version")},t.title,((o=r.version)==null?void 0:o.alias)&&t.aliases.length>0&&x("span",{class:"md-version__alias"},t.aliases[0])),x("ul",{class:"md-version__list"},e.map(Ca)))}var Ha=0;function ka(e){let t=z([et(e),kt(e)]).pipe(m(([o,n])=>o||n),K()),r=C(()=>Jo(e)).pipe(oe(De),ct(1),m(()=>Xo(e)));return t.pipe(Ae(o=>o),b(()=>z([t,r])),m(([o,n])=>({active:o,offset:n})),pe())}function $a(e,t){let{content$:r,viewport$:o}=t,n=`__tooltip2_${Ha++}`;return C(()=>{let i=new g,a=new _r(!1);i.pipe(X(),ne(!1)).subscribe(a);let s=a.pipe(Ht(c=>Me(+!c*250,Hr)),K(),b(c=>c?r:M),E(c=>c.id=n),pe());z([i.pipe(m(({active:c})=>c)),s.pipe(b(c=>kt(c,250)),Q(!1))]).pipe(m(c=>c.some(l=>l))).subscribe(a);let p=a.pipe(v(c=>c),ee(s,o),m(([c,l,{size:f}])=>{let u=e.getBoundingClientRect(),h=u.width/2;if(l.role==="tooltip")return{x:h,y:8+u.height};if(u.y>=f.height/2){let{height:w}=ce(l);return{x:h,y:-16-w}}else return{x:h,y:16+u.height}}));return z([s,i,p]).subscribe(([c,{offset:l},f])=>{c.style.setProperty("--md-tooltip-host-x",`${l.x}px`),c.style.setProperty("--md-tooltip-host-y",`${l.y}px`),c.style.setProperty("--md-tooltip-x",`${f.x}px`),c.style.setProperty("--md-tooltip-y",`${f.y}px`),c.classList.toggle("md-tooltip2--top",f.y<0),c.classList.toggle("md-tooltip2--bottom",f.y>=0)}),a.pipe(v(c=>c),ee(s,(c,l)=>l),v(c=>c.role==="tooltip")).subscribe(c=>{let l=ce(P(":scope > *",c));c.style.setProperty("--md-tooltip-width",`${l.width}px`),c.style.setProperty("--md-tooltip-tail","0px")}),a.pipe(K(),be(me),ee(s)).subscribe(([c,l])=>{l.classList.toggle("md-tooltip2--active",c)}),z([a.pipe(v(c=>c)),s]).subscribe(([c,l])=>{l.role==="dialog"?(e.setAttribute("aria-controls",n),e.setAttribute("aria-haspopup","dialog")):e.setAttribute("aria-describedby",n)}),a.pipe(v(c=>!c)).subscribe(()=>{e.removeAttribute("aria-controls"),e.removeAttribute("aria-describedby"),e.removeAttribute("aria-haspopup")}),ka(e).pipe(E(c=>i.next(c)),L(()=>i.complete()),m(c=>R({ref:e},c)))})}function lt(e,{viewport$:t},r=document.body){return $a(e,{content$:new F(o=>{let n=e.title,i=yn(n);return o.next(i),e.removeAttribute("title"),r.append(i),()=>{i.remove(),e.setAttribute("title",n)}}),viewport$:t})}function Pa(e,t){let r=C(()=>z([Zo(e),De(t)])).pipe(m(([{x:o,y:n},i])=>{let{width:a,height:s}=ce(e);return{x:o-i.x+a/2,y:n-i.y+s/2}}));return et(e).pipe(b(o=>r.pipe(m(n=>({active:o,offset:n})),Te(+!o||1/0))))}function Ln(e,t,{target$:r}){let[o,n]=Array.from(e.children);return C(()=>{let i=new g,a=i.pipe(X(),ne(!0));return i.subscribe({next({offset:s}){e.style.setProperty("--md-tooltip-x",`${s.x}px`),e.style.setProperty("--md-tooltip-y",`${s.y}px`)},complete(){e.style.removeProperty("--md-tooltip-x"),e.style.removeProperty("--md-tooltip-y")}}),tt(e).pipe(U(a)).subscribe(s=>{e.toggleAttribute("data-md-visible",s)}),S(i.pipe(v(({active:s})=>s)),i.pipe(_e(250),v(({active:s})=>!s))).subscribe({next({active:s}){s?e.prepend(o):o.remove()},complete(){e.prepend(o)}}),i.pipe(Le(16,me)).subscribe(({active:s})=>{o.classList.toggle("md-tooltip--active",s)}),i.pipe(ct(125,me),v(()=>!!e.offsetParent),m(()=>e.offsetParent.getBoundingClientRect()),m(({x:s})=>s)).subscribe({next(s){s?e.style.setProperty("--md-tooltip-0",`${-s}px`):e.style.removeProperty("--md-tooltip-0")},complete(){e.style.removeProperty("--md-tooltip-0")}}),d(n,"click").pipe(U(a),v(s=>!(s.metaKey||s.ctrlKey))).subscribe(s=>{s.stopPropagation(),s.preventDefault()}),d(n,"mousedown").pipe(U(a),ee(i)).subscribe(([s,{active:p}])=>{var c;if(s.button!==0||s.metaKey||s.ctrlKey)s.preventDefault();else if(p){s.preventDefault();let l=e.parentElement.closest(".md-annotation");l instanceof HTMLElement?l.focus():(c=Re())==null||c.blur()}}),r.pipe(U(a),v(s=>s===o),Ge(125)).subscribe(()=>e.focus()),Pa(e,t).pipe(E(s=>i.next(s)),L(()=>i.complete()),m(s=>R({ref:e},s)))})}function Ra(e){return e.tagName==="CODE"?$(".c, .c1, .cm",e):[e]}function Ia(e){let t=[];for(let r of Ra(e)){let o=[],n=document.createNodeIterator(r,NodeFilter.SHOW_TEXT);for(let i=n.nextNode();i;i=n.nextNode())o.push(i);for(let i of o){let a;for(;a=/(\(\d+\))(!)?/.exec(i.textContent);){let[,s,p]=a;if(typeof p=="undefined"){let c=i.splitText(a.index);i=c.splitText(s.length),t.push(c)}else{i.textContent=s,t.push(i);break}}}}return t}function _n(e,t){t.append(...Array.from(e.childNodes))}function fr(e,t,{target$:r,print$:o}){let n=t.closest("[id]"),i=n==null?void 0:n.id,a=new Map;for(let s of Ia(t)){let[,p]=s.textContent.match(/\((\d+)\)/);fe(`:scope > li:nth-child(${p})`,e)&&(a.set(p,En(p,i)),s.replaceWith(a.get(p)))}return a.size===0?M:C(()=>{let s=new g,p=s.pipe(X(),ne(!0)),c=[];for(let[l,f]of a)c.push([P(".md-typeset",f),P(`:scope > li:nth-child(${l})`,e)]);return o.pipe(U(p)).subscribe(l=>{e.hidden=!l,e.classList.toggle("md-annotation-list",l);for(let[f,u]of c)l?_n(f,u):_n(u,f)}),S(...[...a].map(([,l])=>Ln(l,t,{target$:r}))).pipe(L(()=>s.complete()),pe())})}function An(e){if(e.nextElementSibling){let t=e.nextElementSibling;if(t.tagName==="OL")return t;if(t.tagName==="P"&&!t.children.length)return An(t)}}function Cn(e,t){return C(()=>{let r=An(e);return typeof r!="undefined"?fr(r,e,t):M})}var Hn=Vt(Yr());var Fa=0;function kn(e){if(e.nextElementSibling){let t=e.nextElementSibling;if(t.tagName==="OL")return t;if(t.tagName==="P"&&!t.children.length)return kn(t)}}function ja(e){return ge(e).pipe(m(({width:t})=>({scrollable:Tt(e).width>t})),Z("scrollable"))}function $n(e,t){let{matches:r}=matchMedia("(hover)"),o=C(()=>{let n=new g,i=n.pipe(Fr(1));n.subscribe(({scrollable:c})=>{c&&r?e.setAttribute("tabindex","0"):e.removeAttribute("tabindex")});let a=[];if(Hn.default.isSupported()&&(e.closest(".copy")||G("content.code.copy")&&!e.closest(".no-copy"))){let c=e.closest("pre");c.id=`__code_${Fa++}`;let l=wn(c.id);c.insertBefore(l,e),G("content.tooltips")&&a.push(lt(l,{viewport$}))}let s=e.closest(".highlight");if(s instanceof HTMLElement){let c=kn(s);if(typeof c!="undefined"&&(s.classList.contains("annotate")||G("content.code.annotate"))){let l=fr(c,e,t);a.push(ge(s).pipe(U(i),m(({width:f,height:u})=>f&&u),K(),b(f=>f?l:M)))}}return $(":scope > span[id]",e).length&&e.classList.add("md-code__content"),ja(e).pipe(E(c=>n.next(c)),L(()=>n.complete()),m(c=>R({ref:e},c)),Pe(...a))});return G("content.lazy")?tt(e).pipe(v(n=>n),Te(1),b(()=>o)):o}function Wa(e,{target$:t,print$:r}){let o=!0;return S(t.pipe(m(n=>n.closest("details:not([open])")),v(n=>e===n),m(()=>({action:"open",reveal:!0}))),r.pipe(v(n=>n||!o),E(()=>o=e.open),m(n=>({action:n?"open":"close"}))))}function Pn(e,t){return C(()=>{let r=new g;return r.subscribe(({action:o,reveal:n})=>{e.toggleAttribute("open",o==="open"),n&&e.scrollIntoView()}),Wa(e,t).pipe(E(o=>r.next(o)),L(()=>r.complete()),m(o=>R({ref:e},o)))})}var Rn=".node circle,.node ellipse,.node path,.node polygon,.node rect{fill:var(--md-mermaid-node-bg-color);stroke:var(--md-mermaid-node-fg-color)}marker{fill:var(--md-mermaid-edge-color)!important}.edgeLabel .label rect{fill:#0000}.label{color:var(--md-mermaid-label-fg-color);font-family:var(--md-mermaid-font-family)}.label foreignObject{line-height:normal;overflow:visible}.label div .edgeLabel{color:var(--md-mermaid-label-fg-color)}.edgeLabel,.edgeLabel rect,.label div .edgeLabel{background-color:var(--md-mermaid-label-bg-color)}.edgeLabel,.edgeLabel rect{fill:var(--md-mermaid-label-bg-color);color:var(--md-mermaid-edge-color)}.edgePath .path,.flowchart-link{stroke:var(--md-mermaid-edge-color);stroke-width:.05rem}.edgePath .arrowheadPath{fill:var(--md-mermaid-edge-color);stroke:none}.cluster rect{fill:var(--md-default-fg-color--lightest);stroke:var(--md-default-fg-color--lighter)}.cluster span{color:var(--md-mermaid-label-fg-color);font-family:var(--md-mermaid-font-family)}g #flowchart-circleEnd,g #flowchart-circleStart,g #flowchart-crossEnd,g #flowchart-crossStart,g #flowchart-pointEnd,g #flowchart-pointStart{stroke:none}g.classGroup line,g.classGroup rect{fill:var(--md-mermaid-node-bg-color);stroke:var(--md-mermaid-node-fg-color)}g.classGroup text{fill:var(--md-mermaid-label-fg-color);font-family:var(--md-mermaid-font-family)}.classLabel .box{fill:var(--md-mermaid-label-bg-color);background-color:var(--md-mermaid-label-bg-color);opacity:1}.classLabel .label{fill:var(--md-mermaid-label-fg-color);font-family:var(--md-mermaid-font-family)}.node .divider{stroke:var(--md-mermaid-node-fg-color)}.relation{stroke:var(--md-mermaid-edge-color)}.cardinality{fill:var(--md-mermaid-label-fg-color);font-family:var(--md-mermaid-font-family)}.cardinality text{fill:inherit!important}defs #classDiagram-compositionEnd,defs #classDiagram-compositionStart,defs #classDiagram-dependencyEnd,defs #classDiagram-dependencyStart,defs #classDiagram-extensionEnd,defs #classDiagram-extensionStart{fill:var(--md-mermaid-edge-color)!important;stroke:var(--md-mermaid-edge-color)!important}defs #classDiagram-aggregationEnd,defs #classDiagram-aggregationStart{fill:var(--md-mermaid-label-bg-color)!important;stroke:var(--md-mermaid-edge-color)!important}g.stateGroup rect{fill:var(--md-mermaid-node-bg-color);stroke:var(--md-mermaid-node-fg-color)}g.stateGroup .state-title{fill:var(--md-mermaid-label-fg-color)!important;font-family:var(--md-mermaid-font-family)}g.stateGroup .composit{fill:var(--md-mermaid-label-bg-color)}.nodeLabel,.nodeLabel p{color:var(--md-mermaid-label-fg-color);font-family:var(--md-mermaid-font-family)}a .nodeLabel{text-decoration:underline}.node circle.state-end,.node circle.state-start,.start-state{fill:var(--md-mermaid-edge-color);stroke:none}.end-state-inner,.end-state-outer{fill:var(--md-mermaid-edge-color)}.end-state-inner,.node circle.state-end{stroke:var(--md-mermaid-label-bg-color)}.transition{stroke:var(--md-mermaid-edge-color)}[id^=state-fork] rect,[id^=state-join] rect{fill:var(--md-mermaid-edge-color)!important;stroke:none!important}.statediagram-cluster.statediagram-cluster .inner{fill:var(--md-default-bg-color)}.statediagram-cluster rect{fill:var(--md-mermaid-node-bg-color);stroke:var(--md-mermaid-node-fg-color)}.statediagram-state rect.divider{fill:var(--md-default-fg-color--lightest);stroke:var(--md-default-fg-color--lighter)}defs #statediagram-barbEnd{stroke:var(--md-mermaid-edge-color)}.attributeBoxEven,.attributeBoxOdd{fill:var(--md-mermaid-node-bg-color);stroke:var(--md-mermaid-node-fg-color)}.entityBox{fill:var(--md-mermaid-label-bg-color);stroke:var(--md-mermaid-node-fg-color)}.entityLabel{fill:var(--md-mermaid-label-fg-color);font-family:var(--md-mermaid-font-family)}.relationshipLabelBox{fill:var(--md-mermaid-label-bg-color);fill-opacity:1;background-color:var(--md-mermaid-label-bg-color);opacity:1}.relationshipLabel{fill:var(--md-mermaid-label-fg-color)}.relationshipLine{stroke:var(--md-mermaid-edge-color)}defs #ONE_OR_MORE_END *,defs #ONE_OR_MORE_START *,defs #ONLY_ONE_END *,defs #ONLY_ONE_START *,defs #ZERO_OR_MORE_END *,defs #ZERO_OR_MORE_START *,defs #ZERO_OR_ONE_END *,defs #ZERO_OR_ONE_START *{stroke:var(--md-mermaid-edge-color)!important}defs #ZERO_OR_MORE_END circle,defs #ZERO_OR_MORE_START circle{fill:var(--md-mermaid-label-bg-color)}.actor{fill:var(--md-mermaid-sequence-actor-bg-color);stroke:var(--md-mermaid-sequence-actor-border-color)}text.actor>tspan{fill:var(--md-mermaid-sequence-actor-fg-color);font-family:var(--md-mermaid-font-family)}line{stroke:var(--md-mermaid-sequence-actor-line-color)}.actor-man circle,.actor-man line{fill:var(--md-mermaid-sequence-actorman-bg-color);stroke:var(--md-mermaid-sequence-actorman-line-color)}.messageLine0,.messageLine1{stroke:var(--md-mermaid-sequence-message-line-color)}.note{fill:var(--md-mermaid-sequence-note-bg-color);stroke:var(--md-mermaid-sequence-note-border-color)}.loopText,.loopText>tspan,.messageText,.noteText>tspan{stroke:none;font-family:var(--md-mermaid-font-family)!important}.messageText{fill:var(--md-mermaid-sequence-message-fg-color)}.loopText,.loopText>tspan{fill:var(--md-mermaid-sequence-loop-fg-color)}.noteText>tspan{fill:var(--md-mermaid-sequence-note-fg-color)}#arrowhead path{fill:var(--md-mermaid-sequence-message-line-color);stroke:none}.loopLine{fill:var(--md-mermaid-sequence-loop-bg-color);stroke:var(--md-mermaid-sequence-loop-border-color)}.labelBox{fill:var(--md-mermaid-sequence-label-bg-color);stroke:none}.labelText,.labelText>span{fill:var(--md-mermaid-sequence-label-fg-color);font-family:var(--md-mermaid-font-family)}.sequenceNumber{fill:var(--md-mermaid-sequence-number-fg-color)}rect.rect{fill:var(--md-mermaid-sequence-box-bg-color);stroke:none}rect.rect+text.text{fill:var(--md-mermaid-sequence-box-fg-color)}defs #sequencenumber{fill:var(--md-mermaid-sequence-number-bg-color)!important}";var Br,Da=0;function Va(){return typeof mermaid=="undefined"||mermaid instanceof Element?wt("https://unpkg.com/mermaid@10/dist/mermaid.min.js"):I(void 0)}function In(e){return e.classList.remove("mermaid"),Br||(Br=Va().pipe(E(()=>mermaid.initialize({startOnLoad:!1,themeCSS:Rn,sequence:{actorFontSize:"16px",messageFontSize:"16px",noteFontSize:"16px"}})),m(()=>{}),B(1))),Br.subscribe(()=>ao(this,null,function*(){e.classList.add("mermaid");let t=`__mermaid_${Da++}`,r=x("div",{class:"mermaid"}),o=e.textContent,{svg:n,fn:i}=yield mermaid.render(t,o),a=r.attachShadow({mode:"closed"});a.innerHTML=n,e.replaceWith(r),i==null||i(a)})),Br.pipe(m(()=>({ref:e})))}var Fn=x("table");function jn(e){return e.replaceWith(Fn),Fn.replaceWith(On(e)),I({ref:e})}function Na(e){let t=e.find(r=>r.checked)||e[0];return S(...e.map(r=>d(r,"change").pipe(m(()=>P(`label[for="${r.id}"]`))))).pipe(Q(P(`label[for="${t.id}"]`)),m(r=>({active:r})))}function Wn(e,{viewport$:t,target$:r}){let o=P(".tabbed-labels",e),n=$(":scope > input",e),i=Qr("prev");e.append(i);let a=Qr("next");return e.append(a),C(()=>{let s=new g,p=s.pipe(X(),ne(!0));z([s,ge(e)]).pipe(U(p),Le(1,me)).subscribe({next([{active:c},l]){let f=Ue(c),{width:u}=ce(c);e.style.setProperty("--md-indicator-x",`${f.x}px`),e.style.setProperty("--md-indicator-width",`${u}px`);let h=pr(o);(f.x<h.x||f.x+u>h.x+l.width)&&o.scrollTo({left:Math.max(0,f.x-16),behavior:"smooth"})},complete(){e.style.removeProperty("--md-indicator-x"),e.style.removeProperty("--md-indicator-width")}}),z([De(o),ge(o)]).pipe(U(p)).subscribe(([c,l])=>{let f=Tt(o);i.hidden=c.x<16,a.hidden=c.x>f.width-l.width-16}),S(d(i,"click").pipe(m(()=>-1)),d(a,"click").pipe(m(()=>1))).pipe(U(p)).subscribe(c=>{let{width:l}=ce(o);o.scrollBy({left:l*c,behavior:"smooth"})}),r.pipe(U(p),v(c=>n.includes(c))).subscribe(c=>c.click()),o.classList.add("tabbed-labels--linked");for(let c of n){let l=P(`label[for="${c.id}"]`);l.replaceChildren(x("a",{href:`#${l.htmlFor}`,tabIndex:-1},...Array.from(l.childNodes))),d(l.firstElementChild,"click").pipe(U(p),v(f=>!(f.metaKey||f.ctrlKey)),E(f=>{f.preventDefault(),f.stopPropagation()})).subscribe(()=>{history.replaceState({},"",`#${l.htmlFor}`),l.click()})}return G("content.tabs.link")&&s.pipe(Ce(1),ee(t)).subscribe(([{active:c},{offset:l}])=>{let f=c.innerText.trim();if(c.hasAttribute("data-md-switching"))c.removeAttribute("data-md-switching");else{let u=e.offsetTop-l.y;for(let w of $("[data-tabs]"))for(let A of $(":scope > input",w)){let te=P(`label[for="${A.id}"]`);if(te!==c&&te.innerText.trim()===f){te.setAttribute("data-md-switching",""),A.click();break}}window.scrollTo({top:e.offsetTop-u});let h=__md_get("__tabs")||[];__md_set("__tabs",[...new Set([f,...h])])}}),s.pipe(U(p)).subscribe(()=>{for(let c of $("audio, video",e))c.pause()}),tt(e).pipe(b(()=>Na(n)),E(c=>s.next(c)),L(()=>s.complete()),m(c=>R({ref:e},c)))}).pipe(Qe(se))}function Un(e,{viewport$:t,target$:r,print$:o}){return S(...$(".annotate:not(.highlight)",e).map(n=>Cn(n,{target$:r,print$:o})),...$("pre:not(.mermaid) > code",e).map(n=>$n(n,{target$:r,print$:o})),...$("pre.mermaid",e).map(n=>In(n)),...$("table:not([class])",e).map(n=>jn(n)),...$("details",e).map(n=>Pn(n,{target$:r,print$:o})),...$("[data-tabs]",e).map(n=>Wn(n,{viewport$:t,target$:r})),...$("[title]",e).filter(()=>G("content.tooltips")).map(n=>lt(n,{viewport$:t})))}function za(e,{alert$:t}){return t.pipe(b(r=>S(I(!0),I(!1).pipe(Ge(2e3))).pipe(m(o=>({message:r,active:o})))))}function Dn(e,t){let r=P(".md-typeset",e);return C(()=>{let o=new g;return o.subscribe(({message:n,active:i})=>{e.classList.toggle("md-dialog--active",i),r.textContent=n}),za(e,t).pipe(E(n=>o.next(n)),L(()=>o.complete()),m(n=>R({ref:e},n)))})}var qa=0;function Qa(e,t){document.body.append(e);let{width:r}=ce(e);e.style.setProperty("--md-tooltip-width",`${r}px`),e.remove();let o=cr(t),n=typeof o!="undefined"?De(o):I({x:0,y:0}),i=S(et(t),kt(t)).pipe(K());return z([i,n]).pipe(m(([a,s])=>{let{x:p,y:c}=Ue(t),l=ce(t),f=t.closest("table");return f&&t.parentElement&&(p+=f.offsetLeft+t.parentElement.offsetLeft,c+=f.offsetTop+t.parentElement.offsetTop),{active:a,offset:{x:p-s.x+l.width/2-r/2,y:c-s.y+l.height+8}}}))}function Vn(e){let t=e.title;if(!t.length)return M;let r=`__tooltip_${qa++}`,o=Pt(r,"inline"),n=P(".md-typeset",o);return n.innerHTML=t,C(()=>{let i=new g;return i.subscribe({next({offset:a}){o.style.setProperty("--md-tooltip-x",`${a.x}px`),o.style.setProperty("--md-tooltip-y",`${a.y}px`)},complete(){o.style.removeProperty("--md-tooltip-x"),o.style.removeProperty("--md-tooltip-y")}}),S(i.pipe(v(({active:a})=>a)),i.pipe(_e(250),v(({active:a})=>!a))).subscribe({next({active:a}){a?(e.insertAdjacentElement("afterend",o),e.setAttribute("aria-describedby",r),e.removeAttribute("title")):(o.remove(),e.removeAttribute("aria-describedby"),e.setAttribute("title",t))},complete(){o.remove(),e.removeAttribute("aria-describedby"),e.setAttribute("title",t)}}),i.pipe(Le(16,me)).subscribe(({active:a})=>{o.classList.toggle("md-tooltip--active",a)}),i.pipe(ct(125,me),v(()=>!!e.offsetParent),m(()=>e.offsetParent.getBoundingClientRect()),m(({x:a})=>a)).subscribe({next(a){a?o.style.setProperty("--md-tooltip-0",`${-a}px`):o.style.removeProperty("--md-tooltip-0")},complete(){o.style.removeProperty("--md-tooltip-0")}}),Qa(o,e).pipe(E(a=>i.next(a)),L(()=>i.complete()),m(a=>R({ref:e},a)))}).pipe(Qe(se))}function Ka({viewport$:e}){if(!G("header.autohide"))return I(!1);let t=e.pipe(m(({offset:{y:n}})=>n),Ye(2,1),m(([n,i])=>[n<i,i]),Z(0)),r=z([e,t]).pipe(v(([{offset:n},[,i]])=>Math.abs(i-n.y)>100),m(([,[n]])=>n),K()),o=Ve("search");return z([e,o]).pipe(m(([{offset:n},i])=>n.y>400&&!i),K(),b(n=>n?r:I(!1)),Q(!1))}function Nn(e,t){return C(()=>z([ge(e),Ka(t)])).pipe(m(([{height:r},o])=>({height:r,hidden:o})),K((r,o)=>r.height===o.height&&r.hidden===o.hidden),B(1))}function zn(e,{header$:t,main$:r}){return C(()=>{let o=new g,n=o.pipe(X(),ne(!0));o.pipe(Z("active"),We(t)).subscribe(([{active:a},{hidden:s}])=>{e.classList.toggle("md-header--shadow",a&&!s),e.hidden=s});let i=ue($("[title]",e)).pipe(v(()=>G("content.tooltips")),oe(a=>Vn(a)));return r.subscribe(o),t.pipe(U(n),m(a=>R({ref:e},a)),Pe(i.pipe(U(n))))})}function Ya(e,{viewport$:t,header$:r}){return mr(e,{viewport$:t,header$:r}).pipe(m(({offset:{y:o}})=>{let{height:n}=ce(e);return{active:o>=n}}),Z("active"))}function qn(e,t){return C(()=>{let r=new g;r.subscribe({next({active:n}){e.classList.toggle("md-header__title--active",n)},complete(){e.classList.remove("md-header__title--active")}});let o=fe(".md-content h1");return typeof o=="undefined"?M:Ya(o,t).pipe(E(n=>r.next(n)),L(()=>r.complete()),m(n=>R({ref:e},n)))})}function Qn(e,{viewport$:t,header$:r}){let o=r.pipe(m(({height:i})=>i),K()),n=o.pipe(b(()=>ge(e).pipe(m(({height:i})=>({top:e.offsetTop,bottom:e.offsetTop+i})),Z("bottom"))));return z([o,n,t]).pipe(m(([i,{top:a,bottom:s},{offset:{y:p},size:{height:c}}])=>(c=Math.max(0,c-Math.max(0,a-p,i)-Math.max(0,c+p-s)),{offset:a-i,height:c,active:a-i<=p})),K((i,a)=>i.offset===a.offset&&i.height===a.height&&i.active===a.active))}function Ba(e){let t=__md_get("__palette")||{index:e.findIndex(o=>matchMedia(o.getAttribute("data-md-color-media")).matches)},r=Math.max(0,Math.min(t.index,e.length-1));return I(...e).pipe(oe(o=>d(o,"change").pipe(m(()=>o))),Q(e[r]),m(o=>({index:e.indexOf(o),color:{media:o.getAttribute("data-md-color-media"),scheme:o.getAttribute("data-md-color-scheme"),primary:o.getAttribute("data-md-color-primary"),accent:o.getAttribute("data-md-color-accent")}})),B(1))}function Kn(e){let t=$("input",e),r=x("meta",{name:"theme-color"});document.head.appendChild(r);let o=x("meta",{name:"color-scheme"});document.head.appendChild(o);let n=$t("(prefers-color-scheme: light)");return C(()=>{let i=new g;return i.subscribe(a=>{if(document.body.setAttribute("data-md-color-switching",""),a.color.media==="(prefers-color-scheme)"){let s=matchMedia("(prefers-color-scheme: light)"),p=document.querySelector(s.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']");a.color.scheme=p.getAttribute("data-md-color-scheme"),a.color.primary=p.getAttribute("data-md-color-primary"),a.color.accent=p.getAttribute("data-md-color-accent")}for(let[s,p]of Object.entries(a.color))document.body.setAttribute(`data-md-color-${s}`,p);for(let s=0;s<t.length;s++){let p=t[s].nextElementSibling;p instanceof HTMLElement&&(p.hidden=a.index!==s)}__md_set("__palette",a)}),d(e,"keydown").pipe(v(a=>a.key==="Enter"),ee(i,(a,s)=>s)).subscribe(({index:a})=>{a=(a+1)%t.length,t[a].click(),t[a].focus()}),i.pipe(m(()=>{let a=Se("header"),s=window.getComputedStyle(a);return o.content=s.colorScheme,s.backgroundColor.match(/\d+/g).map(p=>(+p).toString(16).padStart(2,"0")).join("")})).subscribe(a=>r.content=`#${a}`),i.pipe(be(se)).subscribe(()=>{document.body.removeAttribute("data-md-color-switching")}),Ba(t).pipe(U(n.pipe(Ce(1))),st(),E(a=>i.next(a)),L(()=>i.complete()),m(a=>R({ref:e},a)))})}function Yn(e,{progress$:t}){return C(()=>{let r=new g;return r.subscribe(({value:o})=>{e.style.setProperty("--md-progress-value",`${o}`)}),t.pipe(E(o=>r.next({value:o})),L(()=>r.complete()),m(o=>({ref:e,value:o})))})}var Gr=Vt(Yr());function Ga(e){e.setAttribute("data-md-copying","");let t=e.closest("[data-copy]"),r=t?t.getAttribute("data-copy"):e.innerText;return e.removeAttribute("data-md-copying"),r.trimEnd()}function Bn({alert$:e}){Gr.default.isSupported()&&new F(t=>{new Gr.default("[data-clipboard-target], [data-clipboard-text]",{text:r=>r.getAttribute("data-clipboard-text")||Ga(P(r.getAttribute("data-clipboard-target")))}).on("success",r=>t.next(r))}).pipe(E(t=>{t.trigger.focus()}),m(()=>Ee("clipboard.copied"))).subscribe(e)}function Gn(e,t){return e.protocol=t.protocol,e.hostname=t.hostname,e}function Ja(e,t){let r=new Map;for(let o of $("url",e)){let n=P("loc",o),i=[Gn(new URL(n.textContent),t)];r.set(`${i[0]}`,i);for(let a of $("[rel=alternate]",o)){let s=a.getAttribute("href");s!=null&&i.push(Gn(new URL(s),t))}}return r}function ur(e){return mn(new URL("sitemap.xml",e)).pipe(m(t=>Ja(t,new URL(e))),ve(()=>I(new Map)))}function Xa(e,t){if(!(e.target instanceof Element))return M;let r=e.target.closest("a");if(r===null)return M;if(r.target||e.metaKey||e.ctrlKey)return M;let o=new URL(r.href);return o.search=o.hash="",t.has(`${o}`)?(e.preventDefault(),I(new URL(r.href))):M}function Jn(e){let t=new Map;for(let r of $(":scope > *",e.head))t.set(r.outerHTML,r);return t}function Xn(e){for(let t of $("[href], [src]",e))for(let r of["href","src"]){let o=t.getAttribute(r);if(o&&!/^(?:[a-z]+:)?\/\//i.test(o)){t[r]=t[r];break}}return I(e)}function Za(e){for(let o of["[data-md-component=announce]","[data-md-component=container]","[data-md-component=header-topic]","[data-md-component=outdated]","[data-md-component=logo]","[data-md-component=skip]",...G("navigation.tabs.sticky")?["[data-md-component=tabs]"]:[]]){let n=fe(o),i=fe(o,e);typeof n!="undefined"&&typeof i!="undefined"&&n.replaceWith(i)}let t=Jn(document);for(let[o,n]of Jn(e))t.has(o)?t.delete(o):document.head.appendChild(n);for(let o of t.values()){let n=o.getAttribute("name");n!=="theme-color"&&n!=="color-scheme"&&o.remove()}let r=Se("container");return je($("script",r)).pipe(b(o=>{let n=e.createElement("script");if(o.src){for(let i of o.getAttributeNames())n.setAttribute(i,o.getAttribute(i));return o.replaceWith(n),new F(i=>{n.onload=()=>i.complete()})}else return n.textContent=o.textContent,o.replaceWith(n),M}),X(),ne(document))}function Zn({location$:e,viewport$:t,progress$:r}){let o=ye();if(location.protocol==="file:")return M;let n=ur(o.base);I(document).subscribe(Xn);let i=d(document.body,"click").pipe(We(n),b(([p,c])=>Xa(p,c)),pe()),a=d(window,"popstate").pipe(m(xe),pe());i.pipe(ee(t)).subscribe(([p,{offset:c}])=>{history.replaceState(c,""),history.pushState(null,"",p)}),S(i,a).subscribe(e);let s=e.pipe(Z("pathname"),b(p=>ln(p,{progress$:r}).pipe(ve(()=>(pt(p,!0),M)))),b(Xn),b(Za),pe());return S(s.pipe(ee(e,(p,c)=>c)),s.pipe(b(()=>e),Z("pathname"),b(()=>e),Z("hash")),e.pipe(K((p,c)=>p.pathname===c.pathname&&p.hash===c.hash),b(()=>i),E(()=>history.back()))).subscribe(p=>{var c,l;history.state!==null||!p.hash?window.scrollTo(0,(l=(c=history.state)==null?void 0:c.y)!=null?l:0):(history.scrollRestoration="auto",sn(p.hash),history.scrollRestoration="manual")}),e.subscribe(()=>{history.scrollRestoration="manual"}),d(window,"beforeunload").subscribe(()=>{history.scrollRestoration="auto"}),t.pipe(Z("offset"),_e(100)).subscribe(({offset:p})=>{history.replaceState(p,"")}),s}var ri=Vt(ti());function oi(e){let t=e.separator.split("|").map(n=>n.replace(/(\(\?[!=<][^)]+\))/g,"").length===0?"\uFFFD":n).join("|"),r=new RegExp(t,"img"),o=(n,i,a)=>`${i}<mark data-md-highlight>${a}</mark>`;return n=>{n=n.replace(/[\s*+\-:~^]+/g," ").trim();let i=new RegExp(`(^|${e.separator}|)(${n.replace(/[|\\{}()[\]^$+*?.-]/g,"\\$&").replace(r,"|")})`,"img");return a=>(0,ri.default)(a).replace(i,o).replace(/<\/mark>(\s+)<mark[^>]*>/img,"$1")}}function It(e){return e.type===1}function dr(e){return e.type===3}function ni(e,t){let r=vn(e);return S(I(location.protocol!=="file:"),Ve("search")).pipe(Ae(o=>o),b(()=>t)).subscribe(({config:o,docs:n})=>r.next({type:0,data:{config:o,docs:n,options:{suggest:G("search.suggest")}}})),r}function ii({document$:e}){let t=ye(),r=Ne(new URL("../versions.json",t.base)).pipe(ve(()=>M)),o=r.pipe(m(n=>{let[,i]=t.base.match(/([^/]+)\/?$/);return n.find(({version:a,aliases:s})=>a===i||s.includes(i))||n[0]}));r.pipe(m(n=>new Map(n.map(i=>[`${new URL(`../${i.version}/`,t.base)}`,i]))),b(n=>d(document.body,"click").pipe(v(i=>!i.metaKey&&!i.ctrlKey),ee(o),b(([i,a])=>{if(i.target instanceof Element){let s=i.target.closest("a");if(s&&!s.target&&n.has(s.href)){let p=s.href;return!i.target.closest(".md-version")&&n.get(p)===a?M:(i.preventDefault(),I(p))}}return M}),b(i=>ur(new URL(i)).pipe(m(a=>{let p=xe().href.replace(t.base,i);return a.has(p.split("#")[0])?new URL(p):new URL(i)})))))).subscribe(n=>pt(n,!0)),z([r,o]).subscribe(([n,i])=>{P(".md-header__topic").appendChild(Mn(n,i))}),e.pipe(b(()=>o)).subscribe(n=>{var a;let i=__md_get("__outdated",sessionStorage);if(i===null){i=!0;let s=((a=t.version)==null?void 0:a.default)||"latest";Array.isArray(s)||(s=[s]);e:for(let p of s)for(let c of n.aliases.concat(n.version))if(new RegExp(p,"i").test(c)){i=!1;break e}__md_set("__outdated",i,sessionStorage)}if(i)for(let s of ae("outdated"))s.hidden=!1})}function ns(e,{worker$:t}){let{searchParams:r}=xe();r.has("q")&&(Je("search",!0),e.value=r.get("q"),e.focus(),Ve("search").pipe(Ae(i=>!i)).subscribe(()=>{let i=xe();i.searchParams.delete("q"),history.replaceState({},"",`${i}`)}));let o=et(e),n=S(t.pipe(Ae(It)),d(e,"keyup"),o).pipe(m(()=>e.value),K());return z([n,o]).pipe(m(([i,a])=>({value:i,focus:a})),B(1))}function ai(e,{worker$:t}){let r=new g,o=r.pipe(X(),ne(!0));z([t.pipe(Ae(It)),r],(i,a)=>a).pipe(Z("value")).subscribe(({value:i})=>t.next({type:2,data:i})),r.pipe(Z("focus")).subscribe(({focus:i})=>{i&&Je("search",i)}),d(e.form,"reset").pipe(U(o)).subscribe(()=>e.focus());let n=P("header [for=__search]");return d(n,"click").subscribe(()=>e.focus()),ns(e,{worker$:t}).pipe(E(i=>r.next(i)),L(()=>r.complete()),m(i=>R({ref:e},i)),B(1))}function si(e,{worker$:t,query$:r}){let o=new g,n=tn(e.parentElement).pipe(v(Boolean)),i=e.parentElement,a=P(":scope > :first-child",e),s=P(":scope > :last-child",e);Ve("search").subscribe(l=>s.setAttribute("role",l?"list":"presentation")),o.pipe(ee(r),Ur(t.pipe(Ae(It)))).subscribe(([{items:l},{value:f}])=>{switch(l.length){case 0:a.textContent=f.length?Ee("search.result.none"):Ee("search.result.placeholder");break;case 1:a.textContent=Ee("search.result.one");break;default:let u=sr(l.length);a.textContent=Ee("search.result.other",u)}});let p=o.pipe(E(()=>s.innerHTML=""),b(({items:l})=>S(I(...l.slice(0,10)),I(...l.slice(10)).pipe(Ye(4),Vr(n),b(([f])=>f)))),m(Tn),pe());return p.subscribe(l=>s.appendChild(l)),p.pipe(oe(l=>{let f=fe("details",l);return typeof f=="undefined"?M:d(f,"toggle").pipe(U(o),m(()=>f))})).subscribe(l=>{l.open===!1&&l.offsetTop<=i.scrollTop&&i.scrollTo({top:l.offsetTop})}),t.pipe(v(dr),m(({data:l})=>l)).pipe(E(l=>o.next(l)),L(()=>o.complete()),m(l=>R({ref:e},l)))}function is(e,{query$:t}){return t.pipe(m(({value:r})=>{let o=xe();return o.hash="",r=r.replace(/\s+/g,"+").replace(/&/g,"%26").replace(/=/g,"%3D"),o.search=`q=${r}`,{url:o}}))}function ci(e,t){let r=new g,o=r.pipe(X(),ne(!0));return r.subscribe(({url:n})=>{e.setAttribute("data-clipboard-text",e.href),e.href=`${n}`}),d(e,"click").pipe(U(o)).subscribe(n=>n.preventDefault()),is(e,t).pipe(E(n=>r.next(n)),L(()=>r.complete()),m(n=>R({ref:e},n)))}function pi(e,{worker$:t,keyboard$:r}){let o=new g,n=Se("search-query"),i=S(d(n,"keydown"),d(n,"focus")).pipe(be(se),m(()=>n.value),K());return o.pipe(We(i),m(([{suggest:s},p])=>{let c=p.split(/([\s-]+)/);if(s!=null&&s.length&&c[c.length-1]){let l=s[s.length-1];l.startsWith(c[c.length-1])&&(c[c.length-1]=l)}else c.length=0;return c})).subscribe(s=>e.innerHTML=s.join("").replace(/\s/g,"&nbsp;")),r.pipe(v(({mode:s})=>s==="search")).subscribe(s=>{switch(s.type){case"ArrowRight":e.innerText.length&&n.selectionStart===n.value.length&&(n.value=e.innerText);break}}),t.pipe(v(dr),m(({data:s})=>s)).pipe(E(s=>o.next(s)),L(()=>o.complete()),m(()=>({ref:e})))}function li(e,{index$:t,keyboard$:r}){let o=ye();try{let n=ni(o.search,t),i=Se("search-query",e),a=Se("search-result",e);d(e,"click").pipe(v(({target:p})=>p instanceof Element&&!!p.closest("a"))).subscribe(()=>Je("search",!1)),r.pipe(v(({mode:p})=>p==="search")).subscribe(p=>{let c=Re();switch(p.type){case"Enter":if(c===i){let l=new Map;for(let f of $(":first-child [href]",a)){let u=f.firstElementChild;l.set(f,parseFloat(u.getAttribute("data-md-score")))}if(l.size){let[[f]]=[...l].sort(([,u],[,h])=>h-u);f.click()}p.claim()}break;case"Escape":case"Tab":Je("search",!1),i.blur();break;case"ArrowUp":case"ArrowDown":if(typeof c=="undefined")i.focus();else{let l=[i,...$(":not(details) > [href], summary, details[open] [href]",a)],f=Math.max(0,(Math.max(0,l.indexOf(c))+l.length+(p.type==="ArrowUp"?-1:1))%l.length);l[f].focus()}p.claim();break;default:i!==Re()&&i.focus()}}),r.pipe(v(({mode:p})=>p==="global")).subscribe(p=>{switch(p.type){case"f":case"s":case"/":i.focus(),i.select(),p.claim();break}});let s=ai(i,{worker$:n});return S(s,si(a,{worker$:n,query$:s})).pipe(Pe(...ae("search-share",e).map(p=>ci(p,{query$:s})),...ae("search-suggest",e).map(p=>pi(p,{worker$:n,keyboard$:r}))))}catch(n){return e.hidden=!0,Ke}}function mi(e,{index$:t,location$:r}){return z([t,r.pipe(Q(xe()),v(o=>!!o.searchParams.get("h")))]).pipe(m(([o,n])=>oi(o.config)(n.searchParams.get("h"))),m(o=>{var a;let n=new Map,i=document.createNodeIterator(e,NodeFilter.SHOW_TEXT);for(let s=i.nextNode();s;s=i.nextNode())if((a=s.parentElement)!=null&&a.offsetHeight){let p=s.textContent,c=o(p);c.length>p.length&&n.set(s,c)}for(let[s,p]of n){let{childNodes:c}=x("span",null,p);s.replaceWith(...Array.from(c))}return{ref:e,nodes:n}}))}function as(e,{viewport$:t,main$:r}){let o=e.closest(".md-grid"),n=o.offsetTop-o.parentElement.offsetTop;return z([r,t]).pipe(m(([{offset:i,height:a},{offset:{y:s}}])=>(a=a+Math.min(n,Math.max(0,s-i))-n,{height:a,locked:s>=i+n})),K((i,a)=>i.height===a.height&&i.locked===a.locked))}function Jr(e,o){var n=o,{header$:t}=n,r=io(n,["header$"]);let i=P(".md-sidebar__scrollwrap",e),{y:a}=Ue(i);return C(()=>{let s=new g,p=s.pipe(X(),ne(!0)),c=s.pipe(Le(0,me));return c.pipe(ee(t)).subscribe({next([{height:l},{height:f}]){i.style.height=`${l-2*a}px`,e.style.top=`${f}px`},complete(){i.style.height="",e.style.top=""}}),c.pipe(Ae()).subscribe(()=>{for(let l of $(".md-nav__link--active[href]",e)){if(!l.clientHeight)continue;let f=l.closest(".md-sidebar__scrollwrap");if(typeof f!="undefined"){let u=l.offsetTop-f.offsetTop,{height:h}=ce(f);f.scrollTo({top:u-h/2})}}}),ue($("label[tabindex]",e)).pipe(oe(l=>d(l,"click").pipe(be(se),m(()=>l),U(p)))).subscribe(l=>{let f=P(`[id="${l.htmlFor}"]`);P(`[aria-labelledby="${l.id}"]`).setAttribute("aria-expanded",`${f.checked}`)}),as(e,r).pipe(E(l=>s.next(l)),L(()=>s.complete()),m(l=>R({ref:e},l)))})}function fi(e,t){if(typeof t!="undefined"){let r=`https://api.github.com/repos/${e}/${t}`;return Ct(Ne(`${r}/releases/latest`).pipe(ve(()=>M),m(o=>({version:o.tag_name})),Be({})),Ne(r).pipe(ve(()=>M),m(o=>({stars:o.stargazers_count,forks:o.forks_count})),Be({}))).pipe(m(([o,n])=>R(R({},o),n)))}else{let r=`https://api.github.com/users/${e}`;return Ne(r).pipe(m(o=>({repositories:o.public_repos})),Be({}))}}function ui(e,t){let r=`https://${e}/api/v4/projects/${encodeURIComponent(t)}`;return Ne(r).pipe(ve(()=>M),m(({star_count:o,forks_count:n})=>({stars:o,forks:n})),Be({}))}function di(e){let t=e.match(/^.+github\.com\/([^/]+)\/?([^/]+)?/i);if(t){let[,r,o]=t;return fi(r,o)}if(t=e.match(/^.+?([^/]*gitlab[^/]+)\/(.+?)\/?$/i),t){let[,r,o]=t;return ui(r,o)}return M}var ss;function cs(e){return ss||(ss=C(()=>{let t=__md_get("__source",sessionStorage);if(t)return I(t);if(ae("consent").length){let o=__md_get("__consent");if(!(o&&o.github))return M}return di(e.href).pipe(E(o=>__md_set("__source",o,sessionStorage)))}).pipe(ve(()=>M),v(t=>Object.keys(t).length>0),m(t=>({facts:t})),B(1)))}function hi(e){let t=P(":scope > :last-child",e);return C(()=>{let r=new g;return r.subscribe(({facts:o})=>{t.appendChild(Sn(o)),t.classList.add("md-source__repository--active")}),cs(e).pipe(E(o=>r.next(o)),L(()=>r.complete()),m(o=>R({ref:e},o)))})}function ps(e,{viewport$:t,header$:r}){return ge(document.body).pipe(b(()=>mr(e,{header$:r,viewport$:t})),m(({offset:{y:o}})=>({hidden:o>=10})),Z("hidden"))}function bi(e,t){return C(()=>{let r=new g;return r.subscribe({next({hidden:o}){e.hidden=o},complete(){e.hidden=!1}}),(G("navigation.tabs.sticky")?I({hidden:!1}):ps(e,t)).pipe(E(o=>r.next(o)),L(()=>r.complete()),m(o=>R({ref:e},o)))})}function ls(e,{viewport$:t,header$:r}){let o=new Map,n=$(".md-nav__link",e);for(let s of n){let p=decodeURIComponent(s.hash.substring(1)),c=fe(`[id="${p}"]`);typeof c!="undefined"&&o.set(s,c)}let i=r.pipe(Z("height"),m(({height:s})=>{let p=Se("main"),c=P(":scope > :first-child",p);return s+.8*(c.offsetTop-p.offsetTop)}),pe());return ge(document.body).pipe(Z("height"),b(s=>C(()=>{let p=[];return I([...o].reduce((c,[l,f])=>{for(;p.length&&o.get(p[p.length-1]).tagName>=f.tagName;)p.pop();let u=f.offsetTop;for(;!u&&f.parentElement;)f=f.parentElement,u=f.offsetTop;let h=f.offsetParent;for(;h;h=h.offsetParent)u+=h.offsetTop;return c.set([...p=[...p,l]].reverse(),u)},new Map))}).pipe(m(p=>new Map([...p].sort(([,c],[,l])=>c-l))),We(i),b(([p,c])=>t.pipe(jr(([l,f],{offset:{y:u},size:h})=>{let w=u+h.height>=Math.floor(s.height);for(;f.length;){let[,A]=f[0];if(A-c<u||w)l=[...l,f.shift()];else break}for(;l.length;){let[,A]=l[l.length-1];if(A-c>=u&&!w)f=[l.pop(),...f];else break}return[l,f]},[[],[...p]]),K((l,f)=>l[0]===f[0]&&l[1]===f[1])))))).pipe(m(([s,p])=>({prev:s.map(([c])=>c),next:p.map(([c])=>c)})),Q({prev:[],next:[]}),Ye(2,1),m(([s,p])=>s.prev.length<p.prev.length?{prev:p.prev.slice(Math.max(0,s.prev.length-1),p.prev.length),next:[]}:{prev:p.prev.slice(-1),next:p.next.slice(0,p.next.length-s.next.length)}))}function vi(e,{viewport$:t,header$:r,main$:o,target$:n}){return C(()=>{let i=new g,a=i.pipe(X(),ne(!0));if(i.subscribe(({prev:s,next:p})=>{for(let[c]of p)c.classList.remove("md-nav__link--passed"),c.classList.remove("md-nav__link--active");for(let[c,[l]]of s.entries())l.classList.add("md-nav__link--passed"),l.classList.toggle("md-nav__link--active",c===s.length-1)}),G("toc.follow")){let s=S(t.pipe(_e(1),m(()=>{})),t.pipe(_e(250),m(()=>"smooth")));i.pipe(v(({prev:p})=>p.length>0),We(o.pipe(be(se))),ee(s)).subscribe(([[{prev:p}],c])=>{let[l]=p[p.length-1];if(l.offsetHeight){let f=cr(l);if(typeof f!="undefined"){let u=l.offsetTop-f.offsetTop,{height:h}=ce(f);f.scrollTo({top:u-h/2,behavior:c})}}})}return G("navigation.tracking")&&t.pipe(U(a),Z("offset"),_e(250),Ce(1),U(n.pipe(Ce(1))),st({delay:250}),ee(i)).subscribe(([,{prev:s}])=>{let p=xe(),c=s[s.length-1];if(c&&c.length){let[l]=c,{hash:f}=new URL(l.href);p.hash!==f&&(p.hash=f,history.replaceState({},"",`${p}`))}else p.hash="",history.replaceState({},"",`${p}`)}),ls(e,{viewport$:t,header$:r}).pipe(E(s=>i.next(s)),L(()=>i.complete()),m(s=>R({ref:e},s)))})}function ms(e,{viewport$:t,main$:r,target$:o}){let n=t.pipe(m(({offset:{y:a}})=>a),Ye(2,1),m(([a,s])=>a>s&&s>0),K()),i=r.pipe(m(({active:a})=>a));return z([i,n]).pipe(m(([a,s])=>!(a&&s)),K(),U(o.pipe(Ce(1))),ne(!0),st({delay:250}),m(a=>({hidden:a})))}function gi(e,{viewport$:t,header$:r,main$:o,target$:n}){let i=new g,a=i.pipe(X(),ne(!0));return i.subscribe({next({hidden:s}){e.hidden=s,s?(e.setAttribute("tabindex","-1"),e.blur()):e.removeAttribute("tabindex")},complete(){e.style.top="",e.hidden=!0,e.removeAttribute("tabindex")}}),r.pipe(U(a),Z("height")).subscribe(({height:s})=>{e.style.top=`${s+16}px`}),d(e,"click").subscribe(s=>{s.preventDefault(),window.scrollTo({top:0})}),ms(e,{viewport$:t,main$:o,target$:n}).pipe(E(s=>i.next(s)),L(()=>i.complete()),m(s=>R({ref:e},s)))}function xi({document$:e,viewport$:t}){e.pipe(b(()=>$(".md-ellipsis")),oe(r=>tt(r).pipe(U(e.pipe(Ce(1))),v(o=>o),m(()=>r),Te(1))),v(r=>r.offsetWidth<r.scrollWidth),oe(r=>{let o=r.innerText,n=r.closest("a")||r;return n.title=o,lt(n,{viewport$:t}).pipe(U(e.pipe(Ce(1))),L(()=>n.removeAttribute("title")))})).subscribe(),e.pipe(b(()=>$(".md-status")),oe(r=>lt(r,{viewport$:t}))).subscribe()}function yi({document$:e,tablet$:t}){e.pipe(b(()=>$(".md-toggle--indeterminate")),E(r=>{r.indeterminate=!0,r.checked=!1}),oe(r=>d(r,"change").pipe(Dr(()=>r.classList.contains("md-toggle--indeterminate")),m(()=>r))),ee(t)).subscribe(([r,o])=>{r.classList.remove("md-toggle--indeterminate"),o&&(r.checked=!1)})}function fs(){return/(iPad|iPhone|iPod)/.test(navigator.userAgent)}function Ei({document$:e}){e.pipe(b(()=>$("[data-md-scrollfix]")),E(t=>t.removeAttribute("data-md-scrollfix")),v(fs),oe(t=>d(t,"touchstart").pipe(m(()=>t)))).subscribe(t=>{let r=t.scrollTop;r===0?t.scrollTop=1:r+t.offsetHeight===t.scrollHeight&&(t.scrollTop=r-1)})}function wi({viewport$:e,tablet$:t}){z([Ve("search"),t]).pipe(m(([r,o])=>r&&!o),b(r=>I(r).pipe(Ge(r?400:100))),ee(e)).subscribe(([r,{offset:{y:o}}])=>{if(r)document.body.setAttribute("data-md-scrolllock",""),document.body.style.top=`-${o}px`;else{let n=-1*parseInt(document.body.style.top,10);document.body.removeAttribute("data-md-scrolllock"),document.body.style.top="",n&&window.scrollTo(0,n)}})}Object.entries||(Object.entries=function(e){let t=[];for(let r of Object.keys(e))t.push([r,e[r]]);return t});Object.values||(Object.values=function(e){let t=[];for(let r of Object.keys(e))t.push(e[r]);return t});typeof Element!="undefined"&&(Element.prototype.scrollTo||(Element.prototype.scrollTo=function(e,t){typeof e=="object"?(this.scrollLeft=e.left,this.scrollTop=e.top):(this.scrollLeft=e,this.scrollTop=t)}),Element.prototype.replaceWith||(Element.prototype.replaceWith=function(...e){let t=this.parentNode;if(t){e.length===0&&t.removeChild(this);for(let r=e.length-1;r>=0;r--){let o=e[r];typeof o=="string"?o=document.createTextNode(o):o.parentNode&&o.parentNode.removeChild(o),r?t.insertBefore(this.previousSibling,o):t.replaceChild(o,this)}}}));function us(){return location.protocol==="file:"?wt(`${new URL("search/search_index.js",Xr.base)}`).pipe(m(()=>__index),B(1)):Ne(new URL("search/search_index.json",Xr.base))}document.documentElement.classList.remove("no-js");document.documentElement.classList.add("js");var ot=Yo(),jt=nn(),Ot=cn(jt),Zr=on(),Oe=bn(),hr=$t("(min-width: 960px)"),Si=$t("(min-width: 1220px)"),Oi=pn(),Xr=ye(),Mi=document.forms.namedItem("search")?us():Ke,eo=new g;Bn({alert$:eo});var to=new g;G("navigation.instant")&&Zn({location$:jt,viewport$:Oe,progress$:to}).subscribe(ot);var Ti;((Ti=Xr.version)==null?void 0:Ti.provider)==="mike"&&ii({document$:ot});S(jt,Ot).pipe(Ge(125)).subscribe(()=>{Je("drawer",!1),Je("search",!1)});Zr.pipe(v(({mode:e})=>e==="global")).subscribe(e=>{switch(e.type){case"p":case",":let t=fe("link[rel=prev]");typeof t!="undefined"&&pt(t);break;case"n":case".":let r=fe("link[rel=next]");typeof r!="undefined"&&pt(r);break;case"Enter":let o=Re();o instanceof HTMLLabelElement&&o.click()}});xi({viewport$:Oe,document$:ot});yi({document$:ot,tablet$:hr});Ei({document$:ot});wi({viewport$:Oe,tablet$:hr});var rt=Nn(Se("header"),{viewport$:Oe}),Ft=ot.pipe(m(()=>Se("main")),b(e=>Qn(e,{viewport$:Oe,header$:rt})),B(1)),ds=S(...ae("consent").map(e=>xn(e,{target$:Ot})),...ae("dialog").map(e=>Dn(e,{alert$:eo})),...ae("header").map(e=>zn(e,{viewport$:Oe,header$:rt,main$:Ft})),...ae("palette").map(e=>Kn(e)),...ae("progress").map(e=>Yn(e,{progress$:to})),...ae("search").map(e=>li(e,{index$:Mi,keyboard$:Zr})),...ae("source").map(e=>hi(e))),hs=C(()=>S(...ae("announce").map(e=>gn(e)),...ae("content").map(e=>Un(e,{viewport$:Oe,target$:Ot,print$:Oi})),...ae("content").map(e=>G("search.highlight")?mi(e,{index$:Mi,location$:jt}):M),...ae("header-title").map(e=>qn(e,{viewport$:Oe,header$:rt})),...ae("sidebar").map(e=>e.getAttribute("data-md-type")==="navigation"?Nr(Si,()=>Jr(e,{viewport$:Oe,header$:rt,main$:Ft})):Nr(hr,()=>Jr(e,{viewport$:Oe,header$:rt,main$:Ft}))),...ae("tabs").map(e=>bi(e,{viewport$:Oe,header$:rt})),...ae("toc").map(e=>vi(e,{viewport$:Oe,header$:rt,main$:Ft,target$:Ot})),...ae("top").map(e=>gi(e,{viewport$:Oe,header$:rt,main$:Ft,target$:Ot})))),Li=ot.pipe(b(()=>hs),Pe(ds),B(1));Li.subscribe();window.document$=ot;window.location$=jt;window.target$=Ot;window.keyboard$=Zr;window.viewport$=Oe;window.tablet$=hr;window.screen$=Si;window.print$=Oi;window.alert$=eo;window.progress$=to;window.component$=Li;})();
+//# sourceMappingURL=bundle.081f42fc.min.js.map
+
diff --git a/assets/javascripts/bundle.081f42fc.min.js.map b/assets/javascripts/bundle.081f42fc.min.js.map
new file mode 100644
index 000000000..e055db5ac
--- /dev/null
+++ b/assets/javascripts/bundle.081f42fc.min.js.map
@@ -0,0 +1,7 @@
+{
+  "version": 3,
+  "sources": ["node_modules/focus-visible/dist/focus-visible.js", "node_modules/clipboard/dist/clipboard.js", "node_modules/escape-html/index.js", "src/templates/assets/javascripts/bundle.ts", "node_modules/rxjs/node_modules/tslib/tslib.es6.js", "node_modules/rxjs/src/internal/util/isFunction.ts", "node_modules/rxjs/src/internal/util/createErrorClass.ts", "node_modules/rxjs/src/internal/util/UnsubscriptionError.ts", "node_modules/rxjs/src/internal/util/arrRemove.ts", "node_modules/rxjs/src/internal/Subscription.ts", "node_modules/rxjs/src/internal/config.ts", "node_modules/rxjs/src/internal/scheduler/timeoutProvider.ts", "node_modules/rxjs/src/internal/util/reportUnhandledError.ts", "node_modules/rxjs/src/internal/util/noop.ts", "node_modules/rxjs/src/internal/NotificationFactories.ts", "node_modules/rxjs/src/internal/util/errorContext.ts", "node_modules/rxjs/src/internal/Subscriber.ts", "node_modules/rxjs/src/internal/symbol/observable.ts", "node_modules/rxjs/src/internal/util/identity.ts", "node_modules/rxjs/src/internal/util/pipe.ts", "node_modules/rxjs/src/internal/Observable.ts", "node_modules/rxjs/src/internal/util/lift.ts", "node_modules/rxjs/src/internal/operators/OperatorSubscriber.ts", "node_modules/rxjs/src/internal/scheduler/animationFrameProvider.ts", "node_modules/rxjs/src/internal/util/ObjectUnsubscribedError.ts", "node_modules/rxjs/src/internal/Subject.ts", "node_modules/rxjs/src/internal/BehaviorSubject.ts", "node_modules/rxjs/src/internal/scheduler/dateTimestampProvider.ts", "node_modules/rxjs/src/internal/ReplaySubject.ts", "node_modules/rxjs/src/internal/scheduler/Action.ts", "node_modules/rxjs/src/internal/scheduler/intervalProvider.ts", "node_modules/rxjs/src/internal/scheduler/AsyncAction.ts", "node_modules/rxjs/src/internal/Scheduler.ts", "node_modules/rxjs/src/internal/scheduler/AsyncScheduler.ts", "node_modules/rxjs/src/internal/scheduler/async.ts", "node_modules/rxjs/src/internal/scheduler/QueueAction.ts", "node_modules/rxjs/src/internal/scheduler/QueueScheduler.ts", "node_modules/rxjs/src/internal/scheduler/queue.ts", "node_modules/rxjs/src/internal/scheduler/AnimationFrameAction.ts", "node_modules/rxjs/src/internal/scheduler/AnimationFrameScheduler.ts", "node_modules/rxjs/src/internal/scheduler/animationFrame.ts", "node_modules/rxjs/src/internal/observable/empty.ts", "node_modules/rxjs/src/internal/util/isScheduler.ts", "node_modules/rxjs/src/internal/util/args.ts", "node_modules/rxjs/src/internal/util/isArrayLike.ts", "node_modules/rxjs/src/internal/util/isPromise.ts", "node_modules/rxjs/src/internal/util/isInteropObservable.ts", "node_modules/rxjs/src/internal/util/isAsyncIterable.ts", "node_modules/rxjs/src/internal/util/throwUnobservableError.ts", "node_modules/rxjs/src/internal/symbol/iterator.ts", "node_modules/rxjs/src/internal/util/isIterable.ts", "node_modules/rxjs/src/internal/util/isReadableStreamLike.ts", "node_modules/rxjs/src/internal/observable/innerFrom.ts", "node_modules/rxjs/src/internal/util/executeSchedule.ts", "node_modules/rxjs/src/internal/operators/observeOn.ts", "node_modules/rxjs/src/internal/operators/subscribeOn.ts", "node_modules/rxjs/src/internal/scheduled/scheduleObservable.ts", "node_modules/rxjs/src/internal/scheduled/schedulePromise.ts", "node_modules/rxjs/src/internal/scheduled/scheduleArray.ts", "node_modules/rxjs/src/internal/scheduled/scheduleIterable.ts", "node_modules/rxjs/src/internal/scheduled/scheduleAsyncIterable.ts", "node_modules/rxjs/src/internal/scheduled/scheduleReadableStreamLike.ts", "node_modules/rxjs/src/internal/scheduled/scheduled.ts", "node_modules/rxjs/src/internal/observable/from.ts", "node_modules/rxjs/src/internal/observable/of.ts", "node_modules/rxjs/src/internal/observable/throwError.ts", "node_modules/rxjs/src/internal/util/EmptyError.ts", "node_modules/rxjs/src/internal/util/isDate.ts", "node_modules/rxjs/src/internal/operators/map.ts", "node_modules/rxjs/src/internal/util/mapOneOrManyArgs.ts", "node_modules/rxjs/src/internal/util/argsArgArrayOrObject.ts", "node_modules/rxjs/src/internal/util/createObject.ts", "node_modules/rxjs/src/internal/observable/combineLatest.ts", "node_modules/rxjs/src/internal/operators/mergeInternals.ts", "node_modules/rxjs/src/internal/operators/mergeMap.ts", "node_modules/rxjs/src/internal/operators/mergeAll.ts", "node_modules/rxjs/src/internal/operators/concatAll.ts", "node_modules/rxjs/src/internal/observable/concat.ts", "node_modules/rxjs/src/internal/observable/defer.ts", "node_modules/rxjs/src/internal/observable/fromEvent.ts", "node_modules/rxjs/src/internal/observable/fromEventPattern.ts", "node_modules/rxjs/src/internal/observable/timer.ts", "node_modules/rxjs/src/internal/observable/merge.ts", "node_modules/rxjs/src/internal/observable/never.ts", "node_modules/rxjs/src/internal/util/argsOrArgArray.ts", "node_modules/rxjs/src/internal/operators/filter.ts", "node_modules/rxjs/src/internal/observable/zip.ts", "node_modules/rxjs/src/internal/operators/audit.ts", "node_modules/rxjs/src/internal/operators/auditTime.ts", "node_modules/rxjs/src/internal/operators/bufferCount.ts", "node_modules/rxjs/src/internal/operators/catchError.ts", "node_modules/rxjs/src/internal/operators/scanInternals.ts", "node_modules/rxjs/src/internal/operators/combineLatest.ts", "node_modules/rxjs/src/internal/operators/combineLatestWith.ts", "node_modules/rxjs/src/internal/operators/debounce.ts", "node_modules/rxjs/src/internal/operators/debounceTime.ts", "node_modules/rxjs/src/internal/operators/defaultIfEmpty.ts", "node_modules/rxjs/src/internal/operators/take.ts", "node_modules/rxjs/src/internal/operators/ignoreElements.ts", "node_modules/rxjs/src/internal/operators/mapTo.ts", "node_modules/rxjs/src/internal/operators/delayWhen.ts", "node_modules/rxjs/src/internal/operators/delay.ts", "node_modules/rxjs/src/internal/operators/distinctUntilChanged.ts", "node_modules/rxjs/src/internal/operators/distinctUntilKeyChanged.ts", "node_modules/rxjs/src/internal/operators/throwIfEmpty.ts", "node_modules/rxjs/src/internal/operators/endWith.ts", "node_modules/rxjs/src/internal/operators/finalize.ts", "node_modules/rxjs/src/internal/operators/first.ts", "node_modules/rxjs/src/internal/operators/takeLast.ts", "node_modules/rxjs/src/internal/operators/merge.ts", "node_modules/rxjs/src/internal/operators/mergeWith.ts", "node_modules/rxjs/src/internal/operators/repeat.ts", "node_modules/rxjs/src/internal/operators/scan.ts", "node_modules/rxjs/src/internal/operators/share.ts", "node_modules/rxjs/src/internal/operators/shareReplay.ts", "node_modules/rxjs/src/internal/operators/skip.ts", "node_modules/rxjs/src/internal/operators/skipUntil.ts", "node_modules/rxjs/src/internal/operators/startWith.ts", "node_modules/rxjs/src/internal/operators/switchMap.ts", "node_modules/rxjs/src/internal/operators/takeUntil.ts", "node_modules/rxjs/src/internal/operators/takeWhile.ts", "node_modules/rxjs/src/internal/operators/tap.ts", "node_modules/rxjs/src/internal/operators/throttle.ts", "node_modules/rxjs/src/internal/operators/throttleTime.ts", "node_modules/rxjs/src/internal/operators/withLatestFrom.ts", "node_modules/rxjs/src/internal/operators/zip.ts", "node_modules/rxjs/src/internal/operators/zipWith.ts", "src/templates/assets/javascripts/browser/document/index.ts", "src/templates/assets/javascripts/browser/element/_/index.ts", "src/templates/assets/javascripts/browser/element/focus/index.ts", "src/templates/assets/javascripts/browser/element/hover/index.ts", "src/templates/assets/javascripts/utilities/h/index.ts", "src/templates/assets/javascripts/utilities/round/index.ts", "src/templates/assets/javascripts/browser/script/index.ts", "src/templates/assets/javascripts/browser/element/size/_/index.ts", "src/templates/assets/javascripts/browser/element/size/content/index.ts", "src/templates/assets/javascripts/browser/element/offset/_/index.ts", "src/templates/assets/javascripts/browser/element/offset/content/index.ts", "src/templates/assets/javascripts/browser/element/visibility/index.ts", "src/templates/assets/javascripts/browser/toggle/index.ts", "src/templates/assets/javascripts/browser/keyboard/index.ts", "src/templates/assets/javascripts/browser/location/_/index.ts", "src/templates/assets/javascripts/browser/location/hash/index.ts", "src/templates/assets/javascripts/browser/media/index.ts", "src/templates/assets/javascripts/browser/request/index.ts", "src/templates/assets/javascripts/browser/viewport/offset/index.ts", "src/templates/assets/javascripts/browser/viewport/size/index.ts", "src/templates/assets/javascripts/browser/viewport/_/index.ts", "src/templates/assets/javascripts/browser/viewport/at/index.ts", "src/templates/assets/javascripts/browser/worker/index.ts", "src/templates/assets/javascripts/_/index.ts", "src/templates/assets/javascripts/components/_/index.ts", "src/templates/assets/javascripts/components/announce/index.ts", "src/templates/assets/javascripts/components/consent/index.ts", "src/templates/assets/javascripts/templates/tooltip/index.tsx", "src/templates/assets/javascripts/templates/annotation/index.tsx", "src/templates/assets/javascripts/templates/clipboard/index.tsx", "src/templates/assets/javascripts/templates/search/index.tsx", "src/templates/assets/javascripts/templates/source/index.tsx", "src/templates/assets/javascripts/templates/tabbed/index.tsx", "src/templates/assets/javascripts/templates/table/index.tsx", "src/templates/assets/javascripts/templates/version/index.tsx", "src/templates/assets/javascripts/components/tooltip2/index.ts", "src/templates/assets/javascripts/components/content/annotation/_/index.ts", "src/templates/assets/javascripts/components/content/annotation/list/index.ts", "src/templates/assets/javascripts/components/content/annotation/block/index.ts", "src/templates/assets/javascripts/components/content/code/_/index.ts", "src/templates/assets/javascripts/components/content/details/index.ts", "src/templates/assets/javascripts/components/content/mermaid/index.css", "src/templates/assets/javascripts/components/content/mermaid/index.ts", "src/templates/assets/javascripts/components/content/table/index.ts", "src/templates/assets/javascripts/components/content/tabs/index.ts", "src/templates/assets/javascripts/components/content/_/index.ts", "src/templates/assets/javascripts/components/dialog/index.ts", "src/templates/assets/javascripts/components/tooltip/index.ts", "src/templates/assets/javascripts/components/header/_/index.ts", "src/templates/assets/javascripts/components/header/title/index.ts", "src/templates/assets/javascripts/components/main/index.ts", "src/templates/assets/javascripts/components/palette/index.ts", "src/templates/assets/javascripts/components/progress/index.ts", "src/templates/assets/javascripts/integrations/clipboard/index.ts", "src/templates/assets/javascripts/integrations/sitemap/index.ts", "src/templates/assets/javascripts/integrations/instant/index.ts", "src/templates/assets/javascripts/integrations/search/highlighter/index.ts", "src/templates/assets/javascripts/integrations/search/worker/message/index.ts", "src/templates/assets/javascripts/integrations/search/worker/_/index.ts", "src/templates/assets/javascripts/integrations/version/index.ts", "src/templates/assets/javascripts/components/search/query/index.ts", "src/templates/assets/javascripts/components/search/result/index.ts", "src/templates/assets/javascripts/components/search/share/index.ts", "src/templates/assets/javascripts/components/search/suggest/index.ts", "src/templates/assets/javascripts/components/search/_/index.ts", "src/templates/assets/javascripts/components/search/highlight/index.ts", "src/templates/assets/javascripts/components/sidebar/index.ts", "src/templates/assets/javascripts/components/source/facts/github/index.ts", "src/templates/assets/javascripts/components/source/facts/gitlab/index.ts", "src/templates/assets/javascripts/components/source/facts/_/index.ts", "src/templates/assets/javascripts/components/source/_/index.ts", "src/templates/assets/javascripts/components/tabs/index.ts", "src/templates/assets/javascripts/components/toc/index.ts", "src/templates/assets/javascripts/components/top/index.ts", "src/templates/assets/javascripts/patches/ellipsis/index.ts", "src/templates/assets/javascripts/patches/indeterminate/index.ts", "src/templates/assets/javascripts/patches/scrollfix/index.ts", "src/templates/assets/javascripts/patches/scrolllock/index.ts", "src/templates/assets/javascripts/polyfills/index.ts"],
+  "sourcesContent": ["(function (global, factory) {\n  typeof exports === 'object' && typeof module !== 'undefined' ? factory() :\n  typeof define === 'function' && define.amd ? define(factory) :\n  (factory());\n}(this, (function () { 'use strict';\n\n  /**\n   * Applies the :focus-visible polyfill at the given scope.\n   * A scope in this case is either the top-level Document or a Shadow Root.\n   *\n   * @param {(Document|ShadowRoot)} scope\n   * @see https://github.com/WICG/focus-visible\n   */\n  function applyFocusVisiblePolyfill(scope) {\n    var hadKeyboardEvent = true;\n    var hadFocusVisibleRecently = false;\n    var hadFocusVisibleRecentlyTimeout = null;\n\n    var inputTypesAllowlist = {\n      text: true,\n      search: true,\n      url: true,\n      tel: true,\n      email: true,\n      password: true,\n      number: true,\n      date: true,\n      month: true,\n      week: true,\n      time: true,\n      datetime: true,\n      'datetime-local': true\n    };\n\n    /**\n     * Helper function for legacy browsers and iframes which sometimes focus\n     * elements like document, body, and non-interactive SVG.\n     * @param {Element} el\n     */\n    function isValidFocusTarget(el) {\n      if (\n        el &&\n        el !== document &&\n        el.nodeName !== 'HTML' &&\n        el.nodeName !== 'BODY' &&\n        'classList' in el &&\n        'contains' in el.classList\n      ) {\n        return true;\n      }\n      return false;\n    }\n\n    /**\n     * Computes whether the given element should automatically trigger the\n     * `focus-visible` class being added, i.e. whether it should always match\n     * `:focus-visible` when focused.\n     * @param {Element} el\n     * @return {boolean}\n     */\n    function focusTriggersKeyboardModality(el) {\n      var type = el.type;\n      var tagName = el.tagName;\n\n      if (tagName === 'INPUT' && inputTypesAllowlist[type] && !el.readOnly) {\n        return true;\n      }\n\n      if (tagName === 'TEXTAREA' && !el.readOnly) {\n        return true;\n      }\n\n      if (el.isContentEditable) {\n        return true;\n      }\n\n      return false;\n    }\n\n    /**\n     * Add the `focus-visible` class to the given element if it was not added by\n     * the author.\n     * @param {Element} el\n     */\n    function addFocusVisibleClass(el) {\n      if (el.classList.contains('focus-visible')) {\n        return;\n      }\n      el.classList.add('focus-visible');\n      el.setAttribute('data-focus-visible-added', '');\n    }\n\n    /**\n     * Remove the `focus-visible` class from the given element if it was not\n     * originally added by the author.\n     * @param {Element} el\n     */\n    function removeFocusVisibleClass(el) {\n      if (!el.hasAttribute('data-focus-visible-added')) {\n        return;\n      }\n      el.classList.remove('focus-visible');\n      el.removeAttribute('data-focus-visible-added');\n    }\n\n    /**\n     * If the most recent user interaction was via the keyboard;\n     * and the key press did not include a meta, alt/option, or control key;\n     * then the modality is keyboard. Otherwise, the modality is not keyboard.\n     * Apply `focus-visible` to any current active element and keep track\n     * of our keyboard modality state with `hadKeyboardEvent`.\n     * @param {KeyboardEvent} e\n     */\n    function onKeyDown(e) {\n      if (e.metaKey || e.altKey || e.ctrlKey) {\n        return;\n      }\n\n      if (isValidFocusTarget(scope.activeElement)) {\n        addFocusVisibleClass(scope.activeElement);\n      }\n\n      hadKeyboardEvent = true;\n    }\n\n    /**\n     * If at any point a user clicks with a pointing device, ensure that we change\n     * the modality away from keyboard.\n     * This avoids the situation where a user presses a key on an already focused\n     * element, and then clicks on a different element, focusing it with a\n     * pointing device, while we still think we're in keyboard modality.\n     * @param {Event} e\n     */\n    function onPointerDown(e) {\n      hadKeyboardEvent = false;\n    }\n\n    /**\n     * On `focus`, add the `focus-visible` class to the target if:\n     * - the target received focus as a result of keyboard navigation, or\n     * - the event target is an element that will likely require interaction\n     *   via the keyboard (e.g. a text box)\n     * @param {Event} e\n     */\n    function onFocus(e) {\n      // Prevent IE from focusing the document or HTML element.\n      if (!isValidFocusTarget(e.target)) {\n        return;\n      }\n\n      if (hadKeyboardEvent || focusTriggersKeyboardModality(e.target)) {\n        addFocusVisibleClass(e.target);\n      }\n    }\n\n    /**\n     * On `blur`, remove the `focus-visible` class from the target.\n     * @param {Event} e\n     */\n    function onBlur(e) {\n      if (!isValidFocusTarget(e.target)) {\n        return;\n      }\n\n      if (\n        e.target.classList.contains('focus-visible') ||\n        e.target.hasAttribute('data-focus-visible-added')\n      ) {\n        // To detect a tab/window switch, we look for a blur event followed\n        // rapidly by a visibility change.\n        // If we don't see a visibility change within 100ms, it's probably a\n        // regular focus change.\n        hadFocusVisibleRecently = true;\n        window.clearTimeout(hadFocusVisibleRecentlyTimeout);\n        hadFocusVisibleRecentlyTimeout = window.setTimeout(function() {\n          hadFocusVisibleRecently = false;\n        }, 100);\n        removeFocusVisibleClass(e.target);\n      }\n    }\n\n    /**\n     * If the user changes tabs, keep track of whether or not the previously\n     * focused element had .focus-visible.\n     * @param {Event} e\n     */\n    function onVisibilityChange(e) {\n      if (document.visibilityState === 'hidden') {\n        // If the tab becomes active again, the browser will handle calling focus\n        // on the element (Safari actually calls it twice).\n        // If this tab change caused a blur on an element with focus-visible,\n        // re-apply the class when the user switches back to the tab.\n        if (hadFocusVisibleRecently) {\n          hadKeyboardEvent = true;\n        }\n        addInitialPointerMoveListeners();\n      }\n    }\n\n    /**\n     * Add a group of listeners to detect usage of any pointing devices.\n     * These listeners will be added when the polyfill first loads, and anytime\n     * the window is blurred, so that they are active when the window regains\n     * focus.\n     */\n    function addInitialPointerMoveListeners() {\n      document.addEventListener('mousemove', onInitialPointerMove);\n      document.addEventListener('mousedown', onInitialPointerMove);\n      document.addEventListener('mouseup', onInitialPointerMove);\n      document.addEventListener('pointermove', onInitialPointerMove);\n      document.addEventListener('pointerdown', onInitialPointerMove);\n      document.addEventListener('pointerup', onInitialPointerMove);\n      document.addEventListener('touchmove', onInitialPointerMove);\n      document.addEventListener('touchstart', onInitialPointerMove);\n      document.addEventListener('touchend', onInitialPointerMove);\n    }\n\n    function removeInitialPointerMoveListeners() {\n      document.removeEventListener('mousemove', onInitialPointerMove);\n      document.removeEventListener('mousedown', onInitialPointerMove);\n      document.removeEventListener('mouseup', onInitialPointerMove);\n      document.removeEventListener('pointermove', onInitialPointerMove);\n      document.removeEventListener('pointerdown', onInitialPointerMove);\n      document.removeEventListener('pointerup', onInitialPointerMove);\n      document.removeEventListener('touchmove', onInitialPointerMove);\n      document.removeEventListener('touchstart', onInitialPointerMove);\n      document.removeEventListener('touchend', onInitialPointerMove);\n    }\n\n    /**\n     * When the polfyill first loads, assume the user is in keyboard modality.\n     * If any event is received from a pointing device (e.g. mouse, pointer,\n     * touch), turn off keyboard modality.\n     * This accounts for situations where focus enters the page from the URL bar.\n     * @param {Event} e\n     */\n    function onInitialPointerMove(e) {\n      // Work around a Safari quirk that fires a mousemove on <html> whenever the\n      // window blurs, even if you're tabbing out of the page. \u00AF\\_(\u30C4)_/\u00AF\n      if (e.target.nodeName && e.target.nodeName.toLowerCase() === 'html') {\n        return;\n      }\n\n      hadKeyboardEvent = false;\n      removeInitialPointerMoveListeners();\n    }\n\n    // For some kinds of state, we are interested in changes at the global scope\n    // only. For example, global pointer input, global key presses and global\n    // visibility change should affect the state at every scope:\n    document.addEventListener('keydown', onKeyDown, true);\n    document.addEventListener('mousedown', onPointerDown, true);\n    document.addEventListener('pointerdown', onPointerDown, true);\n    document.addEventListener('touchstart', onPointerDown, true);\n    document.addEventListener('visibilitychange', onVisibilityChange, true);\n\n    addInitialPointerMoveListeners();\n\n    // For focus and blur, we specifically care about state changes in the local\n    // scope. This is because focus / blur events that originate from within a\n    // shadow root are not re-dispatched from the host element if it was already\n    // the active element in its own scope:\n    scope.addEventListener('focus', onFocus, true);\n    scope.addEventListener('blur', onBlur, true);\n\n    // We detect that a node is a ShadowRoot by ensuring that it is a\n    // DocumentFragment and also has a host property. This check covers native\n    // implementation and polyfill implementation transparently. If we only cared\n    // about the native implementation, we could just check if the scope was\n    // an instance of a ShadowRoot.\n    if (scope.nodeType === Node.DOCUMENT_FRAGMENT_NODE && scope.host) {\n      // Since a ShadowRoot is a special kind of DocumentFragment, it does not\n      // have a root element to add a class to. So, we add this attribute to the\n      // host element instead:\n      scope.host.setAttribute('data-js-focus-visible', '');\n    } else if (scope.nodeType === Node.DOCUMENT_NODE) {\n      document.documentElement.classList.add('js-focus-visible');\n      document.documentElement.setAttribute('data-js-focus-visible', '');\n    }\n  }\n\n  // It is important to wrap all references to global window and document in\n  // these checks to support server-side rendering use cases\n  // @see https://github.com/WICG/focus-visible/issues/199\n  if (typeof window !== 'undefined' && typeof document !== 'undefined') {\n    // Make the polyfill helper globally available. This can be used as a signal\n    // to interested libraries that wish to coordinate with the polyfill for e.g.,\n    // applying the polyfill to a shadow root:\n    window.applyFocusVisiblePolyfill = applyFocusVisiblePolyfill;\n\n    // Notify interested libraries of the polyfill's presence, in case the\n    // polyfill was loaded lazily:\n    var event;\n\n    try {\n      event = new CustomEvent('focus-visible-polyfill-ready');\n    } catch (error) {\n      // IE11 does not support using CustomEvent as a constructor directly:\n      event = document.createEvent('CustomEvent');\n      event.initCustomEvent('focus-visible-polyfill-ready', false, false, {});\n    }\n\n    window.dispatchEvent(event);\n  }\n\n  if (typeof document !== 'undefined') {\n    // Apply the polyfill to the global document, so that no JavaScript\n    // coordination is required to use the polyfill in the top-level document:\n    applyFocusVisiblePolyfill(document);\n  }\n\n})));\n", "/*!\n * clipboard.js v2.0.11\n * https://clipboardjs.com/\n *\n * Licensed MIT \u00A9 Zeno Rocha\n */\n(function webpackUniversalModuleDefinition(root, factory) {\n\tif(typeof exports === 'object' && typeof module === 'object')\n\t\tmodule.exports = factory();\n\telse if(typeof define === 'function' && define.amd)\n\t\tdefine([], factory);\n\telse if(typeof exports === 'object')\n\t\texports[\"ClipboardJS\"] = factory();\n\telse\n\t\troot[\"ClipboardJS\"] = factory();\n})(this, function() {\nreturn /******/ (function() { // webpackBootstrap\n/******/ \tvar __webpack_modules__ = ({\n\n/***/ 686:\n/***/ (function(__unused_webpack_module, __webpack_exports__, __webpack_require__) {\n\n\"use strict\";\n\n// EXPORTS\n__webpack_require__.d(__webpack_exports__, {\n  \"default\": function() { return /* binding */ clipboard; }\n});\n\n// EXTERNAL MODULE: ./node_modules/tiny-emitter/index.js\nvar tiny_emitter = __webpack_require__(279);\nvar tiny_emitter_default = /*#__PURE__*/__webpack_require__.n(tiny_emitter);\n// EXTERNAL MODULE: ./node_modules/good-listener/src/listen.js\nvar listen = __webpack_require__(370);\nvar listen_default = /*#__PURE__*/__webpack_require__.n(listen);\n// EXTERNAL MODULE: ./node_modules/select/src/select.js\nvar src_select = __webpack_require__(817);\nvar select_default = /*#__PURE__*/__webpack_require__.n(src_select);\n;// CONCATENATED MODULE: ./src/common/command.js\n/**\n * Executes a given operation type.\n * @param {String} type\n * @return {Boolean}\n */\nfunction command(type) {\n  try {\n    return document.execCommand(type);\n  } catch (err) {\n    return false;\n  }\n}\n;// CONCATENATED MODULE: ./src/actions/cut.js\n\n\n/**\n * Cut action wrapper.\n * @param {String|HTMLElement} target\n * @return {String}\n */\n\nvar ClipboardActionCut = function ClipboardActionCut(target) {\n  var selectedText = select_default()(target);\n  command('cut');\n  return selectedText;\n};\n\n/* harmony default export */ var actions_cut = (ClipboardActionCut);\n;// CONCATENATED MODULE: ./src/common/create-fake-element.js\n/**\n * Creates a fake textarea element with a value.\n * @param {String} value\n * @return {HTMLElement}\n */\nfunction createFakeElement(value) {\n  var isRTL = document.documentElement.getAttribute('dir') === 'rtl';\n  var fakeElement = document.createElement('textarea'); // Prevent zooming on iOS\n\n  fakeElement.style.fontSize = '12pt'; // Reset box model\n\n  fakeElement.style.border = '0';\n  fakeElement.style.padding = '0';\n  fakeElement.style.margin = '0'; // Move element out of screen horizontally\n\n  fakeElement.style.position = 'absolute';\n  fakeElement.style[isRTL ? 'right' : 'left'] = '-9999px'; // Move element to the same position vertically\n\n  var yPosition = window.pageYOffset || document.documentElement.scrollTop;\n  fakeElement.style.top = \"\".concat(yPosition, \"px\");\n  fakeElement.setAttribute('readonly', '');\n  fakeElement.value = value;\n  return fakeElement;\n}\n;// CONCATENATED MODULE: ./src/actions/copy.js\n\n\n\n/**\n * Create fake copy action wrapper using a fake element.\n * @param {String} target\n * @param {Object} options\n * @return {String}\n */\n\nvar fakeCopyAction = function fakeCopyAction(value, options) {\n  var fakeElement = createFakeElement(value);\n  options.container.appendChild(fakeElement);\n  var selectedText = select_default()(fakeElement);\n  command('copy');\n  fakeElement.remove();\n  return selectedText;\n};\n/**\n * Copy action wrapper.\n * @param {String|HTMLElement} target\n * @param {Object} options\n * @return {String}\n */\n\n\nvar ClipboardActionCopy = function ClipboardActionCopy(target) {\n  var options = arguments.length > 1 && arguments[1] !== undefined ? arguments[1] : {\n    container: document.body\n  };\n  var selectedText = '';\n\n  if (typeof target === 'string') {\n    selectedText = fakeCopyAction(target, options);\n  } else if (target instanceof HTMLInputElement && !['text', 'search', 'url', 'tel', 'password'].includes(target === null || target === void 0 ? void 0 : target.type)) {\n    // If input type doesn't support `setSelectionRange`. Simulate it. https://developer.mozilla.org/en-US/docs/Web/API/HTMLInputElement/setSelectionRange\n    selectedText = fakeCopyAction(target.value, options);\n  } else {\n    selectedText = select_default()(target);\n    command('copy');\n  }\n\n  return selectedText;\n};\n\n/* harmony default export */ var actions_copy = (ClipboardActionCopy);\n;// CONCATENATED MODULE: ./src/actions/default.js\nfunction _typeof(obj) { \"@babel/helpers - typeof\"; if (typeof Symbol === \"function\" && typeof Symbol.iterator === \"symbol\") { _typeof = function _typeof(obj) { return typeof obj; }; } else { _typeof = function _typeof(obj) { return obj && typeof Symbol === \"function\" && obj.constructor === Symbol && obj !== Symbol.prototype ? \"symbol\" : typeof obj; }; } return _typeof(obj); }\n\n\n\n/**\n * Inner function which performs selection from either `text` or `target`\n * properties and then executes copy or cut operations.\n * @param {Object} options\n */\n\nvar ClipboardActionDefault = function ClipboardActionDefault() {\n  var options = arguments.length > 0 && arguments[0] !== undefined ? arguments[0] : {};\n  // Defines base properties passed from constructor.\n  var _options$action = options.action,\n      action = _options$action === void 0 ? 'copy' : _options$action,\n      container = options.container,\n      target = options.target,\n      text = options.text; // Sets the `action` to be performed which can be either 'copy' or 'cut'.\n\n  if (action !== 'copy' && action !== 'cut') {\n    throw new Error('Invalid \"action\" value, use either \"copy\" or \"cut\"');\n  } // Sets the `target` property using an element that will be have its content copied.\n\n\n  if (target !== undefined) {\n    if (target && _typeof(target) === 'object' && target.nodeType === 1) {\n      if (action === 'copy' && target.hasAttribute('disabled')) {\n        throw new Error('Invalid \"target\" attribute. Please use \"readonly\" instead of \"disabled\" attribute');\n      }\n\n      if (action === 'cut' && (target.hasAttribute('readonly') || target.hasAttribute('disabled'))) {\n        throw new Error('Invalid \"target\" attribute. You can\\'t cut text from elements with \"readonly\" or \"disabled\" attributes');\n      }\n    } else {\n      throw new Error('Invalid \"target\" value, use a valid Element');\n    }\n  } // Define selection strategy based on `text` property.\n\n\n  if (text) {\n    return actions_copy(text, {\n      container: container\n    });\n  } // Defines which selection strategy based on `target` property.\n\n\n  if (target) {\n    return action === 'cut' ? actions_cut(target) : actions_copy(target, {\n      container: container\n    });\n  }\n};\n\n/* harmony default export */ var actions_default = (ClipboardActionDefault);\n;// CONCATENATED MODULE: ./src/clipboard.js\nfunction clipboard_typeof(obj) { \"@babel/helpers - typeof\"; if (typeof Symbol === \"function\" && typeof Symbol.iterator === \"symbol\") { clipboard_typeof = function _typeof(obj) { return typeof obj; }; } else { clipboard_typeof = function _typeof(obj) { return obj && typeof Symbol === \"function\" && obj.constructor === Symbol && obj !== Symbol.prototype ? \"symbol\" : typeof obj; }; } return clipboard_typeof(obj); }\n\nfunction _classCallCheck(instance, Constructor) { if (!(instance instanceof Constructor)) { throw new TypeError(\"Cannot call a class as a function\"); } }\n\nfunction _defineProperties(target, props) { for (var i = 0; i < props.length; i++) { var descriptor = props[i]; descriptor.enumerable = descriptor.enumerable || false; descriptor.configurable = true; if (\"value\" in descriptor) descriptor.writable = true; Object.defineProperty(target, descriptor.key, descriptor); } }\n\nfunction _createClass(Constructor, protoProps, staticProps) { if (protoProps) _defineProperties(Constructor.prototype, protoProps); if (staticProps) _defineProperties(Constructor, staticProps); return Constructor; }\n\nfunction _inherits(subClass, superClass) { if (typeof superClass !== \"function\" && superClass !== null) { throw new TypeError(\"Super expression must either be null or a function\"); } subClass.prototype = Object.create(superClass && superClass.prototype, { constructor: { value: subClass, writable: true, configurable: true } }); if (superClass) _setPrototypeOf(subClass, superClass); }\n\nfunction _setPrototypeOf(o, p) { _setPrototypeOf = Object.setPrototypeOf || function _setPrototypeOf(o, p) { o.__proto__ = p; return o; }; return _setPrototypeOf(o, p); }\n\nfunction _createSuper(Derived) { var hasNativeReflectConstruct = _isNativeReflectConstruct(); return function _createSuperInternal() { var Super = _getPrototypeOf(Derived), result; if (hasNativeReflectConstruct) { var NewTarget = _getPrototypeOf(this).constructor; result = Reflect.construct(Super, arguments, NewTarget); } else { result = Super.apply(this, arguments); } return _possibleConstructorReturn(this, result); }; }\n\nfunction _possibleConstructorReturn(self, call) { if (call && (clipboard_typeof(call) === \"object\" || typeof call === \"function\")) { return call; } return _assertThisInitialized(self); }\n\nfunction _assertThisInitialized(self) { if (self === void 0) { throw new ReferenceError(\"this hasn't been initialised - super() hasn't been called\"); } return self; }\n\nfunction _isNativeReflectConstruct() { if (typeof Reflect === \"undefined\" || !Reflect.construct) return false; if (Reflect.construct.sham) return false; if (typeof Proxy === \"function\") return true; try { Date.prototype.toString.call(Reflect.construct(Date, [], function () {})); return true; } catch (e) { return false; } }\n\nfunction _getPrototypeOf(o) { _getPrototypeOf = Object.setPrototypeOf ? Object.getPrototypeOf : function _getPrototypeOf(o) { return o.__proto__ || Object.getPrototypeOf(o); }; return _getPrototypeOf(o); }\n\n\n\n\n\n\n/**\n * Helper function to retrieve attribute value.\n * @param {String} suffix\n * @param {Element} element\n */\n\nfunction getAttributeValue(suffix, element) {\n  var attribute = \"data-clipboard-\".concat(suffix);\n\n  if (!element.hasAttribute(attribute)) {\n    return;\n  }\n\n  return element.getAttribute(attribute);\n}\n/**\n * Base class which takes one or more elements, adds event listeners to them,\n * and instantiates a new `ClipboardAction` on each click.\n */\n\n\nvar Clipboard = /*#__PURE__*/function (_Emitter) {\n  _inherits(Clipboard, _Emitter);\n\n  var _super = _createSuper(Clipboard);\n\n  /**\n   * @param {String|HTMLElement|HTMLCollection|NodeList} trigger\n   * @param {Object} options\n   */\n  function Clipboard(trigger, options) {\n    var _this;\n\n    _classCallCheck(this, Clipboard);\n\n    _this = _super.call(this);\n\n    _this.resolveOptions(options);\n\n    _this.listenClick(trigger);\n\n    return _this;\n  }\n  /**\n   * Defines if attributes would be resolved using internal setter functions\n   * or custom functions that were passed in the constructor.\n   * @param {Object} options\n   */\n\n\n  _createClass(Clipboard, [{\n    key: \"resolveOptions\",\n    value: function resolveOptions() {\n      var options = arguments.length > 0 && arguments[0] !== undefined ? arguments[0] : {};\n      this.action = typeof options.action === 'function' ? options.action : this.defaultAction;\n      this.target = typeof options.target === 'function' ? options.target : this.defaultTarget;\n      this.text = typeof options.text === 'function' ? options.text : this.defaultText;\n      this.container = clipboard_typeof(options.container) === 'object' ? options.container : document.body;\n    }\n    /**\n     * Adds a click event listener to the passed trigger.\n     * @param {String|HTMLElement|HTMLCollection|NodeList} trigger\n     */\n\n  }, {\n    key: \"listenClick\",\n    value: function listenClick(trigger) {\n      var _this2 = this;\n\n      this.listener = listen_default()(trigger, 'click', function (e) {\n        return _this2.onClick(e);\n      });\n    }\n    /**\n     * Defines a new `ClipboardAction` on each click event.\n     * @param {Event} e\n     */\n\n  }, {\n    key: \"onClick\",\n    value: function onClick(e) {\n      var trigger = e.delegateTarget || e.currentTarget;\n      var action = this.action(trigger) || 'copy';\n      var text = actions_default({\n        action: action,\n        container: this.container,\n        target: this.target(trigger),\n        text: this.text(trigger)\n      }); // Fires an event based on the copy operation result.\n\n      this.emit(text ? 'success' : 'error', {\n        action: action,\n        text: text,\n        trigger: trigger,\n        clearSelection: function clearSelection() {\n          if (trigger) {\n            trigger.focus();\n          }\n\n          window.getSelection().removeAllRanges();\n        }\n      });\n    }\n    /**\n     * Default `action` lookup function.\n     * @param {Element} trigger\n     */\n\n  }, {\n    key: \"defaultAction\",\n    value: function defaultAction(trigger) {\n      return getAttributeValue('action', trigger);\n    }\n    /**\n     * Default `target` lookup function.\n     * @param {Element} trigger\n     */\n\n  }, {\n    key: \"defaultTarget\",\n    value: function defaultTarget(trigger) {\n      var selector = getAttributeValue('target', trigger);\n\n      if (selector) {\n        return document.querySelector(selector);\n      }\n    }\n    /**\n     * Allow fire programmatically a copy action\n     * @param {String|HTMLElement} target\n     * @param {Object} options\n     * @returns Text copied.\n     */\n\n  }, {\n    key: \"defaultText\",\n\n    /**\n     * Default `text` lookup function.\n     * @param {Element} trigger\n     */\n    value: function defaultText(trigger) {\n      return getAttributeValue('text', trigger);\n    }\n    /**\n     * Destroy lifecycle.\n     */\n\n  }, {\n    key: \"destroy\",\n    value: function destroy() {\n      this.listener.destroy();\n    }\n  }], [{\n    key: \"copy\",\n    value: function copy(target) {\n      var options = arguments.length > 1 && arguments[1] !== undefined ? arguments[1] : {\n        container: document.body\n      };\n      return actions_copy(target, options);\n    }\n    /**\n     * Allow fire programmatically a cut action\n     * @param {String|HTMLElement} target\n     * @returns Text cutted.\n     */\n\n  }, {\n    key: \"cut\",\n    value: function cut(target) {\n      return actions_cut(target);\n    }\n    /**\n     * Returns the support of the given action, or all actions if no action is\n     * given.\n     * @param {String} [action]\n     */\n\n  }, {\n    key: \"isSupported\",\n    value: function isSupported() {\n      var action = arguments.length > 0 && arguments[0] !== undefined ? arguments[0] : ['copy', 'cut'];\n      var actions = typeof action === 'string' ? [action] : action;\n      var support = !!document.queryCommandSupported;\n      actions.forEach(function (action) {\n        support = support && !!document.queryCommandSupported(action);\n      });\n      return support;\n    }\n  }]);\n\n  return Clipboard;\n}((tiny_emitter_default()));\n\n/* harmony default export */ var clipboard = (Clipboard);\n\n/***/ }),\n\n/***/ 828:\n/***/ (function(module) {\n\nvar DOCUMENT_NODE_TYPE = 9;\n\n/**\n * A polyfill for Element.matches()\n */\nif (typeof Element !== 'undefined' && !Element.prototype.matches) {\n    var proto = Element.prototype;\n\n    proto.matches = proto.matchesSelector ||\n                    proto.mozMatchesSelector ||\n                    proto.msMatchesSelector ||\n                    proto.oMatchesSelector ||\n                    proto.webkitMatchesSelector;\n}\n\n/**\n * Finds the closest parent that matches a selector.\n *\n * @param {Element} element\n * @param {String} selector\n * @return {Function}\n */\nfunction closest (element, selector) {\n    while (element && element.nodeType !== DOCUMENT_NODE_TYPE) {\n        if (typeof element.matches === 'function' &&\n            element.matches(selector)) {\n          return element;\n        }\n        element = element.parentNode;\n    }\n}\n\nmodule.exports = closest;\n\n\n/***/ }),\n\n/***/ 438:\n/***/ (function(module, __unused_webpack_exports, __webpack_require__) {\n\nvar closest = __webpack_require__(828);\n\n/**\n * Delegates event to a selector.\n *\n * @param {Element} element\n * @param {String} selector\n * @param {String} type\n * @param {Function} callback\n * @param {Boolean} useCapture\n * @return {Object}\n */\nfunction _delegate(element, selector, type, callback, useCapture) {\n    var listenerFn = listener.apply(this, arguments);\n\n    element.addEventListener(type, listenerFn, useCapture);\n\n    return {\n        destroy: function() {\n            element.removeEventListener(type, listenerFn, useCapture);\n        }\n    }\n}\n\n/**\n * Delegates event to a selector.\n *\n * @param {Element|String|Array} [elements]\n * @param {String} selector\n * @param {String} type\n * @param {Function} callback\n * @param {Boolean} useCapture\n * @return {Object}\n */\nfunction delegate(elements, selector, type, callback, useCapture) {\n    // Handle the regular Element usage\n    if (typeof elements.addEventListener === 'function') {\n        return _delegate.apply(null, arguments);\n    }\n\n    // Handle Element-less usage, it defaults to global delegation\n    if (typeof type === 'function') {\n        // Use `document` as the first parameter, then apply arguments\n        // This is a short way to .unshift `arguments` without running into deoptimizations\n        return _delegate.bind(null, document).apply(null, arguments);\n    }\n\n    // Handle Selector-based usage\n    if (typeof elements === 'string') {\n        elements = document.querySelectorAll(elements);\n    }\n\n    // Handle Array-like based usage\n    return Array.prototype.map.call(elements, function (element) {\n        return _delegate(element, selector, type, callback, useCapture);\n    });\n}\n\n/**\n * Finds closest match and invokes callback.\n *\n * @param {Element} element\n * @param {String} selector\n * @param {String} type\n * @param {Function} callback\n * @return {Function}\n */\nfunction listener(element, selector, type, callback) {\n    return function(e) {\n        e.delegateTarget = closest(e.target, selector);\n\n        if (e.delegateTarget) {\n            callback.call(element, e);\n        }\n    }\n}\n\nmodule.exports = delegate;\n\n\n/***/ }),\n\n/***/ 879:\n/***/ (function(__unused_webpack_module, exports) {\n\n/**\n * Check if argument is a HTML element.\n *\n * @param {Object} value\n * @return {Boolean}\n */\nexports.node = function(value) {\n    return value !== undefined\n        && value instanceof HTMLElement\n        && value.nodeType === 1;\n};\n\n/**\n * Check if argument is a list of HTML elements.\n *\n * @param {Object} value\n * @return {Boolean}\n */\nexports.nodeList = function(value) {\n    var type = Object.prototype.toString.call(value);\n\n    return value !== undefined\n        && (type === '[object NodeList]' || type === '[object HTMLCollection]')\n        && ('length' in value)\n        && (value.length === 0 || exports.node(value[0]));\n};\n\n/**\n * Check if argument is a string.\n *\n * @param {Object} value\n * @return {Boolean}\n */\nexports.string = function(value) {\n    return typeof value === 'string'\n        || value instanceof String;\n};\n\n/**\n * Check if argument is a function.\n *\n * @param {Object} value\n * @return {Boolean}\n */\nexports.fn = function(value) {\n    var type = Object.prototype.toString.call(value);\n\n    return type === '[object Function]';\n};\n\n\n/***/ }),\n\n/***/ 370:\n/***/ (function(module, __unused_webpack_exports, __webpack_require__) {\n\nvar is = __webpack_require__(879);\nvar delegate = __webpack_require__(438);\n\n/**\n * Validates all params and calls the right\n * listener function based on its target type.\n *\n * @param {String|HTMLElement|HTMLCollection|NodeList} target\n * @param {String} type\n * @param {Function} callback\n * @return {Object}\n */\nfunction listen(target, type, callback) {\n    if (!target && !type && !callback) {\n        throw new Error('Missing required arguments');\n    }\n\n    if (!is.string(type)) {\n        throw new TypeError('Second argument must be a String');\n    }\n\n    if (!is.fn(callback)) {\n        throw new TypeError('Third argument must be a Function');\n    }\n\n    if (is.node(target)) {\n        return listenNode(target, type, callback);\n    }\n    else if (is.nodeList(target)) {\n        return listenNodeList(target, type, callback);\n    }\n    else if (is.string(target)) {\n        return listenSelector(target, type, callback);\n    }\n    else {\n        throw new TypeError('First argument must be a String, HTMLElement, HTMLCollection, or NodeList');\n    }\n}\n\n/**\n * Adds an event listener to a HTML element\n * and returns a remove listener function.\n *\n * @param {HTMLElement} node\n * @param {String} type\n * @param {Function} callback\n * @return {Object}\n */\nfunction listenNode(node, type, callback) {\n    node.addEventListener(type, callback);\n\n    return {\n        destroy: function() {\n            node.removeEventListener(type, callback);\n        }\n    }\n}\n\n/**\n * Add an event listener to a list of HTML elements\n * and returns a remove listener function.\n *\n * @param {NodeList|HTMLCollection} nodeList\n * @param {String} type\n * @param {Function} callback\n * @return {Object}\n */\nfunction listenNodeList(nodeList, type, callback) {\n    Array.prototype.forEach.call(nodeList, function(node) {\n        node.addEventListener(type, callback);\n    });\n\n    return {\n        destroy: function() {\n            Array.prototype.forEach.call(nodeList, function(node) {\n                node.removeEventListener(type, callback);\n            });\n        }\n    }\n}\n\n/**\n * Add an event listener to a selector\n * and returns a remove listener function.\n *\n * @param {String} selector\n * @param {String} type\n * @param {Function} callback\n * @return {Object}\n */\nfunction listenSelector(selector, type, callback) {\n    return delegate(document.body, selector, type, callback);\n}\n\nmodule.exports = listen;\n\n\n/***/ }),\n\n/***/ 817:\n/***/ (function(module) {\n\nfunction select(element) {\n    var selectedText;\n\n    if (element.nodeName === 'SELECT') {\n        element.focus();\n\n        selectedText = element.value;\n    }\n    else if (element.nodeName === 'INPUT' || element.nodeName === 'TEXTAREA') {\n        var isReadOnly = element.hasAttribute('readonly');\n\n        if (!isReadOnly) {\n            element.setAttribute('readonly', '');\n        }\n\n        element.select();\n        element.setSelectionRange(0, element.value.length);\n\n        if (!isReadOnly) {\n            element.removeAttribute('readonly');\n        }\n\n        selectedText = element.value;\n    }\n    else {\n        if (element.hasAttribute('contenteditable')) {\n            element.focus();\n        }\n\n        var selection = window.getSelection();\n        var range = document.createRange();\n\n        range.selectNodeContents(element);\n        selection.removeAllRanges();\n        selection.addRange(range);\n\n        selectedText = selection.toString();\n    }\n\n    return selectedText;\n}\n\nmodule.exports = select;\n\n\n/***/ }),\n\n/***/ 279:\n/***/ (function(module) {\n\nfunction E () {\n  // Keep this empty so it's easier to inherit from\n  // (via https://github.com/lipsmack from https://github.com/scottcorgan/tiny-emitter/issues/3)\n}\n\nE.prototype = {\n  on: function (name, callback, ctx) {\n    var e = this.e || (this.e = {});\n\n    (e[name] || (e[name] = [])).push({\n      fn: callback,\n      ctx: ctx\n    });\n\n    return this;\n  },\n\n  once: function (name, callback, ctx) {\n    var self = this;\n    function listener () {\n      self.off(name, listener);\n      callback.apply(ctx, arguments);\n    };\n\n    listener._ = callback\n    return this.on(name, listener, ctx);\n  },\n\n  emit: function (name) {\n    var data = [].slice.call(arguments, 1);\n    var evtArr = ((this.e || (this.e = {}))[name] || []).slice();\n    var i = 0;\n    var len = evtArr.length;\n\n    for (i; i < len; i++) {\n      evtArr[i].fn.apply(evtArr[i].ctx, data);\n    }\n\n    return this;\n  },\n\n  off: function (name, callback) {\n    var e = this.e || (this.e = {});\n    var evts = e[name];\n    var liveEvents = [];\n\n    if (evts && callback) {\n      for (var i = 0, len = evts.length; i < len; i++) {\n        if (evts[i].fn !== callback && evts[i].fn._ !== callback)\n          liveEvents.push(evts[i]);\n      }\n    }\n\n    // Remove event from queue to prevent memory leak\n    // Suggested by https://github.com/lazd\n    // Ref: https://github.com/scottcorgan/tiny-emitter/commit/c6ebfaa9bc973b33d110a84a307742b7cf94c953#commitcomment-5024910\n\n    (liveEvents.length)\n      ? e[name] = liveEvents\n      : delete e[name];\n\n    return this;\n  }\n};\n\nmodule.exports = E;\nmodule.exports.TinyEmitter = E;\n\n\n/***/ })\n\n/******/ \t});\n/************************************************************************/\n/******/ \t// The module cache\n/******/ \tvar __webpack_module_cache__ = {};\n/******/ \t\n/******/ \t// The require function\n/******/ \tfunction __webpack_require__(moduleId) {\n/******/ \t\t// Check if module is in cache\n/******/ \t\tif(__webpack_module_cache__[moduleId]) {\n/******/ \t\t\treturn __webpack_module_cache__[moduleId].exports;\n/******/ \t\t}\n/******/ \t\t// Create a new module (and put it into the cache)\n/******/ \t\tvar module = __webpack_module_cache__[moduleId] = {\n/******/ \t\t\t// no module.id needed\n/******/ \t\t\t// no module.loaded needed\n/******/ \t\t\texports: {}\n/******/ \t\t};\n/******/ \t\n/******/ \t\t// Execute the module function\n/******/ \t\t__webpack_modules__[moduleId](module, module.exports, __webpack_require__);\n/******/ \t\n/******/ \t\t// Return the exports of the module\n/******/ \t\treturn module.exports;\n/******/ \t}\n/******/ \t\n/************************************************************************/\n/******/ \t/* webpack/runtime/compat get default export */\n/******/ \t!function() {\n/******/ \t\t// getDefaultExport function for compatibility with non-harmony modules\n/******/ \t\t__webpack_require__.n = function(module) {\n/******/ \t\t\tvar getter = module && module.__esModule ?\n/******/ \t\t\t\tfunction() { return module['default']; } :\n/******/ \t\t\t\tfunction() { return module; };\n/******/ \t\t\t__webpack_require__.d(getter, { a: getter });\n/******/ \t\t\treturn getter;\n/******/ \t\t};\n/******/ \t}();\n/******/ \t\n/******/ \t/* webpack/runtime/define property getters */\n/******/ \t!function() {\n/******/ \t\t// define getter functions for harmony exports\n/******/ \t\t__webpack_require__.d = function(exports, definition) {\n/******/ \t\t\tfor(var key in definition) {\n/******/ \t\t\t\tif(__webpack_require__.o(definition, key) && !__webpack_require__.o(exports, key)) {\n/******/ \t\t\t\t\tObject.defineProperty(exports, key, { enumerable: true, get: definition[key] });\n/******/ \t\t\t\t}\n/******/ \t\t\t}\n/******/ \t\t};\n/******/ \t}();\n/******/ \t\n/******/ \t/* webpack/runtime/hasOwnProperty shorthand */\n/******/ \t!function() {\n/******/ \t\t__webpack_require__.o = function(obj, prop) { return Object.prototype.hasOwnProperty.call(obj, prop); }\n/******/ \t}();\n/******/ \t\n/************************************************************************/\n/******/ \t// module exports must be returned from runtime so entry inlining is disabled\n/******/ \t// startup\n/******/ \t// Load entry module and return exports\n/******/ \treturn __webpack_require__(686);\n/******/ })()\n.default;\n});", "/*!\n * escape-html\n * Copyright(c) 2012-2013 TJ Holowaychuk\n * Copyright(c) 2015 Andreas Lubbe\n * Copyright(c) 2015 Tiancheng \"Timothy\" Gu\n * MIT Licensed\n */\n\n'use strict';\n\n/**\n * Module variables.\n * @private\n */\n\nvar matchHtmlRegExp = /[\"'&<>]/;\n\n/**\n * Module exports.\n * @public\n */\n\nmodule.exports = escapeHtml;\n\n/**\n * Escape special characters in the given string of html.\n *\n * @param  {string} string The string to escape for inserting into HTML\n * @return {string}\n * @public\n */\n\nfunction escapeHtml(string) {\n  var str = '' + string;\n  var match = matchHtmlRegExp.exec(str);\n\n  if (!match) {\n    return str;\n  }\n\n  var escape;\n  var html = '';\n  var index = 0;\n  var lastIndex = 0;\n\n  for (index = match.index; index < str.length; index++) {\n    switch (str.charCodeAt(index)) {\n      case 34: // \"\n        escape = '&quot;';\n        break;\n      case 38: // &\n        escape = '&amp;';\n        break;\n      case 39: // '\n        escape = '&#39;';\n        break;\n      case 60: // <\n        escape = '&lt;';\n        break;\n      case 62: // >\n        escape = '&gt;';\n        break;\n      default:\n        continue;\n    }\n\n    if (lastIndex !== index) {\n      html += str.substring(lastIndex, index);\n    }\n\n    lastIndex = index + 1;\n    html += escape;\n  }\n\n  return lastIndex !== index\n    ? html + str.substring(lastIndex, index)\n    : html;\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport \"focus-visible\"\n\nimport {\n  EMPTY,\n  NEVER,\n  Observable,\n  Subject,\n  defer,\n  delay,\n  filter,\n  map,\n  merge,\n  mergeWith,\n  shareReplay,\n  switchMap\n} from \"rxjs\"\n\nimport { configuration, feature } from \"./_\"\nimport {\n  at,\n  getActiveElement,\n  getOptionalElement,\n  requestJSON,\n  setLocation,\n  setToggle,\n  watchDocument,\n  watchKeyboard,\n  watchLocation,\n  watchLocationTarget,\n  watchMedia,\n  watchPrint,\n  watchScript,\n  watchViewport\n} from \"./browser\"\nimport {\n  getComponentElement,\n  getComponentElements,\n  mountAnnounce,\n  mountBackToTop,\n  mountConsent,\n  mountContent,\n  mountDialog,\n  mountHeader,\n  mountHeaderTitle,\n  mountPalette,\n  mountProgress,\n  mountSearch,\n  mountSearchHiglight,\n  mountSidebar,\n  mountSource,\n  mountTableOfContents,\n  mountTabs,\n  watchHeader,\n  watchMain\n} from \"./components\"\nimport {\n  SearchIndex,\n  setupClipboardJS,\n  setupInstantNavigation,\n  setupVersionSelector\n} from \"./integrations\"\nimport {\n  patchEllipsis,\n  patchIndeterminate,\n  patchScrollfix,\n  patchScrolllock\n} from \"./patches\"\nimport \"./polyfills\"\n\n/* ----------------------------------------------------------------------------\n * Functions - @todo refactor\n * ------------------------------------------------------------------------- */\n\n/**\n * Fetch search index\n *\n * @returns Search index observable\n */\nfunction fetchSearchIndex(): Observable<SearchIndex> {\n  if (location.protocol === \"file:\") {\n    return watchScript(\n      `${new URL(\"search/search_index.js\", config.base)}`\n    )\n      .pipe(\n        // @ts-ignore - @todo fix typings\n        map(() => __index),\n        shareReplay(1)\n      )\n  } else {\n    return requestJSON<SearchIndex>(\n      new URL(\"search/search_index.json\", config.base)\n    )\n  }\n}\n\n/* ----------------------------------------------------------------------------\n * Application\n * ------------------------------------------------------------------------- */\n\n/* Yay, JavaScript is available */\ndocument.documentElement.classList.remove(\"no-js\")\ndocument.documentElement.classList.add(\"js\")\n\n/* Set up navigation observables and subjects */\nconst document$ = watchDocument()\nconst location$ = watchLocation()\nconst target$   = watchLocationTarget(location$)\nconst keyboard$ = watchKeyboard()\n\n/* Set up media observables */\nconst viewport$ = watchViewport()\nconst tablet$   = watchMedia(\"(min-width: 960px)\")\nconst screen$   = watchMedia(\"(min-width: 1220px)\")\nconst print$    = watchPrint()\n\n/* Retrieve search index, if search is enabled */\nconst config = configuration()\nconst index$ = document.forms.namedItem(\"search\")\n  ? fetchSearchIndex()\n  : NEVER\n\n/* Set up Clipboard.js integration */\nconst alert$ = new Subject<string>()\nsetupClipboardJS({ alert$ })\n\n/* Set up progress indicator */\nconst progress$ = new Subject<number>()\n\n/* Set up instant navigation, if enabled */\nif (feature(\"navigation.instant\"))\n  setupInstantNavigation({ location$, viewport$, progress$ })\n    .subscribe(document$)\n\n/* Set up version selector */\nif (config.version?.provider === \"mike\")\n  setupVersionSelector({ document$ })\n\n/* Always close drawer and search on navigation */\nmerge(location$, target$)\n  .pipe(\n    delay(125)\n  )\n    .subscribe(() => {\n      setToggle(\"drawer\", false)\n      setToggle(\"search\", false)\n    })\n\n/* Set up global keyboard handlers */\nkeyboard$\n  .pipe(\n    filter(({ mode }) => mode === \"global\")\n  )\n    .subscribe(key => {\n      switch (key.type) {\n\n        /* Go to previous page */\n        case \"p\":\n        case \",\":\n          const prev = getOptionalElement<HTMLLinkElement>(\"link[rel=prev]\")\n          if (typeof prev !== \"undefined\")\n            setLocation(prev)\n          break\n\n        /* Go to next page */\n        case \"n\":\n        case \".\":\n          const next = getOptionalElement<HTMLLinkElement>(\"link[rel=next]\")\n          if (typeof next !== \"undefined\")\n            setLocation(next)\n          break\n\n        /* Expand navigation, see https://bit.ly/3ZjG5io */\n        case \"Enter\":\n          const active = getActiveElement()\n          if (active instanceof HTMLLabelElement)\n            active.click()\n      }\n    })\n\n/* Set up patches */\npatchEllipsis({ viewport$, document$ })\npatchIndeterminate({ document$, tablet$ })\npatchScrollfix({ document$ })\npatchScrolllock({ viewport$, tablet$ })\n\n/* Set up header and main area observable */\nconst header$ = watchHeader(getComponentElement(\"header\"), { viewport$ })\nconst main$ = document$\n  .pipe(\n    map(() => getComponentElement(\"main\")),\n    switchMap(el => watchMain(el, { viewport$, header$ })),\n    shareReplay(1)\n  )\n\n/* Set up control component observables */\nconst control$ = merge(\n\n  /* Consent */\n  ...getComponentElements(\"consent\")\n    .map(el => mountConsent(el, { target$ })),\n\n  /* Dialog */\n  ...getComponentElements(\"dialog\")\n    .map(el => mountDialog(el, { alert$ })),\n\n  /* Header */\n  ...getComponentElements(\"header\")\n    .map(el => mountHeader(el, { viewport$, header$, main$ })),\n\n  /* Color palette */\n  ...getComponentElements(\"palette\")\n    .map(el => mountPalette(el)),\n\n  /* Progress bar */\n  ...getComponentElements(\"progress\")\n    .map(el => mountProgress(el, { progress$ })),\n\n  /* Search */\n  ...getComponentElements(\"search\")\n    .map(el => mountSearch(el, { index$, keyboard$ })),\n\n  /* Repository information */\n  ...getComponentElements(\"source\")\n    .map(el => mountSource(el))\n)\n\n/* Set up content component observables */\nconst content$ = defer(() => merge(\n\n  /* Announcement bar */\n  ...getComponentElements(\"announce\")\n    .map(el => mountAnnounce(el)),\n\n  /* Content */\n  ...getComponentElements(\"content\")\n    .map(el => mountContent(el, { viewport$, target$, print$ })),\n\n  /* Search highlighting */\n  ...getComponentElements(\"content\")\n    .map(el => feature(\"search.highlight\")\n      ? mountSearchHiglight(el, { index$, location$ })\n      : EMPTY\n    ),\n\n  /* Header title */\n  ...getComponentElements(\"header-title\")\n    .map(el => mountHeaderTitle(el, { viewport$, header$ })),\n\n  /* Sidebar */\n  ...getComponentElements(\"sidebar\")\n    .map(el => el.getAttribute(\"data-md-type\") === \"navigation\"\n      ? at(screen$, () => mountSidebar(el, { viewport$, header$, main$ }))\n      : at(tablet$, () => mountSidebar(el, { viewport$, header$, main$ }))\n    ),\n\n  /* Navigation tabs */\n  ...getComponentElements(\"tabs\")\n    .map(el => mountTabs(el, { viewport$, header$ })),\n\n  /* Table of contents */\n  ...getComponentElements(\"toc\")\n    .map(el => mountTableOfContents(el, {\n      viewport$, header$, main$, target$\n    })),\n\n  /* Back-to-top button */\n  ...getComponentElements(\"top\")\n    .map(el => mountBackToTop(el, { viewport$, header$, main$, target$ }))\n))\n\n/* Set up component observables */\nconst component$ = document$\n  .pipe(\n    switchMap(() => content$),\n    mergeWith(control$),\n    shareReplay(1)\n  )\n\n/* Subscribe to all components */\ncomponent$.subscribe()\n\n/* ----------------------------------------------------------------------------\n * Exports\n * ------------------------------------------------------------------------- */\n\nwindow.document$  = document$          /* Document observable */\nwindow.location$  = location$          /* Location subject */\nwindow.target$    = target$            /* Location target observable */\nwindow.keyboard$  = keyboard$          /* Keyboard observable */\nwindow.viewport$  = viewport$          /* Viewport observable */\nwindow.tablet$    = tablet$            /* Media tablet observable */\nwindow.screen$    = screen$            /* Media screen observable */\nwindow.print$     = print$             /* Media print observable */\nwindow.alert$     = alert$             /* Alert subject */\nwindow.progress$  = progress$          /* Progress indicator subject */\nwindow.component$ = component$         /* Component observable */\n", "/*! *****************************************************************************\r\nCopyright (c) Microsoft Corporation.\r\n\r\nPermission to use, copy, modify, and/or distribute this software for any\r\npurpose with or without fee is hereby granted.\r\n\r\nTHE SOFTWARE IS PROVIDED \"AS IS\" AND THE AUTHOR DISCLAIMS ALL WARRANTIES WITH\r\nREGARD TO THIS SOFTWARE INCLUDING ALL IMPLIED WARRANTIES OF MERCHANTABILITY\r\nAND FITNESS. IN NO EVENT SHALL THE AUTHOR BE LIABLE FOR ANY SPECIAL, DIRECT,\r\nINDIRECT, OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES WHATSOEVER RESULTING FROM\r\nLOSS OF USE, DATA OR PROFITS, WHETHER IN AN ACTION OF CONTRACT, NEGLIGENCE OR\r\nOTHER TORTIOUS ACTION, ARISING OUT OF OR IN CONNECTION WITH THE USE OR\r\nPERFORMANCE OF THIS SOFTWARE.\r\n***************************************************************************** */\r\n/* global Reflect, Promise */\r\n\r\nvar extendStatics = function(d, b) {\r\n    extendStatics = Object.setPrototypeOf ||\r\n        ({ __proto__: [] } instanceof Array && function (d, b) { d.__proto__ = b; }) ||\r\n        function (d, b) { for (var p in b) if (Object.prototype.hasOwnProperty.call(b, p)) d[p] = b[p]; };\r\n    return extendStatics(d, b);\r\n};\r\n\r\nexport function __extends(d, b) {\r\n    if (typeof b !== \"function\" && b !== null)\r\n        throw new TypeError(\"Class extends value \" + String(b) + \" is not a constructor or null\");\r\n    extendStatics(d, b);\r\n    function __() { this.constructor = d; }\r\n    d.prototype = b === null ? Object.create(b) : (__.prototype = b.prototype, new __());\r\n}\r\n\r\nexport var __assign = function() {\r\n    __assign = Object.assign || function __assign(t) {\r\n        for (var s, i = 1, n = arguments.length; i < n; i++) {\r\n            s = arguments[i];\r\n            for (var p in s) if (Object.prototype.hasOwnProperty.call(s, p)) t[p] = s[p];\r\n        }\r\n        return t;\r\n    }\r\n    return __assign.apply(this, arguments);\r\n}\r\n\r\nexport function __rest(s, e) {\r\n    var t = {};\r\n    for (var p in s) if (Object.prototype.hasOwnProperty.call(s, p) && e.indexOf(p) < 0)\r\n        t[p] = s[p];\r\n    if (s != null && typeof Object.getOwnPropertySymbols === \"function\")\r\n        for (var i = 0, p = Object.getOwnPropertySymbols(s); i < p.length; i++) {\r\n            if (e.indexOf(p[i]) < 0 && Object.prototype.propertyIsEnumerable.call(s, p[i]))\r\n                t[p[i]] = s[p[i]];\r\n        }\r\n    return t;\r\n}\r\n\r\nexport function __decorate(decorators, target, key, desc) {\r\n    var c = arguments.length, r = c < 3 ? target : desc === null ? desc = Object.getOwnPropertyDescriptor(target, key) : desc, d;\r\n    if (typeof Reflect === \"object\" && typeof Reflect.decorate === \"function\") r = Reflect.decorate(decorators, target, key, desc);\r\n    else for (var i = decorators.length - 1; i >= 0; i--) if (d = decorators[i]) r = (c < 3 ? d(r) : c > 3 ? d(target, key, r) : d(target, key)) || r;\r\n    return c > 3 && r && Object.defineProperty(target, key, r), r;\r\n}\r\n\r\nexport function __param(paramIndex, decorator) {\r\n    return function (target, key) { decorator(target, key, paramIndex); }\r\n}\r\n\r\nexport function __metadata(metadataKey, metadataValue) {\r\n    if (typeof Reflect === \"object\" && typeof Reflect.metadata === \"function\") return Reflect.metadata(metadataKey, metadataValue);\r\n}\r\n\r\nexport function __awaiter(thisArg, _arguments, P, generator) {\r\n    function adopt(value) { return value instanceof P ? value : new P(function (resolve) { resolve(value); }); }\r\n    return new (P || (P = Promise))(function (resolve, reject) {\r\n        function fulfilled(value) { try { step(generator.next(value)); } catch (e) { reject(e); } }\r\n        function rejected(value) { try { step(generator[\"throw\"](value)); } catch (e) { reject(e); } }\r\n        function step(result) { result.done ? resolve(result.value) : adopt(result.value).then(fulfilled, rejected); }\r\n        step((generator = generator.apply(thisArg, _arguments || [])).next());\r\n    });\r\n}\r\n\r\nexport function __generator(thisArg, body) {\r\n    var _ = { label: 0, sent: function() { if (t[0] & 1) throw t[1]; return t[1]; }, trys: [], ops: [] }, f, y, t, g;\r\n    return g = { next: verb(0), \"throw\": verb(1), \"return\": verb(2) }, typeof Symbol === \"function\" && (g[Symbol.iterator] = function() { return this; }), g;\r\n    function verb(n) { return function (v) { return step([n, v]); }; }\r\n    function step(op) {\r\n        if (f) throw new TypeError(\"Generator is already executing.\");\r\n        while (_) try {\r\n            if (f = 1, y && (t = op[0] & 2 ? y[\"return\"] : op[0] ? y[\"throw\"] || ((t = y[\"return\"]) && t.call(y), 0) : y.next) && !(t = t.call(y, op[1])).done) return t;\r\n            if (y = 0, t) op = [op[0] & 2, t.value];\r\n            switch (op[0]) {\r\n                case 0: case 1: t = op; break;\r\n                case 4: _.label++; return { value: op[1], done: false };\r\n                case 5: _.label++; y = op[1]; op = [0]; continue;\r\n                case 7: op = _.ops.pop(); _.trys.pop(); continue;\r\n                default:\r\n                    if (!(t = _.trys, t = t.length > 0 && t[t.length - 1]) && (op[0] === 6 || op[0] === 2)) { _ = 0; continue; }\r\n                    if (op[0] === 3 && (!t || (op[1] > t[0] && op[1] < t[3]))) { _.label = op[1]; break; }\r\n                    if (op[0] === 6 && _.label < t[1]) { _.label = t[1]; t = op; break; }\r\n                    if (t && _.label < t[2]) { _.label = t[2]; _.ops.push(op); break; }\r\n                    if (t[2]) _.ops.pop();\r\n                    _.trys.pop(); continue;\r\n            }\r\n            op = body.call(thisArg, _);\r\n        } catch (e) { op = [6, e]; y = 0; } finally { f = t = 0; }\r\n        if (op[0] & 5) throw op[1]; return { value: op[0] ? op[1] : void 0, done: true };\r\n    }\r\n}\r\n\r\nexport var __createBinding = Object.create ? (function(o, m, k, k2) {\r\n    if (k2 === undefined) k2 = k;\r\n    Object.defineProperty(o, k2, { enumerable: true, get: function() { return m[k]; } });\r\n}) : (function(o, m, k, k2) {\r\n    if (k2 === undefined) k2 = k;\r\n    o[k2] = m[k];\r\n});\r\n\r\nexport function __exportStar(m, o) {\r\n    for (var p in m) if (p !== \"default\" && !Object.prototype.hasOwnProperty.call(o, p)) __createBinding(o, m, p);\r\n}\r\n\r\nexport function __values(o) {\r\n    var s = typeof Symbol === \"function\" && Symbol.iterator, m = s && o[s], i = 0;\r\n    if (m) return m.call(o);\r\n    if (o && typeof o.length === \"number\") return {\r\n        next: function () {\r\n            if (o && i >= o.length) o = void 0;\r\n            return { value: o && o[i++], done: !o };\r\n        }\r\n    };\r\n    throw new TypeError(s ? \"Object is not iterable.\" : \"Symbol.iterator is not defined.\");\r\n}\r\n\r\nexport function __read(o, n) {\r\n    var m = typeof Symbol === \"function\" && o[Symbol.iterator];\r\n    if (!m) return o;\r\n    var i = m.call(o), r, ar = [], e;\r\n    try {\r\n        while ((n === void 0 || n-- > 0) && !(r = i.next()).done) ar.push(r.value);\r\n    }\r\n    catch (error) { e = { error: error }; }\r\n    finally {\r\n        try {\r\n            if (r && !r.done && (m = i[\"return\"])) m.call(i);\r\n        }\r\n        finally { if (e) throw e.error; }\r\n    }\r\n    return ar;\r\n}\r\n\r\n/** @deprecated */\r\nexport function __spread() {\r\n    for (var ar = [], i = 0; i < arguments.length; i++)\r\n        ar = ar.concat(__read(arguments[i]));\r\n    return ar;\r\n}\r\n\r\n/** @deprecated */\r\nexport function __spreadArrays() {\r\n    for (var s = 0, i = 0, il = arguments.length; i < il; i++) s += arguments[i].length;\r\n    for (var r = Array(s), k = 0, i = 0; i < il; i++)\r\n        for (var a = arguments[i], j = 0, jl = a.length; j < jl; j++, k++)\r\n            r[k] = a[j];\r\n    return r;\r\n}\r\n\r\nexport function __spreadArray(to, from, pack) {\r\n    if (pack || arguments.length === 2) for (var i = 0, l = from.length, ar; i < l; i++) {\r\n        if (ar || !(i in from)) {\r\n            if (!ar) ar = Array.prototype.slice.call(from, 0, i);\r\n            ar[i] = from[i];\r\n        }\r\n    }\r\n    return to.concat(ar || Array.prototype.slice.call(from));\r\n}\r\n\r\nexport function __await(v) {\r\n    return this instanceof __await ? (this.v = v, this) : new __await(v);\r\n}\r\n\r\nexport function __asyncGenerator(thisArg, _arguments, generator) {\r\n    if (!Symbol.asyncIterator) throw new TypeError(\"Symbol.asyncIterator is not defined.\");\r\n    var g = generator.apply(thisArg, _arguments || []), i, q = [];\r\n    return i = {}, verb(\"next\"), verb(\"throw\"), verb(\"return\"), i[Symbol.asyncIterator] = function () { return this; }, i;\r\n    function verb(n) { if (g[n]) i[n] = function (v) { return new Promise(function (a, b) { q.push([n, v, a, b]) > 1 || resume(n, v); }); }; }\r\n    function resume(n, v) { try { step(g[n](v)); } catch (e) { settle(q[0][3], e); } }\r\n    function step(r) { r.value instanceof __await ? Promise.resolve(r.value.v).then(fulfill, reject) : settle(q[0][2], r); }\r\n    function fulfill(value) { resume(\"next\", value); }\r\n    function reject(value) { resume(\"throw\", value); }\r\n    function settle(f, v) { if (f(v), q.shift(), q.length) resume(q[0][0], q[0][1]); }\r\n}\r\n\r\nexport function __asyncDelegator(o) {\r\n    var i, p;\r\n    return i = {}, verb(\"next\"), verb(\"throw\", function (e) { throw e; }), verb(\"return\"), i[Symbol.iterator] = function () { return this; }, i;\r\n    function verb(n, f) { i[n] = o[n] ? function (v) { return (p = !p) ? { value: __await(o[n](v)), done: n === \"return\" } : f ? f(v) : v; } : f; }\r\n}\r\n\r\nexport function __asyncValues(o) {\r\n    if (!Symbol.asyncIterator) throw new TypeError(\"Symbol.asyncIterator is not defined.\");\r\n    var m = o[Symbol.asyncIterator], i;\r\n    return m ? m.call(o) : (o = typeof __values === \"function\" ? __values(o) : o[Symbol.iterator](), i = {}, verb(\"next\"), verb(\"throw\"), verb(\"return\"), i[Symbol.asyncIterator] = function () { return this; }, i);\r\n    function verb(n) { i[n] = o[n] && function (v) { return new Promise(function (resolve, reject) { v = o[n](v), settle(resolve, reject, v.done, v.value); }); }; }\r\n    function settle(resolve, reject, d, v) { Promise.resolve(v).then(function(v) { resolve({ value: v, done: d }); }, reject); }\r\n}\r\n\r\nexport function __makeTemplateObject(cooked, raw) {\r\n    if (Object.defineProperty) { Object.defineProperty(cooked, \"raw\", { value: raw }); } else { cooked.raw = raw; }\r\n    return cooked;\r\n};\r\n\r\nvar __setModuleDefault = Object.create ? (function(o, v) {\r\n    Object.defineProperty(o, \"default\", { enumerable: true, value: v });\r\n}) : function(o, v) {\r\n    o[\"default\"] = v;\r\n};\r\n\r\nexport function __importStar(mod) {\r\n    if (mod && mod.__esModule) return mod;\r\n    var result = {};\r\n    if (mod != null) for (var k in mod) if (k !== \"default\" && Object.prototype.hasOwnProperty.call(mod, k)) __createBinding(result, mod, k);\r\n    __setModuleDefault(result, mod);\r\n    return result;\r\n}\r\n\r\nexport function __importDefault(mod) {\r\n    return (mod && mod.__esModule) ? mod : { default: mod };\r\n}\r\n\r\nexport function __classPrivateFieldGet(receiver, state, kind, f) {\r\n    if (kind === \"a\" && !f) throw new TypeError(\"Private accessor was defined without a getter\");\r\n    if (typeof state === \"function\" ? receiver !== state || !f : !state.has(receiver)) throw new TypeError(\"Cannot read private member from an object whose class did not declare it\");\r\n    return kind === \"m\" ? f : kind === \"a\" ? f.call(receiver) : f ? f.value : state.get(receiver);\r\n}\r\n\r\nexport function __classPrivateFieldSet(receiver, state, value, kind, f) {\r\n    if (kind === \"m\") throw new TypeError(\"Private method is not writable\");\r\n    if (kind === \"a\" && !f) throw new TypeError(\"Private accessor was defined without a setter\");\r\n    if (typeof state === \"function\" ? receiver !== state || !f : !state.has(receiver)) throw new TypeError(\"Cannot write private member to an object whose class did not declare it\");\r\n    return (kind === \"a\" ? f.call(receiver, value) : f ? f.value = value : state.set(receiver, value)), value;\r\n}\r\n", "/**\n * Returns true if the object is a function.\n * @param value The value to check\n */\nexport function isFunction(value: any): value is (...args: any[]) => any {\n  return typeof value === 'function';\n}\n", "/**\n * Used to create Error subclasses until the community moves away from ES5.\n *\n * This is because compiling from TypeScript down to ES5 has issues with subclassing Errors\n * as well as other built-in types: https://github.com/Microsoft/TypeScript/issues/12123\n *\n * @param createImpl A factory function to create the actual constructor implementation. The returned\n * function should be a named function that calls `_super` internally.\n */\nexport function createErrorClass<T>(createImpl: (_super: any) => any): T {\n  const _super = (instance: any) => {\n    Error.call(instance);\n    instance.stack = new Error().stack;\n  };\n\n  const ctorFunc = createImpl(_super);\n  ctorFunc.prototype = Object.create(Error.prototype);\n  ctorFunc.prototype.constructor = ctorFunc;\n  return ctorFunc;\n}\n", "import { createErrorClass } from './createErrorClass';\n\nexport interface UnsubscriptionError extends Error {\n  readonly errors: any[];\n}\n\nexport interface UnsubscriptionErrorCtor {\n  /**\n   * @deprecated Internal implementation detail. Do not construct error instances.\n   * Cannot be tagged as internal: https://github.com/ReactiveX/rxjs/issues/6269\n   */\n  new (errors: any[]): UnsubscriptionError;\n}\n\n/**\n * An error thrown when one or more errors have occurred during the\n * `unsubscribe` of a {@link Subscription}.\n */\nexport const UnsubscriptionError: UnsubscriptionErrorCtor = createErrorClass(\n  (_super) =>\n    function UnsubscriptionErrorImpl(this: any, errors: (Error | string)[]) {\n      _super(this);\n      this.message = errors\n        ? `${errors.length} errors occurred during unsubscription:\n${errors.map((err, i) => `${i + 1}) ${err.toString()}`).join('\\n  ')}`\n        : '';\n      this.name = 'UnsubscriptionError';\n      this.errors = errors;\n    }\n);\n", "/**\n * Removes an item from an array, mutating it.\n * @param arr The array to remove the item from\n * @param item The item to remove\n */\nexport function arrRemove<T>(arr: T[] | undefined | null, item: T) {\n  if (arr) {\n    const index = arr.indexOf(item);\n    0 <= index && arr.splice(index, 1);\n  }\n}\n", "import { isFunction } from './util/isFunction';\nimport { UnsubscriptionError } from './util/UnsubscriptionError';\nimport { SubscriptionLike, TeardownLogic, Unsubscribable } from './types';\nimport { arrRemove } from './util/arrRemove';\n\n/**\n * Represents a disposable resource, such as the execution of an Observable. A\n * Subscription has one important method, `unsubscribe`, that takes no argument\n * and just disposes the resource held by the subscription.\n *\n * Additionally, subscriptions may be grouped together through the `add()`\n * method, which will attach a child Subscription to the current Subscription.\n * When a Subscription is unsubscribed, all its children (and its grandchildren)\n * will be unsubscribed as well.\n *\n * @class Subscription\n */\nexport class Subscription implements SubscriptionLike {\n  /** @nocollapse */\n  public static EMPTY = (() => {\n    const empty = new Subscription();\n    empty.closed = true;\n    return empty;\n  })();\n\n  /**\n   * A flag to indicate whether this Subscription has already been unsubscribed.\n   */\n  public closed = false;\n\n  private _parentage: Subscription[] | Subscription | null = null;\n\n  /**\n   * The list of registered finalizers to execute upon unsubscription. Adding and removing from this\n   * list occurs in the {@link #add} and {@link #remove} methods.\n   */\n  private _finalizers: Exclude<TeardownLogic, void>[] | null = null;\n\n  /**\n   * @param initialTeardown A function executed first as part of the finalization\n   * process that is kicked off when {@link #unsubscribe} is called.\n   */\n  constructor(private initialTeardown?: () => void) {}\n\n  /**\n   * Disposes the resources held by the subscription. May, for instance, cancel\n   * an ongoing Observable execution or cancel any other type of work that\n   * started when the Subscription was created.\n   * @return {void}\n   */\n  unsubscribe(): void {\n    let errors: any[] | undefined;\n\n    if (!this.closed) {\n      this.closed = true;\n\n      // Remove this from it's parents.\n      const { _parentage } = this;\n      if (_parentage) {\n        this._parentage = null;\n        if (Array.isArray(_parentage)) {\n          for (const parent of _parentage) {\n            parent.remove(this);\n          }\n        } else {\n          _parentage.remove(this);\n        }\n      }\n\n      const { initialTeardown: initialFinalizer } = this;\n      if (isFunction(initialFinalizer)) {\n        try {\n          initialFinalizer();\n        } catch (e) {\n          errors = e instanceof UnsubscriptionError ? e.errors : [e];\n        }\n      }\n\n      const { _finalizers } = this;\n      if (_finalizers) {\n        this._finalizers = null;\n        for (const finalizer of _finalizers) {\n          try {\n            execFinalizer(finalizer);\n          } catch (err) {\n            errors = errors ?? [];\n            if (err instanceof UnsubscriptionError) {\n              errors = [...errors, ...err.errors];\n            } else {\n              errors.push(err);\n            }\n          }\n        }\n      }\n\n      if (errors) {\n        throw new UnsubscriptionError(errors);\n      }\n    }\n  }\n\n  /**\n   * Adds a finalizer to this subscription, so that finalization will be unsubscribed/called\n   * when this subscription is unsubscribed. If this subscription is already {@link #closed},\n   * because it has already been unsubscribed, then whatever finalizer is passed to it\n   * will automatically be executed (unless the finalizer itself is also a closed subscription).\n   *\n   * Closed Subscriptions cannot be added as finalizers to any subscription. Adding a closed\n   * subscription to a any subscription will result in no operation. (A noop).\n   *\n   * Adding a subscription to itself, or adding `null` or `undefined` will not perform any\n   * operation at all. (A noop).\n   *\n   * `Subscription` instances that are added to this instance will automatically remove themselves\n   * if they are unsubscribed. Functions and {@link Unsubscribable} objects that you wish to remove\n   * will need to be removed manually with {@link #remove}\n   *\n   * @param teardown The finalization logic to add to this subscription.\n   */\n  add(teardown: TeardownLogic): void {\n    // Only add the finalizer if it's not undefined\n    // and don't add a subscription to itself.\n    if (teardown && teardown !== this) {\n      if (this.closed) {\n        // If this subscription is already closed,\n        // execute whatever finalizer is handed to it automatically.\n        execFinalizer(teardown);\n      } else {\n        if (teardown instanceof Subscription) {\n          // We don't add closed subscriptions, and we don't add the same subscription\n          // twice. Subscription unsubscribe is idempotent.\n          if (teardown.closed || teardown._hasParent(this)) {\n            return;\n          }\n          teardown._addParent(this);\n        }\n        (this._finalizers = this._finalizers ?? []).push(teardown);\n      }\n    }\n  }\n\n  /**\n   * Checks to see if a this subscription already has a particular parent.\n   * This will signal that this subscription has already been added to the parent in question.\n   * @param parent the parent to check for\n   */\n  private _hasParent(parent: Subscription) {\n    const { _parentage } = this;\n    return _parentage === parent || (Array.isArray(_parentage) && _parentage.includes(parent));\n  }\n\n  /**\n   * Adds a parent to this subscription so it can be removed from the parent if it\n   * unsubscribes on it's own.\n   *\n   * NOTE: THIS ASSUMES THAT {@link _hasParent} HAS ALREADY BEEN CHECKED.\n   * @param parent The parent subscription to add\n   */\n  private _addParent(parent: Subscription) {\n    const { _parentage } = this;\n    this._parentage = Array.isArray(_parentage) ? (_parentage.push(parent), _parentage) : _parentage ? [_parentage, parent] : parent;\n  }\n\n  /**\n   * Called on a child when it is removed via {@link #remove}.\n   * @param parent The parent to remove\n   */\n  private _removeParent(parent: Subscription) {\n    const { _parentage } = this;\n    if (_parentage === parent) {\n      this._parentage = null;\n    } else if (Array.isArray(_parentage)) {\n      arrRemove(_parentage, parent);\n    }\n  }\n\n  /**\n   * Removes a finalizer from this subscription that was previously added with the {@link #add} method.\n   *\n   * Note that `Subscription` instances, when unsubscribed, will automatically remove themselves\n   * from every other `Subscription` they have been added to. This means that using the `remove` method\n   * is not a common thing and should be used thoughtfully.\n   *\n   * If you add the same finalizer instance of a function or an unsubscribable object to a `Subscription` instance\n   * more than once, you will need to call `remove` the same number of times to remove all instances.\n   *\n   * All finalizer instances are removed to free up memory upon unsubscription.\n   *\n   * @param teardown The finalizer to remove from this subscription\n   */\n  remove(teardown: Exclude<TeardownLogic, void>): void {\n    const { _finalizers } = this;\n    _finalizers && arrRemove(_finalizers, teardown);\n\n    if (teardown instanceof Subscription) {\n      teardown._removeParent(this);\n    }\n  }\n}\n\nexport const EMPTY_SUBSCRIPTION = Subscription.EMPTY;\n\nexport function isSubscription(value: any): value is Subscription {\n  return (\n    value instanceof Subscription ||\n    (value && 'closed' in value && isFunction(value.remove) && isFunction(value.add) && isFunction(value.unsubscribe))\n  );\n}\n\nfunction execFinalizer(finalizer: Unsubscribable | (() => void)) {\n  if (isFunction(finalizer)) {\n    finalizer();\n  } else {\n    finalizer.unsubscribe();\n  }\n}\n", "import { Subscriber } from './Subscriber';\nimport { ObservableNotification } from './types';\n\n/**\n * The {@link GlobalConfig} object for RxJS. It is used to configure things\n * like how to react on unhandled errors.\n */\nexport const config: GlobalConfig = {\n  onUnhandledError: null,\n  onStoppedNotification: null,\n  Promise: undefined,\n  useDeprecatedSynchronousErrorHandling: false,\n  useDeprecatedNextContext: false,\n};\n\n/**\n * The global configuration object for RxJS, used to configure things\n * like how to react on unhandled errors. Accessible via {@link config}\n * object.\n */\nexport interface GlobalConfig {\n  /**\n   * A registration point for unhandled errors from RxJS. These are errors that\n   * cannot were not handled by consuming code in the usual subscription path. For\n   * example, if you have this configured, and you subscribe to an observable without\n   * providing an error handler, errors from that subscription will end up here. This\n   * will _always_ be called asynchronously on another job in the runtime. This is because\n   * we do not want errors thrown in this user-configured handler to interfere with the\n   * behavior of the library.\n   */\n  onUnhandledError: ((err: any) => void) | null;\n\n  /**\n   * A registration point for notifications that cannot be sent to subscribers because they\n   * have completed, errored or have been explicitly unsubscribed. By default, next, complete\n   * and error notifications sent to stopped subscribers are noops. However, sometimes callers\n   * might want a different behavior. For example, with sources that attempt to report errors\n   * to stopped subscribers, a caller can configure RxJS to throw an unhandled error instead.\n   * This will _always_ be called asynchronously on another job in the runtime. This is because\n   * we do not want errors thrown in this user-configured handler to interfere with the\n   * behavior of the library.\n   */\n  onStoppedNotification: ((notification: ObservableNotification<any>, subscriber: Subscriber<any>) => void) | null;\n\n  /**\n   * The promise constructor used by default for {@link Observable#toPromise toPromise} and {@link Observable#forEach forEach}\n   * methods.\n   *\n   * @deprecated As of version 8, RxJS will no longer support this sort of injection of a\n   * Promise constructor. If you need a Promise implementation other than native promises,\n   * please polyfill/patch Promise as you see appropriate. Will be removed in v8.\n   */\n  Promise?: PromiseConstructorLike;\n\n  /**\n   * If true, turns on synchronous error rethrowing, which is a deprecated behavior\n   * in v6 and higher. This behavior enables bad patterns like wrapping a subscribe\n   * call in a try/catch block. It also enables producer interference, a nasty bug\n   * where a multicast can be broken for all observers by a downstream consumer with\n   * an unhandled error. DO NOT USE THIS FLAG UNLESS IT'S NEEDED TO BUY TIME\n   * FOR MIGRATION REASONS.\n   *\n   * @deprecated As of version 8, RxJS will no longer support synchronous throwing\n   * of unhandled errors. All errors will be thrown on a separate call stack to prevent bad\n   * behaviors described above. Will be removed in v8.\n   */\n  useDeprecatedSynchronousErrorHandling: boolean;\n\n  /**\n   * If true, enables an as-of-yet undocumented feature from v5: The ability to access\n   * `unsubscribe()` via `this` context in `next` functions created in observers passed\n   * to `subscribe`.\n   *\n   * This is being removed because the performance was severely problematic, and it could also cause\n   * issues when types other than POJOs are passed to subscribe as subscribers, as they will likely have\n   * their `this` context overwritten.\n   *\n   * @deprecated As of version 8, RxJS will no longer support altering the\n   * context of next functions provided as part of an observer to Subscribe. Instead,\n   * you will have access to a subscription or a signal or token that will allow you to do things like\n   * unsubscribe and test closed status. Will be removed in v8.\n   */\n  useDeprecatedNextContext: boolean;\n}\n", "import type { TimerHandle } from './timerHandle';\ntype SetTimeoutFunction = (handler: () => void, timeout?: number, ...args: any[]) => TimerHandle;\ntype ClearTimeoutFunction = (handle: TimerHandle) => void;\n\ninterface TimeoutProvider {\n  setTimeout: SetTimeoutFunction;\n  clearTimeout: ClearTimeoutFunction;\n  delegate:\n    | {\n        setTimeout: SetTimeoutFunction;\n        clearTimeout: ClearTimeoutFunction;\n      }\n    | undefined;\n}\n\nexport const timeoutProvider: TimeoutProvider = {\n  // When accessing the delegate, use the variable rather than `this` so that\n  // the functions can be called without being bound to the provider.\n  setTimeout(handler: () => void, timeout?: number, ...args) {\n    const { delegate } = timeoutProvider;\n    if (delegate?.setTimeout) {\n      return delegate.setTimeout(handler, timeout, ...args);\n    }\n    return setTimeout(handler, timeout, ...args);\n  },\n  clearTimeout(handle) {\n    const { delegate } = timeoutProvider;\n    return (delegate?.clearTimeout || clearTimeout)(handle as any);\n  },\n  delegate: undefined,\n};\n", "import { config } from '../config';\nimport { timeoutProvider } from '../scheduler/timeoutProvider';\n\n/**\n * Handles an error on another job either with the user-configured {@link onUnhandledError},\n * or by throwing it on that new job so it can be picked up by `window.onerror`, `process.on('error')`, etc.\n *\n * This should be called whenever there is an error that is out-of-band with the subscription\n * or when an error hits a terminal boundary of the subscription and no error handler was provided.\n *\n * @param err the error to report\n */\nexport function reportUnhandledError(err: any) {\n  timeoutProvider.setTimeout(() => {\n    const { onUnhandledError } = config;\n    if (onUnhandledError) {\n      // Execute the user-configured error handler.\n      onUnhandledError(err);\n    } else {\n      // Throw so it is picked up by the runtime's uncaught error mechanism.\n      throw err;\n    }\n  });\n}\n", "/* tslint:disable:no-empty */\nexport function noop() { }\n", "import { CompleteNotification, NextNotification, ErrorNotification } from './types';\n\n/**\n * A completion object optimized for memory use and created to be the\n * same \"shape\" as other notifications in v8.\n * @internal\n */\nexport const COMPLETE_NOTIFICATION = (() => createNotification('C', undefined, undefined) as CompleteNotification)();\n\n/**\n * Internal use only. Creates an optimized error notification that is the same \"shape\"\n * as other notifications.\n * @internal\n */\nexport function errorNotification(error: any): ErrorNotification {\n  return createNotification('E', undefined, error) as any;\n}\n\n/**\n * Internal use only. Creates an optimized next notification that is the same \"shape\"\n * as other notifications.\n * @internal\n */\nexport function nextNotification<T>(value: T) {\n  return createNotification('N', value, undefined) as NextNotification<T>;\n}\n\n/**\n * Ensures that all notifications created internally have the same \"shape\" in v8.\n *\n * TODO: This is only exported to support a crazy legacy test in `groupBy`.\n * @internal\n */\nexport function createNotification(kind: 'N' | 'E' | 'C', value: any, error: any) {\n  return {\n    kind,\n    value,\n    error,\n  };\n}\n", "import { config } from '../config';\n\nlet context: { errorThrown: boolean; error: any } | null = null;\n\n/**\n * Handles dealing with errors for super-gross mode. Creates a context, in which\n * any synchronously thrown errors will be passed to {@link captureError}. Which\n * will record the error such that it will be rethrown after the call back is complete.\n * TODO: Remove in v8\n * @param cb An immediately executed function.\n */\nexport function errorContext(cb: () => void) {\n  if (config.useDeprecatedSynchronousErrorHandling) {\n    const isRoot = !context;\n    if (isRoot) {\n      context = { errorThrown: false, error: null };\n    }\n    cb();\n    if (isRoot) {\n      const { errorThrown, error } = context!;\n      context = null;\n      if (errorThrown) {\n        throw error;\n      }\n    }\n  } else {\n    // This is the general non-deprecated path for everyone that\n    // isn't crazy enough to use super-gross mode (useDeprecatedSynchronousErrorHandling)\n    cb();\n  }\n}\n\n/**\n * Captures errors only in super-gross mode.\n * @param err the error to capture\n */\nexport function captureError(err: any) {\n  if (config.useDeprecatedSynchronousErrorHandling && context) {\n    context.errorThrown = true;\n    context.error = err;\n  }\n}\n", "import { isFunction } from './util/isFunction';\nimport { Observer, ObservableNotification } from './types';\nimport { isSubscription, Subscription } from './Subscription';\nimport { config } from './config';\nimport { reportUnhandledError } from './util/reportUnhandledError';\nimport { noop } from './util/noop';\nimport { nextNotification, errorNotification, COMPLETE_NOTIFICATION } from './NotificationFactories';\nimport { timeoutProvider } from './scheduler/timeoutProvider';\nimport { captureError } from './util/errorContext';\n\n/**\n * Implements the {@link Observer} interface and extends the\n * {@link Subscription} class. While the {@link Observer} is the public API for\n * consuming the values of an {@link Observable}, all Observers get converted to\n * a Subscriber, in order to provide Subscription-like capabilities such as\n * `unsubscribe`. Subscriber is a common type in RxJS, and crucial for\n * implementing operators, but it is rarely used as a public API.\n *\n * @class Subscriber<T>\n */\nexport class Subscriber<T> extends Subscription implements Observer<T> {\n  /**\n   * A static factory for a Subscriber, given a (potentially partial) definition\n   * of an Observer.\n   * @param next The `next` callback of an Observer.\n   * @param error The `error` callback of an\n   * Observer.\n   * @param complete The `complete` callback of an\n   * Observer.\n   * @return A Subscriber wrapping the (partially defined)\n   * Observer represented by the given arguments.\n   * @nocollapse\n   * @deprecated Do not use. Will be removed in v8. There is no replacement for this\n   * method, and there is no reason to be creating instances of `Subscriber` directly.\n   * If you have a specific use case, please file an issue.\n   */\n  static create<T>(next?: (x?: T) => void, error?: (e?: any) => void, complete?: () => void): Subscriber<T> {\n    return new SafeSubscriber(next, error, complete);\n  }\n\n  /** @deprecated Internal implementation detail, do not use directly. Will be made internal in v8. */\n  protected isStopped: boolean = false;\n  /** @deprecated Internal implementation detail, do not use directly. Will be made internal in v8. */\n  protected destination: Subscriber<any> | Observer<any>; // this `any` is the escape hatch to erase extra type param (e.g. R)\n\n  /**\n   * @deprecated Internal implementation detail, do not use directly. Will be made internal in v8.\n   * There is no reason to directly create an instance of Subscriber. This type is exported for typings reasons.\n   */\n  constructor(destination?: Subscriber<any> | Observer<any>) {\n    super();\n    if (destination) {\n      this.destination = destination;\n      // Automatically chain subscriptions together here.\n      // if destination is a Subscription, then it is a Subscriber.\n      if (isSubscription(destination)) {\n        destination.add(this);\n      }\n    } else {\n      this.destination = EMPTY_OBSERVER;\n    }\n  }\n\n  /**\n   * The {@link Observer} callback to receive notifications of type `next` from\n   * the Observable, with a value. The Observable may call this method 0 or more\n   * times.\n   * @param {T} [value] The `next` value.\n   * @return {void}\n   */\n  next(value?: T): void {\n    if (this.isStopped) {\n      handleStoppedNotification(nextNotification(value), this);\n    } else {\n      this._next(value!);\n    }\n  }\n\n  /**\n   * The {@link Observer} callback to receive notifications of type `error` from\n   * the Observable, with an attached `Error`. Notifies the Observer that\n   * the Observable has experienced an error condition.\n   * @param {any} [err] The `error` exception.\n   * @return {void}\n   */\n  error(err?: any): void {\n    if (this.isStopped) {\n      handleStoppedNotification(errorNotification(err), this);\n    } else {\n      this.isStopped = true;\n      this._error(err);\n    }\n  }\n\n  /**\n   * The {@link Observer} callback to receive a valueless notification of type\n   * `complete` from the Observable. Notifies the Observer that the Observable\n   * has finished sending push-based notifications.\n   * @return {void}\n   */\n  complete(): void {\n    if (this.isStopped) {\n      handleStoppedNotification(COMPLETE_NOTIFICATION, this);\n    } else {\n      this.isStopped = true;\n      this._complete();\n    }\n  }\n\n  unsubscribe(): void {\n    if (!this.closed) {\n      this.isStopped = true;\n      super.unsubscribe();\n      this.destination = null!;\n    }\n  }\n\n  protected _next(value: T): void {\n    this.destination.next(value);\n  }\n\n  protected _error(err: any): void {\n    try {\n      this.destination.error(err);\n    } finally {\n      this.unsubscribe();\n    }\n  }\n\n  protected _complete(): void {\n    try {\n      this.destination.complete();\n    } finally {\n      this.unsubscribe();\n    }\n  }\n}\n\n/**\n * This bind is captured here because we want to be able to have\n * compatibility with monoid libraries that tend to use a method named\n * `bind`. In particular, a library called Monio requires this.\n */\nconst _bind = Function.prototype.bind;\n\nfunction bind<Fn extends (...args: any[]) => any>(fn: Fn, thisArg: any): Fn {\n  return _bind.call(fn, thisArg);\n}\n\n/**\n * Internal optimization only, DO NOT EXPOSE.\n * @internal\n */\nclass ConsumerObserver<T> implements Observer<T> {\n  constructor(private partialObserver: Partial<Observer<T>>) {}\n\n  next(value: T): void {\n    const { partialObserver } = this;\n    if (partialObserver.next) {\n      try {\n        partialObserver.next(value);\n      } catch (error) {\n        handleUnhandledError(error);\n      }\n    }\n  }\n\n  error(err: any): void {\n    const { partialObserver } = this;\n    if (partialObserver.error) {\n      try {\n        partialObserver.error(err);\n      } catch (error) {\n        handleUnhandledError(error);\n      }\n    } else {\n      handleUnhandledError(err);\n    }\n  }\n\n  complete(): void {\n    const { partialObserver } = this;\n    if (partialObserver.complete) {\n      try {\n        partialObserver.complete();\n      } catch (error) {\n        handleUnhandledError(error);\n      }\n    }\n  }\n}\n\nexport class SafeSubscriber<T> extends Subscriber<T> {\n  constructor(\n    observerOrNext?: Partial<Observer<T>> | ((value: T) => void) | null,\n    error?: ((e?: any) => void) | null,\n    complete?: (() => void) | null\n  ) {\n    super();\n\n    let partialObserver: Partial<Observer<T>>;\n    if (isFunction(observerOrNext) || !observerOrNext) {\n      // The first argument is a function, not an observer. The next\n      // two arguments *could* be observers, or they could be empty.\n      partialObserver = {\n        next: (observerOrNext ?? undefined) as (((value: T) => void) | undefined),\n        error: error ?? undefined,\n        complete: complete ?? undefined,\n      };\n    } else {\n      // The first argument is a partial observer.\n      let context: any;\n      if (this && config.useDeprecatedNextContext) {\n        // This is a deprecated path that made `this.unsubscribe()` available in\n        // next handler functions passed to subscribe. This only exists behind a flag\n        // now, as it is *very* slow.\n        context = Object.create(observerOrNext);\n        context.unsubscribe = () => this.unsubscribe();\n        partialObserver = {\n          next: observerOrNext.next && bind(observerOrNext.next, context),\n          error: observerOrNext.error && bind(observerOrNext.error, context),\n          complete: observerOrNext.complete && bind(observerOrNext.complete, context),\n        };\n      } else {\n        // The \"normal\" path. Just use the partial observer directly.\n        partialObserver = observerOrNext;\n      }\n    }\n\n    // Wrap the partial observer to ensure it's a full observer, and\n    // make sure proper error handling is accounted for.\n    this.destination = new ConsumerObserver(partialObserver);\n  }\n}\n\nfunction handleUnhandledError(error: any) {\n  if (config.useDeprecatedSynchronousErrorHandling) {\n    captureError(error);\n  } else {\n    // Ideal path, we report this as an unhandled error,\n    // which is thrown on a new call stack.\n    reportUnhandledError(error);\n  }\n}\n\n/**\n * An error handler used when no error handler was supplied\n * to the SafeSubscriber -- meaning no error handler was supplied\n * do the `subscribe` call on our observable.\n * @param err The error to handle\n */\nfunction defaultErrorHandler(err: any) {\n  throw err;\n}\n\n/**\n * A handler for notifications that cannot be sent to a stopped subscriber.\n * @param notification The notification being sent\n * @param subscriber The stopped subscriber\n */\nfunction handleStoppedNotification(notification: ObservableNotification<any>, subscriber: Subscriber<any>) {\n  const { onStoppedNotification } = config;\n  onStoppedNotification && timeoutProvider.setTimeout(() => onStoppedNotification(notification, subscriber));\n}\n\n/**\n * The observer used as a stub for subscriptions where the user did not\n * pass any arguments to `subscribe`. Comes with the default error handling\n * behavior.\n */\nexport const EMPTY_OBSERVER: Readonly<Observer<any>> & { closed: true } = {\n  closed: true,\n  next: noop,\n  error: defaultErrorHandler,\n  complete: noop,\n};\n", "/**\n * Symbol.observable or a string \"@@observable\". Used for interop\n *\n * @deprecated We will no longer be exporting this symbol in upcoming versions of RxJS.\n * Instead polyfill and use Symbol.observable directly *or* use https://www.npmjs.com/package/symbol-observable\n */\nexport const observable: string | symbol = (() => (typeof Symbol === 'function' && Symbol.observable) || '@@observable')();\n", "/**\n * This function takes one parameter and just returns it. Simply put,\n * this is like `<T>(x: T): T => x`.\n *\n * ## Examples\n *\n * This is useful in some cases when using things like `mergeMap`\n *\n * ```ts\n * import { interval, take, map, range, mergeMap, identity } from 'rxjs';\n *\n * const source$ = interval(1000).pipe(take(5));\n *\n * const result$ = source$.pipe(\n *   map(i => range(i)),\n *   mergeMap(identity) // same as mergeMap(x => x)\n * );\n *\n * result$.subscribe({\n *   next: console.log\n * });\n * ```\n *\n * Or when you want to selectively apply an operator\n *\n * ```ts\n * import { interval, take, identity } from 'rxjs';\n *\n * const shouldLimit = () => Math.random() < 0.5;\n *\n * const source$ = interval(1000);\n *\n * const result$ = source$.pipe(shouldLimit() ? take(5) : identity);\n *\n * result$.subscribe({\n *   next: console.log\n * });\n * ```\n *\n * @param x Any value that is returned by this function\n * @returns The value passed as the first parameter to this function\n */\nexport function identity<T>(x: T): T {\n  return x;\n}\n", "import { identity } from './identity';\nimport { UnaryFunction } from '../types';\n\nexport function pipe(): typeof identity;\nexport function pipe<T, A>(fn1: UnaryFunction<T, A>): UnaryFunction<T, A>;\nexport function pipe<T, A, B>(fn1: UnaryFunction<T, A>, fn2: UnaryFunction<A, B>): UnaryFunction<T, B>;\nexport function pipe<T, A, B, C>(fn1: UnaryFunction<T, A>, fn2: UnaryFunction<A, B>, fn3: UnaryFunction<B, C>): UnaryFunction<T, C>;\nexport function pipe<T, A, B, C, D>(\n  fn1: UnaryFunction<T, A>,\n  fn2: UnaryFunction<A, B>,\n  fn3: UnaryFunction<B, C>,\n  fn4: UnaryFunction<C, D>\n): UnaryFunction<T, D>;\nexport function pipe<T, A, B, C, D, E>(\n  fn1: UnaryFunction<T, A>,\n  fn2: UnaryFunction<A, B>,\n  fn3: UnaryFunction<B, C>,\n  fn4: UnaryFunction<C, D>,\n  fn5: UnaryFunction<D, E>\n): UnaryFunction<T, E>;\nexport function pipe<T, A, B, C, D, E, F>(\n  fn1: UnaryFunction<T, A>,\n  fn2: UnaryFunction<A, B>,\n  fn3: UnaryFunction<B, C>,\n  fn4: UnaryFunction<C, D>,\n  fn5: UnaryFunction<D, E>,\n  fn6: UnaryFunction<E, F>\n): UnaryFunction<T, F>;\nexport function pipe<T, A, B, C, D, E, F, G>(\n  fn1: UnaryFunction<T, A>,\n  fn2: UnaryFunction<A, B>,\n  fn3: UnaryFunction<B, C>,\n  fn4: UnaryFunction<C, D>,\n  fn5: UnaryFunction<D, E>,\n  fn6: UnaryFunction<E, F>,\n  fn7: UnaryFunction<F, G>\n): UnaryFunction<T, G>;\nexport function pipe<T, A, B, C, D, E, F, G, H>(\n  fn1: UnaryFunction<T, A>,\n  fn2: UnaryFunction<A, B>,\n  fn3: UnaryFunction<B, C>,\n  fn4: UnaryFunction<C, D>,\n  fn5: UnaryFunction<D, E>,\n  fn6: UnaryFunction<E, F>,\n  fn7: UnaryFunction<F, G>,\n  fn8: UnaryFunction<G, H>\n): UnaryFunction<T, H>;\nexport function pipe<T, A, B, C, D, E, F, G, H, I>(\n  fn1: UnaryFunction<T, A>,\n  fn2: UnaryFunction<A, B>,\n  fn3: UnaryFunction<B, C>,\n  fn4: UnaryFunction<C, D>,\n  fn5: UnaryFunction<D, E>,\n  fn6: UnaryFunction<E, F>,\n  fn7: UnaryFunction<F, G>,\n  fn8: UnaryFunction<G, H>,\n  fn9: UnaryFunction<H, I>\n): UnaryFunction<T, I>;\nexport function pipe<T, A, B, C, D, E, F, G, H, I>(\n  fn1: UnaryFunction<T, A>,\n  fn2: UnaryFunction<A, B>,\n  fn3: UnaryFunction<B, C>,\n  fn4: UnaryFunction<C, D>,\n  fn5: UnaryFunction<D, E>,\n  fn6: UnaryFunction<E, F>,\n  fn7: UnaryFunction<F, G>,\n  fn8: UnaryFunction<G, H>,\n  fn9: UnaryFunction<H, I>,\n  ...fns: UnaryFunction<any, any>[]\n): UnaryFunction<T, unknown>;\n\n/**\n * pipe() can be called on one or more functions, each of which can take one argument (\"UnaryFunction\")\n * and uses it to return a value.\n * It returns a function that takes one argument, passes it to the first UnaryFunction, and then\n * passes the result to the next one, passes that result to the next one, and so on.  \n */\nexport function pipe(...fns: Array<UnaryFunction<any, any>>): UnaryFunction<any, any> {\n  return pipeFromArray(fns);\n}\n\n/** @internal */\nexport function pipeFromArray<T, R>(fns: Array<UnaryFunction<T, R>>): UnaryFunction<T, R> {\n  if (fns.length === 0) {\n    return identity as UnaryFunction<any, any>;\n  }\n\n  if (fns.length === 1) {\n    return fns[0];\n  }\n\n  return function piped(input: T): R {\n    return fns.reduce((prev: any, fn: UnaryFunction<T, R>) => fn(prev), input as any);\n  };\n}\n", "import { Operator } from './Operator';\nimport { SafeSubscriber, Subscriber } from './Subscriber';\nimport { isSubscription, Subscription } from './Subscription';\nimport { TeardownLogic, OperatorFunction, Subscribable, Observer } from './types';\nimport { observable as Symbol_observable } from './symbol/observable';\nimport { pipeFromArray } from './util/pipe';\nimport { config } from './config';\nimport { isFunction } from './util/isFunction';\nimport { errorContext } from './util/errorContext';\n\n/**\n * A representation of any set of values over any amount of time. This is the most basic building block\n * of RxJS.\n *\n * @class Observable<T>\n */\nexport class Observable<T> implements Subscribable<T> {\n  /**\n   * @deprecated Internal implementation detail, do not use directly. Will be made internal in v8.\n   */\n  source: Observable<any> | undefined;\n\n  /**\n   * @deprecated Internal implementation detail, do not use directly. Will be made internal in v8.\n   */\n  operator: Operator<any, T> | undefined;\n\n  /**\n   * @constructor\n   * @param {Function} subscribe the function that is called when the Observable is\n   * initially subscribed to. This function is given a Subscriber, to which new values\n   * can be `next`ed, or an `error` method can be called to raise an error, or\n   * `complete` can be called to notify of a successful completion.\n   */\n  constructor(subscribe?: (this: Observable<T>, subscriber: Subscriber<T>) => TeardownLogic) {\n    if (subscribe) {\n      this._subscribe = subscribe;\n    }\n  }\n\n  // HACK: Since TypeScript inherits static properties too, we have to\n  // fight against TypeScript here so Subject can have a different static create signature\n  /**\n   * Creates a new Observable by calling the Observable constructor\n   * @owner Observable\n   * @method create\n   * @param {Function} subscribe? the subscriber function to be passed to the Observable constructor\n   * @return {Observable} a new observable\n   * @nocollapse\n   * @deprecated Use `new Observable()` instead. Will be removed in v8.\n   */\n  static create: (...args: any[]) => any = <T>(subscribe?: (subscriber: Subscriber<T>) => TeardownLogic) => {\n    return new Observable<T>(subscribe);\n  };\n\n  /**\n   * Creates a new Observable, with this Observable instance as the source, and the passed\n   * operator defined as the new observable's operator.\n   * @method lift\n   * @param operator the operator defining the operation to take on the observable\n   * @return a new observable with the Operator applied\n   * @deprecated Internal implementation detail, do not use directly. Will be made internal in v8.\n   * If you have implemented an operator using `lift`, it is recommended that you create an\n   * operator by simply returning `new Observable()` directly. See \"Creating new operators from\n   * scratch\" section here: https://rxjs.dev/guide/operators\n   */\n  lift<R>(operator?: Operator<T, R>): Observable<R> {\n    const observable = new Observable<R>();\n    observable.source = this;\n    observable.operator = operator;\n    return observable;\n  }\n\n  subscribe(observerOrNext?: Partial<Observer<T>> | ((value: T) => void)): Subscription;\n  /** @deprecated Instead of passing separate callback arguments, use an observer argument. Signatures taking separate callback arguments will be removed in v8. Details: https://rxjs.dev/deprecations/subscribe-arguments */\n  subscribe(next?: ((value: T) => void) | null, error?: ((error: any) => void) | null, complete?: (() => void) | null): Subscription;\n  /**\n   * Invokes an execution of an Observable and registers Observer handlers for notifications it will emit.\n   *\n   * <span class=\"informal\">Use it when you have all these Observables, but still nothing is happening.</span>\n   *\n   * `subscribe` is not a regular operator, but a method that calls Observable's internal `subscribe` function. It\n   * might be for example a function that you passed to Observable's constructor, but most of the time it is\n   * a library implementation, which defines what will be emitted by an Observable, and when it be will emitted. This means\n   * that calling `subscribe` is actually the moment when Observable starts its work, not when it is created, as it is often\n   * the thought.\n   *\n   * Apart from starting the execution of an Observable, this method allows you to listen for values\n   * that an Observable emits, as well as for when it completes or errors. You can achieve this in two\n   * of the following ways.\n   *\n   * The first way is creating an object that implements {@link Observer} interface. It should have methods\n   * defined by that interface, but note that it should be just a regular JavaScript object, which you can create\n   * yourself in any way you want (ES6 class, classic function constructor, object literal etc.). In particular, do\n   * not attempt to use any RxJS implementation details to create Observers - you don't need them. Remember also\n   * that your object does not have to implement all methods. If you find yourself creating a method that doesn't\n   * do anything, you can simply omit it. Note however, if the `error` method is not provided and an error happens,\n   * it will be thrown asynchronously. Errors thrown asynchronously cannot be caught using `try`/`catch`. Instead,\n   * use the {@link onUnhandledError} configuration option or use a runtime handler (like `window.onerror` or\n   * `process.on('error)`) to be notified of unhandled errors. Because of this, it's recommended that you provide\n   * an `error` method to avoid missing thrown errors.\n   *\n   * The second way is to give up on Observer object altogether and simply provide callback functions in place of its methods.\n   * This means you can provide three functions as arguments to `subscribe`, where the first function is equivalent\n   * of a `next` method, the second of an `error` method and the third of a `complete` method. Just as in case of an Observer,\n   * if you do not need to listen for something, you can omit a function by passing `undefined` or `null`,\n   * since `subscribe` recognizes these functions by where they were placed in function call. When it comes\n   * to the `error` function, as with an Observer, if not provided, errors emitted by an Observable will be thrown asynchronously.\n   *\n   * You can, however, subscribe with no parameters at all. This may be the case where you're not interested in terminal events\n   * and you also handled emissions internally by using operators (e.g. using `tap`).\n   *\n   * Whichever style of calling `subscribe` you use, in both cases it returns a Subscription object.\n   * This object allows you to call `unsubscribe` on it, which in turn will stop the work that an Observable does and will clean\n   * up all resources that an Observable used. Note that cancelling a subscription will not call `complete` callback\n   * provided to `subscribe` function, which is reserved for a regular completion signal that comes from an Observable.\n   *\n   * Remember that callbacks provided to `subscribe` are not guaranteed to be called asynchronously.\n   * It is an Observable itself that decides when these functions will be called. For example {@link of}\n   * by default emits all its values synchronously. Always check documentation for how given Observable\n   * will behave when subscribed and if its default behavior can be modified with a `scheduler`.\n   *\n   * #### Examples\n   *\n   * Subscribe with an {@link guide/observer Observer}\n   *\n   * ```ts\n   * import { of } from 'rxjs';\n   *\n   * const sumObserver = {\n   *   sum: 0,\n   *   next(value) {\n   *     console.log('Adding: ' + value);\n   *     this.sum = this.sum + value;\n   *   },\n   *   error() {\n   *     // We actually could just remove this method,\n   *     // since we do not really care about errors right now.\n   *   },\n   *   complete() {\n   *     console.log('Sum equals: ' + this.sum);\n   *   }\n   * };\n   *\n   * of(1, 2, 3) // Synchronously emits 1, 2, 3 and then completes.\n   *   .subscribe(sumObserver);\n   *\n   * // Logs:\n   * // 'Adding: 1'\n   * // 'Adding: 2'\n   * // 'Adding: 3'\n   * // 'Sum equals: 6'\n   * ```\n   *\n   * Subscribe with functions ({@link deprecations/subscribe-arguments deprecated})\n   *\n   * ```ts\n   * import { of } from 'rxjs'\n   *\n   * let sum = 0;\n   *\n   * of(1, 2, 3).subscribe(\n   *   value => {\n   *     console.log('Adding: ' + value);\n   *     sum = sum + value;\n   *   },\n   *   undefined,\n   *   () => console.log('Sum equals: ' + sum)\n   * );\n   *\n   * // Logs:\n   * // 'Adding: 1'\n   * // 'Adding: 2'\n   * // 'Adding: 3'\n   * // 'Sum equals: 6'\n   * ```\n   *\n   * Cancel a subscription\n   *\n   * ```ts\n   * import { interval } from 'rxjs';\n   *\n   * const subscription = interval(1000).subscribe({\n   *   next(num) {\n   *     console.log(num)\n   *   },\n   *   complete() {\n   *     // Will not be called, even when cancelling subscription.\n   *     console.log('completed!');\n   *   }\n   * });\n   *\n   * setTimeout(() => {\n   *   subscription.unsubscribe();\n   *   console.log('unsubscribed!');\n   * }, 2500);\n   *\n   * // Logs:\n   * // 0 after 1s\n   * // 1 after 2s\n   * // 'unsubscribed!' after 2.5s\n   * ```\n   *\n   * @param {Observer|Function} observerOrNext (optional) Either an observer with methods to be called,\n   * or the first of three possible handlers, which is the handler for each value emitted from the subscribed\n   * Observable.\n   * @param {Function} error (optional) A handler for a terminal event resulting from an error. If no error handler is provided,\n   * the error will be thrown asynchronously as unhandled.\n   * @param {Function} complete (optional) A handler for a terminal event resulting from successful completion.\n   * @return {Subscription} a subscription reference to the registered handlers\n   * @method subscribe\n   */\n  subscribe(\n    observerOrNext?: Partial<Observer<T>> | ((value: T) => void) | null,\n    error?: ((error: any) => void) | null,\n    complete?: (() => void) | null\n  ): Subscription {\n    const subscriber = isSubscriber(observerOrNext) ? observerOrNext : new SafeSubscriber(observerOrNext, error, complete);\n\n    errorContext(() => {\n      const { operator, source } = this;\n      subscriber.add(\n        operator\n          ? // We're dealing with a subscription in the\n            // operator chain to one of our lifted operators.\n            operator.call(subscriber, source)\n          : source\n          ? // If `source` has a value, but `operator` does not, something that\n            // had intimate knowledge of our API, like our `Subject`, must have\n            // set it. We're going to just call `_subscribe` directly.\n            this._subscribe(subscriber)\n          : // In all other cases, we're likely wrapping a user-provided initializer\n            // function, so we need to catch errors and handle them appropriately.\n            this._trySubscribe(subscriber)\n      );\n    });\n\n    return subscriber;\n  }\n\n  /** @internal */\n  protected _trySubscribe(sink: Subscriber<T>): TeardownLogic {\n    try {\n      return this._subscribe(sink);\n    } catch (err) {\n      // We don't need to return anything in this case,\n      // because it's just going to try to `add()` to a subscription\n      // above.\n      sink.error(err);\n    }\n  }\n\n  /**\n   * Used as a NON-CANCELLABLE means of subscribing to an observable, for use with\n   * APIs that expect promises, like `async/await`. You cannot unsubscribe from this.\n   *\n   * **WARNING**: Only use this with observables you *know* will complete. If the source\n   * observable does not complete, you will end up with a promise that is hung up, and\n   * potentially all of the state of an async function hanging out in memory. To avoid\n   * this situation, look into adding something like {@link timeout}, {@link take},\n   * {@link takeWhile}, or {@link takeUntil} amongst others.\n   *\n   * #### Example\n   *\n   * ```ts\n   * import { interval, take } from 'rxjs';\n   *\n   * const source$ = interval(1000).pipe(take(4));\n   *\n   * async function getTotal() {\n   *   let total = 0;\n   *\n   *   await source$.forEach(value => {\n   *     total += value;\n   *     console.log('observable -> ' + value);\n   *   });\n   *\n   *   return total;\n   * }\n   *\n   * getTotal().then(\n   *   total => console.log('Total: ' + total)\n   * );\n   *\n   * // Expected:\n   * // 'observable -> 0'\n   * // 'observable -> 1'\n   * // 'observable -> 2'\n   * // 'observable -> 3'\n   * // 'Total: 6'\n   * ```\n   *\n   * @param next a handler for each value emitted by the observable\n   * @return a promise that either resolves on observable completion or\n   *  rejects with the handled error\n   */\n  forEach(next: (value: T) => void): Promise<void>;\n\n  /**\n   * @param next a handler for each value emitted by the observable\n   * @param promiseCtor a constructor function used to instantiate the Promise\n   * @return a promise that either resolves on observable completion or\n   *  rejects with the handled error\n   * @deprecated Passing a Promise constructor will no longer be available\n   * in upcoming versions of RxJS. This is because it adds weight to the library, for very\n   * little benefit. If you need this functionality, it is recommended that you either\n   * polyfill Promise, or you create an adapter to convert the returned native promise\n   * to whatever promise implementation you wanted. Will be removed in v8.\n   */\n  forEach(next: (value: T) => void, promiseCtor: PromiseConstructorLike): Promise<void>;\n\n  forEach(next: (value: T) => void, promiseCtor?: PromiseConstructorLike): Promise<void> {\n    promiseCtor = getPromiseCtor(promiseCtor);\n\n    return new promiseCtor<void>((resolve, reject) => {\n      const subscriber = new SafeSubscriber<T>({\n        next: (value) => {\n          try {\n            next(value);\n          } catch (err) {\n            reject(err);\n            subscriber.unsubscribe();\n          }\n        },\n        error: reject,\n        complete: resolve,\n      });\n      this.subscribe(subscriber);\n    }) as Promise<void>;\n  }\n\n  /** @internal */\n  protected _subscribe(subscriber: Subscriber<any>): TeardownLogic {\n    return this.source?.subscribe(subscriber);\n  }\n\n  /**\n   * An interop point defined by the es7-observable spec https://github.com/zenparsing/es-observable\n   * @method Symbol.observable\n   * @return {Observable} this instance of the observable\n   */\n  [Symbol_observable]() {\n    return this;\n  }\n\n  /* tslint:disable:max-line-length */\n  pipe(): Observable<T>;\n  pipe<A>(op1: OperatorFunction<T, A>): Observable<A>;\n  pipe<A, B>(op1: OperatorFunction<T, A>, op2: OperatorFunction<A, B>): Observable<B>;\n  pipe<A, B, C>(op1: OperatorFunction<T, A>, op2: OperatorFunction<A, B>, op3: OperatorFunction<B, C>): Observable<C>;\n  pipe<A, B, C, D>(\n    op1: OperatorFunction<T, A>,\n    op2: OperatorFunction<A, B>,\n    op3: OperatorFunction<B, C>,\n    op4: OperatorFunction<C, D>\n  ): Observable<D>;\n  pipe<A, B, C, D, E>(\n    op1: OperatorFunction<T, A>,\n    op2: OperatorFunction<A, B>,\n    op3: OperatorFunction<B, C>,\n    op4: OperatorFunction<C, D>,\n    op5: OperatorFunction<D, E>\n  ): Observable<E>;\n  pipe<A, B, C, D, E, F>(\n    op1: OperatorFunction<T, A>,\n    op2: OperatorFunction<A, B>,\n    op3: OperatorFunction<B, C>,\n    op4: OperatorFunction<C, D>,\n    op5: OperatorFunction<D, E>,\n    op6: OperatorFunction<E, F>\n  ): Observable<F>;\n  pipe<A, B, C, D, E, F, G>(\n    op1: OperatorFunction<T, A>,\n    op2: OperatorFunction<A, B>,\n    op3: OperatorFunction<B, C>,\n    op4: OperatorFunction<C, D>,\n    op5: OperatorFunction<D, E>,\n    op6: OperatorFunction<E, F>,\n    op7: OperatorFunction<F, G>\n  ): Observable<G>;\n  pipe<A, B, C, D, E, F, G, H>(\n    op1: OperatorFunction<T, A>,\n    op2: OperatorFunction<A, B>,\n    op3: OperatorFunction<B, C>,\n    op4: OperatorFunction<C, D>,\n    op5: OperatorFunction<D, E>,\n    op6: OperatorFunction<E, F>,\n    op7: OperatorFunction<F, G>,\n    op8: OperatorFunction<G, H>\n  ): Observable<H>;\n  pipe<A, B, C, D, E, F, G, H, I>(\n    op1: OperatorFunction<T, A>,\n    op2: OperatorFunction<A, B>,\n    op3: OperatorFunction<B, C>,\n    op4: OperatorFunction<C, D>,\n    op5: OperatorFunction<D, E>,\n    op6: OperatorFunction<E, F>,\n    op7: OperatorFunction<F, G>,\n    op8: OperatorFunction<G, H>,\n    op9: OperatorFunction<H, I>\n  ): Observable<I>;\n  pipe<A, B, C, D, E, F, G, H, I>(\n    op1: OperatorFunction<T, A>,\n    op2: OperatorFunction<A, B>,\n    op3: OperatorFunction<B, C>,\n    op4: OperatorFunction<C, D>,\n    op5: OperatorFunction<D, E>,\n    op6: OperatorFunction<E, F>,\n    op7: OperatorFunction<F, G>,\n    op8: OperatorFunction<G, H>,\n    op9: OperatorFunction<H, I>,\n    ...operations: OperatorFunction<any, any>[]\n  ): Observable<unknown>;\n  /* tslint:enable:max-line-length */\n\n  /**\n   * Used to stitch together functional operators into a chain.\n   * @method pipe\n   * @return {Observable} the Observable result of all of the operators having\n   * been called in the order they were passed in.\n   *\n   * ## Example\n   *\n   * ```ts\n   * import { interval, filter, map, scan } from 'rxjs';\n   *\n   * interval(1000)\n   *   .pipe(\n   *     filter(x => x % 2 === 0),\n   *     map(x => x + x),\n   *     scan((acc, x) => acc + x)\n   *   )\n   *   .subscribe(x => console.log(x));\n   * ```\n   */\n  pipe(...operations: OperatorFunction<any, any>[]): Observable<any> {\n    return pipeFromArray(operations)(this);\n  }\n\n  /* tslint:disable:max-line-length */\n  /** @deprecated Replaced with {@link firstValueFrom} and {@link lastValueFrom}. Will be removed in v8. Details: https://rxjs.dev/deprecations/to-promise */\n  toPromise(): Promise<T | undefined>;\n  /** @deprecated Replaced with {@link firstValueFrom} and {@link lastValueFrom}. Will be removed in v8. Details: https://rxjs.dev/deprecations/to-promise */\n  toPromise(PromiseCtor: typeof Promise): Promise<T | undefined>;\n  /** @deprecated Replaced with {@link firstValueFrom} and {@link lastValueFrom}. Will be removed in v8. Details: https://rxjs.dev/deprecations/to-promise */\n  toPromise(PromiseCtor: PromiseConstructorLike): Promise<T | undefined>;\n  /* tslint:enable:max-line-length */\n\n  /**\n   * Subscribe to this Observable and get a Promise resolving on\n   * `complete` with the last emission (if any).\n   *\n   * **WARNING**: Only use this with observables you *know* will complete. If the source\n   * observable does not complete, you will end up with a promise that is hung up, and\n   * potentially all of the state of an async function hanging out in memory. To avoid\n   * this situation, look into adding something like {@link timeout}, {@link take},\n   * {@link takeWhile}, or {@link takeUntil} amongst others.\n   *\n   * @method toPromise\n   * @param [promiseCtor] a constructor function used to instantiate\n   * the Promise\n   * @return A Promise that resolves with the last value emit, or\n   * rejects on an error. If there were no emissions, Promise\n   * resolves with undefined.\n   * @deprecated Replaced with {@link firstValueFrom} and {@link lastValueFrom}. Will be removed in v8. Details: https://rxjs.dev/deprecations/to-promise\n   */\n  toPromise(promiseCtor?: PromiseConstructorLike): Promise<T | undefined> {\n    promiseCtor = getPromiseCtor(promiseCtor);\n\n    return new promiseCtor((resolve, reject) => {\n      let value: T | undefined;\n      this.subscribe(\n        (x: T) => (value = x),\n        (err: any) => reject(err),\n        () => resolve(value)\n      );\n    }) as Promise<T | undefined>;\n  }\n}\n\n/**\n * Decides between a passed promise constructor from consuming code,\n * A default configured promise constructor, and the native promise\n * constructor and returns it. If nothing can be found, it will throw\n * an error.\n * @param promiseCtor The optional promise constructor to passed by consuming code\n */\nfunction getPromiseCtor(promiseCtor: PromiseConstructorLike | undefined) {\n  return promiseCtor ?? config.Promise ?? Promise;\n}\n\nfunction isObserver<T>(value: any): value is Observer<T> {\n  return value && isFunction(value.next) && isFunction(value.error) && isFunction(value.complete);\n}\n\nfunction isSubscriber<T>(value: any): value is Subscriber<T> {\n  return (value && value instanceof Subscriber) || (isObserver(value) && isSubscription(value));\n}\n", "import { Observable } from '../Observable';\nimport { Subscriber } from '../Subscriber';\nimport { OperatorFunction } from '../types';\nimport { isFunction } from './isFunction';\n\n/**\n * Used to determine if an object is an Observable with a lift function.\n */\nexport function hasLift(source: any): source is { lift: InstanceType<typeof Observable>['lift'] } {\n  return isFunction(source?.lift);\n}\n\n/**\n * Creates an `OperatorFunction`. Used to define operators throughout the library in a concise way.\n * @param init The logic to connect the liftedSource to the subscriber at the moment of subscription.\n */\nexport function operate<T, R>(\n  init: (liftedSource: Observable<T>, subscriber: Subscriber<R>) => (() => void) | void\n): OperatorFunction<T, R> {\n  return (source: Observable<T>) => {\n    if (hasLift(source)) {\n      return source.lift(function (this: Subscriber<R>, liftedSource: Observable<T>) {\n        try {\n          return init(liftedSource, this);\n        } catch (err) {\n          this.error(err);\n        }\n      });\n    }\n    throw new TypeError('Unable to lift unknown Observable type');\n  };\n}\n", "import { Subscriber } from '../Subscriber';\n\n/**\n * Creates an instance of an `OperatorSubscriber`.\n * @param destination The downstream subscriber.\n * @param onNext Handles next values, only called if this subscriber is not stopped or closed. Any\n * error that occurs in this function is caught and sent to the `error` method of this subscriber.\n * @param onError Handles errors from the subscription, any errors that occur in this handler are caught\n * and send to the `destination` error handler.\n * @param onComplete Handles completion notification from the subscription. Any errors that occur in\n * this handler are sent to the `destination` error handler.\n * @param onFinalize Additional teardown logic here. This will only be called on teardown if the\n * subscriber itself is not already closed. This is called after all other teardown logic is executed.\n */\nexport function createOperatorSubscriber<T>(\n  destination: Subscriber<any>,\n  onNext?: (value: T) => void,\n  onComplete?: () => void,\n  onError?: (err: any) => void,\n  onFinalize?: () => void\n): Subscriber<T> {\n  return new OperatorSubscriber(destination, onNext, onComplete, onError, onFinalize);\n}\n\n/**\n * A generic helper for allowing operators to be created with a Subscriber and\n * use closures to capture necessary state from the operator function itself.\n */\nexport class OperatorSubscriber<T> extends Subscriber<T> {\n  /**\n   * Creates an instance of an `OperatorSubscriber`.\n   * @param destination The downstream subscriber.\n   * @param onNext Handles next values, only called if this subscriber is not stopped or closed. Any\n   * error that occurs in this function is caught and sent to the `error` method of this subscriber.\n   * @param onError Handles errors from the subscription, any errors that occur in this handler are caught\n   * and send to the `destination` error handler.\n   * @param onComplete Handles completion notification from the subscription. Any errors that occur in\n   * this handler are sent to the `destination` error handler.\n   * @param onFinalize Additional finalization logic here. This will only be called on finalization if the\n   * subscriber itself is not already closed. This is called after all other finalization logic is executed.\n   * @param shouldUnsubscribe An optional check to see if an unsubscribe call should truly unsubscribe.\n   * NOTE: This currently **ONLY** exists to support the strange behavior of {@link groupBy}, where unsubscription\n   * to the resulting observable does not actually disconnect from the source if there are active subscriptions\n   * to any grouped observable. (DO NOT EXPOSE OR USE EXTERNALLY!!!)\n   */\n  constructor(\n    destination: Subscriber<any>,\n    onNext?: (value: T) => void,\n    onComplete?: () => void,\n    onError?: (err: any) => void,\n    private onFinalize?: () => void,\n    private shouldUnsubscribe?: () => boolean\n  ) {\n    // It's important - for performance reasons - that all of this class's\n    // members are initialized and that they are always initialized in the same\n    // order. This will ensure that all OperatorSubscriber instances have the\n    // same hidden class in V8. This, in turn, will help keep the number of\n    // hidden classes involved in property accesses within the base class as\n    // low as possible. If the number of hidden classes involved exceeds four,\n    // the property accesses will become megamorphic and performance penalties\n    // will be incurred - i.e. inline caches won't be used.\n    //\n    // The reasons for ensuring all instances have the same hidden class are\n    // further discussed in this blog post from Benedikt Meurer:\n    // https://benediktmeurer.de/2018/03/23/impact-of-polymorphism-on-component-based-frameworks-like-react/\n    super(destination);\n    this._next = onNext\n      ? function (this: OperatorSubscriber<T>, value: T) {\n          try {\n            onNext(value);\n          } catch (err) {\n            destination.error(err);\n          }\n        }\n      : super._next;\n    this._error = onError\n      ? function (this: OperatorSubscriber<T>, err: any) {\n          try {\n            onError(err);\n          } catch (err) {\n            // Send any errors that occur down stream.\n            destination.error(err);\n          } finally {\n            // Ensure finalization.\n            this.unsubscribe();\n          }\n        }\n      : super._error;\n    this._complete = onComplete\n      ? function (this: OperatorSubscriber<T>) {\n          try {\n            onComplete();\n          } catch (err) {\n            // Send any errors that occur down stream.\n            destination.error(err);\n          } finally {\n            // Ensure finalization.\n            this.unsubscribe();\n          }\n        }\n      : super._complete;\n  }\n\n  unsubscribe() {\n    if (!this.shouldUnsubscribe || this.shouldUnsubscribe()) {\n      const { closed } = this;\n      super.unsubscribe();\n      // Execute additional teardown if we have any and we didn't already do so.\n      !closed && this.onFinalize?.();\n    }\n  }\n}\n", "import { Subscription } from '../Subscription';\n\ninterface AnimationFrameProvider {\n  schedule(callback: FrameRequestCallback): Subscription;\n  requestAnimationFrame: typeof requestAnimationFrame;\n  cancelAnimationFrame: typeof cancelAnimationFrame;\n  delegate:\n    | {\n        requestAnimationFrame: typeof requestAnimationFrame;\n        cancelAnimationFrame: typeof cancelAnimationFrame;\n      }\n    | undefined;\n}\n\nexport const animationFrameProvider: AnimationFrameProvider = {\n  // When accessing the delegate, use the variable rather than `this` so that\n  // the functions can be called without being bound to the provider.\n  schedule(callback) {\n    let request = requestAnimationFrame;\n    let cancel: typeof cancelAnimationFrame | undefined = cancelAnimationFrame;\n    const { delegate } = animationFrameProvider;\n    if (delegate) {\n      request = delegate.requestAnimationFrame;\n      cancel = delegate.cancelAnimationFrame;\n    }\n    const handle = request((timestamp) => {\n      // Clear the cancel function. The request has been fulfilled, so\n      // attempting to cancel the request upon unsubscription would be\n      // pointless.\n      cancel = undefined;\n      callback(timestamp);\n    });\n    return new Subscription(() => cancel?.(handle));\n  },\n  requestAnimationFrame(...args) {\n    const { delegate } = animationFrameProvider;\n    return (delegate?.requestAnimationFrame || requestAnimationFrame)(...args);\n  },\n  cancelAnimationFrame(...args) {\n    const { delegate } = animationFrameProvider;\n    return (delegate?.cancelAnimationFrame || cancelAnimationFrame)(...args);\n  },\n  delegate: undefined,\n};\n", "import { createErrorClass } from './createErrorClass';\n\nexport interface ObjectUnsubscribedError extends Error {}\n\nexport interface ObjectUnsubscribedErrorCtor {\n  /**\n   * @deprecated Internal implementation detail. Do not construct error instances.\n   * Cannot be tagged as internal: https://github.com/ReactiveX/rxjs/issues/6269\n   */\n  new (): ObjectUnsubscribedError;\n}\n\n/**\n * An error thrown when an action is invalid because the object has been\n * unsubscribed.\n *\n * @see {@link Subject}\n * @see {@link BehaviorSubject}\n *\n * @class ObjectUnsubscribedError\n */\nexport const ObjectUnsubscribedError: ObjectUnsubscribedErrorCtor = createErrorClass(\n  (_super) =>\n    function ObjectUnsubscribedErrorImpl(this: any) {\n      _super(this);\n      this.name = 'ObjectUnsubscribedError';\n      this.message = 'object unsubscribed';\n    }\n);\n", "import { Operator } from './Operator';\nimport { Observable } from './Observable';\nimport { Subscriber } from './Subscriber';\nimport { Subscription, EMPTY_SUBSCRIPTION } from './Subscription';\nimport { Observer, SubscriptionLike, TeardownLogic } from './types';\nimport { ObjectUnsubscribedError } from './util/ObjectUnsubscribedError';\nimport { arrRemove } from './util/arrRemove';\nimport { errorContext } from './util/errorContext';\n\n/**\n * A Subject is a special type of Observable that allows values to be\n * multicasted to many Observers. Subjects are like EventEmitters.\n *\n * Every Subject is an Observable and an Observer. You can subscribe to a\n * Subject, and you can call next to feed values as well as error and complete.\n */\nexport class Subject<T> extends Observable<T> implements SubscriptionLike {\n  closed = false;\n\n  private currentObservers: Observer<T>[] | null = null;\n\n  /** @deprecated Internal implementation detail, do not use directly. Will be made internal in v8. */\n  observers: Observer<T>[] = [];\n  /** @deprecated Internal implementation detail, do not use directly. Will be made internal in v8. */\n  isStopped = false;\n  /** @deprecated Internal implementation detail, do not use directly. Will be made internal in v8. */\n  hasError = false;\n  /** @deprecated Internal implementation detail, do not use directly. Will be made internal in v8. */\n  thrownError: any = null;\n\n  /**\n   * Creates a \"subject\" by basically gluing an observer to an observable.\n   *\n   * @nocollapse\n   * @deprecated Recommended you do not use. Will be removed at some point in the future. Plans for replacement still under discussion.\n   */\n  static create: (...args: any[]) => any = <T>(destination: Observer<T>, source: Observable<T>): AnonymousSubject<T> => {\n    return new AnonymousSubject<T>(destination, source);\n  };\n\n  constructor() {\n    // NOTE: This must be here to obscure Observable's constructor.\n    super();\n  }\n\n  /** @deprecated Internal implementation detail, do not use directly. Will be made internal in v8. */\n  lift<R>(operator: Operator<T, R>): Observable<R> {\n    const subject = new AnonymousSubject(this, this);\n    subject.operator = operator as any;\n    return subject as any;\n  }\n\n  /** @internal */\n  protected _throwIfClosed() {\n    if (this.closed) {\n      throw new ObjectUnsubscribedError();\n    }\n  }\n\n  next(value: T) {\n    errorContext(() => {\n      this._throwIfClosed();\n      if (!this.isStopped) {\n        if (!this.currentObservers) {\n          this.currentObservers = Array.from(this.observers);\n        }\n        for (const observer of this.currentObservers) {\n          observer.next(value);\n        }\n      }\n    });\n  }\n\n  error(err: any) {\n    errorContext(() => {\n      this._throwIfClosed();\n      if (!this.isStopped) {\n        this.hasError = this.isStopped = true;\n        this.thrownError = err;\n        const { observers } = this;\n        while (observers.length) {\n          observers.shift()!.error(err);\n        }\n      }\n    });\n  }\n\n  complete() {\n    errorContext(() => {\n      this._throwIfClosed();\n      if (!this.isStopped) {\n        this.isStopped = true;\n        const { observers } = this;\n        while (observers.length) {\n          observers.shift()!.complete();\n        }\n      }\n    });\n  }\n\n  unsubscribe() {\n    this.isStopped = this.closed = true;\n    this.observers = this.currentObservers = null!;\n  }\n\n  get observed() {\n    return this.observers?.length > 0;\n  }\n\n  /** @internal */\n  protected _trySubscribe(subscriber: Subscriber<T>): TeardownLogic {\n    this._throwIfClosed();\n    return super._trySubscribe(subscriber);\n  }\n\n  /** @internal */\n  protected _subscribe(subscriber: Subscriber<T>): Subscription {\n    this._throwIfClosed();\n    this._checkFinalizedStatuses(subscriber);\n    return this._innerSubscribe(subscriber);\n  }\n\n  /** @internal */\n  protected _innerSubscribe(subscriber: Subscriber<any>) {\n    const { hasError, isStopped, observers } = this;\n    if (hasError || isStopped) {\n      return EMPTY_SUBSCRIPTION;\n    }\n    this.currentObservers = null;\n    observers.push(subscriber);\n    return new Subscription(() => {\n      this.currentObservers = null;\n      arrRemove(observers, subscriber);\n    });\n  }\n\n  /** @internal */\n  protected _checkFinalizedStatuses(subscriber: Subscriber<any>) {\n    const { hasError, thrownError, isStopped } = this;\n    if (hasError) {\n      subscriber.error(thrownError);\n    } else if (isStopped) {\n      subscriber.complete();\n    }\n  }\n\n  /**\n   * Creates a new Observable with this Subject as the source. You can do this\n   * to create custom Observer-side logic of the Subject and conceal it from\n   * code that uses the Observable.\n   * @return {Observable} Observable that the Subject casts to\n   */\n  asObservable(): Observable<T> {\n    const observable: any = new Observable<T>();\n    observable.source = this;\n    return observable;\n  }\n}\n\n/**\n * @class AnonymousSubject<T>\n */\nexport class AnonymousSubject<T> extends Subject<T> {\n  constructor(\n    /** @deprecated Internal implementation detail, do not use directly. Will be made internal in v8. */\n    public destination?: Observer<T>,\n    source?: Observable<T>\n  ) {\n    super();\n    this.source = source;\n  }\n\n  next(value: T) {\n    this.destination?.next?.(value);\n  }\n\n  error(err: any) {\n    this.destination?.error?.(err);\n  }\n\n  complete() {\n    this.destination?.complete?.();\n  }\n\n  /** @internal */\n  protected _subscribe(subscriber: Subscriber<T>): Subscription {\n    return this.source?.subscribe(subscriber) ?? EMPTY_SUBSCRIPTION;\n  }\n}\n", "import { Subject } from './Subject';\nimport { Subscriber } from './Subscriber';\nimport { Subscription } from './Subscription';\n\n/**\n * A variant of Subject that requires an initial value and emits its current\n * value whenever it is subscribed to.\n *\n * @class BehaviorSubject<T>\n */\nexport class BehaviorSubject<T> extends Subject<T> {\n  constructor(private _value: T) {\n    super();\n  }\n\n  get value(): T {\n    return this.getValue();\n  }\n\n  /** @internal */\n  protected _subscribe(subscriber: Subscriber<T>): Subscription {\n    const subscription = super._subscribe(subscriber);\n    !subscription.closed && subscriber.next(this._value);\n    return subscription;\n  }\n\n  getValue(): T {\n    const { hasError, thrownError, _value } = this;\n    if (hasError) {\n      throw thrownError;\n    }\n    this._throwIfClosed();\n    return _value;\n  }\n\n  next(value: T): void {\n    super.next((this._value = value));\n  }\n}\n", "import { TimestampProvider } from '../types';\n\ninterface DateTimestampProvider extends TimestampProvider {\n  delegate: TimestampProvider | undefined;\n}\n\nexport const dateTimestampProvider: DateTimestampProvider = {\n  now() {\n    // Use the variable rather than `this` so that the function can be called\n    // without being bound to the provider.\n    return (dateTimestampProvider.delegate || Date).now();\n  },\n  delegate: undefined,\n};\n", "import { Subject } from './Subject';\nimport { TimestampProvider } from './types';\nimport { Subscriber } from './Subscriber';\nimport { Subscription } from './Subscription';\nimport { dateTimestampProvider } from './scheduler/dateTimestampProvider';\n\n/**\n * A variant of {@link Subject} that \"replays\" old values to new subscribers by emitting them when they first subscribe.\n *\n * `ReplaySubject` has an internal buffer that will store a specified number of values that it has observed. Like `Subject`,\n * `ReplaySubject` \"observes\" values by having them passed to its `next` method. When it observes a value, it will store that\n * value for a time determined by the configuration of the `ReplaySubject`, as passed to its constructor.\n *\n * When a new subscriber subscribes to the `ReplaySubject` instance, it will synchronously emit all values in its buffer in\n * a First-In-First-Out (FIFO) manner. The `ReplaySubject` will also complete, if it has observed completion; and it will\n * error if it has observed an error.\n *\n * There are two main configuration items to be concerned with:\n *\n * 1. `bufferSize` - This will determine how many items are stored in the buffer, defaults to infinite.\n * 2. `windowTime` - The amount of time to hold a value in the buffer before removing it from the buffer.\n *\n * Both configurations may exist simultaneously. So if you would like to buffer a maximum of 3 values, as long as the values\n * are less than 2 seconds old, you could do so with a `new ReplaySubject(3, 2000)`.\n *\n * ### Differences with BehaviorSubject\n *\n * `BehaviorSubject` is similar to `new ReplaySubject(1)`, with a couple of exceptions:\n *\n * 1. `BehaviorSubject` comes \"primed\" with a single value upon construction.\n * 2. `ReplaySubject` will replay values, even after observing an error, where `BehaviorSubject` will not.\n *\n * @see {@link Subject}\n * @see {@link BehaviorSubject}\n * @see {@link shareReplay}\n */\nexport class ReplaySubject<T> extends Subject<T> {\n  private _buffer: (T | number)[] = [];\n  private _infiniteTimeWindow = true;\n\n  /**\n   * @param bufferSize The size of the buffer to replay on subscription\n   * @param windowTime The amount of time the buffered items will stay buffered\n   * @param timestampProvider An object with a `now()` method that provides the current timestamp. This is used to\n   * calculate the amount of time something has been buffered.\n   */\n  constructor(\n    private _bufferSize = Infinity,\n    private _windowTime = Infinity,\n    private _timestampProvider: TimestampProvider = dateTimestampProvider\n  ) {\n    super();\n    this._infiniteTimeWindow = _windowTime === Infinity;\n    this._bufferSize = Math.max(1, _bufferSize);\n    this._windowTime = Math.max(1, _windowTime);\n  }\n\n  next(value: T): void {\n    const { isStopped, _buffer, _infiniteTimeWindow, _timestampProvider, _windowTime } = this;\n    if (!isStopped) {\n      _buffer.push(value);\n      !_infiniteTimeWindow && _buffer.push(_timestampProvider.now() + _windowTime);\n    }\n    this._trimBuffer();\n    super.next(value);\n  }\n\n  /** @internal */\n  protected _subscribe(subscriber: Subscriber<T>): Subscription {\n    this._throwIfClosed();\n    this._trimBuffer();\n\n    const subscription = this._innerSubscribe(subscriber);\n\n    const { _infiniteTimeWindow, _buffer } = this;\n    // We use a copy here, so reentrant code does not mutate our array while we're\n    // emitting it to a new subscriber.\n    const copy = _buffer.slice();\n    for (let i = 0; i < copy.length && !subscriber.closed; i += _infiniteTimeWindow ? 1 : 2) {\n      subscriber.next(copy[i] as T);\n    }\n\n    this._checkFinalizedStatuses(subscriber);\n\n    return subscription;\n  }\n\n  private _trimBuffer() {\n    const { _bufferSize, _timestampProvider, _buffer, _infiniteTimeWindow } = this;\n    // If we don't have an infinite buffer size, and we're over the length,\n    // use splice to truncate the old buffer values off. Note that we have to\n    // double the size for instances where we're not using an infinite time window\n    // because we're storing the values and the timestamps in the same array.\n    const adjustedBufferSize = (_infiniteTimeWindow ? 1 : 2) * _bufferSize;\n    _bufferSize < Infinity && adjustedBufferSize < _buffer.length && _buffer.splice(0, _buffer.length - adjustedBufferSize);\n\n    // Now, if we're not in an infinite time window, remove all values where the time is\n    // older than what is allowed.\n    if (!_infiniteTimeWindow) {\n      const now = _timestampProvider.now();\n      let last = 0;\n      // Search the array for the first timestamp that isn't expired and\n      // truncate the buffer up to that point.\n      for (let i = 1; i < _buffer.length && (_buffer[i] as number) <= now; i += 2) {\n        last = i;\n      }\n      last && _buffer.splice(0, last + 1);\n    }\n  }\n}\n", "import { Scheduler } from '../Scheduler';\nimport { Subscription } from '../Subscription';\nimport { SchedulerAction } from '../types';\n\n/**\n * A unit of work to be executed in a `scheduler`. An action is typically\n * created from within a {@link SchedulerLike} and an RxJS user does not need to concern\n * themselves about creating and manipulating an Action.\n *\n * ```ts\n * class Action<T> extends Subscription {\n *   new (scheduler: Scheduler, work: (state?: T) => void);\n *   schedule(state?: T, delay: number = 0): Subscription;\n * }\n * ```\n *\n * @class Action<T>\n */\nexport class Action<T> extends Subscription {\n  constructor(scheduler: Scheduler, work: (this: SchedulerAction<T>, state?: T) => void) {\n    super();\n  }\n  /**\n   * Schedules this action on its parent {@link SchedulerLike} for execution. May be passed\n   * some context object, `state`. May happen at some point in the future,\n   * according to the `delay` parameter, if specified.\n   * @param {T} [state] Some contextual data that the `work` function uses when\n   * called by the Scheduler.\n   * @param {number} [delay] Time to wait before executing the work, where the\n   * time unit is implicit and defined by the Scheduler.\n   * @return {void}\n   */\n  public schedule(state?: T, delay: number = 0): Subscription {\n    return this;\n  }\n}\n", "import type { TimerHandle } from './timerHandle';\ntype SetIntervalFunction = (handler: () => void, timeout?: number, ...args: any[]) => TimerHandle;\ntype ClearIntervalFunction = (handle: TimerHandle) => void;\n\ninterface IntervalProvider {\n  setInterval: SetIntervalFunction;\n  clearInterval: ClearIntervalFunction;\n  delegate:\n    | {\n        setInterval: SetIntervalFunction;\n        clearInterval: ClearIntervalFunction;\n      }\n    | undefined;\n}\n\nexport const intervalProvider: IntervalProvider = {\n  // When accessing the delegate, use the variable rather than `this` so that\n  // the functions can be called without being bound to the provider.\n  setInterval(handler: () => void, timeout?: number, ...args) {\n    const { delegate } = intervalProvider;\n    if (delegate?.setInterval) {\n      return delegate.setInterval(handler, timeout, ...args);\n    }\n    return setInterval(handler, timeout, ...args);\n  },\n  clearInterval(handle) {\n    const { delegate } = intervalProvider;\n    return (delegate?.clearInterval || clearInterval)(handle as any);\n  },\n  delegate: undefined,\n};\n", "import { Action } from './Action';\nimport { SchedulerAction } from '../types';\nimport { Subscription } from '../Subscription';\nimport { AsyncScheduler } from './AsyncScheduler';\nimport { intervalProvider } from './intervalProvider';\nimport { arrRemove } from '../util/arrRemove';\nimport { TimerHandle } from './timerHandle';\n\nexport class AsyncAction<T> extends Action<T> {\n  public id: TimerHandle | undefined;\n  public state?: T;\n  // @ts-ignore: Property has no initializer and is not definitely assigned\n  public delay: number;\n  protected pending: boolean = false;\n\n  constructor(protected scheduler: AsyncScheduler, protected work: (this: SchedulerAction<T>, state?: T) => void) {\n    super(scheduler, work);\n  }\n\n  public schedule(state?: T, delay: number = 0): Subscription {\n    if (this.closed) {\n      return this;\n    }\n\n    // Always replace the current state with the new state.\n    this.state = state;\n\n    const id = this.id;\n    const scheduler = this.scheduler;\n\n    //\n    // Important implementation note:\n    //\n    // Actions only execute once by default, unless rescheduled from within the\n    // scheduled callback. This allows us to implement single and repeat\n    // actions via the same code path, without adding API surface area, as well\n    // as mimic traditional recursion but across asynchronous boundaries.\n    //\n    // However, JS runtimes and timers distinguish between intervals achieved by\n    // serial `setTimeout` calls vs. a single `setInterval` call. An interval of\n    // serial `setTimeout` calls can be individually delayed, which delays\n    // scheduling the next `setTimeout`, and so on. `setInterval` attempts to\n    // guarantee the interval callback will be invoked more precisely to the\n    // interval period, regardless of load.\n    //\n    // Therefore, we use `setInterval` to schedule single and repeat actions.\n    // If the action reschedules itself with the same delay, the interval is not\n    // canceled. If the action doesn't reschedule, or reschedules with a\n    // different delay, the interval will be canceled after scheduled callback\n    // execution.\n    //\n    if (id != null) {\n      this.id = this.recycleAsyncId(scheduler, id, delay);\n    }\n\n    // Set the pending flag indicating that this action has been scheduled, or\n    // has recursively rescheduled itself.\n    this.pending = true;\n\n    this.delay = delay;\n    // If this action has already an async Id, don't request a new one.\n    this.id = this.id ?? this.requestAsyncId(scheduler, this.id, delay);\n\n    return this;\n  }\n\n  protected requestAsyncId(scheduler: AsyncScheduler, _id?: TimerHandle, delay: number = 0): TimerHandle {\n    return intervalProvider.setInterval(scheduler.flush.bind(scheduler, this), delay);\n  }\n\n  protected recycleAsyncId(_scheduler: AsyncScheduler, id?: TimerHandle, delay: number | null = 0): TimerHandle | undefined {\n    // If this action is rescheduled with the same delay time, don't clear the interval id.\n    if (delay != null && this.delay === delay && this.pending === false) {\n      return id;\n    }\n    // Otherwise, if the action's delay time is different from the current delay,\n    // or the action has been rescheduled before it's executed, clear the interval id\n    if (id != null) {\n      intervalProvider.clearInterval(id);\n    }\n\n    return undefined;\n  }\n\n  /**\n   * Immediately executes this action and the `work` it contains.\n   * @return {any}\n   */\n  public execute(state: T, delay: number): any {\n    if (this.closed) {\n      return new Error('executing a cancelled action');\n    }\n\n    this.pending = false;\n    const error = this._execute(state, delay);\n    if (error) {\n      return error;\n    } else if (this.pending === false && this.id != null) {\n      // Dequeue if the action didn't reschedule itself. Don't call\n      // unsubscribe(), because the action could reschedule later.\n      // For example:\n      // ```\n      // scheduler.schedule(function doWork(counter) {\n      //   /* ... I'm a busy worker bee ... */\n      //   var originalAction = this;\n      //   /* wait 100ms before rescheduling the action */\n      //   setTimeout(function () {\n      //     originalAction.schedule(counter + 1);\n      //   }, 100);\n      // }, 1000);\n      // ```\n      this.id = this.recycleAsyncId(this.scheduler, this.id, null);\n    }\n  }\n\n  protected _execute(state: T, _delay: number): any {\n    let errored: boolean = false;\n    let errorValue: any;\n    try {\n      this.work(state);\n    } catch (e) {\n      errored = true;\n      // HACK: Since code elsewhere is relying on the \"truthiness\" of the\n      // return here, we can't have it return \"\" or 0 or false.\n      // TODO: Clean this up when we refactor schedulers mid-version-8 or so.\n      errorValue = e ? e : new Error('Scheduled action threw falsy error');\n    }\n    if (errored) {\n      this.unsubscribe();\n      return errorValue;\n    }\n  }\n\n  unsubscribe() {\n    if (!this.closed) {\n      const { id, scheduler } = this;\n      const { actions } = scheduler;\n\n      this.work = this.state = this.scheduler = null!;\n      this.pending = false;\n\n      arrRemove(actions, this);\n      if (id != null) {\n        this.id = this.recycleAsyncId(scheduler, id, null);\n      }\n\n      this.delay = null!;\n      super.unsubscribe();\n    }\n  }\n}\n", "import { Action } from './scheduler/Action';\nimport { Subscription } from './Subscription';\nimport { SchedulerLike, SchedulerAction } from './types';\nimport { dateTimestampProvider } from './scheduler/dateTimestampProvider';\n\n/**\n * An execution context and a data structure to order tasks and schedule their\n * execution. Provides a notion of (potentially virtual) time, through the\n * `now()` getter method.\n *\n * Each unit of work in a Scheduler is called an `Action`.\n *\n * ```ts\n * class Scheduler {\n *   now(): number;\n *   schedule(work, delay?, state?): Subscription;\n * }\n * ```\n *\n * @class Scheduler\n * @deprecated Scheduler is an internal implementation detail of RxJS, and\n * should not be used directly. Rather, create your own class and implement\n * {@link SchedulerLike}. Will be made internal in v8.\n */\nexport class Scheduler implements SchedulerLike {\n  public static now: () => number = dateTimestampProvider.now;\n\n  constructor(private schedulerActionCtor: typeof Action, now: () => number = Scheduler.now) {\n    this.now = now;\n  }\n\n  /**\n   * A getter method that returns a number representing the current time\n   * (at the time this function was called) according to the scheduler's own\n   * internal clock.\n   * @return {number} A number that represents the current time. May or may not\n   * have a relation to wall-clock time. May or may not refer to a time unit\n   * (e.g. milliseconds).\n   */\n  public now: () => number;\n\n  /**\n   * Schedules a function, `work`, for execution. May happen at some point in\n   * the future, according to the `delay` parameter, if specified. May be passed\n   * some context object, `state`, which will be passed to the `work` function.\n   *\n   * The given arguments will be processed an stored as an Action object in a\n   * queue of actions.\n   *\n   * @param {function(state: ?T): ?Subscription} work A function representing a\n   * task, or some unit of work to be executed by the Scheduler.\n   * @param {number} [delay] Time to wait before executing the work, where the\n   * time unit is implicit and defined by the Scheduler itself.\n   * @param {T} [state] Some contextual data that the `work` function uses when\n   * called by the Scheduler.\n   * @return {Subscription} A subscription in order to be able to unsubscribe\n   * the scheduled work.\n   */\n  public schedule<T>(work: (this: SchedulerAction<T>, state?: T) => void, delay: number = 0, state?: T): Subscription {\n    return new this.schedulerActionCtor<T>(this, work).schedule(state, delay);\n  }\n}\n", "import { Scheduler } from '../Scheduler';\nimport { Action } from './Action';\nimport { AsyncAction } from './AsyncAction';\nimport { TimerHandle } from './timerHandle';\n\nexport class AsyncScheduler extends Scheduler {\n  public actions: Array<AsyncAction<any>> = [];\n  /**\n   * A flag to indicate whether the Scheduler is currently executing a batch of\n   * queued actions.\n   * @type {boolean}\n   * @internal\n   */\n  public _active: boolean = false;\n  /**\n   * An internal ID used to track the latest asynchronous task such as those\n   * coming from `setTimeout`, `setInterval`, `requestAnimationFrame`, and\n   * others.\n   * @type {any}\n   * @internal\n   */\n  public _scheduled: TimerHandle | undefined;\n\n  constructor(SchedulerAction: typeof Action, now: () => number = Scheduler.now) {\n    super(SchedulerAction, now);\n  }\n\n  public flush(action: AsyncAction<any>): void {\n    const { actions } = this;\n\n    if (this._active) {\n      actions.push(action);\n      return;\n    }\n\n    let error: any;\n    this._active = true;\n\n    do {\n      if ((error = action.execute(action.state, action.delay))) {\n        break;\n      }\n    } while ((action = actions.shift()!)); // exhaust the scheduler queue\n\n    this._active = false;\n\n    if (error) {\n      while ((action = actions.shift()!)) {\n        action.unsubscribe();\n      }\n      throw error;\n    }\n  }\n}\n", "import { AsyncAction } from './AsyncAction';\nimport { AsyncScheduler } from './AsyncScheduler';\n\n/**\n *\n * Async Scheduler\n *\n * <span class=\"informal\">Schedule task as if you used setTimeout(task, duration)</span>\n *\n * `async` scheduler schedules tasks asynchronously, by putting them on the JavaScript\n * event loop queue. It is best used to delay tasks in time or to schedule tasks repeating\n * in intervals.\n *\n * If you just want to \"defer\" task, that is to perform it right after currently\n * executing synchronous code ends (commonly achieved by `setTimeout(deferredTask, 0)`),\n * better choice will be the {@link asapScheduler} scheduler.\n *\n * ## Examples\n * Use async scheduler to delay task\n * ```ts\n * import { asyncScheduler } from 'rxjs';\n *\n * const task = () => console.log('it works!');\n *\n * asyncScheduler.schedule(task, 2000);\n *\n * // After 2 seconds logs:\n * // \"it works!\"\n * ```\n *\n * Use async scheduler to repeat task in intervals\n * ```ts\n * import { asyncScheduler } from 'rxjs';\n *\n * function task(state) {\n *   console.log(state);\n *   this.schedule(state + 1, 1000); // `this` references currently executing Action,\n *                                   // which we reschedule with new state and delay\n * }\n *\n * asyncScheduler.schedule(task, 3000, 0);\n *\n * // Logs:\n * // 0 after 3s\n * // 1 after 4s\n * // 2 after 5s\n * // 3 after 6s\n * ```\n */\n\nexport const asyncScheduler = new AsyncScheduler(AsyncAction);\n\n/**\n * @deprecated Renamed to {@link asyncScheduler}. Will be removed in v8.\n */\nexport const async = asyncScheduler;\n", "import { AsyncAction } from './AsyncAction';\nimport { Subscription } from '../Subscription';\nimport { QueueScheduler } from './QueueScheduler';\nimport { SchedulerAction } from '../types';\nimport { TimerHandle } from './timerHandle';\n\nexport class QueueAction<T> extends AsyncAction<T> {\n  constructor(protected scheduler: QueueScheduler, protected work: (this: SchedulerAction<T>, state?: T) => void) {\n    super(scheduler, work);\n  }\n\n  public schedule(state?: T, delay: number = 0): Subscription {\n    if (delay > 0) {\n      return super.schedule(state, delay);\n    }\n    this.delay = delay;\n    this.state = state;\n    this.scheduler.flush(this);\n    return this;\n  }\n\n  public execute(state: T, delay: number): any {\n    return delay > 0 || this.closed ? super.execute(state, delay) : this._execute(state, delay);\n  }\n\n  protected requestAsyncId(scheduler: QueueScheduler, id?: TimerHandle, delay: number = 0): TimerHandle {\n    // If delay exists and is greater than 0, or if the delay is null (the\n    // action wasn't rescheduled) but was originally scheduled as an async\n    // action, then recycle as an async action.\n\n    if ((delay != null && delay > 0) || (delay == null && this.delay > 0)) {\n      return super.requestAsyncId(scheduler, id, delay);\n    }\n\n    // Otherwise flush the scheduler starting with this action.\n    scheduler.flush(this);\n\n    // HACK: In the past, this was returning `void`. However, `void` isn't a valid\n    // `TimerHandle`, and generally the return value here isn't really used. So the\n    // compromise is to return `0` which is both \"falsy\" and a valid `TimerHandle`,\n    // as opposed to refactoring every other instanceo of `requestAsyncId`.\n    return 0;\n  }\n}\n", "import { AsyncScheduler } from './AsyncScheduler';\n\nexport class QueueScheduler extends AsyncScheduler {\n}\n", "import { QueueAction } from './QueueAction';\nimport { QueueScheduler } from './QueueScheduler';\n\n/**\n *\n * Queue Scheduler\n *\n * <span class=\"informal\">Put every next task on a queue, instead of executing it immediately</span>\n *\n * `queue` scheduler, when used with delay, behaves the same as {@link asyncScheduler} scheduler.\n *\n * When used without delay, it schedules given task synchronously - executes it right when\n * it is scheduled. However when called recursively, that is when inside the scheduled task,\n * another task is scheduled with queue scheduler, instead of executing immediately as well,\n * that task will be put on a queue and wait for current one to finish.\n *\n * This means that when you execute task with `queue` scheduler, you are sure it will end\n * before any other task scheduled with that scheduler will start.\n *\n * ## Examples\n * Schedule recursively first, then do something\n * ```ts\n * import { queueScheduler } from 'rxjs';\n *\n * queueScheduler.schedule(() => {\n *   queueScheduler.schedule(() => console.log('second')); // will not happen now, but will be put on a queue\n *\n *   console.log('first');\n * });\n *\n * // Logs:\n * // \"first\"\n * // \"second\"\n * ```\n *\n * Reschedule itself recursively\n * ```ts\n * import { queueScheduler } from 'rxjs';\n *\n * queueScheduler.schedule(function(state) {\n *   if (state !== 0) {\n *     console.log('before', state);\n *     this.schedule(state - 1); // `this` references currently executing Action,\n *                               // which we reschedule with new state\n *     console.log('after', state);\n *   }\n * }, 0, 3);\n *\n * // In scheduler that runs recursively, you would expect:\n * // \"before\", 3\n * // \"before\", 2\n * // \"before\", 1\n * // \"after\", 1\n * // \"after\", 2\n * // \"after\", 3\n *\n * // But with queue it logs:\n * // \"before\", 3\n * // \"after\", 3\n * // \"before\", 2\n * // \"after\", 2\n * // \"before\", 1\n * // \"after\", 1\n * ```\n */\n\nexport const queueScheduler = new QueueScheduler(QueueAction);\n\n/**\n * @deprecated Renamed to {@link queueScheduler}. Will be removed in v8.\n */\nexport const queue = queueScheduler;\n", "import { AsyncAction } from './AsyncAction';\nimport { AnimationFrameScheduler } from './AnimationFrameScheduler';\nimport { SchedulerAction } from '../types';\nimport { animationFrameProvider } from './animationFrameProvider';\nimport { TimerHandle } from './timerHandle';\n\nexport class AnimationFrameAction<T> extends AsyncAction<T> {\n  constructor(protected scheduler: AnimationFrameScheduler, protected work: (this: SchedulerAction<T>, state?: T) => void) {\n    super(scheduler, work);\n  }\n\n  protected requestAsyncId(scheduler: AnimationFrameScheduler, id?: TimerHandle, delay: number = 0): TimerHandle {\n    // If delay is greater than 0, request as an async action.\n    if (delay !== null && delay > 0) {\n      return super.requestAsyncId(scheduler, id, delay);\n    }\n    // Push the action to the end of the scheduler queue.\n    scheduler.actions.push(this);\n    // If an animation frame has already been requested, don't request another\n    // one. If an animation frame hasn't been requested yet, request one. Return\n    // the current animation frame request id.\n    return scheduler._scheduled || (scheduler._scheduled = animationFrameProvider.requestAnimationFrame(() => scheduler.flush(undefined)));\n  }\n\n  protected recycleAsyncId(scheduler: AnimationFrameScheduler, id?: TimerHandle, delay: number = 0): TimerHandle | undefined {\n    // If delay exists and is greater than 0, or if the delay is null (the\n    // action wasn't rescheduled) but was originally scheduled as an async\n    // action, then recycle as an async action.\n    if (delay != null ? delay > 0 : this.delay > 0) {\n      return super.recycleAsyncId(scheduler, id, delay);\n    }\n    // If the scheduler queue has no remaining actions with the same async id,\n    // cancel the requested animation frame and set the scheduled flag to\n    // undefined so the next AnimationFrameAction will request its own.\n    const { actions } = scheduler;\n    if (id != null && actions[actions.length - 1]?.id !== id) {\n      animationFrameProvider.cancelAnimationFrame(id as number);\n      scheduler._scheduled = undefined;\n    }\n    // Return undefined so the action knows to request a new async id if it's rescheduled.\n    return undefined;\n  }\n}\n", "import { AsyncAction } from './AsyncAction';\nimport { AsyncScheduler } from './AsyncScheduler';\n\nexport class AnimationFrameScheduler extends AsyncScheduler {\n  public flush(action?: AsyncAction<any>): void {\n    this._active = true;\n    // The async id that effects a call to flush is stored in _scheduled.\n    // Before executing an action, it's necessary to check the action's async\n    // id to determine whether it's supposed to be executed in the current\n    // flush.\n    // Previous implementations of this method used a count to determine this,\n    // but that was unsound, as actions that are unsubscribed - i.e. cancelled -\n    // are removed from the actions array and that can shift actions that are\n    // scheduled to be executed in a subsequent flush into positions at which\n    // they are executed within the current flush.\n    const flushId = this._scheduled;\n    this._scheduled = undefined;\n\n    const { actions } = this;\n    let error: any;\n    action = action || actions.shift()!;\n\n    do {\n      if ((error = action.execute(action.state, action.delay))) {\n        break;\n      }\n    } while ((action = actions[0]) && action.id === flushId && actions.shift());\n\n    this._active = false;\n\n    if (error) {\n      while ((action = actions[0]) && action.id === flushId && actions.shift()) {\n        action.unsubscribe();\n      }\n      throw error;\n    }\n  }\n}\n", "import { AnimationFrameAction } from './AnimationFrameAction';\nimport { AnimationFrameScheduler } from './AnimationFrameScheduler';\n\n/**\n *\n * Animation Frame Scheduler\n *\n * <span class=\"informal\">Perform task when `window.requestAnimationFrame` would fire</span>\n *\n * When `animationFrame` scheduler is used with delay, it will fall back to {@link asyncScheduler} scheduler\n * behaviour.\n *\n * Without delay, `animationFrame` scheduler can be used to create smooth browser animations.\n * It makes sure scheduled task will happen just before next browser content repaint,\n * thus performing animations as efficiently as possible.\n *\n * ## Example\n * Schedule div height animation\n * ```ts\n * // html: <div style=\"background: #0ff;\"></div>\n * import { animationFrameScheduler } from 'rxjs';\n *\n * const div = document.querySelector('div');\n *\n * animationFrameScheduler.schedule(function(height) {\n *   div.style.height = height + \"px\";\n *\n *   this.schedule(height + 1);  // `this` references currently executing Action,\n *                               // which we reschedule with new state\n * }, 0, 0);\n *\n * // You will see a div element growing in height\n * ```\n */\n\nexport const animationFrameScheduler = new AnimationFrameScheduler(AnimationFrameAction);\n\n/**\n * @deprecated Renamed to {@link animationFrameScheduler}. Will be removed in v8.\n */\nexport const animationFrame = animationFrameScheduler;\n", "import { Observable } from '../Observable';\nimport { SchedulerLike } from '../types';\n\n/**\n * A simple Observable that emits no items to the Observer and immediately\n * emits a complete notification.\n *\n * <span class=\"informal\">Just emits 'complete', and nothing else.</span>\n *\n * ![](empty.png)\n *\n * A simple Observable that only emits the complete notification. It can be used\n * for composing with other Observables, such as in a {@link mergeMap}.\n *\n * ## Examples\n *\n * Log complete notification\n *\n * ```ts\n * import { EMPTY } from 'rxjs';\n *\n * EMPTY.subscribe({\n *   next: () => console.log('Next'),\n *   complete: () => console.log('Complete!')\n * });\n *\n * // Outputs\n * // Complete!\n * ```\n *\n * Emit the number 7, then complete\n *\n * ```ts\n * import { EMPTY, startWith } from 'rxjs';\n *\n * const result = EMPTY.pipe(startWith(7));\n * result.subscribe(x => console.log(x));\n *\n * // Outputs\n * // 7\n * ```\n *\n * Map and flatten only odd numbers to the sequence `'a'`, `'b'`, `'c'`\n *\n * ```ts\n * import { interval, mergeMap, of, EMPTY } from 'rxjs';\n *\n * const interval$ = interval(1000);\n * const result = interval$.pipe(\n *   mergeMap(x => x % 2 === 1 ? of('a', 'b', 'c') : EMPTY),\n * );\n * result.subscribe(x => console.log(x));\n *\n * // Results in the following to the console:\n * // x is equal to the count on the interval, e.g. (0, 1, 2, 3, ...)\n * // x will occur every 1000ms\n * // if x % 2 is equal to 1, print a, b, c (each on its own)\n * // if x % 2 is not equal to 1, nothing will be output\n * ```\n *\n * @see {@link Observable}\n * @see {@link NEVER}\n * @see {@link of}\n * @see {@link throwError}\n */\nexport const EMPTY = new Observable<never>((subscriber) => subscriber.complete());\n\n/**\n * @param scheduler A {@link SchedulerLike} to use for scheduling\n * the emission of the complete notification.\n * @deprecated Replaced with the {@link EMPTY} constant or {@link scheduled} (e.g. `scheduled([], scheduler)`). Will be removed in v8.\n */\nexport function empty(scheduler?: SchedulerLike) {\n  return scheduler ? emptyScheduled(scheduler) : EMPTY;\n}\n\nfunction emptyScheduled(scheduler: SchedulerLike) {\n  return new Observable<never>((subscriber) => scheduler.schedule(() => subscriber.complete()));\n}\n", "import { SchedulerLike } from '../types';\nimport { isFunction } from './isFunction';\n\nexport function isScheduler(value: any): value is SchedulerLike {\n  return value && isFunction(value.schedule);\n}\n", "import { SchedulerLike } from '../types';\nimport { isFunction } from './isFunction';\nimport { isScheduler } from './isScheduler';\n\nfunction last<T>(arr: T[]): T | undefined {\n  return arr[arr.length - 1];\n}\n\nexport function popResultSelector(args: any[]): ((...args: unknown[]) => unknown) | undefined {\n  return isFunction(last(args)) ? args.pop() : undefined;\n}\n\nexport function popScheduler(args: any[]): SchedulerLike | undefined {\n  return isScheduler(last(args)) ? args.pop() : undefined;\n}\n\nexport function popNumber(args: any[], defaultValue: number): number {\n  return typeof last(args) === 'number' ? args.pop()! : defaultValue;\n}\n", "export const isArrayLike = (<T>(x: any): x is ArrayLike<T> => x && typeof x.length === 'number' && typeof x !== 'function');", "import { isFunction } from \"./isFunction\";\n\n/**\n * Tests to see if the object is \"thennable\".\n * @param value the object to test\n */\nexport function isPromise(value: any): value is PromiseLike<any> {\n  return isFunction(value?.then);\n}\n", "import { InteropObservable } from '../types';\nimport { observable as Symbol_observable } from '../symbol/observable';\nimport { isFunction } from './isFunction';\n\n/** Identifies an input as being Observable (but not necessary an Rx Observable) */\nexport function isInteropObservable(input: any): input is InteropObservable<any> {\n  return isFunction(input[Symbol_observable]);\n}\n", "import { isFunction } from './isFunction';\n\nexport function isAsyncIterable<T>(obj: any): obj is AsyncIterable<T> {\n  return Symbol.asyncIterator && isFunction(obj?.[Symbol.asyncIterator]);\n}\n", "/**\n * Creates the TypeError to throw if an invalid object is passed to `from` or `scheduled`.\n * @param input The object that was passed.\n */\nexport function createInvalidObservableTypeError(input: any) {\n  // TODO: We should create error codes that can be looked up, so this can be less verbose.\n  return new TypeError(\n    `You provided ${\n      input !== null && typeof input === 'object' ? 'an invalid object' : `'${input}'`\n    } where a stream was expected. You can provide an Observable, Promise, ReadableStream, Array, AsyncIterable, or Iterable.`\n  );\n}\n", "export function getSymbolIterator(): symbol {\n  if (typeof Symbol !== 'function' || !Symbol.iterator) {\n    return '@@iterator' as any;\n  }\n\n  return Symbol.iterator;\n}\n\nexport const iterator = getSymbolIterator();\n", "import { iterator as Symbol_iterator } from '../symbol/iterator';\nimport { isFunction } from './isFunction';\n\n/** Identifies an input as being an Iterable */\nexport function isIterable(input: any): input is Iterable<any> {\n  return isFunction(input?.[Symbol_iterator]);\n}\n", "import { ReadableStreamLike } from '../types';\nimport { isFunction } from './isFunction';\n\nexport async function* readableStreamLikeToAsyncGenerator<T>(readableStream: ReadableStreamLike<T>): AsyncGenerator<T> {\n  const reader = readableStream.getReader();\n  try {\n    while (true) {\n      const { value, done } = await reader.read();\n      if (done) {\n        return;\n      }\n      yield value!;\n    }\n  } finally {\n    reader.releaseLock();\n  }\n}\n\nexport function isReadableStreamLike<T>(obj: any): obj is ReadableStreamLike<T> {\n  // We don't want to use instanceof checks because they would return\n  // false for instances from another Realm, like an <iframe>.\n  return isFunction(obj?.getReader);\n}\n", "import { isArrayLike } from '../util/isArrayLike';\nimport { isPromise } from '../util/isPromise';\nimport { Observable } from '../Observable';\nimport { ObservableInput, ObservedValueOf, ReadableStreamLike } from '../types';\nimport { isInteropObservable } from '../util/isInteropObservable';\nimport { isAsyncIterable } from '../util/isAsyncIterable';\nimport { createInvalidObservableTypeError } from '../util/throwUnobservableError';\nimport { isIterable } from '../util/isIterable';\nimport { isReadableStreamLike, readableStreamLikeToAsyncGenerator } from '../util/isReadableStreamLike';\nimport { Subscriber } from '../Subscriber';\nimport { isFunction } from '../util/isFunction';\nimport { reportUnhandledError } from '../util/reportUnhandledError';\nimport { observable as Symbol_observable } from '../symbol/observable';\n\nexport function innerFrom<O extends ObservableInput<any>>(input: O): Observable<ObservedValueOf<O>>;\nexport function innerFrom<T>(input: ObservableInput<T>): Observable<T> {\n  if (input instanceof Observable) {\n    return input;\n  }\n  if (input != null) {\n    if (isInteropObservable(input)) {\n      return fromInteropObservable(input);\n    }\n    if (isArrayLike(input)) {\n      return fromArrayLike(input);\n    }\n    if (isPromise(input)) {\n      return fromPromise(input);\n    }\n    if (isAsyncIterable(input)) {\n      return fromAsyncIterable(input);\n    }\n    if (isIterable(input)) {\n      return fromIterable(input);\n    }\n    if (isReadableStreamLike(input)) {\n      return fromReadableStreamLike(input);\n    }\n  }\n\n  throw createInvalidObservableTypeError(input);\n}\n\n/**\n * Creates an RxJS Observable from an object that implements `Symbol.observable`.\n * @param obj An object that properly implements `Symbol.observable`.\n */\nexport function fromInteropObservable<T>(obj: any) {\n  return new Observable((subscriber: Subscriber<T>) => {\n    const obs = obj[Symbol_observable]();\n    if (isFunction(obs.subscribe)) {\n      return obs.subscribe(subscriber);\n    }\n    // Should be caught by observable subscribe function error handling.\n    throw new TypeError('Provided object does not correctly implement Symbol.observable');\n  });\n}\n\n/**\n * Synchronously emits the values of an array like and completes.\n * This is exported because there are creation functions and operators that need to\n * make direct use of the same logic, and there's no reason to make them run through\n * `from` conditionals because we *know* they're dealing with an array.\n * @param array The array to emit values from\n */\nexport function fromArrayLike<T>(array: ArrayLike<T>) {\n  return new Observable((subscriber: Subscriber<T>) => {\n    // Loop over the array and emit each value. Note two things here:\n    // 1. We're making sure that the subscriber is not closed on each loop.\n    //    This is so we don't continue looping over a very large array after\n    //    something like a `take`, `takeWhile`, or other synchronous unsubscription\n    //    has already unsubscribed.\n    // 2. In this form, reentrant code can alter that array we're looping over.\n    //    This is a known issue, but considered an edge case. The alternative would\n    //    be to copy the array before executing the loop, but this has\n    //    performance implications.\n    for (let i = 0; i < array.length && !subscriber.closed; i++) {\n      subscriber.next(array[i]);\n    }\n    subscriber.complete();\n  });\n}\n\nexport function fromPromise<T>(promise: PromiseLike<T>) {\n  return new Observable((subscriber: Subscriber<T>) => {\n    promise\n      .then(\n        (value) => {\n          if (!subscriber.closed) {\n            subscriber.next(value);\n            subscriber.complete();\n          }\n        },\n        (err: any) => subscriber.error(err)\n      )\n      .then(null, reportUnhandledError);\n  });\n}\n\nexport function fromIterable<T>(iterable: Iterable<T>) {\n  return new Observable((subscriber: Subscriber<T>) => {\n    for (const value of iterable) {\n      subscriber.next(value);\n      if (subscriber.closed) {\n        return;\n      }\n    }\n    subscriber.complete();\n  });\n}\n\nexport function fromAsyncIterable<T>(asyncIterable: AsyncIterable<T>) {\n  return new Observable((subscriber: Subscriber<T>) => {\n    process(asyncIterable, subscriber).catch((err) => subscriber.error(err));\n  });\n}\n\nexport function fromReadableStreamLike<T>(readableStream: ReadableStreamLike<T>) {\n  return fromAsyncIterable(readableStreamLikeToAsyncGenerator(readableStream));\n}\n\nasync function process<T>(asyncIterable: AsyncIterable<T>, subscriber: Subscriber<T>) {\n  for await (const value of asyncIterable) {\n    subscriber.next(value);\n    // A side-effect may have closed our subscriber,\n    // check before the next iteration.\n    if (subscriber.closed) {\n      return;\n    }\n  }\n  subscriber.complete();\n}\n", "import { Subscription } from '../Subscription';\nimport { SchedulerAction, SchedulerLike } from '../types';\n\nexport function executeSchedule(\n  parentSubscription: Subscription,\n  scheduler: SchedulerLike,\n  work: () => void,\n  delay: number,\n  repeat: true\n): void;\nexport function executeSchedule(\n  parentSubscription: Subscription,\n  scheduler: SchedulerLike,\n  work: () => void,\n  delay?: number,\n  repeat?: false\n): Subscription;\n\nexport function executeSchedule(\n  parentSubscription: Subscription,\n  scheduler: SchedulerLike,\n  work: () => void,\n  delay = 0,\n  repeat = false\n): Subscription | void {\n  const scheduleSubscription = scheduler.schedule(function (this: SchedulerAction<any>) {\n    work();\n    if (repeat) {\n      parentSubscription.add(this.schedule(null, delay));\n    } else {\n      this.unsubscribe();\n    }\n  }, delay);\n\n  parentSubscription.add(scheduleSubscription);\n\n  if (!repeat) {\n    // Because user-land scheduler implementations are unlikely to properly reuse\n    // Actions for repeat scheduling, we can't trust that the returned subscription\n    // will control repeat subscription scenarios. So we're trying to avoid using them\n    // incorrectly within this library.\n    return scheduleSubscription;\n  }\n}\n", "/** @prettier */\nimport { MonoTypeOperatorFunction, SchedulerLike } from '../types';\nimport { executeSchedule } from '../util/executeSchedule';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\n\n/**\n * Re-emits all notifications from source Observable with specified scheduler.\n *\n * <span class=\"informal\">Ensure a specific scheduler is used, from outside of an Observable.</span>\n *\n * `observeOn` is an operator that accepts a scheduler as a first parameter, which will be used to reschedule\n * notifications emitted by the source Observable. It might be useful, if you do not have control over\n * internal scheduler of a given Observable, but want to control when its values are emitted nevertheless.\n *\n * Returned Observable emits the same notifications (nexted values, complete and error events) as the source Observable,\n * but rescheduled with provided scheduler. Note that this doesn't mean that source Observables internal\n * scheduler will be replaced in any way. Original scheduler still will be used, but when the source Observable emits\n * notification, it will be immediately scheduled again - this time with scheduler passed to `observeOn`.\n * An anti-pattern would be calling `observeOn` on Observable that emits lots of values synchronously, to split\n * that emissions into asynchronous chunks. For this to happen, scheduler would have to be passed into the source\n * Observable directly (usually into the operator that creates it). `observeOn` simply delays notifications a\n * little bit more, to ensure that they are emitted at expected moments.\n *\n * As a matter of fact, `observeOn` accepts second parameter, which specifies in milliseconds with what delay notifications\n * will be emitted. The main difference between {@link delay} operator and `observeOn` is that `observeOn`\n * will delay all notifications - including error notifications - while `delay` will pass through error\n * from source Observable immediately when it is emitted. In general it is highly recommended to use `delay` operator\n * for any kind of delaying of values in the stream, while using `observeOn` to specify which scheduler should be used\n * for notification emissions in general.\n *\n * ## Example\n *\n * Ensure values in subscribe are called just before browser repaint\n *\n * ```ts\n * import { interval, observeOn, animationFrameScheduler } from 'rxjs';\n *\n * const someDiv = document.createElement('div');\n * someDiv.style.cssText = 'width: 200px;background: #09c';\n * document.body.appendChild(someDiv);\n * const intervals = interval(10);      // Intervals are scheduled\n *                                      // with async scheduler by default...\n * intervals.pipe(\n *   observeOn(animationFrameScheduler) // ...but we will observe on animationFrame\n * )                                    // scheduler to ensure smooth animation.\n * .subscribe(val => {\n *   someDiv.style.height = val + 'px';\n * });\n * ```\n *\n * @see {@link delay}\n *\n * @param scheduler Scheduler that will be used to reschedule notifications from source Observable.\n * @param delay Number of milliseconds that states with what delay every notification should be rescheduled.\n * @return A function that returns an Observable that emits the same\n * notifications as the source Observable, but with provided scheduler.\n */\nexport function observeOn<T>(scheduler: SchedulerLike, delay = 0): MonoTypeOperatorFunction<T> {\n  return operate((source, subscriber) => {\n    source.subscribe(\n      createOperatorSubscriber(\n        subscriber,\n        (value) => executeSchedule(subscriber, scheduler, () => subscriber.next(value), delay),\n        () => executeSchedule(subscriber, scheduler, () => subscriber.complete(), delay),\n        (err) => executeSchedule(subscriber, scheduler, () => subscriber.error(err), delay)\n      )\n    );\n  });\n}\n", "import { MonoTypeOperatorFunction, SchedulerLike } from '../types';\nimport { operate } from '../util/lift';\n\n/**\n * Asynchronously subscribes Observers to this Observable on the specified {@link SchedulerLike}.\n *\n * With `subscribeOn` you can decide what type of scheduler a specific Observable will be using when it is subscribed to.\n *\n * Schedulers control the speed and order of emissions to observers from an Observable stream.\n *\n * ![](subscribeOn.png)\n *\n * ## Example\n *\n * Given the following code:\n *\n * ```ts\n * import { of, merge } from 'rxjs';\n *\n * const a = of(1, 2, 3);\n * const b = of(4, 5, 6);\n *\n * merge(a, b).subscribe(console.log);\n *\n * // Outputs\n * // 1\n * // 2\n * // 3\n * // 4\n * // 5\n * // 6\n * ```\n *\n * Both Observable `a` and `b` will emit their values directly and synchronously once they are subscribed to.\n *\n * If we instead use the `subscribeOn` operator declaring that we want to use the {@link asyncScheduler} for values emitted by Observable `a`:\n *\n * ```ts\n * import { of, subscribeOn, asyncScheduler, merge } from 'rxjs';\n *\n * const a = of(1, 2, 3).pipe(subscribeOn(asyncScheduler));\n * const b = of(4, 5, 6);\n *\n * merge(a, b).subscribe(console.log);\n *\n * // Outputs\n * // 4\n * // 5\n * // 6\n * // 1\n * // 2\n * // 3\n * ```\n *\n * The reason for this is that Observable `b` emits its values directly and synchronously like before\n * but the emissions from `a` are scheduled on the event loop because we are now using the {@link asyncScheduler} for that specific Observable.\n *\n * @param scheduler The {@link SchedulerLike} to perform subscription actions on.\n * @param delay A delay to pass to the scheduler to delay subscriptions\n * @return A function that returns an Observable modified so that its\n * subscriptions happen on the specified {@link SchedulerLike}.\n */\nexport function subscribeOn<T>(scheduler: SchedulerLike, delay: number = 0): MonoTypeOperatorFunction<T> {\n  return operate((source, subscriber) => {\n    subscriber.add(scheduler.schedule(() => source.subscribe(subscriber), delay));\n  });\n}\n", "import { innerFrom } from '../observable/innerFrom';\nimport { observeOn } from '../operators/observeOn';\nimport { subscribeOn } from '../operators/subscribeOn';\nimport { InteropObservable, SchedulerLike } from '../types';\n\nexport function scheduleObservable<T>(input: InteropObservable<T>, scheduler: SchedulerLike) {\n  return innerFrom(input).pipe(subscribeOn(scheduler), observeOn(scheduler));\n}\n", "import { innerFrom } from '../observable/innerFrom';\nimport { observeOn } from '../operators/observeOn';\nimport { subscribeOn } from '../operators/subscribeOn';\nimport { SchedulerLike } from '../types';\n\nexport function schedulePromise<T>(input: PromiseLike<T>, scheduler: SchedulerLike) {\n  return innerFrom(input).pipe(subscribeOn(scheduler), observeOn(scheduler));\n}\n", "import { Observable } from '../Observable';\nimport { SchedulerLike } from '../types';\n\nexport function scheduleArray<T>(input: ArrayLike<T>, scheduler: SchedulerLike) {\n  return new Observable<T>((subscriber) => {\n    // The current array index.\n    let i = 0;\n    // Start iterating over the array like on a schedule.\n    return scheduler.schedule(function () {\n      if (i === input.length) {\n        // If we have hit the end of the array like in the\n        // previous job, we can complete.\n        subscriber.complete();\n      } else {\n        // Otherwise let's next the value at the current index,\n        // then increment our index.\n        subscriber.next(input[i++]);\n        // If the last emission didn't cause us to close the subscriber\n        // (via take or some side effect), reschedule the job and we'll\n        // make another pass.\n        if (!subscriber.closed) {\n          this.schedule();\n        }\n      }\n    });\n  });\n}\n", "import { Observable } from '../Observable';\nimport { SchedulerLike } from '../types';\nimport { iterator as Symbol_iterator } from '../symbol/iterator';\nimport { isFunction } from '../util/isFunction';\nimport { executeSchedule } from '../util/executeSchedule';\n\n/**\n * Used in {@link scheduled} to create an observable from an Iterable.\n * @param input The iterable to create an observable from\n * @param scheduler The scheduler to use\n */\nexport function scheduleIterable<T>(input: Iterable<T>, scheduler: SchedulerLike) {\n  return new Observable<T>((subscriber) => {\n    let iterator: Iterator<T, T>;\n\n    // Schedule the initial creation of the iterator from\n    // the iterable. This is so the code in the iterable is\n    // not called until the scheduled job fires.\n    executeSchedule(subscriber, scheduler, () => {\n      // Create the iterator.\n      iterator = (input as any)[Symbol_iterator]();\n\n      executeSchedule(\n        subscriber,\n        scheduler,\n        () => {\n          let value: T;\n          let done: boolean | undefined;\n          try {\n            // Pull the value out of the iterator\n            ({ value, done } = iterator.next());\n          } catch (err) {\n            // We got an error while pulling from the iterator\n            subscriber.error(err);\n            return;\n          }\n\n          if (done) {\n            // If it is \"done\" we just complete. This mimics the\n            // behavior of JavaScript's `for..of` consumption of\n            // iterables, which will not emit the value from an iterator\n            // result of `{ done: true: value: 'here' }`.\n            subscriber.complete();\n          } else {\n            // The iterable is not done, emit the value.\n            subscriber.next(value);\n          }\n        },\n        0,\n        true\n      );\n    });\n\n    // During finalization, if we see this iterator has a `return` method,\n    // then we know it is a Generator, and not just an Iterator. So we call\n    // the `return()` function. This will ensure that any `finally { }` blocks\n    // inside of the generator we can hit will be hit properly.\n    return () => isFunction(iterator?.return) && iterator.return();\n  });\n}\n", "import { SchedulerLike } from '../types';\nimport { Observable } from '../Observable';\nimport { executeSchedule } from '../util/executeSchedule';\n\nexport function scheduleAsyncIterable<T>(input: AsyncIterable<T>, scheduler: SchedulerLike) {\n  if (!input) {\n    throw new Error('Iterable cannot be null');\n  }\n  return new Observable<T>((subscriber) => {\n    executeSchedule(subscriber, scheduler, () => {\n      const iterator = input[Symbol.asyncIterator]();\n      executeSchedule(\n        subscriber,\n        scheduler,\n        () => {\n          iterator.next().then((result) => {\n            if (result.done) {\n              // This will remove the subscriptions from\n              // the parent subscription.\n              subscriber.complete();\n            } else {\n              subscriber.next(result.value);\n            }\n          });\n        },\n        0,\n        true\n      );\n    });\n  });\n}\n", "import { SchedulerLike, ReadableStreamLike } from '../types';\nimport { Observable } from '../Observable';\nimport { scheduleAsyncIterable } from './scheduleAsyncIterable';\nimport { readableStreamLikeToAsyncGenerator } from '../util/isReadableStreamLike';\n\nexport function scheduleReadableStreamLike<T>(input: ReadableStreamLike<T>, scheduler: SchedulerLike): Observable<T> {\n  return scheduleAsyncIterable(readableStreamLikeToAsyncGenerator(input), scheduler);\n}\n", "import { scheduleObservable } from './scheduleObservable';\nimport { schedulePromise } from './schedulePromise';\nimport { scheduleArray } from './scheduleArray';\nimport { scheduleIterable } from './scheduleIterable';\nimport { scheduleAsyncIterable } from './scheduleAsyncIterable';\nimport { isInteropObservable } from '../util/isInteropObservable';\nimport { isPromise } from '../util/isPromise';\nimport { isArrayLike } from '../util/isArrayLike';\nimport { isIterable } from '../util/isIterable';\nimport { ObservableInput, SchedulerLike } from '../types';\nimport { Observable } from '../Observable';\nimport { isAsyncIterable } from '../util/isAsyncIterable';\nimport { createInvalidObservableTypeError } from '../util/throwUnobservableError';\nimport { isReadableStreamLike } from '../util/isReadableStreamLike';\nimport { scheduleReadableStreamLike } from './scheduleReadableStreamLike';\n\n/**\n * Converts from a common {@link ObservableInput} type to an observable where subscription and emissions\n * are scheduled on the provided scheduler.\n *\n * @see {@link from}\n * @see {@link of}\n *\n * @param input The observable, array, promise, iterable, etc you would like to schedule\n * @param scheduler The scheduler to use to schedule the subscription and emissions from\n * the returned observable.\n */\nexport function scheduled<T>(input: ObservableInput<T>, scheduler: SchedulerLike): Observable<T> {\n  if (input != null) {\n    if (isInteropObservable(input)) {\n      return scheduleObservable(input, scheduler);\n    }\n    if (isArrayLike(input)) {\n      return scheduleArray(input, scheduler);\n    }\n    if (isPromise(input)) {\n      return schedulePromise(input, scheduler);\n    }\n    if (isAsyncIterable(input)) {\n      return scheduleAsyncIterable(input, scheduler);\n    }\n    if (isIterable(input)) {\n      return scheduleIterable(input, scheduler);\n    }\n    if (isReadableStreamLike(input)) {\n      return scheduleReadableStreamLike(input, scheduler);\n    }\n  }\n  throw createInvalidObservableTypeError(input);\n}\n", "import { Observable } from '../Observable';\nimport { ObservableInput, SchedulerLike, ObservedValueOf } from '../types';\nimport { scheduled } from '../scheduled/scheduled';\nimport { innerFrom } from './innerFrom';\n\nexport function from<O extends ObservableInput<any>>(input: O): Observable<ObservedValueOf<O>>;\n/** @deprecated The `scheduler` parameter will be removed in v8. Use `scheduled`. Details: https://rxjs.dev/deprecations/scheduler-argument */\nexport function from<O extends ObservableInput<any>>(input: O, scheduler: SchedulerLike | undefined): Observable<ObservedValueOf<O>>;\n\n/**\n * Creates an Observable from an Array, an array-like object, a Promise, an iterable object, or an Observable-like object.\n *\n * <span class=\"informal\">Converts almost anything to an Observable.</span>\n *\n * ![](from.png)\n *\n * `from` converts various other objects and data types into Observables. It also converts a Promise, an array-like, or an\n * <a href=\"https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Iteration_protocols#iterable\" target=\"_blank\">iterable</a>\n * object into an Observable that emits the items in that promise, array, or iterable. A String, in this context, is treated\n * as an array of characters. Observable-like objects (contains a function named with the ES2015 Symbol for Observable) can also be\n * converted through this operator.\n *\n * ## Examples\n *\n * Converts an array to an Observable\n *\n * ```ts\n * import { from } from 'rxjs';\n *\n * const array = [10, 20, 30];\n * const result = from(array);\n *\n * result.subscribe(x => console.log(x));\n *\n * // Logs:\n * // 10\n * // 20\n * // 30\n * ```\n *\n * Convert an infinite iterable (from a generator) to an Observable\n *\n * ```ts\n * import { from, take } from 'rxjs';\n *\n * function* generateDoubles(seed) {\n *    let i = seed;\n *    while (true) {\n *      yield i;\n *      i = 2 * i; // double it\n *    }\n * }\n *\n * const iterator = generateDoubles(3);\n * const result = from(iterator).pipe(take(10));\n *\n * result.subscribe(x => console.log(x));\n *\n * // Logs:\n * // 3\n * // 6\n * // 12\n * // 24\n * // 48\n * // 96\n * // 192\n * // 384\n * // 768\n * // 1536\n * ```\n *\n * With `asyncScheduler`\n *\n * ```ts\n * import { from, asyncScheduler } from 'rxjs';\n *\n * console.log('start');\n *\n * const array = [10, 20, 30];\n * const result = from(array, asyncScheduler);\n *\n * result.subscribe(x => console.log(x));\n *\n * console.log('end');\n *\n * // Logs:\n * // 'start'\n * // 'end'\n * // 10\n * // 20\n * // 30\n * ```\n *\n * @see {@link fromEvent}\n * @see {@link fromEventPattern}\n *\n * @param {ObservableInput<T>} A subscription object, a Promise, an Observable-like,\n * an Array, an iterable, or an array-like object to be converted.\n * @param {SchedulerLike} An optional {@link SchedulerLike} on which to schedule the emission of values.\n * @return {Observable<T>}\n */\nexport function from<T>(input: ObservableInput<T>, scheduler?: SchedulerLike): Observable<T> {\n  return scheduler ? scheduled(input, scheduler) : innerFrom(input);\n}\n", "import { SchedulerLike, ValueFromArray } from '../types';\nimport { Observable } from '../Observable';\nimport { popScheduler } from '../util/args';\nimport { from } from './from';\n\n// Devs are more likely to pass null or undefined than they are a scheduler\n// without accompanying values. To make things easier for (naughty) devs who\n// use the `strictNullChecks: false` TypeScript compiler option, these\n// overloads with explicit null and undefined values are included.\n\nexport function of(value: null): Observable<null>;\nexport function of(value: undefined): Observable<undefined>;\n\n/** @deprecated The `scheduler` parameter will be removed in v8. Use `scheduled`. Details: https://rxjs.dev/deprecations/scheduler-argument */\nexport function of(scheduler: SchedulerLike): Observable<never>;\n/** @deprecated The `scheduler` parameter will be removed in v8. Use `scheduled`. Details: https://rxjs.dev/deprecations/scheduler-argument */\nexport function of<A extends readonly unknown[]>(...valuesAndScheduler: [...A, SchedulerLike]): Observable<ValueFromArray<A>>;\n\nexport function of(): Observable<never>;\n/** @deprecated Do not specify explicit type parameters. Signatures with type parameters that cannot be inferred will be removed in v8. */\nexport function of<T>(): Observable<T>;\nexport function of<T>(value: T): Observable<T>;\nexport function of<A extends readonly unknown[]>(...values: A): Observable<ValueFromArray<A>>;\n\n/**\n * Converts the arguments to an observable sequence.\n *\n * <span class=\"informal\">Each argument becomes a `next` notification.</span>\n *\n * ![](of.png)\n *\n * Unlike {@link from}, it does not do any flattening and emits each argument in whole\n * as a separate `next` notification.\n *\n * ## Examples\n *\n * Emit the values `10, 20, 30`\n *\n * ```ts\n * import { of } from 'rxjs';\n *\n * of(10, 20, 30)\n *   .subscribe({\n *     next: value => console.log('next:', value),\n *     error: err => console.log('error:', err),\n *     complete: () => console.log('the end'),\n *   });\n *\n * // Outputs\n * // next: 10\n * // next: 20\n * // next: 30\n * // the end\n * ```\n *\n * Emit the array `[1, 2, 3]`\n *\n * ```ts\n * import { of } from 'rxjs';\n *\n * of([1, 2, 3])\n *   .subscribe({\n *     next: value => console.log('next:', value),\n *     error: err => console.log('error:', err),\n *     complete: () => console.log('the end'),\n *   });\n *\n * // Outputs\n * // next: [1, 2, 3]\n * // the end\n * ```\n *\n * @see {@link from}\n * @see {@link range}\n *\n * @param {...T} values A comma separated list of arguments you want to be emitted\n * @return {Observable} An Observable that emits the arguments\n * described above and then completes.\n */\nexport function of<T>(...args: Array<T | SchedulerLike>): Observable<T> {\n  const scheduler = popScheduler(args);\n  return from(args as T[], scheduler);\n}\n", "import { Observable } from '../Observable';\nimport { Subscriber } from '../Subscriber';\nimport { SchedulerLike } from '../types';\nimport { isFunction } from '../util/isFunction';\n\n/**\n * Creates an observable that will create an error instance and push it to the consumer as an error\n * immediately upon subscription.\n *\n * <span class=\"informal\">Just errors and does nothing else</span>\n *\n * ![](throw.png)\n *\n * This creation function is useful for creating an observable that will create an error and error every\n * time it is subscribed to. Generally, inside of most operators when you might want to return an errored\n * observable, this is unnecessary. In most cases, such as in the inner return of {@link concatMap},\n * {@link mergeMap}, {@link defer}, and many others, you can simply throw the error, and RxJS will pick\n * that up and notify the consumer of the error.\n *\n * ## Example\n *\n * Create a simple observable that will create a new error with a timestamp and log it\n * and the message every time you subscribe to it\n *\n * ```ts\n * import { throwError } from 'rxjs';\n *\n * let errorCount = 0;\n *\n * const errorWithTimestamp$ = throwError(() => {\n *   const error: any = new Error(`This is error number ${ ++errorCount }`);\n *   error.timestamp = Date.now();\n *   return error;\n * });\n *\n * errorWithTimestamp$.subscribe({\n *   error: err => console.log(err.timestamp, err.message)\n * });\n *\n * errorWithTimestamp$.subscribe({\n *   error: err => console.log(err.timestamp, err.message)\n * });\n *\n * // Logs the timestamp and a new error message for each subscription\n * ```\n *\n * ### Unnecessary usage\n *\n * Using `throwError` inside of an operator or creation function\n * with a callback, is usually not necessary\n *\n * ```ts\n * import { of, concatMap, timer, throwError } from 'rxjs';\n *\n * const delays$ = of(1000, 2000, Infinity, 3000);\n *\n * delays$.pipe(\n *   concatMap(ms => {\n *     if (ms < 10000) {\n *       return timer(ms);\n *     } else {\n *       // This is probably overkill.\n *       return throwError(() => new Error(`Invalid time ${ ms }`));\n *     }\n *   })\n * )\n * .subscribe({\n *   next: console.log,\n *   error: console.error\n * });\n * ```\n *\n * You can just throw the error instead\n *\n * ```ts\n * import { of, concatMap, timer } from 'rxjs';\n *\n * const delays$ = of(1000, 2000, Infinity, 3000);\n *\n * delays$.pipe(\n *   concatMap(ms => {\n *     if (ms < 10000) {\n *       return timer(ms);\n *     } else {\n *       // Cleaner and easier to read for most folks.\n *       throw new Error(`Invalid time ${ ms }`);\n *     }\n *   })\n * )\n * .subscribe({\n *   next: console.log,\n *   error: console.error\n * });\n * ```\n *\n * @param errorFactory A factory function that will create the error instance that is pushed.\n */\nexport function throwError(errorFactory: () => any): Observable<never>;\n\n/**\n * Returns an observable that will error with the specified error immediately upon subscription.\n *\n * @param error The error instance to emit\n * @deprecated Support for passing an error value will be removed in v8. Instead, pass a factory function to `throwError(() => new Error('test'))`. This is\n * because it will create the error at the moment it should be created and capture a more appropriate stack trace. If\n * for some reason you need to create the error ahead of time, you can still do that: `const err = new Error('test'); throwError(() => err);`.\n */\nexport function throwError(error: any): Observable<never>;\n\n/**\n * Notifies the consumer of an error using a given scheduler by scheduling it at delay `0` upon subscription.\n *\n * @param errorOrErrorFactory An error instance or error factory\n * @param scheduler A scheduler to use to schedule the error notification\n * @deprecated The `scheduler` parameter will be removed in v8.\n * Use `throwError` in combination with {@link observeOn}: `throwError(() => new Error('test')).pipe(observeOn(scheduler));`.\n * Details: https://rxjs.dev/deprecations/scheduler-argument\n */\nexport function throwError(errorOrErrorFactory: any, scheduler: SchedulerLike): Observable<never>;\n\nexport function throwError(errorOrErrorFactory: any, scheduler?: SchedulerLike): Observable<never> {\n  const errorFactory = isFunction(errorOrErrorFactory) ? errorOrErrorFactory : () => errorOrErrorFactory;\n  const init = (subscriber: Subscriber<never>) => subscriber.error(errorFactory());\n  return new Observable(scheduler ? (subscriber) => scheduler.schedule(init as any, 0, subscriber) : init);\n}\n", "import { createErrorClass } from './createErrorClass';\n\nexport interface EmptyError extends Error {}\n\nexport interface EmptyErrorCtor {\n  /**\n   * @deprecated Internal implementation detail. Do not construct error instances.\n   * Cannot be tagged as internal: https://github.com/ReactiveX/rxjs/issues/6269\n   */\n  new (): EmptyError;\n}\n\n/**\n * An error thrown when an Observable or a sequence was queried but has no\n * elements.\n *\n * @see {@link first}\n * @see {@link last}\n * @see {@link single}\n * @see {@link firstValueFrom}\n * @see {@link lastValueFrom}\n *\n * @class EmptyError\n */\nexport const EmptyError: EmptyErrorCtor = createErrorClass((_super) => function EmptyErrorImpl(this: any) {\n  _super(this);\n  this.name = 'EmptyError';\n  this.message = 'no elements in sequence';\n});\n", "/**\n * Checks to see if a value is not only a `Date` object,\n * but a *valid* `Date` object that can be converted to a\n * number. For example, `new Date('blah')` is indeed an\n * `instanceof Date`, however it cannot be converted to a\n * number.\n */\nexport function isValidDate(value: any): value is Date {\n  return value instanceof Date && !isNaN(value as any);\n}\n", "import { OperatorFunction } from '../types';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\n\nexport function map<T, R>(project: (value: T, index: number) => R): OperatorFunction<T, R>;\n/** @deprecated Use a closure instead of a `thisArg`. Signatures accepting a `thisArg` will be removed in v8. */\nexport function map<T, R, A>(project: (this: A, value: T, index: number) => R, thisArg: A): OperatorFunction<T, R>;\n\n/**\n * Applies a given `project` function to each value emitted by the source\n * Observable, and emits the resulting values as an Observable.\n *\n * <span class=\"informal\">Like [Array.prototype.map()](https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/Array/map),\n * it passes each source value through a transformation function to get\n * corresponding output values.</span>\n *\n * ![](map.png)\n *\n * Similar to the well known `Array.prototype.map` function, this operator\n * applies a projection to each value and emits that projection in the output\n * Observable.\n *\n * ## Example\n *\n * Map every click to the `clientX` position of that click\n *\n * ```ts\n * import { fromEvent, map } from 'rxjs';\n *\n * const clicks = fromEvent<PointerEvent>(document, 'click');\n * const positions = clicks.pipe(map(ev => ev.clientX));\n *\n * positions.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link mapTo}\n * @see {@link pluck}\n *\n * @param {function(value: T, index: number): R} project The function to apply\n * to each `value` emitted by the source Observable. The `index` parameter is\n * the number `i` for the i-th emission that has happened since the\n * subscription, starting from the number `0`.\n * @param {any} [thisArg] An optional argument to define what `this` is in the\n * `project` function.\n * @return A function that returns an Observable that emits the values from the\n * source Observable transformed by the given `project` function.\n */\nexport function map<T, R>(project: (value: T, index: number) => R, thisArg?: any): OperatorFunction<T, R> {\n  return operate((source, subscriber) => {\n    // The index of the value from the source. Used with projection.\n    let index = 0;\n    // Subscribe to the source, all errors and completions are sent along\n    // to the consumer.\n    source.subscribe(\n      createOperatorSubscriber(subscriber, (value: T) => {\n        // Call the projection function with the appropriate this context,\n        // and send the resulting value to the consumer.\n        subscriber.next(project.call(thisArg, value, index++));\n      })\n    );\n  });\n}\n", "import { OperatorFunction } from \"../types\";\nimport { map } from \"../operators/map\";\n\nconst { isArray } = Array;\n\nfunction callOrApply<T, R>(fn: ((...values: T[]) => R), args: T|T[]): R {\n    return isArray(args) ? fn(...args) : fn(args);\n}\n\n/**\n * Used in several -- mostly deprecated -- situations where we need to \n * apply a list of arguments or a single argument to a result selector.\n */\nexport function mapOneOrManyArgs<T, R>(fn: ((...values: T[]) => R)): OperatorFunction<T|T[], R> {\n    return map(args => callOrApply(fn, args))\n}", "const { isArray } = Array;\nconst { getPrototypeOf, prototype: objectProto, keys: getKeys } = Object;\n\n/**\n * Used in functions where either a list of arguments, a single array of arguments, or a\n * dictionary of arguments can be returned. Returns an object with an `args` property with\n * the arguments in an array, if it is a dictionary, it will also return the `keys` in another\n * property.\n */\nexport function argsArgArrayOrObject<T, O extends Record<string, T>>(args: T[] | [O] | [T[]]): { args: T[]; keys: string[] | null } {\n  if (args.length === 1) {\n    const first = args[0];\n    if (isArray(first)) {\n      return { args: first, keys: null };\n    }\n    if (isPOJO(first)) {\n      const keys = getKeys(first);\n      return {\n        args: keys.map((key) => first[key]),\n        keys,\n      };\n    }\n  }\n\n  return { args: args as T[], keys: null };\n}\n\nfunction isPOJO(obj: any): obj is object {\n  return obj && typeof obj === 'object' && getPrototypeOf(obj) === objectProto;\n}\n", "export function createObject(keys: string[], values: any[]) {\n  return keys.reduce((result, key, i) => ((result[key] = values[i]), result), {} as any);\n}\n", "import { Observable } from '../Observable';\nimport { ObservableInput, SchedulerLike, ObservedValueOf, ObservableInputTuple } from '../types';\nimport { argsArgArrayOrObject } from '../util/argsArgArrayOrObject';\nimport { Subscriber } from '../Subscriber';\nimport { from } from './from';\nimport { identity } from '../util/identity';\nimport { Subscription } from '../Subscription';\nimport { mapOneOrManyArgs } from '../util/mapOneOrManyArgs';\nimport { popResultSelector, popScheduler } from '../util/args';\nimport { createObject } from '../util/createObject';\nimport { createOperatorSubscriber } from '../operators/OperatorSubscriber';\nimport { AnyCatcher } from '../AnyCatcher';\nimport { executeSchedule } from '../util/executeSchedule';\n\n// combineLatest(any)\n// We put this first because we need to catch cases where the user has supplied\n// _exactly `any`_ as the argument. Since `any` literally matches _anything_,\n// we don't want it to randomly hit one of the other type signatures below,\n// as we have no idea at build-time what type we should be returning when given an any.\n\n/**\n * You have passed `any` here, we can't figure out if it is\n * an array or an object, so you're getting `unknown`. Use better types.\n * @param arg Something typed as `any`\n */\nexport function combineLatest<T extends AnyCatcher>(arg: T): Observable<unknown>;\n\n// combineLatest([a, b, c])\nexport function combineLatest(sources: []): Observable<never>;\nexport function combineLatest<A extends readonly unknown[]>(sources: readonly [...ObservableInputTuple<A>]): Observable<A>;\n/** @deprecated The `scheduler` parameter will be removed in v8. Use `scheduled` and `combineLatestAll`. Details: https://rxjs.dev/deprecations/scheduler-argument */\nexport function combineLatest<A extends readonly unknown[], R>(\n  sources: readonly [...ObservableInputTuple<A>],\n  resultSelector: (...values: A) => R,\n  scheduler: SchedulerLike\n): Observable<R>;\nexport function combineLatest<A extends readonly unknown[], R>(\n  sources: readonly [...ObservableInputTuple<A>],\n  resultSelector: (...values: A) => R\n): Observable<R>;\n/** @deprecated The `scheduler` parameter will be removed in v8. Use `scheduled` and `combineLatestAll`. Details: https://rxjs.dev/deprecations/scheduler-argument */\nexport function combineLatest<A extends readonly unknown[]>(\n  sources: readonly [...ObservableInputTuple<A>],\n  scheduler: SchedulerLike\n): Observable<A>;\n\n// combineLatest(a, b, c)\n/** @deprecated Pass an array of sources instead. The rest-parameters signature will be removed in v8. Details: https://rxjs.dev/deprecations/array-argument */\nexport function combineLatest<A extends readonly unknown[]>(...sources: [...ObservableInputTuple<A>]): Observable<A>;\n/** @deprecated The `scheduler` parameter will be removed in v8. Use `scheduled` and `combineLatestAll`. Details: https://rxjs.dev/deprecations/scheduler-argument */\nexport function combineLatest<A extends readonly unknown[], R>(\n  ...sourcesAndResultSelectorAndScheduler: [...ObservableInputTuple<A>, (...values: A) => R, SchedulerLike]\n): Observable<R>;\n/** @deprecated Pass an array of sources instead. The rest-parameters signature will be removed in v8. Details: https://rxjs.dev/deprecations/array-argument */\nexport function combineLatest<A extends readonly unknown[], R>(\n  ...sourcesAndResultSelector: [...ObservableInputTuple<A>, (...values: A) => R]\n): Observable<R>;\n/** @deprecated The `scheduler` parameter will be removed in v8. Use `scheduled` and `combineLatestAll`. Details: https://rxjs.dev/deprecations/scheduler-argument */\nexport function combineLatest<A extends readonly unknown[]>(\n  ...sourcesAndScheduler: [...ObservableInputTuple<A>, SchedulerLike]\n): Observable<A>;\n\n// combineLatest({a, b, c})\nexport function combineLatest(sourcesObject: { [K in any]: never }): Observable<never>;\nexport function combineLatest<T extends Record<string, ObservableInput<any>>>(\n  sourcesObject: T\n): Observable<{ [K in keyof T]: ObservedValueOf<T[K]> }>;\n\n/**\n * Combines multiple Observables to create an Observable whose values are\n * calculated from the latest values of each of its input Observables.\n *\n * <span class=\"informal\">Whenever any input Observable emits a value, it\n * computes a formula using the latest values from all the inputs, then emits\n * the output of that formula.</span>\n *\n * ![](combineLatest.png)\n *\n * `combineLatest` combines the values from all the Observables passed in the\n * observables array. This is done by subscribing to each Observable in order and,\n * whenever any Observable emits, collecting an array of the most recent\n * values from each Observable. So if you pass `n` Observables to this operator,\n * the returned Observable will always emit an array of `n` values, in an order\n * corresponding to the order of the passed Observables (the value from the first Observable\n * will be at index 0 of the array and so on).\n *\n * Static version of `combineLatest` accepts an array of Observables. Note that an array of\n * Observables is a good choice, if you don't know beforehand how many Observables\n * you will combine. Passing an empty array will result in an Observable that\n * completes immediately.\n *\n * To ensure the output array always has the same length, `combineLatest` will\n * actually wait for all input Observables to emit at least once,\n * before it starts emitting results. This means if some Observable emits\n * values before other Observables started emitting, all these values but the last\n * will be lost. On the other hand, if some Observable does not emit a value but\n * completes, resulting Observable will complete at the same moment without\n * emitting anything, since it will now be impossible to include a value from the\n * completed Observable in the resulting array. Also, if some input Observable does\n * not emit any value and never completes, `combineLatest` will also never emit\n * and never complete, since, again, it will wait for all streams to emit some\n * value.\n *\n * If at least one Observable was passed to `combineLatest` and all passed Observables\n * emitted something, the resulting Observable will complete when all combined\n * streams complete. So even if some Observable completes, the result of\n * `combineLatest` will still emit values when other Observables do. In case\n * of a completed Observable, its value from now on will always be the last\n * emitted value. On the other hand, if any Observable errors, `combineLatest`\n * will error immediately as well, and all other Observables will be unsubscribed.\n *\n * ## Examples\n *\n * Combine two timer Observables\n *\n * ```ts\n * import { timer, combineLatest } from 'rxjs';\n *\n * const firstTimer = timer(0, 1000); // emit 0, 1, 2... after every second, starting from now\n * const secondTimer = timer(500, 1000); // emit 0, 1, 2... after every second, starting 0,5s from now\n * const combinedTimers = combineLatest([firstTimer, secondTimer]);\n * combinedTimers.subscribe(value => console.log(value));\n * // Logs\n * // [0, 0] after 0.5s\n * // [1, 0] after 1s\n * // [1, 1] after 1.5s\n * // [2, 1] after 2s\n * ```\n *\n * Combine a dictionary of Observables\n *\n * ```ts\n * import { of, delay, startWith, combineLatest } from 'rxjs';\n *\n * const observables = {\n *   a: of(1).pipe(delay(1000), startWith(0)),\n *   b: of(5).pipe(delay(5000), startWith(0)),\n *   c: of(10).pipe(delay(10000), startWith(0))\n * };\n * const combined = combineLatest(observables);\n * combined.subscribe(value => console.log(value));\n * // Logs\n * // { a: 0, b: 0, c: 0 } immediately\n * // { a: 1, b: 0, c: 0 } after 1s\n * // { a: 1, b: 5, c: 0 } after 5s\n * // { a: 1, b: 5, c: 10 } after 10s\n * ```\n *\n * Combine an array of Observables\n *\n * ```ts\n * import { of, delay, startWith, combineLatest } from 'rxjs';\n *\n * const observables = [1, 5, 10].map(\n *   n => of(n).pipe(\n *     delay(n * 1000), // emit 0 and then emit n after n seconds\n *     startWith(0)\n *   )\n * );\n * const combined = combineLatest(observables);\n * combined.subscribe(value => console.log(value));\n * // Logs\n * // [0, 0, 0] immediately\n * // [1, 0, 0] after 1s\n * // [1, 5, 0] after 5s\n * // [1, 5, 10] after 10s\n * ```\n *\n * Use map operator to dynamically calculate the Body-Mass Index\n *\n * ```ts\n * import { of, combineLatest, map } from 'rxjs';\n *\n * const weight = of(70, 72, 76, 79, 75);\n * const height = of(1.76, 1.77, 1.78);\n * const bmi = combineLatest([weight, height]).pipe(\n *   map(([w, h]) => w / (h * h)),\n * );\n * bmi.subscribe(x => console.log('BMI is ' + x));\n *\n * // With output to console:\n * // BMI is 24.212293388429753\n * // BMI is 23.93948099205209\n * // BMI is 23.671253629592222\n * ```\n *\n * @see {@link combineLatestAll}\n * @see {@link merge}\n * @see {@link withLatestFrom}\n *\n * @param {ObservableInput} [observables] An array of input Observables to combine with each other.\n * An array of Observables must be given as the first argument.\n * @param {function} [project] An optional function to project the values from\n * the combined latest values into a new value on the output Observable.\n * @param {SchedulerLike} [scheduler=null] The {@link SchedulerLike} to use for subscribing to\n * each input Observable.\n * @return {Observable} An Observable of projected values from the most recent\n * values from each input Observable, or an array of the most recent values from\n * each input Observable.\n */\nexport function combineLatest<O extends ObservableInput<any>, R>(...args: any[]): Observable<R> | Observable<ObservedValueOf<O>[]> {\n  const scheduler = popScheduler(args);\n  const resultSelector = popResultSelector(args);\n\n  const { args: observables, keys } = argsArgArrayOrObject(args);\n\n  if (observables.length === 0) {\n    // If no observables are passed, or someone has passed an empty array\n    // of observables, or even an empty object POJO, we need to just\n    // complete (EMPTY), but we have to honor the scheduler provided if any.\n    return from([], scheduler as any);\n  }\n\n  const result = new Observable<ObservedValueOf<O>[]>(\n    combineLatestInit(\n      observables as ObservableInput<ObservedValueOf<O>>[],\n      scheduler,\n      keys\n        ? // A handler for scrubbing the array of args into a dictionary.\n          (values) => createObject(keys, values)\n        : // A passthrough to just return the array\n          identity\n    )\n  );\n\n  return resultSelector ? (result.pipe(mapOneOrManyArgs(resultSelector)) as Observable<R>) : result;\n}\n\nexport function combineLatestInit(\n  observables: ObservableInput<any>[],\n  scheduler?: SchedulerLike,\n  valueTransform: (values: any[]) => any = identity\n) {\n  return (subscriber: Subscriber<any>) => {\n    // The outer subscription. We're capturing this in a function\n    // because we may have to schedule it.\n    maybeSchedule(\n      scheduler,\n      () => {\n        const { length } = observables;\n        // A store for the values each observable has emitted so far. We match observable to value on index.\n        const values = new Array(length);\n        // The number of currently active subscriptions, as they complete, we decrement this number to see if\n        // we are all done combining values, so we can complete the result.\n        let active = length;\n        // The number of inner sources that still haven't emitted the first value\n        // We need to track this because all sources need to emit one value in order\n        // to start emitting values.\n        let remainingFirstValues = length;\n        // The loop to kick off subscription. We're keying everything on index `i` to relate the observables passed\n        // in to the slot in the output array or the key in the array of keys in the output dictionary.\n        for (let i = 0; i < length; i++) {\n          maybeSchedule(\n            scheduler,\n            () => {\n              const source = from(observables[i], scheduler as any);\n              let hasFirstValue = false;\n              source.subscribe(\n                createOperatorSubscriber(\n                  subscriber,\n                  (value) => {\n                    // When we get a value, record it in our set of values.\n                    values[i] = value;\n                    if (!hasFirstValue) {\n                      // If this is our first value, record that.\n                      hasFirstValue = true;\n                      remainingFirstValues--;\n                    }\n                    if (!remainingFirstValues) {\n                      // We're not waiting for any more\n                      // first values, so we can emit!\n                      subscriber.next(valueTransform(values.slice()));\n                    }\n                  },\n                  () => {\n                    if (!--active) {\n                      // We only complete the result if we have no more active\n                      // inner observables.\n                      subscriber.complete();\n                    }\n                  }\n                )\n              );\n            },\n            subscriber\n          );\n        }\n      },\n      subscriber\n    );\n  };\n}\n\n/**\n * A small utility to handle the couple of locations where we want to schedule if a scheduler was provided,\n * but we don't if there was no scheduler.\n */\nfunction maybeSchedule(scheduler: SchedulerLike | undefined, execute: () => void, subscription: Subscription) {\n  if (scheduler) {\n    executeSchedule(subscription, scheduler, execute);\n  } else {\n    execute();\n  }\n}\n", "import { Observable } from '../Observable';\nimport { innerFrom } from '../observable/innerFrom';\nimport { Subscriber } from '../Subscriber';\nimport { ObservableInput, SchedulerLike } from '../types';\nimport { executeSchedule } from '../util/executeSchedule';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\n\n/**\n * A process embodying the general \"merge\" strategy. This is used in\n * `mergeMap` and `mergeScan` because the logic is otherwise nearly identical.\n * @param source The original source observable\n * @param subscriber The consumer subscriber\n * @param project The projection function to get our inner sources\n * @param concurrent The number of concurrent inner subscriptions\n * @param onBeforeNext Additional logic to apply before nexting to our consumer\n * @param expand If `true` this will perform an \"expand\" strategy, which differs only\n * in that it recurses, and the inner subscription must be schedule-able.\n * @param innerSubScheduler A scheduler to use to schedule inner subscriptions,\n * this is to support the expand strategy, mostly, and should be deprecated\n */\nexport function mergeInternals<T, R>(\n  source: Observable<T>,\n  subscriber: Subscriber<R>,\n  project: (value: T, index: number) => ObservableInput<R>,\n  concurrent: number,\n  onBeforeNext?: (innerValue: R) => void,\n  expand?: boolean,\n  innerSubScheduler?: SchedulerLike,\n  additionalFinalizer?: () => void\n) {\n  // Buffered values, in the event of going over our concurrency limit\n  const buffer: T[] = [];\n  // The number of active inner subscriptions.\n  let active = 0;\n  // An index to pass to our accumulator function\n  let index = 0;\n  // Whether or not the outer source has completed.\n  let isComplete = false;\n\n  /**\n   * Checks to see if we can complete our result or not.\n   */\n  const checkComplete = () => {\n    // If the outer has completed, and nothing is left in the buffer,\n    // and we don't have any active inner subscriptions, then we can\n    // Emit the state and complete.\n    if (isComplete && !buffer.length && !active) {\n      subscriber.complete();\n    }\n  };\n\n  // If we're under our concurrency limit, just start the inner subscription, otherwise buffer and wait.\n  const outerNext = (value: T) => (active < concurrent ? doInnerSub(value) : buffer.push(value));\n\n  const doInnerSub = (value: T) => {\n    // If we're expanding, we need to emit the outer values and the inner values\n    // as the inners will \"become outers\" in a way as they are recursively fed\n    // back to the projection mechanism.\n    expand && subscriber.next(value as any);\n\n    // Increment the number of active subscriptions so we can track it\n    // against our concurrency limit later.\n    active++;\n\n    // A flag used to show that the inner observable completed.\n    // This is checked during finalization to see if we should\n    // move to the next item in the buffer, if there is on.\n    let innerComplete = false;\n\n    // Start our inner subscription.\n    innerFrom(project(value, index++)).subscribe(\n      createOperatorSubscriber(\n        subscriber,\n        (innerValue) => {\n          // `mergeScan` has additional handling here. For example\n          // taking the inner value and updating state.\n          onBeforeNext?.(innerValue);\n\n          if (expand) {\n            // If we're expanding, then just recurse back to our outer\n            // handler. It will emit the value first thing.\n            outerNext(innerValue as any);\n          } else {\n            // Otherwise, emit the inner value.\n            subscriber.next(innerValue);\n          }\n        },\n        () => {\n          // Flag that we have completed, so we know to check the buffer\n          // during finalization.\n          innerComplete = true;\n        },\n        // Errors are passed to the destination.\n        undefined,\n        () => {\n          // During finalization, if the inner completed (it wasn't errored or\n          // cancelled), then we want to try the next item in the buffer if\n          // there is one.\n          if (innerComplete) {\n            // We have to wrap this in a try/catch because it happens during\n            // finalization, possibly asynchronously, and we want to pass\n            // any errors that happen (like in a projection function) to\n            // the outer Subscriber.\n            try {\n              // INNER SOURCE COMPLETE\n              // Decrement the active count to ensure that the next time\n              // we try to call `doInnerSub`, the number is accurate.\n              active--;\n              // If we have more values in the buffer, try to process those\n              // Note that this call will increment `active` ahead of the\n              // next conditional, if there were any more inner subscriptions\n              // to start.\n              while (buffer.length && active < concurrent) {\n                const bufferedValue = buffer.shift()!;\n                // Particularly for `expand`, we need to check to see if a scheduler was provided\n                // for when we want to start our inner subscription. Otherwise, we just start\n                // are next inner subscription.\n                if (innerSubScheduler) {\n                  executeSchedule(subscriber, innerSubScheduler, () => doInnerSub(bufferedValue));\n                } else {\n                  doInnerSub(bufferedValue);\n                }\n              }\n              // Check to see if we can complete, and complete if so.\n              checkComplete();\n            } catch (err) {\n              subscriber.error(err);\n            }\n          }\n        }\n      )\n    );\n  };\n\n  // Subscribe to our source observable.\n  source.subscribe(\n    createOperatorSubscriber(subscriber, outerNext, () => {\n      // Outer completed, make a note of it, and check to see if we can complete everything.\n      isComplete = true;\n      checkComplete();\n    })\n  );\n\n  // Additional finalization (for when the destination is torn down).\n  // Other finalization is added implicitly via subscription above.\n  return () => {\n    additionalFinalizer?.();\n  };\n}\n", "import { ObservableInput, OperatorFunction, ObservedValueOf } from '../types';\nimport { map } from './map';\nimport { innerFrom } from '../observable/innerFrom';\nimport { operate } from '../util/lift';\nimport { mergeInternals } from './mergeInternals';\nimport { isFunction } from '../util/isFunction';\n\n/* tslint:disable:max-line-length */\nexport function mergeMap<T, O extends ObservableInput<any>>(\n  project: (value: T, index: number) => O,\n  concurrent?: number\n): OperatorFunction<T, ObservedValueOf<O>>;\n/** @deprecated The `resultSelector` parameter will be removed in v8. Use an inner `map` instead. Details: https://rxjs.dev/deprecations/resultSelector */\nexport function mergeMap<T, O extends ObservableInput<any>>(\n  project: (value: T, index: number) => O,\n  resultSelector: undefined,\n  concurrent?: number\n): OperatorFunction<T, ObservedValueOf<O>>;\n/** @deprecated The `resultSelector` parameter will be removed in v8. Use an inner `map` instead. Details: https://rxjs.dev/deprecations/resultSelector */\nexport function mergeMap<T, R, O extends ObservableInput<any>>(\n  project: (value: T, index: number) => O,\n  resultSelector: (outerValue: T, innerValue: ObservedValueOf<O>, outerIndex: number, innerIndex: number) => R,\n  concurrent?: number\n): OperatorFunction<T, R>;\n/* tslint:enable:max-line-length */\n\n/**\n * Projects each source value to an Observable which is merged in the output\n * Observable.\n *\n * <span class=\"informal\">Maps each value to an Observable, then flattens all of\n * these inner Observables using {@link mergeAll}.</span>\n *\n * ![](mergeMap.png)\n *\n * Returns an Observable that emits items based on applying a function that you\n * supply to each item emitted by the source Observable, where that function\n * returns an Observable, and then merging those resulting Observables and\n * emitting the results of this merger.\n *\n * ## Example\n *\n * Map and flatten each letter to an Observable ticking every 1 second\n *\n * ```ts\n * import { of, mergeMap, interval, map } from 'rxjs';\n *\n * const letters = of('a', 'b', 'c');\n * const result = letters.pipe(\n *   mergeMap(x => interval(1000).pipe(map(i => x + i)))\n * );\n *\n * result.subscribe(x => console.log(x));\n *\n * // Results in the following:\n * // a0\n * // b0\n * // c0\n * // a1\n * // b1\n * // c1\n * // continues to list a, b, c every second with respective ascending integers\n * ```\n *\n * @see {@link concatMap}\n * @see {@link exhaustMap}\n * @see {@link merge}\n * @see {@link mergeAll}\n * @see {@link mergeMapTo}\n * @see {@link mergeScan}\n * @see {@link switchMap}\n *\n * @param {function(value: T, ?index: number): ObservableInput} project A function\n * that, when applied to an item emitted by the source Observable, returns an\n * Observable.\n * @param {number} [concurrent=Infinity] Maximum number of input\n * Observables being subscribed to concurrently.\n * @return A function that returns an Observable that emits the result of\n * applying the projection function (and the optional deprecated\n * `resultSelector`) to each item emitted by the source Observable and merging\n * the results of the Observables obtained from this transformation.\n */\nexport function mergeMap<T, R, O extends ObservableInput<any>>(\n  project: (value: T, index: number) => O,\n  resultSelector?: ((outerValue: T, innerValue: ObservedValueOf<O>, outerIndex: number, innerIndex: number) => R) | number,\n  concurrent: number = Infinity\n): OperatorFunction<T, ObservedValueOf<O> | R> {\n  if (isFunction(resultSelector)) {\n    // DEPRECATED PATH\n    return mergeMap((a, i) => map((b: any, ii: number) => resultSelector(a, b, i, ii))(innerFrom(project(a, i))), concurrent);\n  } else if (typeof resultSelector === 'number') {\n    concurrent = resultSelector;\n  }\n\n  return operate((source, subscriber) => mergeInternals(source, subscriber, project, concurrent));\n}\n", "import { mergeMap } from './mergeMap';\nimport { identity } from '../util/identity';\nimport { OperatorFunction, ObservableInput, ObservedValueOf } from '../types';\n\n/**\n * Converts a higher-order Observable into a first-order Observable which\n * concurrently delivers all values that are emitted on the inner Observables.\n *\n * <span class=\"informal\">Flattens an Observable-of-Observables.</span>\n *\n * ![](mergeAll.png)\n *\n * `mergeAll` subscribes to an Observable that emits Observables, also known as\n * a higher-order Observable. Each time it observes one of these emitted inner\n * Observables, it subscribes to that and delivers all the values from the\n * inner Observable on the output Observable. The output Observable only\n * completes once all inner Observables have completed. Any error delivered by\n * a inner Observable will be immediately emitted on the output Observable.\n *\n * ## Examples\n *\n * Spawn a new interval Observable for each click event, and blend their outputs as one Observable\n *\n * ```ts\n * import { fromEvent, map, interval, mergeAll } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const higherOrder = clicks.pipe(map(() => interval(1000)));\n * const firstOrder = higherOrder.pipe(mergeAll());\n *\n * firstOrder.subscribe(x => console.log(x));\n * ```\n *\n * Count from 0 to 9 every second for each click, but only allow 2 concurrent timers\n *\n * ```ts\n * import { fromEvent, map, interval, take, mergeAll } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const higherOrder = clicks.pipe(\n *   map(() => interval(1000).pipe(take(10)))\n * );\n * const firstOrder = higherOrder.pipe(mergeAll(2));\n *\n * firstOrder.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link combineLatestAll}\n * @see {@link concatAll}\n * @see {@link exhaustAll}\n * @see {@link merge}\n * @see {@link mergeMap}\n * @see {@link mergeMapTo}\n * @see {@link mergeScan}\n * @see {@link switchAll}\n * @see {@link switchMap}\n * @see {@link zipAll}\n *\n * @param {number} [concurrent=Infinity] Maximum number of inner\n * Observables being subscribed to concurrently.\n * @return A function that returns an Observable that emits values coming from\n * all the inner Observables emitted by the source Observable.\n */\nexport function mergeAll<O extends ObservableInput<any>>(concurrent: number = Infinity): OperatorFunction<O, ObservedValueOf<O>> {\n  return mergeMap(identity, concurrent);\n}\n", "import { mergeAll } from './mergeAll';\nimport { OperatorFunction, ObservableInput, ObservedValueOf } from '../types';\n\n/**\n * Converts a higher-order Observable into a first-order Observable by\n * concatenating the inner Observables in order.\n *\n * <span class=\"informal\">Flattens an Observable-of-Observables by putting one\n * inner Observable after the other.</span>\n *\n * ![](concatAll.svg)\n *\n * Joins every Observable emitted by the source (a higher-order Observable), in\n * a serial fashion. It subscribes to each inner Observable only after the\n * previous inner Observable has completed, and merges all of their values into\n * the returned observable.\n *\n * __Warning:__ If the source Observable emits Observables quickly and\n * endlessly, and the inner Observables it emits generally complete slower than\n * the source emits, you can run into memory issues as the incoming Observables\n * collect in an unbounded buffer.\n *\n * Note: `concatAll` is equivalent to `mergeAll` with concurrency parameter set\n * to `1`.\n *\n * ## Example\n *\n * For each click event, tick every second from 0 to 3, with no concurrency\n *\n * ```ts\n * import { fromEvent, map, interval, take, concatAll } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const higherOrder = clicks.pipe(\n *   map(() => interval(1000).pipe(take(4)))\n * );\n * const firstOrder = higherOrder.pipe(concatAll());\n * firstOrder.subscribe(x => console.log(x));\n *\n * // Results in the following:\n * // (results are not concurrent)\n * // For every click on the \"document\" it will emit values 0 to 3 spaced\n * // on a 1000ms interval\n * // one click = 1000ms-> 0 -1000ms-> 1 -1000ms-> 2 -1000ms-> 3\n * ```\n *\n * @see {@link combineLatestAll}\n * @see {@link concat}\n * @see {@link concatMap}\n * @see {@link concatMapTo}\n * @see {@link exhaustAll}\n * @see {@link mergeAll}\n * @see {@link switchAll}\n * @see {@link switchMap}\n * @see {@link zipAll}\n *\n * @return A function that returns an Observable emitting values from all the\n * inner Observables concatenated.\n */\nexport function concatAll<O extends ObservableInput<any>>(): OperatorFunction<O, ObservedValueOf<O>> {\n  return mergeAll(1);\n}\n", "import { Observable } from '../Observable';\nimport { ObservableInputTuple, SchedulerLike } from '../types';\nimport { concatAll } from '../operators/concatAll';\nimport { popScheduler } from '../util/args';\nimport { from } from './from';\n\nexport function concat<T extends readonly unknown[]>(...inputs: [...ObservableInputTuple<T>]): Observable<T[number]>;\nexport function concat<T extends readonly unknown[]>(\n  ...inputsAndScheduler: [...ObservableInputTuple<T>, SchedulerLike]\n): Observable<T[number]>;\n\n/**\n * Creates an output Observable which sequentially emits all values from the first given\n * Observable and then moves on to the next.\n *\n * <span class=\"informal\">Concatenates multiple Observables together by\n * sequentially emitting their values, one Observable after the other.</span>\n *\n * ![](concat.png)\n *\n * `concat` joins multiple Observables together, by subscribing to them one at a time and\n * merging their results into the output Observable. You can pass either an array of\n * Observables, or put them directly as arguments. Passing an empty array will result\n * in Observable that completes immediately.\n *\n * `concat` will subscribe to first input Observable and emit all its values, without\n * changing or affecting them in any way. When that Observable completes, it will\n * subscribe to then next Observable passed and, again, emit its values. This will be\n * repeated, until the operator runs out of Observables. When last input Observable completes,\n * `concat` will complete as well. At any given moment only one Observable passed to operator\n * emits values. If you would like to emit values from passed Observables concurrently, check out\n * {@link merge} instead, especially with optional `concurrent` parameter. As a matter of fact,\n * `concat` is an equivalent of `merge` operator with `concurrent` parameter set to `1`.\n *\n * Note that if some input Observable never completes, `concat` will also never complete\n * and Observables following the one that did not complete will never be subscribed. On the other\n * hand, if some Observable simply completes immediately after it is subscribed, it will be\n * invisible for `concat`, which will just move on to the next Observable.\n *\n * If any Observable in chain errors, instead of passing control to the next Observable,\n * `concat` will error immediately as well. Observables that would be subscribed after\n * the one that emitted error, never will.\n *\n * If you pass to `concat` the same Observable many times, its stream of values\n * will be \"replayed\" on every subscription, which means you can repeat given Observable\n * as many times as you like. If passing the same Observable to `concat` 1000 times becomes tedious,\n * you can always use {@link repeat}.\n *\n * ## Examples\n *\n * Concatenate a timer counting from 0 to 3 with a synchronous sequence from 1 to 10\n *\n * ```ts\n * import { interval, take, range, concat } from 'rxjs';\n *\n * const timer = interval(1000).pipe(take(4));\n * const sequence = range(1, 10);\n * const result = concat(timer, sequence);\n * result.subscribe(x => console.log(x));\n *\n * // results in:\n * // 0 -1000ms-> 1 -1000ms-> 2 -1000ms-> 3 -immediate-> 1 ... 10\n * ```\n *\n * Concatenate 3 Observables\n *\n * ```ts\n * import { interval, take, concat } from 'rxjs';\n *\n * const timer1 = interval(1000).pipe(take(10));\n * const timer2 = interval(2000).pipe(take(6));\n * const timer3 = interval(500).pipe(take(10));\n *\n * const result = concat(timer1, timer2, timer3);\n * result.subscribe(x => console.log(x));\n *\n * // results in the following:\n * // (Prints to console sequentially)\n * // -1000ms-> 0 -1000ms-> 1 -1000ms-> ... 9\n * // -2000ms-> 0 -2000ms-> 1 -2000ms-> ... 5\n * // -500ms-> 0 -500ms-> 1 -500ms-> ... 9\n * ```\n *\n * Concatenate the same Observable to repeat it\n *\n * ```ts\n * import { interval, take, concat } from 'rxjs';\n *\n * const timer = interval(1000).pipe(take(2));\n *\n * concat(timer, timer) // concatenating the same Observable!\n *   .subscribe({\n *     next: value => console.log(value),\n *     complete: () => console.log('...and it is done!')\n *   });\n *\n * // Logs:\n * // 0 after 1s\n * // 1 after 2s\n * // 0 after 3s\n * // 1 after 4s\n * // '...and it is done!' also after 4s\n * ```\n *\n * @see {@link concatAll}\n * @see {@link concatMap}\n * @see {@link concatMapTo}\n * @see {@link startWith}\n * @see {@link endWith}\n *\n * @param args Input Observables to concatenate.\n */\nexport function concat(...args: any[]): Observable<unknown> {\n  return concatAll()(from(args, popScheduler(args)));\n}\n", "import { Observable } from '../Observable';\nimport { ObservedValueOf, ObservableInput } from '../types';\nimport { innerFrom } from './innerFrom';\n\n/**\n * Creates an Observable that, on subscribe, calls an Observable factory to\n * make an Observable for each new Observer.\n *\n * <span class=\"informal\">Creates the Observable lazily, that is, only when it\n * is subscribed.\n * </span>\n *\n * ![](defer.png)\n *\n * `defer` allows you to create an Observable only when the Observer\n * subscribes. It waits until an Observer subscribes to it, calls the given\n * factory function to get an Observable -- where a factory function typically\n * generates a new Observable -- and subscribes the Observer to this Observable.\n * In case the factory function returns a falsy value, then EMPTY is used as\n * Observable instead. Last but not least, an exception during the factory\n * function call is transferred to the Observer by calling `error`.\n *\n * ## Example\n *\n * Subscribe to either an Observable of clicks or an Observable of interval, at random\n *\n * ```ts\n * import { defer, fromEvent, interval } from 'rxjs';\n *\n * const clicksOrInterval = defer(() => {\n *   return Math.random() > 0.5\n *     ? fromEvent(document, 'click')\n *     : interval(1000);\n * });\n * clicksOrInterval.subscribe(x => console.log(x));\n *\n * // Results in the following behavior:\n * // If the result of Math.random() is greater than 0.5 it will listen\n * // for clicks anywhere on the \"document\"; when document is clicked it\n * // will log a MouseEvent object to the console. If the result is less\n * // than 0.5 it will emit ascending numbers, one every second(1000ms).\n * ```\n *\n * @see {@link Observable}\n *\n * @param {function(): ObservableInput} observableFactory The Observable\n * factory function to invoke for each Observer that subscribes to the output\n * Observable. May also return a Promise, which will be converted on the fly\n * to an Observable.\n * @return {Observable} An Observable whose Observers' subscriptions trigger\n * an invocation of the given Observable factory function.\n */\nexport function defer<R extends ObservableInput<any>>(observableFactory: () => R): Observable<ObservedValueOf<R>> {\n  return new Observable<ObservedValueOf<R>>((subscriber) => {\n    innerFrom(observableFactory()).subscribe(subscriber);\n  });\n}\n", "import { innerFrom } from '../observable/innerFrom';\nimport { Observable } from '../Observable';\nimport { mergeMap } from '../operators/mergeMap';\nimport { isArrayLike } from '../util/isArrayLike';\nimport { isFunction } from '../util/isFunction';\nimport { mapOneOrManyArgs } from '../util/mapOneOrManyArgs';\n\n// These constants are used to create handler registry functions using array mapping below.\nconst nodeEventEmitterMethods = ['addListener', 'removeListener'] as const;\nconst eventTargetMethods = ['addEventListener', 'removeEventListener'] as const;\nconst jqueryMethods = ['on', 'off'] as const;\n\nexport interface NodeStyleEventEmitter {\n  addListener(eventName: string | symbol, handler: NodeEventHandler): this;\n  removeListener(eventName: string | symbol, handler: NodeEventHandler): this;\n}\n\nexport type NodeEventHandler = (...args: any[]) => void;\n\n// For APIs that implement `addListener` and `removeListener` methods that may\n// not use the same arguments or return EventEmitter values\n// such as React Native\nexport interface NodeCompatibleEventEmitter {\n  addListener(eventName: string, handler: NodeEventHandler): void | {};\n  removeListener(eventName: string, handler: NodeEventHandler): void | {};\n}\n\n// Use handler types like those in @types/jquery. See:\n// https://github.com/DefinitelyTyped/DefinitelyTyped/blob/847731ba1d7fa6db6b911c0e43aa0afe596e7723/types/jquery/misc.d.ts#L6395\nexport interface JQueryStyleEventEmitter<TContext, T> {\n  on(eventName: string, handler: (this: TContext, t: T, ...args: any[]) => any): void;\n  off(eventName: string, handler: (this: TContext, t: T, ...args: any[]) => any): void;\n}\n\nexport interface EventListenerObject<E> {\n  handleEvent(evt: E): void;\n}\n\nexport interface HasEventTargetAddRemove<E> {\n  addEventListener(\n    type: string,\n    listener: ((evt: E) => void) | EventListenerObject<E> | null,\n    options?: boolean | AddEventListenerOptions\n  ): void;\n  removeEventListener(\n    type: string,\n    listener: ((evt: E) => void) | EventListenerObject<E> | null,\n    options?: EventListenerOptions | boolean\n  ): void;\n}\n\nexport interface EventListenerOptions {\n  capture?: boolean;\n  passive?: boolean;\n  once?: boolean;\n}\n\nexport interface AddEventListenerOptions extends EventListenerOptions {\n  once?: boolean;\n  passive?: boolean;\n}\n\nexport function fromEvent<T>(target: HasEventTargetAddRemove<T> | ArrayLike<HasEventTargetAddRemove<T>>, eventName: string): Observable<T>;\nexport function fromEvent<T, R>(\n  target: HasEventTargetAddRemove<T> | ArrayLike<HasEventTargetAddRemove<T>>,\n  eventName: string,\n  resultSelector: (event: T) => R\n): Observable<R>;\nexport function fromEvent<T>(\n  target: HasEventTargetAddRemove<T> | ArrayLike<HasEventTargetAddRemove<T>>,\n  eventName: string,\n  options: EventListenerOptions\n): Observable<T>;\nexport function fromEvent<T, R>(\n  target: HasEventTargetAddRemove<T> | ArrayLike<HasEventTargetAddRemove<T>>,\n  eventName: string,\n  options: EventListenerOptions,\n  resultSelector: (event: T) => R\n): Observable<R>;\n\nexport function fromEvent(target: NodeStyleEventEmitter | ArrayLike<NodeStyleEventEmitter>, eventName: string): Observable<unknown>;\n/** @deprecated Do not specify explicit type parameters. Signatures with type parameters that cannot be inferred will be removed in v8. */\nexport function fromEvent<T>(target: NodeStyleEventEmitter | ArrayLike<NodeStyleEventEmitter>, eventName: string): Observable<T>;\nexport function fromEvent<R>(\n  target: NodeStyleEventEmitter | ArrayLike<NodeStyleEventEmitter>,\n  eventName: string,\n  resultSelector: (...args: any[]) => R\n): Observable<R>;\n\nexport function fromEvent(\n  target: NodeCompatibleEventEmitter | ArrayLike<NodeCompatibleEventEmitter>,\n  eventName: string\n): Observable<unknown>;\n/** @deprecated Do not specify explicit type parameters. Signatures with type parameters that cannot be inferred will be removed in v8. */\nexport function fromEvent<T>(target: NodeCompatibleEventEmitter | ArrayLike<NodeCompatibleEventEmitter>, eventName: string): Observable<T>;\nexport function fromEvent<R>(\n  target: NodeCompatibleEventEmitter | ArrayLike<NodeCompatibleEventEmitter>,\n  eventName: string,\n  resultSelector: (...args: any[]) => R\n): Observable<R>;\n\nexport function fromEvent<T>(\n  target: JQueryStyleEventEmitter<any, T> | ArrayLike<JQueryStyleEventEmitter<any, T>>,\n  eventName: string\n): Observable<T>;\nexport function fromEvent<T, R>(\n  target: JQueryStyleEventEmitter<any, T> | ArrayLike<JQueryStyleEventEmitter<any, T>>,\n  eventName: string,\n  resultSelector: (value: T, ...args: any[]) => R\n): Observable<R>;\n\n/**\n * Creates an Observable that emits events of a specific type coming from the\n * given event target.\n *\n * <span class=\"informal\">Creates an Observable from DOM events, or Node.js\n * EventEmitter events or others.</span>\n *\n * ![](fromEvent.png)\n *\n * `fromEvent` accepts as a first argument event target, which is an object with methods\n * for registering event handler functions. As a second argument it takes string that indicates\n * type of event we want to listen for. `fromEvent` supports selected types of event targets,\n * which are described in detail below. If your event target does not match any of the ones listed,\n * you should use {@link fromEventPattern}, which can be used on arbitrary APIs.\n * When it comes to APIs supported by `fromEvent`, their methods for adding and removing event\n * handler functions have different names, but they all accept a string describing event type\n * and function itself, which will be called whenever said event happens.\n *\n * Every time resulting Observable is subscribed, event handler function will be registered\n * to event target on given event type. When that event fires, value\n * passed as a first argument to registered function will be emitted by output Observable.\n * When Observable is unsubscribed, function will be unregistered from event target.\n *\n * Note that if event target calls registered function with more than one argument, second\n * and following arguments will not appear in resulting stream. In order to get access to them,\n * you can pass to `fromEvent` optional project function, which will be called with all arguments\n * passed to event handler. Output Observable will then emit value returned by project function,\n * instead of the usual value.\n *\n * Remember that event targets listed below are checked via duck typing. It means that\n * no matter what kind of object you have and no matter what environment you work in,\n * you can safely use `fromEvent` on that object if it exposes described methods (provided\n * of course they behave as was described above). So for example if Node.js library exposes\n * event target which has the same method names as DOM EventTarget, `fromEvent` is still\n * a good choice.\n *\n * If the API you use is more callback then event handler oriented (subscribed\n * callback function fires only once and thus there is no need to manually\n * unregister it), you should use {@link bindCallback} or {@link bindNodeCallback}\n * instead.\n *\n * `fromEvent` supports following types of event targets:\n *\n * **DOM EventTarget**\n *\n * This is an object with `addEventListener` and `removeEventListener` methods.\n *\n * In the browser, `addEventListener` accepts - apart from event type string and event\n * handler function arguments - optional third parameter, which is either an object or boolean,\n * both used for additional configuration how and when passed function will be called. When\n * `fromEvent` is used with event target of that type, you can provide this values\n * as third parameter as well.\n *\n * **Node.js EventEmitter**\n *\n * An object with `addListener` and `removeListener` methods.\n *\n * **JQuery-style event target**\n *\n * An object with `on` and `off` methods\n *\n * **DOM NodeList**\n *\n * List of DOM Nodes, returned for example by `document.querySelectorAll` or `Node.childNodes`.\n *\n * Although this collection is not event target in itself, `fromEvent` will iterate over all Nodes\n * it contains and install event handler function in every of them. When returned Observable\n * is unsubscribed, function will be removed from all Nodes.\n *\n * **DOM HtmlCollection**\n *\n * Just as in case of NodeList it is a collection of DOM nodes. Here as well event handler function is\n * installed and removed in each of elements.\n *\n *\n * ## Examples\n *\n * Emit clicks happening on the DOM document\n *\n * ```ts\n * import { fromEvent } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * clicks.subscribe(x => console.log(x));\n *\n * // Results in:\n * // MouseEvent object logged to console every time a click\n * // occurs on the document.\n * ```\n *\n * Use `addEventListener` with capture option\n *\n * ```ts\n * import { fromEvent } from 'rxjs';\n *\n * const div = document.createElement('div');\n * div.style.cssText = 'width: 200px; height: 200px; background: #09c;';\n * document.body.appendChild(div);\n *\n * // note optional configuration parameter which will be passed to addEventListener\n * const clicksInDocument = fromEvent(document, 'click', { capture: true });\n * const clicksInDiv = fromEvent(div, 'click');\n *\n * clicksInDocument.subscribe(() => console.log('document'));\n * clicksInDiv.subscribe(() => console.log('div'));\n *\n * // By default events bubble UP in DOM tree, so normally\n * // when we would click on div in document\n * // \"div\" would be logged first and then \"document\".\n * // Since we specified optional `capture` option, document\n * // will catch event when it goes DOWN DOM tree, so console\n * // will log \"document\" and then \"div\".\n * ```\n *\n * @see {@link bindCallback}\n * @see {@link bindNodeCallback}\n * @see {@link fromEventPattern}\n *\n * @param {FromEventTarget<T>} target The DOM EventTarget, Node.js\n * EventEmitter, JQuery-like event target, NodeList or HTMLCollection to attach the event handler to.\n * @param {string} eventName The event name of interest, being emitted by the\n * `target`.\n * @param {EventListenerOptions} [options] Options to pass through to addEventListener\n * @return {Observable<T>}\n */\nexport function fromEvent<T>(\n  target: any,\n  eventName: string,\n  options?: EventListenerOptions | ((...args: any[]) => T),\n  resultSelector?: (...args: any[]) => T\n): Observable<T> {\n  if (isFunction(options)) {\n    resultSelector = options;\n    options = undefined;\n  }\n  if (resultSelector) {\n    return fromEvent<T>(target, eventName, options as EventListenerOptions).pipe(mapOneOrManyArgs(resultSelector));\n  }\n\n  // Figure out our add and remove methods. In order to do this,\n  // we are going to analyze the target in a preferred order, if\n  // the target matches a given signature, we take the two \"add\" and \"remove\"\n  // method names and apply them to a map to create opposite versions of the\n  // same function. This is because they all operate in duplicate pairs,\n  // `addListener(name, handler)`, `removeListener(name, handler)`, for example.\n  // The call only differs by method name, as to whether or not you're adding or removing.\n  const [add, remove] =\n    // If it is an EventTarget, we need to use a slightly different method than the other two patterns.\n    isEventTarget(target)\n      ? eventTargetMethods.map((methodName) => (handler: any) => target[methodName](eventName, handler, options as EventListenerOptions))\n      : // In all other cases, the call pattern is identical with the exception of the method names.\n      isNodeStyleEventEmitter(target)\n      ? nodeEventEmitterMethods.map(toCommonHandlerRegistry(target, eventName))\n      : isJQueryStyleEventEmitter(target)\n      ? jqueryMethods.map(toCommonHandlerRegistry(target, eventName))\n      : [];\n\n  // If add is falsy, it's because we didn't match a pattern above.\n  // Check to see if it is an ArrayLike, because if it is, we want to\n  // try to apply fromEvent to all of it's items. We do this check last,\n  // because there are may be some types that are both ArrayLike *and* implement\n  // event registry points, and we'd rather delegate to that when possible.\n  if (!add) {\n    if (isArrayLike(target)) {\n      return mergeMap((subTarget: any) => fromEvent(subTarget, eventName, options as EventListenerOptions))(\n        innerFrom(target)\n      ) as Observable<T>;\n    }\n  }\n\n  // If add is falsy and we made it here, it's because we didn't\n  // match any valid target objects above.\n  if (!add) {\n    throw new TypeError('Invalid event target');\n  }\n\n  return new Observable<T>((subscriber) => {\n    // The handler we are going to register. Forwards the event object, by itself, or\n    // an array of arguments to the event handler, if there is more than one argument,\n    // to the consumer.\n    const handler = (...args: any[]) => subscriber.next(1 < args.length ? args : args[0]);\n    // Do the work of adding the handler to the target.\n    add(handler);\n    // When we finalize, we want to remove the handler and free up memory.\n    return () => remove!(handler);\n  });\n}\n\n/**\n * Used to create `add` and `remove` functions to register and unregister event handlers\n * from a target in the most common handler pattern, where there are only two arguments.\n * (e.g.  `on(name, fn)`, `off(name, fn)`, `addListener(name, fn)`, or `removeListener(name, fn)`)\n * @param target The target we're calling methods on\n * @param eventName The event name for the event we're creating register or unregister functions for\n */\nfunction toCommonHandlerRegistry(target: any, eventName: string) {\n  return (methodName: string) => (handler: any) => target[methodName](eventName, handler);\n}\n\n/**\n * Checks to see if the target implements the required node-style EventEmitter methods\n * for adding and removing event handlers.\n * @param target the object to check\n */\nfunction isNodeStyleEventEmitter(target: any): target is NodeStyleEventEmitter {\n  return isFunction(target.addListener) && isFunction(target.removeListener);\n}\n\n/**\n * Checks to see if the target implements the required jQuery-style EventEmitter methods\n * for adding and removing event handlers.\n * @param target the object to check\n */\nfunction isJQueryStyleEventEmitter(target: any): target is JQueryStyleEventEmitter<any, any> {\n  return isFunction(target.on) && isFunction(target.off);\n}\n\n/**\n * Checks to see if the target implements the required EventTarget methods\n * for adding and removing event handlers.\n * @param target the object to check\n */\nfunction isEventTarget(target: any): target is HasEventTargetAddRemove<any> {\n  return isFunction(target.addEventListener) && isFunction(target.removeEventListener);\n}\n", "import { Observable } from '../Observable';\nimport { isFunction } from '../util/isFunction';\nimport { NodeEventHandler } from './fromEvent';\nimport { mapOneOrManyArgs } from '../util/mapOneOrManyArgs';\n\n/* tslint:disable:max-line-length */\nexport function fromEventPattern<T>(\n  addHandler: (handler: NodeEventHandler) => any,\n  removeHandler?: (handler: NodeEventHandler, signal?: any) => void\n): Observable<T>;\nexport function fromEventPattern<T>(\n  addHandler: (handler: NodeEventHandler) => any,\n  removeHandler?: (handler: NodeEventHandler, signal?: any) => void,\n  resultSelector?: (...args: any[]) => T\n): Observable<T>;\n/* tslint:enable:max-line-length */\n\n/**\n * Creates an Observable from an arbitrary API for registering event handlers.\n *\n * <span class=\"informal\">When that method for adding event handler was something {@link fromEvent}\n * was not prepared for.</span>\n *\n * ![](fromEventPattern.png)\n *\n * `fromEventPattern` allows you to convert into an Observable any API that supports registering handler functions\n * for events. It is similar to {@link fromEvent}, but far\n * more flexible. In fact, all use cases of {@link fromEvent} could be easily handled by\n * `fromEventPattern` (although in slightly more verbose way).\n *\n * This operator accepts as a first argument an `addHandler` function, which will be injected with\n * handler parameter. That handler is actually an event handler function that you now can pass\n * to API expecting it. `addHandler` will be called whenever Observable\n * returned by the operator is subscribed, so registering handler in API will not\n * necessarily happen when `fromEventPattern` is called.\n *\n * After registration, every time an event that we listen to happens,\n * Observable returned by `fromEventPattern` will emit value that event handler\n * function was called with. Note that if event handler was called with more\n * than one argument, second and following arguments will not appear in the Observable.\n *\n * If API you are using allows to unregister event handlers as well, you can pass to `fromEventPattern`\n * another function - `removeHandler` - as a second parameter. It will be injected\n * with the same handler function as before, which now you can use to unregister\n * it from the API. `removeHandler` will be called when consumer of resulting Observable\n * unsubscribes from it.\n *\n * In some APIs unregistering is actually handled differently. Method registering an event handler\n * returns some kind of token, which is later used to identify which function should\n * be unregistered or it itself has method that unregisters event handler.\n * If that is the case with your API, make sure token returned\n * by registering method is returned by `addHandler`. Then it will be passed\n * as a second argument to `removeHandler`, where you will be able to use it.\n *\n * If you need access to all event handler parameters (not only the first one),\n * or you need to transform them in any way, you can call `fromEventPattern` with optional\n * third parameter - project function which will accept all arguments passed to\n * event handler when it is called. Whatever is returned from project function will appear on\n * resulting stream instead of usual event handlers first argument. This means\n * that default project can be thought of as function that takes its first parameter\n * and ignores the rest.\n *\n * ## Examples\n *\n * Emits clicks happening on the DOM document\n *\n * ```ts\n * import { fromEventPattern } from 'rxjs';\n *\n * function addClickHandler(handler) {\n *   document.addEventListener('click', handler);\n * }\n *\n * function removeClickHandler(handler) {\n *   document.removeEventListener('click', handler);\n * }\n *\n * const clicks = fromEventPattern(\n *   addClickHandler,\n *   removeClickHandler\n * );\n * clicks.subscribe(x => console.log(x));\n *\n * // Whenever you click anywhere in the browser, DOM MouseEvent\n * // object will be logged.\n * ```\n *\n * Use with API that returns cancellation token\n *\n * ```ts\n * import { fromEventPattern } from 'rxjs';\n *\n * const token = someAPI.registerEventHandler(function() {});\n * someAPI.unregisterEventHandler(token); // this APIs cancellation method accepts\n *                                        // not handler itself, but special token.\n *\n * const someAPIObservable = fromEventPattern(\n *   function(handler) { return someAPI.registerEventHandler(handler); }, // Note that we return the token here...\n *   function(handler, token) { someAPI.unregisterEventHandler(token); }  // ...to then use it here.\n * );\n * ```\n *\n * Use with project function\n *\n * ```ts\n * import { fromEventPattern } from 'rxjs';\n *\n * someAPI.registerEventHandler((eventType, eventMessage) => {\n *   console.log(eventType, eventMessage); // Logs 'EVENT_TYPE' 'EVENT_MESSAGE' to console.\n * });\n *\n * const someAPIObservable = fromEventPattern(\n *   handler => someAPI.registerEventHandler(handler),\n *   handler => someAPI.unregisterEventHandler(handler)\n *   (eventType, eventMessage) => eventType + ' --- ' + eventMessage // without that function only 'EVENT_TYPE'\n * );                                                                // would be emitted by the Observable\n *\n * someAPIObservable.subscribe(value => console.log(value));\n *\n * // Logs:\n * // 'EVENT_TYPE --- EVENT_MESSAGE'\n * ```\n *\n * @see {@link fromEvent}\n * @see {@link bindCallback}\n * @see {@link bindNodeCallback}\n *\n * @param {function(handler: Function): any} addHandler A function that takes\n * a `handler` function as argument and attaches it somehow to the actual\n * source of events.\n * @param {function(handler: Function, token?: any): void} [removeHandler] A function that\n * takes a `handler` function as an argument and removes it from the event source. If `addHandler`\n * returns some kind of token, `removeHandler` function will have it as a second parameter.\n * @param {function(...args: any): T} [project] A function to\n * transform results. It takes the arguments from the event handler and\n * should return a single value.\n * @return {Observable<T>} Observable which, when an event happens, emits first parameter\n * passed to registered event handler. Alternatively it emits whatever project function returns\n * at that moment.\n */\nexport function fromEventPattern<T>(\n  addHandler: (handler: NodeEventHandler) => any,\n  removeHandler?: (handler: NodeEventHandler, signal?: any) => void,\n  resultSelector?: (...args: any[]) => T\n): Observable<T | T[]> {\n  if (resultSelector) {\n    return fromEventPattern<T>(addHandler, removeHandler).pipe(mapOneOrManyArgs(resultSelector));\n  }\n\n  return new Observable<T | T[]>((subscriber) => {\n    const handler = (...e: T[]) => subscriber.next(e.length === 1 ? e[0] : e);\n    const retValue = addHandler(handler);\n    return isFunction(removeHandler) ? () => removeHandler(handler, retValue) : undefined;\n  });\n}\n", "import { Observable } from '../Observable';\nimport { SchedulerLike } from '../types';\nimport { async as asyncScheduler } from '../scheduler/async';\nimport { isScheduler } from '../util/isScheduler';\nimport { isValidDate } from '../util/isDate';\n\n/**\n * Creates an observable that will wait for a specified time period, or exact date, before\n * emitting the number 0.\n *\n * <span class=\"informal\">Used to emit a notification after a delay.</span>\n *\n * This observable is useful for creating delays in code, or racing against other values\n * for ad-hoc timeouts.\n *\n * The `delay` is specified by default in milliseconds, however providing a custom scheduler could\n * create a different behavior.\n *\n * ## Examples\n *\n * Wait 3 seconds and start another observable\n *\n * You might want to use `timer` to delay subscription to an\n * observable by a set amount of time. Here we use a timer with\n * {@link concatMapTo} or {@link concatMap} in order to wait\n * a few seconds and start a subscription to a source.\n *\n * ```ts\n * import { of, timer, concatMap } from 'rxjs';\n *\n * // This could be any observable\n * const source = of(1, 2, 3);\n *\n * timer(3000)\n *   .pipe(concatMap(() => source))\n *   .subscribe(console.log);\n * ```\n *\n * Take all values until the start of the next minute\n *\n * Using a `Date` as the trigger for the first emission, you can\n * do things like wait until midnight to fire an event, or in this case,\n * wait until a new minute starts (chosen so the example wouldn't take\n * too long to run) in order to stop watching a stream. Leveraging\n * {@link takeUntil}.\n *\n * ```ts\n * import { interval, takeUntil, timer } from 'rxjs';\n *\n * // Build a Date object that marks the\n * // next minute.\n * const currentDate = new Date();\n * const startOfNextMinute = new Date(\n *   currentDate.getFullYear(),\n *   currentDate.getMonth(),\n *   currentDate.getDate(),\n *   currentDate.getHours(),\n *   currentDate.getMinutes() + 1\n * );\n *\n * // This could be any observable stream\n * const source = interval(1000);\n *\n * const result = source.pipe(\n *   takeUntil(timer(startOfNextMinute))\n * );\n *\n * result.subscribe(console.log);\n * ```\n *\n * ### Known Limitations\n *\n * - The {@link asyncScheduler} uses `setTimeout` which has limitations for how far in the future it can be scheduled.\n *\n * - If a `scheduler` is provided that returns a timestamp other than an epoch from `now()`, and\n * a `Date` object is passed to the `dueTime` argument, the calculation for when the first emission\n * should occur will be incorrect. In this case, it would be best to do your own calculations\n * ahead of time, and pass a `number` in as the `dueTime`.\n *\n * @param due If a `number`, the amount of time in milliseconds to wait before emitting.\n * If a `Date`, the exact time at which to emit.\n * @param scheduler The scheduler to use to schedule the delay. Defaults to {@link asyncScheduler}.\n */\nexport function timer(due: number | Date, scheduler?: SchedulerLike): Observable<0>;\n\n/**\n * Creates an observable that starts an interval after a specified delay, emitting incrementing numbers -- starting at `0` --\n * on each interval after words.\n *\n * The `delay` and `intervalDuration` are specified by default in milliseconds, however providing a custom scheduler could\n * create a different behavior.\n *\n * ## Example\n *\n * ### Start an interval that starts right away\n *\n * Since {@link interval} waits for the passed delay before starting,\n * sometimes that's not ideal. You may want to start an interval immediately.\n * `timer` works well for this. Here we have both side-by-side so you can\n * see them in comparison.\n *\n * Note that this observable will never complete.\n *\n * ```ts\n * import { timer, interval } from 'rxjs';\n *\n * timer(0, 1000).subscribe(n => console.log('timer', n));\n * interval(1000).subscribe(n => console.log('interval', n));\n * ```\n *\n * ### Known Limitations\n *\n * - The {@link asyncScheduler} uses `setTimeout` which has limitations for how far in the future it can be scheduled.\n *\n * - If a `scheduler` is provided that returns a timestamp other than an epoch from `now()`, and\n * a `Date` object is passed to the `dueTime` argument, the calculation for when the first emission\n * should occur will be incorrect. In this case, it would be best to do your own calculations\n * ahead of time, and pass a `number` in as the `startDue`.\n * @param startDue If a `number`, is the time to wait before starting the interval.\n * If a `Date`, is the exact time at which to start the interval.\n * @param intervalDuration The delay between each value emitted in the interval. Passing a\n * negative number here will result in immediate completion after the first value is emitted, as though\n * no `intervalDuration` was passed at all.\n * @param scheduler The scheduler to use to schedule the delay. Defaults to {@link asyncScheduler}.\n */\nexport function timer(startDue: number | Date, intervalDuration: number, scheduler?: SchedulerLike): Observable<number>;\n\n/**\n * @deprecated The signature allowing `undefined` to be passed for `intervalDuration` will be removed in v8. Use the `timer(dueTime, scheduler?)` signature instead.\n */\nexport function timer(dueTime: number | Date, unused: undefined, scheduler?: SchedulerLike): Observable<0>;\n\nexport function timer(\n  dueTime: number | Date = 0,\n  intervalOrScheduler?: number | SchedulerLike,\n  scheduler: SchedulerLike = asyncScheduler\n): Observable<number> {\n  // Since negative intervalDuration is treated as though no\n  // interval was specified at all, we start with a negative number.\n  let intervalDuration = -1;\n\n  if (intervalOrScheduler != null) {\n    // If we have a second argument, and it's a scheduler,\n    // override the scheduler we had defaulted. Otherwise,\n    // it must be an interval.\n    if (isScheduler(intervalOrScheduler)) {\n      scheduler = intervalOrScheduler;\n    } else {\n      // Note that this *could* be negative, in which case\n      // it's like not passing an intervalDuration at all.\n      intervalDuration = intervalOrScheduler;\n    }\n  }\n\n  return new Observable((subscriber) => {\n    // If a valid date is passed, calculate how long to wait before\n    // executing the first value... otherwise, if it's a number just schedule\n    // that many milliseconds (or scheduler-specified unit size) in the future.\n    let due = isValidDate(dueTime) ? +dueTime - scheduler!.now() : dueTime;\n\n    if (due < 0) {\n      // Ensure we don't schedule in the future.\n      due = 0;\n    }\n\n    // The incrementing value we emit.\n    let n = 0;\n\n    // Start the timer.\n    return scheduler.schedule(function () {\n      if (!subscriber.closed) {\n        // Emit the next value and increment.\n        subscriber.next(n++);\n\n        if (0 <= intervalDuration) {\n          // If we have a interval after the initial timer,\n          // reschedule with the period.\n          this.schedule(undefined, intervalDuration);\n        } else {\n          // We didn't have an interval. So just complete.\n          subscriber.complete();\n        }\n      }\n    }, due);\n  });\n}\n", "import { Observable } from '../Observable';\nimport { ObservableInput, ObservableInputTuple, SchedulerLike } from '../types';\nimport { mergeAll } from '../operators/mergeAll';\nimport { innerFrom } from './innerFrom';\nimport { EMPTY } from './empty';\nimport { popNumber, popScheduler } from '../util/args';\nimport { from } from './from';\n\nexport function merge<A extends readonly unknown[]>(...sources: [...ObservableInputTuple<A>]): Observable<A[number]>;\nexport function merge<A extends readonly unknown[]>(...sourcesAndConcurrency: [...ObservableInputTuple<A>, number?]): Observable<A[number]>;\n/** @deprecated The `scheduler` parameter will be removed in v8. Use `scheduled` and `mergeAll`. Details: https://rxjs.dev/deprecations/scheduler-argument */\nexport function merge<A extends readonly unknown[]>(\n  ...sourcesAndScheduler: [...ObservableInputTuple<A>, SchedulerLike?]\n): Observable<A[number]>;\n/** @deprecated The `scheduler` parameter will be removed in v8. Use `scheduled` and `mergeAll`. Details: https://rxjs.dev/deprecations/scheduler-argument */\nexport function merge<A extends readonly unknown[]>(\n  ...sourcesAndConcurrencyAndScheduler: [...ObservableInputTuple<A>, number?, SchedulerLike?]\n): Observable<A[number]>;\n\n/**\n * Creates an output Observable which concurrently emits all values from every\n * given input Observable.\n *\n * <span class=\"informal\">Flattens multiple Observables together by blending\n * their values into one Observable.</span>\n *\n * ![](merge.png)\n *\n * `merge` subscribes to each given input Observable (as arguments), and simply\n * forwards (without doing any transformation) all the values from all the input\n * Observables to the output Observable. The output Observable only completes\n * once all input Observables have completed. Any error delivered by an input\n * Observable will be immediately emitted on the output Observable.\n *\n * ## Examples\n *\n * Merge together two Observables: 1s interval and clicks\n *\n * ```ts\n * import { merge, fromEvent, interval } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const timer = interval(1000);\n * const clicksOrTimer = merge(clicks, timer);\n * clicksOrTimer.subscribe(x => console.log(x));\n *\n * // Results in the following:\n * // timer will emit ascending values, one every second(1000ms) to console\n * // clicks logs MouseEvents to console every time the \"document\" is clicked\n * // Since the two streams are merged you see these happening\n * // as they occur.\n * ```\n *\n * Merge together 3 Observables, but run only 2 concurrently\n *\n * ```ts\n * import { interval, take, merge } from 'rxjs';\n *\n * const timer1 = interval(1000).pipe(take(10));\n * const timer2 = interval(2000).pipe(take(6));\n * const timer3 = interval(500).pipe(take(10));\n *\n * const concurrent = 2; // the argument\n * const merged = merge(timer1, timer2, timer3, concurrent);\n * merged.subscribe(x => console.log(x));\n *\n * // Results in the following:\n * // - First timer1 and timer2 will run concurrently\n * // - timer1 will emit a value every 1000ms for 10 iterations\n * // - timer2 will emit a value every 2000ms for 6 iterations\n * // - after timer1 hits its max iteration, timer2 will\n * //   continue, and timer3 will start to run concurrently with timer2\n * // - when timer2 hits its max iteration it terminates, and\n * //   timer3 will continue to emit a value every 500ms until it is complete\n * ```\n *\n * @see {@link mergeAll}\n * @see {@link mergeMap}\n * @see {@link mergeMapTo}\n * @see {@link mergeScan}\n *\n * @param {...ObservableInput} observables Input Observables to merge together.\n * @param {number} [concurrent=Infinity] Maximum number of input\n * Observables being subscribed to concurrently.\n * @param {SchedulerLike} [scheduler=null] The {@link SchedulerLike} to use for managing\n * concurrency of input Observables.\n * @return {Observable} an Observable that emits items that are the result of\n * every input Observable.\n */\nexport function merge(...args: (ObservableInput<unknown> | number | SchedulerLike)[]): Observable<unknown> {\n  const scheduler = popScheduler(args);\n  const concurrent = popNumber(args, Infinity);\n  const sources = args as ObservableInput<unknown>[];\n  return !sources.length\n    ? // No source provided\n      EMPTY\n    : sources.length === 1\n    ? // One source? Just return it.\n      innerFrom(sources[0])\n    : // Merge all sources\n      mergeAll(concurrent)(from(sources, scheduler));\n}\n", "import { Observable } from '../Observable';\nimport { noop } from '../util/noop';\n\n/**\n * An Observable that emits no items to the Observer and never completes.\n *\n * ![](never.png)\n *\n * A simple Observable that emits neither values nor errors nor the completion\n * notification. It can be used for testing purposes or for composing with other\n * Observables. Please note that by never emitting a complete notification, this\n * Observable keeps the subscription from being disposed automatically.\n * Subscriptions need to be manually disposed.\n *\n * ##  Example\n *\n * Emit the number 7, then never emit anything else (not even complete)\n *\n * ```ts\n * import { NEVER, startWith } from 'rxjs';\n *\n * const info = () => console.log('Will not be called');\n *\n * const result = NEVER.pipe(startWith(7));\n * result.subscribe({\n *   next: x => console.log(x),\n *   error: info,\n *   complete: info\n * });\n * ```\n *\n * @see {@link Observable}\n * @see {@link EMPTY}\n * @see {@link of}\n * @see {@link throwError}\n */\nexport const NEVER = new Observable<never>(noop);\n\n/**\n * @deprecated Replaced with the {@link NEVER} constant. Will be removed in v8.\n */\nexport function never() {\n  return NEVER;\n}\n", "const { isArray } = Array;\n\n/**\n * Used in operators and functions that accept either a list of arguments, or an array of arguments\n * as a single argument.\n */\nexport function argsOrArgArray<T>(args: (T | T[])[]): T[] {\n  return args.length === 1 && isArray(args[0]) ? args[0] : (args as T[]);\n}\n", "import { OperatorFunction, MonoTypeOperatorFunction, TruthyTypesOf } from '../types';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\n\n/** @deprecated Use a closure instead of a `thisArg`. Signatures accepting a `thisArg` will be removed in v8. */\nexport function filter<T, S extends T, A>(predicate: (this: A, value: T, index: number) => value is S, thisArg: A): OperatorFunction<T, S>;\nexport function filter<T, S extends T>(predicate: (value: T, index: number) => value is S): OperatorFunction<T, S>;\nexport function filter<T>(predicate: BooleanConstructor): OperatorFunction<T, TruthyTypesOf<T>>;\n/** @deprecated Use a closure instead of a `thisArg`. Signatures accepting a `thisArg` will be removed in v8. */\nexport function filter<T, A>(predicate: (this: A, value: T, index: number) => boolean, thisArg: A): MonoTypeOperatorFunction<T>;\nexport function filter<T>(predicate: (value: T, index: number) => boolean): MonoTypeOperatorFunction<T>;\n\n/**\n * Filter items emitted by the source Observable by only emitting those that\n * satisfy a specified predicate.\n *\n * <span class=\"informal\">Like\n * [Array.prototype.filter()](https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/Array/filter),\n * it only emits a value from the source if it passes a criterion function.</span>\n *\n * ![](filter.png)\n *\n * Similar to the well-known `Array.prototype.filter` method, this operator\n * takes values from the source Observable, passes them through a `predicate`\n * function and only emits those values that yielded `true`.\n *\n * ## Example\n *\n * Emit only click events whose target was a DIV element\n *\n * ```ts\n * import { fromEvent, filter } from 'rxjs';\n *\n * const div = document.createElement('div');\n * div.style.cssText = 'width: 200px; height: 200px; background: #09c;';\n * document.body.appendChild(div);\n *\n * const clicks = fromEvent(document, 'click');\n * const clicksOnDivs = clicks.pipe(filter(ev => (<HTMLElement>ev.target).tagName === 'DIV'));\n * clicksOnDivs.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link distinct}\n * @see {@link distinctUntilChanged}\n * @see {@link distinctUntilKeyChanged}\n * @see {@link ignoreElements}\n * @see {@link partition}\n * @see {@link skip}\n *\n * @param predicate A function that\n * evaluates each value emitted by the source Observable. If it returns `true`,\n * the value is emitted, if `false` the value is not passed to the output\n * Observable. The `index` parameter is the number `i` for the i-th source\n * emission that has happened since the subscription, starting from the number\n * `0`.\n * @param thisArg An optional argument to determine the value of `this`\n * in the `predicate` function.\n * @return A function that returns an Observable that emits items from the\n * source Observable that satisfy the specified `predicate`.\n */\nexport function filter<T>(predicate: (value: T, index: number) => boolean, thisArg?: any): MonoTypeOperatorFunction<T> {\n  return operate((source, subscriber) => {\n    // An index passed to our predicate function on each call.\n    let index = 0;\n\n    // Subscribe to the source, all errors and completions are\n    // forwarded to the consumer.\n    source.subscribe(\n      // Call the predicate with the appropriate `this` context,\n      // if the predicate returns `true`, then send the value\n      // to the consumer.\n      createOperatorSubscriber(subscriber, (value) => predicate.call(thisArg, value, index++) && subscriber.next(value))\n    );\n  });\n}\n", "import { Observable } from '../Observable';\nimport { ObservableInputTuple } from '../types';\nimport { innerFrom } from './innerFrom';\nimport { argsOrArgArray } from '../util/argsOrArgArray';\nimport { EMPTY } from './empty';\nimport { createOperatorSubscriber } from '../operators/OperatorSubscriber';\nimport { popResultSelector } from '../util/args';\n\nexport function zip<A extends readonly unknown[]>(sources: [...ObservableInputTuple<A>]): Observable<A>;\nexport function zip<A extends readonly unknown[], R>(\n  sources: [...ObservableInputTuple<A>],\n  resultSelector: (...values: A) => R\n): Observable<R>;\nexport function zip<A extends readonly unknown[]>(...sources: [...ObservableInputTuple<A>]): Observable<A>;\nexport function zip<A extends readonly unknown[], R>(\n  ...sourcesAndResultSelector: [...ObservableInputTuple<A>, (...values: A) => R]\n): Observable<R>;\n\n/**\n * Combines multiple Observables to create an Observable whose values are calculated from the values, in order, of each\n * of its input Observables.\n *\n * If the last parameter is a function, this function is used to compute the created value from the input values.\n * Otherwise, an array of the input values is returned.\n *\n * ## Example\n *\n * Combine age and name from different sources\n *\n * ```ts\n * import { of, zip, map } from 'rxjs';\n *\n * const age$ = of(27, 25, 29);\n * const name$ = of('Foo', 'Bar', 'Beer');\n * const isDev$ = of(true, true, false);\n *\n * zip(age$, name$, isDev$).pipe(\n *   map(([age, name, isDev]) => ({ age, name, isDev }))\n * )\n * .subscribe(x => console.log(x));\n *\n * // Outputs\n * // { age: 27, name: 'Foo', isDev: true }\n * // { age: 25, name: 'Bar', isDev: true }\n * // { age: 29, name: 'Beer', isDev: false }\n * ```\n *\n * @param sources\n * @return {Observable<R>}\n */\nexport function zip(...args: unknown[]): Observable<unknown> {\n  const resultSelector = popResultSelector(args);\n\n  const sources = argsOrArgArray(args) as Observable<unknown>[];\n\n  return sources.length\n    ? new Observable<unknown[]>((subscriber) => {\n        // A collection of buffers of values from each source.\n        // Keyed by the same index with which the sources were passed in.\n        let buffers: unknown[][] = sources.map(() => []);\n\n        // An array of flags of whether or not the sources have completed.\n        // This is used to check to see if we should complete the result.\n        // Keyed by the same index with which the sources were passed in.\n        let completed = sources.map(() => false);\n\n        // When everything is done, release the arrays above.\n        subscriber.add(() => {\n          buffers = completed = null!;\n        });\n\n        // Loop over our sources and subscribe to each one. The index `i` is\n        // especially important here, because we use it in closures below to\n        // access the related buffers and completion properties\n        for (let sourceIndex = 0; !subscriber.closed && sourceIndex < sources.length; sourceIndex++) {\n          innerFrom(sources[sourceIndex]).subscribe(\n            createOperatorSubscriber(\n              subscriber,\n              (value) => {\n                buffers[sourceIndex].push(value);\n                // if every buffer has at least one value in it, then we\n                // can shift out the oldest value from each buffer and emit\n                // them as an array.\n                if (buffers.every((buffer) => buffer.length)) {\n                  const result: any = buffers.map((buffer) => buffer.shift()!);\n                  // Emit the array. If theres' a result selector, use that.\n                  subscriber.next(resultSelector ? resultSelector(...result) : result);\n                  // If any one of the sources is both complete and has an empty buffer\n                  // then we complete the result. This is because we cannot possibly have\n                  // any more values to zip together.\n                  if (buffers.some((buffer, i) => !buffer.length && completed[i])) {\n                    subscriber.complete();\n                  }\n                }\n              },\n              () => {\n                // This source completed. Mark it as complete so we can check it later\n                // if we have to.\n                completed[sourceIndex] = true;\n                // But, if this complete source has nothing in its buffer, then we\n                // can complete the result, because we can't possibly have any more\n                // values from this to zip together with the other values.\n                !buffers[sourceIndex].length && subscriber.complete();\n              }\n            )\n          );\n        }\n\n        // When everything is done, release the arrays above.\n        return () => {\n          buffers = completed = null!;\n        };\n      })\n    : EMPTY;\n}\n", "import { Subscriber } from '../Subscriber';\nimport { MonoTypeOperatorFunction, ObservableInput } from '../types';\n\nimport { operate } from '../util/lift';\nimport { innerFrom } from '../observable/innerFrom';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\n\n/**\n * Ignores source values for a duration determined by another Observable, then\n * emits the most recent value from the source Observable, then repeats this\n * process.\n *\n * <span class=\"informal\">It's like {@link auditTime}, but the silencing\n * duration is determined by a second Observable.</span>\n *\n * ![](audit.svg)\n *\n * `audit` is similar to `throttle`, but emits the last value from the silenced\n * time window, instead of the first value. `audit` emits the most recent value\n * from the source Observable on the output Observable as soon as its internal\n * timer becomes disabled, and ignores source values while the timer is enabled.\n * Initially, the timer is disabled. As soon as the first source value arrives,\n * the timer is enabled by calling the `durationSelector` function with the\n * source value, which returns the \"duration\" Observable. When the duration\n * Observable emits a value, the timer is disabled, then the most\n * recent source value is emitted on the output Observable, and this process\n * repeats for the next source value.\n *\n * ## Example\n *\n * Emit clicks at a rate of at most one click per second\n *\n * ```ts\n * import { fromEvent, audit, interval } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const result = clicks.pipe(audit(ev => interval(1000)));\n * result.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link auditTime}\n * @see {@link debounce}\n * @see {@link delayWhen}\n * @see {@link sample}\n * @see {@link throttle}\n *\n * @param durationSelector A function\n * that receives a value from the source Observable, for computing the silencing\n * duration, returned as an Observable or a Promise.\n * @return A function that returns an Observable that performs rate-limiting of\n * emissions from the source Observable.\n */\nexport function audit<T>(durationSelector: (value: T) => ObservableInput<any>): MonoTypeOperatorFunction<T> {\n  return operate((source, subscriber) => {\n    let hasValue = false;\n    let lastValue: T | null = null;\n    let durationSubscriber: Subscriber<any> | null = null;\n    let isComplete = false;\n\n    const endDuration = () => {\n      durationSubscriber?.unsubscribe();\n      durationSubscriber = null;\n      if (hasValue) {\n        hasValue = false;\n        const value = lastValue!;\n        lastValue = null;\n        subscriber.next(value);\n      }\n      isComplete && subscriber.complete();\n    };\n\n    const cleanupDuration = () => {\n      durationSubscriber = null;\n      isComplete && subscriber.complete();\n    };\n\n    source.subscribe(\n      createOperatorSubscriber(\n        subscriber,\n        (value) => {\n          hasValue = true;\n          lastValue = value;\n          if (!durationSubscriber) {\n            innerFrom(durationSelector(value)).subscribe(\n              (durationSubscriber = createOperatorSubscriber(subscriber, endDuration, cleanupDuration))\n            );\n          }\n        },\n        () => {\n          isComplete = true;\n          (!hasValue || !durationSubscriber || durationSubscriber.closed) && subscriber.complete();\n        }\n      )\n    );\n  });\n}\n", "import { asyncScheduler } from '../scheduler/async';\nimport { audit } from './audit';\nimport { timer } from '../observable/timer';\nimport { MonoTypeOperatorFunction, SchedulerLike } from '../types';\n\n/**\n * Ignores source values for `duration` milliseconds, then emits the most recent\n * value from the source Observable, then repeats this process.\n *\n * <span class=\"informal\">When it sees a source value, it ignores that plus\n * the next ones for `duration` milliseconds, and then it emits the most recent\n * value from the source.</span>\n *\n * ![](auditTime.png)\n *\n * `auditTime` is similar to `throttleTime`, but emits the last value from the\n * silenced time window, instead of the first value. `auditTime` emits the most\n * recent value from the source Observable on the output Observable as soon as\n * its internal timer becomes disabled, and ignores source values while the\n * timer is enabled. Initially, the timer is disabled. As soon as the first\n * source value arrives, the timer is enabled. After `duration` milliseconds (or\n * the time unit determined internally by the optional `scheduler`) has passed,\n * the timer is disabled, then the most recent source value is emitted on the\n * output Observable, and this process repeats for the next source value.\n * Optionally takes a {@link SchedulerLike} for managing timers.\n *\n * ## Example\n *\n * Emit clicks at a rate of at most one click per second\n *\n * ```ts\n * import { fromEvent, auditTime } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const result = clicks.pipe(auditTime(1000));\n * result.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link audit}\n * @see {@link debounceTime}\n * @see {@link delay}\n * @see {@link sampleTime}\n * @see {@link throttleTime}\n *\n * @param {number} duration Time to wait before emitting the most recent source\n * value, measured in milliseconds or the time unit determined internally\n * by the optional `scheduler`.\n * @param {SchedulerLike} [scheduler=async] The {@link SchedulerLike} to use for\n * managing the timers that handle the rate-limiting behavior.\n * @return A function that returns an Observable that performs rate-limiting of\n * emissions from the source Observable.\n */\nexport function auditTime<T>(duration: number, scheduler: SchedulerLike = asyncScheduler): MonoTypeOperatorFunction<T> {\n  return audit(() => timer(duration, scheduler));\n}\n", "import { OperatorFunction } from '../types';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\nimport { arrRemove } from '../util/arrRemove';\n\n/**\n * Buffers the source Observable values until the size hits the maximum\n * `bufferSize` given.\n *\n * <span class=\"informal\">Collects values from the past as an array, and emits\n * that array only when its size reaches `bufferSize`.</span>\n *\n * ![](bufferCount.png)\n *\n * Buffers a number of values from the source Observable by `bufferSize` then\n * emits the buffer and clears it, and starts a new buffer each\n * `startBufferEvery` values. If `startBufferEvery` is not provided or is\n * `null`, then new buffers are started immediately at the start of the source\n * and when each buffer closes and is emitted.\n *\n * ## Examples\n *\n * Emit the last two click events as an array\n *\n * ```ts\n * import { fromEvent, bufferCount } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const buffered = clicks.pipe(bufferCount(2));\n * buffered.subscribe(x => console.log(x));\n * ```\n *\n * On every click, emit the last two click events as an array\n *\n * ```ts\n * import { fromEvent, bufferCount } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const buffered = clicks.pipe(bufferCount(2, 1));\n * buffered.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link buffer}\n * @see {@link bufferTime}\n * @see {@link bufferToggle}\n * @see {@link bufferWhen}\n * @see {@link pairwise}\n * @see {@link windowCount}\n *\n * @param {number} bufferSize The maximum size of the buffer emitted.\n * @param {number} [startBufferEvery] Interval at which to start a new buffer.\n * For example if `startBufferEvery` is `2`, then a new buffer will be started\n * on every other value from the source. A new buffer is started at the\n * beginning of the source by default.\n * @return A function that returns an Observable of arrays of buffered values.\n */\nexport function bufferCount<T>(bufferSize: number, startBufferEvery: number | null = null): OperatorFunction<T, T[]> {\n  // If no `startBufferEvery` value was supplied, then we're\n  // opening and closing on the bufferSize itself.\n  startBufferEvery = startBufferEvery ?? bufferSize;\n\n  return operate((source, subscriber) => {\n    let buffers: T[][] = [];\n    let count = 0;\n\n    source.subscribe(\n      createOperatorSubscriber(\n        subscriber,\n        (value) => {\n          let toEmit: T[][] | null = null;\n\n          // Check to see if we need to start a buffer.\n          // This will start one at the first value, and then\n          // a new one every N after that.\n          if (count++ % startBufferEvery! === 0) {\n            buffers.push([]);\n          }\n\n          // Push our value into our active buffers.\n          for (const buffer of buffers) {\n            buffer.push(value);\n            // Check to see if we're over the bufferSize\n            // if we are, record it so we can emit it later.\n            // If we emitted it now and removed it, it would\n            // mutate the `buffers` array while we're looping\n            // over it.\n            if (bufferSize <= buffer.length) {\n              toEmit = toEmit ?? [];\n              toEmit.push(buffer);\n            }\n          }\n\n          if (toEmit) {\n            // We have found some buffers that are over the\n            // `bufferSize`. Emit them, and remove them from our\n            // buffers list.\n            for (const buffer of toEmit) {\n              arrRemove(buffers, buffer);\n              subscriber.next(buffer);\n            }\n          }\n        },\n        () => {\n          // When the source completes, emit all of our\n          // active buffers.\n          for (const buffer of buffers) {\n            subscriber.next(buffer);\n          }\n          subscriber.complete();\n        },\n        // Pass all errors through to consumer.\n        undefined,\n        () => {\n          // Clean up our memory when we finalize\n          buffers = null!;\n        }\n      )\n    );\n  });\n}\n", "import { Observable } from '../Observable';\n\nimport { ObservableInput, OperatorFunction, ObservedValueOf } from '../types';\nimport { Subscription } from '../Subscription';\nimport { innerFrom } from '../observable/innerFrom';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\nimport { operate } from '../util/lift';\n\n/* tslint:disable:max-line-length */\nexport function catchError<T, O extends ObservableInput<any>>(\n  selector: (err: any, caught: Observable<T>) => O\n): OperatorFunction<T, T | ObservedValueOf<O>>;\n/* tslint:enable:max-line-length */\n\n/**\n * Catches errors on the observable to be handled by returning a new observable or throwing an error.\n *\n * <span class=\"informal\">\n * It only listens to the error channel and ignores notifications.\n * Handles errors from the source observable, and maps them to a new observable.\n * The error may also be rethrown, or a new error can be thrown to emit an error from the result.\n * </span>\n *\n * ![](catch.png)\n *\n * This operator handles errors, but forwards along all other events to the resulting observable.\n * If the source observable terminates with an error, it will map that error to a new observable,\n * subscribe to it, and forward all of its events to the resulting observable.\n *\n * ## Examples\n *\n * Continue with a different Observable when there's an error\n *\n * ```ts\n * import { of, map, catchError } from 'rxjs';\n *\n * of(1, 2, 3, 4, 5)\n *   .pipe(\n *     map(n => {\n *       if (n === 4) {\n *         throw 'four!';\n *       }\n *       return n;\n *     }),\n *     catchError(err => of('I', 'II', 'III', 'IV', 'V'))\n *   )\n *   .subscribe(x => console.log(x));\n *   // 1, 2, 3, I, II, III, IV, V\n * ```\n *\n * Retry the caught source Observable again in case of error, similar to `retry()` operator\n *\n * ```ts\n * import { of, map, catchError, take } from 'rxjs';\n *\n * of(1, 2, 3, 4, 5)\n *   .pipe(\n *     map(n => {\n *       if (n === 4) {\n *         throw 'four!';\n *       }\n *       return n;\n *     }),\n *     catchError((err, caught) => caught),\n *     take(30)\n *   )\n *   .subscribe(x => console.log(x));\n *   // 1, 2, 3, 1, 2, 3, ...\n * ```\n *\n * Throw a new error when the source Observable throws an error\n *\n * ```ts\n * import { of, map, catchError } from 'rxjs';\n *\n * of(1, 2, 3, 4, 5)\n *   .pipe(\n *     map(n => {\n *       if (n === 4) {\n *         throw 'four!';\n *       }\n *       return n;\n *     }),\n *     catchError(err => {\n *       throw 'error in source. Details: ' + err;\n *     })\n *   )\n *   .subscribe({\n *     next: x => console.log(x),\n *     error: err => console.log(err)\n *   });\n *   // 1, 2, 3, error in source. Details: four!\n * ```\n *\n * @see {@link onErrorResumeNext}\n * @see {@link repeat}\n * @see {@link repeatWhen}\n * @see {@link retry }\n * @see {@link retryWhen}\n *\n * @param {function} selector a function that takes as arguments `err`, which is the error, and `caught`, which\n * is the source observable, in case you'd like to \"retry\" that observable by returning it again. Whatever observable\n * is returned by the `selector` will be used to continue the observable chain.\n * @return A function that returns an Observable that originates from either\n * the source or the Observable returned by the `selector` function.\n */\nexport function catchError<T, O extends ObservableInput<any>>(\n  selector: (err: any, caught: Observable<T>) => O\n): OperatorFunction<T, T | ObservedValueOf<O>> {\n  return operate((source, subscriber) => {\n    let innerSub: Subscription | null = null;\n    let syncUnsub = false;\n    let handledResult: Observable<ObservedValueOf<O>>;\n\n    innerSub = source.subscribe(\n      createOperatorSubscriber(subscriber, undefined, undefined, (err) => {\n        handledResult = innerFrom(selector(err, catchError(selector)(source)));\n        if (innerSub) {\n          innerSub.unsubscribe();\n          innerSub = null;\n          handledResult.subscribe(subscriber);\n        } else {\n          // We don't have an innerSub yet, that means the error was synchronous\n          // because the subscribe call hasn't returned yet.\n          syncUnsub = true;\n        }\n      })\n    );\n\n    if (syncUnsub) {\n      // We have a synchronous error, we need to make sure to\n      // finalize right away. This ensures that callbacks in the `finalize` operator are called\n      // at the right time, and that finalization occurs at the expected\n      // time between the source error and the subscription to the\n      // next observable.\n      innerSub.unsubscribe();\n      innerSub = null;\n      handledResult!.subscribe(subscriber);\n    }\n  });\n}\n", "import { Observable } from '../Observable';\nimport { Subscriber } from '../Subscriber';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\n\n/**\n * A basic scan operation. This is used for `scan` and `reduce`.\n * @param accumulator The accumulator to use\n * @param seed The seed value for the state to accumulate\n * @param hasSeed Whether or not a seed was provided\n * @param emitOnNext Whether or not to emit the state on next\n * @param emitBeforeComplete Whether or not to emit the before completion\n */\n\nexport function scanInternals<V, A, S>(\n  accumulator: (acc: V | A | S, value: V, index: number) => A,\n  seed: S,\n  hasSeed: boolean,\n  emitOnNext: boolean,\n  emitBeforeComplete?: undefined | true\n) {\n  return (source: Observable<V>, subscriber: Subscriber<any>) => {\n    // Whether or not we have state yet. This will only be\n    // false before the first value arrives if we didn't get\n    // a seed value.\n    let hasState = hasSeed;\n    // The state that we're tracking, starting with the seed,\n    // if there is one, and then updated by the return value\n    // from the accumulator on each emission.\n    let state: any = seed;\n    // An index to pass to the accumulator function.\n    let index = 0;\n\n    // Subscribe to our source. All errors and completions are passed through.\n    source.subscribe(\n      createOperatorSubscriber(\n        subscriber,\n        (value) => {\n          // Always increment the index.\n          const i = index++;\n          // Set the state\n          state = hasState\n            ? // We already have state, so we can get the new state from the accumulator\n              accumulator(state, value, i)\n            : // We didn't have state yet, a seed value was not provided, so\n\n              // we set the state to the first value, and mark that we have state now\n              ((hasState = true), value);\n\n          // Maybe send it to the consumer.\n          emitOnNext && subscriber.next(state);\n        },\n        // If an onComplete was given, call it, otherwise\n        // just pass through the complete notification to the consumer.\n        emitBeforeComplete &&\n          (() => {\n            hasState && subscriber.next(state);\n            subscriber.complete();\n          })\n      )\n    );\n  };\n}\n", "import { combineLatestInit } from '../observable/combineLatest';\nimport { ObservableInput, ObservableInputTuple, OperatorFunction } from '../types';\nimport { operate } from '../util/lift';\nimport { argsOrArgArray } from '../util/argsOrArgArray';\nimport { mapOneOrManyArgs } from '../util/mapOneOrManyArgs';\nimport { pipe } from '../util/pipe';\nimport { popResultSelector } from '../util/args';\n\n/** @deprecated Replaced with {@link combineLatestWith}. Will be removed in v8. */\nexport function combineLatest<T, A extends readonly unknown[], R>(\n  sources: [...ObservableInputTuple<A>],\n  project: (...values: [T, ...A]) => R\n): OperatorFunction<T, R>;\n/** @deprecated Replaced with {@link combineLatestWith}. Will be removed in v8. */\nexport function combineLatest<T, A extends readonly unknown[], R>(sources: [...ObservableInputTuple<A>]): OperatorFunction<T, [T, ...A]>;\n\n/** @deprecated Replaced with {@link combineLatestWith}. Will be removed in v8. */\nexport function combineLatest<T, A extends readonly unknown[], R>(\n  ...sourcesAndProject: [...ObservableInputTuple<A>, (...values: [T, ...A]) => R]\n): OperatorFunction<T, R>;\n/** @deprecated Replaced with {@link combineLatestWith}. Will be removed in v8. */\nexport function combineLatest<T, A extends readonly unknown[], R>(...sources: [...ObservableInputTuple<A>]): OperatorFunction<T, [T, ...A]>;\n\n/**\n * @deprecated Replaced with {@link combineLatestWith}. Will be removed in v8.\n */\nexport function combineLatest<T, R>(...args: (ObservableInput<any> | ((...values: any[]) => R))[]): OperatorFunction<T, unknown> {\n  const resultSelector = popResultSelector(args);\n  return resultSelector\n    ? pipe(combineLatest(...(args as Array<ObservableInput<any>>)), mapOneOrManyArgs(resultSelector))\n    : operate((source, subscriber) => {\n        combineLatestInit([source, ...argsOrArgArray(args)])(subscriber);\n      });\n}\n", "import { ObservableInputTuple, OperatorFunction, Cons } from '../types';\nimport { combineLatest } from './combineLatest';\n\n/**\n * Create an observable that combines the latest values from all passed observables and the source\n * into arrays and emits them.\n *\n * Returns an observable, that when subscribed to, will subscribe to the source observable and all\n * sources provided as arguments. Once all sources emit at least one value, all of the latest values\n * will be emitted as an array. After that, every time any source emits a value, all of the latest values\n * will be emitted as an array.\n *\n * This is a useful operator for eagerly calculating values based off of changed inputs.\n *\n * ## Example\n *\n * Simple concatenation of values from two inputs\n *\n * ```ts\n * import { fromEvent, combineLatestWith, map } from 'rxjs';\n *\n * // Setup: Add two inputs to the page\n * const input1 = document.createElement('input');\n * document.body.appendChild(input1);\n * const input2 = document.createElement('input');\n * document.body.appendChild(input2);\n *\n * // Get streams of changes\n * const input1Changes$ = fromEvent(input1, 'change');\n * const input2Changes$ = fromEvent(input2, 'change');\n *\n * // Combine the changes by adding them together\n * input1Changes$.pipe(\n *   combineLatestWith(input2Changes$),\n *   map(([e1, e2]) => (<HTMLInputElement>e1.target).value + ' - ' + (<HTMLInputElement>e2.target).value)\n * )\n * .subscribe(x => console.log(x));\n * ```\n *\n * @param otherSources the other sources to subscribe to.\n * @return A function that returns an Observable that emits the latest\n * emissions from both source and provided Observables.\n */\nexport function combineLatestWith<T, A extends readonly unknown[]>(\n  ...otherSources: [...ObservableInputTuple<A>]\n): OperatorFunction<T, Cons<T, A>> {\n  return combineLatest(...otherSources);\n}\n", "import { Subscriber } from '../Subscriber';\nimport { MonoTypeOperatorFunction, ObservableInput } from '../types';\nimport { operate } from '../util/lift';\nimport { noop } from '../util/noop';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\nimport { innerFrom } from '../observable/innerFrom';\n\n/**\n * Emits a notification from the source Observable only after a particular time span\n * determined by another Observable has passed without another source emission.\n *\n * <span class=\"informal\">It's like {@link debounceTime}, but the time span of\n * emission silence is determined by a second Observable.</span>\n *\n * ![](debounce.svg)\n *\n * `debounce` delays notifications emitted by the source Observable, but drops previous\n * pending delayed emissions if a new notification arrives on the source Observable.\n * This operator keeps track of the most recent notification from the source\n * Observable, and spawns a duration Observable by calling the\n * `durationSelector` function. The notification is emitted only when the duration\n * Observable emits a next notification, and if no other notification was emitted on\n * the source Observable since the duration Observable was spawned. If a new\n * notification appears before the duration Observable emits, the previous notification will\n * not be emitted and a new duration is scheduled from `durationSelector` is scheduled.\n * If the completing event happens during the scheduled duration the last cached notification\n * is emitted before the completion event is forwarded to the output observable.\n * If the error event happens during the scheduled duration or after it only the error event is\n * forwarded to the output observable. The cache notification is not emitted in this case.\n *\n * Like {@link debounceTime}, this is a rate-limiting operator, and also a\n * delay-like operator since output emissions do not necessarily occur at the\n * same time as they did on the source Observable.\n *\n * ## Example\n *\n * Emit the most recent click after a burst of clicks\n *\n * ```ts\n * import { fromEvent, scan, debounce, interval } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const result = clicks.pipe(\n *   scan(i => ++i, 1),\n *   debounce(i => interval(200 * i))\n * );\n * result.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link audit}\n * @see {@link auditTime}\n * @see {@link debounceTime}\n * @see {@link delay}\n * @see {@link sample}\n * @see {@link sampleTime}\n * @see {@link throttle}\n * @see {@link throttleTime}\n *\n * @param durationSelector A function\n * that receives a value from the source Observable, for computing the timeout\n * duration for each source value, returned as an Observable or a Promise.\n * @return A function that returns an Observable that delays the emissions of\n * the source Observable by the specified duration Observable returned by\n * `durationSelector`, and may drop some values if they occur too frequently.\n */\nexport function debounce<T>(durationSelector: (value: T) => ObservableInput<any>): MonoTypeOperatorFunction<T> {\n  return operate((source, subscriber) => {\n    let hasValue = false;\n    let lastValue: T | null = null;\n    // The subscriber/subscription for the current debounce, if there is one.\n    let durationSubscriber: Subscriber<any> | null = null;\n\n    const emit = () => {\n      // Unsubscribe any current debounce subscription we have,\n      // we only cared about the first notification from it, and we\n      // want to clean that subscription up as soon as possible.\n      durationSubscriber?.unsubscribe();\n      durationSubscriber = null;\n      if (hasValue) {\n        // We have a value! Free up memory first, then emit the value.\n        hasValue = false;\n        const value = lastValue!;\n        lastValue = null;\n        subscriber.next(value);\n      }\n    };\n\n    source.subscribe(\n      createOperatorSubscriber(\n        subscriber,\n        (value: T) => {\n          // Cancel any pending debounce duration. We don't\n          // need to null it out here yet tho, because we're just going\n          // to create another one in a few lines.\n          durationSubscriber?.unsubscribe();\n          hasValue = true;\n          lastValue = value;\n          // Capture our duration subscriber, so we can unsubscribe it when we're notified\n          // and we're going to emit the value.\n          durationSubscriber = createOperatorSubscriber(subscriber, emit, noop);\n          // Subscribe to the duration.\n          innerFrom(durationSelector(value)).subscribe(durationSubscriber);\n        },\n        () => {\n          // Source completed.\n          // Emit any pending debounced values then complete\n          emit();\n          subscriber.complete();\n        },\n        // Pass all errors through to consumer\n        undefined,\n        () => {\n          // Finalization.\n          lastValue = durationSubscriber = null;\n        }\n      )\n    );\n  });\n}\n", "import { asyncScheduler } from '../scheduler/async';\nimport { Subscription } from '../Subscription';\nimport { MonoTypeOperatorFunction, SchedulerAction, SchedulerLike } from '../types';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\n\n/**\n * Emits a notification from the source Observable only after a particular time span\n * has passed without another source emission.\n *\n * <span class=\"informal\">It's like {@link delay}, but passes only the most\n * recent notification from each burst of emissions.</span>\n *\n * ![](debounceTime.png)\n *\n * `debounceTime` delays notifications emitted by the source Observable, but drops\n * previous pending delayed emissions if a new notification arrives on the source\n * Observable. This operator keeps track of the most recent notification from the\n * source Observable, and emits that only when `dueTime` has passed\n * without any other notification appearing on the source Observable. If a new value\n * appears before `dueTime` silence occurs, the previous notification will be dropped\n * and will not be emitted and a new `dueTime` is scheduled.\n * If the completing event happens during `dueTime` the last cached notification\n * is emitted before the completion event is forwarded to the output observable.\n * If the error event happens during `dueTime` or after it only the error event is\n * forwarded to the output observable. The cache notification is not emitted in this case.\n *\n * This is a rate-limiting operator, because it is impossible for more than one\n * notification to be emitted in any time window of duration `dueTime`, but it is also\n * a delay-like operator since output emissions do not occur at the same time as\n * they did on the source Observable. Optionally takes a {@link SchedulerLike} for\n * managing timers.\n *\n * ## Example\n *\n * Emit the most recent click after a burst of clicks\n *\n * ```ts\n * import { fromEvent, debounceTime } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const result = clicks.pipe(debounceTime(1000));\n * result.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link audit}\n * @see {@link auditTime}\n * @see {@link debounce}\n * @see {@link sample}\n * @see {@link sampleTime}\n * @see {@link throttle}\n * @see {@link throttleTime}\n *\n * @param {number} dueTime The timeout duration in milliseconds (or the time\n * unit determined internally by the optional `scheduler`) for the window of\n * time required to wait for emission silence before emitting the most recent\n * source value.\n * @param {SchedulerLike} [scheduler=async] The {@link SchedulerLike} to use for\n * managing the timers that handle the timeout for each value.\n * @return A function that returns an Observable that delays the emissions of\n * the source Observable by the specified `dueTime`, and may drop some values\n * if they occur too frequently.\n */\nexport function debounceTime<T>(dueTime: number, scheduler: SchedulerLike = asyncScheduler): MonoTypeOperatorFunction<T> {\n  return operate((source, subscriber) => {\n    let activeTask: Subscription | null = null;\n    let lastValue: T | null = null;\n    let lastTime: number | null = null;\n\n    const emit = () => {\n      if (activeTask) {\n        // We have a value! Free up memory first, then emit the value.\n        activeTask.unsubscribe();\n        activeTask = null;\n        const value = lastValue!;\n        lastValue = null;\n        subscriber.next(value);\n      }\n    };\n    function emitWhenIdle(this: SchedulerAction<unknown>) {\n      // This is called `dueTime` after the first value\n      // but we might have received new values during this window!\n\n      const targetTime = lastTime! + dueTime;\n      const now = scheduler.now();\n      if (now < targetTime) {\n        // On that case, re-schedule to the new target\n        activeTask = this.schedule(undefined, targetTime - now);\n        subscriber.add(activeTask);\n        return;\n      }\n\n      emit();\n    }\n\n    source.subscribe(\n      createOperatorSubscriber(\n        subscriber,\n        (value: T) => {\n          lastValue = value;\n          lastTime = scheduler.now();\n\n          // Only set up a task if it's not already up\n          if (!activeTask) {\n            activeTask = scheduler.schedule(emitWhenIdle, dueTime);\n            subscriber.add(activeTask);\n          }\n        },\n        () => {\n          // Source completed.\n          // Emit any pending debounced values then complete\n          emit();\n          subscriber.complete();\n        },\n        // Pass all errors through to consumer.\n        undefined,\n        () => {\n          // Finalization.\n          lastValue = activeTask = null;\n        }\n      )\n    );\n  });\n}\n", "import { OperatorFunction } from '../types';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\n\n/**\n * Emits a given value if the source Observable completes without emitting any\n * `next` value, otherwise mirrors the source Observable.\n *\n * <span class=\"informal\">If the source Observable turns out to be empty, then\n * this operator will emit a default value.</span>\n *\n * ![](defaultIfEmpty.png)\n *\n * `defaultIfEmpty` emits the values emitted by the source Observable or a\n * specified default value if the source Observable is empty (completes without\n * having emitted any `next` value).\n *\n * ## Example\n *\n * If no clicks happen in 5 seconds, then emit 'no clicks'\n *\n * ```ts\n * import { fromEvent, takeUntil, interval, defaultIfEmpty } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const clicksBeforeFive = clicks.pipe(takeUntil(interval(5000)));\n * const result = clicksBeforeFive.pipe(defaultIfEmpty('no clicks'));\n * result.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link empty}\n * @see {@link last}\n *\n * @param defaultValue The default value used if the source\n * Observable is empty.\n * @return A function that returns an Observable that emits either the\n * specified `defaultValue` if the source Observable emits no items, or the\n * values emitted by the source Observable.\n */\nexport function defaultIfEmpty<T, R>(defaultValue: R): OperatorFunction<T, T | R> {\n  return operate((source, subscriber) => {\n    let hasValue = false;\n    source.subscribe(\n      createOperatorSubscriber(\n        subscriber,\n        (value) => {\n          hasValue = true;\n          subscriber.next(value);\n        },\n        () => {\n          if (!hasValue) {\n            subscriber.next(defaultValue!);\n          }\n          subscriber.complete();\n        }\n      )\n    );\n  });\n}\n", "import { MonoTypeOperatorFunction } from '../types';\nimport { EMPTY } from '../observable/empty';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\n\n/**\n * Emits only the first `count` values emitted by the source Observable.\n *\n * <span class=\"informal\">Takes the first `count` values from the source, then\n * completes.</span>\n *\n * ![](take.png)\n *\n * `take` returns an Observable that emits only the first `count` values emitted\n * by the source Observable. If the source emits fewer than `count` values then\n * all of its values are emitted. After that, it completes, regardless if the\n * source completes.\n *\n * ## Example\n *\n * Take the first 5 seconds of an infinite 1-second interval Observable\n *\n * ```ts\n * import { interval, take } from 'rxjs';\n *\n * const intervalCount = interval(1000);\n * const takeFive = intervalCount.pipe(take(5));\n * takeFive.subscribe(x => console.log(x));\n *\n * // Logs:\n * // 0\n * // 1\n * // 2\n * // 3\n * // 4\n * ```\n *\n * @see {@link takeLast}\n * @see {@link takeUntil}\n * @see {@link takeWhile}\n * @see {@link skip}\n *\n * @param count The maximum number of `next` values to emit.\n * @return A function that returns an Observable that emits only the first\n * `count` values emitted by the source Observable, or all of the values from\n * the source if the source emits fewer than `count` values.\n */\nexport function take<T>(count: number): MonoTypeOperatorFunction<T> {\n  return count <= 0\n    ? // If we are taking no values, that's empty.\n      () => EMPTY\n    : operate((source, subscriber) => {\n        let seen = 0;\n        source.subscribe(\n          createOperatorSubscriber(subscriber, (value) => {\n            // Increment the number of values we have seen,\n            // then check it against the allowed count to see\n            // if we are still letting values through.\n            if (++seen <= count) {\n              subscriber.next(value);\n              // If we have met or passed our allowed count,\n              // we need to complete. We have to do <= here,\n              // because re-entrant code will increment `seen` twice.\n              if (count <= seen) {\n                subscriber.complete();\n              }\n            }\n          })\n        );\n      });\n}\n", "import { OperatorFunction } from '../types';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\nimport { noop } from '../util/noop';\n\n/**\n * Ignores all items emitted by the source Observable and only passes calls of `complete` or `error`.\n *\n * ![](ignoreElements.png)\n *\n * The `ignoreElements` operator suppresses all items emitted by the source Observable,\n * but allows its termination notification (either `error` or `complete`) to pass through unchanged.\n *\n * If you do not care about the items being emitted by an Observable, but you do want to be notified\n * when it completes or when it terminates with an error, you can apply the `ignoreElements` operator\n * to the Observable, which will ensure that it will never call its observers\u2019 `next` handlers.\n *\n * ## Example\n *\n * Ignore all `next` emissions from the source\n *\n * ```ts\n * import { of, ignoreElements } from 'rxjs';\n *\n * of('you', 'talking', 'to', 'me')\n *   .pipe(ignoreElements())\n *   .subscribe({\n *     next: word => console.log(word),\n *     error: err => console.log('error:', err),\n *     complete: () => console.log('the end'),\n *   });\n *\n * // result:\n * // 'the end'\n * ```\n *\n * @return A function that returns an empty Observable that only calls\n * `complete` or `error`, based on which one is called by the source\n * Observable.\n */\nexport function ignoreElements(): OperatorFunction<unknown, never> {\n  return operate((source, subscriber) => {\n    source.subscribe(createOperatorSubscriber(subscriber, noop));\n  });\n}\n", "import { OperatorFunction } from '../types';\nimport { map } from './map';\n\n/** @deprecated To be removed in v9. Use {@link map} instead: `map(() => value)`. */\nexport function mapTo<R>(value: R): OperatorFunction<unknown, R>;\n/**\n * @deprecated Do not specify explicit type parameters. Signatures with type parameters\n * that cannot be inferred will be removed in v8. `mapTo` itself will be removed in v9,\n * use {@link map} instead: `map(() => value)`.\n * */\nexport function mapTo<T, R>(value: R): OperatorFunction<T, R>;\n\n/**\n * Emits the given constant value on the output Observable every time the source\n * Observable emits a value.\n *\n * <span class=\"informal\">Like {@link map}, but it maps every source value to\n * the same output value every time.</span>\n *\n * ![](mapTo.png)\n *\n * Takes a constant `value` as argument, and emits that whenever the source\n * Observable emits a value. In other words, ignores the actual source value,\n * and simply uses the emission moment to know when to emit the given `value`.\n *\n * ## Example\n *\n * Map every click to the string `'Hi'`\n *\n * ```ts\n * import { fromEvent, mapTo } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const greetings = clicks.pipe(mapTo('Hi'));\n *\n * greetings.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link map}\n *\n * @param value The value to map each source value to.\n * @return A function that returns an Observable that emits the given `value`\n * every time the source Observable emits.\n * @deprecated To be removed in v9. Use {@link map} instead: `map(() => value)`.\n */\nexport function mapTo<R>(value: R): OperatorFunction<unknown, R> {\n  return map(() => value);\n}\n", "import { Observable } from '../Observable';\nimport { MonoTypeOperatorFunction, ObservableInput } from '../types';\nimport { concat } from '../observable/concat';\nimport { take } from './take';\nimport { ignoreElements } from './ignoreElements';\nimport { mapTo } from './mapTo';\nimport { mergeMap } from './mergeMap';\nimport { innerFrom } from '../observable/innerFrom';\n\n/** @deprecated The `subscriptionDelay` parameter will be removed in v8. */\nexport function delayWhen<T>(\n  delayDurationSelector: (value: T, index: number) => ObservableInput<any>,\n  subscriptionDelay: Observable<any>\n): MonoTypeOperatorFunction<T>;\nexport function delayWhen<T>(delayDurationSelector: (value: T, index: number) => ObservableInput<any>): MonoTypeOperatorFunction<T>;\n\n/**\n * Delays the emission of items from the source Observable by a given time span\n * determined by the emissions of another Observable.\n *\n * <span class=\"informal\">It's like {@link delay}, but the time span of the\n * delay duration is determined by a second Observable.</span>\n *\n * ![](delayWhen.png)\n *\n * `delayWhen` operator shifts each emitted value from the source Observable by\n * a time span determined by another Observable. When the source emits a value,\n * the `delayDurationSelector` function is called with the value emitted from\n * the source Observable as the first argument to the `delayDurationSelector`.\n * The `delayDurationSelector` function should return an {@link ObservableInput},\n * that is internally converted to an Observable that is called the \"duration\"\n * Observable.\n *\n * The source value is emitted on the output Observable only when the \"duration\"\n * Observable emits ({@link guide/glossary-and-semantics#next next}s) any value.\n * Upon that, the \"duration\" Observable gets unsubscribed.\n *\n * Before RxJS V7, the {@link guide/glossary-and-semantics#complete completion}\n * of the \"duration\" Observable would have been triggering the emission of the\n * source value to the output Observable, but with RxJS V7, this is not the case\n * anymore.\n *\n * Only next notifications (from the \"duration\" Observable) trigger values from\n * the source Observable to be passed to the output Observable. If the \"duration\"\n * Observable only emits the complete notification (without next), the value\n * emitted by the source Observable will never get to the output Observable - it\n * will be swallowed. If the \"duration\" Observable errors, the error will be\n * propagated to the output Observable.\n *\n * Optionally, `delayWhen` takes a second argument, `subscriptionDelay`, which\n * is an Observable. When `subscriptionDelay` emits its first value or\n * completes, the source Observable is subscribed to and starts behaving like\n * described in the previous paragraph. If `subscriptionDelay` is not provided,\n * `delayWhen` will subscribe to the source Observable as soon as the output\n * Observable is subscribed.\n *\n * ## Example\n *\n * Delay each click by a random amount of time, between 0 and 5 seconds\n *\n * ```ts\n * import { fromEvent, delayWhen, interval } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const delayedClicks = clicks.pipe(\n *   delayWhen(() => interval(Math.random() * 5000))\n * );\n * delayedClicks.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link delay}\n * @see {@link throttle}\n * @see {@link throttleTime}\n * @see {@link debounce}\n * @see {@link debounceTime}\n * @see {@link sample}\n * @see {@link sampleTime}\n * @see {@link audit}\n * @see {@link auditTime}\n *\n * @param delayDurationSelector A function that returns an `ObservableInput` for\n * each `value` emitted by the source Observable, which is then used to delay the\n * emission of that `value` on the output Observable until the `ObservableInput`\n * returned from this function emits a next value. When called, beside `value`,\n * this function receives a zero-based `index` of the emission order.\n * @param subscriptionDelay An Observable that triggers the subscription to the\n * source Observable once it emits any value.\n * @return A function that returns an Observable that delays the emissions of\n * the source Observable by an amount of time specified by the Observable\n * returned by `delayDurationSelector`.\n */\nexport function delayWhen<T>(\n  delayDurationSelector: (value: T, index: number) => ObservableInput<any>,\n  subscriptionDelay?: Observable<any>\n): MonoTypeOperatorFunction<T> {\n  if (subscriptionDelay) {\n    // DEPRECATED PATH\n    return (source: Observable<T>) =>\n      concat(subscriptionDelay.pipe(take(1), ignoreElements()), source.pipe(delayWhen(delayDurationSelector)));\n  }\n\n  return mergeMap((value, index) => innerFrom(delayDurationSelector(value, index)).pipe(take(1), mapTo(value)));\n}\n", "import { asyncScheduler } from '../scheduler/async';\nimport { MonoTypeOperatorFunction, SchedulerLike } from '../types';\nimport { delayWhen } from './delayWhen';\nimport { timer } from '../observable/timer';\n\n/**\n * Delays the emission of items from the source Observable by a given timeout or\n * until a given Date.\n *\n * <span class=\"informal\">Time shifts each item by some specified amount of\n * milliseconds.</span>\n *\n * ![](delay.svg)\n *\n * If the delay argument is a Number, this operator time shifts the source\n * Observable by that amount of time expressed in milliseconds. The relative\n * time intervals between the values are preserved.\n *\n * If the delay argument is a Date, this operator time shifts the start of the\n * Observable execution until the given date occurs.\n *\n * ## Examples\n *\n * Delay each click by one second\n *\n * ```ts\n * import { fromEvent, delay } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const delayedClicks = clicks.pipe(delay(1000)); // each click emitted after 1 second\n * delayedClicks.subscribe(x => console.log(x));\n * ```\n *\n * Delay all clicks until a future date happens\n *\n * ```ts\n * import { fromEvent, delay } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const date = new Date('March 15, 2050 12:00:00'); // in the future\n * const delayedClicks = clicks.pipe(delay(date)); // click emitted only after that date\n * delayedClicks.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link delayWhen}\n * @see {@link throttle}\n * @see {@link throttleTime}\n * @see {@link debounce}\n * @see {@link debounceTime}\n * @see {@link sample}\n * @see {@link sampleTime}\n * @see {@link audit}\n * @see {@link auditTime}\n *\n * @param {number|Date} due The delay duration in milliseconds (a `number`) or\n * a `Date` until which the emission of the source items is delayed.\n * @param {SchedulerLike} [scheduler=async] The {@link SchedulerLike} to use for\n * managing the timers that handle the time-shift for each item.\n * @return A function that returns an Observable that delays the emissions of\n * the source Observable by the specified timeout or Date.\n */\nexport function delay<T>(due: number | Date, scheduler: SchedulerLike = asyncScheduler): MonoTypeOperatorFunction<T> {\n  const duration = timer(due, scheduler);\n  return delayWhen(() => duration);\n}\n", "import { MonoTypeOperatorFunction } from '../types';\nimport { identity } from '../util/identity';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\n\nexport function distinctUntilChanged<T>(comparator?: (previous: T, current: T) => boolean): MonoTypeOperatorFunction<T>;\nexport function distinctUntilChanged<T, K>(\n  comparator: (previous: K, current: K) => boolean,\n  keySelector: (value: T) => K\n): MonoTypeOperatorFunction<T>;\n\n/**\n * Returns a result {@link Observable} that emits all values pushed by the source observable if they\n * are distinct in comparison to the last value the result observable emitted.\n *\n * When provided without parameters or with the first parameter (`{@link distinctUntilChanged#comparator comparator}`),\n * it behaves like this:\n *\n * 1. It will always emit the first value from the source.\n * 2. For all subsequent values pushed by the source, they will be compared to the previously emitted values\n *    using the provided `comparator` or an `===` equality check.\n * 3. If the value pushed by the source is determined to be unequal by this check, that value is emitted and\n *    becomes the new \"previously emitted value\" internally.\n *\n * When the second parameter (`{@link distinctUntilChanged#keySelector keySelector}`) is provided, the behavior\n * changes:\n *\n * 1. It will always emit the first value from the source.\n * 2. The `keySelector` will be run against all values, including the first value.\n * 3. For all values after the first, the selected key will be compared against the key selected from\n *    the previously emitted value using the `comparator`.\n * 4. If the keys are determined to be unequal by this check, the value (not the key), is emitted\n *    and the selected key from that value is saved for future comparisons against other keys.\n *\n * ## Examples\n *\n * A very basic example with no `{@link distinctUntilChanged#comparator comparator}`. Note that `1` is emitted more than once,\n * because it's distinct in comparison to the _previously emitted_ value,\n * not in comparison to _all other emitted values_.\n *\n * ```ts\n * import { of, distinctUntilChanged } from 'rxjs';\n *\n * of(1, 1, 1, 2, 2, 2, 1, 1, 3, 3)\n *   .pipe(distinctUntilChanged())\n *   .subscribe(console.log);\n * // Logs: 1, 2, 1, 3\n * ```\n *\n * With a `{@link distinctUntilChanged#comparator comparator}`, you can do custom comparisons. Let's say\n * you only want to emit a value when all of its components have\n * changed:\n *\n * ```ts\n * import { of, distinctUntilChanged } from 'rxjs';\n *\n * const totallyDifferentBuilds$ = of(\n *   { engineVersion: '1.1.0', transmissionVersion: '1.2.0' },\n *   { engineVersion: '1.1.0', transmissionVersion: '1.4.0' },\n *   { engineVersion: '1.3.0', transmissionVersion: '1.4.0' },\n *   { engineVersion: '1.3.0', transmissionVersion: '1.5.0' },\n *   { engineVersion: '2.0.0', transmissionVersion: '1.5.0' }\n * ).pipe(\n *   distinctUntilChanged((prev, curr) => {\n *     return (\n *       prev.engineVersion === curr.engineVersion ||\n *       prev.transmissionVersion === curr.transmissionVersion\n *     );\n *   })\n * );\n *\n * totallyDifferentBuilds$.subscribe(console.log);\n *\n * // Logs:\n * // { engineVersion: '1.1.0', transmissionVersion: '1.2.0' }\n * // { engineVersion: '1.3.0', transmissionVersion: '1.4.0' }\n * // { engineVersion: '2.0.0', transmissionVersion: '1.5.0' }\n * ```\n *\n * You can also provide a custom `{@link distinctUntilChanged#comparator comparator}` to check that emitted\n * changes are only in one direction. Let's say you only want to get\n * the next record temperature:\n *\n * ```ts\n * import { of, distinctUntilChanged } from 'rxjs';\n *\n * const temps$ = of(30, 31, 20, 34, 33, 29, 35, 20);\n *\n * const recordHighs$ = temps$.pipe(\n *   distinctUntilChanged((prevHigh, temp) => {\n *     // If the current temp is less than\n *     // or the same as the previous record,\n *     // the record hasn't changed.\n *     return temp <= prevHigh;\n *   })\n * );\n *\n * recordHighs$.subscribe(console.log);\n * // Logs: 30, 31, 34, 35\n * ```\n *\n * Selecting update events only when the `updatedBy` field shows\n * the account changed hands.\n *\n * ```ts\n * import { of, distinctUntilChanged } from 'rxjs';\n *\n * // A stream of updates to a given account\n * const accountUpdates$ = of(\n *   { updatedBy: 'blesh', data: [] },\n *   { updatedBy: 'blesh', data: [] },\n *   { updatedBy: 'ncjamieson', data: [] },\n *   { updatedBy: 'ncjamieson', data: [] },\n *   { updatedBy: 'blesh', data: [] }\n * );\n *\n * // We only want the events where it changed hands\n * const changedHands$ = accountUpdates$.pipe(\n *   distinctUntilChanged(undefined, update => update.updatedBy)\n * );\n *\n * changedHands$.subscribe(console.log);\n * // Logs:\n * // { updatedBy: 'blesh', data: Array[0] }\n * // { updatedBy: 'ncjamieson', data: Array[0] }\n * // { updatedBy: 'blesh', data: Array[0] }\n * ```\n *\n * @see {@link distinct}\n * @see {@link distinctUntilKeyChanged}\n *\n * @param comparator A function used to compare the previous and current keys for\n * equality. Defaults to a `===` check.\n * @param keySelector Used to select a key value to be passed to the `comparator`.\n *\n * @return A function that returns an Observable that emits items from the\n * source Observable with distinct values.\n */\nexport function distinctUntilChanged<T, K>(\n  comparator?: (previous: K, current: K) => boolean,\n  keySelector: (value: T) => K = identity as (value: T) => K\n): MonoTypeOperatorFunction<T> {\n  // We've been allowing `null` do be passed as the `compare`, so we can't do\n  // a default value for the parameter, because that will only work\n  // for `undefined`.\n  comparator = comparator ?? defaultCompare;\n\n  return operate((source, subscriber) => {\n    // The previous key, used to compare against keys selected\n    // from new arrivals to determine \"distinctiveness\".\n    let previousKey: K;\n    // Whether or not this is the first value we've gotten.\n    let first = true;\n\n    source.subscribe(\n      createOperatorSubscriber(subscriber, (value) => {\n        // We always call the key selector.\n        const currentKey = keySelector(value);\n\n        // If it's the first value, we always emit it.\n        // Otherwise, we compare this key to the previous key, and\n        // if the comparer returns false, we emit.\n        if (first || !comparator!(previousKey, currentKey)) {\n          // Update our state *before* we emit the value\n          // as emission can be the source of re-entrant code\n          // in functional libraries like this. We only really\n          // need to do this if it's the first value, or if the\n          // key we're tracking in previous needs to change.\n          first = false;\n          previousKey = currentKey;\n\n          // Emit the value!\n          subscriber.next(value);\n        }\n      })\n    );\n  });\n}\n\nfunction defaultCompare(a: any, b: any) {\n  return a === b;\n}\n", "import { distinctUntilChanged } from './distinctUntilChanged';\nimport { MonoTypeOperatorFunction } from '../types';\n\n/* tslint:disable:max-line-length */\nexport function distinctUntilKeyChanged<T>(key: keyof T): MonoTypeOperatorFunction<T>;\nexport function distinctUntilKeyChanged<T, K extends keyof T>(key: K, compare: (x: T[K], y: T[K]) => boolean): MonoTypeOperatorFunction<T>;\n/* tslint:enable:max-line-length */\n\n/**\n * Returns an Observable that emits all items emitted by the source Observable that are distinct by comparison from the previous item,\n * using a property accessed by using the key provided to check if the two items are distinct.\n *\n * If a comparator function is provided, then it will be called for each item to test for whether or not that value should be emitted.\n *\n * If a comparator function is not provided, an equality check is used by default.\n *\n * ## Examples\n *\n * An example comparing the name of persons\n *\n * ```ts\n * import { of, distinctUntilKeyChanged } from 'rxjs';\n *\n * of(\n *   { age: 4, name: 'Foo' },\n *   { age: 7, name: 'Bar' },\n *   { age: 5, name: 'Foo' },\n *   { age: 6, name: 'Foo' }\n * ).pipe(\n *   distinctUntilKeyChanged('name')\n * )\n * .subscribe(x => console.log(x));\n *\n * // displays:\n * // { age: 4, name: 'Foo' }\n * // { age: 7, name: 'Bar' }\n * // { age: 5, name: 'Foo' }\n * ```\n *\n * An example comparing the first letters of the name\n *\n * ```ts\n * import { of, distinctUntilKeyChanged } from 'rxjs';\n *\n * of(\n *   { age: 4, name: 'Foo1' },\n *   { age: 7, name: 'Bar' },\n *   { age: 5, name: 'Foo2' },\n *   { age: 6, name: 'Foo3' }\n * ).pipe(\n *   distinctUntilKeyChanged('name', (x, y) => x.substring(0, 3) === y.substring(0, 3))\n * )\n * .subscribe(x => console.log(x));\n *\n * // displays:\n * // { age: 4, name: 'Foo1' }\n * // { age: 7, name: 'Bar' }\n * // { age: 5, name: 'Foo2' }\n * ```\n *\n * @see {@link distinct}\n * @see {@link distinctUntilChanged}\n *\n * @param {string} key String key for object property lookup on each item.\n * @param {function} [compare] Optional comparison function called to test if an item is distinct from the previous item in the source.\n * @return A function that returns an Observable that emits items from the\n * source Observable with distinct values based on the key specified.\n */\nexport function distinctUntilKeyChanged<T, K extends keyof T>(key: K, compare?: (x: T[K], y: T[K]) => boolean): MonoTypeOperatorFunction<T> {\n  return distinctUntilChanged((x: T, y: T) => compare ? compare(x[key], y[key]) : x[key] === y[key]);\n}\n", "import { EmptyError } from '../util/EmptyError';\nimport { MonoTypeOperatorFunction } from '../types';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\n\n/**\n * If the source observable completes without emitting a value, it will emit\n * an error. The error will be created at that time by the optional\n * `errorFactory` argument, otherwise, the error will be {@link EmptyError}.\n *\n * ![](throwIfEmpty.png)\n *\n * ## Example\n *\n * Throw an error if the document wasn't clicked within 1 second\n *\n * ```ts\n * import { fromEvent, takeUntil, timer, throwIfEmpty } from 'rxjs';\n *\n * const click$ = fromEvent(document, 'click');\n *\n * click$.pipe(\n *   takeUntil(timer(1000)),\n *   throwIfEmpty(() => new Error('The document was not clicked within 1 second'))\n * )\n * .subscribe({\n *   next() {\n *    console.log('The document was clicked');\n *   },\n *   error(err) {\n *     console.error(err.message);\n *   }\n * });\n * ```\n *\n * @param errorFactory A factory function called to produce the\n * error to be thrown when the source observable completes without emitting a\n * value.\n * @return A function that returns an Observable that throws an error if the\n * source Observable completed without emitting.\n */\nexport function throwIfEmpty<T>(errorFactory: () => any = defaultErrorFactory): MonoTypeOperatorFunction<T> {\n  return operate((source, subscriber) => {\n    let hasValue = false;\n    source.subscribe(\n      createOperatorSubscriber(\n        subscriber,\n        (value) => {\n          hasValue = true;\n          subscriber.next(value);\n        },\n        () => (hasValue ? subscriber.complete() : subscriber.error(errorFactory()))\n      )\n    );\n  });\n}\n\nfunction defaultErrorFactory() {\n  return new EmptyError();\n}\n", "/** prettier */\nimport { Observable } from '../Observable';\nimport { concat } from '../observable/concat';\nimport { of } from '../observable/of';\nimport { MonoTypeOperatorFunction, SchedulerLike, OperatorFunction, ValueFromArray } from '../types';\n\n/** @deprecated The `scheduler` parameter will be removed in v8. Use `scheduled` and `concatAll`. Details: https://rxjs.dev/deprecations/scheduler-argument */\nexport function endWith<T>(scheduler: SchedulerLike): MonoTypeOperatorFunction<T>;\n/** @deprecated The `scheduler` parameter will be removed in v8. Use `scheduled` and `concatAll`. Details: https://rxjs.dev/deprecations/scheduler-argument */\nexport function endWith<T, A extends unknown[] = T[]>(\n  ...valuesAndScheduler: [...A, SchedulerLike]\n): OperatorFunction<T, T | ValueFromArray<A>>;\n\nexport function endWith<T, A extends unknown[] = T[]>(...values: A): OperatorFunction<T, T | ValueFromArray<A>>;\n\n/**\n * Returns an observable that will emit all values from the source, then synchronously emit\n * the provided value(s) immediately after the source completes.\n *\n * NOTE: Passing a last argument of a Scheduler is _deprecated_, and may result in incorrect\n * types in TypeScript.\n *\n * This is useful for knowing when an observable ends. Particularly when paired with an\n * operator like {@link takeUntil}\n *\n * ![](endWith.png)\n *\n * ## Example\n *\n * Emit values to know when an interval starts and stops. The interval will\n * stop when a user clicks anywhere on the document.\n *\n * ```ts\n * import { interval, map, fromEvent, startWith, takeUntil, endWith } from 'rxjs';\n *\n * const ticker$ = interval(5000).pipe(\n *   map(() => 'tick')\n * );\n *\n * const documentClicks$ = fromEvent(document, 'click');\n *\n * ticker$.pipe(\n *   startWith('interval started'),\n *   takeUntil(documentClicks$),\n *   endWith('interval ended by click')\n * )\n * .subscribe(x => console.log(x));\n *\n * // Result (assuming a user clicks after 15 seconds)\n * // 'interval started'\n * // 'tick'\n * // 'tick'\n * // 'tick'\n * // 'interval ended by click'\n * ```\n *\n * @see {@link startWith}\n * @see {@link concat}\n * @see {@link takeUntil}\n *\n * @param values Items you want the modified Observable to emit last.\n * @return A function that returns an Observable that emits all values from the\n * source, then synchronously emits the provided value(s) immediately after the\n * source completes.\n */\nexport function endWith<T>(...values: Array<T | SchedulerLike>): MonoTypeOperatorFunction<T> {\n  return (source: Observable<T>) => concat(source, of(...values)) as Observable<T>;\n}\n", "import { MonoTypeOperatorFunction } from '../types';\nimport { operate } from '../util/lift';\n\n/**\n * Returns an Observable that mirrors the source Observable, but will call a specified function when\n * the source terminates on complete or error.\n * The specified function will also be called when the subscriber explicitly unsubscribes.\n *\n * ## Examples\n *\n * Execute callback function when the observable completes\n *\n * ```ts\n * import { interval, take, finalize } from 'rxjs';\n *\n * // emit value in sequence every 1 second\n * const source = interval(1000);\n * const example = source.pipe(\n *   take(5), //take only the first 5 values\n *   finalize(() => console.log('Sequence complete')) // Execute when the observable completes\n * );\n * const subscribe = example.subscribe(val => console.log(val));\n *\n * // results:\n * // 0\n * // 1\n * // 2\n * // 3\n * // 4\n * // 'Sequence complete'\n * ```\n *\n * Execute callback function when the subscriber explicitly unsubscribes\n *\n * ```ts\n * import { interval, finalize, tap, noop, timer } from 'rxjs';\n *\n * const source = interval(100).pipe(\n *   finalize(() => console.log('[finalize] Called')),\n *   tap({\n *     next: () => console.log('[next] Called'),\n *     error: () => console.log('[error] Not called'),\n *     complete: () => console.log('[tap complete] Not called')\n *   })\n * );\n *\n * const sub = source.subscribe({\n *   next: x => console.log(x),\n *   error: noop,\n *   complete: () => console.log('[complete] Not called')\n * });\n *\n * timer(150).subscribe(() => sub.unsubscribe());\n *\n * // results:\n * // '[next] Called'\n * // 0\n * // '[finalize] Called'\n * ```\n *\n * @param {function} callback Function to be called when source terminates.\n * @return A function that returns an Observable that mirrors the source, but\n * will call the specified function on termination.\n */\nexport function finalize<T>(callback: () => void): MonoTypeOperatorFunction<T> {\n  return operate((source, subscriber) => {\n    // TODO: This try/finally was only added for `useDeprecatedSynchronousErrorHandling`.\n    // REMOVE THIS WHEN THAT HOT GARBAGE IS REMOVED IN V8.\n    try {\n      source.subscribe(subscriber);\n    } finally {\n      subscriber.add(callback);\n    }\n  });\n}\n", "import { Observable } from '../Observable';\nimport { EmptyError } from '../util/EmptyError';\nimport { OperatorFunction, TruthyTypesOf } from '../types';\nimport { filter } from './filter';\nimport { take } from './take';\nimport { defaultIfEmpty } from './defaultIfEmpty';\nimport { throwIfEmpty } from './throwIfEmpty';\nimport { identity } from '../util/identity';\n\nexport function first<T, D = T>(predicate?: null, defaultValue?: D): OperatorFunction<T, T | D>;\nexport function first<T>(predicate: BooleanConstructor): OperatorFunction<T, TruthyTypesOf<T>>;\nexport function first<T, D>(predicate: BooleanConstructor, defaultValue: D): OperatorFunction<T, TruthyTypesOf<T> | D>;\nexport function first<T, S extends T>(\n  predicate: (value: T, index: number, source: Observable<T>) => value is S,\n  defaultValue?: S\n): OperatorFunction<T, S>;\nexport function first<T, S extends T, D>(\n  predicate: (value: T, index: number, source: Observable<T>) => value is S,\n  defaultValue: D\n): OperatorFunction<T, S | D>;\nexport function first<T, D = T>(\n  predicate: (value: T, index: number, source: Observable<T>) => boolean,\n  defaultValue?: D\n): OperatorFunction<T, T | D>;\n\n/**\n * Emits only the first value (or the first value that meets some condition)\n * emitted by the source Observable.\n *\n * <span class=\"informal\">Emits only the first value. Or emits only the first\n * value that passes some test.</span>\n *\n * ![](first.png)\n *\n * If called with no arguments, `first` emits the first value of the source\n * Observable, then completes. If called with a `predicate` function, `first`\n * emits the first value of the source that matches the specified condition. Throws an error if\n * `defaultValue` was not provided and a matching element is not found.\n *\n * ## Examples\n *\n * Emit only the first click that happens on the DOM\n *\n * ```ts\n * import { fromEvent, first } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const result = clicks.pipe(first());\n * result.subscribe(x => console.log(x));\n * ```\n *\n * Emits the first click that happens on a DIV\n *\n * ```ts\n * import { fromEvent, first } from 'rxjs';\n *\n * const div = document.createElement('div');\n * div.style.cssText = 'width: 200px; height: 200px; background: #09c;';\n * document.body.appendChild(div);\n *\n * const clicks = fromEvent(document, 'click');\n * const result = clicks.pipe(first(ev => (<HTMLElement>ev.target).tagName === 'DIV'));\n * result.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link filter}\n * @see {@link find}\n * @see {@link take}\n *\n * @throws {EmptyError} Delivers an EmptyError to the Observer's `error`\n * callback if the Observable completes before any `next` notification was sent.\n * This is how `first()` is different from {@link take}(1) which completes instead.\n *\n * @param {function(value: T, index: number, source: Observable<T>): boolean} [predicate]\n * An optional function called with each item to test for condition matching.\n * @param {D} [defaultValue] The default value emitted in case no valid value\n * was found on the source.\n * @return A function that returns an Observable that emits the first item that\n * matches the condition.\n */\nexport function first<T, D>(\n  predicate?: ((value: T, index: number, source: Observable<T>) => boolean) | null,\n  defaultValue?: D\n): OperatorFunction<T, T | D> {\n  const hasDefaultValue = arguments.length >= 2;\n  return (source: Observable<T>) =>\n    source.pipe(\n      predicate ? filter((v, i) => predicate(v, i, source)) : identity,\n      take(1),\n      hasDefaultValue ? defaultIfEmpty(defaultValue!) : throwIfEmpty(() => new EmptyError())\n    );\n}\n", "import { EMPTY } from '../observable/empty';\nimport { MonoTypeOperatorFunction } from '../types';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\n\n/**\n * Waits for the source to complete, then emits the last N values from the source,\n * as specified by the `count` argument.\n *\n * ![](takeLast.png)\n *\n * `takeLast` results in an observable that will hold values up to `count` values in memory,\n * until the source completes. It then pushes all values in memory to the consumer, in the\n * order they were received from the source, then notifies the consumer that it is\n * complete.\n *\n * If for some reason the source completes before the `count` supplied to `takeLast` is reached,\n * all values received until that point are emitted, and then completion is notified.\n *\n * **Warning**: Using `takeLast` with an observable that never completes will result\n * in an observable that never emits a value.\n *\n * ## Example\n *\n * Take the last 3 values of an Observable with many values\n *\n * ```ts\n * import { range, takeLast } from 'rxjs';\n *\n * const many = range(1, 100);\n * const lastThree = many.pipe(takeLast(3));\n * lastThree.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link take}\n * @see {@link takeUntil}\n * @see {@link takeWhile}\n * @see {@link skip}\n *\n * @param count The maximum number of values to emit from the end of\n * the sequence of values emitted by the source Observable.\n * @return A function that returns an Observable that emits at most the last\n * `count` values emitted by the source Observable.\n */\nexport function takeLast<T>(count: number): MonoTypeOperatorFunction<T> {\n  return count <= 0\n    ? () => EMPTY\n    : operate((source, subscriber) => {\n        // This buffer will hold the values we are going to emit\n        // when the source completes. Since we only want to take the\n        // last N values, we can't emit until we're sure we're not getting\n        // any more values.\n        let buffer: T[] = [];\n        source.subscribe(\n          createOperatorSubscriber(\n            subscriber,\n            (value) => {\n              // Add the most recent value onto the end of our buffer.\n              buffer.push(value);\n              // If our buffer is now larger than the number of values we\n              // want to take, we remove the oldest value from the buffer.\n              count < buffer.length && buffer.shift();\n            },\n            () => {\n              // The source completed, we now know what are last values\n              // are, emit them in the order they were received.\n              for (const value of buffer) {\n                subscriber.next(value);\n              }\n              subscriber.complete();\n            },\n            // Errors are passed through to the consumer\n            undefined,\n            () => {\n              // During finalization release the values in our buffer.\n              buffer = null!;\n            }\n          )\n        );\n      });\n}\n", "import { ObservableInput, ObservableInputTuple, OperatorFunction, SchedulerLike } from '../types';\nimport { operate } from '../util/lift';\nimport { argsOrArgArray } from '../util/argsOrArgArray';\nimport { mergeAll } from './mergeAll';\nimport { popNumber, popScheduler } from '../util/args';\nimport { from } from '../observable/from';\n\n/** @deprecated Replaced with {@link mergeWith}. Will be removed in v8. */\nexport function merge<T, A extends readonly unknown[]>(...sources: [...ObservableInputTuple<A>]): OperatorFunction<T, T | A[number]>;\n/** @deprecated Replaced with {@link mergeWith}. Will be removed in v8. */\nexport function merge<T, A extends readonly unknown[]>(\n  ...sourcesAndConcurrency: [...ObservableInputTuple<A>, number]\n): OperatorFunction<T, T | A[number]>;\n/** @deprecated Replaced with {@link mergeWith}. Will be removed in v8. */\nexport function merge<T, A extends readonly unknown[]>(\n  ...sourcesAndScheduler: [...ObservableInputTuple<A>, SchedulerLike]\n): OperatorFunction<T, T | A[number]>;\n/** @deprecated Replaced with {@link mergeWith}. Will be removed in v8. */\nexport function merge<T, A extends readonly unknown[]>(\n  ...sourcesAndConcurrencyAndScheduler: [...ObservableInputTuple<A>, number, SchedulerLike]\n): OperatorFunction<T, T | A[number]>;\n\nexport function merge<T>(...args: unknown[]): OperatorFunction<T, unknown> {\n  const scheduler = popScheduler(args);\n  const concurrent = popNumber(args, Infinity);\n  args = argsOrArgArray(args);\n\n  return operate((source, subscriber) => {\n    mergeAll(concurrent)(from([source, ...(args as ObservableInput<T>[])], scheduler)).subscribe(subscriber);\n  });\n}\n", "import { ObservableInputTuple, OperatorFunction } from '../types';\nimport { merge } from './merge';\n\n/**\n * Merge the values from all observables to a single observable result.\n *\n * Creates an observable, that when subscribed to, subscribes to the source\n * observable, and all other sources provided as arguments. All values from\n * every source are emitted from the resulting subscription.\n *\n * When all sources complete, the resulting observable will complete.\n *\n * When any source errors, the resulting observable will error.\n *\n * ## Example\n *\n * Joining all outputs from multiple user input event streams\n *\n * ```ts\n * import { fromEvent, map, mergeWith } from 'rxjs';\n *\n * const clicks$ = fromEvent(document, 'click').pipe(map(() => 'click'));\n * const mousemoves$ = fromEvent(document, 'mousemove').pipe(map(() => 'mousemove'));\n * const dblclicks$ = fromEvent(document, 'dblclick').pipe(map(() => 'dblclick'));\n *\n * mousemoves$\n *   .pipe(mergeWith(clicks$, dblclicks$))\n *   .subscribe(x => console.log(x));\n *\n * // result (assuming user interactions)\n * // 'mousemove'\n * // 'mousemove'\n * // 'mousemove'\n * // 'click'\n * // 'click'\n * // 'dblclick'\n * ```\n *\n * @see {@link merge}\n *\n * @param otherSources the sources to combine the current source with.\n * @return A function that returns an Observable that merges the values from\n * all given Observables.\n */\nexport function mergeWith<T, A extends readonly unknown[]>(\n  ...otherSources: [...ObservableInputTuple<A>]\n): OperatorFunction<T, T | A[number]> {\n  return merge(...otherSources);\n}\n", "import { Subscription } from '../Subscription';\nimport { EMPTY } from '../observable/empty';\nimport { operate } from '../util/lift';\nimport { MonoTypeOperatorFunction, ObservableInput } from '../types';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\nimport { innerFrom } from '../observable/innerFrom';\nimport { timer } from '../observable/timer';\n\nexport interface RepeatConfig {\n  /**\n   * The number of times to repeat the source. Defaults to `Infinity`.\n   */\n  count?: number;\n\n  /**\n   * If a `number`, will delay the repeat of the source by that number of milliseconds.\n   * If a function, it will provide the number of times the source has been subscribed to,\n   * and the return value should be a valid observable input that will notify when the source\n   * should be repeated. If the notifier observable is empty, the result will complete.\n   */\n  delay?: number | ((count: number) => ObservableInput<any>);\n}\n\n/**\n * Returns an Observable that will resubscribe to the source stream when the source stream completes.\n *\n * <span class=\"informal\">Repeats all values emitted on the source. It's like {@link retry}, but for non error cases.</span>\n *\n * ![](repeat.png)\n *\n * Repeat will output values from a source until the source completes, then it will resubscribe to the\n * source a specified number of times, with a specified delay. Repeat can be particularly useful in\n * combination with closing operators like {@link take}, {@link takeUntil}, {@link first}, or {@link takeWhile},\n * as it can be used to restart a source again from scratch.\n *\n * Repeat is very similar to {@link retry}, where {@link retry} will resubscribe to the source in the error case, but\n * `repeat` will resubscribe if the source completes.\n *\n * Note that `repeat` will _not_ catch errors. Use {@link retry} for that.\n *\n * - `repeat(0)` returns an empty observable\n * - `repeat()` will repeat forever\n * - `repeat({ delay: 200 })` will repeat forever, with a delay of 200ms between repetitions.\n * - `repeat({ count: 2, delay: 400 })` will repeat twice, with a delay of 400ms between repetitions.\n * - `repeat({ delay: (count) => timer(count * 1000) })` will repeat forever, but will have a delay that grows by one second for each repetition.\n *\n * ## Example\n *\n * Repeat a message stream\n *\n * ```ts\n * import { of, repeat } from 'rxjs';\n *\n * const source = of('Repeat message');\n * const result = source.pipe(repeat(3));\n *\n * result.subscribe(x => console.log(x));\n *\n * // Results\n * // 'Repeat message'\n * // 'Repeat message'\n * // 'Repeat message'\n * ```\n *\n * Repeat 3 values, 2 times\n *\n * ```ts\n * import { interval, take, repeat } from 'rxjs';\n *\n * const source = interval(1000);\n * const result = source.pipe(take(3), repeat(2));\n *\n * result.subscribe(x => console.log(x));\n *\n * // Results every second\n * // 0\n * // 1\n * // 2\n * // 0\n * // 1\n * // 2\n * ```\n *\n * Defining two complex repeats with delays on the same source.\n * Note that the second repeat cannot be called until the first\n * repeat as exhausted it's count.\n *\n * ```ts\n * import { defer, of, repeat } from 'rxjs';\n *\n * const source = defer(() => {\n *    return of(`Hello, it is ${new Date()}`)\n * });\n *\n * source.pipe(\n *    // Repeat 3 times with a delay of 1 second between repetitions\n *    repeat({\n *      count: 3,\n *      delay: 1000,\n *    }),\n *\n *    // *Then* repeat forever, but with an exponential step-back\n *    // maxing out at 1 minute.\n *    repeat({\n *      delay: (count) => timer(Math.min(60000, 2 ^ count * 1000))\n *    })\n * )\n * ```\n *\n * @see {@link repeatWhen}\n * @see {@link retry}\n *\n * @param count The number of times the source Observable items are repeated, a count of 0 will yield\n * an empty Observable.\n */\nexport function repeat<T>(countOrConfig?: number | RepeatConfig): MonoTypeOperatorFunction<T> {\n  let count = Infinity;\n  let delay: RepeatConfig['delay'];\n\n  if (countOrConfig != null) {\n    if (typeof countOrConfig === 'object') {\n      ({ count = Infinity, delay } = countOrConfig);\n    } else {\n      count = countOrConfig;\n    }\n  }\n\n  return count <= 0\n    ? () => EMPTY\n    : operate((source, subscriber) => {\n        let soFar = 0;\n        let sourceSub: Subscription | null;\n\n        const resubscribe = () => {\n          sourceSub?.unsubscribe();\n          sourceSub = null;\n          if (delay != null) {\n            const notifier = typeof delay === 'number' ? timer(delay) : innerFrom(delay(soFar));\n            const notifierSubscriber = createOperatorSubscriber(subscriber, () => {\n              notifierSubscriber.unsubscribe();\n              subscribeToSource();\n            });\n            notifier.subscribe(notifierSubscriber);\n          } else {\n            subscribeToSource();\n          }\n        };\n\n        const subscribeToSource = () => {\n          let syncUnsub = false;\n          sourceSub = source.subscribe(\n            createOperatorSubscriber(subscriber, undefined, () => {\n              if (++soFar < count) {\n                if (sourceSub) {\n                  resubscribe();\n                } else {\n                  syncUnsub = true;\n                }\n              } else {\n                subscriber.complete();\n              }\n            })\n          );\n\n          if (syncUnsub) {\n            resubscribe();\n          }\n        };\n\n        subscribeToSource();\n      });\n}\n", "import { OperatorFunction } from '../types';\nimport { operate } from '../util/lift';\nimport { scanInternals } from './scanInternals';\n\nexport function scan<V, A = V>(accumulator: (acc: A | V, value: V, index: number) => A): OperatorFunction<V, V | A>;\nexport function scan<V, A>(accumulator: (acc: A, value: V, index: number) => A, seed: A): OperatorFunction<V, A>;\nexport function scan<V, A, S>(accumulator: (acc: A | S, value: V, index: number) => A, seed: S): OperatorFunction<V, A>;\n\n// TODO: link to a \"redux pattern\" section in the guide (location TBD)\n\n/**\n * Useful for encapsulating and managing state. Applies an accumulator (or \"reducer function\")\n * to each value from the source after an initial state is established -- either via\n * a `seed` value (second argument), or from the first value from the source.\n *\n * <span class=\"informal\">It's like {@link reduce}, but emits the current\n * accumulation state after each update</span>\n *\n * ![](scan.png)\n *\n * This operator maintains an internal state and emits it after processing each value as follows:\n *\n * 1. First value arrives\n *   - If a `seed` value was supplied (as the second argument to `scan`), let `state = seed` and `value = firstValue`.\n *   - If NO `seed` value was supplied (no second argument), let `state = firstValue` and go to 3.\n * 2. Let `state = accumulator(state, value)`.\n *   - If an error is thrown by `accumulator`, notify the consumer of an error. The process ends.\n * 3. Emit `state`.\n * 4. Next value arrives, let `value = nextValue`, go to 2.\n *\n * ## Examples\n *\n * An average of previous numbers. This example shows how\n * not providing a `seed` can prime the stream with the\n * first value from the source.\n *\n * ```ts\n * import { of, scan, map } from 'rxjs';\n *\n * const numbers$ = of(1, 2, 3);\n *\n * numbers$\n *   .pipe(\n *     // Get the sum of the numbers coming in.\n *     scan((total, n) => total + n),\n *     // Get the average by dividing the sum by the total number\n *     // received so far (which is 1 more than the zero-based index).\n *     map((sum, index) => sum / (index + 1))\n *   )\n *   .subscribe(console.log);\n * ```\n *\n * The Fibonacci sequence. This example shows how you can use\n * a seed to prime accumulation process. Also... you know... Fibonacci.\n * So important to like, computers and stuff that its whiteboarded\n * in job interviews. Now you can show them the Rx version! (Please don't, haha)\n *\n * ```ts\n * import { interval, scan, map, startWith } from 'rxjs';\n *\n * const firstTwoFibs = [0, 1];\n * // An endless stream of Fibonacci numbers.\n * const fibonacci$ = interval(1000).pipe(\n *   // Scan to get the fibonacci numbers (after 0, 1)\n *   scan(([a, b]) => [b, a + b], firstTwoFibs),\n *   // Get the second number in the tuple, it's the one you calculated\n *   map(([, n]) => n),\n *   // Start with our first two digits :)\n *   startWith(...firstTwoFibs)\n * );\n *\n * fibonacci$.subscribe(console.log);\n * ```\n *\n * @see {@link expand}\n * @see {@link mergeScan}\n * @see {@link reduce}\n * @see {@link switchScan}\n *\n * @param accumulator A \"reducer function\". This will be called for each value after an initial state is\n * acquired.\n * @param seed The initial state. If this is not provided, the first value from the source will\n * be used as the initial state, and emitted without going through the accumulator. All subsequent values\n * will be processed by the accumulator function. If this is provided, all values will go through\n * the accumulator function.\n * @return A function that returns an Observable of the accumulated values.\n */\nexport function scan<V, A, S>(accumulator: (acc: V | A | S, value: V, index: number) => A, seed?: S): OperatorFunction<V, V | A> {\n  // providing a seed of `undefined` *should* be valid and trigger\n  // hasSeed! so don't use `seed !== undefined` checks!\n  // For this reason, we have to check it here at the original call site\n  // otherwise inside Operator/Subscriber we won't know if `undefined`\n  // means they didn't provide anything or if they literally provided `undefined`\n  return operate(scanInternals(accumulator, seed as S, arguments.length >= 2, true));\n}\n", "import { innerFrom } from '../observable/innerFrom';\nimport { Subject } from '../Subject';\nimport { SafeSubscriber } from '../Subscriber';\nimport { Subscription } from '../Subscription';\nimport { MonoTypeOperatorFunction, SubjectLike, ObservableInput } from '../types';\nimport { operate } from '../util/lift';\n\nexport interface ShareConfig<T> {\n  /**\n   * The factory used to create the subject that will connect the source observable to\n   * multicast consumers.\n   */\n  connector?: () => SubjectLike<T>;\n  /**\n   * If `true`, the resulting observable will reset internal state on error from source and return to a \"cold\" state. This\n   * allows the resulting observable to be \"retried\" in the event of an error.\n   * If `false`, when an error comes from the source it will push the error into the connecting subject, and the subject\n   * will remain the connecting subject, meaning the resulting observable will not go \"cold\" again, and subsequent retries\n   * or resubscriptions will resubscribe to that same subject. In all cases, RxJS subjects will emit the same error again, however\n   * {@link ReplaySubject} will also push its buffered values before pushing the error.\n   * It is also possible to pass a notifier factory returning an `ObservableInput` instead which grants more fine-grained\n   * control over how and when the reset should happen. This allows behaviors like conditional or delayed resets.\n   */\n  resetOnError?: boolean | ((error: any) => ObservableInput<any>);\n  /**\n   * If `true`, the resulting observable will reset internal state on completion from source and return to a \"cold\" state. This\n   * allows the resulting observable to be \"repeated\" after it is done.\n   * If `false`, when the source completes, it will push the completion through the connecting subject, and the subject\n   * will remain the connecting subject, meaning the resulting observable will not go \"cold\" again, and subsequent repeats\n   * or resubscriptions will resubscribe to that same subject.\n   * It is also possible to pass a notifier factory returning an `ObservableInput` instead which grants more fine-grained\n   * control over how and when the reset should happen. This allows behaviors like conditional or delayed resets.\n   */\n  resetOnComplete?: boolean | (() => ObservableInput<any>);\n  /**\n   * If `true`, when the number of subscribers to the resulting observable reaches zero due to those subscribers unsubscribing, the\n   * internal state will be reset and the resulting observable will return to a \"cold\" state. This means that the next\n   * time the resulting observable is subscribed to, a new subject will be created and the source will be subscribed to\n   * again.\n   * If `false`, when the number of subscribers to the resulting observable reaches zero due to unsubscription, the subject\n   * will remain connected to the source, and new subscriptions to the result will be connected through that same subject.\n   * It is also possible to pass a notifier factory returning an `ObservableInput` instead which grants more fine-grained\n   * control over how and when the reset should happen. This allows behaviors like conditional or delayed resets.\n   */\n  resetOnRefCountZero?: boolean | (() => ObservableInput<any>);\n}\n\nexport function share<T>(): MonoTypeOperatorFunction<T>;\n\nexport function share<T>(options: ShareConfig<T>): MonoTypeOperatorFunction<T>;\n\n/**\n * Returns a new Observable that multicasts (shares) the original Observable. As long as there is at least one\n * Subscriber this Observable will be subscribed and emitting data. When all subscribers have unsubscribed it will\n * unsubscribe from the source Observable. Because the Observable is multicasting it makes the stream `hot`.\n * This is an alias for `multicast(() => new Subject()), refCount()`.\n *\n * The subscription to the underlying source Observable can be reset (unsubscribe and resubscribe for new subscribers),\n * if the subscriber count to the shared observable drops to 0, or if the source Observable errors or completes. It is\n * possible to use notifier factories for the resets to allow for behaviors like conditional or delayed resets. Please\n * note that resetting on error or complete of the source Observable does not behave like a transparent retry or restart\n * of the source because the error or complete will be forwarded to all subscribers and their subscription will be\n * closed. Only new subscribers after a reset on error or complete happened will cause a fresh subscription to the\n * source. To achieve transparent retries or restarts pipe the source through appropriate operators before sharing.\n *\n * ![](share.png)\n *\n * ## Example\n *\n * Generate new multicast Observable from the `source` Observable value\n *\n * ```ts\n * import { interval, tap, map, take, share } from 'rxjs';\n *\n * const source = interval(1000).pipe(\n *   tap(x => console.log('Processing: ', x)),\n *   map(x => x * x),\n *   take(6),\n *   share()\n * );\n *\n * source.subscribe(x => console.log('subscription 1: ', x));\n * source.subscribe(x => console.log('subscription 2: ', x));\n *\n * // Logs:\n * // Processing: 0\n * // subscription 1: 0\n * // subscription 2: 0\n * // Processing: 1\n * // subscription 1: 1\n * // subscription 2: 1\n * // Processing: 2\n * // subscription 1: 4\n * // subscription 2: 4\n * // Processing: 3\n * // subscription 1: 9\n * // subscription 2: 9\n * // Processing: 4\n * // subscription 1: 16\n * // subscription 2: 16\n * // Processing: 5\n * // subscription 1: 25\n * // subscription 2: 25\n * ```\n *\n * ## Example with notifier factory: Delayed reset\n *\n * ```ts\n * import { interval, take, share, timer } from 'rxjs';\n *\n * const source = interval(1000).pipe(\n *   take(3),\n *   share({\n *     resetOnRefCountZero: () => timer(1000)\n *   })\n * );\n *\n * const subscriptionOne = source.subscribe(x => console.log('subscription 1: ', x));\n * setTimeout(() => subscriptionOne.unsubscribe(), 1300);\n *\n * setTimeout(() => source.subscribe(x => console.log('subscription 2: ', x)), 1700);\n *\n * setTimeout(() => source.subscribe(x => console.log('subscription 3: ', x)), 5000);\n *\n * // Logs:\n * // subscription 1:  0\n * // (subscription 1 unsubscribes here)\n * // (subscription 2 subscribes here ~400ms later, source was not reset)\n * // subscription 2:  1\n * // subscription 2:  2\n * // (subscription 2 unsubscribes here)\n * // (subscription 3 subscribes here ~2000ms later, source did reset before)\n * // subscription 3:  0\n * // subscription 3:  1\n * // subscription 3:  2\n * ```\n *\n * @see {@link shareReplay}\n *\n * @return A function that returns an Observable that mirrors the source.\n */\nexport function share<T>(options: ShareConfig<T> = {}): MonoTypeOperatorFunction<T> {\n  const { connector = () => new Subject<T>(), resetOnError = true, resetOnComplete = true, resetOnRefCountZero = true } = options;\n  // It's necessary to use a wrapper here, as the _operator_ must be\n  // referentially transparent. Otherwise, it cannot be used in calls to the\n  // static `pipe` function - to create a partial pipeline.\n  //\n  // The _operator function_ - the function returned by the _operator_ - will\n  // not be referentially transparent - as it shares its source - but the\n  // _operator function_ is called when the complete pipeline is composed via a\n  // call to a source observable's `pipe` method - not when the static `pipe`\n  // function is called.\n  return (wrapperSource) => {\n    let connection: SafeSubscriber<T> | undefined;\n    let resetConnection: Subscription | undefined;\n    let subject: SubjectLike<T> | undefined;\n    let refCount = 0;\n    let hasCompleted = false;\n    let hasErrored = false;\n\n    const cancelReset = () => {\n      resetConnection?.unsubscribe();\n      resetConnection = undefined;\n    };\n    // Used to reset the internal state to a \"cold\"\n    // state, as though it had never been subscribed to.\n    const reset = () => {\n      cancelReset();\n      connection = subject = undefined;\n      hasCompleted = hasErrored = false;\n    };\n    const resetAndUnsubscribe = () => {\n      // We need to capture the connection before\n      // we reset (if we need to reset).\n      const conn = connection;\n      reset();\n      conn?.unsubscribe();\n    };\n\n    return operate<T, T>((source, subscriber) => {\n      refCount++;\n      if (!hasErrored && !hasCompleted) {\n        cancelReset();\n      }\n\n      // Create the subject if we don't have one yet. Grab a local reference to\n      // it as well, which avoids non-null assertions when using it and, if we\n      // connect to it now, then error/complete need a reference after it was\n      // reset.\n      const dest = (subject = subject ?? connector());\n\n      // Add the finalization directly to the subscriber - instead of returning it -\n      // so that the handling of the subscriber's unsubscription will be wired\n      // up _before_ the subscription to the source occurs. This is done so that\n      // the assignment to the source connection's `closed` property will be seen\n      // by synchronous firehose sources.\n      subscriber.add(() => {\n        refCount--;\n\n        // If we're resetting on refCount === 0, and it's 0, we only want to do\n        // that on \"unsubscribe\", really. Resetting on error or completion is a different\n        // configuration.\n        if (refCount === 0 && !hasErrored && !hasCompleted) {\n          resetConnection = handleReset(resetAndUnsubscribe, resetOnRefCountZero);\n        }\n      });\n\n      // The following line adds the subscription to the subscriber passed.\n      // Basically, `subscriber === dest.subscribe(subscriber)` is `true`.\n      dest.subscribe(subscriber);\n\n      if (\n        !connection &&\n        // Check this shareReplay is still activate - it can be reset to 0\n        // and be \"unsubscribed\" _before_ it actually subscribes.\n        // If we were to subscribe then, it'd leak and get stuck.\n        refCount > 0\n      ) {\n        // We need to create a subscriber here - rather than pass an observer and\n        // assign the returned subscription to connection - because it's possible\n        // for reentrant subscriptions to the shared observable to occur and in\n        // those situations we want connection to be already-assigned so that we\n        // don't create another connection to the source.\n        connection = new SafeSubscriber({\n          next: (value) => dest.next(value),\n          error: (err) => {\n            hasErrored = true;\n            cancelReset();\n            resetConnection = handleReset(reset, resetOnError, err);\n            dest.error(err);\n          },\n          complete: () => {\n            hasCompleted = true;\n            cancelReset();\n            resetConnection = handleReset(reset, resetOnComplete);\n            dest.complete();\n          },\n        });\n        innerFrom(source).subscribe(connection);\n      }\n    })(wrapperSource);\n  };\n}\n\nfunction handleReset<T extends unknown[] = never[]>(\n  reset: () => void,\n  on: boolean | ((...args: T) => ObservableInput<any>),\n  ...args: T\n): Subscription | undefined {\n  if (on === true) {\n    reset();\n    return;\n  }\n\n  if (on === false) {\n    return;\n  }\n\n  const onSubscriber = new SafeSubscriber({\n    next: () => {\n      onSubscriber.unsubscribe();\n      reset();\n    },\n  });\n\n  return innerFrom(on(...args)).subscribe(onSubscriber);\n}\n", "import { ReplaySubject } from '../ReplaySubject';\nimport { MonoTypeOperatorFunction, SchedulerLike } from '../types';\nimport { share } from './share';\n\nexport interface ShareReplayConfig {\n  bufferSize?: number;\n  windowTime?: number;\n  refCount: boolean;\n  scheduler?: SchedulerLike;\n}\n\nexport function shareReplay<T>(config: ShareReplayConfig): MonoTypeOperatorFunction<T>;\nexport function shareReplay<T>(bufferSize?: number, windowTime?: number, scheduler?: SchedulerLike): MonoTypeOperatorFunction<T>;\n\n/**\n * Share source and replay specified number of emissions on subscription.\n *\n * This operator is a specialization of `replay` that connects to a source observable\n * and multicasts through a `ReplaySubject` constructed with the specified arguments.\n * A successfully completed source will stay cached in the `shareReplay`ed observable forever,\n * but an errored source can be retried.\n *\n * ## Why use `shareReplay`?\n *\n * You generally want to use `shareReplay` when you have side-effects or taxing computations\n * that you do not wish to be executed amongst multiple subscribers.\n * It may also be valuable in situations where you know you will have late subscribers to\n * a stream that need access to previously emitted values.\n * This ability to replay values on subscription is what differentiates {@link share} and `shareReplay`.\n *\n * ## Reference counting\n *\n * By default `shareReplay` will use `refCount` of false, meaning that it will _not_ unsubscribe the\n * source when the reference counter drops to zero, i.e. the inner `ReplaySubject` will _not_ be unsubscribed\n * (and potentially run for ever).\n * This is the default as it is expected that `shareReplay` is often used to keep around expensive to setup\n * observables which we want to keep running instead of having to do the expensive setup again.\n *\n * As of RXJS version 6.4.0 a new overload signature was added to allow for manual control over what\n * happens when the operators internal reference counter drops to zero.\n * If `refCount` is true, the source will be unsubscribed from once the reference count drops to zero, i.e.\n * the inner `ReplaySubject` will be unsubscribed. All new subscribers will receive value emissions from a\n * new `ReplaySubject` which in turn will cause a new subscription to the source observable.\n *\n * ## Examples\n *\n * Example with a third subscriber coming late to the party\n *\n * ```ts\n * import { interval, take, shareReplay } from 'rxjs';\n *\n * const shared$ = interval(2000).pipe(\n *   take(6),\n *   shareReplay(3)\n * );\n *\n * shared$.subscribe(x => console.log('sub A: ', x));\n * shared$.subscribe(y => console.log('sub B: ', y));\n *\n * setTimeout(() => {\n *   shared$.subscribe(y => console.log('sub C: ', y));\n * }, 11000);\n *\n * // Logs:\n * // (after ~2000 ms)\n * // sub A: 0\n * // sub B: 0\n * // (after ~4000 ms)\n * // sub A: 1\n * // sub B: 1\n * // (after ~6000 ms)\n * // sub A: 2\n * // sub B: 2\n * // (after ~8000 ms)\n * // sub A: 3\n * // sub B: 3\n * // (after ~10000 ms)\n * // sub A: 4\n * // sub B: 4\n * // (after ~11000 ms, sub C gets the last 3 values)\n * // sub C: 2\n * // sub C: 3\n * // sub C: 4\n * // (after ~12000 ms)\n * // sub A: 5\n * // sub B: 5\n * // sub C: 5\n * ```\n *\n * Example for `refCount` usage\n *\n * ```ts\n * import { Observable, tap, interval, shareReplay, take } from 'rxjs';\n *\n * const log = <T>(name: string, source: Observable<T>) => source.pipe(\n *   tap({\n *     subscribe: () => console.log(`${ name }: subscribed`),\n *     next: value => console.log(`${ name }: ${ value }`),\n *     complete: () => console.log(`${ name }: completed`),\n *     finalize: () => console.log(`${ name }: unsubscribed`)\n *   })\n * );\n *\n * const obs$ = log('source', interval(1000));\n *\n * const shared$ = log('shared', obs$.pipe(\n *   shareReplay({ bufferSize: 1, refCount: true }),\n *   take(2)\n * ));\n *\n * shared$.subscribe(x => console.log('sub A: ', x));\n * shared$.subscribe(y => console.log('sub B: ', y));\n *\n * // PRINTS:\n * // shared: subscribed <-- reference count = 1\n * // source: subscribed\n * // shared: subscribed <-- reference count = 2\n * // source: 0\n * // shared: 0\n * // sub A: 0\n * // shared: 0\n * // sub B: 0\n * // source: 1\n * // shared: 1\n * // sub A: 1\n * // shared: completed <-- take(2) completes the subscription for sub A\n * // shared: unsubscribed <-- reference count = 1\n * // shared: 1\n * // sub B: 1\n * // shared: completed <-- take(2) completes the subscription for sub B\n * // shared: unsubscribed <-- reference count = 0\n * // source: unsubscribed <-- replaySubject unsubscribes from source observable because the reference count dropped to 0 and refCount is true\n *\n * // In case of refCount being false, the unsubscribe is never called on the source and the source would keep on emitting, even if no subscribers\n * // are listening.\n * // source: 2\n * // source: 3\n * // source: 4\n * // ...\n * ```\n *\n * @see {@link publish}\n * @see {@link share}\n * @see {@link publishReplay}\n *\n * @param configOrBufferSize Maximum element count of the replay buffer or {@link ShareReplayConfig configuration}\n * object.\n * @param windowTime Maximum time length of the replay buffer in milliseconds.\n * @param scheduler Scheduler where connected observers within the selector function\n * will be invoked on.\n * @return A function that returns an Observable sequence that contains the\n * elements of a sequence produced by multicasting the source sequence within a\n * selector function.\n */\nexport function shareReplay<T>(\n  configOrBufferSize?: ShareReplayConfig | number,\n  windowTime?: number,\n  scheduler?: SchedulerLike\n): MonoTypeOperatorFunction<T> {\n  let bufferSize: number;\n  let refCount = false;\n  if (configOrBufferSize && typeof configOrBufferSize === 'object') {\n    ({ bufferSize = Infinity, windowTime = Infinity, refCount = false, scheduler } = configOrBufferSize);\n  } else {\n    bufferSize = (configOrBufferSize ?? Infinity) as number;\n  }\n  return share<T>({\n    connector: () => new ReplaySubject(bufferSize, windowTime, scheduler),\n    resetOnError: true,\n    resetOnComplete: false,\n    resetOnRefCountZero: refCount,\n  });\n}\n", "import { MonoTypeOperatorFunction } from '../types';\nimport { filter } from './filter';\n\n/**\n * Returns an Observable that skips the first `count` items emitted by the source Observable.\n *\n * ![](skip.png)\n *\n * Skips the values until the sent notifications are equal or less than provided skip count. It raises\n * an error if skip count is equal or more than the actual number of emits and source raises an error.\n *\n * ## Example\n *\n * Skip the values before the emission\n *\n * ```ts\n * import { interval, skip } from 'rxjs';\n *\n * // emit every half second\n * const source = interval(500);\n * // skip the first 10 emitted values\n * const result = source.pipe(skip(10));\n *\n * result.subscribe(value => console.log(value));\n * // output: 10...11...12...13...\n * ```\n *\n * @see {@link last}\n * @see {@link skipWhile}\n * @see {@link skipUntil}\n * @see {@link skipLast}\n *\n * @param {Number} count - The number of times, items emitted by source Observable should be skipped.\n * @return A function that returns an Observable that skips the first `count`\n * values emitted by the source Observable.\n */\nexport function skip<T>(count: number): MonoTypeOperatorFunction<T> {\n  return filter((_, index) => count <= index);\n}\n", "import { MonoTypeOperatorFunction, ObservableInput } from '../types';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\nimport { innerFrom } from '../observable/innerFrom';\nimport { noop } from '../util/noop';\n\n/**\n * Returns an Observable that skips items emitted by the source Observable until a second Observable emits an item.\n *\n * The `skipUntil` operator causes the observable stream to skip the emission of values until the passed in observable\n * emits the first value. This can be particularly useful in combination with user interactions, responses of HTTP\n * requests or waiting for specific times to pass by.\n *\n * ![](skipUntil.png)\n *\n * Internally, the `skipUntil` operator subscribes to the passed in `notifier` `ObservableInput` (which gets converted\n * to an Observable) in order to recognize the emission of its first value. When `notifier` emits next, the operator\n * unsubscribes from it and starts emitting the values of the *source* observable until it completes or errors. It\n * will never let the *source* observable emit any values if the `notifier` completes or throws an error without\n * emitting a value before.\n *\n * ## Example\n *\n * In the following example, all emitted values of the interval observable are skipped until the user clicks anywhere\n * within the page\n *\n * ```ts\n * import { interval, fromEvent, skipUntil } from 'rxjs';\n *\n * const intervalObservable = interval(1000);\n * const click = fromEvent(document, 'click');\n *\n * const emitAfterClick = intervalObservable.pipe(\n *   skipUntil(click)\n * );\n * // clicked at 4.6s. output: 5...6...7...8........ or\n * // clicked at 7.3s. output: 8...9...10..11.......\n * emitAfterClick.subscribe(value => console.log(value));\n * ```\n *\n * @see {@link last}\n * @see {@link skip}\n * @see {@link skipWhile}\n * @see {@link skipLast}\n *\n * @param notifier An `ObservableInput` that has to emit an item before the source Observable elements begin to\n * be mirrored by the resulting Observable.\n * @return A function that returns an Observable that skips items from the\n * source Observable until the `notifier` Observable emits an item, then emits the\n * remaining items.\n */\nexport function skipUntil<T>(notifier: ObservableInput<any>): MonoTypeOperatorFunction<T> {\n  return operate((source, subscriber) => {\n    let taking = false;\n\n    const skipSubscriber = createOperatorSubscriber(\n      subscriber,\n      () => {\n        skipSubscriber?.unsubscribe();\n        taking = true;\n      },\n      noop\n    );\n\n    innerFrom(notifier).subscribe(skipSubscriber);\n\n    source.subscribe(createOperatorSubscriber(subscriber, (value) => taking && subscriber.next(value)));\n  });\n}\n", "import { concat } from '../observable/concat';\nimport { OperatorFunction, SchedulerLike, ValueFromArray } from '../types';\nimport { popScheduler } from '../util/args';\nimport { operate } from '../util/lift';\n\n// Devs are more likely to pass null or undefined than they are a scheduler\n// without accompanying values. To make things easier for (naughty) devs who\n// use the `strictNullChecks: false` TypeScript compiler option, these\n// overloads with explicit null and undefined values are included.\n\nexport function startWith<T>(value: null): OperatorFunction<T, T | null>;\nexport function startWith<T>(value: undefined): OperatorFunction<T, T | undefined>;\n\n/** @deprecated The `scheduler` parameter will be removed in v8. Use `scheduled` and `concatAll`. Details: https://rxjs.dev/deprecations/scheduler-argument */\nexport function startWith<T, A extends readonly unknown[] = T[]>(\n  ...valuesAndScheduler: [...A, SchedulerLike]\n): OperatorFunction<T, T | ValueFromArray<A>>;\nexport function startWith<T, A extends readonly unknown[] = T[]>(...values: A): OperatorFunction<T, T | ValueFromArray<A>>;\n\n/**\n * Returns an observable that, at the moment of subscription, will synchronously emit all\n * values provided to this operator, then subscribe to the source and mirror all of its emissions\n * to subscribers.\n *\n * This is a useful way to know when subscription has occurred on an existing observable.\n *\n * <span class=\"informal\">First emits its arguments in order, and then any\n * emissions from the source.</span>\n *\n * ![](startWith.png)\n *\n * ## Examples\n *\n * Emit a value when a timer starts.\n *\n * ```ts\n * import { timer, map, startWith } from 'rxjs';\n *\n * timer(1000)\n *   .pipe(\n *     map(() => 'timer emit'),\n *     startWith('timer start')\n *   )\n *   .subscribe(x => console.log(x));\n *\n * // results:\n * // 'timer start'\n * // 'timer emit'\n * ```\n *\n * @param values Items you want the modified Observable to emit first.\n * @return A function that returns an Observable that synchronously emits\n * provided values before subscribing to the source Observable.\n *\n * @see {@link endWith}\n * @see {@link finalize}\n * @see {@link concat}\n */\nexport function startWith<T, D>(...values: D[]): OperatorFunction<T, T | D> {\n  const scheduler = popScheduler(values);\n  return operate((source, subscriber) => {\n    // Here we can't pass `undefined` as a scheduler, because if we did, the\n    // code inside of `concat` would be confused by the `undefined`, and treat it\n    // like an invalid observable. So we have to split it two different ways.\n    (scheduler ? concat(values, source, scheduler) : concat(values, source)).subscribe(subscriber);\n  });\n}\n", "import { Subscriber } from '../Subscriber';\nimport { ObservableInput, OperatorFunction, ObservedValueOf } from '../types';\nimport { innerFrom } from '../observable/innerFrom';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\n\n/* tslint:disable:max-line-length */\nexport function switchMap<T, O extends ObservableInput<any>>(\n  project: (value: T, index: number) => O\n): OperatorFunction<T, ObservedValueOf<O>>;\n/** @deprecated The `resultSelector` parameter will be removed in v8. Use an inner `map` instead. Details: https://rxjs.dev/deprecations/resultSelector */\nexport function switchMap<T, O extends ObservableInput<any>>(\n  project: (value: T, index: number) => O,\n  resultSelector: undefined\n): OperatorFunction<T, ObservedValueOf<O>>;\n/** @deprecated The `resultSelector` parameter will be removed in v8. Use an inner `map` instead. Details: https://rxjs.dev/deprecations/resultSelector */\nexport function switchMap<T, R, O extends ObservableInput<any>>(\n  project: (value: T, index: number) => O,\n  resultSelector: (outerValue: T, innerValue: ObservedValueOf<O>, outerIndex: number, innerIndex: number) => R\n): OperatorFunction<T, R>;\n/* tslint:enable:max-line-length */\n\n/**\n * Projects each source value to an Observable which is merged in the output\n * Observable, emitting values only from the most recently projected Observable.\n *\n * <span class=\"informal\">Maps each value to an Observable, then flattens all of\n * these inner Observables using {@link switchAll}.</span>\n *\n * ![](switchMap.png)\n *\n * Returns an Observable that emits items based on applying a function that you\n * supply to each item emitted by the source Observable, where that function\n * returns an (so-called \"inner\") Observable. Each time it observes one of these\n * inner Observables, the output Observable begins emitting the items emitted by\n * that inner Observable. When a new inner Observable is emitted, `switchMap`\n * stops emitting items from the earlier-emitted inner Observable and begins\n * emitting items from the new one. It continues to behave like this for\n * subsequent inner Observables.\n *\n * ## Example\n *\n * Generate new Observable according to source Observable values\n *\n * ```ts\n * import { of, switchMap } from 'rxjs';\n *\n * const switched = of(1, 2, 3).pipe(switchMap(x => of(x, x ** 2, x ** 3)));\n * switched.subscribe(x => console.log(x));\n * // outputs\n * // 1\n * // 1\n * // 1\n * // 2\n * // 4\n * // 8\n * // 3\n * // 9\n * // 27\n * ```\n *\n * Restart an interval Observable on every click event\n *\n * ```ts\n * import { fromEvent, switchMap, interval } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const result = clicks.pipe(switchMap(() => interval(1000)));\n * result.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link concatMap}\n * @see {@link exhaustMap}\n * @see {@link mergeMap}\n * @see {@link switchAll}\n * @see {@link switchMapTo}\n *\n * @param {function(value: T, index: number): ObservableInput} project A function\n * that, when applied to an item emitted by the source Observable, returns an\n * Observable.\n * @return A function that returns an Observable that emits the result of\n * applying the projection function (and the optional deprecated\n * `resultSelector`) to each item emitted by the source Observable and taking\n * only the values from the most recently projected inner Observable.\n */\nexport function switchMap<T, R, O extends ObservableInput<any>>(\n  project: (value: T, index: number) => O,\n  resultSelector?: (outerValue: T, innerValue: ObservedValueOf<O>, outerIndex: number, innerIndex: number) => R\n): OperatorFunction<T, ObservedValueOf<O> | R> {\n  return operate((source, subscriber) => {\n    let innerSubscriber: Subscriber<ObservedValueOf<O>> | null = null;\n    let index = 0;\n    // Whether or not the source subscription has completed\n    let isComplete = false;\n\n    // We only complete the result if the source is complete AND we don't have an active inner subscription.\n    // This is called both when the source completes and when the inners complete.\n    const checkComplete = () => isComplete && !innerSubscriber && subscriber.complete();\n\n    source.subscribe(\n      createOperatorSubscriber(\n        subscriber,\n        (value) => {\n          // Cancel the previous inner subscription if there was one\n          innerSubscriber?.unsubscribe();\n          let innerIndex = 0;\n          const outerIndex = index++;\n          // Start the next inner subscription\n          innerFrom(project(value, outerIndex)).subscribe(\n            (innerSubscriber = createOperatorSubscriber(\n              subscriber,\n              // When we get a new inner value, next it through. Note that this is\n              // handling the deprecate result selector here. This is because with this architecture\n              // it ends up being smaller than using the map operator.\n              (innerValue) => subscriber.next(resultSelector ? resultSelector(value, innerValue, outerIndex, innerIndex++) : innerValue),\n              () => {\n                // The inner has completed. Null out the inner subscriber to\n                // free up memory and to signal that we have no inner subscription\n                // currently.\n                innerSubscriber = null!;\n                checkComplete();\n              }\n            ))\n          );\n        },\n        () => {\n          isComplete = true;\n          checkComplete();\n        }\n      )\n    );\n  });\n}\n", "import { MonoTypeOperatorFunction, ObservableInput } from '../types';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\nimport { innerFrom } from '../observable/innerFrom';\nimport { noop } from '../util/noop';\n\n/**\n * Emits the values emitted by the source Observable until a `notifier`\n * Observable emits a value.\n *\n * <span class=\"informal\">Lets values pass until a second Observable,\n * `notifier`, emits a value. Then, it completes.</span>\n *\n * ![](takeUntil.png)\n *\n * `takeUntil` subscribes and begins mirroring the source Observable. It also\n * monitors a second Observable, `notifier` that you provide. If the `notifier`\n * emits a value, the output Observable stops mirroring the source Observable\n * and completes. If the `notifier` doesn't emit any value and completes\n * then `takeUntil` will pass all values.\n *\n * ## Example\n *\n * Tick every second until the first click happens\n *\n * ```ts\n * import { interval, fromEvent, takeUntil } from 'rxjs';\n *\n * const source = interval(1000);\n * const clicks = fromEvent(document, 'click');\n * const result = source.pipe(takeUntil(clicks));\n * result.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link take}\n * @see {@link takeLast}\n * @see {@link takeWhile}\n * @see {@link skip}\n *\n * @param {Observable} notifier The Observable whose first emitted value will\n * cause the output Observable of `takeUntil` to stop emitting values from the\n * source Observable.\n * @return A function that returns an Observable that emits the values from the\n * source Observable until `notifier` emits its first value.\n */\nexport function takeUntil<T>(notifier: ObservableInput<any>): MonoTypeOperatorFunction<T> {\n  return operate((source, subscriber) => {\n    innerFrom(notifier).subscribe(createOperatorSubscriber(subscriber, () => subscriber.complete(), noop));\n    !subscriber.closed && source.subscribe(subscriber);\n  });\n}\n", "import { OperatorFunction, MonoTypeOperatorFunction, TruthyTypesOf } from '../types';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\n\nexport function takeWhile<T>(predicate: BooleanConstructor, inclusive: true): MonoTypeOperatorFunction<T>;\nexport function takeWhile<T>(predicate: BooleanConstructor, inclusive: false): OperatorFunction<T, TruthyTypesOf<T>>;\nexport function takeWhile<T>(predicate: BooleanConstructor): OperatorFunction<T, TruthyTypesOf<T>>;\nexport function takeWhile<T, S extends T>(predicate: (value: T, index: number) => value is S): OperatorFunction<T, S>;\nexport function takeWhile<T, S extends T>(predicate: (value: T, index: number) => value is S, inclusive: false): OperatorFunction<T, S>;\nexport function takeWhile<T>(predicate: (value: T, index: number) => boolean, inclusive?: boolean): MonoTypeOperatorFunction<T>;\n\n/**\n * Emits values emitted by the source Observable so long as each value satisfies\n * the given `predicate`, and then completes as soon as this `predicate` is not\n * satisfied.\n *\n * <span class=\"informal\">Takes values from the source only while they pass the\n * condition given. When the first value does not satisfy, it completes.</span>\n *\n * ![](takeWhile.png)\n *\n * `takeWhile` subscribes and begins mirroring the source Observable. Each value\n * emitted on the source is given to the `predicate` function which returns a\n * boolean, representing a condition to be satisfied by the source values. The\n * output Observable emits the source values until such time as the `predicate`\n * returns false, at which point `takeWhile` stops mirroring the source\n * Observable and completes the output Observable.\n *\n * ## Example\n *\n * Emit click events only while the clientX property is greater than 200\n *\n * ```ts\n * import { fromEvent, takeWhile } from 'rxjs';\n *\n * const clicks = fromEvent<PointerEvent>(document, 'click');\n * const result = clicks.pipe(takeWhile(ev => ev.clientX > 200));\n * result.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link take}\n * @see {@link takeLast}\n * @see {@link takeUntil}\n * @see {@link skip}\n *\n * @param {function(value: T, index: number): boolean} predicate A function that\n * evaluates a value emitted by the source Observable and returns a boolean.\n * Also takes the (zero-based) index as the second argument.\n * @param {boolean} inclusive When set to `true` the value that caused\n * `predicate` to return `false` will also be emitted.\n * @return A function that returns an Observable that emits values from the\n * source Observable so long as each value satisfies the condition defined by\n * the `predicate`, then completes.\n */\nexport function takeWhile<T>(predicate: (value: T, index: number) => boolean, inclusive = false): MonoTypeOperatorFunction<T> {\n  return operate((source, subscriber) => {\n    let index = 0;\n    source.subscribe(\n      createOperatorSubscriber(subscriber, (value) => {\n        const result = predicate(value, index++);\n        (result || inclusive) && subscriber.next(value);\n        !result && subscriber.complete();\n      })\n    );\n  });\n}\n", "import { MonoTypeOperatorFunction, Observer } from '../types';\nimport { isFunction } from '../util/isFunction';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\nimport { identity } from '../util/identity';\n\n/**\n * An extension to the {@link Observer} interface used only by the {@link tap} operator.\n *\n * It provides a useful set of callbacks a user can register to do side-effects in\n * cases other than what the usual {@link Observer} callbacks are\n * ({@link guide/glossary-and-semantics#next next},\n * {@link guide/glossary-and-semantics#error error} and/or\n * {@link guide/glossary-and-semantics#complete complete}).\n *\n * ## Example\n *\n * ```ts\n * import { fromEvent, switchMap, tap, interval, take } from 'rxjs';\n *\n * const source$ = fromEvent(document, 'click');\n * const result$ = source$.pipe(\n *   switchMap((_, i) => i % 2 === 0\n *     ? fromEvent(document, 'mousemove').pipe(\n *         tap({\n *           subscribe: () => console.log('Subscribed to the mouse move events after click #' + i),\n *           unsubscribe: () => console.log('Mouse move events #' + i + ' unsubscribed'),\n *           finalize: () => console.log('Mouse move events #' + i + ' finalized')\n *         })\n *       )\n *     : interval(1_000).pipe(\n *         take(5),\n *         tap({\n *           subscribe: () => console.log('Subscribed to the 1-second interval events after click #' + i),\n *           unsubscribe: () => console.log('1-second interval events #' + i + ' unsubscribed'),\n *           finalize: () => console.log('1-second interval events #' + i + ' finalized')\n *         })\n *       )\n *   )\n * );\n *\n * const subscription = result$.subscribe({\n *   next: console.log\n * });\n *\n * setTimeout(() => {\n *   console.log('Unsubscribe after 60 seconds');\n *   subscription.unsubscribe();\n * }, 60_000);\n * ```\n */\nexport interface TapObserver<T> extends Observer<T> {\n  /**\n   * The callback that `tap` operator invokes at the moment when the source Observable\n   * gets subscribed to.\n   */\n  subscribe: () => void;\n  /**\n   * The callback that `tap` operator invokes when an explicit\n   * {@link guide/glossary-and-semantics#unsubscription unsubscribe} happens. It won't get invoked on\n   * `error` or `complete` events.\n   */\n  unsubscribe: () => void;\n  /**\n   * The callback that `tap` operator invokes when any kind of\n   * {@link guide/glossary-and-semantics#finalization finalization} happens - either when\n   * the source Observable `error`s or `complete`s or when it gets explicitly unsubscribed\n   * by the user. There is no difference in using this callback or the {@link finalize}\n   * operator, but if you're already using `tap` operator, you can use this callback\n   * instead. You'd get the same result in either case.\n   */\n  finalize: () => void;\n}\nexport function tap<T>(observerOrNext?: Partial<TapObserver<T>> | ((value: T) => void)): MonoTypeOperatorFunction<T>;\n/** @deprecated Instead of passing separate callback arguments, use an observer argument. Signatures taking separate callback arguments will be removed in v8. Details: https://rxjs.dev/deprecations/subscribe-arguments */\nexport function tap<T>(\n  next?: ((value: T) => void) | null,\n  error?: ((error: any) => void) | null,\n  complete?: (() => void) | null\n): MonoTypeOperatorFunction<T>;\n\n/**\n * Used to perform side-effects for notifications from the source observable\n *\n * <span class=\"informal\">Used when you want to affect outside state with a notification without altering the notification</span>\n *\n * ![](tap.png)\n *\n * Tap is designed to allow the developer a designated place to perform side effects. While you _could_ perform side-effects\n * inside of a `map` or a `mergeMap`, that would make their mapping functions impure, which isn't always a big deal, but will\n * make it so you can't do things like memoize those functions. The `tap` operator is designed solely for such side-effects to\n * help you remove side-effects from other operations.\n *\n * For any notification, next, error, or complete, `tap` will call the appropriate callback you have provided to it, via a function\n * reference, or a partial observer, then pass that notification down the stream.\n *\n * The observable returned by `tap` is an exact mirror of the source, with one exception: Any error that occurs -- synchronously -- in a handler\n * provided to `tap` will be emitted as an error from the returned observable.\n *\n * > Be careful! You can mutate objects as they pass through the `tap` operator's handlers.\n *\n * The most common use of `tap` is actually for debugging. You can place a `tap(console.log)` anywhere\n * in your observable `pipe`, log out the notifications as they are emitted by the source returned by the previous\n * operation.\n *\n * ## Examples\n *\n * Check a random number before it is handled. Below is an observable that will use a random number between 0 and 1,\n * and emit `'big'` or `'small'` depending on the size of that number. But we wanted to log what the original number\n * was, so we have added a `tap(console.log)`.\n *\n * ```ts\n * import { of, tap, map } from 'rxjs';\n *\n * of(Math.random()).pipe(\n *   tap(console.log),\n *   map(n => n > 0.5 ? 'big' : 'small')\n * ).subscribe(console.log);\n * ```\n *\n * Using `tap` to analyze a value and force an error. Below is an observable where in our system we only\n * want to emit numbers 3 or less we get from another source. We can force our observable to error\n * using `tap`.\n *\n * ```ts\n * import { of, tap } from 'rxjs';\n *\n * const source = of(1, 2, 3, 4, 5);\n *\n * source.pipe(\n *   tap(n => {\n *     if (n > 3) {\n *       throw new TypeError(`Value ${ n } is greater than 3`);\n *     }\n *   })\n * )\n * .subscribe({ next: console.log, error: err => console.log(err.message) });\n * ```\n *\n * We want to know when an observable completes before moving on to the next observable. The system\n * below will emit a random series of `'X'` characters from 3 different observables in sequence. The\n * only way we know when one observable completes and moves to the next one, in this case, is because\n * we have added a `tap` with the side effect of logging to console.\n *\n * ```ts\n * import { of, concatMap, interval, take, map, tap } from 'rxjs';\n *\n * of(1, 2, 3).pipe(\n *   concatMap(n => interval(1000).pipe(\n *     take(Math.round(Math.random() * 10)),\n *     map(() => 'X'),\n *     tap({ complete: () => console.log(`Done with ${ n }`) })\n *   ))\n * )\n * .subscribe(console.log);\n * ```\n *\n * @see {@link finalize}\n * @see {@link TapObserver}\n *\n * @param observerOrNext A next handler or partial observer\n * @param error An error handler\n * @param complete A completion handler\n * @return A function that returns an Observable identical to the source, but\n * runs the specified Observer or callback(s) for each item.\n */\nexport function tap<T>(\n  observerOrNext?: Partial<TapObserver<T>> | ((value: T) => void) | null,\n  error?: ((e: any) => void) | null,\n  complete?: (() => void) | null\n): MonoTypeOperatorFunction<T> {\n  // We have to check to see not only if next is a function,\n  // but if error or complete were passed. This is because someone\n  // could technically call tap like `tap(null, fn)` or `tap(null, null, fn)`.\n  const tapObserver =\n    isFunction(observerOrNext) || error || complete\n      ? // tslint:disable-next-line: no-object-literal-type-assertion\n        ({ next: observerOrNext as Exclude<typeof observerOrNext, Partial<TapObserver<T>>>, error, complete } as Partial<TapObserver<T>>)\n      : observerOrNext;\n\n  return tapObserver\n    ? operate((source, subscriber) => {\n        tapObserver.subscribe?.();\n        let isUnsub = true;\n        source.subscribe(\n          createOperatorSubscriber(\n            subscriber,\n            (value) => {\n              tapObserver.next?.(value);\n              subscriber.next(value);\n            },\n            () => {\n              isUnsub = false;\n              tapObserver.complete?.();\n              subscriber.complete();\n            },\n            (err) => {\n              isUnsub = false;\n              tapObserver.error?.(err);\n              subscriber.error(err);\n            },\n            () => {\n              if (isUnsub) {\n                tapObserver.unsubscribe?.();\n              }\n              tapObserver.finalize?.();\n            }\n          )\n        );\n      })\n    : // Tap was called with no valid tap observer or handler\n      // (e.g. `tap(null, null, null)` or `tap(null)` or `tap()`)\n      // so we're going to just mirror the source.\n      identity;\n}\n", "import { Subscription } from '../Subscription';\n\nimport { MonoTypeOperatorFunction, ObservableInput } from '../types';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\nimport { innerFrom } from '../observable/innerFrom';\n\n/**\n * An object interface used by {@link throttle} or {@link throttleTime} that ensure\n * configuration options of these operators.\n *\n * @see {@link throttle}\n * @see {@link throttleTime}\n */\nexport interface ThrottleConfig {\n  /**\n   * If `true`, the resulting Observable will emit the first value from the source\n   * Observable at the **start** of the \"throttling\" process (when starting an\n   * internal timer that prevents other emissions from the source to pass through).\n   * If `false`, it will not emit the first value from the source Observable at the\n   * start of the \"throttling\" process.\n   *\n   * If not provided, defaults to: `true`.\n   */\n  leading?: boolean;\n  /**\n   * If `true`, the resulting Observable will emit the last value from the source\n   * Observable at the **end** of the \"throttling\" process (when ending an internal\n   * timer that prevents other emissions from the source to pass through).\n   * If `false`, it will not emit the last value from the source Observable at the\n   * end of the \"throttling\" process.\n   *\n   * If not provided, defaults to: `false`.\n   */\n  trailing?: boolean;\n}\n\n/**\n * Emits a value from the source Observable, then ignores subsequent source\n * values for a duration determined by another Observable, then repeats this\n * process.\n *\n * <span class=\"informal\">It's like {@link throttleTime}, but the silencing\n * duration is determined by a second Observable.</span>\n *\n * ![](throttle.svg)\n *\n * `throttle` emits the source Observable values on the output Observable\n * when its internal timer is disabled, and ignores source values when the timer\n * is enabled. Initially, the timer is disabled. As soon as the first source\n * value arrives, it is forwarded to the output Observable, and then the timer\n * is enabled by calling the `durationSelector` function with the source value,\n * which returns the \"duration\" Observable. When the duration Observable emits a\n * value, the timer is disabled, and this process repeats for the\n * next source value.\n *\n * ## Example\n *\n * Emit clicks at a rate of at most one click per second\n *\n * ```ts\n * import { fromEvent, throttle, interval } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const result = clicks.pipe(throttle(() => interval(1000)));\n *\n * result.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link audit}\n * @see {@link debounce}\n * @see {@link delayWhen}\n * @see {@link sample}\n * @see {@link throttleTime}\n *\n * @param durationSelector A function that receives a value from the source\n * Observable, for computing the silencing duration for each source value,\n * returned as an `ObservableInput`.\n * @param config A configuration object to define `leading` and `trailing`\n * behavior. Defaults to `{ leading: true, trailing: false }`.\n * @return A function that returns an Observable that performs the throttle\n * operation to limit the rate of emissions from the source.\n */\nexport function throttle<T>(durationSelector: (value: T) => ObservableInput<any>, config?: ThrottleConfig): MonoTypeOperatorFunction<T> {\n  return operate((source, subscriber) => {\n    const { leading = true, trailing = false } = config ?? {};\n    let hasValue = false;\n    let sendValue: T | null = null;\n    let throttled: Subscription | null = null;\n    let isComplete = false;\n\n    const endThrottling = () => {\n      throttled?.unsubscribe();\n      throttled = null;\n      if (trailing) {\n        send();\n        isComplete && subscriber.complete();\n      }\n    };\n\n    const cleanupThrottling = () => {\n      throttled = null;\n      isComplete && subscriber.complete();\n    };\n\n    const startThrottle = (value: T) =>\n      (throttled = innerFrom(durationSelector(value)).subscribe(createOperatorSubscriber(subscriber, endThrottling, cleanupThrottling)));\n\n    const send = () => {\n      if (hasValue) {\n        // Ensure we clear out our value and hasValue flag\n        // before we emit, otherwise reentrant code can cause\n        // issues here.\n        hasValue = false;\n        const value = sendValue!;\n        sendValue = null;\n        // Emit the value.\n        subscriber.next(value);\n        !isComplete && startThrottle(value);\n      }\n    };\n\n    source.subscribe(\n      createOperatorSubscriber(\n        subscriber,\n        // Regarding the presence of throttled.closed in the following\n        // conditions, if a synchronous duration selector is specified - weird,\n        // but legal - an already-closed subscription will be assigned to\n        // throttled, so the subscription's closed property needs to be checked,\n        // too.\n        (value) => {\n          hasValue = true;\n          sendValue = value;\n          !(throttled && !throttled.closed) && (leading ? send() : startThrottle(value));\n        },\n        () => {\n          isComplete = true;\n          !(trailing && hasValue && throttled && !throttled.closed) && subscriber.complete();\n        }\n      )\n    );\n  });\n}\n", "import { asyncScheduler } from '../scheduler/async';\nimport { throttle, ThrottleConfig } from './throttle';\nimport { MonoTypeOperatorFunction, SchedulerLike } from '../types';\nimport { timer } from '../observable/timer';\n\n/**\n * Emits a value from the source Observable, then ignores subsequent source\n * values for `duration` milliseconds, then repeats this process.\n *\n * <span class=\"informal\">Lets a value pass, then ignores source values for the\n * next `duration` milliseconds.</span>\n *\n * ![](throttleTime.png)\n *\n * `throttleTime` emits the source Observable values on the output Observable\n * when its internal timer is disabled, and ignores source values when the timer\n * is enabled. Initially, the timer is disabled. As soon as the first source\n * value arrives, it is forwarded to the output Observable, and then the timer\n * is enabled. After `duration` milliseconds (or the time unit determined\n * internally by the optional `scheduler`) has passed, the timer is disabled,\n * and this process repeats for the next source value. Optionally takes a\n * {@link SchedulerLike} for managing timers.\n *\n * ## Examples\n *\n * ### Limit click rate\n *\n * Emit clicks at a rate of at most one click per second\n *\n * ```ts\n * import { fromEvent, throttleTime } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const result = clicks.pipe(throttleTime(1000));\n *\n * result.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link auditTime}\n * @see {@link debounceTime}\n * @see {@link delay}\n * @see {@link sampleTime}\n * @see {@link throttle}\n *\n * @param duration Time to wait before emitting another value after\n * emitting the last value, measured in milliseconds or the time unit determined\n * internally by the optional `scheduler`.\n * @param scheduler The {@link SchedulerLike} to use for\n * managing the timers that handle the throttling. Defaults to {@link asyncScheduler}.\n * @param config A configuration object to define `leading` and\n * `trailing` behavior. Defaults to `{ leading: true, trailing: false }`.\n * @return A function that returns an Observable that performs the throttle\n * operation to limit the rate of emissions from the source.\n */\nexport function throttleTime<T>(\n  duration: number,\n  scheduler: SchedulerLike = asyncScheduler,\n  config?: ThrottleConfig\n): MonoTypeOperatorFunction<T> {\n  const duration$ = timer(duration, scheduler);\n  return throttle(() => duration$, config);\n}\n", "import { OperatorFunction, ObservableInputTuple } from '../types';\nimport { operate } from '../util/lift';\nimport { createOperatorSubscriber } from './OperatorSubscriber';\nimport { innerFrom } from '../observable/innerFrom';\nimport { identity } from '../util/identity';\nimport { noop } from '../util/noop';\nimport { popResultSelector } from '../util/args';\n\nexport function withLatestFrom<T, O extends unknown[]>(...inputs: [...ObservableInputTuple<O>]): OperatorFunction<T, [T, ...O]>;\n\nexport function withLatestFrom<T, O extends unknown[], R>(\n  ...inputs: [...ObservableInputTuple<O>, (...value: [T, ...O]) => R]\n): OperatorFunction<T, R>;\n\n/**\n * Combines the source Observable with other Observables to create an Observable\n * whose values are calculated from the latest values of each, only when the\n * source emits.\n *\n * <span class=\"informal\">Whenever the source Observable emits a value, it\n * computes a formula using that value plus the latest values from other input\n * Observables, then emits the output of that formula.</span>\n *\n * ![](withLatestFrom.png)\n *\n * `withLatestFrom` combines each value from the source Observable (the\n * instance) with the latest values from the other input Observables only when\n * the source emits a value, optionally using a `project` function to determine\n * the value to be emitted on the output Observable. All input Observables must\n * emit at least one value before the output Observable will emit a value.\n *\n * ## Example\n *\n * On every click event, emit an array with the latest timer event plus the click event\n *\n * ```ts\n * import { fromEvent, interval, withLatestFrom } from 'rxjs';\n *\n * const clicks = fromEvent(document, 'click');\n * const timer = interval(1000);\n * const result = clicks.pipe(withLatestFrom(timer));\n * result.subscribe(x => console.log(x));\n * ```\n *\n * @see {@link combineLatest}\n *\n * @param {ObservableInput} other An input Observable to combine with the source\n * Observable. More than one input Observables may be given as argument.\n * @param {Function} [project] Projection function for combining values\n * together. Receives all values in order of the Observables passed, where the\n * first parameter is a value from the source Observable. (e.g.\n * `a.pipe(withLatestFrom(b, c), map(([a1, b1, c1]) => a1 + b1 + c1))`). If this is not\n * passed, arrays will be emitted on the output Observable.\n * @return A function that returns an Observable of projected values from the\n * most recent values from each input Observable, or an array of the most\n * recent values from each input Observable.\n */\nexport function withLatestFrom<T, R>(...inputs: any[]): OperatorFunction<T, R | any[]> {\n  const project = popResultSelector(inputs) as ((...args: any[]) => R) | undefined;\n\n  return operate((source, subscriber) => {\n    const len = inputs.length;\n    const otherValues = new Array(len);\n    // An array of whether or not the other sources have emitted. Matched with them by index.\n    // TODO: At somepoint, we should investigate the performance implications here, and look\n    // into using a `Set()` and checking the `size` to see if we're ready.\n    let hasValue = inputs.map(() => false);\n    // Flipped true when we have at least one value from all other sources and\n    // we are ready to start emitting values.\n    let ready = false;\n\n    // Other sources. Note that here we are not checking `subscriber.closed`,\n    // this causes all inputs to be subscribed to, even if nothing can be emitted\n    // from them. This is an important distinction because subscription constitutes\n    // a side-effect.\n    for (let i = 0; i < len; i++) {\n      innerFrom(inputs[i]).subscribe(\n        createOperatorSubscriber(\n          subscriber,\n          (value) => {\n            otherValues[i] = value;\n            if (!ready && !hasValue[i]) {\n              // If we're not ready yet, flag to show this observable has emitted.\n              hasValue[i] = true;\n              // Intentionally terse code.\n              // If all of our other observables have emitted, set `ready` to `true`,\n              // so we know we can start emitting values, then clean up the `hasValue` array,\n              // because we don't need it anymore.\n              (ready = hasValue.every(identity)) && (hasValue = null!);\n            }\n          },\n          // Completing one of the other sources has\n          // no bearing on the completion of our result.\n          noop\n        )\n      );\n    }\n\n    // Source subscription\n    source.subscribe(\n      createOperatorSubscriber(subscriber, (value) => {\n        if (ready) {\n          // We have at least one value from the other sources. Go ahead and emit.\n          const values = [value, ...otherValues];\n          subscriber.next(project ? project(...values) : values);\n        }\n      })\n    );\n  });\n}\n", "import { zip as zipStatic } from '../observable/zip';\nimport { ObservableInput, ObservableInputTuple, OperatorFunction, Cons } from '../types';\nimport { operate } from '../util/lift';\n\n/** @deprecated Replaced with {@link zipWith}. Will be removed in v8. */\nexport function zip<T, A extends readonly unknown[]>(otherInputs: [...ObservableInputTuple<A>]): OperatorFunction<T, Cons<T, A>>;\n/** @deprecated Replaced with {@link zipWith}. Will be removed in v8. */\nexport function zip<T, A extends readonly unknown[], R>(\n  otherInputsAndProject: [...ObservableInputTuple<A>],\n  project: (...values: Cons<T, A>) => R\n): OperatorFunction<T, R>;\n/** @deprecated Replaced with {@link zipWith}. Will be removed in v8. */\nexport function zip<T, A extends readonly unknown[]>(...otherInputs: [...ObservableInputTuple<A>]): OperatorFunction<T, Cons<T, A>>;\n/** @deprecated Replaced with {@link zipWith}. Will be removed in v8. */\nexport function zip<T, A extends readonly unknown[], R>(\n  ...otherInputsAndProject: [...ObservableInputTuple<A>, (...values: Cons<T, A>) => R]\n): OperatorFunction<T, R>;\n\n/**\n * @deprecated Replaced with {@link zipWith}. Will be removed in v8.\n */\nexport function zip<T, R>(...sources: Array<ObservableInput<any> | ((...values: Array<any>) => R)>): OperatorFunction<T, any> {\n  return operate((source, subscriber) => {\n    zipStatic(source as ObservableInput<any>, ...(sources as Array<ObservableInput<any>>)).subscribe(subscriber);\n  });\n}\n", "import { ObservableInputTuple, OperatorFunction, Cons } from '../types';\nimport { zip } from './zip';\n\n/**\n * Subscribes to the source, and the observable inputs provided as arguments, and combines their values, by index, into arrays.\n *\n * What is meant by \"combine by index\": The first value from each will be made into a single array, then emitted,\n * then the second value from each will be combined into a single array and emitted, then the third value\n * from each will be combined into a single array and emitted, and so on.\n *\n * This will continue until it is no longer able to combine values of the same index into an array.\n *\n * After the last value from any one completed source is emitted in an array, the resulting observable will complete,\n * as there is no way to continue \"zipping\" values together by index.\n *\n * Use-cases for this operator are limited. There are memory concerns if one of the streams is emitting\n * values at a much faster rate than the others. Usage should likely be limited to streams that emit\n * at a similar pace, or finite streams of known length.\n *\n * In many cases, authors want `combineLatestWith` and not `zipWith`.\n *\n * @param otherInputs other observable inputs to collate values from.\n * @return A function that returns an Observable that emits items by index\n * combined from the source Observable and provided Observables, in form of an\n * array.\n */\nexport function zipWith<T, A extends readonly unknown[]>(...otherInputs: [...ObservableInputTuple<A>]): OperatorFunction<T, Cons<T, A>> {\n  return zip(...otherInputs);\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  ReplaySubject,\n  Subject,\n  fromEvent\n} from \"rxjs\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch document\n *\n * Documents are implemented as subjects, so all downstream observables are\n * automatically updated when a new document is emitted.\n *\n * @returns Document subject\n */\nexport function watchDocument(): Subject<Document> {\n  const document$ = new ReplaySubject<Document>(1)\n  fromEvent(document, \"DOMContentLoaded\", { once: true })\n    .subscribe(() => document$.next(document))\n\n  /* Return document */\n  return document$\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Retrieve all elements matching the query selector\n *\n * @template T - Element type\n *\n * @param selector - Query selector\n * @param node - Node of reference\n *\n * @returns Elements\n */\nexport function getElements<T extends keyof HTMLElementTagNameMap>(\n  selector: T, node?: ParentNode\n): HTMLElementTagNameMap[T][]\n\nexport function getElements<T extends HTMLElement>(\n  selector: string, node?: ParentNode\n): T[]\n\nexport function getElements<T extends HTMLElement>(\n  selector: string, node: ParentNode = document\n): T[] {\n  return Array.from(node.querySelectorAll<T>(selector))\n}\n\n/**\n * Retrieve an element matching a query selector or throw a reference error\n *\n * Note that this function assumes that the element is present. If unsure if an\n * element is existent, use the `getOptionalElement` function instead.\n *\n * @template T - Element type\n *\n * @param selector - Query selector\n * @param node - Node of reference\n *\n * @returns Element\n */\nexport function getElement<T extends keyof HTMLElementTagNameMap>(\n  selector: T, node?: ParentNode\n): HTMLElementTagNameMap[T]\n\nexport function getElement<T extends HTMLElement>(\n  selector: string, node?: ParentNode\n): T\n\nexport function getElement<T extends HTMLElement>(\n  selector: string, node: ParentNode = document\n): T {\n  const el = getOptionalElement<T>(selector, node)\n  if (typeof el === \"undefined\")\n    throw new ReferenceError(\n      `Missing element: expected \"${selector}\" to be present`\n    )\n\n  /* Return element */\n  return el\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Retrieve an optional element matching the query selector\n *\n * @template T - Element type\n *\n * @param selector - Query selector\n * @param node - Node of reference\n *\n * @returns Element or nothing\n */\nexport function getOptionalElement<T extends keyof HTMLElementTagNameMap>(\n  selector: T, node?: ParentNode\n): HTMLElementTagNameMap[T] | undefined\n\nexport function getOptionalElement<T extends HTMLElement>(\n  selector: string, node?: ParentNode\n): T | undefined\n\nexport function getOptionalElement<T extends HTMLElement>(\n  selector: string, node: ParentNode = document\n): T | undefined {\n  return node.querySelector<T>(selector) || undefined\n}\n\n/**\n * Retrieve the currently active element\n *\n * @returns Element or nothing\n */\nexport function getActiveElement(): HTMLElement | undefined {\n  return (\n    document.activeElement?.shadowRoot?.activeElement as HTMLElement ??\n    document.activeElement as HTMLElement ??\n    undefined\n  )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  debounceTime,\n  distinctUntilChanged,\n  fromEvent,\n  map,\n  merge,\n  shareReplay,\n  startWith\n} from \"rxjs\"\n\nimport { getActiveElement } from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Data\n * ------------------------------------------------------------------------- */\n\n/**\n * Focus observable\n *\n * Previously, this observer used `focus` and `blur` events to determine whether\n * an element is focused, but this doesn't work if there are focusable elements\n * within the elements itself. A better solutions are `focusin` and `focusout`\n * events, which bubble up the tree and allow for more fine-grained control.\n *\n * `debounceTime` is necessary, because when a focus change happens inside an\n * element, the observable would first emit `false` and then `true` again.\n */\nconst observer$ = merge(\n  fromEvent(document.body, \"focusin\"),\n  fromEvent(document.body, \"focusout\")\n)\n  .pipe(\n    debounceTime(1),\n    startWith(undefined),\n    map(() => getActiveElement() || document.body),\n    shareReplay(1)\n  )\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch element focus\n *\n * @param el - Element\n *\n * @returns Element focus observable\n */\nexport function watchElementFocus(\n  el: HTMLElement\n): Observable<boolean> {\n  return observer$\n    .pipe(\n      map(active => el.contains(active)),\n      distinctUntilChanged()\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  debounce,\n  defer,\n  fromEvent,\n  identity,\n  map,\n  merge,\n  startWith,\n  timer\n} from \"rxjs\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch element hover\n *\n * The second parameter allows to specify a timeout in milliseconds after which\n * the hover state will be reset to `false`. This is useful for tooltips which\n * should disappear after a certain amount of time, in order to allow the user\n * to move the cursor from the host to the tooltip.\n *\n * @param el - Element\n * @param timeout - Timeout\n *\n * @returns Element hover observable\n */\nexport function watchElementHover(\n  el: HTMLElement, timeout?: number\n): Observable<boolean> {\n  return defer(() => merge(\n    fromEvent(el, \"mouseenter\").pipe(map(() => true)),\n    fromEvent(el, \"mouseleave\").pipe(map(() => false))\n  )\n    .pipe(\n      timeout ? debounce(active => timer(+!active * timeout)) : identity,\n      startWith(el.matches(\":hover\"))\n    )\n  )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { JSX as JSXInternal } from \"preact\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * HTML attributes\n */\ntype Attributes =\n  & JSXInternal.HTMLAttributes\n  & JSXInternal.SVGAttributes\n  & Record<string, any>\n\n/**\n * Child element\n */\ntype Child =\n  | ChildNode\n  | HTMLElement\n  | Text\n  | string\n  | number\n\n/* ----------------------------------------------------------------------------\n * Helper functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Append a child node to an element\n *\n * @param el - Element\n * @param child - Child node(s)\n */\nfunction appendChild(el: HTMLElement, child: Child | Child[]): void {\n\n  /* Handle primitive types (including raw HTML) */\n  if (typeof child === \"string\" || typeof child === \"number\") {\n    el.innerHTML += child.toString()\n\n  /* Handle nodes */\n  } else if (child instanceof Node) {\n    el.appendChild(child)\n\n  /* Handle nested children */\n  } else if (Array.isArray(child)) {\n    for (const node of child)\n      appendChild(el, node)\n  }\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * JSX factory\n *\n * @template T - Element type\n *\n * @param tag - HTML tag\n * @param attributes - HTML attributes\n * @param children - Child elements\n *\n * @returns Element\n */\nexport function h<T extends keyof HTMLElementTagNameMap>(\n  tag: T, attributes?: Attributes | null, ...children: Child[]\n): HTMLElementTagNameMap[T]\n\nexport function h<T extends h.JSX.Element>(\n  tag: string, attributes?: Attributes | null, ...children: Child[]\n): T\n\nexport function h<T extends h.JSX.Element>(\n  tag: string, attributes?: Attributes | null, ...children: Child[]\n): T {\n  const el = document.createElement(tag)\n\n  /* Set attributes, if any */\n  if (attributes)\n    for (const attr of Object.keys(attributes)) {\n      if (typeof attributes[attr] === \"undefined\")\n        continue\n\n      /* Set default attribute or boolean */\n      if (typeof attributes[attr] !== \"boolean\")\n        el.setAttribute(attr, attributes[attr])\n      else\n        el.setAttribute(attr, \"\")\n    }\n\n  /* Append child nodes */\n  for (const child of children)\n    appendChild(el, child)\n\n  /* Return element */\n  return el as T\n}\n\n/* ----------------------------------------------------------------------------\n * Namespace\n * ------------------------------------------------------------------------- */\n\nexport declare namespace h {\n  namespace JSX {\n    type Element = HTMLElement\n    type IntrinsicElements = JSXInternal.IntrinsicElements\n  }\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Round a number for display with repository facts\n *\n * This is a reverse-engineered version of GitHub's weird rounding algorithm\n * for stars, forks and all other numbers. While all numbers below `1,000` are\n * returned as-is, bigger numbers are converted to fixed numbers:\n *\n * - `1,049` => `1k`\n * - `1,050` => `1.1k`\n * - `1,949` => `1.9k`\n * - `1,950` => `2k`\n *\n * @param value - Original value\n *\n * @returns Rounded value\n */\nexport function round(value: number): string {\n  if (value > 999) {\n    const digits = +((value - 950) % 1000 > 99)\n    return `${((value + 0.000001) / 1000).toFixed(digits)}k`\n  } else {\n    return value.toString()\n  }\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  defer,\n  finalize,\n  fromEvent,\n  map,\n  merge,\n  switchMap,\n  take,\n  throwError\n} from \"rxjs\"\n\nimport { h } from \"~/utilities\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Create and load a `script` element\n *\n * This function returns an observable that will emit when the script was\n * successfully loaded, or throw an error if it wasn't.\n *\n * @param src - Script URL\n *\n * @returns Script observable\n */\nexport function watchScript(src: string): Observable<void> {\n  const script = h(\"script\", { src })\n  return defer(() => {\n    document.head.appendChild(script)\n    return merge(\n      fromEvent(script, \"load\"),\n      fromEvent(script, \"error\")\n        .pipe(\n          switchMap(() => (\n            throwError(() => new ReferenceError(`Invalid script: ${src}`))\n          ))\n        )\n    )\n      .pipe(\n        map(() => undefined),\n        finalize(() => document.head.removeChild(script)),\n        take(1)\n      )\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  NEVER,\n  Observable,\n  Subject,\n  defer,\n  filter,\n  finalize,\n  map,\n  merge,\n  of,\n  shareReplay,\n  startWith,\n  switchMap,\n  tap\n} from \"rxjs\"\n\nimport { watchScript } from \"../../../script\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Element offset\n */\nexport interface ElementSize {\n  width: number                        /* Element width */\n  height: number                       /* Element height */\n}\n\n/* ----------------------------------------------------------------------------\n * Data\n * ------------------------------------------------------------------------- */\n\n/**\n * Resize observer entry subject\n */\nconst entry$ = new Subject<ResizeObserverEntry>()\n\n/**\n * Resize observer observable\n *\n * This observable will create a `ResizeObserver` on the first subscription\n * and will automatically terminate it when there are no more subscribers.\n * It's quite important to centralize observation in a single `ResizeObserver`,\n * as the performance difference can be quite dramatic, as the link shows.\n *\n * If the browser doesn't have a `ResizeObserver` implementation available, a\n * polyfill is automatically downloaded from unpkg.com. This is also compatible\n * with the built-in privacy plugin, which will download the polyfill and put\n * it alongside the built site for self-hosting.\n *\n * @see https://bit.ly/3iIYfEm - Google Groups on performance\n */\nconst observer$ = defer(() => (\n  typeof ResizeObserver === \"undefined\"\n    ? watchScript(\"https://unpkg.com/resize-observer-polyfill\")\n    : of(undefined)\n))\n  .pipe(\n    map(() => new ResizeObserver(entries => (\n      entries.forEach(entry => entry$.next(entry))\n    ))),\n    switchMap(observer => merge(NEVER, of(observer)).pipe(\n      finalize(() => observer.disconnect())\n    )),\n    shareReplay(1)\n  )\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Retrieve element size\n *\n * @param el - Element\n *\n * @returns Element size\n */\nexport function getElementSize(\n  el: HTMLElement\n): ElementSize {\n  return {\n    width:  el.offsetWidth,\n    height: el.offsetHeight\n  }\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Watch element size\n *\n * This function returns an observable that subscribes to a single internal\n * instance of `ResizeObserver` upon subscription, and emit resize events until\n * termination. Note that this function should not be called with the same\n * element twice, as the first unsubscription will terminate observation.\n *\n * Sadly, we can't use the `DOMRect` objects returned by the observer, because\n * we need the emitted values to be consistent with `getElementSize`, which will\n * return the used values (rounded) and not actual values (unrounded). Thus, we\n * use the `offset*` properties. See the linked GitHub issue.\n *\n * @see https://bit.ly/3m0k3he - GitHub issue\n *\n * @param el - Element\n *\n * @returns Element size observable\n */\nexport function watchElementSize(\n  el: HTMLElement\n): Observable<ElementSize> {\n\n  // Compute target element - since inline elements cannot be observed by the\n  // current `ResizeObserver` implementation as provided by browsers, we need\n  // to determine the first containing parent element and use that one as a\n  // target, while we always compute the actual size from the element.\n  let target = el\n  while (target.clientWidth === 0)\n    if (target.parentElement)\n      target = target.parentElement\n    else\n      break\n\n  // Observe target element and recompute element size on resize - as described\n  // above, the target element is not necessarily the element of interest\n  return observer$.pipe(\n    tap(observer => observer.observe(target)),\n    switchMap(observer => entry$.pipe(\n      filter(entry => entry.target === target),\n      finalize(() => observer.unobserve(target))\n    )),\n    map(() => getElementSize(el)),\n    startWith(getElementSize(el))\n  )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { ElementSize } from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Retrieve element content size (= scroll width and height)\n *\n * @param el - Element\n *\n * @returns Element content size\n */\nexport function getElementContentSize(\n  el: HTMLElement\n): ElementSize {\n  return {\n    width:  el.scrollWidth,\n    height: el.scrollHeight\n  }\n}\n\n/**\n * Retrieve the overflowing container of an element, if any\n *\n * @param el - Element\n *\n * @returns Overflowing container or nothing\n */\nexport function getElementContainer(\n  el: HTMLElement\n): HTMLElement | undefined {\n  let parent = el.parentElement\n  while (parent)\n    if (\n      el.scrollWidth  <= parent.scrollWidth &&\n      el.scrollHeight <= parent.scrollHeight\n    )\n      parent = (el = parent).parentElement\n    else\n      break\n\n  /* Return overflowing container */\n  return parent ? el : undefined\n}\n\n/**\n * Retrieve all overflowing containers of an element, if any\n *\n * Note that this function has a slightly different behavior, so we should at\n * some point consider refactoring how overflowing containers are handled.\n *\n * @param el - Element\n *\n * @returns Overflowing containers\n */\nexport function getElementContainers(\n  el: HTMLElement\n): HTMLElement[] {\n  const containers: HTMLElement[] = []\n\n  // Walk up the DOM tree until we find an overflowing container\n  let parent = el.parentElement\n  while (parent) {\n    if (\n      el.clientWidth  > parent.clientWidth ||\n      el.clientHeight > parent.clientHeight\n    )\n      containers.push(parent)\n\n    // Continue with parent element\n    parent = (el = parent).parentElement\n  }\n\n  // If the page is short, the body might not be overflowing and there might be\n  // no other containers, which is why we need to make sure the body is present\n  if (containers.length === 0)\n    containers.push(document.documentElement)\n\n  // Return overflowing containers\n  return containers\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  animationFrameScheduler,\n  auditTime,\n  fromEvent,\n  map,\n  merge,\n  startWith\n} from \"rxjs\"\n\nimport { watchElementSize } from \"../../size\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Element offset\n */\nexport interface ElementOffset {\n  x: number                            /* Horizontal offset */\n  y: number                            /* Vertical offset */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Retrieve element offset\n *\n * @param el - Element\n *\n * @returns Element offset\n */\nexport function getElementOffset(\n  el: HTMLElement\n): ElementOffset {\n  return {\n    x: el.offsetLeft,\n    y: el.offsetTop\n  }\n}\n\n/**\n * Retrieve absolute element offset\n *\n * @param el - Element\n *\n * @returns Element offset\n */\nexport function getElementOffsetAbsolute(\n  el: HTMLElement\n): ElementOffset {\n  const rect = el.getBoundingClientRect()\n  return {\n    x: rect.x + window.scrollX,\n    y: rect.y + window.scrollY\n  }\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Watch element offset\n *\n * @param el - Element\n *\n * @returns Element offset observable\n */\nexport function watchElementOffset(\n  el: HTMLElement\n): Observable<ElementOffset> {\n  return merge(\n    fromEvent(window, \"load\"),\n    fromEvent(window, \"resize\")\n  )\n    .pipe(\n      auditTime(0, animationFrameScheduler),\n      map(() => getElementOffset(el)),\n      startWith(getElementOffset(el))\n    )\n}\n\n/**\n * Watch absolute element offset\n *\n * @param el - Element\n *\n * @returns Element offset observable\n */\nexport function watchElementOffsetAbsolute(\n  el: HTMLElement\n): Observable<ElementOffset> {\n  return merge(\n    watchElementOffset(el),\n    watchElementSize(document.body) // @todo find a better way for this\n  )\n    .pipe(\n      map(() => getElementOffsetAbsolute(el)),\n      startWith(getElementOffsetAbsolute(el))\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  animationFrameScheduler,\n  auditTime,\n  fromEvent,\n  map,\n  merge,\n  startWith\n} from \"rxjs\"\n\nimport { ElementOffset } from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Retrieve element content offset (= scroll offset)\n *\n * @param el - Element\n *\n * @returns Element content offset\n */\nexport function getElementContentOffset(\n  el: HTMLElement\n): ElementOffset {\n  return {\n    x: el.scrollLeft,\n    y: el.scrollTop\n  }\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Watch element content offset\n *\n * @param el - Element\n *\n * @returns Element content offset observable\n */\nexport function watchElementContentOffset(\n  el: HTMLElement\n): Observable<ElementOffset> {\n  return merge(\n    fromEvent(el, \"scroll\"),\n    fromEvent(window, \"scroll\"),\n    fromEvent(window, \"resize\")\n  )\n    .pipe(\n      auditTime(0, animationFrameScheduler),\n      map(() => getElementContentOffset(el)),\n      startWith(getElementContentOffset(el))\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  NEVER,\n  Observable,\n  Subject,\n  defer,\n  distinctUntilChanged,\n  filter,\n  finalize,\n  map,\n  merge,\n  of,\n  shareReplay,\n  switchMap,\n  tap\n} from \"rxjs\"\n\nimport {\n  getElementContentSize,\n  getElementSize,\n  watchElementContentOffset\n} from \"~/browser\"\n\n/* ----------------------------------------------------------------------------\n * Data\n * ------------------------------------------------------------------------- */\n\n/**\n * Intersection observer entry subject\n */\nconst entry$ = new Subject<IntersectionObserverEntry>()\n\n/**\n * Intersection observer observable\n *\n * This observable will create an `IntersectionObserver` on first subscription\n * and will automatically terminate it when there are no more subscribers.\n *\n * @see https://bit.ly/3iIYfEm - Google Groups on performance\n */\nconst observer$ = defer(() => of(\n  new IntersectionObserver(entries => {\n    for (const entry of entries)\n      entry$.next(entry)\n  }, {\n    threshold: 0\n  })\n))\n  .pipe(\n    switchMap(observer => merge(NEVER, of(observer))\n      .pipe(\n        finalize(() => observer.disconnect())\n      )\n    ),\n    shareReplay(1)\n  )\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch element visibility\n *\n * @param el - Element\n *\n * @returns Element visibility observable\n */\nexport function watchElementVisibility(\n  el: HTMLElement\n): Observable<boolean> {\n  return observer$\n    .pipe(\n      tap(observer => observer.observe(el)),\n      switchMap(observer => entry$\n        .pipe(\n          filter(({ target }) => target === el),\n          finalize(() => observer.unobserve(el)),\n          map(({ isIntersecting }) => isIntersecting)\n        )\n      )\n    )\n}\n\n/**\n * Watch element boundary\n *\n * This function returns an observable which emits whether the bottom content\n * boundary (= scroll offset) of an element is within a certain threshold.\n *\n * @param el - Element\n * @param threshold - Threshold\n *\n * @returns Element boundary observable\n */\nexport function watchElementBoundary(\n  el: HTMLElement, threshold = 16\n): Observable<boolean> {\n  return watchElementContentOffset(el)\n    .pipe(\n      map(({ y }) => {\n        const visible = getElementSize(el)\n        const content = getElementContentSize(el)\n        return y >= (\n          content.height - visible.height - threshold\n        )\n      }),\n      distinctUntilChanged()\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  fromEvent,\n  map,\n  startWith\n} from \"rxjs\"\n\nimport { getElement } from \"../element\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Toggle\n */\nexport type Toggle =\n  | \"drawer\"                           /* Toggle for drawer */\n  | \"search\"                           /* Toggle for search */\n\n/* ----------------------------------------------------------------------------\n * Data\n * ------------------------------------------------------------------------- */\n\n/**\n * Toggle map\n */\nconst toggles: Record<Toggle, HTMLInputElement> = {\n  drawer: getElement(\"[data-md-toggle=drawer]\"),\n  search: getElement(\"[data-md-toggle=search]\")\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Retrieve the value of a toggle\n *\n * @param name - Toggle\n *\n * @returns Toggle value\n */\nexport function getToggle(name: Toggle): boolean {\n  return toggles[name].checked\n}\n\n/**\n * Set toggle\n *\n * Simulating a click event seems to be the most cross-browser compatible way\n * of changing the value while also emitting a `change` event. Before, Material\n * used `CustomEvent` to programmatically change the value of a toggle, but this\n * is a much simpler and cleaner solution which doesn't require a polyfill.\n *\n * @param name - Toggle\n * @param value - Toggle value\n */\nexport function setToggle(name: Toggle, value: boolean): void {\n  if (toggles[name].checked !== value)\n    toggles[name].click()\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Watch toggle\n *\n * @param name - Toggle\n *\n * @returns Toggle value observable\n */\nexport function watchToggle(name: Toggle): Observable<boolean> {\n  const el = toggles[name]\n  return fromEvent(el, \"change\")\n    .pipe(\n      map(() => el.checked),\n      startWith(el.checked)\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  EMPTY,\n  Observable,\n  filter,\n  fromEvent,\n  map,\n  merge,\n  share,\n  startWith,\n  switchMap\n} from \"rxjs\"\n\nimport { getActiveElement } from \"../element\"\nimport { getToggle } from \"../toggle\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Keyboard mode\n */\nexport type KeyboardMode =\n  | \"global\"                           /* Global */\n  | \"search\"                           /* Search is open */\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Keyboard\n */\nexport interface Keyboard {\n  mode: KeyboardMode                   /* Keyboard mode */\n  type: string                         /* Key type */\n  claim(): void                        /* Key claim */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Check whether an element may receive keyboard input\n *\n * @param el - Element\n * @param type - Key type\n *\n * @returns Test result\n */\nfunction isSusceptibleToKeyboard(\n  el: HTMLElement, type: string\n): boolean {\n  switch (el.constructor) {\n\n    /* Input elements */\n    case HTMLInputElement:\n      /* @ts-expect-error - omit unnecessary type cast */\n      if (el.type === \"radio\")\n        return /^Arrow/.test(type)\n      else\n        return true\n\n    /* Select element and textarea */\n    case HTMLSelectElement:\n    case HTMLTextAreaElement:\n      return true\n\n    /* Everything else */\n    default:\n      return el.isContentEditable\n  }\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch composition events\n *\n * @returns Composition observable\n */\nexport function watchComposition(): Observable<boolean> {\n  return merge(\n    fromEvent(window, \"compositionstart\").pipe(map(() => true)),\n    fromEvent(window, \"compositionend\").pipe(map(() => false))\n  )\n    .pipe(\n      startWith(false)\n    )\n}\n\n/**\n * Watch keyboard\n *\n * @returns Keyboard observable\n */\nexport function watchKeyboard(): Observable<Keyboard> {\n  const keyboard$ = fromEvent<KeyboardEvent>(window, \"keydown\")\n    .pipe(\n      filter(ev => !(ev.metaKey || ev.ctrlKey)),\n      map(ev => ({\n        mode: getToggle(\"search\") ? \"search\" : \"global\",\n        type: ev.key,\n        claim() {\n          ev.preventDefault()\n          ev.stopPropagation()\n        }\n      } as Keyboard)),\n      filter(({ mode, type }) => {\n        if (mode === \"global\") {\n          const active = getActiveElement()\n          if (typeof active !== \"undefined\")\n            return !isSusceptibleToKeyboard(active, type)\n        }\n        return true\n      }),\n      share()\n    )\n\n  /* Don't emit during composition events - see https://bit.ly/3te3Wl8 */\n  return watchComposition()\n    .pipe(\n      switchMap(active => !active ? keyboard$ : EMPTY)\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { Subject } from \"rxjs\"\n\nimport { feature } from \"~/_\"\nimport { h } from \"~/utilities\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Retrieve location\n *\n * This function returns a `URL` object (and not `Location`) to normalize the\n * typings across the application. Furthermore, locations need to be tracked\n * without setting them and `Location` is a singleton which represents the\n * current location.\n *\n * @returns URL\n */\nexport function getLocation(): URL {\n  return new URL(location.href)\n}\n\n/**\n * Set location\n *\n * If instant navigation is enabled, this function creates a temporary anchor\n * element, sets the `href` attribute, appends it to the body, clicks it, and\n * then removes it again. The event will bubble up the DOM and trigger be\n * intercepted by the instant loading business logic.\n *\n * Note that we must append and remove the anchor element, or the event will\n * not bubble up the DOM, making it impossible to intercept it.\n *\n * @param url - URL to navigate to\n * @param navigate - Force navigation\n */\nexport function setLocation(\n  url: URL | HTMLLinkElement, navigate = false\n): void {\n  if (feature(\"navigation.instant\") && !navigate) {\n    const el = h(\"a\", { href: url.href })\n    document.body.appendChild(el)\n    el.click()\n    el.remove()\n\n  // If we're not using instant navigation, and the page should not be reloaded\n  // just instruct the browser to navigate to the given URL\n  } else {\n    location.href = url.href\n  }\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Watch location\n *\n * @returns Location subject\n */\nexport function watchLocation(): Subject<URL> {\n  return new Subject<URL>()\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  filter,\n  fromEvent,\n  map,\n  merge,\n  shareReplay,\n  startWith\n} from \"rxjs\"\n\nimport { getOptionalElement } from \"~/browser\"\nimport { h } from \"~/utilities\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Retrieve location hash\n *\n * @returns Location hash\n */\nexport function getLocationHash(): string {\n  return location.hash.slice(1)\n}\n\n/**\n * Set location hash\n *\n * Setting a new fragment identifier via `location.hash` will have no effect\n * if the value doesn't change. When a new fragment identifier is set, we want\n * the browser to target the respective element at all times, which is why we\n * use this dirty little trick.\n *\n * @param hash - Location hash\n */\nexport function setLocationHash(hash: string): void {\n  const el = h(\"a\", { href: hash })\n  el.addEventListener(\"click\", ev => ev.stopPropagation())\n  el.click()\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Watch location hash\n *\n * @param location$ - Location observable\n *\n * @returns Location hash observable\n */\nexport function watchLocationHash(\n  location$: Observable<URL>\n): Observable<string> {\n  return merge(\n    fromEvent<HashChangeEvent>(window, \"hashchange\"),\n    location$\n  )\n    .pipe(\n      map(getLocationHash),\n      startWith(getLocationHash()),\n      filter(hash => hash.length > 0),\n      shareReplay(1)\n    )\n}\n\n/**\n * Watch location target\n *\n * @param location$ - Location observable\n *\n * @returns Location target observable\n */\nexport function watchLocationTarget(\n  location$: Observable<URL>\n): Observable<HTMLElement> {\n  return watchLocationHash(location$)\n    .pipe(\n      map(id => getOptionalElement(`[id=\"${id}\"]`)!),\n      filter(el => typeof el !== \"undefined\")\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  EMPTY,\n  Observable,\n  fromEvent,\n  fromEventPattern,\n  map,\n  merge,\n  startWith,\n  switchMap\n} from \"rxjs\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch media query\n *\n * Note that although `MediaQueryList.addListener` is deprecated we have to\n * use it, because it's the only way to ensure proper downward compatibility.\n *\n * @see https://bit.ly/3dUBH2m - GitHub issue\n *\n * @param query - Media query\n *\n * @returns Media observable\n */\nexport function watchMedia(query: string): Observable<boolean> {\n  const media = matchMedia(query)\n  return fromEventPattern<boolean>(next => (\n    media.addListener(() => next(media.matches))\n  ))\n    .pipe(\n      startWith(media.matches)\n    )\n}\n\n/**\n * Watch print mode\n *\n * @returns Print observable\n */\nexport function watchPrint(): Observable<boolean> {\n  const media = matchMedia(\"print\")\n  return merge(\n    fromEvent(window, \"beforeprint\").pipe(map(() => true)),\n    fromEvent(window, \"afterprint\").pipe(map(() => false))\n  )\n    .pipe(\n      startWith(media.matches)\n    )\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Toggle an observable with a media observable\n *\n * @template T - Data type\n *\n * @param query$ - Media observable\n * @param factory - Observable factory\n *\n * @returns Toggled observable\n */\nexport function at<T>(\n  query$: Observable<boolean>, factory: () => Observable<T>\n): Observable<T> {\n  return query$\n    .pipe(\n      switchMap(active => active ? factory() : EMPTY)\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  map,\n  shareReplay,\n  switchMap\n} from \"rxjs\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Options\n */\ninterface Options {\n  progress$?: Subject<number>          // Progress subject\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Fetch the given URL\n *\n * This function returns an observable that emits the response as a blob and\n * completes, or emits an error if the request failed. The caller can cancel\n * the request by unsubscribing at any time, which will automatically abort\n * the inflight request and complete the observable.\n *\n * Note that we use `XMLHTTPRequest` not because we're nostalgic, but because\n * it's the only way to get progress events for downloads and also allow for\n * cancellation of requests, as the official Fetch API does not support this\n * yet, even though we're already in 2024.\n *\n * @param url - Request URL\n * @param options - Options\n *\n * @returns Data observable\n */\nexport function request(\n  url: URL | string, options?: Options\n): Observable<Blob> {\n  return new Observable<Blob>(observer => {\n    const req = new XMLHttpRequest()\n    req.open(\"GET\", `${url}`)\n    req.responseType = \"blob\"\n\n    // Handle response\n    req.addEventListener(\"load\", () => {\n      if (req.status >= 200 && req.status < 300) {\n        observer.next(req.response)\n        observer.complete()\n\n      // Every response that is not in the 2xx range is considered an error\n      } else {\n        observer.error(new Error(req.statusText))\n      }\n    })\n\n    // Handle network errors\n    req.addEventListener(\"error\", () => {\n      observer.error(new Error(\"Network error\"))\n    })\n\n    // Handle aborted requests\n    req.addEventListener(\"abort\", () => {\n      observer.complete()\n    })\n\n    // Handle download progress\n    if (typeof options?.progress$ !== \"undefined\") {\n      req.addEventListener(\"progress\", event => {\n        if (event.lengthComputable) {\n          options.progress$!.next((event.loaded / event.total) * 100)\n\n        // Hack: Chromium doesn't report the total number of bytes if content\n        // is compressed, so we need this fallback - see https://t.ly/ZXofI\n        } else {\n          const length = req.getResponseHeader(\"Content-Length\") ?? 0\n          options.progress$!.next((event.loaded / +length) * 100)\n        }\n      })\n\n      // Immediately set progress to 5% to indicate that we're loading\n      options.progress$.next(5)\n    }\n\n    // Send request and automatically abort request upon unsubscription\n    req.send()\n    return () => req.abort()\n  })\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Fetch JSON from the given URL\n *\n * @template T - Data type\n *\n * @param url - Request URL\n * @param options - Options\n *\n * @returns Data observable\n */\nexport function requestJSON<T>(\n  url: URL | string, options?: Options\n): Observable<T> {\n  return request(url, options)\n    .pipe(\n      switchMap(res => res.text()),\n      map(body => JSON.parse(body) as T),\n      shareReplay(1)\n    )\n}\n\n/**\n * Fetch HTML from the given URL\n *\n * @param url - Request URL\n * @param options - Options\n *\n * @returns Data observable\n */\nexport function requestHTML(\n  url: URL | string, options?: Options\n): Observable<Document> {\n  const dom = new DOMParser()\n  return request(url, options)\n    .pipe(\n      switchMap(res => res.text()),\n      map(res => dom.parseFromString(res, \"text/html\")),\n      shareReplay(1)\n    )\n}\n\n/**\n * Fetch XML from the given URL\n *\n * @param url - Request URL\n * @param options - Options\n *\n * @returns Data observable\n */\nexport function requestXML(\n  url: URL | string, options?: Options\n): Observable<Document> {\n  const dom = new DOMParser()\n  return request(url, options)\n    .pipe(\n      switchMap(res => res.text()),\n      map(res => dom.parseFromString(res, \"text/xml\")),\n      shareReplay(1)\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  fromEvent,\n  map,\n  merge,\n  startWith\n} from \"rxjs\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Viewport offset\n */\nexport interface ViewportOffset {\n  x: number                            /* Horizontal offset */\n  y: number                            /* Vertical offset */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Retrieve viewport offset\n *\n * On iOS Safari, viewport offset can be negative due to overflow scrolling.\n * As this may induce strange behaviors downstream, we'll just limit it to 0.\n *\n * @returns Viewport offset\n */\nexport function getViewportOffset(): ViewportOffset {\n  return {\n    x: Math.max(0, scrollX),\n    y: Math.max(0, scrollY)\n  }\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Watch viewport offset\n *\n * @returns Viewport offset observable\n */\nexport function watchViewportOffset(): Observable<ViewportOffset> {\n  return merge(\n    fromEvent(window, \"scroll\", { passive: true }),\n    fromEvent(window, \"resize\", { passive: true })\n  )\n    .pipe(\n      map(getViewportOffset),\n      startWith(getViewportOffset())\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  fromEvent,\n  map,\n  startWith\n} from \"rxjs\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Viewport size\n */\nexport interface ViewportSize {\n  width: number                        /* Viewport width */\n  height: number                       /* Viewport height */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Retrieve viewport size\n *\n * @returns Viewport size\n */\nexport function getViewportSize(): ViewportSize {\n  return {\n    width:  innerWidth,\n    height: innerHeight\n  }\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Watch viewport size\n *\n * @returns Viewport size observable\n */\nexport function watchViewportSize(): Observable<ViewportSize> {\n  return fromEvent(window, \"resize\", { passive: true })\n    .pipe(\n      map(getViewportSize),\n      startWith(getViewportSize())\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  combineLatest,\n  map,\n  shareReplay\n} from \"rxjs\"\n\nimport {\n  ViewportOffset,\n  watchViewportOffset\n} from \"../offset\"\nimport {\n  ViewportSize,\n  watchViewportSize\n} from \"../size\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Viewport\n */\nexport interface Viewport {\n  offset: ViewportOffset               /* Viewport offset */\n  size: ViewportSize                   /* Viewport size */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch viewport\n *\n * @returns Viewport observable\n */\nexport function watchViewport(): Observable<Viewport> {\n  return combineLatest([\n    watchViewportOffset(),\n    watchViewportSize()\n  ])\n    .pipe(\n      map(([offset, size]) => ({ offset, size })),\n      shareReplay(1)\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  combineLatest,\n  distinctUntilKeyChanged,\n  map\n} from \"rxjs\"\n\nimport { Header } from \"~/components\"\n\nimport { getElementOffset } from \"../../element\"\nimport { Viewport } from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch options\n */\ninterface WatchOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  header$: Observable<Header>          /* Header observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch viewport relative to element\n *\n * @param el - Element\n * @param options - Options\n *\n * @returns Viewport observable\n */\nexport function watchViewportAt(\n  el: HTMLElement, { viewport$, header$ }: WatchOptions\n): Observable<Viewport> {\n  const size$ = viewport$\n    .pipe(\n      distinctUntilKeyChanged(\"size\")\n    )\n\n  /* Compute element offset */\n  const offset$ = combineLatest([size$, header$])\n    .pipe(\n      map(() => getElementOffset(el))\n    )\n\n  /* Compute relative viewport, return hot observable */\n  return combineLatest([header$, viewport$, offset$])\n    .pipe(\n      map(([{ height }, { offset, size }, { x, y }]) => ({\n        offset: {\n          x: offset.x - x,\n          y: offset.y - y + height\n        },\n        size\n      }))\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  endWith,\n  fromEvent,\n  ignoreElements,\n  mergeWith,\n  share,\n  takeUntil\n} from \"rxjs\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Worker message\n */\nexport interface WorkerMessage {\n  type: unknown                        /* Message type */\n  data?: unknown                       /* Message data */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Create an observable for receiving from a web worker\n *\n * @template T - Data type\n *\n * @param worker - Web worker\n *\n * @returns Message observable\n */\nfunction recv<T>(worker: Worker): Observable<T> {\n  return fromEvent<MessageEvent<T>, T>(worker, \"message\", ev => ev.data)\n}\n\n/**\n * Create a subject for sending to a web worker\n *\n * @template T - Data type\n *\n * @param worker - Web worker\n *\n * @returns Message subject\n */\nfunction send<T>(worker: Worker): Subject<T> {\n  const send$ = new Subject<T>()\n  send$.subscribe(data => worker.postMessage(data))\n\n  /* Return message subject */\n  return send$\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Create a bidirectional communication channel to a web worker\n *\n * @template T - Data type\n *\n * @param url - Worker URL\n * @param worker - Worker\n *\n * @returns Worker subject\n */\nexport function watchWorker<T extends WorkerMessage>(\n  url: string, worker = new Worker(url)\n): Subject<T> {\n  const recv$ = recv<T>(worker)\n  const send$ = send<T>(worker)\n\n  /* Create worker subject and forward messages */\n  const worker$ = new Subject<T>()\n  worker$.subscribe(send$)\n\n  /* Return worker subject */\n  const done$ = send$.pipe(ignoreElements(), endWith(true))\n  return worker$\n    .pipe(\n      ignoreElements(),\n      mergeWith(recv$.pipe(takeUntil(done$))),\n      share()\n    ) as Subject<T>\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { getElement, getLocation } from \"~/browser\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Feature flag\n */\nexport type Flag =\n  | \"announce.dismiss\"                 /* Dismissable announcement bar */\n  | \"content.code.annotate\"            /* Code annotations */\n  | \"content.code.copy\"                /* Code copy button */\n  | \"content.lazy\"                     /* Lazy content elements */\n  | \"content.tabs.link\"                /* Link content tabs */\n  | \"content.tooltips\"                 /* Tooltips */\n  | \"header.autohide\"                  /* Hide header */\n  | \"navigation.expand\"                /* Automatic expansion */\n  | \"navigation.indexes\"               /* Section pages */\n  | \"navigation.instant\"               /* Instant navigation */\n  | \"navigation.instant.progress\"      /* Instant navigation progress */\n  | \"navigation.sections\"              /* Section navigation */\n  | \"navigation.tabs\"                  /* Tabs navigation */\n  | \"navigation.tabs.sticky\"           /* Tabs navigation (sticky) */\n  | \"navigation.top\"                   /* Back-to-top button */\n  | \"navigation.tracking\"              /* Anchor tracking */\n  | \"search.highlight\"                 /* Search highlighting */\n  | \"search.share\"                     /* Search sharing */\n  | \"search.suggest\"                   /* Search suggestions */\n  | \"toc.follow\"                       /* Following table of contents */\n  | \"toc.integrate\"                    /* Integrated table of contents */\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Translation\n */\nexport type Translation =\n  | \"clipboard.copy\"                   /* Copy to clipboard */\n  | \"clipboard.copied\"                 /* Copied to clipboard */\n  | \"search.result.placeholder\"        /* Type to start searching */\n  | \"search.result.none\"               /* No matching documents */\n  | \"search.result.one\"                /* 1 matching document */\n  | \"search.result.other\"              /* # matching documents */\n  | \"search.result.more.one\"           /* 1 more on this page */\n  | \"search.result.more.other\"         /* # more on this page */\n  | \"search.result.term.missing\"       /* Missing */\n  | \"select.version\"                   /* Version selector */\n\n/**\n * Translations\n */\nexport type Translations =\n  Record<Translation, string>\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Versioning\n */\nexport interface Versioning {\n  provider: \"mike\"                     /* Version provider */\n  default?: string | string[]          /* Default version */\n  alias?: boolean                      /* Show alias */\n}\n\n/**\n * Configuration\n */\nexport interface Config {\n  base: string                         /* Base URL */\n  features: Flag[]                     /* Feature flags */\n  translations: Translations           /* Translations */\n  search: string                       /* Search worker URL */\n  tags?: Record<string, string>        /* Tags mapping */\n  version?: Versioning                 /* Versioning */\n}\n\n/* ----------------------------------------------------------------------------\n * Data\n * ------------------------------------------------------------------------- */\n\n/**\n * Retrieve global configuration and make base URL absolute\n */\nconst script = getElement(\"#__config\")\nconst config: Config = JSON.parse(script.textContent!)\nconfig.base = `${new URL(config.base, getLocation())}`\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Retrieve global configuration\n *\n * @returns Global configuration\n */\nexport function configuration(): Config {\n  return config\n}\n\n/**\n * Check whether a feature flag is enabled\n *\n * @param flag - Feature flag\n *\n * @returns Test result\n */\nexport function feature(flag: Flag): boolean {\n  return config.features.includes(flag)\n}\n\n/**\n * Retrieve the translation for the given key\n *\n * @param key - Key to be translated\n * @param value - Positional value, if any\n *\n * @returns Translation\n */\nexport function translation(\n  key: Translation, value?: string | number\n): string {\n  return typeof value !== \"undefined\"\n    ? config.translations[key].replace(\"#\", value.toString())\n    : config.translations[key]\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { getElement, getElements } from \"~/browser\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Component type\n */\nexport type ComponentType =\n  | \"announce\"                         /* Announcement bar */\n  | \"container\"                        /* Container */\n  | \"consent\"                          /* Consent */\n  | \"content\"                          /* Content */\n  | \"dialog\"                           /* Dialog */\n  | \"header\"                           /* Header */\n  | \"header-title\"                     /* Header title */\n  | \"header-topic\"                     /* Header topic */\n  | \"main\"                             /* Main area */\n  | \"outdated\"                         /* Version warning */\n  | \"palette\"                          /* Color palette */\n  | \"progress\"                         /* Progress indicator */\n  | \"search\"                           /* Search */\n  | \"search-query\"                     /* Search input */\n  | \"search-result\"                    /* Search results */\n  | \"search-share\"                     /* Search sharing */\n  | \"search-suggest\"                   /* Search suggestions */\n  | \"sidebar\"                          /* Sidebar */\n  | \"skip\"                             /* Skip link */\n  | \"source\"                           /* Repository information */\n  | \"tabs\"                             /* Navigation tabs */\n  | \"toc\"                              /* Table of contents */\n  | \"top\"                              /* Back-to-top button */\n\n/**\n * Component\n *\n * @template T - Component type\n * @template U - Reference type\n */\nexport type Component<\n  T extends {} = {},\n  U extends HTMLElement = HTMLElement\n> =\n  T & {\n    ref: U                             /* Component reference */\n  }\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Component type map\n */\ninterface ComponentTypeMap {\n  \"announce\": HTMLElement              /* Announcement bar */\n  \"container\": HTMLElement             /* Container */\n  \"consent\": HTMLElement               /* Consent */\n  \"content\": HTMLElement               /* Content */\n  \"dialog\": HTMLElement                /* Dialog */\n  \"header\": HTMLElement                /* Header */\n  \"header-title\": HTMLElement          /* Header title */\n  \"header-topic\": HTMLElement          /* Header topic */\n  \"main\": HTMLElement                  /* Main area */\n  \"outdated\": HTMLElement              /* Version warning */\n  \"palette\": HTMLElement               /* Color palette */\n  \"progress\": HTMLElement              /* Progress indicator */\n  \"search\": HTMLElement                /* Search */\n  \"search-query\": HTMLInputElement     /* Search input */\n  \"search-result\": HTMLElement         /* Search results */\n  \"search-share\": HTMLAnchorElement    /* Search sharing */\n  \"search-suggest\": HTMLElement        /* Search suggestions */\n  \"sidebar\": HTMLElement               /* Sidebar */\n  \"skip\": HTMLAnchorElement            /* Skip link */\n  \"source\": HTMLAnchorElement          /* Repository information */\n  \"tabs\": HTMLElement                  /* Navigation tabs */\n  \"toc\": HTMLElement                   /* Table of contents */\n  \"top\": HTMLAnchorElement             /* Back-to-top button */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Retrieve the element for a given component or throw a reference error\n *\n * @template T - Component type\n *\n * @param type - Component type\n * @param node - Node of reference\n *\n * @returns Element\n */\nexport function getComponentElement<T extends ComponentType>(\n  type: T, node: ParentNode = document\n): ComponentTypeMap[T] {\n  return getElement(`[data-md-component=${type}]`, node)\n}\n\n/**\n * Retrieve all elements for a given component\n *\n * @template T - Component type\n *\n * @param type - Component type\n * @param node - Node of reference\n *\n * @returns Elements\n */\nexport function getComponentElements<T extends ComponentType>(\n  type: T, node: ParentNode = document\n): ComponentTypeMap[T][] {\n  return getElements(`[data-md-component=${type}]`, node)\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  EMPTY,\n  Observable,\n  Subject,\n  defer,\n  finalize,\n  fromEvent,\n  map,\n  tap\n} from \"rxjs\"\n\nimport { feature } from \"~/_\"\nimport { getElement } from \"~/browser\"\n\nimport { Component } from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Announcement bar\n */\nexport interface Announce {\n  hash: number                        /* Content hash */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch announcement bar\n *\n * @param el - Announcement bar element\n *\n * @returns Announcement bar observable\n */\nexport function watchAnnounce(\n  el: HTMLElement\n): Observable<Announce> {\n  const button = getElement(\".md-typeset > :first-child\", el)\n  return fromEvent(button, \"click\", { once: true })\n    .pipe(\n      map(() => getElement(\".md-typeset\", el)),\n      map(content => ({ hash: __md_hash(content.innerHTML) }))\n    )\n}\n\n/**\n * Mount announcement bar\n *\n * @param el - Announcement bar element\n *\n * @returns Announcement bar component observable\n */\nexport function mountAnnounce(\n  el: HTMLElement\n): Observable<Component<Announce>> {\n  if (!feature(\"announce.dismiss\") || !el.childElementCount)\n    return EMPTY\n\n  /* Support instant navigation - see https://t.ly/3FTme */\n  if (!el.hidden) {\n    const content = getElement(\".md-typeset\", el)\n    if (__md_hash(content.innerHTML) === __md_get(\"__announce\"))\n      el.hidden = true\n  }\n\n  /* Mount component on subscription */\n  return defer(() => {\n    const push$ = new Subject<Announce>()\n    push$.subscribe(({ hash }) => {\n      el.hidden = true\n\n      /* Persist preference in local storage */\n      __md_set<number>(\"__announce\", hash)\n    })\n\n    /* Create and return component */\n    return watchAnnounce(el)\n      .pipe(\n        tap(state => push$.next(state)),\n        finalize(() => push$.complete()),\n        map(state => ({ ref: el, ...state }))\n      )\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  finalize,\n  map,\n  tap\n} from \"rxjs\"\n\nimport { Component } from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Consent\n */\nexport interface Consent {\n  hidden: boolean                      /* Consent is hidden */\n}\n\n/**\n * Consent defaults\n */\nexport interface ConsentDefaults {\n  analytics?: boolean                  /* Consent for Analytics */\n  github?: boolean                     /* Consent for GitHub */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch options\n */\ninterface WatchOptions {\n  target$: Observable<HTMLElement>     /* Target observable */\n}\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  target$: Observable<HTMLElement>     /* Target observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch consent\n *\n * @param el - Consent element\n * @param options - Options\n *\n * @returns Consent observable\n */\nexport function watchConsent(\n  el: HTMLElement, { target$ }: WatchOptions\n): Observable<Consent> {\n  return target$\n    .pipe(\n      map(target => ({ hidden: target !== el }))\n    )\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Mount consent\n *\n * @param el - Consent element\n * @param options - Options\n *\n * @returns Consent component observable\n */\nexport function mountConsent(\n  el: HTMLElement, options: MountOptions\n): Observable<Component<Consent>> {\n  const internal$ = new Subject<Consent>()\n  internal$.subscribe(({ hidden }) => {\n    el.hidden = hidden\n  })\n\n  /* Create and return component */\n  return watchConsent(el, options)\n    .pipe(\n      tap(state => internal$.next(state)),\n      finalize(() => internal$.complete()),\n      map(state => ({ ref: el, ...state }))\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { ComponentChild } from \"preact\"\n\nimport { h } from \"~/utilities\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Tooltip style\n */\nexport type TooltipStyle =\n  | \"inline\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Render a tooltip\n *\n * @param id - Tooltip identifier\n * @param style - Tooltip style\n *\n * @returns Element\n */\nexport function renderTooltip(\n  id?: string, style?: TooltipStyle\n): HTMLElement {\n  if (style === \"inline\") { // @todo refactor control flow\n    return (\n      <div class=\"md-tooltip md-tooltip--inline\" id={id} role=\"tooltip\">\n        <div class=\"md-tooltip__inner md-typeset\"></div>\n      </div>\n    )\n  } else {\n    return (\n      <div class=\"md-tooltip\" id={id} role=\"tooltip\">\n        <div class=\"md-tooltip__inner md-typeset\"></div>\n      </div>\n    )\n  }\n}\n\n// @todo: rename\nexport function renderInlineTooltip2(\n  ...children: ComponentChild[]\n): HTMLElement {\n  return (\n    <div class=\"md-tooltip2\" role=\"tooltip\">\n      <div class=\"md-tooltip2__inner md-typeset\">\n        {children}\n      </div>\n    </div>\n  )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { h } from \"~/utilities\"\n\nimport { renderTooltip } from \"../tooltip\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Render an annotation\n *\n * @param id - Annotation identifier\n * @param prefix - Tooltip identifier prefix\n *\n * @returns Element\n */\nexport function renderAnnotation(\n  id: string | number, prefix?: string\n): HTMLElement {\n  prefix = prefix ? `${prefix}_annotation_${id}` : undefined\n\n  /* Render tooltip with anchor, if given */\n  if (prefix) {\n    const anchor = prefix ? `#${prefix}` : undefined\n    return (\n      <aside class=\"md-annotation\" tabIndex={0}>\n        {renderTooltip(prefix)}\n        <a href={anchor} class=\"md-annotation__index\" tabIndex={-1}>\n          <span data-md-annotation-id={id}></span>\n        </a>\n      </aside>\n    )\n  } else {\n    return (\n      <aside class=\"md-annotation\" tabIndex={0}>\n        {renderTooltip(prefix)}\n        <span class=\"md-annotation__index\" tabIndex={-1}>\n          <span data-md-annotation-id={id}></span>\n        </span>\n      </aside>\n    )\n  }\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { translation } from \"~/_\"\nimport { h } from \"~/utilities\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Render a 'copy-to-clipboard' button\n *\n * @param id - Unique identifier\n *\n * @returns Element\n */\nexport function renderClipboardButton(id: string): HTMLElement {\n  return (\n    <button\n      class=\"md-clipboard md-icon\"\n      title={translation(\"clipboard.copy\")}\n      data-clipboard-target={`#${id} > code`}\n    ></button>\n  )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { ComponentChild } from \"preact\"\n\nimport { configuration, feature, translation } from \"~/_\"\nimport { SearchItem } from \"~/integrations/search\"\nimport { h } from \"~/utilities\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Render flag\n */\nconst enum Flag {\n  TEASER = 1,                          /* Render teaser */\n  PARENT = 2                           /* Render as parent */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper function\n * ------------------------------------------------------------------------- */\n\n/**\n * Render a search document\n *\n * @param document - Search document\n * @param flag - Render flags\n *\n * @returns Element\n */\nfunction renderSearchDocument(\n  document: SearchItem, flag: Flag\n): HTMLElement {\n  const parent = flag & Flag.PARENT\n  const teaser = flag & Flag.TEASER\n\n  /* Render missing query terms */\n  const missing = Object.keys(document.terms)\n    .filter(key => !document.terms[key])\n    .reduce<ComponentChild[]>((list, key) => [\n      ...list, <del>{key}</del>, \" \"\n    ], [])\n    .slice(0, -1)\n\n  /* Assemble query string for highlighting */\n  const config = configuration()\n  const url = new URL(document.location, config.base)\n  if (feature(\"search.highlight\"))\n    url.searchParams.set(\"h\", Object.entries(document.terms)\n      .filter(([, match]) => match)\n      .reduce((highlight, [value]) => `${highlight} ${value}`.trim(), \"\")\n    )\n\n  /* Render article or section, depending on flags */\n  const { tags } = configuration()\n  return (\n    <a href={`${url}`} class=\"md-search-result__link\" tabIndex={-1}>\n      <article\n        class=\"md-search-result__article md-typeset\"\n        data-md-score={document.score.toFixed(2)}\n      >\n        {parent > 0 && <div class=\"md-search-result__icon md-icon\"></div>}\n        {parent > 0 && <h1>{document.title}</h1>}\n        {parent <= 0 && <h2>{document.title}</h2>}\n        {teaser > 0 && document.text.length > 0 &&\n          document.text\n        }\n        {document.tags && document.tags.map(tag => {\n          const type = tags\n            ? tag in tags\n              ? `md-tag-icon md-tag--${tags[tag]}`\n              : \"md-tag-icon\"\n            : \"\"\n          return (\n            <span class={`md-tag ${type}`}>{tag}</span>\n          )\n        })}\n        {teaser > 0 && missing.length > 0 &&\n          <p class=\"md-search-result__terms\">\n            {translation(\"search.result.term.missing\")}: {...missing}\n          </p>\n        }\n      </article>\n    </a>\n  )\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Render a search result\n *\n * @param result - Search result\n *\n * @returns Element\n */\nexport function renderSearchResultItem(\n  result: SearchItem[]\n): HTMLElement {\n  const threshold = result[0].score\n  const docs = [...result]\n\n  const config = configuration()\n\n  /* Find and extract parent article */\n  const parent = docs.findIndex(doc => {\n    const l = `${new URL(doc.location, config.base)}` // @todo hacky\n    return !l.includes(\"#\")\n  })\n  const [article] = docs.splice(parent, 1)\n\n  /* Determine last index above threshold */\n  let index = docs.findIndex(doc => doc.score < threshold)\n  if (index === -1)\n    index = docs.length\n\n  /* Partition sections */\n  const best = docs.slice(0, index)\n  const more = docs.slice(index)\n\n  /* Render children */\n  const children = [\n    renderSearchDocument(article, Flag.PARENT | +(!parent && index === 0)),\n    ...best.map(section => renderSearchDocument(section, Flag.TEASER)),\n    ...more.length ? [\n      <details class=\"md-search-result__more\">\n        <summary tabIndex={-1}>\n          <div>\n            {more.length > 0 && more.length === 1\n              ? translation(\"search.result.more.one\")\n              : translation(\"search.result.more.other\", more.length)\n            }\n          </div>\n        </summary>\n        {...more.map(section => renderSearchDocument(section, Flag.TEASER))}\n      </details>\n    ] : []\n  ]\n\n  /* Render search result */\n  return (\n    <li class=\"md-search-result__item\">\n      {children}\n    </li>\n  )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { SourceFacts } from \"~/components\"\nimport { h, round } from \"~/utilities\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Render repository facts\n *\n * @param facts - Repository facts\n *\n * @returns Element\n */\nexport function renderSourceFacts(facts: SourceFacts): HTMLElement {\n  return (\n    <ul class=\"md-source__facts\">\n      {Object.entries(facts).map(([key, value]) => (\n        <li class={`md-source__fact md-source__fact--${key}`}>\n          {typeof value === \"number\" ? round(value) : value}\n        </li>\n      ))}\n    </ul>\n  )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { h } from \"~/utilities\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Tabbed control type\n */\ntype TabbedControlType =\n  | \"prev\"\n  | \"next\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Render control for content tabs\n *\n * @param type - Control type\n *\n * @returns Element\n */\nexport function renderTabbedControl(\n  type: TabbedControlType\n): HTMLElement {\n  const classes = `tabbed-control tabbed-control--${type}`\n  return (\n    <div class={classes} hidden>\n      <button class=\"tabbed-button\" tabIndex={-1} aria-hidden=\"true\"></button>\n    </div>\n  )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { h } from \"~/utilities\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Render a table inside a wrapper to improve scrolling on mobile\n *\n * @param table - Table element\n *\n * @returns Element\n */\nexport function renderTable(table: HTMLElement): HTMLElement {\n  return (\n    <div class=\"md-typeset__scrollwrap\">\n      <div class=\"md-typeset__table\">\n        {table}\n      </div>\n    </div>\n  )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { configuration, translation } from \"~/_\"\nimport { h } from \"~/utilities\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Version properties\n */\nexport interface VersionProperties {\n  hidden?: boolean                     /* Version is hidden */\n}\n\n/**\n * Version\n */\nexport interface Version {\n  version: string                      /* Version identifier */\n  title: string                        /* Version title */\n  aliases: string[]                    /* Version aliases */\n  properties?: VersionProperties       /* Version properties */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Render a version\n *\n * @param version - Version\n *\n * @returns Element\n */\nfunction renderVersion(version: Version): HTMLElement {\n  const config = configuration()\n\n  /* Ensure trailing slash - see https://bit.ly/3rL5u3f */\n  const url = new URL(`../${version.version}/`, config.base)\n  return (\n    <li class=\"md-version__item\">\n      <a href={`${url}`} class=\"md-version__link\">\n        {version.title}\n        {config.version?.alias && version.aliases.length > 0 && (\n          <span class=\"md-version__alias\">\n            {version.aliases[0]}\n          </span>\n        )}\n      </a>\n    </li>\n  )\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Render a version selector\n *\n * @param versions - Versions\n * @param active - Active version\n *\n * @returns Element\n */\nexport function renderVersionSelector(\n  versions: Version[], active: Version\n): HTMLElement {\n  const config = configuration()\n  versions = versions.filter(version => !version.properties?.hidden)\n  return (\n    <div class=\"md-version\">\n      <button\n        class=\"md-version__current\"\n        aria-label={translation(\"select.version\")}\n      >\n        {active.title}\n        {config.version?.alias && active.aliases.length > 0 && (\n          <span class=\"md-version__alias\">\n            {active.aliases[0]}\n          </span>\n        )}\n      </button>\n      <ul class=\"md-version__list\">\n        {versions.map(renderVersion)}\n      </ul>\n    </div>\n  )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  BehaviorSubject,\n  EMPTY,\n  Observable,\n  Subject,\n  animationFrameScheduler,\n  combineLatest,\n  debounce,\n  defer,\n  distinctUntilChanged,\n  endWith,\n  filter,\n  finalize,\n  first,\n  ignoreElements,\n  map,\n  mergeMap,\n  observeOn,\n  queueScheduler,\n  share,\n  startWith,\n  switchMap,\n  tap,\n  throttleTime,\n  timer,\n  withLatestFrom\n} from \"rxjs\"\n\nimport {\n  ElementOffset,\n  Viewport,\n  getElement,\n  getElementContainers,\n  getElementOffsetAbsolute,\n  getElementSize,\n  watchElementContentOffset,\n  watchElementFocus,\n  watchElementHover\n} from \"~/browser\"\nimport { renderInlineTooltip2 } from \"~/templates\"\n\nimport { Component } from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Tooltip\n */\nexport interface Tooltip {\n  active: boolean                      // Tooltip is active\n  offset: ElementOffset                // Tooltip offset\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Dependencies\n */\ninterface Dependencies {\n  content$: Observable<HTMLElement>    // Tooltip content observable\n  viewport$: Observable<Viewport>      // Viewport observable\n}\n\n/* ----------------------------------------------------------------------------\n * Data\n * ------------------------------------------------------------------------- */\n\n/**\n * Global sequence number for tooltips\n */\nlet sequence = 0\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch tooltip\n *\n * This function tracks the tooltip host element, and deduces the active state\n * and offset of the tooltip from it. The active state is determined by whether\n * the host element is focused or hovered, and the offset is determined by the\n * host element's absolute position in the document.\n *\n * @param el - Tooltip host element\n *\n * @returns Tooltip observable\n */\nexport function watchTooltip2(\n  el: HTMLElement\n): Observable<Tooltip> {\n\n  // Compute whether tooltip should be shown - we need to watch both focus and\n  // hover events on the host element and emit if one of them is active. In case\n  // of a hover event, we keep the element visible for a short amount of time\n  // after the pointer left the host element for a better user experience.\n  const active$ =\n    combineLatest([\n      watchElementFocus(el),\n      watchElementHover(el)\n    ])\n      .pipe(\n        map(([focus, hover]) => focus || hover),\n        distinctUntilChanged()\n      )\n\n  // We need to determine all parent elements of the host element that are\n  // currently scrollable, as they might affect the position of the tooltip\n  // depending on their horizontal of vertical offset. We must track all of\n  // them and recompute the position of the tooltip if they change.\n  const offset$ =\n    defer(() => getElementContainers(el)).pipe(\n      mergeMap(watchElementContentOffset),\n      throttleTime(1),\n      map(() => getElementOffsetAbsolute(el))\n    )\n\n  // Only track parent elements and compute offset of the tooltip host if the\n  // tooltip should be shown - we defer the computation of the offset until the\n  // tooltip becomes active for the first time. This is necessary, because we\n  // must also keep the tooltip active as long as it is focused or hovered.\n  return active$.pipe(\n    first(active => active),\n    switchMap(() => combineLatest([active$, offset$])),\n    map(([active, offset]) => ({ active, offset })),\n    share()\n  )\n}\n\n/**\n * Mount tooltip\n *\n * This function renders a tooltip with the content from the provided `content$`\n * observable as passed via the dependencies. If the returned element has a role\n * of type `dialog`, the tooltip is considered to be interactive, and rendered\n * either above or below the host element, depending on the available space.\n *\n * If the returned element has a role of type `tooltip`, the tooltip is always\n * rendered below the host element and considered to be non-interactive. This\n * allows us to reuse the same positioning logic for both interactive and\n * non-interactive tooltips, as it is largely the same.\n *\n * @param el - Tooltip host element\n * @param dependencies - Dependencies\n *\n * @returns Tooltip component observable\n */\nexport function mountTooltip2(\n  el: HTMLElement, dependencies: Dependencies\n): Observable<Component<Tooltip>> {\n  const { content$, viewport$ } = dependencies\n\n  // Compute unique tooltip id - this is necessary to associate the tooltip host\n  // element with the tooltip element for ARIA purposes\n  const id = `__tooltip2_${sequence++}`\n\n  // Create component on subscription\n  return defer(() => {\n    const push$ = new Subject<Tooltip>()\n\n    // Create subject to track tooltip presence and visibility - we use another\n    // purely internal subject to track the tooltip's presence and visibility,\n    // as the tooltip should be visible if the host element or tooltip itself\n    // is focused or hovered to allow for smooth pointer migration\n    const show$ = new BehaviorSubject(false)\n    push$.pipe(ignoreElements(), endWith(false))\n      .subscribe(show$)\n\n    // Create observable controlling tooltip element - we create and attach the\n    // tooltip only if it is actually present, in order to keep the number of\n    // elements low. We need to keep the tooltip visible for a short time after\n    // the pointer left the host element or tooltip itself. For this, we use an\n    // inner subscription to the tooltip observable, which we terminate when the\n    // tooltip should not be shown, automatically removing the element. Moreover\n    // we use the queue scheduler, which will schedule synchronously in case the\n    // tooltip should be shown, and asynchronously if it should be hidden.\n    const node$ = show$.pipe(\n      debounce(active => timer(+!active * 250, queueScheduler)),\n      distinctUntilChanged(),\n      switchMap(active => active ? content$ : EMPTY),\n      tap(node => node.id = id),\n      share()\n    )\n\n    // Compute tooltip presence and visibility - the tooltip should be shown if\n    // the host element or the tooltip itself is focused or hovered\n    combineLatest([\n      push$.pipe(map(({ active }) => active)),\n      node$.pipe(\n        switchMap(node => watchElementHover(node, 250)),\n        startWith(false)\n      )\n    ])\n      .pipe(map(states => states.some(active => active)))\n      .subscribe(show$)\n\n    // Compute tooltip origin - we need to compute the tooltip origin depending\n    // on the position of the host element, the viewport size, as well as the\n    // actual size of the tooltip, if positioned above. The tooltip must about\n    // to be rendered for this to be correct, which is why we do it here.\n    const origin$ = show$.pipe(\n      filter(active => active),\n      withLatestFrom(node$, viewport$),\n      map(([_, node, { size }]) => {\n        const host = el.getBoundingClientRect()\n        const x = host.width / 2\n\n        // If the tooltip is non-interactive, we always render it below the\n        // actual element because all operating systems do it that way\n        if (node.role === \"tooltip\") {\n          return { x, y: 8 + host.height }\n\n        // Otherwise, we determine where there is more space, and render the\n        // tooltip either above or below the host element\n        } else if (host.y >= size.height / 2) {\n          const { height } = getElementSize(node)\n          return { x, y: -16 - height }\n        } else {\n          return { x, y: +16 + host.height }\n        }\n      })\n    )\n\n    // Update tooltip position - we always need to update the position of the\n    // tooltip, as it might change depending on the viewport offset of the host\n    combineLatest([node$, push$, origin$])\n      .subscribe(([node, { offset }, origin]) => {\n        node.style.setProperty(\"--md-tooltip-host-x\", `${offset.x}px`)\n        node.style.setProperty(\"--md-tooltip-host-y\", `${offset.y}px`)\n\n        // Update tooltip origin - this is mainly set to determine the position\n        // of the tooltip tail, to show the direction it is originating from\n        node.style.setProperty(\"--md-tooltip-x\", `${origin.x}px`)\n        node.style.setProperty(\"--md-tooltip-y\", `${origin.y}px`)\n\n        // Update tooltip render location, i.e., whether the tooltip is shown\n        // above or below the host element, depending on the available space\n        node.classList.toggle(\"md-tooltip2--top\",    origin.y <  0)\n        node.classList.toggle(\"md-tooltip2--bottom\", origin.y >= 0)\n      })\n\n    // Update tooltip width - we only explicitly set the width of the tooltip\n    // if it is non-interactive, in case it should always be rendered centered\n    show$.pipe(\n      filter(active => active),\n      withLatestFrom(node$, (_, node) => node),\n      filter(node => node.role === \"tooltip\")\n    )\n      .subscribe(node => {\n        const size = getElementSize(getElement(\":scope > *\", node))\n\n        // Set tooltip width and remove tail by setting it to a width of zero -\n        // if authors want to keep the tail, we can move this to CSS later\n        node.style.setProperty(\"--md-tooltip-width\", `${size.width}px`)\n        node.style.setProperty(\"--md-tooltip-tail\",  `${0}px`)\n      })\n\n    // Update tooltip visibility - we defer to the next animation frame, because\n    // the tooltip must first be added to the document before we make it appear,\n    // or it will appear instantly without delay. Additionally, we need to keep\n    // the tooltip visible for a short time after the pointer left the host.\n    show$.pipe(\n      distinctUntilChanged(),\n      observeOn(animationFrameScheduler),\n      withLatestFrom(node$)\n    )\n      .subscribe(([active, node]) => {\n        node.classList.toggle(\"md-tooltip2--active\", active)\n      })\n\n    // Set up ARIA attributes when tooltip is visible\n    combineLatest([\n      show$.pipe(filter(active => active)),\n      node$\n    ])\n      .subscribe(([_, node]) => {\n        if (node.role === \"dialog\") {\n          el.setAttribute(\"aria-controls\", id)\n          el.setAttribute(\"aria-haspopup\", \"dialog\")\n        } else {\n          el.setAttribute(\"aria-describedby\", id)\n        }\n      })\n\n    // Remove ARIA attributes when tooltip is hidden\n    show$.pipe(filter(active => !active))\n      .subscribe(() => {\n        el.removeAttribute(\"aria-controls\")\n        el.removeAttribute(\"aria-describedby\")\n        el.removeAttribute(\"aria-haspopup\")\n      })\n\n    // Create and return component\n    return watchTooltip2(el)\n      .pipe(\n        tap(state => push$.next(state)),\n        finalize(() => push$.complete()),\n        map(state => ({ ref: el, ...state }))\n      )\n  })\n}\n\n// ----------------------------------------------------------------------------\n\n/**\n * Mount inline tooltip\n *\n * @todo refactor this function\n *\n * @param el - Tooltip host element\n * @param dependencies - Dependencies\n * @param container - Container\n *\n * @returns Tooltip component observable\n */\nexport function mountInlineTooltip2(\n  el: HTMLElement, { viewport$ }: { viewport$: Observable<Viewport> },\n  container = document.body\n): Observable<Component<Tooltip>> {\n  return mountTooltip2(el, {\n    content$: new Observable<HTMLElement>(observer => {\n      const title = el.title\n      const node = renderInlineTooltip2(title)\n      observer.next(node)\n      el.removeAttribute(\"title\")\n      // Append tooltip and remove on unsubscription\n      container.append(node)\n      return () => {\n        node.remove()\n        el.setAttribute(\"title\", title)\n      }\n    }),\n    viewport$\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  animationFrameScheduler,\n  auditTime,\n  combineLatest,\n  debounceTime,\n  defer,\n  delay,\n  endWith,\n  filter,\n  finalize,\n  fromEvent,\n  ignoreElements,\n  map,\n  merge,\n  switchMap,\n  take,\n  takeUntil,\n  tap,\n  throttleTime,\n  withLatestFrom\n} from \"rxjs\"\n\nimport {\n  ElementOffset,\n  getActiveElement,\n  getElementSize,\n  watchElementContentOffset,\n  watchElementFocus,\n  watchElementOffset,\n  watchElementVisibility\n} from \"~/browser\"\n\nimport { Component } from \"../../../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Annotation\n */\nexport interface Annotation {\n  active: boolean                      /* Annotation is active */\n  offset: ElementOffset                /* Annotation offset */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  target$: Observable<HTMLElement>     /* Location target observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch annotation\n *\n * @param el - Annotation element\n * @param container - Containing element\n *\n * @returns Annotation observable\n */\nexport function watchAnnotation(\n  el: HTMLElement, container: HTMLElement\n): Observable<Annotation> {\n  const offset$ = defer(() => combineLatest([\n    watchElementOffset(el),\n    watchElementContentOffset(container)\n  ]))\n    .pipe(\n      map(([{ x, y }, scroll]): ElementOffset => {\n        const { width, height } = getElementSize(el)\n        return ({\n          x: x - scroll.x + width  / 2,\n          y: y - scroll.y + height / 2\n        })\n      })\n    )\n\n  /* Actively watch annotation on focus */\n  return watchElementFocus(el)\n    .pipe(\n      switchMap(active => offset$\n        .pipe(\n          map(offset => ({ active, offset })),\n          take(+!active || Infinity)\n        )\n      )\n    )\n}\n\n/**\n * Mount annotation\n *\n * @param el - Annotation element\n * @param container - Containing element\n * @param options - Options\n *\n * @returns Annotation component observable\n */\nexport function mountAnnotation(\n  el: HTMLElement, container: HTMLElement, { target$ }: MountOptions\n): Observable<Component<Annotation>> {\n  const [tooltip, index] = Array.from(el.children)\n\n  /* Mount component on subscription */\n  return defer(() => {\n    const push$ = new Subject<Annotation>()\n    const done$ = push$.pipe(ignoreElements(), endWith(true))\n    push$.subscribe({\n\n      /* Handle emission */\n      next({ offset }) {\n        el.style.setProperty(\"--md-tooltip-x\", `${offset.x}px`)\n        el.style.setProperty(\"--md-tooltip-y\", `${offset.y}px`)\n      },\n\n      /* Handle complete */\n      complete() {\n        el.style.removeProperty(\"--md-tooltip-x\")\n        el.style.removeProperty(\"--md-tooltip-y\")\n      }\n    })\n\n    /* Start animation only when annotation is visible */\n    watchElementVisibility(el)\n      .pipe(\n        takeUntil(done$)\n      )\n        .subscribe(visible => {\n          el.toggleAttribute(\"data-md-visible\", visible)\n        })\n\n    /* Toggle tooltip presence to mitigate empty lines when copying */\n    merge(\n      push$.pipe(filter(({ active }) => active)),\n      push$.pipe(debounceTime(250), filter(({ active }) => !active))\n    )\n      .subscribe({\n\n        /* Handle emission */\n        next({ active }) {\n          if (active)\n            el.prepend(tooltip)\n          else\n            tooltip.remove()\n        },\n\n        /* Handle complete */\n        complete() {\n          el.prepend(tooltip)\n        }\n      })\n\n    /* Toggle tooltip visibility */\n    push$\n      .pipe(\n        auditTime(16, animationFrameScheduler)\n      )\n        .subscribe(({ active }) => {\n          tooltip.classList.toggle(\"md-tooltip--active\", active)\n        })\n\n    /* Track relative origin of tooltip */\n    push$\n      .pipe(\n        throttleTime(125, animationFrameScheduler),\n        filter(() => !!el.offsetParent),\n        map(() => el.offsetParent!.getBoundingClientRect()),\n        map(({ x }) => x)\n      )\n        .subscribe({\n\n          /* Handle emission */\n          next(origin) {\n            if (origin)\n              el.style.setProperty(\"--md-tooltip-0\", `${-origin}px`)\n            else\n              el.style.removeProperty(\"--md-tooltip-0\")\n          },\n\n          /* Handle complete */\n          complete() {\n            el.style.removeProperty(\"--md-tooltip-0\")\n          }\n        })\n\n    /* Allow to copy link without scrolling to anchor */\n    fromEvent<MouseEvent>(index, \"click\")\n      .pipe(\n        takeUntil(done$),\n        filter(ev => !(ev.metaKey || ev.ctrlKey))\n      )\n        .subscribe(ev => {\n          ev.stopPropagation()\n          ev.preventDefault()\n        })\n\n    /* Allow to open link in new tab or blur on close */\n    fromEvent<MouseEvent>(index, \"mousedown\")\n      .pipe(\n        takeUntil(done$),\n        withLatestFrom(push$)\n      )\n        .subscribe(([ev, { active }]) => {\n\n          /* Open in new tab */\n          if (ev.button !== 0 || ev.metaKey || ev.ctrlKey) {\n            ev.preventDefault()\n\n          /* Close annotation */\n          } else if (active) {\n            ev.preventDefault()\n\n            /* Focus parent annotation, if any */\n            const parent = el.parentElement!.closest(\".md-annotation\")\n            if (parent instanceof HTMLElement)\n              parent.focus()\n            else\n              getActiveElement()?.blur()\n          }\n        })\n\n    /* Open and focus annotation on location target */\n    target$\n      .pipe(\n        takeUntil(done$),\n        filter(target => target === tooltip),\n        delay(125)\n      )\n        .subscribe(() => el.focus())\n\n    /* Create and return component */\n    return watchAnnotation(el, container)\n      .pipe(\n        tap(state => push$.next(state)),\n        finalize(() => push$.complete()),\n        map(state => ({ ref: el, ...state }))\n      )\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  EMPTY,\n  Observable,\n  Subject,\n  defer,\n  endWith,\n  finalize,\n  ignoreElements,\n  merge,\n  share,\n  takeUntil\n} from \"rxjs\"\n\nimport {\n  getElement,\n  getElements,\n  getOptionalElement\n} from \"~/browser\"\nimport { renderAnnotation } from \"~/templates\"\n\nimport { Component } from \"../../../_\"\nimport {\n  Annotation,\n  mountAnnotation\n} from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  target$: Observable<HTMLElement>     /* Location target observable */\n  print$: Observable<boolean>          /* Media print observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Find all annotation hosts in the containing element\n *\n * @param container - Containing element\n *\n * @returns Annotation hosts\n */\nfunction findHosts(container: HTMLElement): HTMLElement[] {\n  return container.tagName === \"CODE\"\n    ? getElements(\".c, .c1, .cm\", container)\n    : [container]\n}\n\n/**\n * Find all annotation markers in the containing element\n *\n * @param container - Containing element\n *\n * @returns Annotation markers\n */\nfunction findMarkers(container: HTMLElement): Text[] {\n  const markers: Text[] = []\n  for (const el of findHosts(container)) {\n    const nodes: Text[] = []\n\n    /* Find all text nodes in current element */\n    const it = document.createNodeIterator(el, NodeFilter.SHOW_TEXT)\n    for (let node = it.nextNode(); node; node = it.nextNode())\n      nodes.push(node as Text)\n\n    /* Find all markers in each text node */\n    for (let text of nodes) {\n      let match: RegExpExecArray | null\n\n      /* Split text at marker and add to list */\n      while ((match = /(\\(\\d+\\))(!)?/.exec(text.textContent!))) {\n        const [, id, force] = match\n        if (typeof force === \"undefined\") {\n          const marker = text.splitText(match.index)\n          text = marker.splitText(id.length)\n          markers.push(marker)\n\n        /* Replace entire text with marker */\n        } else {\n          text.textContent = id\n          markers.push(text)\n          break\n        }\n      }\n    }\n  }\n  return markers\n}\n\n/**\n * Swap the child nodes of two elements\n *\n * @param source - Source element\n * @param target - Target element\n */\nfunction swap(source: HTMLElement, target: HTMLElement): void {\n  target.append(...Array.from(source.childNodes))\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount annotation list\n *\n * This function analyzes the containing code block and checks for markers\n * referring to elements in the given annotation list. If no markers are found,\n * the list is left untouched. Otherwise, list elements are rendered as\n * annotations inside the code block.\n *\n * @param el - Annotation list element\n * @param container - Containing element\n * @param options - Options\n *\n * @returns Annotation component observable\n */\nexport function mountAnnotationList(\n  el: HTMLElement, container: HTMLElement, { target$, print$ }: MountOptions\n): Observable<Component<Annotation>> {\n\n  /* Compute prefix for tooltip anchors */\n  const parent = container.closest(\"[id]\")\n  const prefix = parent?.id\n\n  /* Find and replace all markers with empty annotations */\n  const annotations = new Map<string, HTMLElement>()\n  for (const marker of findMarkers(container)) {\n    const [, id] = marker.textContent!.match(/\\((\\d+)\\)/)!\n    if (getOptionalElement(`:scope > li:nth-child(${id})`, el)) {\n      annotations.set(id, renderAnnotation(id, prefix))\n      marker.replaceWith(annotations.get(id)!)\n    }\n  }\n\n  /* Keep list if there are no annotations to render */\n  if (annotations.size === 0)\n    return EMPTY\n\n  /* Mount component on subscription */\n  return defer(() => {\n    const push$ = new Subject()\n    const done$ = push$.pipe(ignoreElements(), endWith(true))\n\n    /* Retrieve container pairs for swapping */\n    const pairs: [HTMLElement, HTMLElement][] = []\n    for (const [id, annotation] of annotations)\n      pairs.push([\n        getElement(\".md-typeset\", annotation),\n        getElement(`:scope > li:nth-child(${id})`, el)\n      ])\n\n    /* Handle print mode - see https://bit.ly/3rgPdpt */\n    print$.pipe(takeUntil(done$))\n      .subscribe(active => {\n        el.hidden = !active\n\n        /* Add class to discern list element */\n        el.classList.toggle(\"md-annotation-list\", active)\n\n        /* Show annotations in code block or list (print) */\n        for (const [inner, child] of pairs)\n          if (!active)\n            swap(child, inner)\n          else\n            swap(inner, child)\n      })\n\n    /* Create and return component */\n    return merge(...[...annotations]\n      .map(([, annotation]) => (\n        mountAnnotation(annotation, container, { target$ })\n      ))\n    )\n      .pipe(\n        finalize(() => push$.complete()),\n        share()\n      )\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { EMPTY, Observable, defer } from \"rxjs\"\n\nimport { Component } from \"../../../_\"\nimport { Annotation } from \"../_\"\nimport { mountAnnotationList } from \"../list\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  target$: Observable<HTMLElement>     /* Location target observable */\n  print$: Observable<boolean>          /* Media print observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Find list element directly following a block\n *\n * @param el - Annotation block element\n *\n * @returns List element or nothing\n */\nfunction findList(el: HTMLElement): HTMLElement | undefined {\n  if (el.nextElementSibling) {\n    const sibling = el.nextElementSibling as HTMLElement\n    if (sibling.tagName === \"OL\")\n      return sibling\n\n    /* Skip empty paragraphs - see https://bit.ly/3r4ZJ2O */\n    else if (sibling.tagName === \"P\" && !sibling.children.length)\n      return findList(sibling)\n  }\n\n  /* Everything else */\n  return undefined\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount annotation block\n *\n * @param el - Annotation block element\n * @param options - Options\n *\n * @returns Annotation component observable\n */\nexport function mountAnnotationBlock(\n  el: HTMLElement, options: MountOptions\n): Observable<Component<Annotation>> {\n  return defer(() => {\n    const list = findList(el)\n    return typeof list !== \"undefined\"\n      ? mountAnnotationList(list, el, options)\n      : EMPTY\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport ClipboardJS from \"clipboard\"\nimport {\n  EMPTY,\n  Observable,\n  Subject,\n  defer,\n  distinctUntilChanged,\n  distinctUntilKeyChanged,\n  filter,\n  finalize,\n  map,\n  mergeWith,\n  switchMap,\n  take,\n  takeLast,\n  takeUntil,\n  tap\n} from \"rxjs\"\n\nimport { feature } from \"~/_\"\nimport {\n  getElementContentSize,\n  getElements,\n  watchElementSize,\n  watchElementVisibility\n} from \"~/browser\"\nimport {\n  Tooltip,\n  mountInlineTooltip2\n} from \"~/components/tooltip2\"\nimport { renderClipboardButton } from \"~/templates\"\n\nimport { Component } from \"../../../_\"\nimport {\n  Annotation,\n  mountAnnotationList\n} from \"../../annotation\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Code block overflow\n */\nexport interface Overflow {\n  scrollable: boolean                  /* Code block overflows */\n}\n\n/**\n * Code block\n */\nexport type CodeBlock =\n  | Overflow\n  | Annotation\n  | Tooltip\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  target$: Observable<HTMLElement>     /* Location target observable */\n  print$: Observable<boolean>          /* Media print observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Data\n * ------------------------------------------------------------------------- */\n\n/**\n * Global sequence number for code blocks\n */\nlet sequence = 0\n\n/* ----------------------------------------------------------------------------\n * Helper functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Find candidate list element directly following a code block\n *\n * @param el - Code block element\n *\n * @returns List element or nothing\n */\nfunction findCandidateList(el: HTMLElement): HTMLElement | undefined {\n  if (el.nextElementSibling) {\n    const sibling = el.nextElementSibling as HTMLElement\n    if (sibling.tagName === \"OL\")\n      return sibling\n\n    /* Skip empty paragraphs - see https://bit.ly/3r4ZJ2O */\n    else if (sibling.tagName === \"P\" && !sibling.children.length)\n      return findCandidateList(sibling)\n  }\n\n  /* Everything else */\n  return undefined\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch code block\n *\n * This function monitors size changes of the viewport, as well as switches of\n * content tabs with embedded code blocks, as both may trigger overflow.\n *\n * @param el - Code block element\n *\n * @returns Code block observable\n */\nexport function watchCodeBlock(\n  el: HTMLElement\n): Observable<Overflow> {\n  return watchElementSize(el)\n    .pipe(\n      map(({ width }) => {\n        const content = getElementContentSize(el)\n        return {\n          scrollable: content.width > width\n        }\n      }),\n      distinctUntilKeyChanged(\"scrollable\")\n    )\n}\n\n/**\n * Mount code block\n *\n * This function ensures that an overflowing code block is focusable through\n * keyboard, so it can be scrolled without a mouse to improve on accessibility.\n * Furthermore, if code annotations are enabled, they are mounted if and only\n * if the code block is currently visible, e.g., not in a hidden content tab.\n *\n * Note that code blocks may be mounted eagerly or lazily. If they're mounted\n * lazily (on first visibility), code annotation anchor links will not work,\n * as they are evaluated on initial page load, and code annotations in general\n * might feel a little bumpier.\n *\n * @param el - Code block element\n * @param options - Options\n *\n * @returns Code block and annotation component observable\n */\nexport function mountCodeBlock(\n  el: HTMLElement, options: MountOptions\n): Observable<Component<CodeBlock>> {\n  const { matches: hover } = matchMedia(\"(hover)\")\n\n  /* Defer mounting of code block - see https://bit.ly/3vHVoVD */\n  const factory$ = defer(() => {\n    const push$ = new Subject<Overflow>()\n    const done$ = push$.pipe(takeLast(1))\n    push$.subscribe(({ scrollable }) => {\n      if (scrollable && hover)\n        el.setAttribute(\"tabindex\", \"0\")\n      else\n        el.removeAttribute(\"tabindex\")\n    })\n\n    /* Render button for Clipboard.js integration */\n    const content$: Array<Observable<Component<CodeBlock>>> = []\n    if (ClipboardJS.isSupported()) {\n      if (el.closest(\".copy\") || (\n        feature(\"content.code.copy\") && !el.closest(\".no-copy\")\n      )) {\n        const parent = el.closest(\"pre\")!\n        parent.id = `__code_${sequence++}`\n\n        /* Mount tooltip, if enabled */\n        const button = renderClipboardButton(parent.id)\n        parent.insertBefore(button, el)\n        if (feature(\"content.tooltips\"))\n          content$.push(mountInlineTooltip2(button, { viewport$ }))\n      }\n    }\n\n    /* Handle code annotations */\n    const container = el.closest(\".highlight\")\n    if (container instanceof HTMLElement) {\n      const list = findCandidateList(container)\n\n      /* Mount code annotations, if enabled */\n      if (typeof list !== \"undefined\" && (\n        container.classList.contains(\"annotate\") ||\n        feature(\"content.code.annotate\")\n      )) {\n        const annotations$ = mountAnnotationList(list, el, options)\n        content$.push(\n          watchElementSize(container)\n            .pipe(\n              takeUntil(done$),\n              map(({ width, height }) => width && height),\n              distinctUntilChanged(),\n              switchMap(active => active ? annotations$ : EMPTY)\n            )\n        )\n      }\n    }\n\n    // If the code block has line spans, we can add this additional class to\n    // the code block element, which fixes the problem for highlighted code\n    // lines not stretching to the entirety of the screen when the code block\n    // overflows, e.g., on mobile - see\n    const spans = getElements(\":scope > span[id]\", el)\n    if (spans.length)\n      el.classList.add(\"md-code__content\")\n\n    /* Create and return component */\n    return watchCodeBlock(el)\n      .pipe(\n        tap(state => push$.next(state)),\n        finalize(() => push$.complete()),\n        map(state => ({ ref: el, ...state })),\n        mergeWith(...content$)\n      )\n  })\n\n  /* Mount code block lazily */\n  if (feature(\"content.lazy\"))\n    return watchElementVisibility(el)\n      .pipe(\n        filter(visible => visible),\n        take(1),\n        switchMap(() => factory$)\n      )\n\n  /* Mount code block */\n  return factory$\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  defer,\n  filter,\n  finalize,\n  map,\n  merge,\n  tap\n} from \"rxjs\"\n\nimport { Component } from \"../../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Details\n */\nexport interface Details {\n  action: \"open\" | \"close\"             /* Details state */\n  reveal?: boolean                     /* Details is revealed */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch options\n */\ninterface WatchOptions {\n  target$: Observable<HTMLElement>     /* Location target observable */\n  print$: Observable<boolean>          /* Media print observable */\n}\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  target$: Observable<HTMLElement>     /* Location target observable */\n  print$: Observable<boolean>          /* Media print observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch details\n *\n * @param el - Details element\n * @param options - Options\n *\n * @returns Details observable\n */\nexport function watchDetails(\n  el: HTMLDetailsElement, { target$, print$ }: WatchOptions\n): Observable<Details> {\n  let open = true\n  return merge(\n\n    /* Open and focus details on location target */\n    target$\n      .pipe(\n        map(target => target.closest(\"details:not([open])\")!),\n        filter(details => el === details),\n        map(() => ({\n          action: \"open\", reveal: true\n        }) as Details)\n      ),\n\n    /* Open details on print and close afterwards */\n    print$\n      .pipe(\n        filter(active => active || !open),\n        tap(() => open = el.open),\n        map(active => ({\n          action: active ? \"open\" : \"close\"\n        }) as Details)\n      )\n  )\n}\n\n/**\n * Mount details\n *\n * This function ensures that `details` tags are opened on anchor jumps and\n * prior to printing, so the whole content of the page is visible.\n *\n * @param el - Details element\n * @param options - Options\n *\n * @returns Details component observable\n */\nexport function mountDetails(\n  el: HTMLDetailsElement, options: MountOptions\n): Observable<Component<Details>> {\n  return defer(() => {\n    const push$ = new Subject<Details>()\n    push$.subscribe(({ action, reveal }) => {\n      el.toggleAttribute(\"open\", action === \"open\")\n      if (reveal)\n        el.scrollIntoView()\n    })\n\n    /* Create and return component */\n    return watchDetails(el, options)\n      .pipe(\n        tap(state => push$.next(state)),\n        finalize(() => push$.complete()),\n        map(state => ({ ref: el, ...state }))\n      )\n  })\n}\n", ".node circle,.node ellipse,.node path,.node polygon,.node rect{fill:var(--md-mermaid-node-bg-color);stroke:var(--md-mermaid-node-fg-color)}marker{fill:var(--md-mermaid-edge-color)!important}.edgeLabel .label rect{fill:#0000}.label{color:var(--md-mermaid-label-fg-color);font-family:var(--md-mermaid-font-family)}.label foreignObject{line-height:normal;overflow:visible}.label div .edgeLabel{color:var(--md-mermaid-label-fg-color)}.edgeLabel,.edgeLabel rect,.label div .edgeLabel{background-color:var(--md-mermaid-label-bg-color)}.edgeLabel,.edgeLabel rect{fill:var(--md-mermaid-label-bg-color);color:var(--md-mermaid-edge-color)}.edgePath .path,.flowchart-link{stroke:var(--md-mermaid-edge-color);stroke-width:.05rem}.edgePath .arrowheadPath{fill:var(--md-mermaid-edge-color);stroke:none}.cluster rect{fill:var(--md-default-fg-color--lightest);stroke:var(--md-default-fg-color--lighter)}.cluster span{color:var(--md-mermaid-label-fg-color);font-family:var(--md-mermaid-font-family)}g #flowchart-circleEnd,g #flowchart-circleStart,g #flowchart-crossEnd,g #flowchart-crossStart,g #flowchart-pointEnd,g #flowchart-pointStart{stroke:none}g.classGroup line,g.classGroup rect{fill:var(--md-mermaid-node-bg-color);stroke:var(--md-mermaid-node-fg-color)}g.classGroup text{fill:var(--md-mermaid-label-fg-color);font-family:var(--md-mermaid-font-family)}.classLabel .box{fill:var(--md-mermaid-label-bg-color);background-color:var(--md-mermaid-label-bg-color);opacity:1}.classLabel .label{fill:var(--md-mermaid-label-fg-color);font-family:var(--md-mermaid-font-family)}.node .divider{stroke:var(--md-mermaid-node-fg-color)}.relation{stroke:var(--md-mermaid-edge-color)}.cardinality{fill:var(--md-mermaid-label-fg-color);font-family:var(--md-mermaid-font-family)}.cardinality text{fill:inherit!important}defs #classDiagram-compositionEnd,defs #classDiagram-compositionStart,defs #classDiagram-dependencyEnd,defs #classDiagram-dependencyStart,defs #classDiagram-extensionEnd,defs #classDiagram-extensionStart{fill:var(--md-mermaid-edge-color)!important;stroke:var(--md-mermaid-edge-color)!important}defs #classDiagram-aggregationEnd,defs #classDiagram-aggregationStart{fill:var(--md-mermaid-label-bg-color)!important;stroke:var(--md-mermaid-edge-color)!important}g.stateGroup rect{fill:var(--md-mermaid-node-bg-color);stroke:var(--md-mermaid-node-fg-color)}g.stateGroup .state-title{fill:var(--md-mermaid-label-fg-color)!important;font-family:var(--md-mermaid-font-family)}g.stateGroup .composit{fill:var(--md-mermaid-label-bg-color)}.nodeLabel,.nodeLabel p{color:var(--md-mermaid-label-fg-color);font-family:var(--md-mermaid-font-family)}a .nodeLabel{text-decoration:underline}.node circle.state-end,.node circle.state-start,.start-state{fill:var(--md-mermaid-edge-color);stroke:none}.end-state-inner,.end-state-outer{fill:var(--md-mermaid-edge-color)}.end-state-inner,.node circle.state-end{stroke:var(--md-mermaid-label-bg-color)}.transition{stroke:var(--md-mermaid-edge-color)}[id^=state-fork] rect,[id^=state-join] rect{fill:var(--md-mermaid-edge-color)!important;stroke:none!important}.statediagram-cluster.statediagram-cluster .inner{fill:var(--md-default-bg-color)}.statediagram-cluster rect{fill:var(--md-mermaid-node-bg-color);stroke:var(--md-mermaid-node-fg-color)}.statediagram-state rect.divider{fill:var(--md-default-fg-color--lightest);stroke:var(--md-default-fg-color--lighter)}defs #statediagram-barbEnd{stroke:var(--md-mermaid-edge-color)}.attributeBoxEven,.attributeBoxOdd{fill:var(--md-mermaid-node-bg-color);stroke:var(--md-mermaid-node-fg-color)}.entityBox{fill:var(--md-mermaid-label-bg-color);stroke:var(--md-mermaid-node-fg-color)}.entityLabel{fill:var(--md-mermaid-label-fg-color);font-family:var(--md-mermaid-font-family)}.relationshipLabelBox{fill:var(--md-mermaid-label-bg-color);fill-opacity:1;background-color:var(--md-mermaid-label-bg-color);opacity:1}.relationshipLabel{fill:var(--md-mermaid-label-fg-color)}.relationshipLine{stroke:var(--md-mermaid-edge-color)}defs #ONE_OR_MORE_END *,defs #ONE_OR_MORE_START *,defs #ONLY_ONE_END *,defs #ONLY_ONE_START *,defs #ZERO_OR_MORE_END *,defs #ZERO_OR_MORE_START *,defs #ZERO_OR_ONE_END *,defs #ZERO_OR_ONE_START *{stroke:var(--md-mermaid-edge-color)!important}defs #ZERO_OR_MORE_END circle,defs #ZERO_OR_MORE_START circle{fill:var(--md-mermaid-label-bg-color)}.actor{fill:var(--md-mermaid-sequence-actor-bg-color);stroke:var(--md-mermaid-sequence-actor-border-color)}text.actor>tspan{fill:var(--md-mermaid-sequence-actor-fg-color);font-family:var(--md-mermaid-font-family)}line{stroke:var(--md-mermaid-sequence-actor-line-color)}.actor-man circle,.actor-man line{fill:var(--md-mermaid-sequence-actorman-bg-color);stroke:var(--md-mermaid-sequence-actorman-line-color)}.messageLine0,.messageLine1{stroke:var(--md-mermaid-sequence-message-line-color)}.note{fill:var(--md-mermaid-sequence-note-bg-color);stroke:var(--md-mermaid-sequence-note-border-color)}.loopText,.loopText>tspan,.messageText,.noteText>tspan{stroke:none;font-family:var(--md-mermaid-font-family)!important}.messageText{fill:var(--md-mermaid-sequence-message-fg-color)}.loopText,.loopText>tspan{fill:var(--md-mermaid-sequence-loop-fg-color)}.noteText>tspan{fill:var(--md-mermaid-sequence-note-fg-color)}#arrowhead path{fill:var(--md-mermaid-sequence-message-line-color);stroke:none}.loopLine{fill:var(--md-mermaid-sequence-loop-bg-color);stroke:var(--md-mermaid-sequence-loop-border-color)}.labelBox{fill:var(--md-mermaid-sequence-label-bg-color);stroke:none}.labelText,.labelText>span{fill:var(--md-mermaid-sequence-label-fg-color);font-family:var(--md-mermaid-font-family)}.sequenceNumber{fill:var(--md-mermaid-sequence-number-fg-color)}rect.rect{fill:var(--md-mermaid-sequence-box-bg-color);stroke:none}rect.rect+text.text{fill:var(--md-mermaid-sequence-box-fg-color)}defs #sequencenumber{fill:var(--md-mermaid-sequence-number-bg-color)!important}", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  map,\n  of,\n  shareReplay,\n  tap\n} from \"rxjs\"\n\nimport { watchScript } from \"~/browser\"\nimport { h } from \"~/utilities\"\n\nimport { Component } from \"../../_\"\n\nimport themeCSS from \"./index.css\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Mermaid diagram\n */\nexport interface Mermaid {}\n\n/* ----------------------------------------------------------------------------\n * Data\n * ------------------------------------------------------------------------- */\n\n/**\n * Mermaid instance observable\n */\nlet mermaid$: Observable<void>\n\n/**\n * Global sequence number for diagrams\n */\nlet sequence = 0\n\n/* ----------------------------------------------------------------------------\n * Helper functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Fetch Mermaid script\n *\n * @returns Mermaid scripts observable\n */\nfunction fetchScripts(): Observable<void> {\n  return typeof mermaid === \"undefined\" || mermaid instanceof Element\n    ? watchScript(\"https://unpkg.com/mermaid@10/dist/mermaid.min.js\")\n    : of(undefined)\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount Mermaid diagram\n *\n * @param el - Code block element\n *\n * @returns Mermaid diagram component observable\n */\nexport function mountMermaid(\n  el: HTMLElement\n): Observable<Component<Mermaid>> {\n  el.classList.remove(\"mermaid\") // Hack: mitigate https://bit.ly/3CiN6Du\n  mermaid$ ||= fetchScripts()\n    .pipe(\n      tap(() => mermaid.initialize({\n        startOnLoad: false,\n        themeCSS,\n        sequence: {\n          actorFontSize: \"16px\", // Hack: mitigate https://bit.ly/3y0NEi3\n          messageFontSize: \"16px\",\n          noteFontSize: \"16px\"\n        }\n      })),\n      map(() => undefined),\n      shareReplay(1)\n    )\n\n  /* Render diagram */\n  mermaid$.subscribe(async () => {\n    el.classList.add(\"mermaid\") // Hack: mitigate https://bit.ly/3CiN6Du\n    const id = `__mermaid_${sequence++}`\n\n    /* Create host element to replace code block */\n    const host = h(\"div\", { class: \"mermaid\" })\n    const text = el.textContent\n\n    /* Render and inject diagram */\n    const { svg, fn } = await mermaid.render(id, text)\n\n    /* Create a shadow root and inject diagram */\n    const shadow = host.attachShadow({ mode: \"closed\" })\n    shadow.innerHTML = svg\n\n    /* Replace code block with diagram and bind functions */\n    el.replaceWith(host)\n    fn?.(shadow)\n  })\n\n  /* Create and return component */\n  return mermaid$\n    .pipe(\n      map(() => ({ ref: el }))\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { Observable, of } from \"rxjs\"\n\nimport { renderTable } from \"~/templates\"\nimport { h } from \"~/utilities\"\n\nimport { Component } from \"../../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Data table\n */\nexport interface DataTable {}\n\n/* ----------------------------------------------------------------------------\n * Data\n * ------------------------------------------------------------------------- */\n\n/**\n * Sentinel for replacement\n */\nconst sentinel = h(\"table\")\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount data table\n *\n * This function wraps a data table in another scrollable container, so it can\n * be smoothly scrolled on smaller screen sizes and won't break the layout.\n *\n * @param el - Data table element\n *\n * @returns Data table component observable\n */\nexport function mountDataTable(\n  el: HTMLElement\n): Observable<Component<DataTable>> {\n  el.replaceWith(sentinel)\n  sentinel.replaceWith(renderTable(el))\n\n  /* Create and return component */\n  return of({ ref: el })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  animationFrameScheduler,\n  asyncScheduler,\n  auditTime,\n  combineLatest,\n  defer,\n  endWith,\n  filter,\n  finalize,\n  fromEvent,\n  ignoreElements,\n  map,\n  merge,\n  skip,\n  startWith,\n  subscribeOn,\n  switchMap,\n  takeUntil,\n  tap,\n  withLatestFrom\n} from \"rxjs\"\n\nimport { feature } from \"~/_\"\nimport {\n  Viewport,\n  getElement,\n  getElementContentOffset,\n  getElementContentSize,\n  getElementOffset,\n  getElementSize,\n  getElements,\n  watchElementContentOffset,\n  watchElementSize,\n  watchElementVisibility\n} from \"~/browser\"\nimport { renderTabbedControl } from \"~/templates\"\nimport { h } from \"~/utilities\"\n\nimport { Component } from \"../../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Content tabs\n */\nexport interface ContentTabs {\n  active: HTMLLabelElement             /* Active tab label */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  target$: Observable<HTMLElement>     /* Location target observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch content tabs\n *\n * @param inputs - Content tabs input elements\n *\n * @returns Content tabs observable\n */\nexport function watchContentTabs(\n  inputs: HTMLInputElement[]\n): Observable<ContentTabs> {\n  const initial = inputs.find(input => input.checked) || inputs[0]\n  return merge(...inputs.map(input => fromEvent(input, \"change\")\n    .pipe(\n      map(() => getElement<HTMLLabelElement>(`label[for=\"${input.id}\"]`))\n    )\n  ))\n    .pipe(\n      startWith(getElement<HTMLLabelElement>(`label[for=\"${initial.id}\"]`)),\n      map(active => ({ active }))\n    )\n}\n\n/**\n * Mount content tabs\n *\n * @param el - Content tabs element\n * @param options - Options\n *\n * @returns Content tabs component observable\n */\nexport function mountContentTabs(\n  el: HTMLElement, { viewport$, target$ }: MountOptions\n): Observable<Component<ContentTabs>> {\n  const container = getElement(\".tabbed-labels\", el)\n  const inputs = getElements<HTMLInputElement>(\":scope > input\", el)\n\n  /* Render content tab previous button for pagination */\n  const prev = renderTabbedControl(\"prev\")\n  el.append(prev)\n\n  /* Render content tab next button for pagination */\n  const next = renderTabbedControl(\"next\")\n  el.append(next)\n\n  /* Mount component on subscription */\n  return defer(() => {\n    const push$ = new Subject<ContentTabs>()\n    const done$ = push$.pipe(ignoreElements(), endWith(true))\n    combineLatest([push$, watchElementSize(el)])\n      .pipe(\n        takeUntil(done$),\n        auditTime(1, animationFrameScheduler)\n      )\n        .subscribe({\n\n          /* Handle emission */\n          next([{ active }, size]) {\n            const offset = getElementOffset(active)\n            const { width } = getElementSize(active)\n\n            /* Set tab indicator offset and width */\n            el.style.setProperty(\"--md-indicator-x\", `${offset.x}px`)\n            el.style.setProperty(\"--md-indicator-width\", `${width}px`)\n\n            /* Scroll container to active content tab */\n            const content = getElementContentOffset(container)\n            if (\n              offset.x         < content.x              ||\n              offset.x + width > content.x + size.width\n            )\n              container.scrollTo({\n                left: Math.max(0, offset.x - 16),\n                behavior: \"smooth\"\n              })\n          },\n\n          /* Handle complete */\n          complete() {\n            el.style.removeProperty(\"--md-indicator-x\")\n            el.style.removeProperty(\"--md-indicator-width\")\n          }\n        })\n\n    /* Hide content tab buttons on borders */\n    combineLatest([\n      watchElementContentOffset(container),\n      watchElementSize(container)\n    ])\n      .pipe(\n        takeUntil(done$)\n      )\n        .subscribe(([offset, size]) => {\n          const content = getElementContentSize(container)\n          prev.hidden = offset.x < 16\n          next.hidden = offset.x > content.width - size.width - 16\n        })\n\n    /* Paginate content tab container on click */\n    merge(\n      fromEvent(prev, \"click\").pipe(map(() => -1)),\n      fromEvent(next, \"click\").pipe(map(() => +1))\n    )\n      .pipe(\n        takeUntil(done$)\n      )\n        .subscribe(direction => {\n          const { width } = getElementSize(container)\n          container.scrollBy({\n            left: width * direction,\n            behavior: \"smooth\"\n          })\n        })\n\n    /* Switch to content tab target */\n    target$\n      .pipe(\n        takeUntil(done$),\n        filter(input => inputs.includes(input as HTMLInputElement))\n      )\n        .subscribe(input => input.click())\n\n    /* Add link to each content tab label */\n    container.classList.add(\"tabbed-labels--linked\")\n    for (const input of inputs) {\n      const label = getElement<HTMLLabelElement>(`label[for=\"${input.id}\"]`)\n      label.replaceChildren(h(\"a\", {\n        href: `#${label.htmlFor}`,\n        tabIndex: -1\n      }, ...Array.from(label.childNodes)))\n\n      /* Allow to copy link without scrolling to anchor */\n      fromEvent<MouseEvent>(label.firstElementChild!, \"click\")\n        .pipe(\n          takeUntil(done$),\n          filter(ev => !(ev.metaKey || ev.ctrlKey)),\n          tap(ev => {\n            ev.preventDefault()\n            ev.stopPropagation()\n          })\n        )\n          // @todo we might need to remove the anchor link on complete\n          .subscribe(() => {\n            history.replaceState({}, \"\", `#${label.htmlFor}`)\n            label.click()\n          })\n    }\n\n    /* Set up linking of content tabs, if enabled */\n    if (feature(\"content.tabs.link\"))\n      push$.pipe(\n        skip(1),\n        withLatestFrom(viewport$)\n      )\n        .subscribe(([{ active }, { offset }]) => {\n          const tab = active.innerText.trim()\n          if (active.hasAttribute(\"data-md-switching\")) {\n            active.removeAttribute(\"data-md-switching\")\n\n          /* Determine viewport offset of active tab */\n          } else {\n            const y = el.offsetTop - offset.y\n\n            /* Passively activate other tabs */\n            for (const set of getElements(\"[data-tabs]\"))\n              for (const input of getElements<HTMLInputElement>(\n                \":scope > input\", set\n              )) {\n                const label = getElement(`label[for=\"${input.id}\"]`)\n                if (\n                  label !== active &&\n                  label.innerText.trim() === tab\n                ) {\n                  label.setAttribute(\"data-md-switching\", \"\")\n                  input.click()\n                  break\n                }\n              }\n\n            /* Bring active tab into view */\n            window.scrollTo({\n              top: el.offsetTop - y\n            })\n\n            /* Persist active tabs in local storage */\n            const tabs = __md_get<string[]>(\"__tabs\") || []\n            __md_set(\"__tabs\", [...new Set([tab, ...tabs])])\n          }\n        })\n\n    /* Pause media (audio, video) on switch - see https://bit.ly/3Bk6cel */\n    push$.pipe(takeUntil(done$))\n      .subscribe(() => {\n        for (const media of getElements<HTMLAudioElement>(\"audio, video\", el))\n          media.pause()\n      })\n\n    /* Create and return component */\n    return watchElementVisibility(el)\n      .pipe(\n        switchMap(() => watchContentTabs(inputs)),\n        tap(state => push$.next(state)),\n        finalize(() => push$.complete()),\n        map(state => ({ ref: el, ...state }))\n      )\n  })\n    .pipe(\n      subscribeOn(asyncScheduler)\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { Observable, merge } from \"rxjs\"\n\nimport { feature } from \"~/_\"\nimport { Viewport, getElements } from \"~/browser\"\n\nimport { Component } from \"../../_\"\nimport {\n  Tooltip,\n  mountInlineTooltip2\n} from \"../../tooltip2\"\nimport {\n  Annotation,\n  mountAnnotationBlock\n} from \"../annotation\"\nimport {\n  CodeBlock,\n  mountCodeBlock\n} from \"../code\"\nimport {\n  Details,\n  mountDetails\n} from \"../details\"\nimport {\n  Mermaid,\n  mountMermaid\n} from \"../mermaid\"\nimport {\n  DataTable,\n  mountDataTable\n} from \"../table\"\nimport {\n  ContentTabs,\n  mountContentTabs\n} from \"../tabs\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Content\n */\nexport type Content =\n  | Annotation\n  | CodeBlock\n  | ContentTabs\n  | DataTable\n  | Details\n  | Mermaid\n  | Tooltip\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  target$: Observable<HTMLElement>     /* Location target observable */\n  print$: Observable<boolean>          /* Media print observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount content\n *\n * This function mounts all components that are found in the content of the\n * actual article, including code blocks, data tables and details.\n *\n * @param el - Content element\n * @param options - Options\n *\n * @returns Content component observable\n */\nexport function mountContent(\n  el: HTMLElement, { viewport$, target$, print$ }: MountOptions\n): Observable<Component<Content>> {\n  return merge(\n\n    /* Annotations */\n    ...getElements(\".annotate:not(.highlight)\", el)\n      .map(child => mountAnnotationBlock(child, { target$, print$ })),\n\n    /* Code blocks */\n    ...getElements(\"pre:not(.mermaid) > code\", el)\n      .map(child => mountCodeBlock(child, { target$, print$ })),\n\n    /* Mermaid diagrams */\n    ...getElements(\"pre.mermaid\", el)\n      .map(child => mountMermaid(child)),\n\n    /* Data tables */\n    ...getElements(\"table:not([class])\", el)\n      .map(child => mountDataTable(child)),\n\n    /* Details */\n    ...getElements(\"details\", el)\n      .map(child => mountDetails(child, { target$, print$ })),\n\n    /* Content tabs */\n    ...getElements(\"[data-tabs]\", el)\n      .map(child => mountContentTabs(child, { viewport$, target$ })),\n\n    /* Tooltips */\n    ...getElements(\"[title]\", el)\n      .filter(() => feature(\"content.tooltips\"))\n      .map(child => mountInlineTooltip2(child, { viewport$ }))\n  )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  defer,\n  delay,\n  finalize,\n  map,\n  merge,\n  of,\n  switchMap,\n  tap\n} from \"rxjs\"\n\nimport { getElement } from \"~/browser\"\n\nimport { Component } from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Dialog\n */\nexport interface Dialog {\n  message: string                      /* Dialog message */\n  active: boolean                      /* Dialog is active */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch options\n */\ninterface WatchOptions {\n  alert$: Subject<string>              /* Alert subject */\n}\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  alert$: Subject<string>              /* Alert subject */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch dialog\n *\n * @param _el - Dialog element\n * @param options - Options\n *\n * @returns Dialog observable\n */\nexport function watchDialog(\n  _el: HTMLElement, { alert$ }: WatchOptions\n): Observable<Dialog> {\n  return alert$\n    .pipe(\n      switchMap(message => merge(\n        of(true),\n        of(false).pipe(delay(2000))\n      )\n        .pipe(\n          map(active => ({ message, active }))\n        )\n      )\n    )\n}\n\n/**\n * Mount dialog\n *\n * This function reveals the dialog in the right corner when a new alert is\n * emitted through the subject that is passed as part of the options.\n *\n * @param el - Dialog element\n * @param options - Options\n *\n * @returns Dialog component observable\n */\nexport function mountDialog(\n  el: HTMLElement, options: MountOptions\n): Observable<Component<Dialog>> {\n  const inner = getElement(\".md-typeset\", el)\n  return defer(() => {\n    const push$ = new Subject<Dialog>()\n    push$.subscribe(({ message, active }) => {\n      el.classList.toggle(\"md-dialog--active\", active)\n      inner.textContent = message\n    })\n\n    /* Create and return component */\n    return watchDialog(el, options)\n      .pipe(\n        tap(state => push$.next(state)),\n        finalize(() => push$.complete()),\n        map(state => ({ ref: el, ...state }))\n      )\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  EMPTY,\n  Observable,\n  Subject,\n  animationFrameScheduler,\n  asyncScheduler,\n  auditTime,\n  combineLatest,\n  debounceTime,\n  defer,\n  distinctUntilChanged,\n  filter,\n  finalize,\n  map,\n  merge,\n  of,\n  subscribeOn,\n  tap,\n  throttleTime\n} from \"rxjs\"\n\nimport {\n  ElementOffset,\n  getElement,\n  getElementContainer,\n  getElementOffset,\n  getElementSize,\n  watchElementContentOffset,\n  watchElementFocus,\n  watchElementHover\n} from \"~/browser\"\nimport { renderTooltip } from \"~/templates\"\n\nimport { Component } from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Tooltip\n */\nexport interface Tooltip {\n  active: boolean                      /* Tooltip is active */\n  offset: ElementOffset                /* Tooltip offset */\n}\n\n/* ----------------------------------------------------------------------------\n * Data\n * ------------------------------------------------------------------------- */\n\n/**\n * Global sequence number for tooltips\n */\nlet sequence = 0\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch tooltip\n *\n * This function will append the tooltip temporarily to compute its width,\n * which is necessary for correct centering, and then removing it again.\n *\n * @param el - Tooltip element\n * @param host - Host element\n *\n * @returns Tooltip observable\n */\nexport function watchTooltip(\n  el: HTMLElement, host: HTMLElement\n): Observable<Tooltip> {\n  document.body.append(el)\n\n  /* Compute width and remove tooltip immediately */\n  const { width } = getElementSize(el)\n  el.style.setProperty(\"--md-tooltip-width\", `${width}px`)\n  el.remove()\n\n  /* Retrieve and watch containing element */\n  const container = getElementContainer(host)\n  const scroll$ =\n    typeof container !== \"undefined\"\n      ? watchElementContentOffset(container)\n      : of({ x: 0, y: 0 })\n\n  /* Compute tooltip visibility */\n  const active$ = merge(\n    watchElementFocus(host),\n    watchElementHover(host)\n  )\n    .pipe(\n      distinctUntilChanged()\n    )\n\n  /* Compute tooltip offset */\n  return combineLatest([active$, scroll$])\n    .pipe(\n      map(([active, scroll]) => {\n        let { x, y } = getElementOffset(host)\n        const size = getElementSize(host)\n\n        /**\n         * Experimental: fix handling of tables - see https://bit.ly/3TQEj5O\n         *\n         * If this proves to be a viable fix, we should refactor tooltip\n         * positioning and somehow streamline the current process. This might\n         * also fix positioning for annotations inside tables, which is another\n         * limitation.\n         */\n        const table = host.closest(\"table\")\n        if (table && host.parentElement) {\n          x += table.offsetLeft + host.parentElement.offsetLeft\n          y += table.offsetTop  + host.parentElement.offsetTop\n        }\n        return {\n          active,\n          offset: {\n            x: x - scroll.x + size.width  / 2 - width / 2,\n            y: y - scroll.y + size.height + 8\n          }\n        }\n      })\n    )\n}\n\n/**\n * Mount tooltip\n *\n * @param el - Host element\n *\n * @returns Tooltip component observable\n */\nexport function mountTooltip(\n  el: HTMLElement\n): Observable<Component<Tooltip>> {\n  const title = el.title\n  if (!title.length)\n    return EMPTY\n\n  /* Render tooltip and set title from host element */\n  const id = `__tooltip_${sequence++}`\n  const tooltip = renderTooltip(id, \"inline\")\n  const typeset = getElement(\".md-typeset\", tooltip)\n  typeset.innerHTML = title\n\n  /* Mount component on subscription */\n  return defer(() => {\n    const push$ = new Subject<Tooltip>()\n    push$.subscribe({\n\n      /* Handle emission */\n      next({ offset }) {\n        tooltip.style.setProperty(\"--md-tooltip-x\", `${offset.x}px`)\n        tooltip.style.setProperty(\"--md-tooltip-y\", `${offset.y}px`)\n      },\n\n      /* Handle complete */\n      complete() {\n        tooltip.style.removeProperty(\"--md-tooltip-x\")\n        tooltip.style.removeProperty(\"--md-tooltip-y\")\n      }\n    })\n\n    /* Toggle tooltip presence to mitigate empty lines when copying */\n    merge(\n      push$.pipe(filter(({ active }) => active)),\n      push$.pipe(debounceTime(250), filter(({ active }) => !active))\n    )\n      .subscribe({\n\n        /* Handle emission */\n        next({ active }) {\n          if (active) {\n            el.insertAdjacentElement(\"afterend\", tooltip)\n            el.setAttribute(\"aria-describedby\", id)\n            el.removeAttribute(\"title\")\n          } else {\n            tooltip.remove()\n            el.removeAttribute(\"aria-describedby\")\n            el.setAttribute(\"title\", title)\n          }\n        },\n\n        /* Handle complete */\n        complete() {\n          tooltip.remove()\n          el.removeAttribute(\"aria-describedby\")\n          el.setAttribute(\"title\", title)\n        }\n      })\n\n    /* Toggle tooltip visibility */\n    push$\n      .pipe(\n        auditTime(16, animationFrameScheduler)\n      )\n        .subscribe(({ active }) => {\n          tooltip.classList.toggle(\"md-tooltip--active\", active)\n        })\n\n    // @todo - refactor positioning together with annotations \u2013 there are\n    // several things that overlap and are identical in handling\n\n    /* Track relative origin of tooltip */\n    push$\n      .pipe(\n        throttleTime(125, animationFrameScheduler),\n        filter(() => !!el.offsetParent),\n        map(() => el.offsetParent!.getBoundingClientRect()),\n        map(({ x }) => x)\n      )\n      .subscribe({\n\n        /* Handle emission */\n        next(origin) {\n          if (origin)\n            tooltip.style.setProperty(\"--md-tooltip-0\", `${-origin}px`)\n          else\n            tooltip.style.removeProperty(\"--md-tooltip-0\")\n        },\n\n        /* Handle complete */\n        complete() {\n          tooltip.style.removeProperty(\"--md-tooltip-0\")\n        }\n      })\n\n    /* Create and return component */\n    return watchTooltip(tooltip, el)\n      .pipe(\n        tap(state => push$.next(state)),\n        finalize(() => push$.complete()),\n        map(state => ({ ref: el, ...state }))\n      )\n  })\n    .pipe(\n      subscribeOn(asyncScheduler)\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  bufferCount,\n  combineLatest,\n  combineLatestWith,\n  defer,\n  distinctUntilChanged,\n  distinctUntilKeyChanged,\n  endWith,\n  filter,\n  from,\n  ignoreElements,\n  map,\n  mergeMap,\n  mergeWith,\n  of,\n  shareReplay,\n  startWith,\n  switchMap,\n  takeUntil\n} from \"rxjs\"\n\nimport { feature } from \"~/_\"\nimport {\n  Viewport,\n  getElements,\n  watchElementSize,\n  watchToggle\n} from \"~/browser\"\n\nimport { Component } from \"../../_\"\nimport { Main } from \"../../main\"\nimport {\n  Tooltip,\n  mountTooltip\n} from \"../../tooltip\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Header\n */\nexport interface Header {\n  height: number                       /* Header visible height */\n  hidden: boolean                      /* Header is hidden */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch options\n */\ninterface WatchOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n}\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  header$: Observable<Header>          /* Header observable */\n  main$: Observable<Main>              /* Main area observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Compute whether the header is hidden\n *\n * If the user scrolls past a certain threshold, the header can be hidden when\n * scrolling down, and shown when scrolling up.\n *\n * @param options - Options\n *\n * @returns Toggle observable\n */\nfunction isHidden({ viewport$ }: WatchOptions): Observable<boolean> {\n  if (!feature(\"header.autohide\"))\n    return of(false)\n\n  /* Compute direction and turning point */\n  const direction$ = viewport$\n    .pipe(\n      map(({ offset: { y } }) => y),\n      bufferCount(2, 1),\n      map(([a, b]) => [a < b, b] as const),\n      distinctUntilKeyChanged(0)\n    )\n\n  /* Compute whether header should be hidden */\n  const hidden$ = combineLatest([viewport$, direction$])\n    .pipe(\n      filter(([{ offset }, [, y]]) => Math.abs(y - offset.y) > 100),\n      map(([, [direction]]) => direction),\n      distinctUntilChanged()\n    )\n\n  /* Compute threshold for hiding */\n  const search$ = watchToggle(\"search\")\n  return combineLatest([viewport$, search$])\n    .pipe(\n      map(([{ offset }, search]) => offset.y > 400 && !search),\n      distinctUntilChanged(),\n      switchMap(active => active ? hidden$ : of(false)),\n      startWith(false)\n    )\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch header\n *\n * @param el - Header element\n * @param options - Options\n *\n * @returns Header observable\n */\nexport function watchHeader(\n  el: HTMLElement, options: WatchOptions\n): Observable<Header> {\n  return defer(() => combineLatest([\n    watchElementSize(el),\n    isHidden(options)\n  ]))\n    .pipe(\n      map(([{ height }, hidden]) => ({\n        height,\n        hidden\n      })),\n      distinctUntilChanged((a, b) => (\n        a.height === b.height &&\n        a.hidden === b.hidden\n      )),\n      shareReplay(1)\n    )\n}\n\n/**\n * Mount header\n *\n * This function manages the different states of the header, i.e. whether it's\n * hidden or rendered with a shadow. This depends heavily on the main area.\n *\n * @param el - Header element\n * @param options - Options\n *\n * @returns Header component observable\n */\nexport function mountHeader(\n  el: HTMLElement, { header$, main$ }: MountOptions\n): Observable<Component<Header | Tooltip>> {\n  return defer(() => {\n    const push$ = new Subject<Main>()\n    const done$ = push$.pipe(ignoreElements(), endWith(true))\n    push$\n      .pipe(\n        distinctUntilKeyChanged(\"active\"),\n        combineLatestWith(header$)\n      )\n        .subscribe(([{ active }, { hidden }]) => {\n          el.classList.toggle(\"md-header--shadow\", active && !hidden)\n          el.hidden = hidden\n        })\n\n    /* Mount tooltips, if enabled */\n    const tooltips = from(getElements(\"[title]\", el))\n      .pipe(\n        filter(() => feature(\"content.tooltips\")),\n        mergeMap(child => mountTooltip(child))\n      )\n\n    /* Link to main area */\n    main$.subscribe(push$)\n\n    /* Create and return component */\n    return header$\n      .pipe(\n        takeUntil(done$),\n        map(state => ({ ref: el, ...state })),\n        mergeWith(tooltips.pipe(takeUntil(done$)))\n      )\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  EMPTY,\n  Observable,\n  Subject,\n  defer,\n  distinctUntilKeyChanged,\n  finalize,\n  map,\n  tap\n} from \"rxjs\"\n\nimport {\n  Viewport,\n  getElementSize,\n  getOptionalElement,\n  watchViewportAt\n} from \"~/browser\"\n\nimport { Component } from \"../../_\"\nimport { Header } from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Header\n */\nexport interface HeaderTitle {\n  active: boolean                      /* Header title is active */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch options\n */\ninterface WatchOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  header$: Observable<Header>          /* Header observable */\n}\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  header$: Observable<Header>          /* Header observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch header title\n *\n * @param el - Heading element\n * @param options - Options\n *\n * @returns Header title observable\n */\nexport function watchHeaderTitle(\n  el: HTMLElement, { viewport$, header$ }: WatchOptions\n): Observable<HeaderTitle> {\n  return watchViewportAt(el, { viewport$, header$ })\n    .pipe(\n      map(({ offset: { y } }) => {\n        const { height } = getElementSize(el)\n        return {\n          active: y >= height\n        }\n      }),\n      distinctUntilKeyChanged(\"active\")\n    )\n}\n\n/**\n * Mount header title\n *\n * This function swaps the header title from the site title to the title of the\n * current page when the user scrolls past the first headline.\n *\n * @param el - Header title element\n * @param options - Options\n *\n * @returns Header title component observable\n */\nexport function mountHeaderTitle(\n  el: HTMLElement, options: MountOptions\n): Observable<Component<HeaderTitle>> {\n  return defer(() => {\n    const push$ = new Subject<HeaderTitle>()\n    push$.subscribe({\n\n      /* Handle emission */\n      next({ active }) {\n        el.classList.toggle(\"md-header__title--active\", active)\n      },\n\n      /* Handle complete */\n      complete() {\n        el.classList.remove(\"md-header__title--active\")\n      }\n    })\n\n    /* Obtain headline, if any */\n    const heading = getOptionalElement(\".md-content h1\")\n    if (typeof heading === \"undefined\")\n      return EMPTY\n\n    /* Create and return component */\n    return watchHeaderTitle(heading, options)\n      .pipe(\n        tap(state => push$.next(state)),\n        finalize(() => push$.complete()),\n        map(state => ({ ref: el, ...state }))\n      )\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  combineLatest,\n  distinctUntilChanged,\n  distinctUntilKeyChanged,\n  map,\n  switchMap\n} from \"rxjs\"\n\nimport {\n  Viewport,\n  watchElementSize\n} from \"~/browser\"\n\nimport { Header } from \"../header\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Main area\n */\nexport interface Main {\n  offset: number                       /* Main area top offset */\n  height: number                       /* Main area visible height */\n  active: boolean                      /* Main area is active */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch options\n */\ninterface WatchOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  header$: Observable<Header>          /* Header observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch main area\n *\n * This function returns an observable that computes the visual parameters of\n * the main area which depends on the viewport vertical offset and height, as\n * well as the height of the header element, if the header is fixed.\n *\n * @param el - Main area element\n * @param options - Options\n *\n * @returns Main area observable\n */\nexport function watchMain(\n  el: HTMLElement, { viewport$, header$ }: WatchOptions\n): Observable<Main> {\n\n  /* Compute necessary adjustment for header */\n  const adjust$ = header$\n    .pipe(\n      map(({ height }) => height),\n      distinctUntilChanged()\n    )\n\n  /* Compute the main area's top and bottom borders */\n  const border$ = adjust$\n    .pipe(\n      switchMap(() => watchElementSize(el)\n        .pipe(\n          map(({ height }) => ({\n            top:    el.offsetTop,\n            bottom: el.offsetTop + height\n          })),\n          distinctUntilKeyChanged(\"bottom\")\n        )\n      )\n    )\n\n  /* Compute the main area's offset, visible height and if we scrolled past */\n  return combineLatest([adjust$, border$, viewport$])\n    .pipe(\n      map(([header, { top, bottom }, { offset: { y }, size: { height } }]) => {\n        height = Math.max(0, height\n          - Math.max(0, top    - y,  header)\n          - Math.max(0, height + y - bottom)\n        )\n        return {\n          offset: top - header,\n          height,\n          active: top - header <= y\n        }\n      }),\n      distinctUntilChanged((a, b) => (\n        a.offset === b.offset &&\n        a.height === b.height &&\n        a.active === b.active\n      ))\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  asyncScheduler,\n  defer,\n  filter,\n  finalize,\n  fromEvent,\n  map,\n  mergeMap,\n  observeOn,\n  of,\n  repeat,\n  shareReplay,\n  skip,\n  startWith,\n  takeUntil,\n  tap,\n  withLatestFrom\n} from \"rxjs\"\n\nimport { getElements, watchMedia } from \"~/browser\"\nimport { h } from \"~/utilities\"\n\nimport {\n  Component,\n  getComponentElement\n} from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Palette colors\n */\nexport interface PaletteColor {\n  media?: string                       /* Media query */\n  scheme?: string                      /* Color scheme */\n  primary?: string                     /* Primary color */\n  accent?: string                      /* Accent color */\n}\n\n/**\n * Palette\n */\nexport interface Palette {\n  index: number                        /* Palette index */\n  color: PaletteColor                  /* Palette colors */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch color palette\n *\n * @param inputs - Color palette element\n *\n * @returns Color palette observable\n */\nexport function watchPalette(\n  inputs: HTMLInputElement[]\n): Observable<Palette> {\n  const current = __md_get<Palette>(\"__palette\") || {\n    index: inputs.findIndex(input => matchMedia(\n      input.getAttribute(\"data-md-color-media\")!\n    ).matches)\n  }\n\n  /* Emit changes in color palette */\n  const index = Math.max(0, Math.min(current.index, inputs.length - 1))\n  return of(...inputs)\n    .pipe(\n      mergeMap(input => fromEvent(input, \"change\").pipe(map(() => input))),\n      startWith(inputs[index]),\n      map(input => ({\n        index: inputs.indexOf(input),\n        color: {\n          media:   input.getAttribute(\"data-md-color-media\"),\n          scheme:  input.getAttribute(\"data-md-color-scheme\"),\n          primary: input.getAttribute(\"data-md-color-primary\"),\n          accent:  input.getAttribute(\"data-md-color-accent\")\n        }\n      } as Palette)),\n      shareReplay(1)\n    )\n}\n\n/**\n * Mount color palette\n *\n * @param el - Color palette element\n *\n * @returns Color palette component observable\n */\nexport function mountPalette(\n  el: HTMLElement\n): Observable<Component<Palette>> {\n  const inputs = getElements<HTMLInputElement>(\"input\", el)\n  const meta = h(\"meta\", { name: \"theme-color\" })\n  document.head.appendChild(meta)\n\n  // Add color scheme meta tag\n  const scheme = h(\"meta\", { name: \"color-scheme\" })\n  document.head.appendChild(scheme)\n\n  /* Mount component on subscription */\n  const media$ = watchMedia(\"(prefers-color-scheme: light)\")\n  return defer(() => {\n    const push$ = new Subject<Palette>()\n    push$.subscribe(palette => {\n      document.body.setAttribute(\"data-md-color-switching\", \"\")\n\n      /* Retrieve color palette for system preference */\n      if (palette.color.media === \"(prefers-color-scheme)\") {\n        const media = matchMedia(\"(prefers-color-scheme: light)\")\n        const input = document.querySelector(media.matches\n          ? \"[data-md-color-media='(prefers-color-scheme: light)']\"\n          : \"[data-md-color-media='(prefers-color-scheme: dark)']\"\n        )!\n\n        /* Retrieve colors for system preference */\n        palette.color.scheme  = input.getAttribute(\"data-md-color-scheme\")!\n        palette.color.primary = input.getAttribute(\"data-md-color-primary\")!\n        palette.color.accent  = input.getAttribute(\"data-md-color-accent\")!\n      }\n\n      /* Set color palette */\n      for (const [key, value] of Object.entries(palette.color))\n        document.body.setAttribute(`data-md-color-${key}`, value)\n\n      /* Set toggle visibility */\n      for (let index = 0; index < inputs.length; index++) {\n        const label = inputs[index].nextElementSibling\n        if (label instanceof HTMLElement)\n          label.hidden = palette.index !== index\n      }\n\n      /* Persist preference in local storage */\n      __md_set(\"__palette\", palette)\n    })\n\n    // Handle color switch on Enter or Space - see https://t.ly/YIhVj\n    fromEvent<KeyboardEvent>(el, \"keydown\").pipe(\n      filter(ev => ev.key === \"Enter\"),\n      withLatestFrom(push$, (_, palette) => palette)\n    )\n      .subscribe(({ index }) => {\n        index = (index + 1) % inputs.length\n        inputs[index].click()\n        inputs[index].focus()\n      })\n\n    /* Update theme-color meta tag */\n    push$\n      .pipe(\n        map(() => {\n          const header = getComponentElement(\"header\")\n          const style  = window.getComputedStyle(header)\n\n          // Set color scheme\n          scheme.content = style.colorScheme\n\n          /* Return color in hexadecimal format */\n          return style.backgroundColor.match(/\\d+/g)!\n            .map(value => (+value).toString(16).padStart(2, \"0\"))\n            .join(\"\")\n        })\n      )\n        .subscribe(color => meta.content = `#${color}`)\n\n    /* Revert transition durations after color switch */\n    push$.pipe(observeOn(asyncScheduler))\n      .subscribe(() => {\n        document.body.removeAttribute(\"data-md-color-switching\")\n      })\n\n    /* Create and return component */\n    return watchPalette(inputs)\n      .pipe(\n        takeUntil(media$.pipe(skip(1))),\n        repeat(),\n        tap(state => push$.next(state)),\n        finalize(() => push$.complete()),\n        map(state => ({ ref: el, ...state }))\n      )\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  defer,\n  finalize,\n  map,\n  tap\n} from \"rxjs\"\n\nimport { Component } from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Progress indicator\n */\nexport interface Progress {\n  value: number                        // Progress value\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  progress$: Subject<number>           // Progress subject\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount progress indicator\n *\n * @param el - Progress indicator element\n * @param options - Options\n *\n * @returns Progress indicator component observable\n */\nexport function mountProgress(\n  el: HTMLElement, { progress$ }: MountOptions\n): Observable<Component<Progress>> {\n\n  // Mount component on subscription\n  return defer(() => {\n    const push$ = new Subject<Progress>()\n    push$.subscribe(({ value }) => {\n      el.style.setProperty(\"--md-progress-value\", `${value}`)\n    })\n\n    // Create and return component\n    return progress$\n      .pipe(\n        tap(value => push$.next({ value })),\n        finalize(() => push$.complete()),\n        map(value => ({ ref: el, value }))\n      )\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport ClipboardJS from \"clipboard\"\nimport {\n  Observable,\n  Subject,\n  map,\n  tap\n} from \"rxjs\"\n\nimport { translation } from \"~/_\"\nimport { getElement } from \"~/browser\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Setup options\n */\ninterface SetupOptions {\n  alert$: Subject<string>              /* Alert subject */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Extract text to copy\n *\n * @param el - HTML element\n *\n * @returns Extracted text\n */\nfunction extract(el: HTMLElement): string {\n  el.setAttribute(\"data-md-copying\", \"\")\n  const copy = el.closest(\"[data-copy]\")\n  const text = copy\n    ? copy.getAttribute(\"data-copy\")!\n    : el.innerText\n  el.removeAttribute(\"data-md-copying\")\n  return text.trimEnd()\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Set up Clipboard.js integration\n *\n * @param options - Options\n */\nexport function setupClipboardJS(\n  { alert$ }: SetupOptions\n): void {\n  if (ClipboardJS.isSupported()) {\n    new Observable<ClipboardJS.Event>(subscriber => {\n      new ClipboardJS(\"[data-clipboard-target], [data-clipboard-text]\", {\n        text: el => (\n          el.getAttribute(\"data-clipboard-text\")! ||\n          extract(getElement(\n            el.getAttribute(\"data-clipboard-target\")!\n          ))\n        )\n      })\n        .on(\"success\", ev => subscriber.next(ev))\n    })\n      .pipe(\n        tap(ev => {\n          const trigger = ev.trigger as HTMLElement\n          trigger.focus()\n        }),\n        map(() => translation(\"clipboard.copied\"))\n      )\n        .subscribe(alert$)\n  }\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  catchError,\n  map,\n  of\n} from \"rxjs\"\n\nimport {\n  getElement,\n  getElements,\n  requestXML\n} from \"~/browser\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Sitemap, i.e. a list of URLs\n */\nexport type Sitemap = Map<string, URL[]>\n\n/* ----------------------------------------------------------------------------\n * Helper functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Resolve URL to the given base URL\n *\n * When serving the site with instant navigation, MkDocs will set the hostname\n * to the value as specified in `dev_addr`, but the browser allows for several\n * hostnames to be used: `localhost`, `127.0.0.1` or even `0.0.0.0`, depending\n * on configuration. This function resolves the URL to the given hostname.\n *\n * @param url - URL\n * @param base - Base URL\n *\n * @returns Resolved URL\n */\nfunction resolve(url: URL, base: URL) {\n  url.protocol = base.protocol\n  url.hostname = base.hostname\n  return url\n}\n\n/**\n * Extract sitemap from document\n *\n * This function extracts the URLs and alternate links from the document, and\n * associates alternate links to the original URL as found in `loc`, allowing\n * the browser to navigate to the correct page when switching languages. The\n * format of the sitemap is expected to adhere to:\n *\n * ``` xml\n * <urlset>\n *   <url>\n *     <loc>...</loc>\n *     <xhtml:link rel=\"alternate\" hreflang=\"en\" href=\"...\"/>\n *     <xhtml:link rel=\"alternate\" hreflang=\"de\" href=\"...\"/>\n *     ...\n *   </url>\n *   ...\n * </urlset>\n * ```\n *\n * @param document - Document\n * @param base - Base URL\n *\n * @returns Sitemap\n */\nfunction extract(document: Document, base: URL): Sitemap {\n  const sitemap: Sitemap = new Map()\n  for (const el of getElements(\"url\", document)) {\n    const url = getElement(\"loc\", el)\n\n    // Create entry for location and add it to the list of links\n    const links = [resolve(new URL(url.textContent!), base)]\n    sitemap.set(`${links[0]}`, links)\n\n    // Attach alternate links to current entry\n    for (const link of getElements(\"[rel=alternate]\", el)) {\n      const href = link.getAttribute(\"href\")\n      if (href != null)\n        links.push(resolve(new URL(href), base))\n    }\n  }\n\n  // Return sitemap\n  return sitemap\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Fetch the sitemap for the given base URL\n *\n * If a network or parsing error occurs, we just default to an empty sitemap,\n * which means the caller should fall back to regular navigation.\n *\n * @param base - Base URL\n *\n * @returns Sitemap observable\n */\nexport function fetchSitemap(base: URL | string): Observable<Sitemap> {\n  return requestXML(new URL(\"sitemap.xml\", base))\n    .pipe(\n      map(document => extract(document, new URL(base))),\n      catchError(() => of(new Map())),\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  EMPTY,\n  Observable,\n  Subject,\n  catchError,\n  combineLatestWith,\n  concat,\n  debounceTime,\n  distinctUntilChanged,\n  distinctUntilKeyChanged,\n  endWith,\n  fromEvent,\n  ignoreElements,\n  map,\n  merge,\n  of,\n  share,\n  switchMap,\n  tap,\n  withLatestFrom\n} from \"rxjs\"\n\nimport { configuration, feature } from \"~/_\"\nimport {\n  Viewport,\n  getElements,\n  getLocation,\n  getOptionalElement,\n  requestHTML,\n  setLocation,\n  setLocationHash\n} from \"~/browser\"\nimport { getComponentElement } from \"~/components\"\n\nimport { Sitemap, fetchSitemap } from \"../sitemap\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Setup options\n */\ninterface SetupOptions {\n  location$: Subject<URL>              // Location subject\n  viewport$: Observable<Viewport>      // Viewport observable\n  progress$: Subject<number>           // Progress subject\n}\n\n/* ----------------------------------------------------------------------------\n * Helper functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Handle clicks on internal URLs while skipping external URLs\n *\n * @param ev - Mouse event\n * @param sitemap - Sitemap\n *\n * @returns URL observable\n */\nfunction handle(\n  ev: MouseEvent, sitemap: Sitemap\n): Observable<URL> {\n  if (!(ev.target instanceof Element))\n    return EMPTY\n\n  // Skip, as target is not within a link - clicks on non-link elements are\n  // also captured, which we need to exclude from processing\n  const el = ev.target.closest(\"a\")\n  if (el === null)\n    return EMPTY\n\n  // Skip, as link opens in new window - we now know we have captured a click\n  // on a link, but the link either has a `target` property defined, or the\n  // user pressed the `meta` or `ctrl` key to open it in a new window. Thus,\n  // we need to filter this event as well.\n  if (el.target || ev.metaKey || ev.ctrlKey)\n    return EMPTY\n\n  // Next, we must check if the URL is relevant for us, i.e., if it's an\n  // internal link to a page that is managed by MkDocs. Only then we can be\n  // sure that the structure of the page to be loaded adheres to the current\n  // document structure and can subsequently be injected into it without doing\n  // a full reload. For this reason, we must canonicalize the URL by removing\n  // all search parameters and hash fragments.\n  const url = new URL(el.href)\n  url.search = url.hash = \"\"\n\n  // Skip, if URL is not included in the sitemap - this could be the case when\n  // linking between versions or languages, or to another page that the author\n  // included as part of the build, but that is not managed by MkDocs. In that\n  // case we must not continue with instant navigation.\n  if (!sitemap.has(`${url}`))\n    return EMPTY\n\n  // We now know that we have a link to an internal page, so we prevent the\n  // browser from navigation and emit the URL for instant navigation. Note that\n  // this also includes anchor links, which means we need to implement anchor\n  // positioning ourselves. The reason for this is that if we wouldn't manage\n  // anchor links as well, scroll restoration will not work correctly (e.g.\n  // following an anchor link and scrolling).\n  ev.preventDefault()\n  return of(new URL(el.href))\n}\n\n/**\n * Create a map of head elements for lookup and replacement\n *\n * @param document - Document\n *\n * @returns Tag map\n */\nfunction head(document: Document): Map<string, HTMLElement> {\n  const tags = new Map<string, HTMLElement>()\n  for (const el of getElements(\":scope > *\", document.head))\n    tags.set(el.outerHTML, el)\n\n  // Return tag map\n  return tags\n}\n\n/**\n * Resolve relative URLs in the given document\n *\n * This function resolves relative `href` and `src` attributes, which can belong\n * to all sorts of tags, like meta tags, links, images, scripts and more.\n *\n * @param document - Document\n *\n * @returns Document observable\n */\nfunction resolve(document: Document): Observable<Document> {\n  for (const el of getElements(\"[href], [src]\", document))\n    for (const key of [\"href\", \"src\"]) {\n      const value = el.getAttribute(key)\n      if (value && !/^(?:[a-z]+:)?\\/\\//i.test(value)) {\n        // @ts-expect-error - trick: self-assign to resolve URL\n        el[key] = el[key]\n        break\n      }\n    }\n\n  // Return document observable\n  return of(document)\n}\n\n/**\n * Inject the contents of a document into the current one\n *\n * @param next - Next document\n *\n * @returns Document observable\n */\nfunction inject(next: Document): Observable<Document> {\n  for (const selector of [\n    \"[data-md-component=announce]\",\n    \"[data-md-component=container]\",\n    \"[data-md-component=header-topic]\",\n    \"[data-md-component=outdated]\",\n    \"[data-md-component=logo]\",\n    \"[data-md-component=skip]\",\n    ...feature(\"navigation.tabs.sticky\")\n      ? [\"[data-md-component=tabs]\"]\n      : []\n  ]) {\n    const source = getOptionalElement(selector)\n    const target = getOptionalElement(selector, next)\n    if (\n      typeof source !== \"undefined\" &&\n      typeof target !== \"undefined\"\n    ) {\n      source.replaceWith(target)\n    }\n  }\n\n  // Update meta tags\n  const tags = head(document)\n  for (const [html, el] of head(next))\n    if (tags.has(html))\n      tags.delete(html)\n    else\n      document.head.appendChild(el)\n\n  // Remove meta tags that are not present in the new document\n  for (const el of tags.values()) {\n    const name = el.getAttribute(\"name\")\n    // @todo - find a better way to handle attributes we add dynamically in\n    // other components without mounting components on every navigation, as\n    // this might impact overall performance - see https://t.ly/ehp_O\n    if (name !== \"theme-color\" && name !== \"color-scheme\")\n      el.remove()\n  }\n\n  // After components and meta tags were replaced, re-evaluate scripts\n  // that were provided by the author as part of Markdown files\n  const container = getComponentElement(\"container\")\n  return concat(getElements(\"script\", container))\n    .pipe(\n      switchMap(el => {\n        const script = next.createElement(\"script\")\n        if (el.src) {\n          for (const name of el.getAttributeNames())\n            script.setAttribute(name, el.getAttribute(name)!)\n          el.replaceWith(script)\n\n          // Complete when script is loaded\n          return new Observable(observer => {\n            script.onload = () => observer.complete()\n          })\n\n        // Complete immediately\n        } else {\n          script.textContent = el.textContent\n          el.replaceWith(script)\n          return EMPTY\n        }\n      }),\n      ignoreElements(),\n      endWith(document)\n    )\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Set up instant navigation\n *\n * This is a heavily orchestrated operation - see inline comments to learn how\n * this works with Material for MkDocs, and how you can hook into it.\n *\n * @param options - Options\n *\n * @returns Document observable\n */\nexport function setupInstantNavigation(\n  { location$, viewport$, progress$ }: SetupOptions\n): Observable<Document> {\n  const config = configuration()\n  if (location.protocol === \"file:\")\n    return EMPTY\n\n  // Load sitemap immediately, so we have it available when the user initiates\n  // the first navigation request without any perceivable delay\n  const sitemap$ = fetchSitemap(config.base)\n\n  // Since we might be on a slow connection, the user might trigger multiple\n  // instant navigation events that overlap. MkDocs produces relative URLs for\n  // all internal links, which becomes a problem in this case, because we need\n  // to change the base URL the moment the user clicks a link that should be\n  // intercepted in order to be consistent with popstate, which means that the\n  // base URL would now be incorrect when resolving another relative link from\n  // the same site. For this reason we always resolve all relative links to\n  // absolute links, so we can be sure this never happens.\n  of(document)\n    .subscribe(resolve)\n\n  // --------------------------------------------------------------------------\n  // Navigation interception\n  // --------------------------------------------------------------------------\n\n  // Intercept navigation - to keep the number of event listeners down we use\n  // the fact that uncaptured events bubble up to the body. This has the nice\n  // property that we don't need to detach and then re-attach event listeners\n  // when the document is replaced after a navigation event.\n  const instant$ =\n    fromEvent<MouseEvent>(document.body, \"click\")\n      .pipe(\n        combineLatestWith(sitemap$),\n        switchMap(([ev, sitemap]) => handle(ev, sitemap)),\n        share()\n      )\n\n  // Intercept history change events, e.g. when the user uses the browser's\n  // back or forward buttons, and emit new location for fetching and parsing\n  const history$ =\n    fromEvent<PopStateEvent>(window, \"popstate\")\n      .pipe(\n        map(getLocation),\n        share()\n      )\n\n  // While it would be better UX to defer navigation events until the document\n  // is fully fetched and parsed, we must schedule it here to synchronize with\n  // popstate events, as they are emitted immediately. Moreover we need to\n  // store the current viewport offset for scroll restoration later on.\n  instant$.pipe(withLatestFrom(viewport$))\n    .subscribe(([url, { offset }]) => {\n      history.replaceState(offset, \"\")\n      history.pushState(null, \"\", url)\n    })\n\n  // Emit URLs that should be fetched via instant navigation on location subject\n  // which was passed into this function. The state of instant navigation can be\n  // intercepted by other parts of the application, which can synchronously back\n  // up or restore state before or after instant navigation happens.\n  merge(instant$, history$)\n    .subscribe(location$)\n\n  // --------------------------------------------------------------------------\n  // Fetching and parsing\n  // --------------------------------------------------------------------------\n\n  // Fetch document - we deduplicate requests to the same location, so we don't\n  // end up with multiple requests for the same page. We use `switchMap`, since\n  // we want to cancel the previous request when a new one is triggered, which\n  // is automatically handled by the observable returned by `request`. This is\n  // essential to ensure a good user experience, as we don't want to load pages\n  // that are not needed anymore, e.g., when the user clicks multiple links in\n  // quick succession or on slow connections. If the request fails for some\n  // reason, we fall back and use regular navigation, forcing a reload.\n  const document$ =\n    location$.pipe(\n      distinctUntilKeyChanged(\"pathname\"),\n      switchMap(url => requestHTML(url, { progress$ })\n        .pipe(\n          catchError(() => {\n            setLocation(url, true)\n            return EMPTY\n          })\n        )\n      ),\n\n      // The document was successfully fetched and parsed, so we can inject its\n      // contents into the currently active document\n      switchMap(resolve),\n      switchMap(inject),\n      share()\n    )\n\n  // --------------------------------------------------------------------------\n  // Scroll restoration\n  // --------------------------------------------------------------------------\n\n  // Handle scroll restoration - we must restore the viewport offset after the\n  // document has been fetched and injected, and every time the user clicks an\n  // anchor that leads to an element on the same page, which might also happen\n  // when the user uses the back or forward button.\n  merge(\n    document$.pipe(withLatestFrom(location$, (_, url) => url)),\n\n    // Handle instant navigation events that are triggered by the user clicking\n    // on an anchor link with a hash fragment different from the current one, as\n    // well as from popstate events, which are emitted when the user navigates\n    // back and forth between pages. We use a two-layered subscription to scope\n    // the scroll restoration to the current page, as we don't need to restore\n    // the viewport offset when the user navigates to a different page, as this\n    // is already handled by the previous observable.\n    document$.pipe(\n      switchMap(() => location$),\n      distinctUntilKeyChanged(\"pathname\"),\n      switchMap(() => location$),\n      distinctUntilKeyChanged(\"hash\")\n    ),\n\n    // Handle instant navigation events that are triggered by the user clicking\n    // on an anchor link with the same hash fragment as the current one in the\n    // URL. It is essential that we only intercept those from instant navigation\n    // events and not from history change events, or we'll end up in and endless\n    // loop. The top-level history entry must be removed, as it will be replaced\n    // with a new one, which would otherwise lead to a duplicate entry.\n    location$.pipe(\n      distinctUntilChanged((a, b) => (\n        a.pathname === b.pathname &&\n        a.hash     === b.hash\n      )),\n      switchMap(() => instant$),\n      tap(() => history.back())\n    )\n  )\n    .subscribe(url => {\n\n      // Check if the current history entry has a state, which happens when the\n      // user presses the back or forward button to visit a page we've already\n      // seen. If there's no state, it means a new page was visited and we must\n      // scroll to the top, unless an anchor is given.\n      if (history.state !== null || !url.hash) {\n        window.scrollTo(0, history.state?.y ?? 0)\n      } else {\n        history.scrollRestoration = \"auto\"\n        setLocationHash(url.hash)\n        history.scrollRestoration = \"manual\"\n      }\n    })\n\n  // Disable scroll restoration when an instant navigation event occurs, so the\n  // browser does not immediately set the viewport offset to the prior history\n  // entry, scrolling to the position on the same page, which would look odd.\n  // Instead, we manually restore the position once the page has loaded.\n  location$.subscribe(() => {\n    history.scrollRestoration = \"manual\"\n  })\n\n  // Enable scroll restoration before window unloads - this is essential to\n  // ensure that full reloads (F5) restore the viewport offset correctly. If\n  // only popstate events wouldn't reset the viewport offset prior to their\n  // emission, we could just reset this in popstate. Meh.\n  fromEvent(window, \"beforeunload\")\n    .subscribe(() => {\n      history.scrollRestoration = \"auto\"\n    })\n\n  // Track viewport offset, so we can restore it when the user navigates back\n  // and forth between pages. Note that this must be debounced and cannot be\n  // done in popstate, as popstate has already removed the entry from the\n  // history, which means it is too late.\n  viewport$.pipe(\n    distinctUntilKeyChanged(\"offset\"),\n    debounceTime(100)\n  )\n    .subscribe(({ offset }) => {\n      history.replaceState(offset, \"\")\n    })\n\n  // Return document observable\n  return document$\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport escapeHTML from \"escape-html\"\n\nimport { SearchConfig } from \"../config\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Search highlight function\n *\n * @param value - Value\n *\n * @returns Highlighted value\n */\nexport type SearchHighlightFn = (value: string) => string\n\n/**\n * Search highlight factory function\n *\n * @param query - Query value\n *\n * @returns Search highlight function\n */\nexport type SearchHighlightFactoryFn = (query: string) => SearchHighlightFn\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Create a search highlighter\n *\n * @param config - Search configuration\n *\n * @returns Search highlight factory function\n */\nexport function setupSearchHighlighter(\n  config: SearchConfig\n): SearchHighlightFactoryFn {\n  // Hack: temporarily remove pure lookaheads and lookbehinds\n  const regex = config.separator.split(\"|\").map(term => {\n    const temp = term.replace(/(\\(\\?[!=<][^)]+\\))/g, \"\")\n    return temp.length === 0 ? \"\uFFFD\" : term\n  })\n    .join(\"|\")\n\n  const separator = new RegExp(regex, \"img\")\n  const highlight = (_: unknown, data: string, term: string) => {\n    return `${data}<mark data-md-highlight>${term}</mark>`\n  }\n\n  /* Return factory function */\n  return (query: string) => {\n    query = query\n      .replace(/[\\s*+\\-:~^]+/g, \" \")\n      .trim()\n\n    /* Create search term match expression */\n    const match = new RegExp(`(^|${config.separator}|)(${\n      query\n        .replace(/[|\\\\{}()[\\]^$+*?.-]/g, \"\\\\$&\")\n        .replace(separator, \"|\")\n    })`, \"img\")\n\n    /* Highlight string value */\n    return value => escapeHTML(value)\n      .replace(match, highlight)\n      .replace(/<\\/mark>(\\s+)<mark[^>]*>/img, \"$1\")\n  }\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A RTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { SearchResult } from \"../../_\"\nimport { SearchIndex } from \"../../config\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Search message type\n */\nexport const enum SearchMessageType {\n  SETUP,                               /* Search index setup */\n  READY,                               /* Search index ready */\n  QUERY,                               /* Search query */\n  RESULT                               /* Search results */\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Message containing the data necessary to setup the search index\n */\nexport interface SearchSetupMessage {\n  type: SearchMessageType.SETUP        /* Message type */\n  data: SearchIndex                    /* Message data */\n}\n\n/**\n * Message indicating the search index is ready\n */\nexport interface SearchReadyMessage {\n  type: SearchMessageType.READY        /* Message type */\n}\n\n/**\n * Message containing a search query\n */\nexport interface SearchQueryMessage {\n  type: SearchMessageType.QUERY        /* Message type */\n  data: string                         /* Message data */\n}\n\n/**\n * Message containing results for a search query\n */\nexport interface SearchResultMessage {\n  type: SearchMessageType.RESULT       /* Message type */\n  data: SearchResult                   /* Message data */\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Message exchanged with the search worker\n */\nexport type SearchMessage =\n  | SearchSetupMessage\n  | SearchReadyMessage\n  | SearchQueryMessage\n  | SearchResultMessage\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Type guard for search ready messages\n *\n * @param message - Search worker message\n *\n * @returns Test result\n */\nexport function isSearchReadyMessage(\n  message: SearchMessage\n): message is SearchReadyMessage {\n  return message.type === SearchMessageType.READY\n}\n\n/**\n * Type guard for search result messages\n *\n * @param message - Search worker message\n *\n * @returns Test result\n */\nexport function isSearchResultMessage(\n  message: SearchMessage\n): message is SearchResultMessage {\n  return message.type === SearchMessageType.RESULT\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A RTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  ObservableInput,\n  Subject,\n  first,\n  merge,\n  of,\n  switchMap\n} from \"rxjs\"\n\nimport { feature } from \"~/_\"\nimport { watchToggle, watchWorker } from \"~/browser\"\n\nimport { SearchIndex } from \"../../config\"\nimport {\n  SearchMessage,\n  SearchMessageType\n} from \"../message\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Set up search worker\n *\n * This function creates and initializes a web worker that is used for search,\n * so that the user interface doesn't freeze. In general, the application does\n * not care how search is implemented, as long as the web worker conforms to\n * the format expected by the application as defined in `SearchMessage`. This\n * allows the author to implement custom search functionality, by providing a\n * custom web worker via configuration.\n *\n * Material for MkDocs' built-in search implementation makes use of Lunr.js, an\n * efficient and fast implementation for client-side search. Leveraging a tiny\n * iframe-based web worker shim, search is even supported for the `file://`\n * protocol, enabling search for local non-hosted builds.\n *\n * If the protocol is `file://`, search initialization is deferred to mitigate\n * freezing, as it's now synchronous by design - see https://bit.ly/3C521EO\n *\n * @see https://bit.ly/3igvtQv - How to implement custom search\n *\n * @param url - Worker URL\n * @param index$ - Search index observable input\n *\n * @returns Search worker\n */\nexport function setupSearchWorker(\n  url: string, index$: ObservableInput<SearchIndex>\n): Subject<SearchMessage> {\n  const worker$ = watchWorker<SearchMessage>(url)\n  merge(\n    of(location.protocol !== \"file:\"),\n    watchToggle(\"search\")\n  )\n    .pipe(\n      first(active => active),\n      switchMap(() => index$)\n    )\n      .subscribe(({ config, docs }) => worker$.next({\n        type: SearchMessageType.SETUP,\n        data: {\n          config,\n          docs,\n          options: {\n            suggest: feature(\"search.suggest\")\n          }\n        }\n      }))\n\n  /* Return search worker */\n  return worker$\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  EMPTY,\n  Subject,\n  catchError,\n  combineLatest,\n  filter,\n  fromEvent,\n  map,\n  of,\n  switchMap,\n  withLatestFrom\n} from \"rxjs\"\n\nimport { configuration } from \"~/_\"\nimport {\n  getElement,\n  getLocation,\n  requestJSON,\n  setLocation\n} from \"~/browser\"\nimport { getComponentElements } from \"~/components\"\nimport {\n  Version,\n  renderVersionSelector\n} from \"~/templates\"\n\nimport { fetchSitemap } from \"../sitemap\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Setup options\n */\ninterface SetupOptions {\n  document$: Subject<Document>         /* Document subject */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Set up version selector\n *\n * @param options - Options\n */\nexport function setupVersionSelector(\n  { document$ }: SetupOptions\n): void {\n  const config = configuration()\n  const versions$ = requestJSON<Version[]>(\n    new URL(\"../versions.json\", config.base)\n  )\n    .pipe(\n      catchError(() => EMPTY) // @todo refactor instant loading\n    )\n\n  /* Determine current version */\n  const current$ = versions$\n    .pipe(\n      map(versions => {\n        const [, current] = config.base.match(/([^/]+)\\/?$/)!\n        return versions.find(({ version, aliases }) => (\n          version === current || aliases.includes(current)\n        )) || versions[0]\n      })\n    )\n\n  /* Intercept inter-version navigation */\n  versions$\n    .pipe(\n      map(versions => new Map(versions.map(version => [\n        `${new URL(`../${version.version}/`, config.base)}`,\n        version\n      ]))),\n      switchMap(urls => fromEvent<MouseEvent>(document.body, \"click\")\n        .pipe(\n          filter(ev => !ev.metaKey && !ev.ctrlKey),\n          withLatestFrom(current$),\n          switchMap(([ev, current]) => {\n            if (ev.target instanceof Element) {\n              const el = ev.target.closest(\"a\")\n              if (el && !el.target && urls.has(el.href)) {\n                const url = el.href\n                // This is a temporary hack to detect if a version inside the\n                // version selector or on another part of the site was clicked.\n                // If we're inside the version selector, we definitely want to\n                // find the same page, as we might have different deployments\n                // due to aliases. However, if we're outside the version\n                // selector, we must abort here, because we might otherwise\n                // interfere with instant navigation. We need to refactor this\n                // at some point together with instant navigation.\n                //\n                // See https://github.com/squidfunk/mkdocs-material/issues/4012\n                if (!ev.target.closest(\".md-version\")) {\n                  const version = urls.get(url)!\n                  if (version === current)\n                    return EMPTY\n                }\n                ev.preventDefault()\n                return of(url)\n              }\n            }\n            return EMPTY\n          }),\n          switchMap(url => {\n            return fetchSitemap(new URL(url))\n              .pipe(\n                map(sitemap => {\n                  const location = getLocation()\n                  const path = location.href.replace(config.base, url)\n                  return sitemap.has(path.split(\"#\")[0])\n                    ? new URL(path)\n                    : new URL(url)\n                })\n              )\n          })\n        )\n      )\n    )\n      .subscribe(url => setLocation(url, true))\n\n  /* Render version selector and warning */\n  combineLatest([versions$, current$])\n    .subscribe(([versions, current]) => {\n      const topic = getElement(\".md-header__topic\")\n      topic.appendChild(renderVersionSelector(versions, current))\n    })\n\n  /* Integrate outdated version banner with instant navigation */\n  document$.pipe(switchMap(() => current$))\n    .subscribe(current => {\n\n      /* Check if version state was already determined */\n      let outdated = __md_get(\"__outdated\", sessionStorage)\n      if (outdated === null) {\n        outdated = true\n\n        /* Obtain and normalize default versions */\n        let ignored = config.version?.default || \"latest\"\n        if (!Array.isArray(ignored))\n          ignored = [ignored]\n\n        /* Check if version is considered a default */\n        main: for (const ignore of ignored)\n          for (const version of current.aliases.concat(current.version))\n            if (new RegExp(ignore, \"i\").test(version)) {\n              outdated = false\n              break main\n            }\n\n        /* Persist version state in session storage */\n        __md_set(\"__outdated\", outdated, sessionStorage)\n      }\n\n      /* Unhide outdated version banner */\n      if (outdated)\n        for (const warning of getComponentElements(\"outdated\"))\n          warning.hidden = false\n    })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  combineLatest,\n  distinctUntilChanged,\n  distinctUntilKeyChanged,\n  endWith,\n  finalize,\n  first,\n  fromEvent,\n  ignoreElements,\n  map,\n  merge,\n  shareReplay,\n  takeUntil,\n  tap\n} from \"rxjs\"\n\nimport {\n  getElement,\n  getLocation,\n  setToggle,\n  watchElementFocus,\n  watchToggle\n} from \"~/browser\"\nimport {\n  SearchMessage,\n  SearchMessageType,\n  isSearchReadyMessage\n} from \"~/integrations\"\n\nimport { Component } from \"../../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Search query\n */\nexport interface SearchQuery {\n  value: string                        /* Query value */\n  focus: boolean                       /* Query focus */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch options\n */\ninterface WatchOptions {\n  worker$: Subject<SearchMessage>      /* Search worker */\n}\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  worker$: Subject<SearchMessage>      /* Search worker */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch search query\n *\n * Note that the focus event which triggers re-reading the current query value\n * is delayed by `1ms` so the input's empty state is allowed to propagate.\n *\n * @param el - Search query element\n * @param options - Options\n *\n * @returns Search query observable\n */\nexport function watchSearchQuery(\n  el: HTMLInputElement, { worker$ }: WatchOptions\n): Observable<SearchQuery> {\n\n  /* Support search deep linking */\n  const { searchParams } = getLocation()\n  if (searchParams.has(\"q\")) {\n    setToggle(\"search\", true)\n\n    /* Set query from parameter */\n    el.value = searchParams.get(\"q\")!\n    el.focus()\n\n    /* Remove query parameter on close */\n    watchToggle(\"search\")\n      .pipe(\n        first(active => !active)\n      )\n        .subscribe(() => {\n          const url = getLocation()\n          url.searchParams.delete(\"q\")\n          history.replaceState({}, \"\", `${url}`)\n        })\n  }\n\n  /* Intercept focus and input events */\n  const focus$ = watchElementFocus(el)\n  const value$ = merge(\n    worker$.pipe(first(isSearchReadyMessage)),\n    fromEvent(el, \"keyup\"),\n    focus$\n  )\n    .pipe(\n      map(() => el.value),\n      distinctUntilChanged()\n    )\n\n  /* Combine into single observable */\n  return combineLatest([value$, focus$])\n    .pipe(\n      map(([value, focus]) => ({ value, focus })),\n      shareReplay(1)\n    )\n}\n\n/**\n * Mount search query\n *\n * @param el - Search query element\n * @param options - Options\n *\n * @returns Search query component observable\n */\nexport function mountSearchQuery(\n  el: HTMLInputElement, { worker$ }: MountOptions\n): Observable<Component<SearchQuery, HTMLInputElement>> {\n  const push$ = new Subject<SearchQuery>()\n  const done$ = push$.pipe(ignoreElements(), endWith(true))\n\n  /* Handle value change */\n  combineLatest([\n    worker$.pipe(first(isSearchReadyMessage)),\n    push$\n  ], (_, query) => query)\n    .pipe(\n      distinctUntilKeyChanged(\"value\")\n    )\n      .subscribe(({ value }) => worker$.next({\n        type: SearchMessageType.QUERY,\n        data: value\n      }))\n\n  /* Handle focus change */\n  push$\n    .pipe(\n      distinctUntilKeyChanged(\"focus\")\n    )\n      .subscribe(({ focus }) => {\n        if (focus)\n          setToggle(\"search\", focus)\n      })\n\n  /* Handle reset */\n  fromEvent(el.form!, \"reset\")\n    .pipe(\n      takeUntil(done$)\n    )\n      .subscribe(() => el.focus())\n\n  // Focus search query on label click - note that this is necessary to bring\n  // up the keyboard on iOS and other mobile platforms, as the search dialog is\n  // not visible at first, and programatically focusing an input element must\n  // be triggered by a user interaction - see https://t.ly/Cb30n\n  const label = getElement(\"header [for=__search]\")\n  fromEvent(label, \"click\")\n    .subscribe(() => el.focus())\n\n  /* Create and return component */\n  return watchSearchQuery(el, { worker$ })\n    .pipe(\n      tap(state => push$.next(state)),\n      finalize(() => push$.complete()),\n      map(state => ({ ref: el, ...state })),\n      shareReplay(1)\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  EMPTY,\n  Observable,\n  Subject,\n  bufferCount,\n  filter,\n  finalize,\n  first,\n  fromEvent,\n  map,\n  merge,\n  mergeMap,\n  of,\n  share,\n  skipUntil,\n  switchMap,\n  takeUntil,\n  tap,\n  withLatestFrom,\n  zipWith\n} from \"rxjs\"\n\nimport { translation } from \"~/_\"\nimport {\n  getElement,\n  getOptionalElement,\n  watchElementBoundary,\n  watchToggle\n} from \"~/browser\"\nimport {\n  SearchMessage,\n  SearchResult,\n  isSearchReadyMessage,\n  isSearchResultMessage\n} from \"~/integrations\"\nimport { renderSearchResultItem } from \"~/templates\"\nimport { round } from \"~/utilities\"\n\nimport { Component } from \"../../_\"\nimport { SearchQuery } from \"../query\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  query$: Observable<SearchQuery>      /* Search query observable */\n  worker$: Subject<SearchMessage>      /* Search worker */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount search result list\n *\n * This function performs a lazy rendering of the search results, depending on\n * the vertical offset of the search result container.\n *\n * @param el - Search result list element\n * @param options - Options\n *\n * @returns Search result list component observable\n */\nexport function mountSearchResult(\n  el: HTMLElement, { worker$, query$ }: MountOptions\n): Observable<Component<SearchResult>> {\n  const push$ = new Subject<SearchResult>()\n  const boundary$ = watchElementBoundary(el.parentElement!)\n    .pipe(\n      filter(Boolean)\n    )\n\n  /* Retrieve container */\n  const container = el.parentElement!\n\n  /* Retrieve nested components */\n  const meta = getElement(\":scope > :first-child\", el)\n  const list = getElement(\":scope > :last-child\", el)\n\n  /* Reveal to accessibility tree \u2013 see https://bit.ly/3iAA7t8 */\n  watchToggle(\"search\")\n    .subscribe(active => list.setAttribute(\n      \"role\", active ? \"list\" : \"presentation\"\n    ))\n\n  /* Update search result metadata */\n  push$\n    .pipe(\n      withLatestFrom(query$),\n      skipUntil(worker$.pipe(first(isSearchReadyMessage)))\n    )\n      .subscribe(([{ items }, { value }]) => {\n        switch (items.length) {\n\n          /* No results */\n          case 0:\n            meta.textContent = value.length\n              ? translation(\"search.result.none\")\n              : translation(\"search.result.placeholder\")\n            break\n\n          /* One result */\n          case 1:\n            meta.textContent = translation(\"search.result.one\")\n            break\n\n          /* Multiple result */\n          default:\n            const count = round(items.length)\n            meta.textContent = translation(\"search.result.other\", count)\n        }\n      })\n\n  /* Render search result item */\n  const render$ = push$\n    .pipe(\n      tap(() => list.innerHTML = \"\"),\n      switchMap(({ items }) => merge(\n        of(...items.slice(0, 10)),\n        of(...items.slice(10))\n          .pipe(\n            bufferCount(4),\n            zipWith(boundary$),\n            switchMap(([chunk]) => chunk)\n          )\n      )),\n      map(renderSearchResultItem),\n      share()\n    )\n\n  /* Update search result list */\n  render$.subscribe(item => list.appendChild(item))\n  render$\n    .pipe(\n      mergeMap(item => {\n        const details = getOptionalElement(\"details\", item)\n        if (typeof details === \"undefined\")\n          return EMPTY\n\n        /* Keep position of details element stable */\n        return fromEvent(details, \"toggle\")\n          .pipe(\n            takeUntil(push$),\n            map(() => details)\n          )\n      })\n    )\n      .subscribe(details => {\n        if (\n          details.open === false &&\n          details.offsetTop <= container.scrollTop\n        )\n          container.scrollTo({ top: details.offsetTop })\n      })\n\n  /* Filter search result message */\n  const result$ = worker$\n    .pipe(\n      filter(isSearchResultMessage),\n      map(({ data }) => data)\n    )\n\n  /* Create and return component */\n  return result$\n    .pipe(\n      tap(state => push$.next(state)),\n      finalize(() => push$.complete()),\n      map(state => ({ ref: el, ...state }))\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  endWith,\n  finalize,\n  fromEvent,\n  ignoreElements,\n  map,\n  takeUntil,\n  tap\n} from \"rxjs\"\n\nimport { getLocation } from \"~/browser\"\n\nimport { Component } from \"../../_\"\nimport { SearchQuery } from \"../query\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Search sharing\n */\nexport interface SearchShare {\n  url: URL                             /* Deep link for sharing */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch options\n */\ninterface WatchOptions {\n  query$: Observable<SearchQuery>      /* Search query observable */\n}\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  query$: Observable<SearchQuery>      /* Search query observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount search sharing\n *\n * @param _el - Search sharing element\n * @param options - Options\n *\n * @returns Search sharing observable\n */\nexport function watchSearchShare(\n  _el: HTMLElement, { query$ }: WatchOptions\n): Observable<SearchShare> {\n  return query$\n    .pipe(\n      map(({ value }) => {\n        const url = getLocation()\n        url.hash = \"\"\n\n        /* Compute readable query strings */\n        value = value\n          .replace(/\\s+/g, \"+\")        /* Collapse whitespace */\n          .replace(/&/g, \"%26\")        /* Escape '&' character */\n          .replace(/=/g, \"%3D\")        /* Escape '=' character */\n\n        /* Replace query string */\n        url.search = `q=${value}`\n        return { url }\n      })\n    )\n}\n\n/**\n * Mount search sharing\n *\n * @param el - Search sharing element\n * @param options - Options\n *\n * @returns Search sharing component observable\n */\nexport function mountSearchShare(\n  el: HTMLAnchorElement, options: MountOptions\n): Observable<Component<SearchShare>> {\n  const push$ = new Subject<SearchShare>()\n  const done$ = push$.pipe(ignoreElements(), endWith(true))\n  push$.subscribe(({ url }) => {\n    el.setAttribute(\"data-clipboard-text\", el.href)\n    el.href = `${url}`\n  })\n\n  /* Prevent following of link */\n  fromEvent(el, \"click\")\n    .pipe(\n      takeUntil(done$)\n    )\n      .subscribe(ev => ev.preventDefault())\n\n  /* Create and return component */\n  return watchSearchShare(el, options)\n    .pipe(\n      tap(state => push$.next(state)),\n      finalize(() => push$.complete()),\n      map(state => ({ ref: el, ...state }))\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  asyncScheduler,\n  combineLatestWith,\n  distinctUntilChanged,\n  filter,\n  finalize,\n  fromEvent,\n  map,\n  merge,\n  observeOn,\n  tap\n} from \"rxjs\"\n\nimport { Keyboard } from \"~/browser\"\nimport {\n  SearchMessage,\n  SearchResult,\n  isSearchResultMessage\n} from \"~/integrations\"\n\nimport { Component, getComponentElement } from \"../../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Search suggestions\n */\nexport interface SearchSuggest {}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  keyboard$: Observable<Keyboard>      /* Keyboard observable */\n  worker$: Subject<SearchMessage>      /* Search worker */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount search suggestions\n *\n * This function will perform a lazy rendering of the search results, depending\n * on the vertical offset of the search result container.\n *\n * @param el - Search result list element\n * @param options - Options\n *\n * @returns Search result list component observable\n */\nexport function mountSearchSuggest(\n  el: HTMLElement, { worker$, keyboard$ }: MountOptions\n): Observable<Component<SearchSuggest>> {\n  const push$ = new Subject<SearchResult>()\n\n  /* Retrieve query component and track all changes */\n  const query  = getComponentElement(\"search-query\")\n  const query$ = merge(\n    fromEvent(query, \"keydown\"),\n    fromEvent(query, \"focus\")\n  )\n    .pipe(\n      observeOn(asyncScheduler),\n      map(() => query.value),\n      distinctUntilChanged(),\n    )\n\n  /* Update search suggestions */\n  push$\n    .pipe(\n      combineLatestWith(query$),\n      map(([{ suggest }, value]) => {\n        const words = value.split(/([\\s-]+)/)\n        if (suggest?.length && words[words.length - 1]) {\n          const last = suggest[suggest.length - 1]\n          if (last.startsWith(words[words.length - 1]))\n            words[words.length - 1] = last\n        } else {\n          words.length = 0\n        }\n        return words\n      })\n    )\n      .subscribe(words => el.innerHTML = words\n        .join(\"\")\n        .replace(/\\s/g, \"&nbsp;\")\n      )\n\n  /* Set up search keyboard handlers */\n  keyboard$\n    .pipe(\n      filter(({ mode }) => mode === \"search\")\n    )\n      .subscribe(key => {\n        switch (key.type) {\n\n          /* Right arrow: accept current suggestion */\n          case \"ArrowRight\":\n            if (\n              el.innerText.length &&\n              query.selectionStart === query.value.length\n            )\n              query.value = el.innerText\n            break\n        }\n      })\n\n  /* Filter search result message */\n  const result$ = worker$\n    .pipe(\n      filter(isSearchResultMessage),\n      map(({ data }) => data)\n    )\n\n  /* Create and return component */\n  return result$\n    .pipe(\n      tap(state => push$.next(state)),\n      finalize(() => push$.complete()),\n      map(() => ({ ref: el }))\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  NEVER,\n  Observable,\n  ObservableInput,\n  filter,\n  fromEvent,\n  merge,\n  mergeWith\n} from \"rxjs\"\n\nimport { configuration } from \"~/_\"\nimport {\n  Keyboard,\n  getActiveElement,\n  getElements,\n  setToggle\n} from \"~/browser\"\nimport {\n  SearchIndex,\n  SearchResult,\n  setupSearchWorker\n} from \"~/integrations\"\n\nimport {\n  Component,\n  getComponentElement,\n  getComponentElements\n} from \"../../_\"\nimport {\n  SearchQuery,\n  mountSearchQuery\n} from \"../query\"\nimport { mountSearchResult } from \"../result\"\nimport {\n  SearchShare,\n  mountSearchShare\n} from \"../share\"\nimport {\n  SearchSuggest,\n  mountSearchSuggest\n} from \"../suggest\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Search\n */\nexport type Search =\n  | SearchQuery\n  | SearchResult\n  | SearchShare\n  | SearchSuggest\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  index$: ObservableInput<SearchIndex> /* Search index observable */\n  keyboard$: Observable<Keyboard>      /* Keyboard observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount search\n *\n * This function sets up the search functionality, including the underlying\n * web worker and all keyboard bindings.\n *\n * @param el - Search element\n * @param options - Options\n *\n * @returns Search component observable\n */\nexport function mountSearch(\n  el: HTMLElement, { index$, keyboard$ }: MountOptions\n): Observable<Component<Search>> {\n  const config = configuration()\n  try {\n    const worker$ = setupSearchWorker(config.search, index$)\n\n    /* Retrieve query and result components */\n    const query  = getComponentElement(\"search-query\", el)\n    const result = getComponentElement(\"search-result\", el)\n\n    /* Always close search on result selection */\n    fromEvent<PointerEvent>(el, \"click\")\n      .pipe(\n        filter(({ target }) => (\n          target instanceof Element && !!target.closest(\"a\")\n        ))\n      )\n        .subscribe(() => setToggle(\"search\", false))\n\n    /* Set up search keyboard handlers */\n    keyboard$\n      .pipe(\n        filter(({ mode }) => mode === \"search\")\n      )\n        .subscribe(key => {\n          const active = getActiveElement()\n          switch (key.type) {\n\n            /* Enter: go to first (best) result */\n            case \"Enter\":\n              if (active === query) {\n                const anchors = new Map<HTMLAnchorElement, number>()\n                for (const anchor of getElements<HTMLAnchorElement>(\n                  \":first-child [href]\", result\n                )) {\n                  const article = anchor.firstElementChild!\n                  anchors.set(anchor, parseFloat(\n                    article.getAttribute(\"data-md-score\")!\n                  ))\n                }\n\n                /* Go to result with highest score, if any */\n                if (anchors.size) {\n                  const [[best]] = [...anchors].sort(([, a], [, b]) => b - a)\n                  best.click()\n                }\n\n                /* Otherwise omit form submission */\n                key.claim()\n              }\n              break\n\n            /* Escape or Tab: close search */\n            case \"Escape\":\n            case \"Tab\":\n              setToggle(\"search\", false)\n              query.blur()\n              break\n\n            /* Vertical arrows: select previous or next search result */\n            case \"ArrowUp\":\n            case \"ArrowDown\":\n              if (typeof active === \"undefined\") {\n                query.focus()\n              } else {\n                const els = [query, ...getElements(\n                  \":not(details) > [href], summary, details[open] [href]\",\n                  result\n                )]\n                const i = Math.max(0, (\n                  Math.max(0, els.indexOf(active)) + els.length + (\n                    key.type === \"ArrowUp\" ? -1 : +1\n                  )\n                ) % els.length)\n                els[i].focus()\n              }\n\n              /* Prevent scrolling of page */\n              key.claim()\n              break\n\n            /* All other keys: hand to search query */\n            default:\n              if (query !== getActiveElement())\n                query.focus()\n          }\n        })\n\n    /* Set up global keyboard handlers */\n    keyboard$\n      .pipe(\n        filter(({ mode }) => mode === \"global\")\n      )\n        .subscribe(key => {\n          switch (key.type) {\n\n            /* Open search and select query */\n            case \"f\":\n            case \"s\":\n            case \"/\":\n              query.focus()\n              query.select()\n\n              /* Prevent scrolling of page */\n              key.claim()\n              break\n          }\n        })\n\n    /* Create and return component */\n    const query$ = mountSearchQuery(query, { worker$ })\n    return merge(\n      query$,\n      mountSearchResult(result, { worker$, query$ })\n    )\n      .pipe(\n        mergeWith(\n\n          /* Search sharing */\n          ...getComponentElements(\"search-share\", el)\n            .map(child => mountSearchShare(child, { query$ })),\n\n          /* Search suggestions */\n          ...getComponentElements(\"search-suggest\", el)\n            .map(child => mountSearchSuggest(child, { worker$, keyboard$ }))\n        )\n      )\n\n  /* Gracefully handle broken search */\n  } catch (err) {\n    el.hidden = true\n    return NEVER\n  }\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  ObservableInput,\n  combineLatest,\n  filter,\n  map,\n  startWith\n} from \"rxjs\"\n\nimport { getLocation } from \"~/browser\"\nimport {\n  SearchIndex,\n  setupSearchHighlighter\n} from \"~/integrations\"\nimport { h } from \"~/utilities\"\n\nimport { Component } from \"../../_\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Search highlighting\n */\nexport interface SearchHighlight {\n  nodes: Map<ChildNode, string>        /* Map of replacements */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  index$: ObservableInput<SearchIndex> /* Search index observable */\n  location$: Observable<URL>           /* Location observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Mount search highlighting\n *\n * @param el - Content element\n * @param options - Options\n *\n * @returns Search highlighting component observable\n */\nexport function mountSearchHiglight(\n  el: HTMLElement, { index$, location$ }: MountOptions\n): Observable<Component<SearchHighlight>> {\n  return combineLatest([\n    index$,\n    location$\n      .pipe(\n        startWith(getLocation()),\n        filter(url => !!url.searchParams.get(\"h\"))\n      )\n  ])\n    .pipe(\n      map(([index, url]) => setupSearchHighlighter(index.config)(\n        url.searchParams.get(\"h\")!\n      )),\n      map(fn => {\n        const nodes = new Map<ChildNode, string>()\n\n        /* Traverse text nodes and collect matches */\n        const it = document.createNodeIterator(el, NodeFilter.SHOW_TEXT)\n        for (let node = it.nextNode(); node; node = it.nextNode()) {\n          if (node.parentElement?.offsetHeight) {\n            const original = node.textContent!\n            const replaced = fn(original)\n            if (replaced.length > original.length)\n              nodes.set(node as ChildNode, replaced)\n          }\n        }\n\n        /* Replace original nodes with matches */\n        for (const [node, text] of nodes) {\n          const { childNodes } = h(\"span\", null, text)\n          node.replaceWith(...Array.from(childNodes))\n        }\n\n        /* Return component */\n        return { ref: el, nodes }\n      })\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  animationFrameScheduler,\n  asyncScheduler,\n  auditTime,\n  combineLatest,\n  defer,\n  distinctUntilChanged,\n  endWith,\n  finalize,\n  first,\n  from,\n  fromEvent,\n  ignoreElements,\n  map,\n  mergeMap,\n  observeOn,\n  takeUntil,\n  tap,\n  withLatestFrom\n} from \"rxjs\"\n\nimport {\n  Viewport,\n  getElement,\n  getElementOffset,\n  getElementSize,\n  getElements\n} from \"~/browser\"\n\nimport { Component } from \"../_\"\nimport { Header } from \"../header\"\nimport { Main } from \"../main\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Sidebar\n */\nexport interface Sidebar {\n  height: number                       /* Sidebar height */\n  locked: boolean                      /* Sidebar is locked */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch options\n */\ninterface WatchOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  main$: Observable<Main>              /* Main area observable */\n}\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  header$: Observable<Header>          /* Header observable */\n  main$: Observable<Main>              /* Main area observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch sidebar\n *\n * This function returns an observable that computes the visual parameters of\n * the sidebar which depends on the vertical viewport offset, as well as the\n * height of the main area. When the page is scrolled beyond the header, the\n * sidebar is locked and fills the remaining space.\n *\n * @param el - Sidebar element\n * @param options - Options\n *\n * @returns Sidebar observable\n */\nexport function watchSidebar(\n  el: HTMLElement, { viewport$, main$ }: WatchOptions\n): Observable<Sidebar> {\n  const parent = el.closest<HTMLElement>(\".md-grid\")!\n  const adjust =\n    parent.offsetTop -\n    parent.parentElement!.offsetTop\n\n  /* Compute the sidebar's available height and if it should be locked */\n  return combineLatest([main$, viewport$])\n    .pipe(\n      map(([{ offset, height }, { offset: { y } }]) => {\n        height = height\n          + Math.min(adjust, Math.max(0, y - offset))\n          - adjust\n        return {\n          height,\n          locked: y >= offset + adjust\n        }\n      }),\n      distinctUntilChanged((a, b) => (\n        a.height === b.height &&\n        a.locked === b.locked\n      ))\n    )\n}\n\n/**\n * Mount sidebar\n *\n * This function doesn't set the height of the actual sidebar, but of its first\n * child \u2013 the `.md-sidebar__scrollwrap` element in order to mitigiate jittery\n * sidebars when the footer is scrolled into view. At some point we switched\n * from `absolute` / `fixed` positioning to `sticky` positioning, significantly\n * reducing jitter in some browsers (respectively Firefox and Safari) when\n * scrolling from the top. However, top-aligned sticky positioning means that\n * the sidebar snaps to the bottom when the end of the container is reached.\n * This is what leads to the mentioned jitter, as the sidebar's height may be\n * updated too slowly.\n *\n * This behaviour can be mitigiated by setting the height of the sidebar to `0`\n * while preserving the padding, and the height on its first element.\n *\n * @param el - Sidebar element\n * @param options - Options\n *\n * @returns Sidebar component observable\n */\nexport function mountSidebar(\n  el: HTMLElement, { header$, ...options }: MountOptions\n): Observable<Component<Sidebar>> {\n  const inner = getElement(\".md-sidebar__scrollwrap\", el)\n  const { y } = getElementOffset(inner)\n  return defer(() => {\n    const push$ = new Subject<Sidebar>()\n    const done$ = push$.pipe(ignoreElements(), endWith(true))\n    const next$ = push$\n      .pipe(\n        auditTime(0, animationFrameScheduler)\n      )\n\n    /* Update sidebar height and offset */\n    next$.pipe(withLatestFrom(header$))\n      .subscribe({\n\n        /* Handle emission */\n        next([{ height }, { height: offset }]) {\n          inner.style.height = `${height - 2 * y}px`\n          el.style.top       = `${offset}px`\n        },\n\n        /* Handle complete */\n        complete() {\n          inner.style.height = \"\"\n          el.style.top       = \"\"\n        }\n      })\n\n    /* Bring active item into view on initial load */\n    next$.pipe(first())\n      .subscribe(() => {\n        for (const item of getElements(\".md-nav__link--active[href]\", el)) {\n          if (!item.clientHeight) // skip invisible toc in left sidebar\n            continue\n          const container = item.closest<HTMLElement>(\".md-sidebar__scrollwrap\")!\n          if (typeof container !== \"undefined\") {\n            const offset = item.offsetTop - container.offsetTop\n            const { height } = getElementSize(container)\n            container.scrollTo({\n              top: offset - height / 2\n            })\n          }\n        }\n      })\n\n    /* Handle accessibility for expandable items, see https://bit.ly/3jaod9p */\n    from(getElements<HTMLLabelElement>(\"label[tabindex]\", el))\n      .pipe(\n        mergeMap(label => fromEvent(label, \"click\")\n          .pipe(\n            observeOn(asyncScheduler),\n            map(() => label),\n            takeUntil(done$)\n          )\n        )\n      )\n        .subscribe(label => {\n          const input = getElement<HTMLInputElement>(`[id=\"${label.htmlFor}\"]`)\n          const nav = getElement(`[aria-labelledby=\"${label.id}\"]`)\n          nav.setAttribute(\"aria-expanded\", `${input.checked}`)\n        })\n\n    /* Create and return component */\n    return watchSidebar(el, options)\n      .pipe(\n        tap(state => push$.next(state)),\n        finalize(() => push$.complete()),\n        map(state => ({ ref: el, ...state }))\n      )\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { Repo, User } from \"github-types\"\nimport {\n  EMPTY,\n  Observable,\n  catchError,\n  defaultIfEmpty,\n  map,\n  zip\n} from \"rxjs\"\n\nimport { requestJSON } from \"~/browser\"\n\nimport { SourceFacts } from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * GitHub release (partial)\n */\ninterface Release {\n  tag_name: string                     /* Tag name */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Fetch GitHub repository facts\n *\n * @param user - GitHub user or organization\n * @param repo - GitHub repository\n *\n * @returns Repository facts observable\n */\nexport function fetchSourceFactsFromGitHub(\n  user: string, repo?: string\n): Observable<SourceFacts> {\n  if (typeof repo !== \"undefined\") {\n    const url = `https://api.github.com/repos/${user}/${repo}`\n    return zip(\n\n      /* Fetch version */\n      requestJSON<Release>(`${url}/releases/latest`)\n        .pipe(\n          catchError(() => EMPTY), // @todo refactor instant loading\n          map(release => ({\n            version: release.tag_name\n          })),\n          defaultIfEmpty({})\n        ),\n\n      /* Fetch stars and forks */\n      requestJSON<Repo>(url)\n        .pipe(\n          catchError(() => EMPTY), // @todo refactor instant loading\n          map(info => ({\n            stars: info.stargazers_count,\n            forks: info.forks_count\n          })),\n          defaultIfEmpty({})\n        )\n    )\n      .pipe(\n        map(([release, info]) => ({ ...release, ...info }))\n      )\n\n  /* User or organization */\n  } else {\n    const url = `https://api.github.com/users/${user}`\n    return requestJSON<User>(url)\n      .pipe(\n        map(info => ({\n          repositories: info.public_repos\n        })),\n        defaultIfEmpty({})\n      )\n  }\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { ProjectSchema } from \"gitlab\"\nimport {\n  EMPTY,\n  Observable,\n  catchError,\n  defaultIfEmpty,\n  map\n} from \"rxjs\"\n\nimport { requestJSON } from \"~/browser\"\n\nimport { SourceFacts } from \"../_\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Fetch GitLab repository facts\n *\n * @param base - GitLab base\n * @param project - GitLab project\n *\n * @returns Repository facts observable\n */\nexport function fetchSourceFactsFromGitLab(\n  base: string, project: string\n): Observable<SourceFacts> {\n  const url = `https://${base}/api/v4/projects/${encodeURIComponent(project)}`\n  return requestJSON<ProjectSchema>(url)\n    .pipe(\n      catchError(() => EMPTY), // @todo refactor instant loading\n      map(({ star_count, forks_count }) => ({\n        stars: star_count,\n        forks: forks_count\n      })),\n      defaultIfEmpty({})\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { EMPTY, Observable } from \"rxjs\"\n\nimport { fetchSourceFactsFromGitHub } from \"../github\"\nimport { fetchSourceFactsFromGitLab } from \"../gitlab\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Repository facts for repositories\n */\nexport interface RepositoryFacts {\n  stars?: number                       /* Number of stars */\n  forks?: number                       /* Number of forks */\n  version?: string                     /* Latest version */\n}\n\n/**\n * Repository facts for organizations\n */\nexport interface OrganizationFacts {\n  repositories?: number                /* Number of repositories */\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Repository facts\n */\nexport type SourceFacts =\n  | RepositoryFacts\n  | OrganizationFacts\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Fetch repository facts\n *\n * @param url - Repository URL\n *\n * @returns Repository facts observable\n */\nexport function fetchSourceFacts(\n  url: string\n): Observable<SourceFacts> {\n\n  /* Try to match GitHub repository */\n  let match = url.match(/^.+github\\.com\\/([^/]+)\\/?([^/]+)?/i)\n  if (match) {\n    const [, user, repo] = match\n    return fetchSourceFactsFromGitHub(user, repo)\n  }\n\n  /* Try to match GitLab repository */\n  match = url.match(/^.+?([^/]*gitlab[^/]+)\\/(.+?)\\/?$/i)\n  if (match) {\n    const [, base, slug] = match\n    return fetchSourceFactsFromGitLab(base, slug)\n  }\n\n  /* Fallback */\n  return EMPTY\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  EMPTY,\n  Observable,\n  Subject,\n  catchError,\n  defer,\n  filter,\n  finalize,\n  map,\n  of,\n  shareReplay,\n  tap\n} from \"rxjs\"\n\nimport { getElement } from \"~/browser\"\nimport { ConsentDefaults } from \"~/components/consent\"\nimport { renderSourceFacts } from \"~/templates\"\n\nimport {\n  Component,\n  getComponentElements\n} from \"../../_\"\nimport {\n  SourceFacts,\n  fetchSourceFacts\n} from \"../facts\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Repository information\n */\nexport interface Source {\n  facts: SourceFacts                   /* Repository facts */\n}\n\n/* ----------------------------------------------------------------------------\n * Data\n * ------------------------------------------------------------------------- */\n\n/**\n * Repository information observable\n */\nlet fetch$: Observable<Source>\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch repository information\n *\n * This function tries to read the repository facts from session storage, and\n * if unsuccessful, fetches them from the underlying provider.\n *\n * @param el - Repository information element\n *\n * @returns Repository information observable\n */\nexport function watchSource(\n  el: HTMLAnchorElement\n): Observable<Source> {\n  return fetch$ ||= defer(() => {\n    const cached = __md_get<SourceFacts>(\"__source\", sessionStorage)\n    if (cached) {\n      return of(cached)\n    } else {\n\n      /* Check if consent is configured and was given */\n      const els = getComponentElements(\"consent\")\n      if (els.length) {\n        const consent = __md_get<ConsentDefaults>(\"__consent\")\n        if (!(consent && consent.github))\n          return EMPTY\n      }\n\n      /* Fetch repository facts */\n      return fetchSourceFacts(el.href)\n        .pipe(\n          tap(facts => __md_set(\"__source\", facts, sessionStorage))\n        )\n    }\n  })\n    .pipe(\n      catchError(() => EMPTY),\n      filter(facts => Object.keys(facts).length > 0),\n      map(facts => ({ facts })),\n      shareReplay(1)\n    )\n}\n\n/**\n * Mount repository information\n *\n * @param el - Repository information element\n *\n * @returns Repository information component observable\n */\nexport function mountSource(\n  el: HTMLAnchorElement\n): Observable<Component<Source>> {\n  const inner = getElement(\":scope > :last-child\", el)\n  return defer(() => {\n    const push$ = new Subject<Source>()\n    push$.subscribe(({ facts }) => {\n      inner.appendChild(renderSourceFacts(facts))\n      inner.classList.add(\"md-source__repository--active\")\n    })\n\n    /* Create and return component */\n    return watchSource(el)\n      .pipe(\n        tap(state => push$.next(state)),\n        finalize(() => push$.complete()),\n        map(state => ({ ref: el, ...state }))\n      )\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  defer,\n  distinctUntilKeyChanged,\n  finalize,\n  map,\n  of,\n  switchMap,\n  tap\n} from \"rxjs\"\n\nimport { feature } from \"~/_\"\nimport {\n  Viewport,\n  watchElementSize,\n  watchViewportAt\n} from \"~/browser\"\n\nimport { Component } from \"../_\"\nimport { Header } from \"../header\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Navigation tabs\n */\nexport interface Tabs {\n  hidden: boolean                      /* Navigation tabs are hidden */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch options\n */\ninterface WatchOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  header$: Observable<Header>          /* Header observable */\n}\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  header$: Observable<Header>          /* Header observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch navigation tabs\n *\n * @param el - Navigation tabs element\n * @param options - Options\n *\n * @returns Navigation tabs observable\n */\nexport function watchTabs(\n  el: HTMLElement, { viewport$, header$ }: WatchOptions\n): Observable<Tabs> {\n  return watchElementSize(document.body)\n    .pipe(\n      switchMap(() => watchViewportAt(el, { header$, viewport$ })),\n      map(({ offset: { y } }) => {\n        return {\n          hidden: y >= 10\n        }\n      }),\n      distinctUntilKeyChanged(\"hidden\")\n    )\n}\n\n/**\n * Mount navigation tabs\n *\n * This function hides the navigation tabs when scrolling past the threshold\n * and makes them reappear in a nice CSS animation when scrolling back up.\n *\n * @param el - Navigation tabs element\n * @param options - Options\n *\n * @returns Navigation tabs component observable\n */\nexport function mountTabs(\n  el: HTMLElement, options: MountOptions\n): Observable<Component<Tabs>> {\n  return defer(() => {\n    const push$ = new Subject<Tabs>()\n    push$.subscribe({\n\n      /* Handle emission */\n      next({ hidden }) {\n        el.hidden = hidden\n      },\n\n      /* Handle complete */\n      complete() {\n        el.hidden = false\n      }\n    })\n\n    /* Create and return component */\n    return (\n      feature(\"navigation.tabs.sticky\")\n        ? of({ hidden: false })\n        : watchTabs(el, options)\n    )\n      .pipe(\n        tap(state => push$.next(state)),\n        finalize(() => push$.complete()),\n        map(state => ({ ref: el, ...state }))\n      )\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  asyncScheduler,\n  bufferCount,\n  combineLatestWith,\n  debounceTime,\n  defer,\n  distinctUntilChanged,\n  distinctUntilKeyChanged,\n  endWith,\n  filter,\n  finalize,\n  ignoreElements,\n  map,\n  merge,\n  observeOn,\n  of,\n  repeat,\n  scan,\n  share,\n  skip,\n  startWith,\n  switchMap,\n  takeUntil,\n  tap,\n  withLatestFrom\n} from \"rxjs\"\n\nimport { feature } from \"~/_\"\nimport {\n  Viewport,\n  getElement,\n  getElementContainer,\n  getElementSize,\n  getElements,\n  getLocation,\n  getOptionalElement,\n  watchElementSize\n} from \"~/browser\"\n\nimport {\n  Component,\n  getComponentElement\n} from \"../_\"\nimport { Header } from \"../header\"\nimport { Main } from \"../main\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Table of contents\n */\nexport interface TableOfContents {\n  prev: HTMLAnchorElement[][]          /* Anchors (previous) */\n  next: HTMLAnchorElement[][]          /* Anchors (next) */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch options\n */\ninterface WatchOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  header$: Observable<Header>          /* Header observable */\n}\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  header$: Observable<Header>          /* Header observable */\n  main$: Observable<Main>              /* Main area observable */\n  target$: Observable<HTMLElement>     /* Location target observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch table of contents\n *\n * This is effectively a scroll spy implementation which will account for the\n * fixed header and automatically re-calculate anchor offsets when the viewport\n * is resized. The returned observable will only emit if the table of contents\n * needs to be repainted.\n *\n * This implementation tracks an anchor element's entire path starting from its\n * level up to the top-most anchor element, e.g. `[h3, h2, h1]`. Although the\n * Material theme currently doesn't make use of this information, it enables\n * the styling of the entire hierarchy through customization.\n *\n * Note that the current anchor is the last item of the `prev` anchor list.\n *\n * @param el - Table of contents element\n * @param options - Options\n *\n * @returns Table of contents observable\n */\nexport function watchTableOfContents(\n  el: HTMLElement, { viewport$, header$ }: WatchOptions\n): Observable<TableOfContents> {\n  const table = new Map<HTMLAnchorElement, HTMLElement>()\n\n  /* Compute anchor-to-target mapping */\n  const anchors = getElements<HTMLAnchorElement>(\".md-nav__link\", el)\n  for (const anchor of anchors) {\n    const id = decodeURIComponent(anchor.hash.substring(1))\n    const target = getOptionalElement(`[id=\"${id}\"]`)\n    if (typeof target !== \"undefined\")\n      table.set(anchor, target)\n  }\n\n  /* Compute necessary adjustment for header */\n  const adjust$ = header$\n    .pipe(\n      distinctUntilKeyChanged(\"height\"),\n      map(({ height }) => {\n        const main = getComponentElement(\"main\")\n        const grid = getElement(\":scope > :first-child\", main)\n        return height + 0.8 * (\n          grid.offsetTop -\n          main.offsetTop\n        )\n      }),\n      share()\n    )\n\n  /* Compute partition of previous and next anchors */\n  const partition$ = watchElementSize(document.body)\n    .pipe(\n      distinctUntilKeyChanged(\"height\"),\n\n      /* Build index to map anchor paths to vertical offsets */\n      switchMap(body => defer(() => {\n        let path: HTMLAnchorElement[] = []\n        return of([...table].reduce((index, [anchor, target]) => {\n          while (path.length) {\n            const last = table.get(path[path.length - 1])!\n            if (last.tagName >= target.tagName) {\n              path.pop()\n            } else {\n              break\n            }\n          }\n\n          /* If the current anchor is hidden, continue with its parent */\n          let offset = target.offsetTop\n          while (!offset && target.parentElement) {\n            target = target.parentElement\n            offset = target.offsetTop\n          }\n\n          /* Fix anchor offsets in tables - see https://bit.ly/3CUFOcn */\n          let parent = target.offsetParent as HTMLElement\n          for (; parent; parent = parent.offsetParent as HTMLElement)\n            offset += parent.offsetTop\n\n          /* Map reversed anchor path to vertical offset */\n          return index.set(\n            [...path = [...path, anchor]].reverse(),\n            offset\n          )\n        }, new Map<HTMLAnchorElement[], number>()))\n      })\n        .pipe(\n\n          /* Sort index by vertical offset (see https://bit.ly/30z6QSO) */\n          map(index => new Map([...index].sort(([, a], [, b]) => a - b))),\n          combineLatestWith(adjust$),\n\n          /* Re-compute partition when viewport offset changes */\n          switchMap(([index, adjust]) => viewport$\n            .pipe(\n              scan(([prev, next], { offset: { y }, size }) => {\n                const last = y + size.height >= Math.floor(body.height)\n\n                /* Look forward */\n                while (next.length) {\n                  const [, offset] = next[0]\n                  if (offset - adjust < y || last) {\n                    prev = [...prev, next.shift()!]\n                  } else {\n                    break\n                  }\n                }\n\n                /* Look backward */\n                while (prev.length) {\n                  const [, offset] = prev[prev.length - 1]\n                  if (offset - adjust >= y && !last) {\n                    next = [prev.pop()!, ...next]\n                  } else {\n                    break\n                  }\n                }\n\n                /* Return partition */\n                return [prev, next]\n              }, [[], [...index]]),\n              distinctUntilChanged((a, b) => (\n                a[0] === b[0] &&\n                a[1] === b[1]\n              ))\n            )\n          )\n        )\n      )\n    )\n\n  /* Compute and return anchor list migrations */\n  return partition$\n    .pipe(\n      map(([prev, next]) => ({\n        prev: prev.map(([path]) => path),\n        next: next.map(([path]) => path)\n      })),\n\n      /* Extract anchor list migrations */\n      startWith({ prev: [], next: [] }),\n      bufferCount(2, 1),\n      map(([a, b]) => {\n\n        /* Moving down */\n        if (a.prev.length < b.prev.length) {\n          return {\n            prev: b.prev.slice(Math.max(0, a.prev.length - 1), b.prev.length),\n            next: []\n          }\n\n        /* Moving up */\n        } else {\n          return {\n            prev: b.prev.slice(-1),\n            next: b.next.slice(0, b.next.length - a.next.length)\n          }\n        }\n      })\n    )\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Mount table of contents\n *\n * @param el - Table of contents element\n * @param options - Options\n *\n * @returns Table of contents component observable\n */\nexport function mountTableOfContents(\n  el: HTMLElement, { viewport$, header$, main$, target$ }: MountOptions\n): Observable<Component<TableOfContents>> {\n  return defer(() => {\n    const push$ = new Subject<TableOfContents>()\n    const done$ = push$.pipe(ignoreElements(), endWith(true))\n    push$.subscribe(({ prev, next }) => {\n\n      /* Look forward */\n      for (const [anchor] of next) {\n        anchor.classList.remove(\"md-nav__link--passed\")\n        anchor.classList.remove(\"md-nav__link--active\")\n      }\n\n      /* Look backward */\n      for (const [index, [anchor]] of prev.entries()) {\n        anchor.classList.add(\"md-nav__link--passed\")\n        anchor.classList.toggle(\n          \"md-nav__link--active\",\n          index === prev.length - 1\n        )\n      }\n    })\n\n    /* Set up following, if enabled */\n    if (feature(\"toc.follow\")) {\n\n      /* Toggle smooth scrolling only for anchor clicks */\n      const smooth$ = merge(\n        viewport$.pipe(debounceTime(1), map(() => undefined)),\n        viewport$.pipe(debounceTime(250), map(() => \"smooth\" as const))\n      )\n\n      /* Bring active anchor into view */ // @todo: refactor\n      push$\n        .pipe(\n          filter(({ prev }) => prev.length > 0),\n          combineLatestWith(main$.pipe(observeOn(asyncScheduler))),\n          withLatestFrom(smooth$)\n        )\n          .subscribe(([[{ prev }], behavior]) => {\n            const [anchor] = prev[prev.length - 1]\n            if (anchor.offsetHeight) {\n\n              /* Retrieve overflowing container and scroll */\n              const container = getElementContainer(anchor)\n              if (typeof container !== \"undefined\") {\n                const offset = anchor.offsetTop - container.offsetTop\n                const { height } = getElementSize(container)\n                container.scrollTo({\n                  top: offset - height / 2,\n                  behavior\n                })\n              }\n            }\n          })\n    }\n\n    /* Set up anchor tracking, if enabled */\n    if (feature(\"navigation.tracking\"))\n      viewport$\n        .pipe(\n          takeUntil(done$),\n          distinctUntilKeyChanged(\"offset\"),\n          debounceTime(250),\n          skip(1),\n          takeUntil(target$.pipe(skip(1))),\n          repeat({ delay: 250 }),\n          withLatestFrom(push$)\n        )\n          .subscribe(([, { prev }]) => {\n            const url = getLocation()\n\n            /* Set hash fragment to active anchor */\n            const anchor = prev[prev.length - 1]\n            if (anchor && anchor.length) {\n              const [active] = anchor\n              const { hash } = new URL(active.href)\n              if (url.hash !== hash) {\n                url.hash = hash\n                history.replaceState({}, \"\", `${url}`)\n              }\n\n            /* Reset anchor when at the top */\n            } else {\n              url.hash = \"\"\n              history.replaceState({}, \"\", `${url}`)\n            }\n          })\n\n    /* Create and return component */\n    return watchTableOfContents(el, { viewport$, header$ })\n      .pipe(\n        tap(state => push$.next(state)),\n        finalize(() => push$.complete()),\n        map(state => ({ ref: el, ...state }))\n      )\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  Subject,\n  bufferCount,\n  combineLatest,\n  distinctUntilChanged,\n  distinctUntilKeyChanged,\n  endWith,\n  finalize,\n  fromEvent,\n  ignoreElements,\n  map,\n  repeat,\n  skip,\n  takeUntil,\n  tap\n} from \"rxjs\"\n\nimport { Viewport } from \"~/browser\"\n\nimport { Component } from \"../_\"\nimport { Header } from \"../header\"\nimport { Main } from \"../main\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Back-to-top button\n */\nexport interface BackToTop {\n  hidden: boolean                      /* Back-to-top button is hidden */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch options\n */\ninterface WatchOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  main$: Observable<Main>              /* Main area observable */\n  target$: Observable<HTMLElement>     /* Location target observable */\n}\n\n/**\n * Mount options\n */\ninterface MountOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  header$: Observable<Header>          /* Header observable */\n  main$: Observable<Main>              /* Main area observable */\n  target$: Observable<HTMLElement>     /* Location target observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Watch back-to-top\n *\n * @param _el - Back-to-top element\n * @param options - Options\n *\n * @returns Back-to-top observable\n */\nexport function watchBackToTop(\n  _el: HTMLElement, { viewport$, main$, target$ }: WatchOptions\n): Observable<BackToTop> {\n\n  /* Compute direction */\n  const direction$ = viewport$\n    .pipe(\n      map(({ offset: { y } }) => y),\n      bufferCount(2, 1),\n      map(([a, b]) => a > b && b > 0),\n      distinctUntilChanged()\n    )\n\n  /* Compute whether main area is active */\n  const active$ = main$\n    .pipe(\n      map(({ active }) => active)\n    )\n\n  /* Compute threshold for hiding */\n  return combineLatest([active$, direction$])\n    .pipe(\n      map(([active, direction]) => !(active && direction)),\n      distinctUntilChanged(),\n      takeUntil(target$.pipe(skip(1))),\n      endWith(true),\n      repeat({ delay: 250 }),\n      map(hidden => ({ hidden }))\n    )\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Mount back-to-top\n *\n * @param el - Back-to-top element\n * @param options - Options\n *\n * @returns Back-to-top component observable\n */\nexport function mountBackToTop(\n  el: HTMLElement, { viewport$, header$, main$, target$ }: MountOptions\n): Observable<Component<BackToTop>> {\n  const push$ = new Subject<BackToTop>()\n  const done$ = push$.pipe(ignoreElements(), endWith(true))\n  push$.subscribe({\n\n    /* Handle emission */\n    next({ hidden }) {\n      el.hidden = hidden\n      if (hidden) {\n        el.setAttribute(\"tabindex\", \"-1\")\n        el.blur()\n      } else {\n        el.removeAttribute(\"tabindex\")\n      }\n    },\n\n    /* Handle complete */\n    complete() {\n      el.style.top = \"\"\n      el.hidden = true\n      el.removeAttribute(\"tabindex\")\n    }\n  })\n\n  /* Watch header height */\n  header$\n    .pipe(\n      takeUntil(done$),\n      distinctUntilKeyChanged(\"height\")\n    )\n      .subscribe(({ height }) => {\n        el.style.top = `${height + 16}px`\n      })\n\n  /* Go back to top */\n  fromEvent(el, \"click\")\n    .subscribe(ev => {\n      ev.preventDefault()\n      window.scrollTo({ top: 0 })\n    })\n\n  /* Create and return component */\n  return watchBackToTop(el, { viewport$, main$, target$ })\n    .pipe(\n      tap(state => push$.next(state)),\n      finalize(() => push$.complete()),\n      map(state => ({ ref: el, ...state }))\n    )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  filter,\n  finalize,\n  map,\n  mergeMap,\n  skip,\n  switchMap,\n  take,\n  takeUntil\n} from \"rxjs\"\n\nimport {\n  Viewport,\n  getElements,\n  watchElementVisibility\n} from \"~/browser\"\nimport { mountInlineTooltip2 } from \"~/components/tooltip2\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Patch options\n */\ninterface PatchOptions {\n  document$: Observable<Document>      /* Document observable */\n  viewport$: Observable<Viewport>      /* Viewport observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Patch ellipsis\n *\n * This function will fetch all elements that are shortened with ellipsis, and\n * filter those which are visible. Once they become visible, they stay in that\n * state, even though they may be hidden again. This optimization is necessary\n * to reduce pressure on the browser, with elements fading in and out of view.\n *\n * @param options - Options\n */\nexport function patchEllipsis(\n  { document$, viewport$ }: PatchOptions\n): void {\n  document$\n    .pipe(\n      switchMap(() => getElements(\".md-ellipsis\")),\n      mergeMap(el => watchElementVisibility(el)\n        .pipe(\n          takeUntil(document$.pipe(skip(1))),\n          filter(visible => visible),\n          map(() => el),\n          take(1)\n        )\n      ),\n      filter(el => el.offsetWidth < el.scrollWidth),\n      mergeMap(el => {\n        const text = el.innerText\n        const host = el.closest(\"a\") || el\n        host.title = text\n\n        /* Mount tooltip */\n        return mountInlineTooltip2(host, { viewport$ })\n          .pipe(\n            takeUntil(document$.pipe(skip(1))),\n            finalize(() => host.removeAttribute(\"title\"))\n          )\n      })\n    )\n      .subscribe()\n\n  // @todo move this outside of here and fix memleaks\n  document$\n    .pipe(\n      switchMap(() => getElements(\".md-status\")),\n      mergeMap(el => mountInlineTooltip2(el, { viewport$ }))\n    )\n      .subscribe()\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  fromEvent,\n  map,\n  mergeMap,\n  switchMap,\n  takeWhile,\n  tap,\n  withLatestFrom\n} from \"rxjs\"\n\nimport { getElements } from \"~/browser\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Patch options\n */\ninterface PatchOptions {\n  document$: Observable<Document>      /* Document observable */\n  tablet$: Observable<boolean>         /* Media tablet observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Patch indeterminate checkboxes\n *\n * This function replaces the indeterminate \"pseudo state\" with the actual\n * indeterminate state, which is used to keep navigation always expanded.\n *\n * @param options - Options\n */\nexport function patchIndeterminate(\n  { document$, tablet$ }: PatchOptions\n): void {\n  document$\n    .pipe(\n      switchMap(() => getElements<HTMLInputElement>(\n        \".md-toggle--indeterminate\"\n      )),\n      tap(el => {\n        el.indeterminate = true\n        el.checked = false\n      }),\n      mergeMap(el => fromEvent(el, \"change\")\n        .pipe(\n          takeWhile(() => el.classList.contains(\"md-toggle--indeterminate\")),\n          map(() => el)\n        )\n      ),\n      withLatestFrom(tablet$)\n    )\n      .subscribe(([el, tablet]) => {\n        el.classList.remove(\"md-toggle--indeterminate\")\n        if (tablet)\n          el.checked = false\n      })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  filter,\n  fromEvent,\n  map,\n  mergeMap,\n  switchMap,\n  tap\n} from \"rxjs\"\n\nimport { getElements } from \"~/browser\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Patch options\n */\ninterface PatchOptions {\n  document$: Observable<Document>      /* Document observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Check whether the given device is an Apple device\n *\n * @returns Test result\n */\nfunction isAppleDevice(): boolean {\n  return /(iPad|iPhone|iPod)/.test(navigator.userAgent)\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Patch all elements with `data-md-scrollfix` attributes\n *\n * This is a year-old patch which ensures that overflow scrolling works at the\n * top and bottom of containers on iOS by ensuring a `1px` scroll offset upon\n * the start of a touch event.\n *\n * @see https://bit.ly/2SCtAOO - Original source\n *\n * @param options - Options\n */\nexport function patchScrollfix(\n  { document$ }: PatchOptions\n): void {\n  document$\n    .pipe(\n      switchMap(() => getElements(\"[data-md-scrollfix]\")),\n      tap(el => el.removeAttribute(\"data-md-scrollfix\")),\n      filter(isAppleDevice),\n      mergeMap(el => fromEvent(el, \"touchstart\")\n        .pipe(\n          map(() => el)\n        )\n      )\n    )\n      .subscribe(el => {\n        const top = el.scrollTop\n\n        /* We're at the top of the container */\n        if (top === 0) {\n          el.scrollTop = 1\n\n        /* We're at the bottom of the container */\n        } else if (top + el.offsetHeight === el.scrollHeight) {\n          el.scrollTop = top - 1\n        }\n      })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  Observable,\n  combineLatest,\n  delay,\n  map,\n  of,\n  switchMap,\n  withLatestFrom\n} from \"rxjs\"\n\nimport {\n  Viewport,\n  watchToggle\n} from \"~/browser\"\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Patch options\n */\ninterface PatchOptions {\n  viewport$: Observable<Viewport>      /* Viewport observable */\n  tablet$: Observable<boolean>         /* Media tablet observable */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Patch the document body to lock when search is open\n *\n * For mobile and tablet viewports, the search is rendered full screen, which\n * leads to scroll leaking when at the top or bottom of the search result. This\n * function locks the body when the search is in full screen mode, and restores\n * the scroll position when leaving.\n *\n * @param options - Options\n */\nexport function patchScrolllock(\n  { viewport$, tablet$ }: PatchOptions\n): void {\n  combineLatest([watchToggle(\"search\"), tablet$])\n    .pipe(\n      map(([active, tablet]) => active && !tablet),\n      switchMap(active => of(active)\n        .pipe(\n          delay(active ? 400 : 100)\n        )\n      ),\n      withLatestFrom(viewport$)\n    )\n      .subscribe(([active, { offset: { y }}]) => {\n        if (active) {\n          document.body.setAttribute(\"data-md-scrolllock\", \"\")\n          document.body.style.top = `-${y}px`\n        } else {\n          const value = -1 * parseInt(document.body.style.top, 10)\n          document.body.removeAttribute(\"data-md-scrolllock\")\n          document.body.style.top = \"\"\n          if (value)\n            window.scrollTo(0, value)\n        }\n      })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\n/* ----------------------------------------------------------------------------\n * Polyfills\n * ------------------------------------------------------------------------- */\n\n/* Polyfill `Object.entries` */\nif (!Object.entries)\n  Object.entries = function (obj: object) {\n    const data: [string, string][] = []\n    for (const key of Object.keys(obj))\n      // @ts-expect-error - ignore property access warning\n      data.push([key, obj[key]])\n\n    /* Return entries */\n    return data\n  }\n\n/* Polyfill `Object.values` */\nif (!Object.values)\n  Object.values = function (obj: object) {\n    const data: string[] = []\n    for (const key of Object.keys(obj))\n      // @ts-expect-error - ignore property access warning\n      data.push(obj[key])\n\n    /* Return values */\n    return data\n  }\n\n/* ------------------------------------------------------------------------- */\n\n/* Polyfills for `Element` */\nif (typeof Element !== \"undefined\") {\n\n  /* Polyfill `Element.scrollTo` */\n  if (!Element.prototype.scrollTo)\n    Element.prototype.scrollTo = function (\n      x?: ScrollToOptions | number, y?: number\n    ): void {\n      if (typeof x === \"object\") {\n        this.scrollLeft = x.left!\n        this.scrollTop = x.top!\n      } else {\n        this.scrollLeft = x!\n        this.scrollTop = y!\n      }\n    }\n\n  /* Polyfill `Element.replaceWith` */\n  if (!Element.prototype.replaceWith)\n    Element.prototype.replaceWith = function (\n      ...nodes: Array<string | Node>\n    ): void {\n      const parent = this.parentNode\n      if (parent) {\n        if (nodes.length === 0)\n          parent.removeChild(this)\n\n        /* Replace children and create text nodes */\n        for (let i = nodes.length - 1; i >= 0; i--) {\n          let node = nodes[i]\n          if (typeof node === \"string\")\n            node = document.createTextNode(node)\n          else if (node.parentNode)\n            node.parentNode.removeChild(node)\n\n          /* Replace child or insert before previous sibling */\n          if (!i)\n            parent.replaceChild(node, this)\n          else\n            parent.insertBefore(this.previousSibling!, node)\n        }\n      }\n    }\n}\n"],
+  "mappings": "2rCAAA,IAAAA,GAAAC,GAAA,CAAAC,GAAAC,KAAA,EAAC,SAAUC,EAAQC,EAAS,CAC1B,OAAOH,IAAY,UAAY,OAAOC,IAAW,YAAcE,EAAQ,EACvE,OAAO,QAAW,YAAc,OAAO,IAAM,OAAOA,CAAO,EAC1DA,EAAQ,CACX,GAAEH,GAAO,UAAY,CAAE,aASrB,SAASI,EAA0BC,EAAO,CACxC,IAAIC,EAAmB,GACnBC,EAA0B,GAC1BC,EAAiC,KAEjCC,EAAsB,CACxB,KAAM,GACN,OAAQ,GACR,IAAK,GACL,IAAK,GACL,MAAO,GACP,SAAU,GACV,OAAQ,GACR,KAAM,GACN,MAAO,GACP,KAAM,GACN,KAAM,GACN,SAAU,GACV,iBAAkB,EACpB,EAOA,SAASC,EAAmBC,EAAI,CAC9B,MACE,GAAAA,GACAA,IAAO,UACPA,EAAG,WAAa,QAChBA,EAAG,WAAa,QAChB,cAAeA,GACf,aAAcA,EAAG,UAKrB,CASA,SAASC,EAA8BD,EAAI,CACzC,IAAIE,GAAOF,EAAG,KACVG,GAAUH,EAAG,QAUjB,MARI,GAAAG,KAAY,SAAWL,EAAoBI,EAAI,GAAK,CAACF,EAAG,UAIxDG,KAAY,YAAc,CAACH,EAAG,UAI9BA,EAAG,kBAKT,CAOA,SAASI,EAAqBJ,EAAI,CAC5BA,EAAG,UAAU,SAAS,eAAe,IAGzCA,EAAG,UAAU,IAAI,eAAe,EAChCA,EAAG,aAAa,2BAA4B,EAAE,EAChD,CAOA,SAASK,EAAwBL,EAAI,CAC9BA,EAAG,aAAa,0BAA0B,IAG/CA,EAAG,UAAU,OAAO,eAAe,EACnCA,EAAG,gBAAgB,0BAA0B,EAC/C,CAUA,SAASM,EAAUC,EAAG,CAChBA,EAAE,SAAWA,EAAE,QAAUA,EAAE,UAI3BR,EAAmBL,EAAM,aAAa,GACxCU,EAAqBV,EAAM,aAAa,EAG1CC,EAAmB,GACrB,CAUA,SAASa,EAAcD,EAAG,CACxBZ,EAAmB,EACrB,CASA,SAASc,EAAQF,EAAG,CAEbR,EAAmBQ,EAAE,MAAM,IAI5BZ,GAAoBM,EAA8BM,EAAE,MAAM,IAC5DH,EAAqBG,EAAE,MAAM,CAEjC,CAMA,SAASG,EAAOH,EAAG,CACZR,EAAmBQ,EAAE,MAAM,IAK9BA,EAAE,OAAO,UAAU,SAAS,eAAe,GAC3CA,EAAE,OAAO,aAAa,0BAA0B,KAMhDX,EAA0B,GAC1B,OAAO,aAAaC,CAA8B,EAClDA,EAAiC,OAAO,WAAW,UAAW,CAC5DD,EAA0B,EAC5B,EAAG,GAAG,EACNS,EAAwBE,EAAE,MAAM,EAEpC,CAOA,SAASI,EAAmBJ,EAAG,CACzB,SAAS,kBAAoB,WAK3BX,IACFD,EAAmB,IAErBiB,GAA+B,EAEnC,CAQA,SAASA,IAAiC,CACxC,SAAS,iBAAiB,YAAaC,CAAoB,EAC3D,SAAS,iBAAiB,YAAaA,CAAoB,EAC3D,SAAS,iBAAiB,UAAWA,CAAoB,EACzD,SAAS,iBAAiB,cAAeA,CAAoB,EAC7D,SAAS,iBAAiB,cAAeA,CAAoB,EAC7D,SAAS,iBAAiB,YAAaA,CAAoB,EAC3D,SAAS,iBAAiB,YAAaA,CAAoB,EAC3D,SAAS,iBAAiB,aAAcA,CAAoB,EAC5D,SAAS,iBAAiB,WAAYA,CAAoB,CAC5D,CAEA,SAASC,IAAoC,CAC3C,SAAS,oBAAoB,YAAaD,CAAoB,EAC9D,SAAS,oBAAoB,YAAaA,CAAoB,EAC9D,SAAS,oBAAoB,UAAWA,CAAoB,EAC5D,SAAS,oBAAoB,cAAeA,CAAoB,EAChE,SAAS,oBAAoB,cAAeA,CAAoB,EAChE,SAAS,oBAAoB,YAAaA,CAAoB,EAC9D,SAAS,oBAAoB,YAAaA,CAAoB,EAC9D,SAAS,oBAAoB,aAAcA,CAAoB,EAC/D,SAAS,oBAAoB,WAAYA,CAAoB,CAC/D,CASA,SAASA,EAAqBN,EAAG,CAG3BA,EAAE,OAAO,UAAYA,EAAE,OAAO,SAAS,YAAY,IAAM,SAI7DZ,EAAmB,GACnBmB,GAAkC,EACpC,CAKA,SAAS,iBAAiB,UAAWR,EAAW,EAAI,EACpD,SAAS,iBAAiB,YAAaE,EAAe,EAAI,EAC1D,SAAS,iBAAiB,cAAeA,EAAe,EAAI,EAC5D,SAAS,iBAAiB,aAAcA,EAAe,EAAI,EAC3D,SAAS,iBAAiB,mBAAoBG,EAAoB,EAAI,EAEtEC,GAA+B,EAM/BlB,EAAM,iBAAiB,QAASe,EAAS,EAAI,EAC7Cf,EAAM,iBAAiB,OAAQgB,EAAQ,EAAI,EAOvChB,EAAM,WAAa,KAAK,wBAA0BA,EAAM,KAI1DA,EAAM,KAAK,aAAa,wBAAyB,EAAE,EAC1CA,EAAM,WAAa,KAAK,gBACjC,SAAS,gBAAgB,UAAU,IAAI,kBAAkB,EACzD,SAAS,gBAAgB,aAAa,wBAAyB,EAAE,EAErE,CAKA,GAAI,OAAO,QAAW,aAAe,OAAO,UAAa,YAAa,CAIpE,OAAO,0BAA4BD,EAInC,IAAIsB,EAEJ,GAAI,CACFA,EAAQ,IAAI,YAAY,8BAA8B,CACxD,OAASC,EAAO,CAEdD,EAAQ,SAAS,YAAY,aAAa,EAC1CA,EAAM,gBAAgB,+BAAgC,GAAO,GAAO,CAAC,CAAC,CACxE,CAEA,OAAO,cAAcA,CAAK,CAC5B,CAEI,OAAO,UAAa,aAGtBtB,EAA0B,QAAQ,CAGtC,CAAE,ICvTF,IAAAwB,GAAAC,GAAA,CAAAC,GAAAC,KAAA;AAAA;AAAA;AAAA;AAAA;AAAA,IAMC,SAA0CC,EAAMC,EAAS,CACtD,OAAOH,IAAY,UAAY,OAAOC,IAAW,SACnDA,GAAO,QAAUE,EAAQ,EAClB,OAAO,QAAW,YAAc,OAAO,IAC9C,OAAO,CAAC,EAAGA,CAAO,EACX,OAAOH,IAAY,SAC1BA,GAAQ,YAAiBG,EAAQ,EAEjCD,EAAK,YAAiBC,EAAQ,CAChC,GAAGH,GAAM,UAAW,CACpB,OAAiB,UAAW,CAClB,IAAII,EAAuB,CAE/B,IACC,SAASC,EAAyBC,EAAqBC,EAAqB,CAEnF,aAGAA,EAAoB,EAAED,EAAqB,CACzC,QAAW,UAAW,CAAE,OAAqBE,EAAW,CAC1D,CAAC,EAGD,IAAIC,EAAeF,EAAoB,GAAG,EACtCG,EAAoCH,EAAoB,EAAEE,CAAY,EAEtEE,EAASJ,EAAoB,GAAG,EAChCK,EAA8BL,EAAoB,EAAEI,CAAM,EAE1DE,EAAaN,EAAoB,GAAG,EACpCO,EAA8BP,EAAoB,EAAEM,CAAU,EAOlE,SAASE,EAAQC,EAAM,CACrB,GAAI,CACF,OAAO,SAAS,YAAYA,CAAI,CAClC,OAASC,EAAK,CACZ,MAAO,EACT,CACF,CAUA,IAAIC,EAAqB,SAA4BC,EAAQ,CAC3D,IAAIC,EAAeN,EAAe,EAAEK,CAAM,EAC1C,OAAAJ,EAAQ,KAAK,EACNK,CACT,EAEiCC,EAAeH,EAOhD,SAASI,EAAkBC,EAAO,CAChC,IAAIC,EAAQ,SAAS,gBAAgB,aAAa,KAAK,IAAM,MACzDC,EAAc,SAAS,cAAc,UAAU,EAEnDA,EAAY,MAAM,SAAW,OAE7BA,EAAY,MAAM,OAAS,IAC3BA,EAAY,MAAM,QAAU,IAC5BA,EAAY,MAAM,OAAS,IAE3BA,EAAY,MAAM,SAAW,WAC7BA,EAAY,MAAMD,EAAQ,QAAU,MAAM,EAAI,UAE9C,IAAIE,EAAY,OAAO,aAAe,SAAS,gBAAgB,UAC/D,OAAAD,EAAY,MAAM,IAAM,GAAG,OAAOC,EAAW,IAAI,EACjDD,EAAY,aAAa,WAAY,EAAE,EACvCA,EAAY,MAAQF,EACbE,CACT,CAYA,IAAIE,GAAiB,SAAwBJ,EAAOK,EAAS,CAC3D,IAAIH,EAAcH,EAAkBC,CAAK,EACzCK,EAAQ,UAAU,YAAYH,CAAW,EACzC,IAAIL,EAAeN,EAAe,EAAEW,CAAW,EAC/C,OAAAV,EAAQ,MAAM,EACdU,EAAY,OAAO,EACZL,CACT,EASIS,GAAsB,SAA6BV,EAAQ,CAC7D,IAAIS,EAAU,UAAU,OAAS,GAAK,UAAU,CAAC,IAAM,OAAY,UAAU,CAAC,EAAI,CAChF,UAAW,SAAS,IACtB,EACIR,EAAe,GAEnB,OAAI,OAAOD,GAAW,SACpBC,EAAeO,GAAeR,EAAQS,CAAO,EACpCT,aAAkB,kBAAoB,CAAC,CAAC,OAAQ,SAAU,MAAO,MAAO,UAAU,EAAE,SAASA,GAAW,KAA4B,OAASA,EAAO,IAAI,EAEjKC,EAAeO,GAAeR,EAAO,MAAOS,CAAO,GAEnDR,EAAeN,EAAe,EAAEK,CAAM,EACtCJ,EAAQ,MAAM,GAGTK,CACT,EAEiCU,EAAgBD,GAEjD,SAASE,EAAQC,EAAK,CAAE,0BAA2B,OAAI,OAAO,QAAW,YAAc,OAAO,OAAO,UAAa,SAAYD,EAAU,SAAiBC,EAAK,CAAE,OAAO,OAAOA,CAAK,EAAYD,EAAU,SAAiBC,EAAK,CAAE,OAAOA,GAAO,OAAO,QAAW,YAAcA,EAAI,cAAgB,QAAUA,IAAQ,OAAO,UAAY,SAAW,OAAOA,CAAK,EAAYD,EAAQC,CAAG,CAAG,CAUzX,IAAIC,GAAyB,UAAkC,CAC7D,IAAIL,EAAU,UAAU,OAAS,GAAK,UAAU,CAAC,IAAM,OAAY,UAAU,CAAC,EAAI,CAAC,EAE/EM,EAAkBN,EAAQ,OAC1BO,EAASD,IAAoB,OAAS,OAASA,EAC/CE,EAAYR,EAAQ,UACpBT,EAASS,EAAQ,OACjBS,GAAOT,EAAQ,KAEnB,GAAIO,IAAW,QAAUA,IAAW,MAClC,MAAM,IAAI,MAAM,oDAAoD,EAItE,GAAIhB,IAAW,OACb,GAAIA,GAAUY,EAAQZ,CAAM,IAAM,UAAYA,EAAO,WAAa,EAAG,CACnE,GAAIgB,IAAW,QAAUhB,EAAO,aAAa,UAAU,EACrD,MAAM,IAAI,MAAM,mFAAmF,EAGrG,GAAIgB,IAAW,QAAUhB,EAAO,aAAa,UAAU,GAAKA,EAAO,aAAa,UAAU,GACxF,MAAM,IAAI,MAAM,uGAAwG,CAE5H,KACE,OAAM,IAAI,MAAM,6CAA6C,EAKjE,GAAIkB,GACF,OAAOP,EAAaO,GAAM,CACxB,UAAWD,CACb,CAAC,EAIH,GAAIjB,EACF,OAAOgB,IAAW,MAAQd,EAAYF,CAAM,EAAIW,EAAaX,EAAQ,CACnE,UAAWiB,CACb,CAAC,CAEL,EAEiCE,GAAmBL,GAEpD,SAASM,GAAiBP,EAAK,CAAE,0BAA2B,OAAI,OAAO,QAAW,YAAc,OAAO,OAAO,UAAa,SAAYO,GAAmB,SAAiBP,EAAK,CAAE,OAAO,OAAOA,CAAK,EAAYO,GAAmB,SAAiBP,EAAK,CAAE,OAAOA,GAAO,OAAO,QAAW,YAAcA,EAAI,cAAgB,QAAUA,IAAQ,OAAO,UAAY,SAAW,OAAOA,CAAK,EAAYO,GAAiBP,CAAG,CAAG,CAE7Z,SAASQ,GAAgBC,EAAUC,EAAa,CAAE,GAAI,EAAED,aAAoBC,GAAgB,MAAM,IAAI,UAAU,mCAAmC,CAAK,CAExJ,SAASC,GAAkBxB,EAAQyB,EAAO,CAAE,QAASC,EAAI,EAAGA,EAAID,EAAM,OAAQC,IAAK,CAAE,IAAIC,EAAaF,EAAMC,CAAC,EAAGC,EAAW,WAAaA,EAAW,YAAc,GAAOA,EAAW,aAAe,GAAU,UAAWA,IAAYA,EAAW,SAAW,IAAM,OAAO,eAAe3B,EAAQ2B,EAAW,IAAKA,CAAU,CAAG,CAAE,CAE5T,SAASC,GAAaL,EAAaM,EAAYC,EAAa,CAAE,OAAID,GAAYL,GAAkBD,EAAY,UAAWM,CAAU,EAAOC,GAAaN,GAAkBD,EAAaO,CAAW,EAAUP,CAAa,CAEtN,SAASQ,GAAUC,EAAUC,EAAY,CAAE,GAAI,OAAOA,GAAe,YAAcA,IAAe,KAAQ,MAAM,IAAI,UAAU,oDAAoD,EAAKD,EAAS,UAAY,OAAO,OAAOC,GAAcA,EAAW,UAAW,CAAE,YAAa,CAAE,MAAOD,EAAU,SAAU,GAAM,aAAc,EAAK,CAAE,CAAC,EAAOC,GAAYC,GAAgBF,EAAUC,CAAU,CAAG,CAEhY,SAASC,GAAgBC,EAAGC,EAAG,CAAE,OAAAF,GAAkB,OAAO,gBAAkB,SAAyBC,EAAGC,EAAG,CAAE,OAAAD,EAAE,UAAYC,EAAUD,CAAG,EAAUD,GAAgBC,EAAGC,CAAC,CAAG,CAEzK,SAASC,GAAaC,EAAS,CAAE,IAAIC,EAA4BC,GAA0B,EAAG,OAAO,UAAgC,CAAE,IAAIC,EAAQC,GAAgBJ,CAAO,EAAGK,EAAQ,GAAIJ,EAA2B,CAAE,IAAIK,EAAYF,GAAgB,IAAI,EAAE,YAAaC,EAAS,QAAQ,UAAUF,EAAO,UAAWG,CAAS,CAAG,MAASD,EAASF,EAAM,MAAM,KAAM,SAAS,EAAK,OAAOI,GAA2B,KAAMF,CAAM,CAAG,CAAG,CAExa,SAASE,GAA2BC,EAAMC,EAAM,CAAE,OAAIA,IAAS3B,GAAiB2B,CAAI,IAAM,UAAY,OAAOA,GAAS,YAAsBA,EAAeC,GAAuBF,CAAI,CAAG,CAEzL,SAASE,GAAuBF,EAAM,CAAE,GAAIA,IAAS,OAAU,MAAM,IAAI,eAAe,2DAA2D,EAAK,OAAOA,CAAM,CAErK,SAASN,IAA4B,CAA0E,GAApE,OAAO,SAAY,aAAe,CAAC,QAAQ,WAA6B,QAAQ,UAAU,KAAM,MAAO,GAAO,GAAI,OAAO,OAAU,WAAY,MAAO,GAAM,GAAI,CAAE,YAAK,UAAU,SAAS,KAAK,QAAQ,UAAU,KAAM,CAAC,EAAG,UAAY,CAAC,CAAC,CAAC,EAAU,EAAM,OAASS,EAAG,CAAE,MAAO,EAAO,CAAE,CAEnU,SAASP,GAAgBP,EAAG,CAAE,OAAAO,GAAkB,OAAO,eAAiB,OAAO,eAAiB,SAAyBP,EAAG,CAAE,OAAOA,EAAE,WAAa,OAAO,eAAeA,CAAC,CAAG,EAAUO,GAAgBP,CAAC,CAAG,CAa5M,SAASe,GAAkBC,EAAQC,EAAS,CAC1C,IAAIC,EAAY,kBAAkB,OAAOF,CAAM,EAE/C,GAAKC,EAAQ,aAAaC,CAAS,EAInC,OAAOD,EAAQ,aAAaC,CAAS,CACvC,CAOA,IAAIC,GAAyB,SAAUC,EAAU,CAC/CxB,GAAUuB,EAAWC,CAAQ,EAE7B,IAAIC,EAASnB,GAAaiB,CAAS,EAMnC,SAASA,EAAUG,EAAShD,EAAS,CACnC,IAAIiD,EAEJ,OAAArC,GAAgB,KAAMiC,CAAS,EAE/BI,EAAQF,EAAO,KAAK,IAAI,EAExBE,EAAM,eAAejD,CAAO,EAE5BiD,EAAM,YAAYD,CAAO,EAElBC,CACT,CAQA,OAAA9B,GAAa0B,EAAW,CAAC,CACvB,IAAK,iBACL,MAAO,UAA0B,CAC/B,IAAI7C,EAAU,UAAU,OAAS,GAAK,UAAU,CAAC,IAAM,OAAY,UAAU,CAAC,EAAI,CAAC,EACnF,KAAK,OAAS,OAAOA,EAAQ,QAAW,WAAaA,EAAQ,OAAS,KAAK,cAC3E,KAAK,OAAS,OAAOA,EAAQ,QAAW,WAAaA,EAAQ,OAAS,KAAK,cAC3E,KAAK,KAAO,OAAOA,EAAQ,MAAS,WAAaA,EAAQ,KAAO,KAAK,YACrE,KAAK,UAAYW,GAAiBX,EAAQ,SAAS,IAAM,SAAWA,EAAQ,UAAY,SAAS,IACnG,CAMF,EAAG,CACD,IAAK,cACL,MAAO,SAAqBgD,EAAS,CACnC,IAAIE,EAAS,KAEb,KAAK,SAAWlE,EAAe,EAAEgE,EAAS,QAAS,SAAUR,GAAG,CAC9D,OAAOU,EAAO,QAAQV,EAAC,CACzB,CAAC,CACH,CAMF,EAAG,CACD,IAAK,UACL,MAAO,SAAiBA,EAAG,CACzB,IAAIQ,EAAUR,EAAE,gBAAkBA,EAAE,cAChCjC,GAAS,KAAK,OAAOyC,CAAO,GAAK,OACjCvC,GAAOC,GAAgB,CACzB,OAAQH,GACR,UAAW,KAAK,UAChB,OAAQ,KAAK,OAAOyC,CAAO,EAC3B,KAAM,KAAK,KAAKA,CAAO,CACzB,CAAC,EAED,KAAK,KAAKvC,GAAO,UAAY,QAAS,CACpC,OAAQF,GACR,KAAME,GACN,QAASuC,EACT,eAAgB,UAA0B,CACpCA,GACFA,EAAQ,MAAM,EAGhB,OAAO,aAAa,EAAE,gBAAgB,CACxC,CACF,CAAC,CACH,CAMF,EAAG,CACD,IAAK,gBACL,MAAO,SAAuBA,EAAS,CACrC,OAAOP,GAAkB,SAAUO,CAAO,CAC5C,CAMF,EAAG,CACD,IAAK,gBACL,MAAO,SAAuBA,EAAS,CACrC,IAAIG,EAAWV,GAAkB,SAAUO,CAAO,EAElD,GAAIG,EACF,OAAO,SAAS,cAAcA,CAAQ,CAE1C,CAQF,EAAG,CACD,IAAK,cAML,MAAO,SAAqBH,EAAS,CACnC,OAAOP,GAAkB,OAAQO,CAAO,CAC1C,CAKF,EAAG,CACD,IAAK,UACL,MAAO,UAAmB,CACxB,KAAK,SAAS,QAAQ,CACxB,CACF,CAAC,EAAG,CAAC,CACH,IAAK,OACL,MAAO,SAAczD,EAAQ,CAC3B,IAAIS,EAAU,UAAU,OAAS,GAAK,UAAU,CAAC,IAAM,OAAY,UAAU,CAAC,EAAI,CAChF,UAAW,SAAS,IACtB,EACA,OAAOE,EAAaX,EAAQS,CAAO,CACrC,CAOF,EAAG,CACD,IAAK,MACL,MAAO,SAAaT,EAAQ,CAC1B,OAAOE,EAAYF,CAAM,CAC3B,CAOF,EAAG,CACD,IAAK,cACL,MAAO,UAAuB,CAC5B,IAAIgB,EAAS,UAAU,OAAS,GAAK,UAAU,CAAC,IAAM,OAAY,UAAU,CAAC,EAAI,CAAC,OAAQ,KAAK,EAC3F6C,EAAU,OAAO7C,GAAW,SAAW,CAACA,CAAM,EAAIA,EAClD8C,GAAU,CAAC,CAAC,SAAS,sBACzB,OAAAD,EAAQ,QAAQ,SAAU7C,GAAQ,CAChC8C,GAAUA,IAAW,CAAC,CAAC,SAAS,sBAAsB9C,EAAM,CAC9D,CAAC,EACM8C,EACT,CACF,CAAC,CAAC,EAEKR,CACT,EAAG/D,EAAqB,CAAE,EAEOF,GAAaiE,EAExC,EAEA,IACC,SAASxE,EAAQ,CAExB,IAAIiF,EAAqB,EAKzB,GAAI,OAAO,SAAY,aAAe,CAAC,QAAQ,UAAU,QAAS,CAC9D,IAAIC,EAAQ,QAAQ,UAEpBA,EAAM,QAAUA,EAAM,iBACNA,EAAM,oBACNA,EAAM,mBACNA,EAAM,kBACNA,EAAM,qBAC1B,CASA,SAASC,EAASb,EAASQ,EAAU,CACjC,KAAOR,GAAWA,EAAQ,WAAaW,GAAoB,CACvD,GAAI,OAAOX,EAAQ,SAAY,YAC3BA,EAAQ,QAAQQ,CAAQ,EAC1B,OAAOR,EAETA,EAAUA,EAAQ,UACtB,CACJ,CAEAtE,EAAO,QAAUmF,CAGX,EAEA,IACC,SAASnF,EAAQoF,EAA0B9E,EAAqB,CAEvE,IAAI6E,EAAU7E,EAAoB,GAAG,EAYrC,SAAS+E,EAAUf,EAASQ,EAAU/D,EAAMuE,EAAUC,EAAY,CAC9D,IAAIC,EAAaC,EAAS,MAAM,KAAM,SAAS,EAE/C,OAAAnB,EAAQ,iBAAiBvD,EAAMyE,EAAYD,CAAU,EAE9C,CACH,QAAS,UAAW,CAChBjB,EAAQ,oBAAoBvD,EAAMyE,EAAYD,CAAU,CAC5D,CACJ,CACJ,CAYA,SAASG,EAASC,EAAUb,EAAU/D,EAAMuE,EAAUC,EAAY,CAE9D,OAAI,OAAOI,EAAS,kBAAqB,WAC9BN,EAAU,MAAM,KAAM,SAAS,EAItC,OAAOtE,GAAS,WAGTsE,EAAU,KAAK,KAAM,QAAQ,EAAE,MAAM,KAAM,SAAS,GAI3D,OAAOM,GAAa,WACpBA,EAAW,SAAS,iBAAiBA,CAAQ,GAI1C,MAAM,UAAU,IAAI,KAAKA,EAAU,SAAUrB,EAAS,CACzD,OAAOe,EAAUf,EAASQ,EAAU/D,EAAMuE,EAAUC,CAAU,CAClE,CAAC,EACL,CAWA,SAASE,EAASnB,EAASQ,EAAU/D,EAAMuE,EAAU,CACjD,OAAO,SAASnB,EAAG,CACfA,EAAE,eAAiBgB,EAAQhB,EAAE,OAAQW,CAAQ,EAEzCX,EAAE,gBACFmB,EAAS,KAAKhB,EAASH,CAAC,CAEhC,CACJ,CAEAnE,EAAO,QAAU0F,CAGX,EAEA,IACC,SAAStF,EAAyBL,EAAS,CAQlDA,EAAQ,KAAO,SAASuB,EAAO,CAC3B,OAAOA,IAAU,QACVA,aAAiB,aACjBA,EAAM,WAAa,CAC9B,EAQAvB,EAAQ,SAAW,SAASuB,EAAO,CAC/B,IAAIP,EAAO,OAAO,UAAU,SAAS,KAAKO,CAAK,EAE/C,OAAOA,IAAU,SACTP,IAAS,qBAAuBA,IAAS,4BACzC,WAAYO,IACZA,EAAM,SAAW,GAAKvB,EAAQ,KAAKuB,EAAM,CAAC,CAAC,EACvD,EAQAvB,EAAQ,OAAS,SAASuB,EAAO,CAC7B,OAAO,OAAOA,GAAU,UACjBA,aAAiB,MAC5B,EAQAvB,EAAQ,GAAK,SAASuB,EAAO,CACzB,IAAIP,EAAO,OAAO,UAAU,SAAS,KAAKO,CAAK,EAE/C,OAAOP,IAAS,mBACpB,CAGM,EAEA,IACC,SAASf,EAAQoF,EAA0B9E,EAAqB,CAEvE,IAAIsF,EAAKtF,EAAoB,GAAG,EAC5BoF,EAAWpF,EAAoB,GAAG,EAWtC,SAASI,EAAOQ,EAAQH,EAAMuE,EAAU,CACpC,GAAI,CAACpE,GAAU,CAACH,GAAQ,CAACuE,EACrB,MAAM,IAAI,MAAM,4BAA4B,EAGhD,GAAI,CAACM,EAAG,OAAO7E,CAAI,EACf,MAAM,IAAI,UAAU,kCAAkC,EAG1D,GAAI,CAAC6E,EAAG,GAAGN,CAAQ,EACf,MAAM,IAAI,UAAU,mCAAmC,EAG3D,GAAIM,EAAG,KAAK1E,CAAM,EACd,OAAO2E,EAAW3E,EAAQH,EAAMuE,CAAQ,EAEvC,GAAIM,EAAG,SAAS1E,CAAM,EACvB,OAAO4E,EAAe5E,EAAQH,EAAMuE,CAAQ,EAE3C,GAAIM,EAAG,OAAO1E,CAAM,EACrB,OAAO6E,EAAe7E,EAAQH,EAAMuE,CAAQ,EAG5C,MAAM,IAAI,UAAU,2EAA2E,CAEvG,CAWA,SAASO,EAAWG,EAAMjF,EAAMuE,EAAU,CACtC,OAAAU,EAAK,iBAAiBjF,EAAMuE,CAAQ,EAE7B,CACH,QAAS,UAAW,CAChBU,EAAK,oBAAoBjF,EAAMuE,CAAQ,CAC3C,CACJ,CACJ,CAWA,SAASQ,EAAeG,EAAUlF,EAAMuE,EAAU,CAC9C,aAAM,UAAU,QAAQ,KAAKW,EAAU,SAASD,EAAM,CAClDA,EAAK,iBAAiBjF,EAAMuE,CAAQ,CACxC,CAAC,EAEM,CACH,QAAS,UAAW,CAChB,MAAM,UAAU,QAAQ,KAAKW,EAAU,SAASD,EAAM,CAClDA,EAAK,oBAAoBjF,EAAMuE,CAAQ,CAC3C,CAAC,CACL,CACJ,CACJ,CAWA,SAASS,EAAejB,EAAU/D,EAAMuE,EAAU,CAC9C,OAAOI,EAAS,SAAS,KAAMZ,EAAU/D,EAAMuE,CAAQ,CAC3D,CAEAtF,EAAO,QAAUU,CAGX,EAEA,IACC,SAASV,EAAQ,CAExB,SAASkG,EAAO5B,EAAS,CACrB,IAAInD,EAEJ,GAAImD,EAAQ,WAAa,SACrBA,EAAQ,MAAM,EAEdnD,EAAemD,EAAQ,cAElBA,EAAQ,WAAa,SAAWA,EAAQ,WAAa,WAAY,CACtE,IAAI6B,EAAa7B,EAAQ,aAAa,UAAU,EAE3C6B,GACD7B,EAAQ,aAAa,WAAY,EAAE,EAGvCA,EAAQ,OAAO,EACfA,EAAQ,kBAAkB,EAAGA,EAAQ,MAAM,MAAM,EAE5C6B,GACD7B,EAAQ,gBAAgB,UAAU,EAGtCnD,EAAemD,EAAQ,KAC3B,KACK,CACGA,EAAQ,aAAa,iBAAiB,GACtCA,EAAQ,MAAM,EAGlB,IAAI8B,EAAY,OAAO,aAAa,EAChCC,EAAQ,SAAS,YAAY,EAEjCA,EAAM,mBAAmB/B,CAAO,EAChC8B,EAAU,gBAAgB,EAC1BA,EAAU,SAASC,CAAK,EAExBlF,EAAeiF,EAAU,SAAS,CACtC,CAEA,OAAOjF,CACX,CAEAnB,EAAO,QAAUkG,CAGX,EAEA,IACC,SAASlG,EAAQ,CAExB,SAASsG,GAAK,CAGd,CAEAA,EAAE,UAAY,CACZ,GAAI,SAAUC,EAAMjB,EAAUkB,EAAK,CACjC,IAAIrC,EAAI,KAAK,IAAM,KAAK,EAAI,CAAC,GAE7B,OAACA,EAAEoC,CAAI,IAAMpC,EAAEoC,CAAI,EAAI,CAAC,IAAI,KAAK,CAC/B,GAAIjB,EACJ,IAAKkB,CACP,CAAC,EAEM,IACT,EAEA,KAAM,SAAUD,EAAMjB,EAAUkB,EAAK,CACnC,IAAIxC,EAAO,KACX,SAASyB,GAAY,CACnBzB,EAAK,IAAIuC,EAAMd,CAAQ,EACvBH,EAAS,MAAMkB,EAAK,SAAS,CAC/B,CAEA,OAAAf,EAAS,EAAIH,EACN,KAAK,GAAGiB,EAAMd,EAAUe,CAAG,CACpC,EAEA,KAAM,SAAUD,EAAM,CACpB,IAAIE,EAAO,CAAC,EAAE,MAAM,KAAK,UAAW,CAAC,EACjCC,IAAW,KAAK,IAAM,KAAK,EAAI,CAAC,IAAIH,CAAI,GAAK,CAAC,GAAG,MAAM,EACvD3D,EAAI,EACJ+D,EAAMD,EAAO,OAEjB,IAAK9D,EAAGA,EAAI+D,EAAK/D,IACf8D,EAAO9D,CAAC,EAAE,GAAG,MAAM8D,EAAO9D,CAAC,EAAE,IAAK6D,CAAI,EAGxC,OAAO,IACT,EAEA,IAAK,SAAUF,EAAMjB,EAAU,CAC7B,IAAInB,EAAI,KAAK,IAAM,KAAK,EAAI,CAAC,GACzByC,EAAOzC,EAAEoC,CAAI,EACbM,EAAa,CAAC,EAElB,GAAID,GAAQtB,EACV,QAAS1C,EAAI,EAAG+D,EAAMC,EAAK,OAAQhE,EAAI+D,EAAK/D,IACtCgE,EAAKhE,CAAC,EAAE,KAAO0C,GAAYsB,EAAKhE,CAAC,EAAE,GAAG,IAAM0C,GAC9CuB,EAAW,KAAKD,EAAKhE,CAAC,CAAC,EAQ7B,OAACiE,EAAW,OACR1C,EAAEoC,CAAI,EAAIM,EACV,OAAO1C,EAAEoC,CAAI,EAEV,IACT,CACF,EAEAvG,EAAO,QAAUsG,EACjBtG,EAAO,QAAQ,YAAcsG,CAGvB,CAEI,EAGIQ,EAA2B,CAAC,EAGhC,SAASxG,EAAoByG,EAAU,CAEtC,GAAGD,EAAyBC,CAAQ,EACnC,OAAOD,EAAyBC,CAAQ,EAAE,QAG3C,IAAI/G,EAAS8G,EAAyBC,CAAQ,EAAI,CAGjD,QAAS,CAAC,CACX,EAGA,OAAA5G,EAAoB4G,CAAQ,EAAE/G,EAAQA,EAAO,QAASM,CAAmB,EAGlEN,EAAO,OACf,CAIA,OAAC,UAAW,CAEXM,EAAoB,EAAI,SAASN,EAAQ,CACxC,IAAIgH,EAAShH,GAAUA,EAAO,WAC7B,UAAW,CAAE,OAAOA,EAAO,OAAY,EACvC,UAAW,CAAE,OAAOA,CAAQ,EAC7B,OAAAM,EAAoB,EAAE0G,EAAQ,CAAE,EAAGA,CAAO,CAAC,EACpCA,CACR,CACD,EAAE,EAGD,UAAW,CAEX1G,EAAoB,EAAI,SAASP,EAASkH,EAAY,CACrD,QAAQC,KAAOD,EACX3G,EAAoB,EAAE2G,EAAYC,CAAG,GAAK,CAAC5G,EAAoB,EAAEP,EAASmH,CAAG,GAC/E,OAAO,eAAenH,EAASmH,EAAK,CAAE,WAAY,GAAM,IAAKD,EAAWC,CAAG,CAAE,CAAC,CAGjF,CACD,EAAE,EAGD,UAAW,CACX5G,EAAoB,EAAI,SAASyB,EAAKoF,EAAM,CAAE,OAAO,OAAO,UAAU,eAAe,KAAKpF,EAAKoF,CAAI,CAAG,CACvG,EAAE,EAMK7G,EAAoB,GAAG,CAC/B,EAAG,EACX,OACD,CAAC,ICz3BD,IAAA8G,GAAAC,GAAA,CAAAC,GAAAC,KAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA,GAeA,IAAIC,GAAkB,UAOtBD,GAAO,QAAUE,GAUjB,SAASA,GAAWC,EAAQ,CAC1B,IAAIC,EAAM,GAAKD,EACXE,EAAQJ,GAAgB,KAAKG,CAAG,EAEpC,GAAI,CAACC,EACH,OAAOD,EAGT,IAAIE,EACAC,EAAO,GACPC,EAAQ,EACRC,EAAY,EAEhB,IAAKD,EAAQH,EAAM,MAAOG,EAAQJ,EAAI,OAAQI,IAAS,CACrD,OAAQJ,EAAI,WAAWI,CAAK,EAAG,CAC7B,IAAK,IACHF,EAAS,SACT,MACF,IAAK,IACHA,EAAS,QACT,MACF,IAAK,IACHA,EAAS,QACT,MACF,IAAK,IACHA,EAAS,OACT,MACF,IAAK,IACHA,EAAS,OACT,MACF,QACE,QACJ,CAEIG,IAAcD,IAChBD,GAAQH,EAAI,UAAUK,EAAWD,CAAK,GAGxCC,EAAYD,EAAQ,EACpBD,GAAQD,CACV,CAEA,OAAOG,IAAcD,EACjBD,EAAOH,EAAI,UAAUK,EAAWD,CAAK,EACrCD,CACN,ICvDA,IAAAG,GAAO,SCtBP;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA,gFAgBA,IAAIC,GAAgB,SAASC,EAAGC,EAAG,CAC/B,OAAAF,GAAgB,OAAO,gBAClB,CAAE,UAAW,CAAC,CAAE,YAAa,OAAS,SAAUC,EAAGC,EAAG,CAAED,EAAE,UAAYC,CAAG,GAC1E,SAAUD,EAAGC,EAAG,CAAE,QAASC,KAAKD,EAAO,OAAO,UAAU,eAAe,KAAKA,EAAGC,CAAC,IAAGF,EAAEE,CAAC,EAAID,EAAEC,CAAC,EAAG,EAC7FH,GAAcC,EAAGC,CAAC,CAC7B,EAEO,SAASE,GAAUH,EAAGC,EAAG,CAC5B,GAAI,OAAOA,GAAM,YAAcA,IAAM,KACjC,MAAM,IAAI,UAAU,uBAAyB,OAAOA,CAAC,EAAI,+BAA+B,EAC5FF,GAAcC,EAAGC,CAAC,EAClB,SAASG,GAAK,CAAE,KAAK,YAAcJ,CAAG,CACtCA,EAAE,UAAYC,IAAM,KAAO,OAAO,OAAOA,CAAC,GAAKG,EAAG,UAAYH,EAAE,UAAW,IAAIG,EACnF,CAwCO,SAASC,GAAUC,EAASC,EAAYC,EAAGC,EAAW,CACzD,SAASC,EAAMC,EAAO,CAAE,OAAOA,aAAiBH,EAAIG,EAAQ,IAAIH,EAAE,SAAUI,EAAS,CAAEA,EAAQD,CAAK,CAAG,CAAC,CAAG,CAC3G,OAAO,IAAKH,IAAMA,EAAI,UAAU,SAAUI,EAASC,EAAQ,CACvD,SAASC,EAAUH,EAAO,CAAE,GAAI,CAAEI,EAAKN,EAAU,KAAKE,CAAK,CAAC,CAAG,OAASK,EAAG,CAAEH,EAAOG,CAAC,CAAG,CAAE,CAC1F,SAASC,EAASN,EAAO,CAAE,GAAI,CAAEI,EAAKN,EAAU,MAASE,CAAK,CAAC,CAAG,OAASK,EAAG,CAAEH,EAAOG,CAAC,CAAG,CAAE,CAC7F,SAASD,EAAKG,EAAQ,CAAEA,EAAO,KAAON,EAAQM,EAAO,KAAK,EAAIR,EAAMQ,EAAO,KAAK,EAAE,KAAKJ,EAAWG,CAAQ,CAAG,CAC7GF,GAAMN,EAAYA,EAAU,MAAMH,EAASC,GAAc,CAAC,CAAC,GAAG,KAAK,CAAC,CACxE,CAAC,CACL,CAEO,SAASY,GAAYb,EAASc,EAAM,CACvC,IAAIC,EAAI,CAAE,MAAO,EAAG,KAAM,UAAW,CAAE,GAAIC,EAAE,CAAC,EAAI,EAAG,MAAMA,EAAE,CAAC,EAAG,OAAOA,EAAE,CAAC,CAAG,EAAG,KAAM,CAAC,EAAG,IAAK,CAAC,CAAE,EAAGC,EAAGC,EAAGF,EAAGG,EAC/G,OAAOA,EAAI,CAAE,KAAMC,EAAK,CAAC,EAAG,MAASA,EAAK,CAAC,EAAG,OAAUA,EAAK,CAAC,CAAE,EAAG,OAAO,QAAW,aAAeD,EAAE,OAAO,QAAQ,EAAI,UAAW,CAAE,OAAO,IAAM,GAAIA,EACvJ,SAASC,EAAKC,EAAG,CAAE,OAAO,SAAUC,EAAG,CAAE,OAAOb,EAAK,CAACY,EAAGC,CAAC,CAAC,CAAG,CAAG,CACjE,SAASb,EAAKc,EAAI,CACd,GAAIN,EAAG,MAAM,IAAI,UAAU,iCAAiC,EAC5D,KAAOF,GAAG,GAAI,CACV,GAAIE,EAAI,EAAGC,IAAMF,EAAIO,EAAG,CAAC,EAAI,EAAIL,EAAE,OAAYK,EAAG,CAAC,EAAIL,EAAE,SAAcF,EAAIE,EAAE,SAAcF,EAAE,KAAKE,CAAC,EAAG,GAAKA,EAAE,OAAS,EAAEF,EAAIA,EAAE,KAAKE,EAAGK,EAAG,CAAC,CAAC,GAAG,KAAM,OAAOP,EAE3J,OADIE,EAAI,EAAGF,IAAGO,EAAK,CAACA,EAAG,CAAC,EAAI,EAAGP,EAAE,KAAK,GAC9BO,EAAG,CAAC,EAAG,CACX,IAAK,GAAG,IAAK,GAAGP,EAAIO,EAAI,MACxB,IAAK,GAAG,OAAAR,EAAE,QAAgB,CAAE,MAAOQ,EAAG,CAAC,EAAG,KAAM,EAAM,EACtD,IAAK,GAAGR,EAAE,QAASG,EAAIK,EAAG,CAAC,EAAGA,EAAK,CAAC,CAAC,EAAG,SACxC,IAAK,GAAGA,EAAKR,EAAE,IAAI,IAAI,EAAGA,EAAE,KAAK,IAAI,EAAG,SACxC,QACI,GAAMC,EAAID,EAAE,KAAM,EAAAC,EAAIA,EAAE,OAAS,GAAKA,EAAEA,EAAE,OAAS,CAAC,KAAOO,EAAG,CAAC,IAAM,GAAKA,EAAG,CAAC,IAAM,GAAI,CAAER,EAAI,EAAG,QAAU,CAC3G,GAAIQ,EAAG,CAAC,IAAM,IAAM,CAACP,GAAMO,EAAG,CAAC,EAAIP,EAAE,CAAC,GAAKO,EAAG,CAAC,EAAIP,EAAE,CAAC,GAAK,CAAED,EAAE,MAAQQ,EAAG,CAAC,EAAG,KAAO,CACrF,GAAIA,EAAG,CAAC,IAAM,GAAKR,EAAE,MAAQC,EAAE,CAAC,EAAG,CAAED,EAAE,MAAQC,EAAE,CAAC,EAAGA,EAAIO,EAAI,KAAO,CACpE,GAAIP,GAAKD,EAAE,MAAQC,EAAE,CAAC,EAAG,CAAED,EAAE,MAAQC,EAAE,CAAC,EAAGD,EAAE,IAAI,KAAKQ,CAAE,EAAG,KAAO,CAC9DP,EAAE,CAAC,GAAGD,EAAE,IAAI,IAAI,EACpBA,EAAE,KAAK,IAAI,EAAG,QACtB,CACAQ,EAAKT,EAAK,KAAKd,EAASe,CAAC,CAC7B,OAASL,EAAG,CAAEa,EAAK,CAAC,EAAGb,CAAC,EAAGQ,EAAI,CAAG,QAAE,CAAUD,EAAID,EAAI,CAAG,CACzD,GAAIO,EAAG,CAAC,EAAI,EAAG,MAAMA,EAAG,CAAC,EAAG,MAAO,CAAE,MAAOA,EAAG,CAAC,EAAIA,EAAG,CAAC,EAAI,OAAQ,KAAM,EAAK,CACnF,CACJ,CAcO,SAASC,GAASC,EAAG,CACxB,IAAIC,EAAI,OAAO,QAAW,YAAc,OAAO,SAAUC,EAAID,GAAKD,EAAEC,CAAC,EAAGE,EAAI,EAC5E,GAAID,EAAG,OAAOA,EAAE,KAAKF,CAAC,EACtB,GAAIA,GAAK,OAAOA,EAAE,QAAW,SAAU,MAAO,CAC1C,KAAM,UAAY,CACd,OAAIA,GAAKG,GAAKH,EAAE,SAAQA,EAAI,QACrB,CAAE,MAAOA,GAAKA,EAAEG,GAAG,EAAG,KAAM,CAACH,CAAE,CAC1C,CACJ,EACA,MAAM,IAAI,UAAUC,EAAI,0BAA4B,iCAAiC,CACzF,CAEO,SAASG,EAAOJ,EAAGK,EAAG,CACzB,IAAIH,EAAI,OAAO,QAAW,YAAcF,EAAE,OAAO,QAAQ,EACzD,GAAI,CAACE,EAAG,OAAOF,EACf,IAAIG,EAAID,EAAE,KAAKF,CAAC,EAAGM,EAAGC,EAAK,CAAC,EAAGC,EAC/B,GAAI,CACA,MAAQH,IAAM,QAAUA,KAAM,IAAM,EAAEC,EAAIH,EAAE,KAAK,GAAG,MAAMI,EAAG,KAAKD,EAAE,KAAK,CAC7E,OACOG,EAAO,CAAED,EAAI,CAAE,MAAOC,CAAM,CAAG,QACtC,CACI,GAAI,CACIH,GAAK,CAACA,EAAE,OAASJ,EAAIC,EAAE,SAAYD,EAAE,KAAKC,CAAC,CACnD,QACA,CAAU,GAAIK,EAAG,MAAMA,EAAE,KAAO,CACpC,CACA,OAAOD,CACX,CAkBO,SAASG,EAAcC,EAAIC,EAAMC,EAAM,CAC1C,GAAIA,GAAQ,UAAU,SAAW,EAAG,QAASC,EAAI,EAAGC,EAAIH,EAAK,OAAQI,EAAIF,EAAIC,EAAGD,KACxEE,GAAM,EAAEF,KAAKF,MACRI,IAAIA,EAAK,MAAM,UAAU,MAAM,KAAKJ,EAAM,EAAGE,CAAC,GACnDE,EAAGF,CAAC,EAAIF,EAAKE,CAAC,GAGtB,OAAOH,EAAG,OAAOK,GAAM,MAAM,UAAU,MAAM,KAAKJ,CAAI,CAAC,CAC3D,CAEO,SAASK,GAAQC,EAAG,CACvB,OAAO,gBAAgBD,IAAW,KAAK,EAAIC,EAAG,MAAQ,IAAID,GAAQC,CAAC,CACvE,CAEO,SAASC,GAAiBC,EAASC,EAAYC,EAAW,CAC7D,GAAI,CAAC,OAAO,cAAe,MAAM,IAAI,UAAU,sCAAsC,EACrF,IAAIC,EAAID,EAAU,MAAMF,EAASC,GAAc,CAAC,CAAC,EAAGP,EAAGU,EAAI,CAAC,EAC5D,OAAOV,EAAI,CAAC,EAAGW,EAAK,MAAM,EAAGA,EAAK,OAAO,EAAGA,EAAK,QAAQ,EAAGX,EAAE,OAAO,aAAa,EAAI,UAAY,CAAE,OAAO,IAAM,EAAGA,EACpH,SAASW,EAAKC,EAAG,CAAMH,EAAEG,CAAC,IAAGZ,EAAEY,CAAC,EAAI,SAAUR,EAAG,CAAE,OAAO,IAAI,QAAQ,SAAUS,EAAGC,EAAG,CAAEJ,EAAE,KAAK,CAACE,EAAGR,EAAGS,EAAGC,CAAC,CAAC,EAAI,GAAKC,EAAOH,EAAGR,CAAC,CAAG,CAAC,CAAG,EAAG,CACzI,SAASW,EAAOH,EAAGR,EAAG,CAAE,GAAI,CAAEY,EAAKP,EAAEG,CAAC,EAAER,CAAC,CAAC,CAAG,OAASa,EAAG,CAAEC,EAAOR,EAAE,CAAC,EAAE,CAAC,EAAGO,CAAC,CAAG,CAAE,CACjF,SAASD,EAAKG,EAAG,CAAEA,EAAE,iBAAiBhB,GAAU,QAAQ,QAAQgB,EAAE,MAAM,CAAC,EAAE,KAAKC,EAASC,CAAM,EAAIH,EAAOR,EAAE,CAAC,EAAE,CAAC,EAAGS,CAAC,CAAG,CACvH,SAASC,EAAQE,EAAO,CAAEP,EAAO,OAAQO,CAAK,CAAG,CACjD,SAASD,EAAOC,EAAO,CAAEP,EAAO,QAASO,CAAK,CAAG,CACjD,SAASJ,EAAOK,EAAGnB,EAAG,CAAMmB,EAAEnB,CAAC,EAAGM,EAAE,MAAM,EAAGA,EAAE,QAAQK,EAAOL,EAAE,CAAC,EAAE,CAAC,EAAGA,EAAE,CAAC,EAAE,CAAC,CAAC,CAAG,CACrF,CAQO,SAASc,GAAcC,EAAG,CAC7B,GAAI,CAAC,OAAO,cAAe,MAAM,IAAI,UAAU,sCAAsC,EACrF,IAAIC,EAAID,EAAE,OAAO,aAAa,EAAGE,EACjC,OAAOD,EAAIA,EAAE,KAAKD,CAAC,GAAKA,EAAI,OAAOG,IAAa,WAAaA,GAASH,CAAC,EAAIA,EAAE,OAAO,QAAQ,EAAE,EAAGE,EAAI,CAAC,EAAGE,EAAK,MAAM,EAAGA,EAAK,OAAO,EAAGA,EAAK,QAAQ,EAAGF,EAAE,OAAO,aAAa,EAAI,UAAY,CAAE,OAAO,IAAM,EAAGA,GAC9M,SAASE,EAAKC,EAAG,CAAEH,EAAEG,CAAC,EAAIL,EAAEK,CAAC,GAAK,SAAUC,EAAG,CAAE,OAAO,IAAI,QAAQ,SAAUC,EAASC,EAAQ,CAAEF,EAAIN,EAAEK,CAAC,EAAEC,CAAC,EAAGG,EAAOF,EAASC,EAAQF,EAAE,KAAMA,EAAE,KAAK,CAAG,CAAC,CAAG,CAAG,CAC/J,SAASG,EAAOF,EAASC,EAAQE,EAAGJ,EAAG,CAAE,QAAQ,QAAQA,CAAC,EAAE,KAAK,SAASA,EAAG,CAAEC,EAAQ,CAAE,MAAOD,EAAG,KAAMI,CAAE,CAAC,CAAG,EAAGF,CAAM,CAAG,CAC/H,CCtMM,SAAUG,EAAWC,EAAU,CACnC,OAAO,OAAOA,GAAU,UAC1B,CCGM,SAAUC,GAAoBC,EAAgC,CAClE,IAAMC,EAAS,SAACC,EAAa,CAC3B,MAAM,KAAKA,CAAQ,EACnBA,EAAS,MAAQ,IAAI,MAAK,EAAG,KAC/B,EAEMC,EAAWH,EAAWC,CAAM,EAClC,OAAAE,EAAS,UAAY,OAAO,OAAO,MAAM,SAAS,EAClDA,EAAS,UAAU,YAAcA,EAC1BA,CACT,CCDO,IAAMC,GAA+CC,GAC1D,SAACC,EAAM,CACL,OAAA,SAA4CC,EAA0B,CACpED,EAAO,IAAI,EACX,KAAK,QAAUC,EACRA,EAAO,OAAM;EACxBA,EAAO,IAAI,SAACC,EAAKC,EAAC,CAAK,OAAGA,EAAI,EAAC,KAAKD,EAAI,SAAQ,CAAzB,CAA6B,EAAE,KAAK;GAAM,EACzD,GACJ,KAAK,KAAO,sBACZ,KAAK,OAASD,CAChB,CARA,CAQC,ECvBC,SAAUG,GAAaC,EAA6BC,EAAO,CAC/D,GAAID,EAAK,CACP,IAAME,EAAQF,EAAI,QAAQC,CAAI,EAC9B,GAAKC,GAASF,EAAI,OAAOE,EAAO,CAAC,EAErC,CCOA,IAAAC,GAAA,UAAA,CAyBE,SAAAA,EAAoBC,EAA4B,CAA5B,KAAA,gBAAAA,EAdb,KAAA,OAAS,GAER,KAAA,WAAmD,KAMnD,KAAA,YAAqD,IAMV,CAQnD,OAAAD,EAAA,UAAA,YAAA,UAAA,aACME,EAEJ,GAAI,CAAC,KAAK,OAAQ,CAChB,KAAK,OAAS,GAGN,IAAAC,EAAe,KAAI,WAC3B,GAAIA,EAEF,GADA,KAAK,WAAa,KACd,MAAM,QAAQA,CAAU,MAC1B,QAAqBC,EAAAC,GAAAF,CAAU,EAAAG,EAAAF,EAAA,KAAA,EAAA,CAAAE,EAAA,KAAAA,EAAAF,EAAA,KAAA,EAAE,CAA5B,IAAMG,EAAMD,EAAA,MACfC,EAAO,OAAO,IAAI,yGAGpBJ,EAAW,OAAO,IAAI,EAIlB,IAAiBK,EAAqB,KAAI,gBAClD,GAAIC,EAAWD,CAAgB,EAC7B,GAAI,CACFA,EAAgB,QACTE,EAAG,CACVR,EAASQ,aAAaC,GAAsBD,EAAE,OAAS,CAACA,CAAC,EAIrD,IAAAE,EAAgB,KAAI,YAC5B,GAAIA,EAAa,CACf,KAAK,YAAc,SACnB,QAAwBC,EAAAR,GAAAO,CAAW,EAAAE,EAAAD,EAAA,KAAA,EAAA,CAAAC,EAAA,KAAAA,EAAAD,EAAA,KAAA,EAAE,CAAhC,IAAME,EAASD,EAAA,MAClB,GAAI,CACFE,GAAcD,CAAS,QAChBE,EAAK,CACZf,EAASA,GAAM,KAANA,EAAU,CAAA,EACfe,aAAeN,GACjBT,EAAMgB,EAAAA,EAAA,CAAA,EAAAC,EAAOjB,CAAM,CAAA,EAAAiB,EAAKF,EAAI,MAAM,CAAA,EAElCf,EAAO,KAAKe,CAAG,sGAMvB,GAAIf,EACF,MAAM,IAAIS,GAAoBT,CAAM,EAG1C,EAoBAF,EAAA,UAAA,IAAA,SAAIoB,EAAuB,OAGzB,GAAIA,GAAYA,IAAa,KAC3B,GAAI,KAAK,OAGPJ,GAAcI,CAAQ,MACjB,CACL,GAAIA,aAAoBpB,EAAc,CAGpC,GAAIoB,EAAS,QAAUA,EAAS,WAAW,IAAI,EAC7C,OAEFA,EAAS,WAAW,IAAI,GAEzB,KAAK,aAAcC,EAAA,KAAK,eAAW,MAAAA,IAAA,OAAAA,EAAI,CAAA,GAAI,KAAKD,CAAQ,EAG/D,EAOQpB,EAAA,UAAA,WAAR,SAAmBsB,EAAoB,CAC7B,IAAAnB,EAAe,KAAI,WAC3B,OAAOA,IAAemB,GAAW,MAAM,QAAQnB,CAAU,GAAKA,EAAW,SAASmB,CAAM,CAC1F,EASQtB,EAAA,UAAA,WAAR,SAAmBsB,EAAoB,CAC7B,IAAAnB,EAAe,KAAI,WAC3B,KAAK,WAAa,MAAM,QAAQA,CAAU,GAAKA,EAAW,KAAKmB,CAAM,EAAGnB,GAAcA,EAAa,CAACA,EAAYmB,CAAM,EAAIA,CAC5H,EAMQtB,EAAA,UAAA,cAAR,SAAsBsB,EAAoB,CAChC,IAAAnB,EAAe,KAAI,WACvBA,IAAemB,EACjB,KAAK,WAAa,KACT,MAAM,QAAQnB,CAAU,GACjCoB,GAAUpB,EAAYmB,CAAM,CAEhC,EAgBAtB,EAAA,UAAA,OAAA,SAAOoB,EAAsC,CACnC,IAAAR,EAAgB,KAAI,YAC5BA,GAAeW,GAAUX,EAAaQ,CAAQ,EAE1CA,aAAoBpB,GACtBoB,EAAS,cAAc,IAAI,CAE/B,EAlLcpB,EAAA,MAAS,UAAA,CACrB,IAAMwB,EAAQ,IAAIxB,EAClB,OAAAwB,EAAM,OAAS,GACRA,CACT,EAAE,EA+KJxB,GArLA,EAuLO,IAAMyB,GAAqBC,GAAa,MAEzC,SAAUC,GAAeC,EAAU,CACvC,OACEA,aAAiBF,IAChBE,GAAS,WAAYA,GAASC,EAAWD,EAAM,MAAM,GAAKC,EAAWD,EAAM,GAAG,GAAKC,EAAWD,EAAM,WAAW,CAEpH,CAEA,SAASE,GAAcC,EAAwC,CACzDF,EAAWE,CAAS,EACtBA,EAAS,EAETA,EAAU,YAAW,CAEzB,CChNO,IAAMC,GAAuB,CAClC,iBAAkB,KAClB,sBAAuB,KACvB,QAAS,OACT,sCAAuC,GACvC,yBAA0B,ICGrB,IAAMC,GAAmC,CAG9C,WAAA,SAAWC,EAAqBC,EAAgB,SAAEC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,EAAA,CAAA,EAAA,UAAAA,CAAA,EACxC,IAAAC,EAAaL,GAAe,SACpC,OAAIK,GAAQ,MAARA,EAAU,WACLA,EAAS,WAAU,MAAnBA,EAAQC,EAAA,CAAYL,EAASC,CAAO,EAAAK,EAAKJ,CAAI,CAAA,CAAA,EAE/C,WAAU,MAAA,OAAAG,EAAA,CAACL,EAASC,CAAO,EAAAK,EAAKJ,CAAI,CAAA,CAAA,CAC7C,EACA,aAAA,SAAaK,EAAM,CACT,IAAAH,EAAaL,GAAe,SACpC,QAAQK,GAAQ,KAAA,OAARA,EAAU,eAAgB,cAAcG,CAAa,CAC/D,EACA,SAAU,QCjBN,SAAUC,GAAqBC,EAAQ,CAC3CC,GAAgB,WAAW,UAAA,CACjB,IAAAC,EAAqBC,GAAM,iBACnC,GAAID,EAEFA,EAAiBF,CAAG,MAGpB,OAAMA,CAEV,CAAC,CACH,CCtBM,SAAUI,IAAI,CAAK,CCMlB,IAAMC,GAAyB,UAAA,CAAM,OAAAC,GAAmB,IAAK,OAAW,MAAS,CAA5C,EAAsE,EAO5G,SAAUC,GAAkBC,EAAU,CAC1C,OAAOF,GAAmB,IAAK,OAAWE,CAAK,CACjD,CAOM,SAAUC,GAAoBC,EAAQ,CAC1C,OAAOJ,GAAmB,IAAKI,EAAO,MAAS,CACjD,CAQM,SAAUJ,GAAmBK,EAAuBD,EAAYF,EAAU,CAC9E,MAAO,CACL,KAAIG,EACJ,MAAKD,EACL,MAAKF,EAET,CCrCA,IAAII,GAAuD,KASrD,SAAUC,GAAaC,EAAc,CACzC,GAAIC,GAAO,sCAAuC,CAChD,IAAMC,EAAS,CAACJ,GAKhB,GAJII,IACFJ,GAAU,CAAE,YAAa,GAAO,MAAO,IAAI,GAE7CE,EAAE,EACEE,EAAQ,CACJ,IAAAC,EAAyBL,GAAvBM,EAAWD,EAAA,YAAEE,EAAKF,EAAA,MAE1B,GADAL,GAAU,KACNM,EACF,MAAMC,QAMVL,EAAE,CAEN,CAMM,SAAUM,GAAaC,EAAQ,CAC/BN,GAAO,uCAAyCH,KAClDA,GAAQ,YAAc,GACtBA,GAAQ,MAAQS,EAEpB,CCrBA,IAAAC,GAAA,SAAAC,EAAA,CAAmCC,GAAAF,EAAAC,CAAA,EA6BjC,SAAAD,EAAYG,EAA6C,CAAzD,IAAAC,EACEH,EAAA,KAAA,IAAA,GAAO,KATC,OAAAG,EAAA,UAAqB,GAUzBD,GACFC,EAAK,YAAcD,EAGfE,GAAeF,CAAW,GAC5BA,EAAY,IAAIC,CAAI,GAGtBA,EAAK,YAAcE,IAEvB,CAzBO,OAAAN,EAAA,OAAP,SAAiBO,EAAwBC,EAA2BC,EAAqB,CACvF,OAAO,IAAIC,GAAeH,EAAMC,EAAOC,CAAQ,CACjD,EAgCAT,EAAA,UAAA,KAAA,SAAKW,EAAS,CACR,KAAK,UACPC,GAA0BC,GAAiBF,CAAK,EAAG,IAAI,EAEvD,KAAK,MAAMA,CAAM,CAErB,EASAX,EAAA,UAAA,MAAA,SAAMc,EAAS,CACT,KAAK,UACPF,GAA0BG,GAAkBD,CAAG,EAAG,IAAI,GAEtD,KAAK,UAAY,GACjB,KAAK,OAAOA,CAAG,EAEnB,EAQAd,EAAA,UAAA,SAAA,UAAA,CACM,KAAK,UACPY,GAA0BI,GAAuB,IAAI,GAErD,KAAK,UAAY,GACjB,KAAK,UAAS,EAElB,EAEAhB,EAAA,UAAA,YAAA,UAAA,CACO,KAAK,SACR,KAAK,UAAY,GACjBC,EAAA,UAAM,YAAW,KAAA,IAAA,EACjB,KAAK,YAAc,KAEvB,EAEUD,EAAA,UAAA,MAAV,SAAgBW,EAAQ,CACtB,KAAK,YAAY,KAAKA,CAAK,CAC7B,EAEUX,EAAA,UAAA,OAAV,SAAiBc,EAAQ,CACvB,GAAI,CACF,KAAK,YAAY,MAAMA,CAAG,UAE1B,KAAK,YAAW,EAEpB,EAEUd,EAAA,UAAA,UAAV,UAAA,CACE,GAAI,CACF,KAAK,YAAY,SAAQ,UAEzB,KAAK,YAAW,EAEpB,EACFA,CAAA,EApHmCiB,EAAY,EA2H/C,IAAMC,GAAQ,SAAS,UAAU,KAEjC,SAASC,GAAyCC,EAAQC,EAAY,CACpE,OAAOH,GAAM,KAAKE,EAAIC,CAAO,CAC/B,CAMA,IAAAC,GAAA,UAAA,CACE,SAAAA,EAAoBC,EAAqC,CAArC,KAAA,gBAAAA,CAAwC,CAE5D,OAAAD,EAAA,UAAA,KAAA,SAAKE,EAAQ,CACH,IAAAD,EAAoB,KAAI,gBAChC,GAAIA,EAAgB,KAClB,GAAI,CACFA,EAAgB,KAAKC,CAAK,QACnBC,EAAO,CACdC,GAAqBD,CAAK,EAGhC,EAEAH,EAAA,UAAA,MAAA,SAAMK,EAAQ,CACJ,IAAAJ,EAAoB,KAAI,gBAChC,GAAIA,EAAgB,MAClB,GAAI,CACFA,EAAgB,MAAMI,CAAG,QAClBF,EAAO,CACdC,GAAqBD,CAAK,OAG5BC,GAAqBC,CAAG,CAE5B,EAEAL,EAAA,UAAA,SAAA,UAAA,CACU,IAAAC,EAAoB,KAAI,gBAChC,GAAIA,EAAgB,SAClB,GAAI,CACFA,EAAgB,SAAQ,QACjBE,EAAO,CACdC,GAAqBD,CAAK,EAGhC,EACFH,CAAA,EArCA,EAuCAM,GAAA,SAAAC,EAAA,CAAuCC,GAAAF,EAAAC,CAAA,EACrC,SAAAD,EACEG,EACAN,EACAO,EAA8B,CAHhC,IAAAC,EAKEJ,EAAA,KAAA,IAAA,GAAO,KAEHN,EACJ,GAAIW,EAAWH,CAAc,GAAK,CAACA,EAGjCR,EAAkB,CAChB,KAAOQ,GAAc,KAAdA,EAAkB,OACzB,MAAON,GAAK,KAALA,EAAS,OAChB,SAAUO,GAAQ,KAARA,EAAY,YAEnB,CAEL,IAAIG,EACAF,GAAQG,GAAO,0BAIjBD,EAAU,OAAO,OAAOJ,CAAc,EACtCI,EAAQ,YAAc,UAAA,CAAM,OAAAF,EAAK,YAAW,CAAhB,EAC5BV,EAAkB,CAChB,KAAMQ,EAAe,MAAQZ,GAAKY,EAAe,KAAMI,CAAO,EAC9D,MAAOJ,EAAe,OAASZ,GAAKY,EAAe,MAAOI,CAAO,EACjE,SAAUJ,EAAe,UAAYZ,GAAKY,EAAe,SAAUI,CAAO,IAI5EZ,EAAkBQ,EAMtB,OAAAE,EAAK,YAAc,IAAIX,GAAiBC,CAAe,GACzD,CACF,OAAAK,CAAA,EAzCuCS,EAAU,EA2CjD,SAASC,GAAqBC,EAAU,CAClCC,GAAO,sCACTC,GAAaF,CAAK,EAIlBG,GAAqBH,CAAK,CAE9B,CAQA,SAASI,GAAoBC,EAAQ,CACnC,MAAMA,CACR,CAOA,SAASC,GAA0BC,EAA2CC,EAA2B,CAC/F,IAAAC,EAA0BR,GAAM,sBACxCQ,GAAyBC,GAAgB,WAAW,UAAA,CAAM,OAAAD,EAAsBF,EAAcC,CAAU,CAA9C,CAA+C,CAC3G,CAOO,IAAMG,GAA6D,CACxE,OAAQ,GACR,KAAMC,GACN,MAAOR,GACP,SAAUQ,IC5QL,IAAMC,GAA+B,UAAA,CAAM,OAAC,OAAO,QAAW,YAAc,OAAO,YAAe,cAAvD,EAAsE,ECoClH,SAAUC,GAAYC,EAAI,CAC9B,OAAOA,CACT,CCiCM,SAAUC,IAAI,SAACC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EACnB,OAAOC,GAAcF,CAAG,CAC1B,CAGM,SAAUE,GAAoBF,EAA+B,CACjE,OAAIA,EAAI,SAAW,EACVG,GAGLH,EAAI,SAAW,EACVA,EAAI,CAAC,EAGP,SAAeI,EAAQ,CAC5B,OAAOJ,EAAI,OAAO,SAACK,EAAWC,EAAuB,CAAK,OAAAA,EAAGD,CAAI,CAAP,EAAUD,CAAY,CAClF,CACF,CC9EA,IAAAG,EAAA,UAAA,CAkBE,SAAAA,EAAYC,EAA6E,CACnFA,IACF,KAAK,WAAaA,EAEtB,CA4BA,OAAAD,EAAA,UAAA,KAAA,SAAQE,EAAyB,CAC/B,IAAMC,EAAa,IAAIH,EACvB,OAAAG,EAAW,OAAS,KACpBA,EAAW,SAAWD,EACfC,CACT,EA6IAH,EAAA,UAAA,UAAA,SACEI,EACAC,EACAC,EAA8B,CAHhC,IAAAC,EAAA,KAKQC,EAAaC,GAAaL,CAAc,EAAIA,EAAiB,IAAIM,GAAeN,EAAgBC,EAAOC,CAAQ,EAErH,OAAAK,GAAa,UAAA,CACL,IAAAC,EAAuBL,EAArBL,EAAQU,EAAA,SAAEC,EAAMD,EAAA,OACxBJ,EAAW,IACTN,EAGIA,EAAS,KAAKM,EAAYK,CAAM,EAChCA,EAIAN,EAAK,WAAWC,CAAU,EAG1BD,EAAK,cAAcC,CAAU,CAAC,CAEtC,CAAC,EAEMA,CACT,EAGUR,EAAA,UAAA,cAAV,SAAwBc,EAAmB,CACzC,GAAI,CACF,OAAO,KAAK,WAAWA,CAAI,QACpBC,EAAK,CAIZD,EAAK,MAAMC,CAAG,EAElB,EA6DAf,EAAA,UAAA,QAAA,SAAQgB,EAA0BC,EAAoC,CAAtE,IAAAV,EAAA,KACE,OAAAU,EAAcC,GAAeD,CAAW,EAEjC,IAAIA,EAAkB,SAACE,EAASC,EAAM,CAC3C,IAAMZ,EAAa,IAAIE,GAAkB,CACvC,KAAM,SAACW,EAAK,CACV,GAAI,CACFL,EAAKK,CAAK,QACHN,EAAK,CACZK,EAAOL,CAAG,EACVP,EAAW,YAAW,EAE1B,EACA,MAAOY,EACP,SAAUD,EACX,EACDZ,EAAK,UAAUC,CAAU,CAC3B,CAAC,CACH,EAGUR,EAAA,UAAA,WAAV,SAAqBQ,EAA2B,OAC9C,OAAOI,EAAA,KAAK,UAAM,MAAAA,IAAA,OAAA,OAAAA,EAAE,UAAUJ,CAAU,CAC1C,EAOAR,EAAA,UAACG,EAAiB,EAAlB,UAAA,CACE,OAAO,IACT,EA4FAH,EAAA,UAAA,KAAA,UAAA,SAAKsB,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EACH,OAAOC,GAAcF,CAAU,EAAE,IAAI,CACvC,EA6BAtB,EAAA,UAAA,UAAA,SAAUiB,EAAoC,CAA9C,IAAAV,EAAA,KACE,OAAAU,EAAcC,GAAeD,CAAW,EAEjC,IAAIA,EAAY,SAACE,EAASC,EAAM,CACrC,IAAIC,EACJd,EAAK,UACH,SAACkB,EAAI,CAAK,OAACJ,EAAQI,CAAT,EACV,SAACV,EAAQ,CAAK,OAAAK,EAAOL,CAAG,CAAV,EACd,UAAA,CAAM,OAAAI,EAAQE,CAAK,CAAb,CAAc,CAExB,CAAC,CACH,EA1aOrB,EAAA,OAAkC,SAAIC,EAAwD,CACnG,OAAO,IAAID,EAAcC,CAAS,CACpC,EAyaFD,GA9cA,EAudA,SAAS0B,GAAeC,EAA+C,OACrE,OAAOC,EAAAD,GAAW,KAAXA,EAAeE,GAAO,WAAO,MAAAD,IAAA,OAAAA,EAAI,OAC1C,CAEA,SAASE,GAAcC,EAAU,CAC/B,OAAOA,GAASC,EAAWD,EAAM,IAAI,GAAKC,EAAWD,EAAM,KAAK,GAAKC,EAAWD,EAAM,QAAQ,CAChG,CAEA,SAASE,GAAgBF,EAAU,CACjC,OAAQA,GAASA,aAAiBG,IAAgBJ,GAAWC,CAAK,GAAKI,GAAeJ,CAAK,CAC7F,CCzeM,SAAUK,GAAQC,EAAW,CACjC,OAAOC,EAAWD,GAAM,KAAA,OAANA,EAAQ,IAAI,CAChC,CAMM,SAAUE,EACdC,EAAqF,CAErF,OAAO,SAACH,EAAqB,CAC3B,GAAID,GAAQC,CAAM,EAChB,OAAOA,EAAO,KAAK,SAA+BI,EAA2B,CAC3E,GAAI,CACF,OAAOD,EAAKC,EAAc,IAAI,QACvBC,EAAK,CACZ,KAAK,MAAMA,CAAG,EAElB,CAAC,EAEH,MAAM,IAAI,UAAU,wCAAwC,CAC9D,CACF,CCjBM,SAAUC,EACdC,EACAC,EACAC,EACAC,EACAC,EAAuB,CAEvB,OAAO,IAAIC,GAAmBL,EAAaC,EAAQC,EAAYC,EAASC,CAAU,CACpF,CAMA,IAAAC,GAAA,SAAAC,EAAA,CAA2CC,GAAAF,EAAAC,CAAA,EAiBzC,SAAAD,EACEL,EACAC,EACAC,EACAC,EACQC,EACAI,EAAiC,CAN3C,IAAAC,EAoBEH,EAAA,KAAA,KAAMN,CAAW,GAAC,KAfV,OAAAS,EAAA,WAAAL,EACAK,EAAA,kBAAAD,EAeRC,EAAK,MAAQR,EACT,SAAuCS,EAAQ,CAC7C,GAAI,CACFT,EAAOS,CAAK,QACLC,EAAK,CACZX,EAAY,MAAMW,CAAG,EAEzB,EACAL,EAAA,UAAM,MACVG,EAAK,OAASN,EACV,SAAuCQ,EAAQ,CAC7C,GAAI,CACFR,EAAQQ,CAAG,QACJA,EAAK,CAEZX,EAAY,MAAMW,CAAG,UAGrB,KAAK,YAAW,EAEpB,EACAL,EAAA,UAAM,OACVG,EAAK,UAAYP,EACb,UAAA,CACE,GAAI,CACFA,EAAU,QACHS,EAAK,CAEZX,EAAY,MAAMW,CAAG,UAGrB,KAAK,YAAW,EAEpB,EACAL,EAAA,UAAM,WACZ,CAEA,OAAAD,EAAA,UAAA,YAAA,UAAA,OACE,GAAI,CAAC,KAAK,mBAAqB,KAAK,kBAAiB,EAAI,CAC/C,IAAAO,EAAW,KAAI,OACvBN,EAAA,UAAM,YAAW,KAAA,IAAA,EAEjB,CAACM,KAAUC,EAAA,KAAK,cAAU,MAAAA,IAAA,QAAAA,EAAA,KAAf,IAAI,GAEnB,EACFR,CAAA,EAnF2CS,EAAU,ECd9C,IAAMC,GAAiD,CAG5D,SAAA,SAASC,EAAQ,CACf,IAAIC,EAAU,sBACVC,EAAkD,qBAC9CC,EAAaJ,GAAsB,SACvCI,IACFF,EAAUE,EAAS,sBACnBD,EAASC,EAAS,sBAEpB,IAAMC,EAASH,EAAQ,SAACI,EAAS,CAI/BH,EAAS,OACTF,EAASK,CAAS,CACpB,CAAC,EACD,OAAO,IAAIC,GAAa,UAAA,CAAM,OAAAJ,GAAM,KAAA,OAANA,EAASE,CAAM,CAAf,CAAgB,CAChD,EACA,sBAAqB,UAAA,SAACG,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EACZ,IAAAL,EAAaJ,GAAsB,SAC3C,QAAQI,GAAQ,KAAA,OAARA,EAAU,wBAAyB,uBAAsB,MAAA,OAAAM,EAAA,CAAA,EAAAC,EAAIH,CAAI,CAAA,CAAA,CAC3E,EACA,qBAAoB,UAAA,SAACA,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EACX,IAAAL,EAAaJ,GAAsB,SAC3C,QAAQI,GAAQ,KAAA,OAARA,EAAU,uBAAwB,sBAAqB,MAAA,OAAAM,EAAA,CAAA,EAAAC,EAAIH,CAAI,CAAA,CAAA,CACzE,EACA,SAAU,QCrBL,IAAMI,GAAuDC,GAClE,SAACC,EAAM,CACL,OAAA,UAAoC,CAClCA,EAAO,IAAI,EACX,KAAK,KAAO,0BACZ,KAAK,QAAU,qBACjB,CAJA,CAIC,ECXL,IAAAC,EAAA,SAAAC,EAAA,CAAgCC,GAAAF,EAAAC,CAAA,EAwB9B,SAAAD,GAAA,CAAA,IAAAG,EAEEF,EAAA,KAAA,IAAA,GAAO,KAzBT,OAAAE,EAAA,OAAS,GAEDA,EAAA,iBAAyC,KAGjDA,EAAA,UAA2B,CAAA,EAE3BA,EAAA,UAAY,GAEZA,EAAA,SAAW,GAEXA,EAAA,YAAmB,MAenB,CAGA,OAAAH,EAAA,UAAA,KAAA,SAAQI,EAAwB,CAC9B,IAAMC,EAAU,IAAIC,GAAiB,KAAM,IAAI,EAC/C,OAAAD,EAAQ,SAAWD,EACZC,CACT,EAGUL,EAAA,UAAA,eAAV,UAAA,CACE,GAAI,KAAK,OACP,MAAM,IAAIO,EAEd,EAEAP,EAAA,UAAA,KAAA,SAAKQ,EAAQ,CAAb,IAAAL,EAAA,KACEM,GAAa,UAAA,SAEX,GADAN,EAAK,eAAc,EACf,CAACA,EAAK,UAAW,CACdA,EAAK,mBACRA,EAAK,iBAAmB,MAAM,KAAKA,EAAK,SAAS,OAEnD,QAAuBO,EAAAC,GAAAR,EAAK,gBAAgB,EAAAS,EAAAF,EAAA,KAAA,EAAA,CAAAE,EAAA,KAAAA,EAAAF,EAAA,KAAA,EAAE,CAAzC,IAAMG,EAAQD,EAAA,MACjBC,EAAS,KAAKL,CAAK,qGAGzB,CAAC,CACH,EAEAR,EAAA,UAAA,MAAA,SAAMc,EAAQ,CAAd,IAAAX,EAAA,KACEM,GAAa,UAAA,CAEX,GADAN,EAAK,eAAc,EACf,CAACA,EAAK,UAAW,CACnBA,EAAK,SAAWA,EAAK,UAAY,GACjCA,EAAK,YAAcW,EAEnB,QADQC,EAAcZ,EAAI,UACnBY,EAAU,QACfA,EAAU,MAAK,EAAI,MAAMD,CAAG,EAGlC,CAAC,CACH,EAEAd,EAAA,UAAA,SAAA,UAAA,CAAA,IAAAG,EAAA,KACEM,GAAa,UAAA,CAEX,GADAN,EAAK,eAAc,EACf,CAACA,EAAK,UAAW,CACnBA,EAAK,UAAY,GAEjB,QADQY,EAAcZ,EAAI,UACnBY,EAAU,QACfA,EAAU,MAAK,EAAI,SAAQ,EAGjC,CAAC,CACH,EAEAf,EAAA,UAAA,YAAA,UAAA,CACE,KAAK,UAAY,KAAK,OAAS,GAC/B,KAAK,UAAY,KAAK,iBAAmB,IAC3C,EAEA,OAAA,eAAIA,EAAA,UAAA,WAAQ,KAAZ,UAAA,OACE,QAAOgB,EAAA,KAAK,aAAS,MAAAA,IAAA,OAAA,OAAAA,EAAE,QAAS,CAClC,kCAGUhB,EAAA,UAAA,cAAV,SAAwBiB,EAAyB,CAC/C,YAAK,eAAc,EACZhB,EAAA,UAAM,cAAa,KAAA,KAACgB,CAAU,CACvC,EAGUjB,EAAA,UAAA,WAAV,SAAqBiB,EAAyB,CAC5C,YAAK,eAAc,EACnB,KAAK,wBAAwBA,CAAU,EAChC,KAAK,gBAAgBA,CAAU,CACxC,EAGUjB,EAAA,UAAA,gBAAV,SAA0BiB,EAA2B,CAArD,IAAAd,EAAA,KACQa,EAAqC,KAAnCE,EAAQF,EAAA,SAAEG,EAASH,EAAA,UAAED,EAASC,EAAA,UACtC,OAAIE,GAAYC,EACPC,IAET,KAAK,iBAAmB,KACxBL,EAAU,KAAKE,CAAU,EAClB,IAAII,GAAa,UAAA,CACtBlB,EAAK,iBAAmB,KACxBmB,GAAUP,EAAWE,CAAU,CACjC,CAAC,EACH,EAGUjB,EAAA,UAAA,wBAAV,SAAkCiB,EAA2B,CACrD,IAAAD,EAAuC,KAArCE,EAAQF,EAAA,SAAEO,EAAWP,EAAA,YAAEG,EAASH,EAAA,UACpCE,EACFD,EAAW,MAAMM,CAAW,EACnBJ,GACTF,EAAW,SAAQ,CAEvB,EAQAjB,EAAA,UAAA,aAAA,UAAA,CACE,IAAMwB,EAAkB,IAAIC,EAC5B,OAAAD,EAAW,OAAS,KACbA,CACT,EAxHOxB,EAAA,OAAkC,SAAI0B,EAA0BC,EAAqB,CAC1F,OAAO,IAAIrB,GAAoBoB,EAAaC,CAAM,CACpD,EAuHF3B,GA7IgCyB,CAAU,EAkJ1C,IAAAG,GAAA,SAAAC,EAAA,CAAyCC,GAAAF,EAAAC,CAAA,EACvC,SAAAD,EAESG,EACPC,EAAsB,CAHxB,IAAAC,EAKEJ,EAAA,KAAA,IAAA,GAAO,KAHA,OAAAI,EAAA,YAAAF,EAIPE,EAAK,OAASD,GAChB,CAEA,OAAAJ,EAAA,UAAA,KAAA,SAAKM,EAAQ,UACXC,GAAAC,EAAA,KAAK,eAAW,MAAAA,IAAA,OAAA,OAAAA,EAAE,QAAI,MAAAD,IAAA,QAAAA,EAAA,KAAAC,EAAGF,CAAK,CAChC,EAEAN,EAAA,UAAA,MAAA,SAAMS,EAAQ,UACZF,GAAAC,EAAA,KAAK,eAAW,MAAAA,IAAA,OAAA,OAAAA,EAAE,SAAK,MAAAD,IAAA,QAAAA,EAAA,KAAAC,EAAGC,CAAG,CAC/B,EAEAT,EAAA,UAAA,SAAA,UAAA,UACEO,GAAAC,EAAA,KAAK,eAAW,MAAAA,IAAA,OAAA,OAAAA,EAAE,YAAQ,MAAAD,IAAA,QAAAA,EAAA,KAAAC,CAAA,CAC5B,EAGUR,EAAA,UAAA,WAAV,SAAqBU,EAAyB,SAC5C,OAAOH,GAAAC,EAAA,KAAK,UAAM,MAAAA,IAAA,OAAA,OAAAA,EAAE,UAAUE,CAAU,KAAC,MAAAH,IAAA,OAAAA,EAAII,EAC/C,EACFX,CAAA,EA1ByCY,CAAO,ECxJhD,IAAAC,GAAA,SAAAC,EAAA,CAAwCC,GAAAF,EAAAC,CAAA,EACtC,SAAAD,EAAoBG,EAAS,CAA7B,IAAAC,EACEH,EAAA,KAAA,IAAA,GAAO,KADW,OAAAG,EAAA,OAAAD,GAEpB,CAEA,cAAA,eAAIH,EAAA,UAAA,QAAK,KAAT,UAAA,CACE,OAAO,KAAK,SAAQ,CACtB,kCAGUA,EAAA,UAAA,WAAV,SAAqBK,EAAyB,CAC5C,IAAMC,EAAeL,EAAA,UAAM,WAAU,KAAA,KAACI,CAAU,EAChD,OAACC,EAAa,QAAUD,EAAW,KAAK,KAAK,MAAM,EAC5CC,CACT,EAEAN,EAAA,UAAA,SAAA,UAAA,CACQ,IAAAO,EAAoC,KAAlCC,EAAQD,EAAA,SAAEE,EAAWF,EAAA,YAAEJ,EAAMI,EAAA,OACrC,GAAIC,EACF,MAAMC,EAER,YAAK,eAAc,EACZN,CACT,EAEAH,EAAA,UAAA,KAAA,SAAKU,EAAQ,CACXT,EAAA,UAAM,KAAI,KAAA,KAAE,KAAK,OAASS,CAAM,CAClC,EACFV,CAAA,EA5BwCW,CAAO,ECJxC,IAAMC,GAA+C,CAC1D,IAAG,UAAA,CAGD,OAAQA,GAAsB,UAAY,MAAM,IAAG,CACrD,EACA,SAAU,QCwBZ,IAAAC,GAAA,SAAAC,EAAA,CAAsCC,GAAAF,EAAAC,CAAA,EAUpC,SAAAD,EACUG,EACAC,EACAC,EAA6D,CAF7DF,IAAA,SAAAA,EAAA,KACAC,IAAA,SAAAA,EAAA,KACAC,IAAA,SAAAA,EAAAC,IAHV,IAAAC,EAKEN,EAAA,KAAA,IAAA,GAAO,KAJC,OAAAM,EAAA,YAAAJ,EACAI,EAAA,YAAAH,EACAG,EAAA,mBAAAF,EAZFE,EAAA,QAA0B,CAAA,EAC1BA,EAAA,oBAAsB,GAc5BA,EAAK,oBAAsBH,IAAgB,IAC3CG,EAAK,YAAc,KAAK,IAAI,EAAGJ,CAAW,EAC1CI,EAAK,YAAc,KAAK,IAAI,EAAGH,CAAW,GAC5C,CAEA,OAAAJ,EAAA,UAAA,KAAA,SAAKQ,EAAQ,CACL,IAAAC,EAA+E,KAA7EC,EAASD,EAAA,UAAEE,EAAOF,EAAA,QAAEG,EAAmBH,EAAA,oBAAEJ,EAAkBI,EAAA,mBAAEL,EAAWK,EAAA,YAC3EC,IACHC,EAAQ,KAAKH,CAAK,EAClB,CAACI,GAAuBD,EAAQ,KAAKN,EAAmB,IAAG,EAAKD,CAAW,GAE7E,KAAK,YAAW,EAChBH,EAAA,UAAM,KAAI,KAAA,KAACO,CAAK,CAClB,EAGUR,EAAA,UAAA,WAAV,SAAqBa,EAAyB,CAC5C,KAAK,eAAc,EACnB,KAAK,YAAW,EAQhB,QANMC,EAAe,KAAK,gBAAgBD,CAAU,EAE9CJ,EAAmC,KAAjCG,EAAmBH,EAAA,oBAAEE,EAAOF,EAAA,QAG9BM,EAAOJ,EAAQ,MAAK,EACjBK,EAAI,EAAGA,EAAID,EAAK,QAAU,CAACF,EAAW,OAAQG,GAAKJ,EAAsB,EAAI,EACpFC,EAAW,KAAKE,EAAKC,CAAC,CAAM,EAG9B,YAAK,wBAAwBH,CAAU,EAEhCC,CACT,EAEQd,EAAA,UAAA,YAAR,UAAA,CACQ,IAAAS,EAAoE,KAAlEN,EAAWM,EAAA,YAAEJ,EAAkBI,EAAA,mBAAEE,EAAOF,EAAA,QAAEG,EAAmBH,EAAA,oBAK/DQ,GAAsBL,EAAsB,EAAI,GAAKT,EAK3D,GAJAA,EAAc,KAAYc,EAAqBN,EAAQ,QAAUA,EAAQ,OAAO,EAAGA,EAAQ,OAASM,CAAkB,EAIlH,CAACL,EAAqB,CAKxB,QAJMM,EAAMb,EAAmB,IAAG,EAC9Bc,EAAO,EAGFH,EAAI,EAAGA,EAAIL,EAAQ,QAAWA,EAAQK,CAAC,GAAgBE,EAAKF,GAAK,EACxEG,EAAOH,EAETG,GAAQR,EAAQ,OAAO,EAAGQ,EAAO,CAAC,EAEtC,EACFnB,CAAA,EAzEsCoB,CAAO,EClB7C,IAAAC,GAAA,SAAAC,EAAA,CAA+BC,GAAAF,EAAAC,CAAA,EAC7B,SAAAD,EAAYG,EAAsBC,EAAmD,QACnFH,EAAA,KAAA,IAAA,GAAO,IACT,CAWO,OAAAD,EAAA,UAAA,SAAP,SAAgBK,EAAWC,EAAiB,CAAjB,OAAAA,IAAA,SAAAA,EAAA,GAClB,IACT,EACFN,CAAA,EAjB+BO,EAAY,ECHpC,IAAMC,GAAqC,CAGhD,YAAA,SAAYC,EAAqBC,EAAgB,SAAEC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,EAAA,CAAA,EAAA,UAAAA,CAAA,EACzC,IAAAC,EAAaL,GAAgB,SACrC,OAAIK,GAAQ,MAARA,EAAU,YACLA,EAAS,YAAW,MAApBA,EAAQC,EAAA,CAAaL,EAASC,CAAO,EAAAK,EAAKJ,CAAI,CAAA,CAAA,EAEhD,YAAW,MAAA,OAAAG,EAAA,CAACL,EAASC,CAAO,EAAAK,EAAKJ,CAAI,CAAA,CAAA,CAC9C,EACA,cAAA,SAAcK,EAAM,CACV,IAAAH,EAAaL,GAAgB,SACrC,QAAQK,GAAQ,KAAA,OAARA,EAAU,gBAAiB,eAAeG,CAAa,CACjE,EACA,SAAU,QCrBZ,IAAAC,GAAA,SAAAC,EAAA,CAAoCC,GAAAF,EAAAC,CAAA,EAOlC,SAAAD,EAAsBG,EAAqCC,EAAmD,CAA9G,IAAAC,EACEJ,EAAA,KAAA,KAAME,EAAWC,CAAI,GAAC,KADF,OAAAC,EAAA,UAAAF,EAAqCE,EAAA,KAAAD,EAFjDC,EAAA,QAAmB,IAI7B,CAEO,OAAAL,EAAA,UAAA,SAAP,SAAgBM,EAAWC,EAAiB,OAC1C,GADyBA,IAAA,SAAAA,EAAA,GACrB,KAAK,OACP,OAAO,KAIT,KAAK,MAAQD,EAEb,IAAME,EAAK,KAAK,GACVL,EAAY,KAAK,UAuBvB,OAAIK,GAAM,OACR,KAAK,GAAK,KAAK,eAAeL,EAAWK,EAAID,CAAK,GAKpD,KAAK,QAAU,GAEf,KAAK,MAAQA,EAEb,KAAK,IAAKE,EAAA,KAAK,MAAE,MAAAA,IAAA,OAAAA,EAAI,KAAK,eAAeN,EAAW,KAAK,GAAII,CAAK,EAE3D,IACT,EAEUP,EAAA,UAAA,eAAV,SAAyBG,EAA2BO,EAAmBH,EAAiB,CAAjB,OAAAA,IAAA,SAAAA,EAAA,GAC9DI,GAAiB,YAAYR,EAAU,MAAM,KAAKA,EAAW,IAAI,EAAGI,CAAK,CAClF,EAEUP,EAAA,UAAA,eAAV,SAAyBY,EAA4BJ,EAAkBD,EAAwB,CAE7F,GAFqEA,IAAA,SAAAA,EAAA,GAEjEA,GAAS,MAAQ,KAAK,QAAUA,GAAS,KAAK,UAAY,GAC5D,OAAOC,EAILA,GAAM,MACRG,GAAiB,cAAcH,CAAE,CAIrC,EAMOR,EAAA,UAAA,QAAP,SAAeM,EAAUC,EAAa,CACpC,GAAI,KAAK,OACP,OAAO,IAAI,MAAM,8BAA8B,EAGjD,KAAK,QAAU,GACf,IAAMM,EAAQ,KAAK,SAASP,EAAOC,CAAK,EACxC,GAAIM,EACF,OAAOA,EACE,KAAK,UAAY,IAAS,KAAK,IAAM,OAc9C,KAAK,GAAK,KAAK,eAAe,KAAK,UAAW,KAAK,GAAI,IAAI,EAE/D,EAEUb,EAAA,UAAA,SAAV,SAAmBM,EAAUQ,EAAc,CACzC,IAAIC,EAAmB,GACnBC,EACJ,GAAI,CACF,KAAK,KAAKV,CAAK,QACRW,EAAG,CACVF,EAAU,GAIVC,EAAaC,GAAQ,IAAI,MAAM,oCAAoC,EAErE,GAAIF,EACF,YAAK,YAAW,EACTC,CAEX,EAEAhB,EAAA,UAAA,YAAA,UAAA,CACE,GAAI,CAAC,KAAK,OAAQ,CACV,IAAAS,EAAoB,KAAlBD,EAAEC,EAAA,GAAEN,EAASM,EAAA,UACbS,EAAYf,EAAS,QAE7B,KAAK,KAAO,KAAK,MAAQ,KAAK,UAAY,KAC1C,KAAK,QAAU,GAEfgB,GAAUD,EAAS,IAAI,EACnBV,GAAM,OACR,KAAK,GAAK,KAAK,eAAeL,EAAWK,EAAI,IAAI,GAGnD,KAAK,MAAQ,KACbP,EAAA,UAAM,YAAW,KAAA,IAAA,EAErB,EACFD,CAAA,EA9IoCoB,EAAM,ECgB1C,IAAAC,GAAA,UAAA,CAGE,SAAAA,EAAoBC,EAAoCC,EAAiC,CAAjCA,IAAA,SAAAA,EAAoBF,EAAU,KAAlE,KAAA,oBAAAC,EAClB,KAAK,IAAMC,CACb,CA6BO,OAAAF,EAAA,UAAA,SAAP,SAAmBG,EAAqDC,EAAmBC,EAAS,CAA5B,OAAAD,IAAA,SAAAA,EAAA,GAC/D,IAAI,KAAK,oBAAuB,KAAMD,CAAI,EAAE,SAASE,EAAOD,CAAK,CAC1E,EAnCcJ,EAAA,IAAoBM,GAAsB,IAoC1DN,GArCA,ECnBA,IAAAO,GAAA,SAAAC,EAAA,CAAoCC,GAAAF,EAAAC,CAAA,EAkBlC,SAAAD,EAAYG,EAAgCC,EAAiC,CAAjCA,IAAA,SAAAA,EAAoBC,GAAU,KAA1E,IAAAC,EACEL,EAAA,KAAA,KAAME,EAAiBC,CAAG,GAAC,KAlBtB,OAAAE,EAAA,QAAmC,CAAA,EAOnCA,EAAA,QAAmB,IAY1B,CAEO,OAAAN,EAAA,UAAA,MAAP,SAAaO,EAAwB,CAC3B,IAAAC,EAAY,KAAI,QAExB,GAAI,KAAK,QAAS,CAChBA,EAAQ,KAAKD,CAAM,EACnB,OAGF,IAAIE,EACJ,KAAK,QAAU,GAEf,EACE,IAAKA,EAAQF,EAAO,QAAQA,EAAO,MAAOA,EAAO,KAAK,EACpD,YAEMA,EAASC,EAAQ,MAAK,GAIhC,GAFA,KAAK,QAAU,GAEXC,EAAO,CACT,KAAQF,EAASC,EAAQ,MAAK,GAC5BD,EAAO,YAAW,EAEpB,MAAME,EAEV,EACFT,CAAA,EAhDoCK,EAAS,EC6CtC,IAAMK,GAAiB,IAAIC,GAAeC,EAAW,EAK/CC,GAAQH,GCjDrB,IAAAI,GAAA,SAAAC,EAAA,CAAoCC,GAAAF,EAAAC,CAAA,EAClC,SAAAD,EAAsBG,EAAqCC,EAAmD,CAA9G,IAAAC,EACEJ,EAAA,KAAA,KAAME,EAAWC,CAAI,GAAC,KADF,OAAAC,EAAA,UAAAF,EAAqCE,EAAA,KAAAD,GAE3D,CAEO,OAAAJ,EAAA,UAAA,SAAP,SAAgBM,EAAWC,EAAiB,CAC1C,OADyBA,IAAA,SAAAA,EAAA,GACrBA,EAAQ,EACHN,EAAA,UAAM,SAAQ,KAAA,KAACK,EAAOC,CAAK,GAEpC,KAAK,MAAQA,EACb,KAAK,MAAQD,EACb,KAAK,UAAU,MAAM,IAAI,EAClB,KACT,EAEON,EAAA,UAAA,QAAP,SAAeM,EAAUC,EAAa,CACpC,OAAOA,EAAQ,GAAK,KAAK,OAASN,EAAA,UAAM,QAAO,KAAA,KAACK,EAAOC,CAAK,EAAI,KAAK,SAASD,EAAOC,CAAK,CAC5F,EAEUP,EAAA,UAAA,eAAV,SAAyBG,EAA2BK,EAAkBD,EAAiB,CAKrF,OALoEA,IAAA,SAAAA,EAAA,GAK/DA,GAAS,MAAQA,EAAQ,GAAOA,GAAS,MAAQ,KAAK,MAAQ,EAC1DN,EAAA,UAAM,eAAc,KAAA,KAACE,EAAWK,EAAID,CAAK,GAIlDJ,EAAU,MAAM,IAAI,EAMb,EACT,EACFH,CAAA,EArCoCS,EAAW,ECJ/C,IAAAC,GAAA,SAAAC,EAAA,CAAoCC,GAAAF,EAAAC,CAAA,EAApC,SAAAD,GAAA,+CACA,CAAA,OAAAA,CAAA,EADoCG,EAAc,ECgE3C,IAAMC,GAAiB,IAAIC,GAAeC,EAAW,EC5D5D,IAAAC,GAAA,SAAAC,EAAA,CAA6CC,GAAAF,EAAAC,CAAA,EAC3C,SAAAD,EAAsBG,EAA8CC,EAAmD,CAAvH,IAAAC,EACEJ,EAAA,KAAA,KAAME,EAAWC,CAAI,GAAC,KADF,OAAAC,EAAA,UAAAF,EAA8CE,EAAA,KAAAD,GAEpE,CAEU,OAAAJ,EAAA,UAAA,eAAV,SAAyBG,EAAoCG,EAAkBC,EAAiB,CAE9F,OAF6EA,IAAA,SAAAA,EAAA,GAEzEA,IAAU,MAAQA,EAAQ,EACrBN,EAAA,UAAM,eAAc,KAAA,KAACE,EAAWG,EAAIC,CAAK,GAGlDJ,EAAU,QAAQ,KAAK,IAAI,EAIpBA,EAAU,aAAeA,EAAU,WAAaK,GAAuB,sBAAsB,UAAA,CAAM,OAAAL,EAAU,MAAM,MAAS,CAAzB,CAA0B,GACtI,EAEUH,EAAA,UAAA,eAAV,SAAyBG,EAAoCG,EAAkBC,EAAiB,OAI9F,GAJ6EA,IAAA,SAAAA,EAAA,GAIzEA,GAAS,KAAOA,EAAQ,EAAI,KAAK,MAAQ,EAC3C,OAAON,EAAA,UAAM,eAAc,KAAA,KAACE,EAAWG,EAAIC,CAAK,EAK1C,IAAAE,EAAYN,EAAS,QACzBG,GAAM,QAAQI,EAAAD,EAAQA,EAAQ,OAAS,CAAC,KAAC,MAAAC,IAAA,OAAA,OAAAA,EAAE,MAAOJ,IACpDE,GAAuB,qBAAqBF,CAAY,EACxDH,EAAU,WAAa,OAI3B,EACFH,CAAA,EApC6CW,EAAW,ECHxD,IAAAC,GAAA,SAAAC,EAAA,CAA6CC,GAAAF,EAAAC,CAAA,EAA7C,SAAAD,GAAA,+CAkCA,CAjCS,OAAAA,EAAA,UAAA,MAAP,SAAaG,EAAyB,CACpC,KAAK,QAAU,GAUf,IAAMC,EAAU,KAAK,WACrB,KAAK,WAAa,OAEV,IAAAC,EAAY,KAAI,QACpBC,EACJH,EAASA,GAAUE,EAAQ,MAAK,EAEhC,EACE,IAAKC,EAAQH,EAAO,QAAQA,EAAO,MAAOA,EAAO,KAAK,EACpD,aAEMA,EAASE,EAAQ,CAAC,IAAMF,EAAO,KAAOC,GAAWC,EAAQ,MAAK,GAIxE,GAFA,KAAK,QAAU,GAEXC,EAAO,CACT,MAAQH,EAASE,EAAQ,CAAC,IAAMF,EAAO,KAAOC,GAAWC,EAAQ,MAAK,GACpEF,EAAO,YAAW,EAEpB,MAAMG,EAEV,EACFN,CAAA,EAlC6CO,EAAc,ECgCpD,IAAMC,GAA0B,IAAIC,GAAwBC,EAAoB,EC8BhF,IAAMC,EAAQ,IAAIC,EAAkB,SAACC,EAAU,CAAK,OAAAA,EAAW,SAAQ,CAAnB,CAAqB,EC9D1E,SAAUC,GAAYC,EAAU,CACpC,OAAOA,GAASC,EAAWD,EAAM,QAAQ,CAC3C,CCDA,SAASE,GAAQC,EAAQ,CACvB,OAAOA,EAAIA,EAAI,OAAS,CAAC,CAC3B,CAEM,SAAUC,GAAkBC,EAAW,CAC3C,OAAOC,EAAWJ,GAAKG,CAAI,CAAC,EAAIA,EAAK,IAAG,EAAK,MAC/C,CAEM,SAAUE,GAAaF,EAAW,CACtC,OAAOG,GAAYN,GAAKG,CAAI,CAAC,EAAIA,EAAK,IAAG,EAAK,MAChD,CAEM,SAAUI,GAAUJ,EAAaK,EAAoB,CACzD,OAAO,OAAOR,GAAKG,CAAI,GAAM,SAAWA,EAAK,IAAG,EAAMK,CACxD,CClBO,IAAMC,GAAe,SAAIC,EAAM,CAAwB,OAAAA,GAAK,OAAOA,EAAE,QAAW,UAAY,OAAOA,GAAM,UAAlD,ECMxD,SAAUC,GAAUC,EAAU,CAClC,OAAOC,EAAWD,GAAK,KAAA,OAALA,EAAO,IAAI,CAC/B,CCHM,SAAUE,GAAoBC,EAAU,CAC5C,OAAOC,EAAWD,EAAME,EAAiB,CAAC,CAC5C,CCLM,SAAUC,GAAmBC,EAAQ,CACzC,OAAO,OAAO,eAAiBC,EAAWD,GAAG,KAAA,OAAHA,EAAM,OAAO,aAAa,CAAC,CACvE,CCAM,SAAUE,GAAiCC,EAAU,CAEzD,OAAO,IAAI,UACT,iBACEA,IAAU,MAAQ,OAAOA,GAAU,SAAW,oBAAsB,IAAIA,EAAK,KAAG,0HACwC,CAE9H,CCXM,SAAUC,IAAiB,CAC/B,OAAI,OAAO,QAAW,YAAc,CAAC,OAAO,SACnC,aAGF,OAAO,QAChB,CAEO,IAAMC,GAAWD,GAAiB,ECJnC,SAAUE,GAAWC,EAAU,CACnC,OAAOC,EAAWD,GAAK,KAAA,OAALA,EAAQE,EAAe,CAAC,CAC5C,CCHM,SAAiBC,GAAsCC,EAAqC,mGAC1FC,EAASD,EAAe,UAAS,2DAGX,MAAA,CAAA,EAAAE,GAAMD,EAAO,KAAI,CAAE,CAAA,gBAArCE,EAAkBC,EAAA,KAAA,EAAhBC,EAAKF,EAAA,MAAEG,EAAIH,EAAA,KACfG,iBAAA,CAAA,EAAA,CAAA,SACF,MAAA,CAAA,EAAAF,EAAA,KAAA,CAAA,qBAEIC,CAAM,CAAA,SAAZ,MAAA,CAAA,EAAAD,EAAA,KAAA,CAAA,SAAA,OAAAA,EAAA,KAAA,mCAGF,OAAAH,EAAO,YAAW,6BAIhB,SAAUM,GAAwBC,EAAQ,CAG9C,OAAOC,EAAWD,GAAG,KAAA,OAAHA,EAAK,SAAS,CAClC,CCPM,SAAUE,EAAaC,EAAyB,CACpD,GAAIA,aAAiBC,EACnB,OAAOD,EAET,GAAIA,GAAS,KAAM,CACjB,GAAIE,GAAoBF,CAAK,EAC3B,OAAOG,GAAsBH,CAAK,EAEpC,GAAII,GAAYJ,CAAK,EACnB,OAAOK,GAAcL,CAAK,EAE5B,GAAIM,GAAUN,CAAK,EACjB,OAAOO,GAAYP,CAAK,EAE1B,GAAIQ,GAAgBR,CAAK,EACvB,OAAOS,GAAkBT,CAAK,EAEhC,GAAIU,GAAWV,CAAK,EAClB,OAAOW,GAAaX,CAAK,EAE3B,GAAIY,GAAqBZ,CAAK,EAC5B,OAAOa,GAAuBb,CAAK,EAIvC,MAAMc,GAAiCd,CAAK,CAC9C,CAMM,SAAUG,GAAyBY,EAAQ,CAC/C,OAAO,IAAId,EAAW,SAACe,EAAyB,CAC9C,IAAMC,EAAMF,EAAIG,EAAiB,EAAC,EAClC,GAAIC,EAAWF,EAAI,SAAS,EAC1B,OAAOA,EAAI,UAAUD,CAAU,EAGjC,MAAM,IAAI,UAAU,gEAAgE,CACtF,CAAC,CACH,CASM,SAAUX,GAAiBe,EAAmB,CAClD,OAAO,IAAInB,EAAW,SAACe,EAAyB,CAU9C,QAASK,EAAI,EAAGA,EAAID,EAAM,QAAU,CAACJ,EAAW,OAAQK,IACtDL,EAAW,KAAKI,EAAMC,CAAC,CAAC,EAE1BL,EAAW,SAAQ,CACrB,CAAC,CACH,CAEM,SAAUT,GAAee,EAAuB,CACpD,OAAO,IAAIrB,EAAW,SAACe,EAAyB,CAC9CM,EACG,KACC,SAACC,EAAK,CACCP,EAAW,SACdA,EAAW,KAAKO,CAAK,EACrBP,EAAW,SAAQ,EAEvB,EACA,SAACQ,EAAQ,CAAK,OAAAR,EAAW,MAAMQ,CAAG,CAApB,CAAqB,EAEpC,KAAK,KAAMC,EAAoB,CACpC,CAAC,CACH,CAEM,SAAUd,GAAgBe,EAAqB,CACnD,OAAO,IAAIzB,EAAW,SAACe,EAAyB,aAC9C,QAAoBW,EAAAC,GAAAF,CAAQ,EAAAG,EAAAF,EAAA,KAAA,EAAA,CAAAE,EAAA,KAAAA,EAAAF,EAAA,KAAA,EAAE,CAAzB,IAAMJ,EAAKM,EAAA,MAEd,GADAb,EAAW,KAAKO,CAAK,EACjBP,EAAW,OACb,yGAGJA,EAAW,SAAQ,CACrB,CAAC,CACH,CAEM,SAAUP,GAAqBqB,EAA+B,CAClE,OAAO,IAAI7B,EAAW,SAACe,EAAyB,CAC9Ce,GAAQD,EAAed,CAAU,EAAE,MAAM,SAACQ,EAAG,CAAK,OAAAR,EAAW,MAAMQ,CAAG,CAApB,CAAqB,CACzE,CAAC,CACH,CAEM,SAAUX,GAA0BmB,EAAqC,CAC7E,OAAOvB,GAAkBwB,GAAmCD,CAAc,CAAC,CAC7E,CAEA,SAAeD,GAAWD,EAAiCd,EAAyB,uIACxDkB,EAAAC,GAAAL,CAAa,gFAIrC,GAJeP,EAAKa,EAAA,MACpBpB,EAAW,KAAKO,CAAK,EAGjBP,EAAW,OACb,MAAA,CAAA,CAAA,6RAGJ,OAAAA,EAAW,SAAQ,WChHf,SAAUqB,GACdC,EACAC,EACAC,EACAC,EACAC,EAAc,CADdD,IAAA,SAAAA,EAAA,GACAC,IAAA,SAAAA,EAAA,IAEA,IAAMC,EAAuBJ,EAAU,SAAS,UAAA,CAC9CC,EAAI,EACAE,EACFJ,EAAmB,IAAI,KAAK,SAAS,KAAMG,CAAK,CAAC,EAEjD,KAAK,YAAW,CAEpB,EAAGA,CAAK,EAIR,GAFAH,EAAmB,IAAIK,CAAoB,EAEvC,CAACD,EAKH,OAAOC,CAEX,CCeM,SAAUC,GAAaC,EAA0BC,EAAS,CAAT,OAAAA,IAAA,SAAAA,EAAA,GAC9CC,EAAQ,SAACC,EAAQC,EAAU,CAChCD,EAAO,UACLE,EACED,EACA,SAACE,EAAK,CAAK,OAAAC,GAAgBH,EAAYJ,EAAW,UAAA,CAAM,OAAAI,EAAW,KAAKE,CAAK,CAArB,EAAwBL,CAAK,CAA1E,EACX,UAAA,CAAM,OAAAM,GAAgBH,EAAYJ,EAAW,UAAA,CAAM,OAAAI,EAAW,SAAQ,CAAnB,EAAuBH,CAAK,CAAzE,EACN,SAACO,EAAG,CAAK,OAAAD,GAAgBH,EAAYJ,EAAW,UAAA,CAAM,OAAAI,EAAW,MAAMI,CAAG,CAApB,EAAuBP,CAAK,CAAzE,CAA0E,CACpF,CAEL,CAAC,CACH,CCPM,SAAUQ,GAAeC,EAA0BC,EAAiB,CAAjB,OAAAA,IAAA,SAAAA,EAAA,GAChDC,EAAQ,SAACC,EAAQC,EAAU,CAChCA,EAAW,IAAIJ,EAAU,SAAS,UAAA,CAAM,OAAAG,EAAO,UAAUC,CAAU,CAA3B,EAA8BH,CAAK,CAAC,CAC9E,CAAC,CACH,CC7DM,SAAUI,GAAsBC,EAA6BC,EAAwB,CACzF,OAAOC,EAAUF,CAAK,EAAE,KAAKG,GAAYF,CAAS,EAAGG,GAAUH,CAAS,CAAC,CAC3E,CCFM,SAAUI,GAAmBC,EAAuBC,EAAwB,CAChF,OAAOC,EAAUF,CAAK,EAAE,KAAKG,GAAYF,CAAS,EAAGG,GAAUH,CAAS,CAAC,CAC3E,CCJM,SAAUI,GAAiBC,EAAqBC,EAAwB,CAC5E,OAAO,IAAIC,EAAc,SAACC,EAAU,CAElC,IAAIC,EAAI,EAER,OAAOH,EAAU,SAAS,UAAA,CACpBG,IAAMJ,EAAM,OAGdG,EAAW,SAAQ,GAInBA,EAAW,KAAKH,EAAMI,GAAG,CAAC,EAIrBD,EAAW,QACd,KAAK,SAAQ,EAGnB,CAAC,CACH,CAAC,CACH,CCfM,SAAUE,GAAoBC,EAAoBC,EAAwB,CAC9E,OAAO,IAAIC,EAAc,SAACC,EAAU,CAClC,IAAIC,EAKJ,OAAAC,GAAgBF,EAAYF,EAAW,UAAA,CAErCG,EAAYJ,EAAcI,EAAe,EAAC,EAE1CC,GACEF,EACAF,EACA,UAAA,OACMK,EACAC,EACJ,GAAI,CAEDC,EAAkBJ,EAAS,KAAI,EAA7BE,EAAKE,EAAA,MAAED,EAAIC,EAAA,WACPC,EAAK,CAEZN,EAAW,MAAMM,CAAG,EACpB,OAGEF,EAKFJ,EAAW,SAAQ,EAGnBA,EAAW,KAAKG,CAAK,CAEzB,EACA,EACA,EAAI,CAER,CAAC,EAMM,UAAA,CAAM,OAAAI,EAAWN,GAAQ,KAAA,OAARA,EAAU,MAAM,GAAKA,EAAS,OAAM,CAA/C,CACf,CAAC,CACH,CCvDM,SAAUO,GAAyBC,EAAyBC,EAAwB,CACxF,GAAI,CAACD,EACH,MAAM,IAAI,MAAM,yBAAyB,EAE3C,OAAO,IAAIE,EAAc,SAACC,EAAU,CAClCC,GAAgBD,EAAYF,EAAW,UAAA,CACrC,IAAMI,EAAWL,EAAM,OAAO,aAAa,EAAC,EAC5CI,GACED,EACAF,EACA,UAAA,CACEI,EAAS,KAAI,EAAG,KAAK,SAACC,EAAM,CACtBA,EAAO,KAGTH,EAAW,SAAQ,EAEnBA,EAAW,KAAKG,EAAO,KAAK,CAEhC,CAAC,CACH,EACA,EACA,EAAI,CAER,CAAC,CACH,CAAC,CACH,CCzBM,SAAUC,GAA8BC,EAA8BC,EAAwB,CAClG,OAAOC,GAAsBC,GAAmCH,CAAK,EAAGC,CAAS,CACnF,CCoBM,SAAUG,GAAaC,EAA2BC,EAAwB,CAC9E,GAAID,GAAS,KAAM,CACjB,GAAIE,GAAoBF,CAAK,EAC3B,OAAOG,GAAmBH,EAAOC,CAAS,EAE5C,GAAIG,GAAYJ,CAAK,EACnB,OAAOK,GAAcL,EAAOC,CAAS,EAEvC,GAAIK,GAAUN,CAAK,EACjB,OAAOO,GAAgBP,EAAOC,CAAS,EAEzC,GAAIO,GAAgBR,CAAK,EACvB,OAAOS,GAAsBT,EAAOC,CAAS,EAE/C,GAAIS,GAAWV,CAAK,EAClB,OAAOW,GAAiBX,EAAOC,CAAS,EAE1C,GAAIW,GAAqBZ,CAAK,EAC5B,OAAOa,GAA2Bb,EAAOC,CAAS,EAGtD,MAAMa,GAAiCd,CAAK,CAC9C,CCoDM,SAAUe,GAAQC,EAA2BC,EAAyB,CAC1E,OAAOA,EAAYC,GAAUF,EAAOC,CAAS,EAAIE,EAAUH,CAAK,CAClE,CCxBM,SAAUI,GAAE,SAAIC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EACpB,IAAMC,EAAYC,GAAaH,CAAI,EACnC,OAAOI,GAAKJ,EAAaE,CAAS,CACpC,CCsCM,SAAUG,GAAWC,EAA0BC,EAAyB,CAC5E,IAAMC,EAAeC,EAAWH,CAAmB,EAAIA,EAAsB,UAAA,CAAM,OAAAA,CAAA,EAC7EI,EAAO,SAACC,EAA6B,CAAK,OAAAA,EAAW,MAAMH,EAAY,CAAE,CAA/B,EAChD,OAAO,IAAII,EAAWL,EAAY,SAACI,EAAU,CAAK,OAAAJ,EAAU,SAASG,EAAa,EAAGC,CAAU,CAA7C,EAAiDD,CAAI,CACzG,CCpGO,IAAMG,GAA6BC,GAAiB,SAACC,EAAM,CAAK,OAAA,UAAuB,CAC5FA,EAAO,IAAI,EACX,KAAK,KAAO,aACZ,KAAK,QAAU,yBACjB,CAJuE,CAItE,ECrBK,SAAUC,GAAYC,EAAU,CACpC,OAAOA,aAAiB,MAAQ,CAAC,MAAMA,CAAY,CACrD,CCsCM,SAAUC,EAAUC,EAAyCC,EAAa,CAC9E,OAAOC,EAAQ,SAACC,EAAQC,EAAU,CAEhC,IAAIC,EAAQ,EAGZF,EAAO,UACLG,EAAyBF,EAAY,SAACG,EAAQ,CAG5CH,EAAW,KAAKJ,EAAQ,KAAKC,EAASM,EAAOF,GAAO,CAAC,CACvD,CAAC,CAAC,CAEN,CAAC,CACH,CC1DQ,IAAAG,GAAY,MAAK,QAEzB,SAASC,GAAkBC,EAA6BC,EAAW,CAC/D,OAAOH,GAAQG,CAAI,EAAID,EAAE,MAAA,OAAAE,EAAA,CAAA,EAAAC,EAAIF,CAAI,CAAA,CAAA,EAAID,EAAGC,CAAI,CAChD,CAMM,SAAUG,GAAuBJ,EAA2B,CAC9D,OAAOK,EAAI,SAAAJ,EAAI,CAAI,OAAAF,GAAYC,EAAIC,CAAI,CAApB,CAAqB,CAC5C,CCfQ,IAAAK,GAAY,MAAK,QACjBC,GAA0D,OAAM,eAArCC,GAA+B,OAAM,UAAlBC,GAAY,OAAM,KAQlE,SAAUC,GAAqDC,EAAuB,CAC1F,GAAIA,EAAK,SAAW,EAAG,CACrB,IAAMC,EAAQD,EAAK,CAAC,EACpB,GAAIL,GAAQM,CAAK,EACf,MAAO,CAAE,KAAMA,EAAO,KAAM,IAAI,EAElC,GAAIC,GAAOD,CAAK,EAAG,CACjB,IAAME,EAAOL,GAAQG,CAAK,EAC1B,MAAO,CACL,KAAME,EAAK,IAAI,SAACC,EAAG,CAAK,OAAAH,EAAMG,CAAG,CAAT,CAAU,EAClC,KAAID,IAKV,MAAO,CAAE,KAAMH,EAAa,KAAM,IAAI,CACxC,CAEA,SAASE,GAAOG,EAAQ,CACtB,OAAOA,GAAO,OAAOA,GAAQ,UAAYT,GAAeS,CAAG,IAAMR,EACnE,CC7BM,SAAUS,GAAaC,EAAgBC,EAAa,CACxD,OAAOD,EAAK,OAAO,SAACE,EAAQC,EAAKC,EAAC,CAAK,OAAEF,EAAOC,CAAG,EAAIF,EAAOG,CAAC,EAAIF,CAA5B,EAAqC,CAAA,CAAS,CACvF,CCsMM,SAAUG,GAAa,SAAoCC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EAC/D,IAAMC,EAAYC,GAAaH,CAAI,EAC7BI,EAAiBC,GAAkBL,CAAI,EAEvCM,EAA8BC,GAAqBP,CAAI,EAA/CQ,EAAWF,EAAA,KAAEG,EAAIH,EAAA,KAE/B,GAAIE,EAAY,SAAW,EAIzB,OAAOE,GAAK,CAAA,EAAIR,CAAgB,EAGlC,IAAMS,EAAS,IAAIC,EACjBC,GACEL,EACAN,EACAO,EAEI,SAACK,EAAM,CAAK,OAAAC,GAAaN,EAAMK,CAAM,CAAzB,EAEZE,EAAQ,CACb,EAGH,OAAOZ,EAAkBO,EAAO,KAAKM,GAAiBb,CAAc,CAAC,EAAsBO,CAC7F,CAEM,SAAUE,GACdL,EACAN,EACAgB,EAAiD,CAAjD,OAAAA,IAAA,SAAAA,EAAAF,IAEO,SAACG,EAA2B,CAGjCC,GACElB,EACA,UAAA,CAaE,QAZQmB,EAAWb,EAAW,OAExBM,EAAS,IAAI,MAAMO,CAAM,EAG3BC,EAASD,EAITE,EAAuBF,aAGlBG,EAAC,CACRJ,GACElB,EACA,UAAA,CACE,IAAMuB,EAASf,GAAKF,EAAYgB,CAAC,EAAGtB,CAAgB,EAChDwB,EAAgB,GACpBD,EAAO,UACLE,EACER,EACA,SAACS,EAAK,CAEJd,EAAOU,CAAC,EAAII,EACPF,IAEHA,EAAgB,GAChBH,KAEGA,GAGHJ,EAAW,KAAKD,EAAeJ,EAAO,MAAK,CAAE,CAAC,CAElD,EACA,UAAA,CACO,EAAEQ,GAGLH,EAAW,SAAQ,CAEvB,CAAC,CACF,CAEL,EACAA,CAAU,GAjCLK,EAAI,EAAGA,EAAIH,EAAQG,MAAnBA,CAAC,CAoCZ,EACAL,CAAU,CAEd,CACF,CAMA,SAASC,GAAclB,EAAsC2B,EAAqBC,EAA0B,CACtG5B,EACF6B,GAAgBD,EAAc5B,EAAW2B,CAAO,EAEhDA,EAAO,CAEX,CC3RM,SAAUG,GACdC,EACAC,EACAC,EACAC,EACAC,EACAC,EACAC,EACAC,EAAgC,CAGhC,IAAMC,EAAc,CAAA,EAEhBC,EAAS,EAETC,EAAQ,EAERC,EAAa,GAKXC,EAAgB,UAAA,CAIhBD,GAAc,CAACH,EAAO,QAAU,CAACC,GACnCR,EAAW,SAAQ,CAEvB,EAGMY,EAAY,SAACC,EAAQ,CAAK,OAACL,EAASN,EAAaY,EAAWD,CAAK,EAAIN,EAAO,KAAKM,CAAK,CAA5D,EAE1BC,EAAa,SAACD,EAAQ,CAI1BT,GAAUJ,EAAW,KAAKa,CAAY,EAItCL,IAKA,IAAIO,GAAgB,GAGpBC,EAAUf,EAAQY,EAAOJ,GAAO,CAAC,EAAE,UACjCQ,EACEjB,EACA,SAACkB,GAAU,CAGTf,GAAY,MAAZA,EAAee,EAAU,EAErBd,EAGFQ,EAAUM,EAAiB,EAG3BlB,EAAW,KAAKkB,EAAU,CAE9B,EACA,UAAA,CAGEH,GAAgB,EAClB,EAEA,OACA,UAAA,CAIE,GAAIA,GAKF,GAAI,CAIFP,IAKA,sBACE,IAAMW,EAAgBZ,EAAO,MAAK,EAI9BF,EACFe,GAAgBpB,EAAYK,EAAmB,UAAA,CAAM,OAAAS,EAAWK,CAAa,CAAxB,CAAyB,EAE9EL,EAAWK,CAAa,GARrBZ,EAAO,QAAUC,EAASN,QAYjCS,EAAa,QACNU,EAAK,CACZrB,EAAW,MAAMqB,CAAG,EAG1B,CAAC,CACF,CAEL,EAGA,OAAAtB,EAAO,UACLkB,EAAyBjB,EAAYY,EAAW,UAAA,CAE9CF,EAAa,GACbC,EAAa,CACf,CAAC,CAAC,EAKG,UAAA,CACLL,GAAmB,MAAnBA,EAAmB,CACrB,CACF,CClEM,SAAUgB,GACdC,EACAC,EACAC,EAA6B,CAE7B,OAFAA,IAAA,SAAAA,EAAA,KAEIC,EAAWF,CAAc,EAEpBF,GAAS,SAACK,EAAGC,EAAC,CAAK,OAAAC,EAAI,SAACC,EAAQC,EAAU,CAAK,OAAAP,EAAeG,EAAGG,EAAGF,EAAGG,CAAE,CAA1B,CAA2B,EAAEC,EAAUT,EAAQI,EAAGC,CAAC,CAAC,CAAC,CAAjF,EAAoFH,CAAU,GAC/G,OAAOD,GAAmB,WACnCC,EAAaD,GAGRS,EAAQ,SAACC,EAAQC,EAAU,CAAK,OAAAC,GAAeF,EAAQC,EAAYZ,EAASE,CAAU,CAAtD,CAAuD,EAChG,CChCM,SAAUY,GAAyCC,EAA6B,CAA7B,OAAAA,IAAA,SAAAA,EAAA,KAChDC,GAASC,GAAUF,CAAU,CACtC,CCNM,SAAUG,IAAS,CACvB,OAAOC,GAAS,CAAC,CACnB,CCmDM,SAAUC,IAAM,SAACC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EACrB,OAAOC,GAAS,EAAGC,GAAKH,EAAMI,GAAaJ,CAAI,CAAC,CAAC,CACnD,CC9DM,SAAUK,EAAsCC,EAA0B,CAC9E,OAAO,IAAIC,EAA+B,SAACC,EAAU,CACnDC,EAAUH,EAAiB,CAAE,EAAE,UAAUE,CAAU,CACrD,CAAC,CACH,CChDA,IAAME,GAA0B,CAAC,cAAe,gBAAgB,EAC1DC,GAAqB,CAAC,mBAAoB,qBAAqB,EAC/DC,GAAgB,CAAC,KAAM,KAAK,EAkO5B,SAAUC,EACdC,EACAC,EACAC,EACAC,EAAsC,CAMtC,GAJIC,EAAWF,CAAO,IACpBC,EAAiBD,EACjBA,EAAU,QAERC,EACF,OAAOJ,EAAaC,EAAQC,EAAWC,CAA+B,EAAE,KAAKG,GAAiBF,CAAc,CAAC,EAUzG,IAAAG,EAAAC,EAEJC,GAAcR,CAAM,EAChBH,GAAmB,IAAI,SAACY,EAAU,CAAK,OAAA,SAACC,EAAY,CAAK,OAAAV,EAAOS,CAAU,EAAER,EAAWS,EAASR,CAA+B,CAAtE,CAAlB,CAAyF,EAElIS,GAAwBX,CAAM,EAC5BJ,GAAwB,IAAIgB,GAAwBZ,EAAQC,CAAS,CAAC,EACtEY,GAA0Bb,CAAM,EAChCF,GAAc,IAAIc,GAAwBZ,EAAQC,CAAS,CAAC,EAC5D,CAAA,EAAE,CAAA,EATDa,EAAGR,EAAA,CAAA,EAAES,EAAMT,EAAA,CAAA,EAgBlB,GAAI,CAACQ,GACCE,GAAYhB,CAAM,EACpB,OAAOiB,GAAS,SAACC,EAAc,CAAK,OAAAnB,EAAUmB,EAAWjB,EAAWC,CAA+B,CAA/D,CAAgE,EAClGiB,EAAUnB,CAAM,CAAC,EAOvB,GAAI,CAACc,EACH,MAAM,IAAI,UAAU,sBAAsB,EAG5C,OAAO,IAAIM,EAAc,SAACC,EAAU,CAIlC,IAAMX,EAAU,UAAA,SAACY,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EAAmB,OAAAF,EAAW,KAAK,EAAIC,EAAK,OAASA,EAAOA,EAAK,CAAC,CAAC,CAAhD,EAEpC,OAAAR,EAAIJ,CAAO,EAEJ,UAAA,CAAM,OAAAK,EAAQL,CAAO,CAAf,CACf,CAAC,CACH,CASA,SAASE,GAAwBZ,EAAaC,EAAiB,CAC7D,OAAO,SAACQ,EAAkB,CAAK,OAAA,SAACC,EAAY,CAAK,OAAAV,EAAOS,CAAU,EAAER,EAAWS,CAAO,CAArC,CAAlB,CACjC,CAOA,SAASC,GAAwBX,EAAW,CAC1C,OAAOI,EAAWJ,EAAO,WAAW,GAAKI,EAAWJ,EAAO,cAAc,CAC3E,CAOA,SAASa,GAA0Bb,EAAW,CAC5C,OAAOI,EAAWJ,EAAO,EAAE,GAAKI,EAAWJ,EAAO,GAAG,CACvD,CAOA,SAASQ,GAAcR,EAAW,CAChC,OAAOI,EAAWJ,EAAO,gBAAgB,GAAKI,EAAWJ,EAAO,mBAAmB,CACrF,CCnMM,SAAUwB,GACdC,EACAC,EACAC,EAAsC,CAEtC,OAAIA,EACKH,GAAoBC,EAAYC,CAAa,EAAE,KAAKE,GAAiBD,CAAc,CAAC,EAGtF,IAAIE,EAAoB,SAACC,EAAU,CACxC,IAAMC,EAAU,UAAA,SAACC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EAAc,OAAAH,EAAW,KAAKE,EAAE,SAAW,EAAIA,EAAE,CAAC,EAAIA,CAAC,CAAzC,EACzBE,EAAWT,EAAWM,CAAO,EACnC,OAAOI,EAAWT,CAAa,EAAI,UAAA,CAAM,OAAAA,EAAcK,EAASG,CAAQ,CAA/B,EAAmC,MAC9E,CAAC,CACH,CCtBM,SAAUE,GACdC,EACAC,EACAC,EAAyC,CAFzCF,IAAA,SAAAA,EAAA,GAEAE,IAAA,SAAAA,EAAAC,IAIA,IAAIC,EAAmB,GAEvB,OAAIH,GAAuB,OAIrBI,GAAYJ,CAAmB,EACjCC,EAAYD,EAIZG,EAAmBH,GAIhB,IAAIK,EAAW,SAACC,EAAU,CAI/B,IAAIC,EAAMC,GAAYT,CAAO,EAAI,CAACA,EAAUE,EAAW,IAAG,EAAKF,EAE3DQ,EAAM,IAERA,EAAM,GAIR,IAAIE,EAAI,EAGR,OAAOR,EAAU,SAAS,UAAA,CACnBK,EAAW,SAEdA,EAAW,KAAKG,GAAG,EAEf,GAAKN,EAGP,KAAK,SAAS,OAAWA,CAAgB,EAGzCG,EAAW,SAAQ,EAGzB,EAAGC,CAAG,CACR,CAAC,CACH,CChGM,SAAUG,GAAK,SAACC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EACpB,IAAMC,EAAYC,GAAaH,CAAI,EAC7BI,EAAaC,GAAUL,EAAM,GAAQ,EACrCM,EAAUN,EAChB,OAAQM,EAAQ,OAGZA,EAAQ,SAAW,EAEnBC,EAAUD,EAAQ,CAAC,CAAC,EAEpBE,GAASJ,CAAU,EAAEK,GAAKH,EAASJ,CAAS,CAAC,EAL7CQ,CAMN,CCjEO,IAAMC,GAAQ,IAAIC,EAAkBC,EAAI,ECpCvC,IAAAC,GAAY,MAAK,QAMnB,SAAUC,GAAkBC,EAAiB,CACjD,OAAOA,EAAK,SAAW,GAAKF,GAAQE,EAAK,CAAC,CAAC,EAAIA,EAAK,CAAC,EAAKA,CAC5D,CCoDM,SAAUC,EAAUC,EAAiDC,EAAa,CACtF,OAAOC,EAAQ,SAACC,EAAQC,EAAU,CAEhC,IAAIC,EAAQ,EAIZF,EAAO,UAILG,EAAyBF,EAAY,SAACG,EAAK,CAAK,OAAAP,EAAU,KAAKC,EAASM,EAAOF,GAAO,GAAKD,EAAW,KAAKG,CAAK,CAAhE,CAAiE,CAAC,CAEtH,CAAC,CACH,CCxBM,SAAUC,IAAG,SAACC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EAClB,IAAMC,EAAiBC,GAAkBH,CAAI,EAEvCI,EAAUC,GAAeL,CAAI,EAEnC,OAAOI,EAAQ,OACX,IAAIE,EAAsB,SAACC,EAAU,CAGnC,IAAIC,EAAuBJ,EAAQ,IAAI,UAAA,CAAM,MAAA,CAAA,CAAA,CAAE,EAK3CK,EAAYL,EAAQ,IAAI,UAAA,CAAM,MAAA,EAAA,CAAK,EAGvCG,EAAW,IAAI,UAAA,CACbC,EAAUC,EAAY,IACxB,CAAC,EAKD,mBAASC,EAAW,CAClBC,EAAUP,EAAQM,CAAW,CAAC,EAAE,UAC9BE,EACEL,EACA,SAACM,EAAK,CAKJ,GAJAL,EAAQE,CAAW,EAAE,KAAKG,CAAK,EAI3BL,EAAQ,MAAM,SAACM,EAAM,CAAK,OAAAA,EAAO,MAAP,CAAa,EAAG,CAC5C,IAAMC,EAAcP,EAAQ,IAAI,SAACM,EAAM,CAAK,OAAAA,EAAO,MAAK,CAAZ,CAAe,EAE3DP,EAAW,KAAKL,EAAiBA,EAAc,MAAA,OAAAc,EAAA,CAAA,EAAAC,EAAIF,CAAM,CAAA,CAAA,EAAIA,CAAM,EAI/DP,EAAQ,KAAK,SAACM,EAAQI,EAAC,CAAK,MAAA,CAACJ,EAAO,QAAUL,EAAUS,CAAC,CAA7B,CAA8B,GAC5DX,EAAW,SAAQ,EAGzB,EACA,UAAA,CAGEE,EAAUC,CAAW,EAAI,GAIzB,CAACF,EAAQE,CAAW,EAAE,QAAUH,EAAW,SAAQ,CACrD,CAAC,CACF,GA9BIG,EAAc,EAAG,CAACH,EAAW,QAAUG,EAAcN,EAAQ,OAAQM,MAArEA,CAAW,EAmCpB,OAAO,UAAA,CACLF,EAAUC,EAAY,IACxB,CACF,CAAC,EACDU,CACN,CC9DM,SAAUC,GAASC,EAAoD,CAC3E,OAAOC,EAAQ,SAACC,EAAQC,EAAU,CAChC,IAAIC,EAAW,GACXC,EAAsB,KACtBC,EAA6C,KAC7CC,EAAa,GAEXC,EAAc,UAAA,CAGlB,GAFAF,GAAkB,MAAlBA,EAAoB,YAAW,EAC/BA,EAAqB,KACjBF,EAAU,CACZA,EAAW,GACX,IAAMK,EAAQJ,EACdA,EAAY,KACZF,EAAW,KAAKM,CAAK,EAEvBF,GAAcJ,EAAW,SAAQ,CACnC,EAEMO,EAAkB,UAAA,CACtBJ,EAAqB,KACrBC,GAAcJ,EAAW,SAAQ,CACnC,EAEAD,EAAO,UACLS,EACER,EACA,SAACM,EAAK,CACJL,EAAW,GACXC,EAAYI,EACPH,GACHM,EAAUZ,EAAiBS,CAAK,CAAC,EAAE,UAChCH,EAAqBK,EAAyBR,EAAYK,EAAaE,CAAe,CAAE,CAG/F,EACA,UAAA,CACEH,EAAa,IACZ,CAACH,GAAY,CAACE,GAAsBA,EAAmB,SAAWH,EAAW,SAAQ,CACxF,CAAC,CACF,CAEL,CAAC,CACH,CC3CM,SAAUU,GAAaC,EAAkBC,EAAyC,CAAzC,OAAAA,IAAA,SAAAA,EAAAC,IACtCC,GAAM,UAAA,CAAM,OAAAC,GAAMJ,EAAUC,CAAS,CAAzB,CAA0B,CAC/C,CCEM,SAAUI,GAAeC,EAAoBC,EAAsC,CAAtC,OAAAA,IAAA,SAAAA,EAAA,MAGjDA,EAAmBA,GAAgB,KAAhBA,EAAoBD,EAEhCE,EAAQ,SAACC,EAAQC,EAAU,CAChC,IAAIC,EAAiB,CAAA,EACjBC,EAAQ,EAEZH,EAAO,UACLI,EACEH,EACA,SAACI,EAAK,aACAC,EAAuB,KAKvBH,IAAUL,IAAsB,GAClCI,EAAQ,KAAK,CAAA,CAAE,MAIjB,QAAqBK,EAAAC,GAAAN,CAAO,EAAAO,EAAAF,EAAA,KAAA,EAAA,CAAAE,EAAA,KAAAA,EAAAF,EAAA,KAAA,EAAE,CAAzB,IAAMG,EAAMD,EAAA,MACfC,EAAO,KAAKL,CAAK,EAMbR,GAAca,EAAO,SACvBJ,EAASA,GAAM,KAANA,EAAU,CAAA,EACnBA,EAAO,KAAKI,CAAM,uGAItB,GAAIJ,MAIF,QAAqBK,EAAAH,GAAAF,CAAM,EAAAM,GAAAD,EAAA,KAAA,EAAA,CAAAC,GAAA,KAAAA,GAAAD,EAAA,KAAA,EAAE,CAAxB,IAAMD,EAAME,GAAA,MACfC,GAAUX,EAASQ,CAAM,EACzBT,EAAW,KAAKS,CAAM,wGAG5B,EACA,UAAA,aAGE,QAAqBI,EAAAN,GAAAN,CAAO,EAAAa,EAAAD,EAAA,KAAA,EAAA,CAAAC,EAAA,KAAAA,EAAAD,EAAA,KAAA,EAAE,CAAzB,IAAMJ,EAAMK,EAAA,MACfd,EAAW,KAAKS,CAAM,oGAExBT,EAAW,SAAQ,CACrB,EAEA,OACA,UAAA,CAEEC,EAAU,IACZ,CAAC,CACF,CAEL,CAAC,CACH,CCbM,SAAUc,GACdC,EAAgD,CAEhD,OAAOC,EAAQ,SAACC,EAAQC,EAAU,CAChC,IAAIC,EAAgC,KAChCC,EAAY,GACZC,EAEJF,EAAWF,EAAO,UAChBK,EAAyBJ,EAAY,OAAW,OAAW,SAACK,EAAG,CAC7DF,EAAgBG,EAAUT,EAASQ,EAAKT,GAAWC,CAAQ,EAAEE,CAAM,CAAC,CAAC,EACjEE,GACFA,EAAS,YAAW,EACpBA,EAAW,KACXE,EAAc,UAAUH,CAAU,GAIlCE,EAAY,EAEhB,CAAC,CAAC,EAGAA,IAMFD,EAAS,YAAW,EACpBA,EAAW,KACXE,EAAe,UAAUH,CAAU,EAEvC,CAAC,CACH,CC/HM,SAAUO,GACdC,EACAC,EACAC,EACAC,EACAC,EAAqC,CAErC,OAAO,SAACC,EAAuBC,EAA2B,CAIxD,IAAIC,EAAWL,EAIXM,EAAaP,EAEbQ,EAAQ,EAGZJ,EAAO,UACLK,EACEJ,EACA,SAACK,EAAK,CAEJ,IAAMC,EAAIH,IAEVD,EAAQD,EAEJP,EAAYQ,EAAOG,EAAOC,CAAC,GAIzBL,EAAW,GAAOI,GAGxBR,GAAcG,EAAW,KAAKE,CAAK,CACrC,EAGAJ,GACG,UAAA,CACCG,GAAYD,EAAW,KAAKE,CAAK,EACjCF,EAAW,SAAQ,CACrB,CAAE,CACL,CAEL,CACF,CCnCM,SAAUO,IAAa,SAAOC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EAClC,IAAMC,EAAiBC,GAAkBH,CAAI,EAC7C,OAAOE,EACHE,GAAKL,GAAa,MAAA,OAAAM,EAAA,CAAA,EAAAC,EAAKN,CAAoC,CAAA,CAAA,EAAGO,GAAiBL,CAAc,CAAC,EAC9FM,EAAQ,SAACC,EAAQC,EAAU,CACzBC,GAAiBN,EAAA,CAAEI,CAAM,EAAAH,EAAKM,GAAeZ,CAAI,CAAC,CAAA,CAAA,EAAGU,CAAU,CACjE,CAAC,CACP,CCUM,SAAUG,IAAiB,SAC/BC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EAEA,OAAOC,GAAa,MAAA,OAAAC,EAAA,CAAA,EAAAC,EAAIJ,CAAY,CAAA,CAAA,CACtC,CCkBM,SAAUK,GAAYC,EAAoD,CAC9E,OAAOC,EAAQ,SAACC,EAAQC,EAAU,CAChC,IAAIC,EAAW,GACXC,EAAsB,KAEtBC,EAA6C,KAE3CC,EAAO,UAAA,CAMX,GAFAD,GAAkB,MAAlBA,EAAoB,YAAW,EAC/BA,EAAqB,KACjBF,EAAU,CAEZA,EAAW,GACX,IAAMI,EAAQH,EACdA,EAAY,KACZF,EAAW,KAAKK,CAAK,EAEzB,EAEAN,EAAO,UACLO,EACEN,EACA,SAACK,EAAQ,CAIPF,GAAkB,MAAlBA,EAAoB,YAAW,EAC/BF,EAAW,GACXC,EAAYG,EAGZF,EAAqBG,EAAyBN,EAAYI,EAAMG,EAAI,EAEpEC,EAAUX,EAAiBQ,CAAK,CAAC,EAAE,UAAUF,CAAkB,CACjE,EACA,UAAA,CAGEC,EAAI,EACJJ,EAAW,SAAQ,CACrB,EAEA,OACA,UAAA,CAEEE,EAAYC,EAAqB,IACnC,CAAC,CACF,CAEL,CAAC,CACH,CCvDM,SAAUM,GAAgBC,EAAiBC,EAAyC,CAAzC,OAAAA,IAAA,SAAAA,EAAAC,IACxCC,EAAQ,SAACC,EAAQC,EAAU,CAChC,IAAIC,EAAkC,KAClCC,EAAsB,KACtBC,EAA0B,KAExBC,EAAO,UAAA,CACX,GAAIH,EAAY,CAEdA,EAAW,YAAW,EACtBA,EAAa,KACb,IAAMI,EAAQH,EACdA,EAAY,KACZF,EAAW,KAAKK,CAAK,EAEzB,EACA,SAASC,GAAY,CAInB,IAAMC,EAAaJ,EAAYR,EACzBa,EAAMZ,EAAU,IAAG,EACzB,GAAIY,EAAMD,EAAY,CAEpBN,EAAa,KAAK,SAAS,OAAWM,EAAaC,CAAG,EACtDR,EAAW,IAAIC,CAAU,EACzB,OAGFG,EAAI,CACN,CAEAL,EAAO,UACLU,EACET,EACA,SAACK,EAAQ,CACPH,EAAYG,EACZF,EAAWP,EAAU,IAAG,EAGnBK,IACHA,EAAaL,EAAU,SAASU,EAAcX,CAAO,EACrDK,EAAW,IAAIC,CAAU,EAE7B,EACA,UAAA,CAGEG,EAAI,EACJJ,EAAW,SAAQ,CACrB,EAEA,OACA,UAAA,CAEEE,EAAYD,EAAa,IAC3B,CAAC,CACF,CAEL,CAAC,CACH,CCpFM,SAAUS,GAAqBC,EAAe,CAClD,OAAOC,EAAQ,SAACC,EAAQC,EAAU,CAChC,IAAIC,EAAW,GACfF,EAAO,UACLG,EACEF,EACA,SAACG,EAAK,CACJF,EAAW,GACXD,EAAW,KAAKG,CAAK,CACvB,EACA,UAAA,CACOF,GACHD,EAAW,KAAKH,CAAa,EAE/BG,EAAW,SAAQ,CACrB,CAAC,CACF,CAEL,CAAC,CACH,CCXM,SAAUI,GAAQC,EAAa,CACnC,OAAOA,GAAS,EAEZ,UAAA,CAAM,OAAAC,CAAA,EACNC,EAAQ,SAACC,EAAQC,EAAU,CACzB,IAAIC,EAAO,EACXF,EAAO,UACLG,EAAyBF,EAAY,SAACG,EAAK,CAIrC,EAAEF,GAAQL,IACZI,EAAW,KAAKG,CAAK,EAIjBP,GAASK,GACXD,EAAW,SAAQ,EAGzB,CAAC,CAAC,CAEN,CAAC,CACP,CC9BM,SAAUI,GAAc,CAC5B,OAAOC,EAAQ,SAACC,EAAQC,EAAU,CAChCD,EAAO,UAAUE,EAAyBD,EAAYE,EAAI,CAAC,CAC7D,CAAC,CACH,CCCM,SAAUC,GAASC,EAAQ,CAC/B,OAAOC,EAAI,UAAA,CAAM,OAAAD,CAAA,CAAK,CACxB,CC4CM,SAAUE,GACdC,EACAC,EAAmC,CAEnC,OAAIA,EAEK,SAACC,EAAqB,CAC3B,OAAAC,GAAOF,EAAkB,KAAKG,GAAK,CAAC,EAAGC,EAAc,CAAE,EAAGH,EAAO,KAAKH,GAAUC,CAAqB,CAAC,CAAC,CAAvG,EAGGM,GAAS,SAACC,EAAOC,EAAK,CAAK,OAAAC,EAAUT,EAAsBO,EAAOC,CAAK,CAAC,EAAE,KAAKJ,GAAK,CAAC,EAAGM,GAAMH,CAAK,CAAC,CAAzE,CAA0E,CAC9G,CCzCM,SAAUI,GAASC,EAAoBC,EAAyC,CAAzCA,IAAA,SAAAA,EAAAC,IAC3C,IAAMC,EAAWC,GAAMJ,EAAKC,CAAS,EACrC,OAAOI,GAAU,UAAA,CAAM,OAAAF,CAAA,CAAQ,CACjC,CC0EM,SAAUG,EACdC,EACAC,EAA0D,CAA1D,OAAAA,IAAA,SAAAA,EAA+BC,IAK/BF,EAAaA,GAAU,KAAVA,EAAcG,GAEpBC,EAAQ,SAACC,EAAQC,EAAU,CAGhC,IAAIC,EAEAC,EAAQ,GAEZH,EAAO,UACLI,EAAyBH,EAAY,SAACI,EAAK,CAEzC,IAAMC,EAAaV,EAAYS,CAAK,GAKhCF,GAAS,CAACR,EAAYO,EAAaI,CAAU,KAM/CH,EAAQ,GACRD,EAAcI,EAGdL,EAAW,KAAKI,CAAK,EAEzB,CAAC,CAAC,CAEN,CAAC,CACH,CAEA,SAASP,GAAeS,EAAQC,EAAM,CACpC,OAAOD,IAAMC,CACf,CCjHM,SAAUC,EAA8CC,EAAQC,EAAuC,CAC3G,OAAOC,EAAqB,SAACC,EAAMC,EAAI,CAAK,OAAAH,EAAUA,EAAQE,EAAEH,CAAG,EAAGI,EAAEJ,CAAG,CAAC,EAAIG,EAAEH,CAAG,IAAMI,EAAEJ,CAAG,CAApD,CAAqD,CACnG,CC7BM,SAAUK,GAAgBC,EAA6C,CAA7C,OAAAA,IAAA,SAAAA,EAAAC,IACvBC,EAAQ,SAACC,EAAQC,EAAU,CAChC,IAAIC,EAAW,GACfF,EAAO,UACLG,EACEF,EACA,SAACG,EAAK,CACJF,EAAW,GACXD,EAAW,KAAKG,CAAK,CACvB,EACA,UAAA,CAAM,OAACF,EAAWD,EAAW,SAAQ,EAAKA,EAAW,MAAMJ,EAAY,CAAE,CAAnE,CAAqE,CAC5E,CAEL,CAAC,CACH,CAEA,SAASC,IAAmB,CAC1B,OAAO,IAAIO,EACb,CCMM,SAAUC,IAAO,SAAIC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EACzB,OAAO,SAACC,EAAqB,CAAK,OAAAC,GAAOD,EAAQE,EAAE,MAAA,OAAAC,EAAA,CAAA,EAAAC,EAAIN,CAAM,CAAA,CAAA,CAAA,CAA3B,CACpC,CCHM,SAAUO,EAAYC,EAAoB,CAC9C,OAAOC,EAAQ,SAACC,EAAQC,EAAU,CAGhC,GAAI,CACFD,EAAO,UAAUC,CAAU,UAE3BA,EAAW,IAAIH,CAAQ,EAE3B,CAAC,CACH,CCMM,SAAUI,GACdC,EACAC,EAAgB,CAEhB,IAAMC,EAAkB,UAAU,QAAU,EAC5C,OAAO,SAACC,EAAqB,CAC3B,OAAAA,EAAO,KACLH,EAAYI,EAAO,SAACC,EAAG,EAAC,CAAK,OAAAL,EAAUK,EAAG,EAAGF,CAAM,CAAtB,CAAuB,EAAIG,GACxDC,GAAK,CAAC,EACNL,EAAkBM,GAAeP,CAAa,EAAIQ,GAAa,UAAA,CAAM,OAAA,IAAIC,EAAJ,CAAgB,CAAC,CAHxF,CAKJ,CC/CM,SAAUC,GAAYC,EAAa,CACvC,OAAOA,GAAS,EACZ,UAAA,CAAM,OAAAC,CAAA,EACNC,EAAQ,SAACC,EAAQC,EAAU,CAKzB,IAAIC,EAAc,CAAA,EAClBF,EAAO,UACLG,EACEF,EACA,SAACG,EAAK,CAEJF,EAAO,KAAKE,CAAK,EAGjBP,EAAQK,EAAO,QAAUA,EAAO,MAAK,CACvC,EACA,UAAA,aAGE,QAAoBG,EAAAC,GAAAJ,CAAM,EAAAK,EAAAF,EAAA,KAAA,EAAA,CAAAE,EAAA,KAAAA,EAAAF,EAAA,KAAA,EAAE,CAAvB,IAAMD,EAAKG,EAAA,MACdN,EAAW,KAAKG,CAAK,oGAEvBH,EAAW,SAAQ,CACrB,EAEA,OACA,UAAA,CAEEC,EAAS,IACX,CAAC,CACF,CAEL,CAAC,CACP,CC1DM,SAAUM,IAAK,SAAIC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EACvB,IAAMC,EAAYC,GAAaH,CAAI,EAC7BI,EAAaC,GAAUL,EAAM,GAAQ,EAC3C,OAAAA,EAAOM,GAAeN,CAAI,EAEnBO,EAAQ,SAACC,EAAQC,EAAU,CAChCC,GAASN,CAAU,EAAEO,GAAIC,EAAA,CAAEJ,CAAM,EAAAK,EAAMb,CAA6B,CAAA,EAAGE,CAAS,CAAC,EAAE,UAAUO,CAAU,CACzG,CAAC,CACH,CCcM,SAAUK,IAAS,SACvBC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EAEA,OAAOC,GAAK,MAAA,OAAAC,EAAA,CAAA,EAAAC,EAAIJ,CAAY,CAAA,CAAA,CAC9B,CCmEM,SAAUK,GAAUC,EAAqC,OACzDC,EAAQ,IACRC,EAEJ,OAAIF,GAAiB,OACf,OAAOA,GAAkB,UACxBG,EAA4BH,EAAa,MAAzCC,EAAKE,IAAA,OAAG,IAAQA,EAAED,EAAUF,EAAa,OAE5CC,EAAQD,GAILC,GAAS,EACZ,UAAA,CAAM,OAAAG,CAAA,EACNC,EAAQ,SAACC,EAAQC,EAAU,CACzB,IAAIC,EAAQ,EACRC,EAEEC,EAAc,UAAA,CAGlB,GAFAD,GAAS,MAATA,EAAW,YAAW,EACtBA,EAAY,KACRP,GAAS,KAAM,CACjB,IAAMS,EAAW,OAAOT,GAAU,SAAWU,GAAMV,CAAK,EAAIW,EAAUX,EAAMM,CAAK,CAAC,EAC5EM,EAAqBC,EAAyBR,EAAY,UAAA,CAC9DO,EAAmB,YAAW,EAC9BE,EAAiB,CACnB,CAAC,EACDL,EAAS,UAAUG,CAAkB,OAErCE,EAAiB,CAErB,EAEMA,EAAoB,UAAA,CACxB,IAAIC,EAAY,GAChBR,EAAYH,EAAO,UACjBS,EAAyBR,EAAY,OAAW,UAAA,CAC1C,EAAEC,EAAQP,EACRQ,EACFC,EAAW,EAEXO,EAAY,GAGdV,EAAW,SAAQ,CAEvB,CAAC,CAAC,EAGAU,GACFP,EAAW,CAEf,EAEAM,EAAiB,CACnB,CAAC,CACP,CCpFM,SAAUE,GAAcC,EAA6DC,EAAQ,CAMjG,OAAOC,EAAQC,GAAcH,EAAaC,EAAW,UAAU,QAAU,EAAG,EAAI,CAAC,CACnF,CC+CM,SAAUG,GAASC,EAA4B,CAA5BA,IAAA,SAAAA,EAAA,CAAA,GACf,IAAAC,EAAgHD,EAAO,UAAvHE,EAASD,IAAA,OAAG,UAAA,CAAM,OAAA,IAAIE,CAAJ,EAAgBF,EAAEG,EAA4EJ,EAAO,aAAnFK,EAAYD,IAAA,OAAG,GAAIA,EAAEE,EAAuDN,EAAO,gBAA9DO,EAAeD,IAAA,OAAG,GAAIA,EAAEE,EAA+BR,EAAO,oBAAtCS,EAAmBD,IAAA,OAAG,GAAIA,EAUnH,OAAO,SAACE,EAAa,CACnB,IAAIC,EACAC,EACAC,EACAC,EAAW,EACXC,EAAe,GACfC,EAAa,GAEXC,GAAc,UAAA,CAClBL,GAAe,MAAfA,EAAiB,YAAW,EAC5BA,EAAkB,MACpB,EAGMM,GAAQ,UAAA,CACZD,GAAW,EACXN,EAAaE,EAAU,OACvBE,EAAeC,EAAa,EAC9B,EACMG,EAAsB,UAAA,CAG1B,IAAMC,EAAOT,EACbO,GAAK,EACLE,GAAI,MAAJA,EAAM,YAAW,CACnB,EAEA,OAAOC,EAAc,SAACC,EAAQC,GAAU,CACtCT,IACI,CAACE,GAAc,CAACD,GAClBE,GAAW,EAOb,IAAMO,GAAQX,EAAUA,GAAO,KAAPA,EAAWX,EAAS,EAO5CqB,GAAW,IAAI,UAAA,CACbT,IAKIA,IAAa,GAAK,CAACE,GAAc,CAACD,IACpCH,EAAkBa,GAAYN,EAAqBV,CAAmB,EAE1E,CAAC,EAIDe,GAAK,UAAUD,EAAU,EAGvB,CAACZ,GAIDG,EAAW,IAOXH,EAAa,IAAIe,GAAe,CAC9B,KAAM,SAACC,GAAK,CAAK,OAAAH,GAAK,KAAKG,EAAK,CAAf,EACjB,MAAO,SAACC,GAAG,CACTZ,EAAa,GACbC,GAAW,EACXL,EAAkBa,GAAYP,GAAOb,EAAcuB,EAAG,EACtDJ,GAAK,MAAMI,EAAG,CAChB,EACA,SAAU,UAAA,CACRb,EAAe,GACfE,GAAW,EACXL,EAAkBa,GAAYP,GAAOX,CAAe,EACpDiB,GAAK,SAAQ,CACf,EACD,EACDK,EAAUP,CAAM,EAAE,UAAUX,CAAU,EAE1C,CAAC,EAAED,CAAa,CAClB,CACF,CAEA,SAASe,GACPP,EACAY,EAAoD,SACpDC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,EAAA,CAAA,EAAA,UAAAA,CAAA,EAEA,GAAIF,IAAO,GAAM,CACfZ,EAAK,EACL,OAGF,GAAIY,IAAO,GAIX,KAAMG,EAAe,IAAIP,GAAe,CACtC,KAAM,UAAA,CACJO,EAAa,YAAW,EACxBf,EAAK,CACP,EACD,EAED,OAAOW,EAAUC,EAAE,MAAA,OAAAI,EAAA,CAAA,EAAAC,EAAIJ,CAAI,CAAA,CAAA,CAAA,EAAG,UAAUE,CAAY,EACtD,CChHM,SAAUG,EACdC,EACAC,EACAC,EAAyB,WAErBC,EACAC,EAAW,GACf,OAAIJ,GAAsB,OAAOA,GAAuB,UACnDK,EAA8EL,EAAkB,WAAhGG,EAAUE,IAAA,OAAG,IAAQA,EAAEC,EAAuDN,EAAkB,WAAzEC,EAAUK,IAAA,OAAG,IAAQA,EAAEC,EAAgCP,EAAkB,SAAlDI,EAAQG,IAAA,OAAG,GAAKA,EAAEL,EAAcF,EAAkB,WAEnGG,EAAcH,GAAkB,KAAlBA,EAAsB,IAE/BQ,GAAS,CACd,UAAW,UAAA,CAAM,OAAA,IAAIC,GAAcN,EAAYF,EAAYC,CAAS,CAAnD,EACjB,aAAc,GACd,gBAAiB,GACjB,oBAAqBE,EACtB,CACH,CCxIM,SAAUM,GAAQC,EAAa,CACnC,OAAOC,EAAO,SAACC,EAAGC,EAAK,CAAK,OAAAH,GAASG,CAAT,CAAc,CAC5C,CCaM,SAAUC,GAAaC,EAA8B,CACzD,OAAOC,EAAQ,SAACC,EAAQC,EAAU,CAChC,IAAIC,EAAS,GAEPC,EAAiBC,EACrBH,EACA,UAAA,CACEE,GAAc,MAAdA,EAAgB,YAAW,EAC3BD,EAAS,EACX,EACAG,EAAI,EAGNC,EAAUR,CAAQ,EAAE,UAAUK,CAAc,EAE5CH,EAAO,UAAUI,EAAyBH,EAAY,SAACM,EAAK,CAAK,OAAAL,GAAUD,EAAW,KAAKM,CAAK,CAA/B,CAAgC,CAAC,CACpG,CAAC,CACH,CCVM,SAAUC,GAAS,SAAOC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EAC9B,IAAMC,EAAYC,GAAaH,CAAM,EACrC,OAAOI,EAAQ,SAACC,EAAQC,EAAU,EAI/BJ,EAAYK,GAAOP,EAAQK,EAAQH,CAAS,EAAIK,GAAOP,EAAQK,CAAM,GAAG,UAAUC,CAAU,CAC/F,CAAC,CACH,CCmBM,SAAUE,EACdC,EACAC,EAA6G,CAE7G,OAAOC,EAAQ,SAACC,EAAQC,EAAU,CAChC,IAAIC,EAAyD,KACzDC,EAAQ,EAERC,EAAa,GAIXC,EAAgB,UAAA,CAAM,OAAAD,GAAc,CAACF,GAAmBD,EAAW,SAAQ,CAArD,EAE5BD,EAAO,UACLM,EACEL,EACA,SAACM,EAAK,CAEJL,GAAe,MAAfA,EAAiB,YAAW,EAC5B,IAAIM,EAAa,EACXC,EAAaN,IAEnBO,EAAUb,EAAQU,EAAOE,CAAU,CAAC,EAAE,UACnCP,EAAkBI,EACjBL,EAIA,SAACU,EAAU,CAAK,OAAAV,EAAW,KAAKH,EAAiBA,EAAeS,EAAOI,EAAYF,EAAYD,GAAY,EAAIG,CAAU,CAAzG,EAChB,UAAA,CAIET,EAAkB,KAClBG,EAAa,CACf,CAAC,CACD,CAEN,EACA,UAAA,CACED,EAAa,GACbC,EAAa,CACf,CAAC,CACF,CAEL,CAAC,CACH,CCvFM,SAAUO,EAAaC,EAA8B,CACzD,OAAOC,EAAQ,SAACC,EAAQC,EAAU,CAChCC,EAAUJ,CAAQ,EAAE,UAAUK,EAAyBF,EAAY,UAAA,CAAM,OAAAA,EAAW,SAAQ,CAAnB,EAAuBG,EAAI,CAAC,EACrG,CAACH,EAAW,QAAUD,EAAO,UAAUC,CAAU,CACnD,CAAC,CACH,CCIM,SAAUI,GAAaC,EAAiDC,EAAiB,CAAjB,OAAAA,IAAA,SAAAA,EAAA,IACrEC,EAAQ,SAACC,EAAQC,EAAU,CAChC,IAAIC,EAAQ,EACZF,EAAO,UACLG,EAAyBF,EAAY,SAACG,EAAK,CACzC,IAAMC,EAASR,EAAUO,EAAOF,GAAO,GACtCG,GAAUP,IAAcG,EAAW,KAAKG,CAAK,EAC9C,CAACC,GAAUJ,EAAW,SAAQ,CAChC,CAAC,CAAC,CAEN,CAAC,CACH,CCqGM,SAAUK,EACdC,EACAC,EACAC,EAA8B,CAK9B,IAAMC,EACJC,EAAWJ,CAAc,GAAKC,GAASC,EAElC,CAAE,KAAMF,EAA2E,MAAKC,EAAE,SAAQC,CAAA,EACnGF,EAEN,OAAOG,EACHE,EAAQ,SAACC,EAAQC,EAAU,QACzBC,EAAAL,EAAY,aAAS,MAAAK,IAAA,QAAAA,EAAA,KAArBL,CAAW,EACX,IAAIM,EAAU,GACdH,EAAO,UACLI,EACEH,EACA,SAACI,EAAK,QACJH,EAAAL,EAAY,QAAI,MAAAK,IAAA,QAAAA,EAAA,KAAhBL,EAAmBQ,CAAK,EACxBJ,EAAW,KAAKI,CAAK,CACvB,EACA,UAAA,OACEF,EAAU,IACVD,EAAAL,EAAY,YAAQ,MAAAK,IAAA,QAAAA,EAAA,KAApBL,CAAW,EACXI,EAAW,SAAQ,CACrB,EACA,SAACK,EAAG,OACFH,EAAU,IACVD,EAAAL,EAAY,SAAK,MAAAK,IAAA,QAAAA,EAAA,KAAjBL,EAAoBS,CAAG,EACvBL,EAAW,MAAMK,CAAG,CACtB,EACA,UAAA,SACMH,KACFD,EAAAL,EAAY,eAAW,MAAAK,IAAA,QAAAA,EAAA,KAAvBL,CAAW,IAEbU,EAAAV,EAAY,YAAQ,MAAAU,IAAA,QAAAA,EAAA,KAApBV,CAAW,CACb,CAAC,CACF,CAEL,CAAC,EAIDW,EACN,CCnIM,SAAUC,GAAYC,EAAsDC,EAAuB,CACvG,OAAOC,EAAQ,SAACC,EAAQC,EAAU,CAC1B,IAAAC,EAAuCJ,GAAM,KAANA,EAAU,CAAA,EAA/CK,EAAAD,EAAA,QAAAE,EAAOD,IAAA,OAAG,GAAIA,EAAEE,EAAAH,EAAA,SAAAI,EAAQD,IAAA,OAAG,GAAKA,EACpCE,EAAW,GACXC,EAAsB,KACtBC,EAAiC,KACjCC,EAAa,GAEXC,EAAgB,UAAA,CACpBF,GAAS,MAATA,EAAW,YAAW,EACtBA,EAAY,KACRH,IACFM,GAAI,EACJF,GAAcT,EAAW,SAAQ,EAErC,EAEMY,EAAoB,UAAA,CACxBJ,EAAY,KACZC,GAAcT,EAAW,SAAQ,CACnC,EAEMa,EAAgB,SAACC,GAAQ,CAC7B,OAACN,EAAYO,EAAUnB,EAAiBkB,EAAK,CAAC,EAAE,UAAUE,EAAyBhB,EAAYU,EAAeE,CAAiB,CAAC,CAAhI,EAEID,GAAO,UAAA,CACX,GAAIL,EAAU,CAIZA,EAAW,GACX,IAAMQ,GAAQP,EACdA,EAAY,KAEZP,EAAW,KAAKc,EAAK,EACrB,CAACL,GAAcI,EAAcC,EAAK,EAEtC,EAEAf,EAAO,UACLiB,EACEhB,EAMA,SAACc,GAAK,CACJR,EAAW,GACXC,EAAYO,GACZ,EAAEN,GAAa,CAACA,EAAU,UAAYL,EAAUQ,GAAI,EAAKE,EAAcC,EAAK,EAC9E,EACA,UAAA,CACEL,EAAa,GACb,EAAEJ,GAAYC,GAAYE,GAAa,CAACA,EAAU,SAAWR,EAAW,SAAQ,CAClF,CAAC,CACF,CAEL,CAAC,CACH,CCxFM,SAAUiB,GACdC,EACAC,EACAC,EAAuB,CADvBD,IAAA,SAAAA,EAAAE,IAGA,IAAMC,EAAYC,GAAML,EAAUC,CAAS,EAC3C,OAAOK,GAAS,UAAA,CAAM,OAAAF,CAAA,EAAWF,CAAM,CACzC,CCJM,SAAUK,IAAc,SAAOC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EACnC,IAAMC,EAAUC,GAAkBH,CAAM,EAExC,OAAOI,EAAQ,SAACC,EAAQC,EAAU,CAehC,QAdMC,EAAMP,EAAO,OACbQ,EAAc,IAAI,MAAMD,CAAG,EAI7BE,EAAWT,EAAO,IAAI,UAAA,CAAM,MAAA,EAAA,CAAK,EAGjCU,EAAQ,cAMHC,EAAC,CACRC,EAAUZ,EAAOW,CAAC,CAAC,EAAE,UACnBE,EACEP,EACA,SAACQ,EAAK,CACJN,EAAYG,CAAC,EAAIG,EACb,CAACJ,GAAS,CAACD,EAASE,CAAC,IAEvBF,EAASE,CAAC,EAAI,IAKbD,EAAQD,EAAS,MAAMM,EAAQ,KAAON,EAAW,MAEtD,EAGAO,EAAI,CACL,GAnBIL,EAAI,EAAGA,EAAIJ,EAAKI,MAAhBA,CAAC,EAwBVN,EAAO,UACLQ,EAAyBP,EAAY,SAACQ,EAAK,CACzC,GAAIJ,EAAO,CAET,IAAMO,EAAMC,EAAA,CAAIJ,CAAK,EAAAK,EAAKX,CAAW,CAAA,EACrCF,EAAW,KAAKJ,EAAUA,EAAO,MAAA,OAAAgB,EAAA,CAAA,EAAAC,EAAIF,CAAM,CAAA,CAAA,EAAIA,CAAM,EAEzD,CAAC,CAAC,CAEN,CAAC,CACH,CCxFM,SAAUG,IAAG,SAAOC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EACxB,OAAOC,EAAQ,SAACC,EAAQC,EAAU,CAChCL,GAAS,MAAA,OAAAM,EAAA,CAACF,CAA8B,EAAAG,EAAMN,CAAuC,CAAA,CAAA,EAAE,UAAUI,CAAU,CAC7G,CAAC,CACH,CCCM,SAAUG,IAAO,SAAkCC,EAAA,CAAA,EAAAC,EAAA,EAAAA,EAAA,UAAA,OAAAA,IAAAD,EAAAC,CAAA,EAAA,UAAAA,CAAA,EACvD,OAAOC,GAAG,MAAA,OAAAC,EAAA,CAAA,EAAAC,EAAIJ,CAAW,CAAA,CAAA,CAC3B,CCYO,SAASK,IAAmC,CACjD,IAAMC,EAAY,IAAIC,GAAwB,CAAC,EAC/C,OAAAC,EAAU,SAAU,mBAAoB,CAAE,KAAM,EAAK,CAAC,EACnD,UAAU,IAAMF,EAAU,KAAK,QAAQ,CAAC,EAGpCA,CACT,CCHO,SAASG,EACdC,EAAkBC,EAAmB,SAChC,CACL,OAAO,MAAM,KAAKA,EAAK,iBAAoBD,CAAQ,CAAC,CACtD,CAuBO,SAASE,EACdF,EAAkBC,EAAmB,SAClC,CACH,IAAME,EAAKC,GAAsBJ,EAAUC,CAAI,EAC/C,GAAI,OAAOE,GAAO,YAChB,MAAM,IAAI,eACR,8BAA8BH,CAAQ,iBACxC,EAGF,OAAOG,CACT,CAsBO,SAASC,GACdJ,EAAkBC,EAAmB,SACtB,CACf,OAAOA,EAAK,cAAiBD,CAAQ,GAAK,MAC5C,CAOO,SAASK,IAA4C,CAnH5D,IAAAC,EAAAC,EAAAC,EAAAC,EAoHE,OACEA,GAAAD,GAAAD,GAAAD,EAAA,SAAS,gBAAT,YAAAA,EAAwB,aAAxB,YAAAC,EAAoC,gBAApC,KAAAC,EACA,SAAS,gBADT,KAAAC,EAEA,MAEJ,CCvEA,IAAMC,GAAYC,EAChBC,EAAU,SAAS,KAAM,SAAS,EAClCA,EAAU,SAAS,KAAM,UAAU,CACrC,EACG,KACCC,GAAa,CAAC,EACdC,EAAU,MAAS,EACnBC,EAAI,IAAMC,GAAiB,GAAK,SAAS,IAAI,EAC7CC,EAAY,CAAC,CACf,EAaK,SAASC,GACdC,EACqB,CACrB,OAAOT,GACJ,KACCK,EAAIK,GAAUD,EAAG,SAASC,CAAM,CAAC,EACjCC,EAAqB,CACvB,CACJ,CC7BO,SAASC,GACdC,EAAiBC,EACI,CACrB,OAAOC,EAAM,IAAMC,EACjBC,EAAUJ,EAAI,YAAY,EAAE,KAAKK,EAAI,IAAM,EAAI,CAAC,EAChDD,EAAUJ,EAAI,YAAY,EAAE,KAAKK,EAAI,IAAM,EAAK,CAAC,CACnD,EACG,KACCJ,EAAUK,GAASC,GAAUC,GAAM,CAAC,CAACD,EAASN,CAAO,CAAC,EAAIQ,GAC1DC,EAAUV,EAAG,QAAQ,QAAQ,CAAC,CAChC,CACF,CACF,CCPA,SAASW,GAAYC,EAAiBC,EAA8B,CAGlE,GAAI,OAAOA,GAAU,UAAY,OAAOA,GAAU,SAChDD,EAAG,WAAaC,EAAM,SAAS,UAGtBA,aAAiB,KAC1BD,EAAG,YAAYC,CAAK,UAGX,MAAM,QAAQA,CAAK,EAC5B,QAAWC,KAAQD,EACjBF,GAAYC,EAAIE,CAAI,CAE1B,CAyBO,SAASC,EACdC,EAAaC,KAAmCC,EAC7C,CACH,IAAMN,EAAK,SAAS,cAAcI,CAAG,EAGrC,GAAIC,EACF,QAAWE,KAAQ,OAAO,KAAKF,CAAU,EACnC,OAAOA,EAAWE,CAAI,GAAM,cAI5B,OAAOF,EAAWE,CAAI,GAAM,UAC9BP,EAAG,aAAaO,EAAMF,EAAWE,CAAI,CAAC,EAEtCP,EAAG,aAAaO,EAAM,EAAE,GAI9B,QAAWN,KAASK,EAClBP,GAAYC,EAAIC,CAAK,EAGvB,OAAOD,CACT,CC9EO,SAASQ,GAAMC,EAAuB,CAC3C,GAAIA,EAAQ,IAAK,CACf,IAAMC,EAAS,GAAGD,EAAQ,KAAO,IAAO,IACxC,MAAO,KAAKA,EAAQ,MAAY,KAAM,QAAQC,CAAM,CAAC,GACvD,KACE,QAAOD,EAAM,SAAS,CAE1B,CCCO,SAASE,GAAYC,EAA+B,CACzD,IAAMC,EAASC,EAAE,SAAU,CAAE,IAAAF,CAAI,CAAC,EAClC,OAAOG,EAAM,KACX,SAAS,KAAK,YAAYF,CAAM,EACzBG,EACLC,EAAUJ,EAAQ,MAAM,EACxBI,EAAUJ,EAAQ,OAAO,EACtB,KACCK,EAAU,IACRC,GAAW,IAAM,IAAI,eAAe,mBAAmBP,CAAG,EAAE,CAAC,CAC9D,CACH,CACJ,EACG,KACCQ,EAAI,IAAG,EAAY,EACnBC,EAAS,IAAM,SAAS,KAAK,YAAYR,CAAM,CAAC,EAChDS,GAAK,CAAC,CACR,EACH,CACH,CCVA,IAAMC,GAAS,IAAIC,EAiBbC,GAAYC,EAAM,IACtB,OAAO,gBAAmB,YACtBC,GAAY,4CAA4C,EACxDC,EAAG,MAAS,CACjB,EACE,KACCC,EAAI,IAAM,IAAI,eAAeC,GAC3BA,EAAQ,QAAQC,GAASR,GAAO,KAAKQ,CAAK,CAAC,CAC5C,CAAC,EACFC,EAAUC,GAAYC,EAAMC,GAAOP,EAAGK,CAAQ,CAAC,EAAE,KAC/CG,EAAS,IAAMH,EAAS,WAAW,CAAC,CACtC,CAAC,EACDI,EAAY,CAAC,CACf,EAaK,SAASC,GACdC,EACa,CACb,MAAO,CACL,MAAQA,EAAG,YACX,OAAQA,EAAG,YACb,CACF,CAuBO,SAASC,GACdD,EACyB,CAMzB,IAAIE,EAASF,EACb,KAAOE,EAAO,cAAgB,GACxBA,EAAO,eACTA,EAASA,EAAO,cAMpB,OAAOhB,GAAU,KACfiB,EAAIT,GAAYA,EAAS,QAAQQ,CAAM,CAAC,EACxCT,EAAUC,GAAYV,GAAO,KAC3BoB,EAAOZ,GAASA,EAAM,SAAWU,CAAM,EACvCL,EAAS,IAAMH,EAAS,UAAUQ,CAAM,CAAC,CAC3C,CAAC,EACDZ,EAAI,IAAMS,GAAeC,CAAE,CAAC,EAC5BK,EAAUN,GAAeC,CAAE,CAAC,CAC9B,CACF,CC3HO,SAASM,GACdC,EACa,CACb,MAAO,CACL,MAAQA,EAAG,YACX,OAAQA,EAAG,YACb,CACF,CASO,SAASC,GACdD,EACyB,CACzB,IAAIE,EAASF,EAAG,cAChB,KAAOE,IAEHF,EAAG,aAAgBE,EAAO,aAC1BF,EAAG,cAAgBE,EAAO,eAE1BA,GAAUF,EAAKE,GAAQ,cAK3B,OAAOA,EAASF,EAAK,MACvB,CAYO,SAASG,GACdH,EACe,CACf,IAAMI,EAA4B,CAAC,EAG/BF,EAASF,EAAG,cAChB,KAAOE,IAEHF,EAAG,YAAeE,EAAO,aACzBF,EAAG,aAAeE,EAAO,eAEzBE,EAAW,KAAKF,CAAM,EAGxBA,GAAUF,EAAKE,GAAQ,cAKzB,OAAIE,EAAW,SAAW,GACxBA,EAAW,KAAK,SAAS,eAAe,EAGnCA,CACT,CC9CO,SAASC,GACdC,EACe,CACf,MAAO,CACL,EAAGA,EAAG,WACN,EAAGA,EAAG,SACR,CACF,CASO,SAASC,GACdD,EACe,CACf,IAAME,EAAOF,EAAG,sBAAsB,EACtC,MAAO,CACL,EAAGE,EAAK,EAAI,OAAO,QACnB,EAAGA,EAAK,EAAI,OAAO,OACrB,CACF,CAWO,SAASC,GACdH,EAC2B,CAC3B,OAAOI,EACLC,EAAU,OAAQ,MAAM,EACxBA,EAAU,OAAQ,QAAQ,CAC5B,EACG,KACCC,GAAU,EAAGC,EAAuB,EACpCC,EAAI,IAAMT,GAAiBC,CAAE,CAAC,EAC9BS,EAAUV,GAAiBC,CAAE,CAAC,CAChC,CACJ,CC3DO,SAASU,GACdC,EACe,CACf,MAAO,CACL,EAAGA,EAAG,WACN,EAAGA,EAAG,SACR,CACF,CAWO,SAASC,GACdD,EAC2B,CAC3B,OAAOE,EACLC,EAAUH,EAAI,QAAQ,EACtBG,EAAU,OAAQ,QAAQ,EAC1BA,EAAU,OAAQ,QAAQ,CAC5B,EACG,KACCC,GAAU,EAAGC,EAAuB,EACpCC,EAAI,IAAMP,GAAwBC,CAAE,CAAC,EACrCO,EAAUR,GAAwBC,CAAE,CAAC,CACvC,CACJ,CCzBA,IAAMQ,GAAS,IAAIC,EAUbC,GAAYC,EAAM,IAAMC,EAC5B,IAAI,qBAAqBC,GAAW,CAClC,QAAWC,KAASD,EAClBL,GAAO,KAAKM,CAAK,CACrB,EAAG,CACD,UAAW,CACb,CAAC,CACH,CAAC,EACE,KACCC,EAAUC,GAAYC,EAAMC,GAAON,EAAGI,CAAQ,CAAC,EAC5C,KACCG,EAAS,IAAMH,EAAS,WAAW,CAAC,CACtC,CACF,EACAI,EAAY,CAAC,CACf,EAaK,SAASC,GACdC,EACqB,CACrB,OAAOZ,GACJ,KACCa,EAAIP,GAAYA,EAAS,QAAQM,CAAE,CAAC,EACpCP,EAAUC,GAAYR,GACnB,KACCgB,EAAO,CAAC,CAAE,OAAAC,CAAO,IAAMA,IAAWH,CAAE,EACpCH,EAAS,IAAMH,EAAS,UAAUM,CAAE,CAAC,EACrCI,EAAI,CAAC,CAAE,eAAAC,CAAe,IAAMA,CAAc,CAC5C,CACF,CACF,CACJ,CAaO,SAASC,GACdN,EAAiBO,EAAY,GACR,CACrB,OAAOC,GAA0BR,CAAE,EAChC,KACCI,EAAI,CAAC,CAAE,EAAAK,CAAE,IAAM,CACb,IAAMC,EAAUC,GAAeX,CAAE,EAC3BY,EAAUC,GAAsBb,CAAE,EACxC,OAAOS,GACLG,EAAQ,OAASF,EAAQ,OAASH,CAEtC,CAAC,EACDO,EAAqB,CACvB,CACJ,CCjFA,IAAMC,GAA4C,CAChD,OAAQC,EAAW,yBAAyB,EAC5C,OAAQA,EAAW,yBAAyB,CAC9C,EAaO,SAASC,GAAUC,EAAuB,CAC/C,OAAOH,GAAQG,CAAI,EAAE,OACvB,CAaO,SAASC,GAAUD,EAAcE,EAAsB,CACxDL,GAAQG,CAAI,EAAE,UAAYE,GAC5BL,GAAQG,CAAI,EAAE,MAAM,CACxB,CAWO,SAASG,GAAYH,EAAmC,CAC7D,IAAMI,EAAKP,GAAQG,CAAI,EACvB,OAAOK,EAAUD,EAAI,QAAQ,EAC1B,KACCE,EAAI,IAAMF,EAAG,OAAO,EACpBG,EAAUH,EAAG,OAAO,CACtB,CACJ,CC9BA,SAASI,GACPC,EAAiBC,EACR,CACT,OAAQD,EAAG,YAAa,CAGtB,KAAK,iBAEH,OAAIA,EAAG,OAAS,QACP,SAAS,KAAKC,CAAI,EAElB,GAGX,KAAK,kBACL,KAAK,oBACH,MAAO,GAGT,QACE,OAAOD,EAAG,iBACd,CACF,CAWO,SAASE,IAAwC,CACtD,OAAOC,EACLC,EAAU,OAAQ,kBAAkB,EAAE,KAAKC,EAAI,IAAM,EAAI,CAAC,EAC1DD,EAAU,OAAQ,gBAAgB,EAAE,KAAKC,EAAI,IAAM,EAAK,CAAC,CAC3D,EACG,KACCC,EAAU,EAAK,CACjB,CACJ,CAOO,SAASC,IAAsC,CACpD,IAAMC,EAAYJ,EAAyB,OAAQ,SAAS,EACzD,KACCK,EAAOC,GAAM,EAAEA,EAAG,SAAWA,EAAG,QAAQ,EACxCL,EAAIK,IAAO,CACT,KAAMC,GAAU,QAAQ,EAAI,SAAW,SACvC,KAAMD,EAAG,IACT,OAAQ,CACNA,EAAG,eAAe,EAClBA,EAAG,gBAAgB,CACrB,CACF,EAAc,EACdD,EAAO,CAAC,CAAE,KAAAG,EAAM,KAAAX,CAAK,IAAM,CACzB,GAAIW,IAAS,SAAU,CACrB,IAAMC,EAASC,GAAiB,EAChC,GAAI,OAAOD,GAAW,YACpB,MAAO,CAACd,GAAwBc,EAAQZ,CAAI,CAChD,CACA,MAAO,EACT,CAAC,EACDc,GAAM,CACR,EAGF,OAAOb,GAAiB,EACrB,KACCc,EAAUH,GAAWA,EAAqBI,EAAZT,CAAiB,CACjD,CACJ,CC1GO,SAASU,IAAmB,CACjC,OAAO,IAAI,IAAI,SAAS,IAAI,CAC9B,CAgBO,SAASC,GACdC,EAA4BC,EAAW,GACjC,CACN,GAAIC,EAAQ,oBAAoB,GAAK,CAACD,EAAU,CAC9C,IAAME,EAAKC,EAAE,IAAK,CAAE,KAAMJ,EAAI,IAAK,CAAC,EACpC,SAAS,KAAK,YAAYG,CAAE,EAC5BA,EAAG,MAAM,EACTA,EAAG,OAAO,CAIZ,MACE,SAAS,KAAOH,EAAI,IAExB,CASO,SAASK,IAA8B,CAC5C,OAAO,IAAIC,CACb,CCxCO,SAASC,IAA0B,CACxC,OAAO,SAAS,KAAK,MAAM,CAAC,CAC9B,CAYO,SAASC,GAAgBC,EAAoB,CAClD,IAAMC,EAAKC,EAAE,IAAK,CAAE,KAAMF,CAAK,CAAC,EAChCC,EAAG,iBAAiB,QAASE,GAAMA,EAAG,gBAAgB,CAAC,EACvDF,EAAG,MAAM,CACX,CAWO,SAASG,GACdC,EACoB,CACpB,OAAOC,EACLC,EAA2B,OAAQ,YAAY,EAC/CF,CACF,EACG,KACCG,EAAIV,EAAe,EACnBW,EAAUX,GAAgB,CAAC,EAC3BY,EAAOV,GAAQA,EAAK,OAAS,CAAC,EAC9BW,EAAY,CAAC,CACf,CACJ,CASO,SAASC,GACdP,EACyB,CACzB,OAAOD,GAAkBC,CAAS,EAC/B,KACCG,EAAIK,GAAMC,GAAmB,QAAQD,CAAE,IAAI,CAAE,EAC7CH,EAAOT,GAAM,OAAOA,GAAO,WAAW,CACxC,CACJ,CCtDO,SAASc,GAAWC,EAAoC,CAC7D,IAAMC,EAAQ,WAAWD,CAAK,EAC9B,OAAOE,GAA0BC,GAC/BF,EAAM,YAAY,IAAME,EAAKF,EAAM,OAAO,CAAC,CAC5C,EACE,KACCG,EAAUH,EAAM,OAAO,CACzB,CACJ,CAOO,SAASI,IAAkC,CAChD,IAAMJ,EAAQ,WAAW,OAAO,EAChC,OAAOK,EACLC,EAAU,OAAQ,aAAa,EAAE,KAAKC,EAAI,IAAM,EAAI,CAAC,EACrDD,EAAU,OAAQ,YAAY,EAAE,KAAKC,EAAI,IAAM,EAAK,CAAC,CACvD,EACG,KACCJ,EAAUH,EAAM,OAAO,CACzB,CACJ,CAcO,SAASQ,GACdC,EAA6BC,EACd,CACf,OAAOD,EACJ,KACCE,EAAUC,GAAUA,EAASF,EAAQ,EAAIG,CAAK,CAChD,CACJ,CC/BO,SAASC,GACdC,EAAmBC,EACD,CAClB,OAAO,IAAIC,EAAiBC,GAAY,CACtC,IAAMC,EAAM,IAAI,eAChB,OAAAA,EAAI,KAAK,MAAO,GAAGJ,CAAG,EAAE,EACxBI,EAAI,aAAe,OAGnBA,EAAI,iBAAiB,OAAQ,IAAM,CAC7BA,EAAI,QAAU,KAAOA,EAAI,OAAS,KACpCD,EAAS,KAAKC,EAAI,QAAQ,EAC1BD,EAAS,SAAS,GAIlBA,EAAS,MAAM,IAAI,MAAMC,EAAI,UAAU,CAAC,CAE5C,CAAC,EAGDA,EAAI,iBAAiB,QAAS,IAAM,CAClCD,EAAS,MAAM,IAAI,MAAM,eAAe,CAAC,CAC3C,CAAC,EAGDC,EAAI,iBAAiB,QAAS,IAAM,CAClCD,EAAS,SAAS,CACpB,CAAC,EAGG,OAAOF,GAAA,YAAAA,EAAS,YAAc,cAChCG,EAAI,iBAAiB,WAAYC,GAAS,CA/FhD,IAAAC,EAgGQ,GAAID,EAAM,iBACRJ,EAAQ,UAAW,KAAMI,EAAM,OAASA,EAAM,MAAS,GAAG,MAIrD,CACL,IAAME,GAASD,EAAAF,EAAI,kBAAkB,gBAAgB,IAAtC,KAAAE,EAA2C,EAC1DL,EAAQ,UAAW,KAAMI,EAAM,OAAS,CAACE,EAAU,GAAG,CACxD,CACF,CAAC,EAGDN,EAAQ,UAAU,KAAK,CAAC,GAI1BG,EAAI,KAAK,EACF,IAAMA,EAAI,MAAM,CACzB,CAAC,CACH,CAcO,SAASI,GACdR,EAAmBC,EACJ,CACf,OAAOF,GAAQC,EAAKC,CAAO,EACxB,KACCQ,EAAUC,GAAOA,EAAI,KAAK,CAAC,EAC3BC,EAAIC,GAAQ,KAAK,MAAMA,CAAI,CAAM,EACjCC,EAAY,CAAC,CACf,CACJ,CAUO,SAASC,GACdd,EAAmBC,EACG,CACtB,IAAMc,EAAM,IAAI,UAChB,OAAOhB,GAAQC,EAAKC,CAAO,EACxB,KACCQ,EAAUC,GAAOA,EAAI,KAAK,CAAC,EAC3BC,EAAID,GAAOK,EAAI,gBAAgBL,EAAK,WAAW,CAAC,EAChDG,EAAY,CAAC,CACf,CACJ,CAUO,SAASG,GACdhB,EAAmBC,EACG,CACtB,IAAMc,EAAM,IAAI,UAChB,OAAOhB,GAAQC,EAAKC,CAAO,EACxB,KACCQ,EAAUC,GAAOA,EAAI,KAAK,CAAC,EAC3BC,EAAID,GAAOK,EAAI,gBAAgBL,EAAK,UAAU,CAAC,EAC/CG,EAAY,CAAC,CACf,CACJ,CC5HO,SAASI,IAAoC,CAClD,MAAO,CACL,EAAG,KAAK,IAAI,EAAG,OAAO,EACtB,EAAG,KAAK,IAAI,EAAG,OAAO,CACxB,CACF,CASO,SAASC,IAAkD,CAChE,OAAOC,EACLC,EAAU,OAAQ,SAAU,CAAE,QAAS,EAAK,CAAC,EAC7CA,EAAU,OAAQ,SAAU,CAAE,QAAS,EAAK,CAAC,CAC/C,EACG,KACCC,EAAIJ,EAAiB,EACrBK,EAAUL,GAAkB,CAAC,CAC/B,CACJ,CC3BO,SAASM,IAAgC,CAC9C,MAAO,CACL,MAAQ,WACR,OAAQ,WACV,CACF,CASO,SAASC,IAA8C,CAC5D,OAAOC,EAAU,OAAQ,SAAU,CAAE,QAAS,EAAK,CAAC,EACjD,KACCC,EAAIH,EAAe,EACnBI,EAAUJ,GAAgB,CAAC,CAC7B,CACJ,CCXO,SAASK,IAAsC,CACpD,OAAOC,EAAc,CACnBC,GAAoB,EACpBC,GAAkB,CACpB,CAAC,EACE,KACCC,EAAI,CAAC,CAACC,EAAQC,CAAI,KAAO,CAAE,OAAAD,EAAQ,KAAAC,CAAK,EAAE,EAC1CC,EAAY,CAAC,CACf,CACJ,CCVO,SAASC,GACdC,EAAiB,CAAE,UAAAC,EAAW,QAAAC,CAAQ,EAChB,CACtB,IAAMC,EAAQF,EACX,KACCG,EAAwB,MAAM,CAChC,EAGIC,EAAUC,EAAc,CAACH,EAAOD,CAAO,CAAC,EAC3C,KACCK,EAAI,IAAMC,GAAiBR,CAAE,CAAC,CAChC,EAGF,OAAOM,EAAc,CAACJ,EAASD,EAAWI,CAAO,CAAC,EAC/C,KACCE,EAAI,CAAC,CAAC,CAAE,OAAAE,CAAO,EAAG,CAAE,OAAAC,EAAQ,KAAAC,CAAK,EAAG,CAAE,EAAAC,EAAG,EAAAC,CAAE,CAAC,KAAO,CACjD,OAAQ,CACN,EAAGH,EAAO,EAAIE,EACd,EAAGF,EAAO,EAAIG,EAAIJ,CACpB,EACA,KAAAE,CACF,EAAE,CACJ,CACJ,CCzBA,SAASG,GAAQC,EAA+B,CAC9C,OAAOC,EAA8BD,EAAQ,UAAWE,GAAMA,EAAG,IAAI,CACvE,CAWA,SAASC,GAAQH,EAA4B,CAC3C,IAAMI,EAAQ,IAAIC,EAClB,OAAAD,EAAM,UAAUE,GAAQN,EAAO,YAAYM,CAAI,CAAC,EAGzCF,CACT,CAgBO,SAASG,GACdC,EAAaR,EAAS,IAAI,OAAOQ,CAAG,EACxB,CACZ,IAAMC,EAAQV,GAAQC,CAAM,EACtBI,EAAQD,GAAQH,CAAM,EAGtBU,EAAU,IAAIL,EACpBK,EAAQ,UAAUN,CAAK,EAGvB,IAAMO,EAAQP,EAAM,KAAKQ,EAAe,EAAGC,GAAQ,EAAI,CAAC,EACxD,OAAOH,EACJ,KACCE,EAAe,EACfE,GAAUL,EAAM,KAAKM,EAAUJ,CAAK,CAAC,CAAC,EACtCK,GAAM,CACR,CACJ,CCJA,IAAMC,GAASC,EAAW,WAAW,EAC/BC,GAAiB,KAAK,MAAMF,GAAO,WAAY,EACrDE,GAAO,KAAO,GAAG,IAAI,IAAIA,GAAO,KAAMC,GAAY,CAAC,CAAC,GAW7C,SAASC,IAAwB,CACtC,OAAOF,EACT,CASO,SAASG,EAAQC,EAAqB,CAC3C,OAAOJ,GAAO,SAAS,SAASI,CAAI,CACtC,CAUO,SAASC,GACdC,EAAkBC,EACV,CACR,OAAO,OAAOA,GAAU,YACpBP,GAAO,aAAaM,CAAG,EAAE,QAAQ,IAAKC,EAAM,SAAS,CAAC,EACtDP,GAAO,aAAaM,CAAG,CAC7B,CChCO,SAASE,GACdC,EAASC,EAAmB,SACP,CACrB,OAAOC,EAAW,sBAAsBF,CAAI,IAAKC,CAAI,CACvD,CAYO,SAASE,GACdH,EAASC,EAAmB,SACL,CACvB,OAAOG,EAAY,sBAAsBJ,CAAI,IAAKC,CAAI,CACxD,CC7EO,SAASI,GACdC,EACsB,CACtB,IAAMC,EAASC,EAAW,6BAA8BF,CAAE,EAC1D,OAAOG,EAAUF,EAAQ,QAAS,CAAE,KAAM,EAAK,CAAC,EAC7C,KACCG,EAAI,IAAMF,EAAW,cAAeF,CAAE,CAAC,EACvCI,EAAIC,IAAY,CAAE,KAAM,UAAUA,EAAQ,SAAS,CAAE,EAAE,CACzD,CACJ,CASO,SAASC,GACdN,EACiC,CACjC,GAAI,CAACO,EAAQ,kBAAkB,GAAK,CAACP,EAAG,kBACtC,OAAOQ,EAGT,GAAI,CAACR,EAAG,OAAQ,CACd,IAAMK,EAAUH,EAAW,cAAeF,CAAE,EACxC,UAAUK,EAAQ,SAAS,IAAM,SAAS,YAAY,IACxDL,EAAG,OAAS,GAChB,CAGA,OAAOS,EAAM,IAAM,CACjB,IAAMC,EAAQ,IAAIC,EAClB,OAAAD,EAAM,UAAU,CAAC,CAAE,KAAAE,CAAK,IAAM,CAC5BZ,EAAG,OAAS,GAGZ,SAAiB,aAAcY,CAAI,CACrC,CAAC,EAGMb,GAAcC,CAAE,EACpB,KACCa,EAAIC,GAASJ,EAAM,KAAKI,CAAK,CAAC,EAC9BC,EAAS,IAAML,EAAM,SAAS,CAAC,EAC/BN,EAAIU,GAAUE,EAAA,CAAE,IAAKhB,GAAOc,EAAQ,CACtC,CACJ,CAAC,CACH,CC5BO,SAASG,GACdC,EAAiB,CAAE,QAAAC,CAAQ,EACN,CACrB,OAAOA,EACJ,KACCC,EAAIC,IAAW,CAAE,OAAQA,IAAWH,CAAG,EAAE,CAC3C,CACJ,CAYO,SAASI,GACdJ,EAAiBK,EACe,CAChC,IAAMC,EAAY,IAAIC,EACtB,OAAAD,EAAU,UAAU,CAAC,CAAE,OAAAE,CAAO,IAAM,CAClCR,EAAG,OAASQ,CACd,CAAC,EAGMT,GAAaC,EAAIK,CAAO,EAC5B,KACCI,EAAIC,GAASJ,EAAU,KAAKI,CAAK,CAAC,EAClCC,EAAS,IAAML,EAAU,SAAS,CAAC,EACnCJ,EAAIQ,GAAUE,EAAA,CAAE,IAAKZ,GAAOU,EAAQ,CACtC,CACJ,CCnEO,SAASG,GACdC,EAAaC,EACA,CACb,OAAIA,IAAU,SAEVC,EAAC,OAAI,MAAM,gCAAgC,GAAIF,EAAI,KAAK,WACtDE,EAAC,OAAI,MAAM,+BAA+B,CAC5C,EAIAA,EAAC,OAAI,MAAM,aAAa,GAAIF,EAAI,KAAK,WACnCE,EAAC,OAAI,MAAM,+BAA+B,CAC5C,CAGN,CAGO,SAASC,MACXC,EACU,CACb,OACEF,EAAC,OAAI,MAAM,cAAc,KAAK,WAC5BA,EAAC,OAAI,MAAM,iCACRE,CACH,CACF,CAEJ,CCvCO,SAASC,GACdC,EAAqBC,EACR,CAIb,GAHAA,EAASA,EAAS,GAAGA,CAAM,eAAeD,CAAE,GAAK,OAG7CC,EAAQ,CACV,IAAMC,EAASD,EAAS,IAAIA,CAAM,GAAK,OACvC,OACEE,EAAC,SAAM,MAAM,gBAAgB,SAAU,GACpCC,GAAcH,CAAM,EACrBE,EAAC,KAAE,KAAMD,EAAQ,MAAM,uBAAuB,SAAU,IACtDC,EAAC,QAAK,wBAAuBH,EAAI,CACnC,CACF,CAEJ,KACE,QACEG,EAAC,SAAM,MAAM,gBAAgB,SAAU,GACpCC,GAAcH,CAAM,EACrBE,EAAC,QAAK,MAAM,uBAAuB,SAAU,IAC3CA,EAAC,QAAK,wBAAuBH,EAAI,CACnC,CACF,CAGN,CC5BO,SAASK,GAAsBC,EAAyB,CAC7D,OACEC,EAAC,UACC,MAAM,uBACN,MAAOC,GAAY,gBAAgB,EACnC,wBAAuB,IAAIF,CAAE,UAC9B,CAEL,CCQA,SAASG,GACPC,EAAsBC,EACT,CACb,IAAMC,EAASD,EAAO,EAChBE,EAASF,EAAO,EAGhBG,EAAU,OAAO,KAAKJ,EAAS,KAAK,EACvC,OAAOK,GAAO,CAACL,EAAS,MAAMK,CAAG,CAAC,EAClC,OAAyB,CAACC,EAAMD,IAAQ,CACvC,GAAGC,EAAMC,EAAC,WAAKF,CAAI,EAAQ,GAC7B,EAAG,CAAC,CAAC,EACJ,MAAM,EAAG,EAAE,EAGRG,EAASC,GAAc,EACvBC,EAAM,IAAI,IAAIV,EAAS,SAAUQ,EAAO,IAAI,EAC9CG,EAAQ,kBAAkB,GAC5BD,EAAI,aAAa,IAAI,IAAK,OAAO,QAAQV,EAAS,KAAK,EACpD,OAAO,CAAC,CAAC,CAAEY,CAAK,IAAMA,CAAK,EAC3B,OAAO,CAACC,EAAW,CAACC,CAAK,IAAM,GAAGD,CAAS,IAAIC,CAAK,GAAG,KAAK,EAAG,EAAE,CACpE,EAGF,GAAM,CAAE,KAAAC,CAAK,EAAIN,GAAc,EAC/B,OACEF,EAAC,KAAE,KAAM,GAAGG,CAAG,GAAI,MAAM,yBAAyB,SAAU,IAC1DH,EAAC,WACC,MAAM,uCACN,gBAAeP,EAAS,MAAM,QAAQ,CAAC,GAEtCE,EAAS,GAAKK,EAAC,OAAI,MAAM,iCAAiC,EAC1DL,EAAS,GAAKK,EAAC,UAAIP,EAAS,KAAM,EAClCE,GAAU,GAAKK,EAAC,UAAIP,EAAS,KAAM,EACnCG,EAAS,GAAKH,EAAS,KAAK,OAAS,GACpCA,EAAS,KAEVA,EAAS,MAAQA,EAAS,KAAK,IAAIgB,GAAO,CACzC,IAAMC,EAAOF,EACTC,KAAOD,EACL,uBAAuBA,EAAKC,CAAG,CAAC,GAChC,cACF,GACJ,OACET,EAAC,QAAK,MAAO,UAAUU,CAAI,IAAKD,CAAI,CAExC,CAAC,EACAb,EAAS,GAAKC,EAAQ,OAAS,GAC9BG,EAAC,KAAE,MAAM,2BACNW,GAAY,4BAA4B,EAAE,KAAG,GAAGd,CACnD,CAEJ,CACF,CAEJ,CAaO,SAASe,GACdC,EACa,CACb,IAAMC,EAAYD,EAAO,CAAC,EAAE,MACtBE,EAAO,CAAC,GAAGF,CAAM,EAEjBZ,EAASC,GAAc,EAGvBP,EAASoB,EAAK,UAAUC,GAErB,CADG,GAAG,IAAI,IAAIA,EAAI,SAAUf,EAAO,IAAI,CAAC,GACrC,SAAS,GAAG,CACvB,EACK,CAACgB,CAAO,EAAIF,EAAK,OAAOpB,EAAQ,CAAC,EAGnCuB,EAAQH,EAAK,UAAUC,GAAOA,EAAI,MAAQF,CAAS,EACnDI,IAAU,KACZA,EAAQH,EAAK,QAGf,IAAMI,EAAOJ,EAAK,MAAM,EAAGG,CAAK,EAC1BE,EAAOL,EAAK,MAAMG,CAAK,EAGvBG,EAAW,CACf7B,GAAqByB,EAAS,EAAc,EAAE,CAACtB,GAAUuB,IAAU,EAAE,EACrE,GAAGC,EAAK,IAAIG,GAAW9B,GAAqB8B,EAAS,CAAW,CAAC,EACjE,GAAGF,EAAK,OAAS,CACfpB,EAAC,WAAQ,MAAM,0BACbA,EAAC,WAAQ,SAAU,IACjBA,EAAC,WACEoB,EAAK,OAAS,GAAKA,EAAK,SAAW,EAChCT,GAAY,wBAAwB,EACpCA,GAAY,2BAA4BS,EAAK,MAAM,CAEzD,CACF,EACC,GAAGA,EAAK,IAAIE,GAAW9B,GAAqB8B,EAAS,CAAW,CAAC,CACpE,CACF,EAAI,CAAC,CACP,EAGA,OACEtB,EAAC,MAAG,MAAM,0BACPqB,CACH,CAEJ,CCrIO,SAASE,GAAkBC,EAAiC,CACjE,OACEC,EAAC,MAAG,MAAM,oBACP,OAAO,QAAQD,CAAK,EAAE,IAAI,CAAC,CAACE,EAAKC,CAAK,IACrCF,EAAC,MAAG,MAAO,oCAAoCC,CAAG,IAC/C,OAAOC,GAAU,SAAWC,GAAMD,CAAK,EAAIA,CAC9C,CACD,CACH,CAEJ,CCAO,SAASE,GACdC,EACa,CACb,IAAMC,EAAU,kCAAkCD,CAAI,GACtD,OACEE,EAAC,OAAI,MAAOD,EAAS,OAAM,IACzBC,EAAC,UAAO,MAAM,gBAAgB,SAAU,GAAI,cAAY,OAAO,CACjE,CAEJ,CCpBO,SAASC,GAAYC,EAAiC,CAC3D,OACEC,EAAC,OAAI,MAAM,0BACTA,EAAC,OAAI,MAAM,qBACRD,CACH,CACF,CAEJ,CCcA,SAASE,GAAcC,EAA+B,CAzDtD,IAAAC,EA0DE,IAAMC,EAASC,GAAc,EAGvBC,EAAM,IAAI,IAAI,MAAMJ,EAAQ,OAAO,IAAKE,EAAO,IAAI,EACzD,OACEG,EAAC,MAAG,MAAM,oBACRA,EAAC,KAAE,KAAM,GAAGD,CAAG,GAAI,MAAM,oBACtBJ,EAAQ,QACRC,EAAAC,EAAO,UAAP,YAAAD,EAAgB,QAASD,EAAQ,QAAQ,OAAS,GACjDK,EAAC,QAAK,MAAM,qBACTL,EAAQ,QAAQ,CAAC,CACpB,CAEJ,CACF,CAEJ,CAcO,SAASM,GACdC,EAAqBC,EACR,CA1Ff,IAAAP,EA2FE,IAAMC,EAASC,GAAc,EAC7B,OAAAI,EAAWA,EAAS,OAAOP,GAAQ,CA5FrC,IAAAC,EA4FwC,SAACA,EAAAD,EAAQ,aAAR,MAAAC,EAAoB,QAAM,EAE/DI,EAAC,OAAI,MAAM,cACTA,EAAC,UACC,MAAM,sBACN,aAAYI,GAAY,gBAAgB,GAEvCD,EAAO,QACPP,EAAAC,EAAO,UAAP,YAAAD,EAAgB,QAASO,EAAO,QAAQ,OAAS,GAChDH,EAAC,QAAK,MAAM,qBACTG,EAAO,QAAQ,CAAC,CACnB,CAEJ,EACAH,EAAC,MAAG,MAAM,oBACPE,EAAS,IAAIR,EAAa,CAC7B,CACF,CAEJ,CCfA,IAAIW,GAAW,EAkBR,SAASC,GACdC,EACqB,CAMrB,IAAMC,EACJC,EAAc,CACZC,GAAkBH,CAAE,EACpBI,GAAkBJ,CAAE,CACtB,CAAC,EACE,KACCK,EAAI,CAAC,CAACC,EAAOC,CAAK,IAAMD,GAASC,CAAK,EACtCC,EAAqB,CACvB,EAMEC,EACJC,EAAM,IAAMC,GAAqBX,CAAE,CAAC,EAAE,KACpCY,GAASC,EAAyB,EAClCC,GAAa,CAAC,EACdT,EAAI,IAAMU,GAAyBf,CAAE,CAAC,CACxC,EAMF,OAAOC,EAAQ,KACbe,GAAMC,GAAUA,CAAM,EACtBC,EAAU,IAAMhB,EAAc,CAACD,EAASQ,CAAO,CAAC,CAAC,EACjDJ,EAAI,CAAC,CAACY,EAAQE,CAAM,KAAO,CAAE,OAAAF,EAAQ,OAAAE,CAAO,EAAE,EAC9CC,GAAM,CACR,CACF,CAoBO,SAASC,GACdrB,EAAiBsB,EACe,CAChC,GAAM,CAAE,SAAAC,EAAU,UAAAC,CAAU,EAAIF,EAI1BG,EAAK,cAAc3B,IAAU,GAGnC,OAAOY,EAAM,IAAM,CACjB,IAAMgB,EAAQ,IAAIC,EAMZC,EAAQ,IAAIC,GAAgB,EAAK,EACvCH,EAAM,KAAKI,EAAe,EAAGC,GAAQ,EAAK,CAAC,EACxC,UAAUH,CAAK,EAUlB,IAAMI,EAAQJ,EAAM,KAClBK,GAAShB,GAAUiB,GAAM,CAAC,CAACjB,EAAS,IAAKkB,EAAc,CAAC,EACxD3B,EAAqB,EACrBU,EAAUD,GAAUA,EAASM,EAAWa,CAAK,EAC7CC,EAAIC,GAAQA,EAAK,GAAKb,CAAE,EACxBL,GAAM,CACR,EAIAlB,EAAc,CACZwB,EAAM,KAAKrB,EAAI,CAAC,CAAE,OAAAY,CAAO,IAAMA,CAAM,CAAC,EACtCe,EAAM,KACJd,EAAUoB,GAAQlC,GAAkBkC,EAAM,GAAG,CAAC,EAC9CC,EAAU,EAAK,CACjB,CACF,CAAC,EACE,KAAKlC,EAAImC,GAAUA,EAAO,KAAKvB,GAAUA,CAAM,CAAC,CAAC,EACjD,UAAUW,CAAK,EAMlB,IAAMa,EAAUb,EAAM,KACpBc,EAAOzB,GAAUA,CAAM,EACvB0B,GAAeX,EAAOR,CAAS,EAC/BnB,EAAI,CAAC,CAACuC,EAAGN,EAAM,CAAE,KAAAO,CAAK,CAAC,IAAM,CAC3B,IAAMC,EAAO9C,EAAG,sBAAsB,EAChC+C,EAAID,EAAK,MAAQ,EAIvB,GAAIR,EAAK,OAAS,UAChB,MAAO,CAAE,EAAAS,EAAG,EAAG,EAAID,EAAK,MAAO,EAI1B,GAAIA,EAAK,GAAKD,EAAK,OAAS,EAAG,CACpC,GAAM,CAAE,OAAAG,CAAO,EAAIC,GAAeX,CAAI,EACtC,MAAO,CAAE,EAAAS,EAAG,EAAG,IAAMC,CAAO,CAC9B,KACE,OAAO,CAAE,EAAAD,EAAG,EAAG,GAAMD,EAAK,MAAO,CAErC,CAAC,CACH,EAIA,OAAA5C,EAAc,CAAC8B,EAAON,EAAOe,CAAO,CAAC,EAClC,UAAU,CAAC,CAACH,EAAM,CAAE,OAAAnB,CAAO,EAAG+B,CAAM,IAAM,CACzCZ,EAAK,MAAM,YAAY,sBAAuB,GAAGnB,EAAO,CAAC,IAAI,EAC7DmB,EAAK,MAAM,YAAY,sBAAuB,GAAGnB,EAAO,CAAC,IAAI,EAI7DmB,EAAK,MAAM,YAAY,iBAAkB,GAAGY,EAAO,CAAC,IAAI,EACxDZ,EAAK,MAAM,YAAY,iBAAkB,GAAGY,EAAO,CAAC,IAAI,EAIxDZ,EAAK,UAAU,OAAO,mBAAuBY,EAAO,EAAK,CAAC,EAC1DZ,EAAK,UAAU,OAAO,sBAAuBY,EAAO,GAAK,CAAC,CAC5D,CAAC,EAIHtB,EAAM,KACJc,EAAOzB,GAAUA,CAAM,EACvB0B,GAAeX,EAAO,CAACY,EAAGN,IAASA,CAAI,EACvCI,EAAOJ,GAAQA,EAAK,OAAS,SAAS,CACxC,EACG,UAAUA,GAAQ,CACjB,IAAMO,EAAOI,GAAeE,EAAW,aAAcb,CAAI,CAAC,EAI1DA,EAAK,MAAM,YAAY,qBAAsB,GAAGO,EAAK,KAAK,IAAI,EAC9DP,EAAK,MAAM,YAAY,oBAAsB,KAAQ,CACvD,CAAC,EAMHV,EAAM,KACJpB,EAAqB,EACrB4C,GAAUC,EAAuB,EACjCV,GAAeX,CAAK,CACtB,EACG,UAAU,CAAC,CAACf,EAAQqB,CAAI,IAAM,CAC7BA,EAAK,UAAU,OAAO,sBAAuBrB,CAAM,CACrD,CAAC,EAGHf,EAAc,CACZ0B,EAAM,KAAKc,EAAOzB,GAAUA,CAAM,CAAC,EACnCe,CACF,CAAC,EACE,UAAU,CAAC,CAACY,EAAGN,CAAI,IAAM,CACpBA,EAAK,OAAS,UAChBtC,EAAG,aAAa,gBAAiByB,CAAE,EACnCzB,EAAG,aAAa,gBAAiB,QAAQ,GAEzCA,EAAG,aAAa,mBAAoByB,CAAE,CAE1C,CAAC,EAGHG,EAAM,KAAKc,EAAOzB,GAAU,CAACA,CAAM,CAAC,EACjC,UAAU,IAAM,CACfjB,EAAG,gBAAgB,eAAe,EAClCA,EAAG,gBAAgB,kBAAkB,EACrCA,EAAG,gBAAgB,eAAe,CACpC,CAAC,EAGID,GAAcC,CAAE,EACpB,KACCqC,EAAIiB,GAAS5B,EAAM,KAAK4B,CAAK,CAAC,EAC9BC,EAAS,IAAM7B,EAAM,SAAS,CAAC,EAC/BrB,EAAIiD,GAAUE,EAAA,CAAE,IAAKxD,GAAOsD,EAAQ,CACtC,CACJ,CAAC,CACH,CAeO,SAASG,GACdzD,EAAiB,CAAE,UAAAwB,CAAU,EAC7BkC,EAAY,SAAS,KACW,CAChC,OAAOrC,GAAcrB,EAAI,CACvB,SAAU,IAAI2D,EAAwBC,GAAY,CAChD,IAAMC,EAAQ7D,EAAG,MACXsC,EAAOwB,GAAqBD,CAAK,EACvC,OAAAD,EAAS,KAAKtB,CAAI,EAClBtC,EAAG,gBAAgB,OAAO,EAE1B0D,EAAU,OAAOpB,CAAI,EACd,IAAM,CACXA,EAAK,OAAO,EACZtC,EAAG,aAAa,QAAS6D,CAAK,CAChC,CACF,CAAC,EACD,UAAArC,CACF,CAAC,CACH,CC3QO,SAASuC,GACdC,EAAiBC,EACO,CACxB,IAAMC,EAAUC,EAAM,IAAMC,EAAc,CACxCC,GAAmBL,CAAE,EACrBM,GAA0BL,CAAS,CACrC,CAAC,CAAC,EACC,KACCM,EAAI,CAAC,CAAC,CAAE,EAAAC,EAAG,EAAAC,CAAE,EAAGC,CAAM,IAAqB,CACzC,GAAM,CAAE,MAAAC,EAAO,OAAAC,CAAO,EAAIC,GAAeb,CAAE,EAC3C,MAAQ,CACN,EAAGQ,EAAIE,EAAO,EAAIC,EAAS,EAC3B,EAAGF,EAAIC,EAAO,EAAIE,EAAS,CAC7B,CACF,CAAC,CACH,EAGF,OAAOE,GAAkBd,CAAE,EACxB,KACCe,EAAUC,GAAUd,EACjB,KACCK,EAAIU,IAAW,CAAE,OAAAD,EAAQ,OAAAC,CAAO,EAAE,EAClCC,GAAK,CAAC,CAACF,GAAU,GAAQ,CAC3B,CACF,CACF,CACJ,CAWO,SAASG,GACdnB,EAAiBC,EAAwB,CAAE,QAAAmB,CAAQ,EAChB,CACnC,GAAM,CAACC,EAASC,CAAK,EAAI,MAAM,KAAKtB,EAAG,QAAQ,EAG/C,OAAOG,EAAM,IAAM,CACjB,IAAMoB,EAAQ,IAAIC,EACZC,EAAQF,EAAM,KAAKG,EAAe,EAAGC,GAAQ,EAAI,CAAC,EACxD,OAAAJ,EAAM,UAAU,CAGd,KAAK,CAAE,OAAAN,CAAO,EAAG,CACfjB,EAAG,MAAM,YAAY,iBAAkB,GAAGiB,EAAO,CAAC,IAAI,EACtDjB,EAAG,MAAM,YAAY,iBAAkB,GAAGiB,EAAO,CAAC,IAAI,CACxD,EAGA,UAAW,CACTjB,EAAG,MAAM,eAAe,gBAAgB,EACxCA,EAAG,MAAM,eAAe,gBAAgB,CAC1C,CACF,CAAC,EAGD4B,GAAuB5B,CAAE,EACtB,KACC6B,EAAUJ,CAAK,CACjB,EACG,UAAUK,GAAW,CACpB9B,EAAG,gBAAgB,kBAAmB8B,CAAO,CAC/C,CAAC,EAGLC,EACER,EAAM,KAAKS,EAAO,CAAC,CAAE,OAAAhB,CAAO,IAAMA,CAAM,CAAC,EACzCO,EAAM,KAAKU,GAAa,GAAG,EAAGD,EAAO,CAAC,CAAE,OAAAhB,CAAO,IAAM,CAACA,CAAM,CAAC,CAC/D,EACG,UAAU,CAGT,KAAK,CAAE,OAAAA,CAAO,EAAG,CACXA,EACFhB,EAAG,QAAQqB,CAAO,EAElBA,EAAQ,OAAO,CACnB,EAGA,UAAW,CACTrB,EAAG,QAAQqB,CAAO,CACpB,CACF,CAAC,EAGHE,EACG,KACCW,GAAU,GAAIC,EAAuB,CACvC,EACG,UAAU,CAAC,CAAE,OAAAnB,CAAO,IAAM,CACzBK,EAAQ,UAAU,OAAO,qBAAsBL,CAAM,CACvD,CAAC,EAGLO,EACG,KACCa,GAAa,IAAKD,EAAuB,EACzCH,EAAO,IAAM,CAAC,CAAChC,EAAG,YAAY,EAC9BO,EAAI,IAAMP,EAAG,aAAc,sBAAsB,CAAC,EAClDO,EAAI,CAAC,CAAE,EAAAC,CAAE,IAAMA,CAAC,CAClB,EACG,UAAU,CAGT,KAAK6B,EAAQ,CACPA,EACFrC,EAAG,MAAM,YAAY,iBAAkB,GAAG,CAACqC,CAAM,IAAI,EAErDrC,EAAG,MAAM,eAAe,gBAAgB,CAC5C,EAGA,UAAW,CACTA,EAAG,MAAM,eAAe,gBAAgB,CAC1C,CACF,CAAC,EAGLsC,EAAsBhB,EAAO,OAAO,EACjC,KACCO,EAAUJ,CAAK,EACfO,EAAOO,GAAM,EAAEA,EAAG,SAAWA,EAAG,QAAQ,CAC1C,EACG,UAAUA,GAAM,CACfA,EAAG,gBAAgB,EACnBA,EAAG,eAAe,CACpB,CAAC,EAGLD,EAAsBhB,EAAO,WAAW,EACrC,KACCO,EAAUJ,CAAK,EACfe,GAAejB,CAAK,CACtB,EACG,UAAU,CAAC,CAACgB,EAAI,CAAE,OAAAvB,CAAO,CAAC,IAAM,CA3OzC,IAAAyB,EA8OU,GAAIF,EAAG,SAAW,GAAKA,EAAG,SAAWA,EAAG,QACtCA,EAAG,eAAe,UAGTvB,EAAQ,CACjBuB,EAAG,eAAe,EAGlB,IAAMG,EAAS1C,EAAG,cAAe,QAAQ,gBAAgB,EACrD0C,aAAkB,YACpBA,EAAO,MAAM,GAEbD,EAAAE,GAAiB,IAAjB,MAAAF,EAAoB,MACxB,CACF,CAAC,EAGLrB,EACG,KACCS,EAAUJ,CAAK,EACfO,EAAOY,GAAUA,IAAWvB,CAAO,EACnCwB,GAAM,GAAG,CACX,EACG,UAAU,IAAM7C,EAAG,MAAM,CAAC,EAGxBD,GAAgBC,EAAIC,CAAS,EACjC,KACC6C,EAAIC,GAASxB,EAAM,KAAKwB,CAAK,CAAC,EAC9BC,EAAS,IAAMzB,EAAM,SAAS,CAAC,EAC/BhB,EAAIwC,GAAUE,EAAA,CAAE,IAAKjD,GAAO+C,EAAQ,CACtC,CACJ,CAAC,CACH,CCxMA,SAASG,GAAUC,EAAuC,CACxD,OAAOA,EAAU,UAAY,OACzBC,EAAY,eAAgBD,CAAS,EACrC,CAACA,CAAS,CAChB,CASA,SAASE,GAAYF,EAAgC,CACnD,IAAMG,EAAkB,CAAC,EACzB,QAAWC,KAAML,GAAUC,CAAS,EAAG,CACrC,IAAMK,EAAgB,CAAC,EAGjBC,EAAK,SAAS,mBAAmBF,EAAI,WAAW,SAAS,EAC/D,QAASG,EAAOD,EAAG,SAAS,EAAGC,EAAMA,EAAOD,EAAG,SAAS,EACtDD,EAAM,KAAKE,CAAY,EAGzB,QAASC,KAAQH,EAAO,CACtB,IAAII,EAGJ,KAAQA,EAAQ,gBAAgB,KAAKD,EAAK,WAAY,GAAI,CACxD,GAAM,CAAC,CAAEE,EAAIC,CAAK,EAAIF,EACtB,GAAI,OAAOE,GAAU,YAAa,CAChC,IAAMC,EAASJ,EAAK,UAAUC,EAAM,KAAK,EACzCD,EAAOI,EAAO,UAAUF,EAAG,MAAM,EACjCP,EAAQ,KAAKS,CAAM,CAGrB,KAAO,CACLJ,EAAK,YAAcE,EACnBP,EAAQ,KAAKK,CAAI,EACjB,KACF,CACF,CACF,CACF,CACA,OAAOL,CACT,CAQA,SAASU,GAAKC,EAAqBC,EAA2B,CAC5DA,EAAO,OAAO,GAAG,MAAM,KAAKD,EAAO,UAAU,CAAC,CAChD,CAoBO,SAASE,GACdZ,EAAiBJ,EAAwB,CAAE,QAAAiB,EAAS,OAAAC,CAAO,EACxB,CAGnC,IAAMC,EAASnB,EAAU,QAAQ,MAAM,EACjCoB,EAASD,GAAA,YAAAA,EAAQ,GAGjBE,EAAc,IAAI,IACxB,QAAWT,KAAUV,GAAYF,CAAS,EAAG,CAC3C,GAAM,CAAC,CAAEU,CAAE,EAAIE,EAAO,YAAa,MAAM,WAAW,EAChDU,GAAmB,yBAAyBZ,CAAE,IAAKN,CAAE,IACvDiB,EAAY,IAAIX,EAAIa,GAAiBb,EAAIU,CAAM,CAAC,EAChDR,EAAO,YAAYS,EAAY,IAAIX,CAAE,CAAE,EAE3C,CAGA,OAAIW,EAAY,OAAS,EAChBG,EAGFC,EAAM,IAAM,CACjB,IAAMC,EAAQ,IAAIC,EACZC,EAAQF,EAAM,KAAKG,EAAe,EAAGC,GAAQ,EAAI,CAAC,EAGlDC,EAAsC,CAAC,EAC7C,OAAW,CAACrB,EAAIsB,CAAU,IAAKX,EAC7BU,EAAM,KAAK,CACTE,EAAW,cAAeD,CAAU,EACpCC,EAAW,yBAAyBvB,CAAE,IAAKN,CAAE,CAC/C,CAAC,EAGH,OAAAc,EAAO,KAAKgB,EAAUN,CAAK,CAAC,EACzB,UAAUO,GAAU,CACnB/B,EAAG,OAAS,CAAC+B,EAGb/B,EAAG,UAAU,OAAO,qBAAsB+B,CAAM,EAGhD,OAAW,CAACC,EAAOC,CAAK,IAAKN,EACtBI,EAGHtB,GAAKuB,EAAOC,CAAK,EAFjBxB,GAAKwB,EAAOD,CAAK,CAGvB,CAAC,EAGIE,EAAM,GAAG,CAAC,GAAGjB,CAAW,EAC5B,IAAI,CAAC,CAAC,CAAEW,CAAU,IACjBO,GAAgBP,EAAYhC,EAAW,CAAE,QAAAiB,CAAQ,CAAC,CACnD,CACH,EACG,KACCuB,EAAS,IAAMd,EAAM,SAAS,CAAC,EAC/Be,GAAM,CACR,CACJ,CAAC,CACH,CC7JA,SAASC,GAASC,EAA0C,CAC1D,GAAIA,EAAG,mBAAoB,CACzB,IAAMC,EAAUD,EAAG,mBACnB,GAAIC,EAAQ,UAAY,KACtB,OAAOA,EAGJ,GAAIA,EAAQ,UAAY,KAAO,CAACA,EAAQ,SAAS,OACpD,OAAOF,GAASE,CAAO,CAC3B,CAIF,CAcO,SAASC,GACdF,EAAiBG,EACkB,CACnC,OAAOC,EAAM,IAAM,CACjB,IAAMC,EAAON,GAASC,CAAE,EACxB,OAAO,OAAOK,GAAS,YACnBC,GAAoBD,EAAML,EAAIG,CAAO,EACrCI,CACN,CAAC,CACH,CCjEA,IAAAC,GAAwB,SA4ExB,IAAIC,GAAW,EAaf,SAASC,GAAkBC,EAA0C,CACnE,GAAIA,EAAG,mBAAoB,CACzB,IAAMC,EAAUD,EAAG,mBACnB,GAAIC,EAAQ,UAAY,KACtB,OAAOA,EAGJ,GAAIA,EAAQ,UAAY,KAAO,CAACA,EAAQ,SAAS,OACpD,OAAOF,GAAkBE,CAAO,CACpC,CAIF,CAgBO,SAASC,GACdF,EACsB,CACtB,OAAOG,GAAiBH,CAAE,EACvB,KACCI,EAAI,CAAC,CAAE,MAAAC,CAAM,KAEJ,CACL,WAFcC,GAAsBN,CAAE,EAElB,MAAQK,CAC9B,EACD,EACDE,EAAwB,YAAY,CACtC,CACJ,CAoBO,SAASC,GACdR,EAAiBS,EACiB,CAClC,GAAM,CAAE,QAASC,CAAM,EAAI,WAAW,SAAS,EAGzCC,EAAWC,EAAM,IAAM,CAC3B,IAAMC,EAAQ,IAAIC,EACZC,EAAQF,EAAM,KAAKG,GAAS,CAAC,CAAC,EACpCH,EAAM,UAAU,CAAC,CAAE,WAAAI,CAAW,IAAM,CAC9BA,GAAcP,EAChBV,EAAG,aAAa,WAAY,GAAG,EAE/BA,EAAG,gBAAgB,UAAU,CACjC,CAAC,EAGD,IAAMkB,EAAoD,CAAC,EAC3D,GAAI,GAAAC,QAAY,YAAY,IACtBnB,EAAG,QAAQ,OAAO,GACpBoB,EAAQ,mBAAmB,GAAK,CAACpB,EAAG,QAAQ,UAAU,GACrD,CACD,IAAMqB,EAASrB,EAAG,QAAQ,KAAK,EAC/BqB,EAAO,GAAK,UAAUvB,IAAU,GAGhC,IAAMwB,EAASC,GAAsBF,EAAO,EAAE,EAC9CA,EAAO,aAAaC,EAAQtB,CAAE,EAC1BoB,EAAQ,kBAAkB,GAC5BF,EAAS,KAAKM,GAAoBF,EAAQ,CAAE,SAAU,CAAC,CAAC,CAC5D,CAIF,IAAMG,EAAYzB,EAAG,QAAQ,YAAY,EACzC,GAAIyB,aAAqB,YAAa,CACpC,IAAMC,EAAO3B,GAAkB0B,CAAS,EAGxC,GAAI,OAAOC,GAAS,cAClBD,EAAU,UAAU,SAAS,UAAU,GACvCL,EAAQ,uBAAuB,GAC9B,CACD,IAAMO,EAAeC,GAAoBF,EAAM1B,EAAIS,CAAO,EAC1DS,EAAS,KACPf,GAAiBsB,CAAS,EACvB,KACCI,EAAUd,CAAK,EACfX,EAAI,CAAC,CAAE,MAAAC,EAAO,OAAAyB,CAAO,IAAMzB,GAASyB,CAAM,EAC1CC,EAAqB,EACrBC,EAAUC,GAAUA,EAASN,EAAeO,CAAK,CACnD,CACJ,CACF,CACF,CAOA,OADcC,EAAY,oBAAqBnC,CAAE,EACvC,QACRA,EAAG,UAAU,IAAI,kBAAkB,EAG9BE,GAAeF,CAAE,EACrB,KACCoC,EAAIC,GAASxB,EAAM,KAAKwB,CAAK,CAAC,EAC9BC,EAAS,IAAMzB,EAAM,SAAS,CAAC,EAC/BT,EAAIiC,GAAUE,EAAA,CAAE,IAAKvC,GAAOqC,EAAQ,EACpCG,GAAU,GAAGtB,CAAQ,CACvB,CACJ,CAAC,EAGD,OAAIE,EAAQ,cAAc,EACjBqB,GAAuBzC,CAAE,EAC7B,KACC0C,EAAOC,GAAWA,CAAO,EACzBC,GAAK,CAAC,EACNZ,EAAU,IAAMrB,CAAQ,CAC1B,EAGGA,CACT,CCnLO,SAASkC,GACdC,EAAwB,CAAE,QAAAC,EAAS,OAAAC,CAAO,EACrB,CACrB,IAAIC,EAAO,GACX,OAAOC,EAGLH,EACG,KACCI,EAAIC,GAAUA,EAAO,QAAQ,qBAAqB,CAAE,EACpDC,EAAOC,GAAWR,IAAOQ,CAAO,EAChCH,EAAI,KAAO,CACT,OAAQ,OAAQ,OAAQ,EAC1B,EAAa,CACf,EAGFH,EACG,KACCK,EAAOE,GAAUA,GAAU,CAACN,CAAI,EAChCO,EAAI,IAAMP,EAAOH,EAAG,IAAI,EACxBK,EAAII,IAAW,CACb,OAAQA,EAAS,OAAS,OAC5B,EAAa,CACf,CACJ,CACF,CAaO,SAASE,GACdX,EAAwBY,EACQ,CAChC,OAAOC,EAAM,IAAM,CACjB,IAAMC,EAAQ,IAAIC,EAClB,OAAAD,EAAM,UAAU,CAAC,CAAE,OAAAE,EAAQ,OAAAC,CAAO,IAAM,CACtCjB,EAAG,gBAAgB,OAAQgB,IAAW,MAAM,EACxCC,GACFjB,EAAG,eAAe,CACtB,CAAC,EAGMD,GAAaC,EAAIY,CAAO,EAC5B,KACCF,EAAIQ,GAASJ,EAAM,KAAKI,CAAK,CAAC,EAC9BC,EAAS,IAAML,EAAM,SAAS,CAAC,EAC/BT,EAAIa,GAAUE,EAAA,CAAE,IAAKpB,GAAOkB,EAAQ,CACtC,CACJ,CAAC,CACH,CCzIA,IAAAG,GAAA,yvLCqDA,IAAIC,GAKAC,GAAW,EAWf,SAASC,IAAiC,CACxC,OAAO,OAAO,SAAY,aAAe,mBAAmB,QACxDC,GAAY,kDAAkD,EAC9DC,EAAG,MAAS,CAClB,CAaO,SAASC,GACdC,EACgC,CAChC,OAAAA,EAAG,UAAU,OAAO,SAAS,EAC7BN,QAAaE,GAAa,EACvB,KACCK,EAAI,IAAM,QAAQ,WAAW,CAC3B,YAAa,GACb,SAAAC,GACA,SAAU,CACR,cAAe,OACf,gBAAiB,OACjB,aAAc,MAChB,CACF,CAAC,CAAC,EACFC,EAAI,IAAG,EAAY,EACnBC,EAAY,CAAC,CACf,GAGFV,GAAS,UAAU,IAAYW,GAAA,sBAC7BL,EAAG,UAAU,IAAI,SAAS,EAC1B,IAAMM,EAAK,aAAaX,IAAU,GAG5BY,EAAOC,EAAE,MAAO,CAAE,MAAO,SAAU,CAAC,EACpCC,EAAOT,EAAG,YAGV,CAAE,IAAAU,EAAK,GAAAC,CAAG,EAAI,MAAM,QAAQ,OAAOL,EAAIG,CAAI,EAG3CG,EAASL,EAAK,aAAa,CAAE,KAAM,QAAS,CAAC,EACnDK,EAAO,UAAYF,EAGnBV,EAAG,YAAYO,CAAI,EACnBI,GAAA,MAAAA,EAAKC,EACP,EAAC,EAGMlB,GACJ,KACCS,EAAI,KAAO,CAAE,IAAKH,CAAG,EAAE,CACzB,CACJ,CCtFA,IAAMa,GAAWC,EAAE,OAAO,EAgBnB,SAASC,GACdC,EACkC,CAClC,OAAAA,EAAG,YAAYH,EAAQ,EACvBA,GAAS,YAAYI,GAAYD,CAAE,CAAC,EAG7BE,EAAG,CAAE,IAAKF,CAAG,CAAC,CACvB,CC6BO,SAASG,GACdC,EACyB,CACzB,IAAMC,EAAUD,EAAO,KAAKE,GAASA,EAAM,OAAO,GAAKF,EAAO,CAAC,EAC/D,OAAOG,EAAM,GAAGH,EAAO,IAAIE,GAASE,EAAUF,EAAO,QAAQ,EAC1D,KACCG,EAAI,IAAMC,EAA6B,cAAcJ,EAAM,EAAE,IAAI,CAAC,CACpE,CACF,CAAC,EACE,KACCK,EAAUD,EAA6B,cAAcL,EAAQ,EAAE,IAAI,CAAC,EACpEI,EAAIG,IAAW,CAAE,OAAAA,CAAO,EAAE,CAC5B,CACJ,CAUO,SAASC,GACdC,EAAiB,CAAE,UAAAC,EAAW,QAAAC,CAAQ,EACF,CACpC,IAAMC,EAAYP,EAAW,iBAAkBI,CAAE,EAC3CV,EAASc,EAA8B,iBAAkBJ,CAAE,EAG3DK,EAAOC,GAAoB,MAAM,EACvCN,EAAG,OAAOK,CAAI,EAGd,IAAME,EAAOD,GAAoB,MAAM,EACvC,OAAAN,EAAG,OAAOO,CAAI,EAGPC,EAAM,IAAM,CACjB,IAAMC,EAAQ,IAAIC,EACZC,EAAQF,EAAM,KAAKG,EAAe,EAAGC,GAAQ,EAAI,CAAC,EACxDC,EAAc,CAACL,EAAOM,GAAiBf,CAAE,CAAC,CAAC,EACxC,KACCgB,EAAUL,CAAK,EACfM,GAAU,EAAGC,EAAuB,CACtC,EACG,UAAU,CAGT,KAAK,CAAC,CAAE,OAAApB,CAAO,EAAGqB,CAAI,EAAG,CACvB,IAAMC,EAASC,GAAiBvB,CAAM,EAChC,CAAE,MAAAwB,CAAM,EAAIC,GAAezB,CAAM,EAGvCE,EAAG,MAAM,YAAY,mBAAoB,GAAGoB,EAAO,CAAC,IAAI,EACxDpB,EAAG,MAAM,YAAY,uBAAwB,GAAGsB,CAAK,IAAI,EAGzD,IAAME,EAAUC,GAAwBtB,CAAS,GAE/CiB,EAAO,EAAYI,EAAQ,GAC3BJ,EAAO,EAAIE,EAAQE,EAAQ,EAAIL,EAAK,QAEpChB,EAAU,SAAS,CACjB,KAAM,KAAK,IAAI,EAAGiB,EAAO,EAAI,EAAE,EAC/B,SAAU,QACZ,CAAC,CACL,EAGA,UAAW,CACTpB,EAAG,MAAM,eAAe,kBAAkB,EAC1CA,EAAG,MAAM,eAAe,sBAAsB,CAChD,CACF,CAAC,EAGLc,EAAc,CACZY,GAA0BvB,CAAS,EACnCY,GAAiBZ,CAAS,CAC5B,CAAC,EACE,KACCa,EAAUL,CAAK,CACjB,EACG,UAAU,CAAC,CAACS,EAAQD,CAAI,IAAM,CAC7B,IAAMK,EAAUG,GAAsBxB,CAAS,EAC/CE,EAAK,OAASe,EAAO,EAAI,GACzBb,EAAK,OAASa,EAAO,EAAII,EAAQ,MAAQL,EAAK,MAAQ,EACxD,CAAC,EAGL1B,EACEC,EAAUW,EAAM,OAAO,EAAE,KAAKV,EAAI,IAAM,EAAE,CAAC,EAC3CD,EAAUa,EAAM,OAAO,EAAE,KAAKZ,EAAI,IAAM,CAAE,CAAC,CAC7C,EACG,KACCqB,EAAUL,CAAK,CACjB,EACG,UAAUiB,GAAa,CACtB,GAAM,CAAE,MAAAN,CAAM,EAAIC,GAAepB,CAAS,EAC1CA,EAAU,SAAS,CACjB,KAAMmB,EAAQM,EACd,SAAU,QACZ,CAAC,CACH,CAAC,EAGL1B,EACG,KACCc,EAAUL,CAAK,EACfkB,EAAOrC,GAASF,EAAO,SAASE,CAAyB,CAAC,CAC5D,EACG,UAAUA,GAASA,EAAM,MAAM,CAAC,EAGrCW,EAAU,UAAU,IAAI,uBAAuB,EAC/C,QAAWX,KAASF,EAAQ,CAC1B,IAAMwC,EAAQlC,EAA6B,cAAcJ,EAAM,EAAE,IAAI,EACrEsC,EAAM,gBAAgBC,EAAE,IAAK,CAC3B,KAAM,IAAID,EAAM,OAAO,GACvB,SAAU,EACZ,EAAG,GAAG,MAAM,KAAKA,EAAM,UAAU,CAAC,CAAC,EAGnCpC,EAAsBoC,EAAM,kBAAoB,OAAO,EACpD,KACCd,EAAUL,CAAK,EACfkB,EAAOG,GAAM,EAAEA,EAAG,SAAWA,EAAG,QAAQ,EACxCC,EAAID,GAAM,CACRA,EAAG,eAAe,EAClBA,EAAG,gBAAgB,CACrB,CAAC,CACH,EAEG,UAAU,IAAM,CACf,QAAQ,aAAa,CAAC,EAAG,GAAI,IAAIF,EAAM,OAAO,EAAE,EAChDA,EAAM,MAAM,CACd,CAAC,CACP,CAGA,OAAII,EAAQ,mBAAmB,GAC7BzB,EAAM,KACJ0B,GAAK,CAAC,EACNC,GAAenC,CAAS,CAC1B,EACG,UAAU,CAAC,CAAC,CAAE,OAAAH,CAAO,EAAG,CAAE,OAAAsB,CAAO,CAAC,IAAM,CACvC,IAAMiB,EAAMvC,EAAO,UAAU,KAAK,EAClC,GAAIA,EAAO,aAAa,mBAAmB,EACzCA,EAAO,gBAAgB,mBAAmB,MAGrC,CACL,IAAMwC,EAAItC,EAAG,UAAYoB,EAAO,EAGhC,QAAWmB,KAAOnC,EAAY,aAAa,EACzC,QAAWZ,KAASY,EAClB,iBAAkBmC,CACpB,EAAG,CACD,IAAMT,GAAQlC,EAAW,cAAcJ,EAAM,EAAE,IAAI,EACnD,GACEsC,KAAUhC,GACVgC,GAAM,UAAU,KAAK,IAAMO,EAC3B,CACAP,GAAM,aAAa,oBAAqB,EAAE,EAC1CtC,EAAM,MAAM,EACZ,KACF,CACF,CAGF,OAAO,SAAS,CACd,IAAKQ,EAAG,UAAYsC,CACtB,CAAC,EAGD,IAAME,EAAO,SAAmB,QAAQ,GAAK,CAAC,EAC9C,SAAS,SAAU,CAAC,GAAG,IAAI,IAAI,CAACH,EAAK,GAAGG,CAAI,CAAC,CAAC,CAAC,CACjD,CACF,CAAC,EAGL/B,EAAM,KAAKO,EAAUL,CAAK,CAAC,EACxB,UAAU,IAAM,CACf,QAAW8B,KAASrC,EAA8B,eAAgBJ,CAAE,EAClEyC,EAAM,MAAM,CAChB,CAAC,EAGIC,GAAuB1C,CAAE,EAC7B,KACC2C,EAAU,IAAMtD,GAAiBC,CAAM,CAAC,EACxC2C,EAAIW,GAASnC,EAAM,KAAKmC,CAAK,CAAC,EAC9BC,EAAS,IAAMpC,EAAM,SAAS,CAAC,EAC/Bd,EAAIiD,GAAUE,EAAA,CAAE,IAAK9C,GAAO4C,EAAQ,CACtC,CACJ,CAAC,EACE,KACCG,GAAYC,EAAc,CAC5B,CACJ,CCtMO,SAASC,GACdC,EAAiB,CAAE,UAAAC,EAAW,QAAAC,EAAS,OAAAC,CAAO,EACd,CAChC,OAAOC,EAGL,GAAGC,EAAY,4BAA6BL,CAAE,EAC3C,IAAIM,GAASC,GAAqBD,EAAO,CAAE,QAAAJ,EAAS,OAAAC,CAAO,CAAC,CAAC,EAGhE,GAAGE,EAAY,2BAA4BL,CAAE,EAC1C,IAAIM,GAASE,GAAeF,EAAO,CAAE,QAAAJ,EAAS,OAAAC,CAAO,CAAC,CAAC,EAG1D,GAAGE,EAAY,cAAeL,CAAE,EAC7B,IAAIM,GAASG,GAAaH,CAAK,CAAC,EAGnC,GAAGD,EAAY,qBAAsBL,CAAE,EACpC,IAAIM,GAASI,GAAeJ,CAAK,CAAC,EAGrC,GAAGD,EAAY,UAAWL,CAAE,EACzB,IAAIM,GAASK,GAAaL,EAAO,CAAE,QAAAJ,EAAS,OAAAC,CAAO,CAAC,CAAC,EAGxD,GAAGE,EAAY,cAAeL,CAAE,EAC7B,IAAIM,GAASM,GAAiBN,EAAO,CAAE,UAAAL,EAAW,QAAAC,CAAQ,CAAC,CAAC,EAG/D,GAAGG,EAAY,UAAWL,CAAE,EACzB,OAAO,IAAMa,EAAQ,kBAAkB,CAAC,EACxC,IAAIP,GAASQ,GAAoBR,EAAO,CAAE,UAAAL,CAAU,CAAC,CAAC,CAC3D,CACF,CCtDO,SAASc,GACdC,EAAkB,CAAE,OAAAC,CAAO,EACP,CACpB,OAAOA,EACJ,KACCC,EAAUC,GAAWC,EACnBC,EAAG,EAAI,EACPA,EAAG,EAAK,EAAE,KAAKC,GAAM,GAAI,CAAC,CAC5B,EACG,KACCC,EAAIC,IAAW,CAAE,QAAAL,EAAS,OAAAK,CAAO,EAAE,CACrC,CACF,CACF,CACJ,CAaO,SAASC,GACdC,EAAiBC,EACc,CAC/B,IAAMC,EAAQC,EAAW,cAAeH,CAAE,EAC1C,OAAOI,EAAM,IAAM,CACjB,IAAMC,EAAQ,IAAIC,EAClB,OAAAD,EAAM,UAAU,CAAC,CAAE,QAAAZ,EAAS,OAAAK,CAAO,IAAM,CACvCE,EAAG,UAAU,OAAO,oBAAqBF,CAAM,EAC/CI,EAAM,YAAcT,CACtB,CAAC,EAGMJ,GAAYW,EAAIC,CAAO,EAC3B,KACCM,EAAIC,GAASH,EAAM,KAAKG,CAAK,CAAC,EAC9BC,EAAS,IAAMJ,EAAM,SAAS,CAAC,EAC/BR,EAAIW,GAAUE,EAAA,CAAE,IAAKV,GAAOQ,EAAQ,CACtC,CACJ,CAAC,CACH,CCnDA,IAAIG,GAAW,EAiBR,SAASC,GACdC,EAAiBC,EACI,CACrB,SAAS,KAAK,OAAOD,CAAE,EAGvB,GAAM,CAAE,MAAAE,CAAM,EAAIC,GAAeH,CAAE,EACnCA,EAAG,MAAM,YAAY,qBAAsB,GAAGE,CAAK,IAAI,EACvDF,EAAG,OAAO,EAGV,IAAMI,EAAYC,GAAoBJ,CAAI,EACpCK,EACJ,OAAOF,GAAc,YACjBG,GAA0BH,CAAS,EACnCI,EAAG,CAAE,EAAG,EAAG,EAAG,CAAE,CAAC,EAGjBC,EAAUC,EACdC,GAAkBV,CAAI,EACtBW,GAAkBX,CAAI,CACxB,EACG,KACCY,EAAqB,CACvB,EAGF,OAAOC,EAAc,CAACL,EAASH,CAAO,CAAC,EACpC,KACCS,EAAI,CAAC,CAACC,EAAQC,CAAM,IAAM,CACxB,GAAI,CAAE,EAAAC,EAAG,EAAAC,CAAE,EAAIC,GAAiBnB,CAAI,EAC9BoB,EAAOlB,GAAeF,CAAI,EAU1BqB,EAAQrB,EAAK,QAAQ,OAAO,EAClC,OAAIqB,GAASrB,EAAK,gBAChBiB,GAAKI,EAAM,WAAarB,EAAK,cAAc,WAC3CkB,GAAKG,EAAM,UAAarB,EAAK,cAAc,WAEtC,CACL,OAAAe,EACA,OAAQ,CACN,EAAGE,EAAID,EAAO,EAAII,EAAK,MAAS,EAAInB,EAAQ,EAC5C,EAAGiB,EAAIF,EAAO,EAAII,EAAK,OAAS,CAClC,CACF,CACF,CAAC,CACH,CACJ,CASO,SAASE,GACdvB,EACgC,CAChC,IAAMwB,EAAQxB,EAAG,MACjB,GAAI,CAACwB,EAAM,OACT,OAAOC,EAGT,IAAMC,EAAK,aAAa5B,IAAU,GAC5B6B,EAAUC,GAAcF,EAAI,QAAQ,EACpCG,EAAUC,EAAW,cAAeH,CAAO,EACjD,OAAAE,EAAQ,UAAYL,EAGbO,EAAM,IAAM,CACjB,IAAMC,EAAQ,IAAIC,EAClB,OAAAD,EAAM,UAAU,CAGd,KAAK,CAAE,OAAAE,CAAO,EAAG,CACfP,EAAQ,MAAM,YAAY,iBAAkB,GAAGO,EAAO,CAAC,IAAI,EAC3DP,EAAQ,MAAM,YAAY,iBAAkB,GAAGO,EAAO,CAAC,IAAI,CAC7D,EAGA,UAAW,CACTP,EAAQ,MAAM,eAAe,gBAAgB,EAC7CA,EAAQ,MAAM,eAAe,gBAAgB,CAC/C,CACF,CAAC,EAGDjB,EACEsB,EAAM,KAAKG,EAAO,CAAC,CAAE,OAAAnB,CAAO,IAAMA,CAAM,CAAC,EACzCgB,EAAM,KAAKI,GAAa,GAAG,EAAGD,EAAO,CAAC,CAAE,OAAAnB,CAAO,IAAM,CAACA,CAAM,CAAC,CAC/D,EACG,UAAU,CAGT,KAAK,CAAE,OAAAA,CAAO,EAAG,CACXA,GACFhB,EAAG,sBAAsB,WAAY2B,CAAO,EAC5C3B,EAAG,aAAa,mBAAoB0B,CAAE,EACtC1B,EAAG,gBAAgB,OAAO,IAE1B2B,EAAQ,OAAO,EACf3B,EAAG,gBAAgB,kBAAkB,EACrCA,EAAG,aAAa,QAASwB,CAAK,EAElC,EAGA,UAAW,CACTG,EAAQ,OAAO,EACf3B,EAAG,gBAAgB,kBAAkB,EACrCA,EAAG,aAAa,QAASwB,CAAK,CAChC,CACF,CAAC,EAGHQ,EACG,KACCK,GAAU,GAAIC,EAAuB,CACvC,EACG,UAAU,CAAC,CAAE,OAAAtB,CAAO,IAAM,CACzBW,EAAQ,UAAU,OAAO,qBAAsBX,CAAM,CACvD,CAAC,EAMLgB,EACG,KACCO,GAAa,IAAKD,EAAuB,EACzCH,EAAO,IAAM,CAAC,CAACnC,EAAG,YAAY,EAC9Be,EAAI,IAAMf,EAAG,aAAc,sBAAsB,CAAC,EAClDe,EAAI,CAAC,CAAE,EAAAG,CAAE,IAAMA,CAAC,CAClB,EACC,UAAU,CAGT,KAAKsB,EAAQ,CACPA,EACFb,EAAQ,MAAM,YAAY,iBAAkB,GAAG,CAACa,CAAM,IAAI,EAE1Db,EAAQ,MAAM,eAAe,gBAAgB,CACjD,EAGA,UAAW,CACTA,EAAQ,MAAM,eAAe,gBAAgB,CAC/C,CACF,CAAC,EAGI5B,GAAa4B,EAAS3B,CAAE,EAC5B,KACCyC,EAAIC,GAASV,EAAM,KAAKU,CAAK,CAAC,EAC9BC,EAAS,IAAMX,EAAM,SAAS,CAAC,EAC/BjB,EAAI2B,GAAUE,EAAA,CAAE,IAAK5C,GAAO0C,EAAQ,CACtC,CACJ,CAAC,EACE,KACCG,GAAYC,EAAc,CAC5B,CACJ,CC7JA,SAASC,GAAS,CAAE,UAAAC,CAAU,EAAsC,CAClE,GAAI,CAACC,EAAQ,iBAAiB,EAC5B,OAAOC,EAAG,EAAK,EAGjB,IAAMC,EAAaH,EAChB,KACCI,EAAI,CAAC,CAAE,OAAQ,CAAE,EAAAC,CAAE,CAAE,IAAMA,CAAC,EAC5BC,GAAY,EAAG,CAAC,EAChBF,EAAI,CAAC,CAACG,EAAGC,CAAC,IAAM,CAACD,EAAIC,EAAGA,CAAC,CAAU,EACnCC,EAAwB,CAAC,CAC3B,EAGIC,EAAUC,EAAc,CAACX,EAAWG,CAAU,CAAC,EAClD,KACCS,EAAO,CAAC,CAAC,CAAE,OAAAC,CAAO,EAAG,CAAC,CAAER,CAAC,CAAC,IAAM,KAAK,IAAIA,EAAIQ,EAAO,CAAC,EAAI,GAAG,EAC5DT,EAAI,CAAC,CAAC,CAAE,CAACU,CAAS,CAAC,IAAMA,CAAS,EAClCC,EAAqB,CACvB,EAGIC,EAAUC,GAAY,QAAQ,EACpC,OAAON,EAAc,CAACX,EAAWgB,CAAO,CAAC,EACtC,KACCZ,EAAI,CAAC,CAAC,CAAE,OAAAS,CAAO,EAAGK,CAAM,IAAML,EAAO,EAAI,KAAO,CAACK,CAAM,EACvDH,EAAqB,EACrBI,EAAUC,GAAUA,EAASV,EAAUR,EAAG,EAAK,CAAC,EAChDmB,EAAU,EAAK,CACjB,CACJ,CAcO,SAASC,GACdC,EAAiBC,EACG,CACpB,OAAOC,EAAM,IAAMd,EAAc,CAC/Be,GAAiBH,CAAE,EACnBxB,GAASyB,CAAO,CAClB,CAAC,CAAC,EACC,KACCpB,EAAI,CAAC,CAAC,CAAE,OAAAuB,CAAO,EAAGC,CAAM,KAAO,CAC7B,OAAAD,EACA,OAAAC,CACF,EAAE,EACFb,EAAqB,CAACR,EAAGC,IACvBD,EAAE,SAAWC,EAAE,QACfD,EAAE,SAAWC,EAAE,MAChB,EACDqB,EAAY,CAAC,CACf,CACJ,CAaO,SAASC,GACdP,EAAiB,CAAE,QAAAQ,EAAS,MAAAC,CAAM,EACO,CACzC,OAAOP,EAAM,IAAM,CACjB,IAAMQ,EAAQ,IAAIC,EACZC,EAAQF,EAAM,KAAKG,EAAe,EAAGC,GAAQ,EAAI,CAAC,EACxDJ,EACG,KACCxB,EAAwB,QAAQ,EAChC6B,GAAkBP,CAAO,CAC3B,EACG,UAAU,CAAC,CAAC,CAAE,OAAAX,CAAO,EAAG,CAAE,OAAAQ,CAAO,CAAC,IAAM,CACvCL,EAAG,UAAU,OAAO,oBAAqBH,GAAU,CAACQ,CAAM,EAC1DL,EAAG,OAASK,CACd,CAAC,EAGL,IAAMW,EAAWC,GAAKC,EAAY,UAAWlB,CAAE,CAAC,EAC7C,KACCX,EAAO,IAAMX,EAAQ,kBAAkB,CAAC,EACxCyC,GAASC,GAASC,GAAaD,CAAK,CAAC,CACvC,EAGF,OAAAX,EAAM,UAAUC,CAAK,EAGdF,EACJ,KACCc,EAAUV,CAAK,EACf/B,EAAI0C,GAAUC,EAAA,CAAE,IAAKxB,GAAOuB,EAAQ,EACpCE,GAAUT,EAAS,KAAKM,EAAUV,CAAK,CAAC,CAAC,CAC3C,CACJ,CAAC,CACH,CCjIO,SAASc,GACdC,EAAiB,CAAE,UAAAC,EAAW,QAAAC,CAAQ,EACb,CACzB,OAAOC,GAAgBH,EAAI,CAAE,UAAAC,EAAW,QAAAC,CAAQ,CAAC,EAC9C,KACCE,EAAI,CAAC,CAAE,OAAQ,CAAE,EAAAC,CAAE,CAAE,IAAM,CACzB,GAAM,CAAE,OAAAC,CAAO,EAAIC,GAAeP,CAAE,EACpC,MAAO,CACL,OAAQK,GAAKC,CACf,CACF,CAAC,EACDE,EAAwB,QAAQ,CAClC,CACJ,CAaO,SAASC,GACdT,EAAiBU,EACmB,CACpC,OAAOC,EAAM,IAAM,CACjB,IAAMC,EAAQ,IAAIC,EAClBD,EAAM,UAAU,CAGd,KAAK,CAAE,OAAAE,CAAO,EAAG,CACfd,EAAG,UAAU,OAAO,2BAA4Bc,CAAM,CACxD,EAGA,UAAW,CACTd,EAAG,UAAU,OAAO,0BAA0B,CAChD,CACF,CAAC,EAGD,IAAMe,EAAUC,GAAmB,gBAAgB,EACnD,OAAI,OAAOD,GAAY,YACdE,EAGFlB,GAAiBgB,EAASL,CAAO,EACrC,KACCQ,EAAIC,GAASP,EAAM,KAAKO,CAAK,CAAC,EAC9BC,EAAS,IAAMR,EAAM,SAAS,CAAC,EAC/BR,EAAIe,GAAUE,EAAA,CAAE,IAAKrB,GAAOmB,EAAQ,CACtC,CACJ,CAAC,CACH,CChEO,SAASG,GACdC,EAAiB,CAAE,UAAAC,EAAW,QAAAC,CAAQ,EACpB,CAGlB,IAAMC,EAAUD,EACb,KACCE,EAAI,CAAC,CAAE,OAAAC,CAAO,IAAMA,CAAM,EAC1BC,EAAqB,CACvB,EAGIC,EAAUJ,EACb,KACCK,EAAU,IAAMC,GAAiBT,CAAE,EAChC,KACCI,EAAI,CAAC,CAAE,OAAAC,CAAO,KAAO,CACnB,IAAQL,EAAG,UACX,OAAQA,EAAG,UAAYK,CACzB,EAAE,EACFK,EAAwB,QAAQ,CAClC,CACF,CACF,EAGF,OAAOC,EAAc,CAACR,EAASI,EAASN,CAAS,CAAC,EAC/C,KACCG,EAAI,CAAC,CAACQ,EAAQ,CAAE,IAAAC,EAAK,OAAAC,CAAO,EAAG,CAAE,OAAQ,CAAE,EAAAC,CAAE,EAAG,KAAM,CAAE,OAAAV,CAAO,CAAE,CAAC,KAChEA,EAAS,KAAK,IAAI,EAAGA,EACjB,KAAK,IAAI,EAAGQ,EAASE,EAAIH,CAAM,EAC/B,KAAK,IAAI,EAAGP,EAASU,EAAID,CAAM,CACnC,EACO,CACL,OAAQD,EAAMD,EACd,OAAAP,EACA,OAAQQ,EAAMD,GAAUG,CAC1B,EACD,EACDT,EAAqB,CAACU,EAAGC,IACvBD,EAAE,SAAWC,EAAE,QACfD,EAAE,SAAWC,EAAE,QACfD,EAAE,SAAWC,EAAE,MAChB,CACH,CACJ,CCxCO,SAASC,GACdC,EACqB,CACrB,IAAMC,EAAU,SAAkB,WAAW,GAAK,CAChD,MAAOD,EAAO,UAAUE,GAAS,WAC/BA,EAAM,aAAa,qBAAqB,CAC1C,EAAE,OAAO,CACX,EAGMC,EAAQ,KAAK,IAAI,EAAG,KAAK,IAAIF,EAAQ,MAAOD,EAAO,OAAS,CAAC,CAAC,EACpE,OAAOI,EAAG,GAAGJ,CAAM,EAChB,KACCK,GAASH,GAASI,EAAUJ,EAAO,QAAQ,EAAE,KAAKK,EAAI,IAAML,CAAK,CAAC,CAAC,EACnEM,EAAUR,EAAOG,CAAK,CAAC,EACvBI,EAAIL,IAAU,CACZ,MAAOF,EAAO,QAAQE,CAAK,EAC3B,MAAO,CACL,MAASA,EAAM,aAAa,qBAAqB,EACjD,OAASA,EAAM,aAAa,sBAAsB,EAClD,QAASA,EAAM,aAAa,uBAAuB,EACnD,OAASA,EAAM,aAAa,sBAAsB,CACpD,CACF,EAAa,EACbO,EAAY,CAAC,CACf,CACJ,CASO,SAASC,GACdC,EACgC,CAChC,IAAMX,EAASY,EAA8B,QAASD,CAAE,EAClDE,EAAOC,EAAE,OAAQ,CAAE,KAAM,aAAc,CAAC,EAC9C,SAAS,KAAK,YAAYD,CAAI,EAG9B,IAAME,EAASD,EAAE,OAAQ,CAAE,KAAM,cAAe,CAAC,EACjD,SAAS,KAAK,YAAYC,CAAM,EAGhC,IAAMC,EAASC,GAAW,+BAA+B,EACzD,OAAOC,EAAM,IAAM,CACjB,IAAMC,EAAQ,IAAIC,EAClB,OAAAD,EAAM,UAAUE,GAAW,CAIzB,GAHA,SAAS,KAAK,aAAa,0BAA2B,EAAE,EAGpDA,EAAQ,MAAM,QAAU,yBAA0B,CACpD,IAAMC,EAAQ,WAAW,+BAA+B,EAClDpB,EAAQ,SAAS,cAAcoB,EAAM,QACvC,wDACA,sDACJ,EAGAD,EAAQ,MAAM,OAAUnB,EAAM,aAAa,sBAAsB,EACjEmB,EAAQ,MAAM,QAAUnB,EAAM,aAAa,uBAAuB,EAClEmB,EAAQ,MAAM,OAAUnB,EAAM,aAAa,sBAAsB,CACnE,CAGA,OAAW,CAACqB,EAAKC,CAAK,IAAK,OAAO,QAAQH,EAAQ,KAAK,EACrD,SAAS,KAAK,aAAa,iBAAiBE,CAAG,GAAIC,CAAK,EAG1D,QAASrB,EAAQ,EAAGA,EAAQH,EAAO,OAAQG,IAAS,CAClD,IAAMsB,EAAQzB,EAAOG,CAAK,EAAE,mBACxBsB,aAAiB,cACnBA,EAAM,OAASJ,EAAQ,QAAUlB,EACrC,CAGA,SAAS,YAAakB,CAAO,CAC/B,CAAC,EAGDf,EAAyBK,EAAI,SAAS,EAAE,KACtCe,EAAOC,GAAMA,EAAG,MAAQ,OAAO,EAC/BC,GAAeT,EAAO,CAACU,EAAGR,IAAYA,CAAO,CAC/C,EACG,UAAU,CAAC,CAAE,MAAAlB,CAAM,IAAM,CACxBA,GAASA,EAAQ,GAAKH,EAAO,OAC7BA,EAAOG,CAAK,EAAE,MAAM,EACpBH,EAAOG,CAAK,EAAE,MAAM,CACtB,CAAC,EAGHgB,EACG,KACCZ,EAAI,IAAM,CACR,IAAMuB,EAASC,GAAoB,QAAQ,EACrCC,EAAS,OAAO,iBAAiBF,CAAM,EAG7C,OAAAf,EAAO,QAAUiB,EAAM,YAGhBA,EAAM,gBAAgB,MAAM,MAAM,EACtC,IAAIR,IAAU,CAACA,GAAO,SAAS,EAAE,EAAE,SAAS,EAAG,GAAG,CAAC,EACnD,KAAK,EAAE,CACZ,CAAC,CACH,EACG,UAAUS,GAASpB,EAAK,QAAU,IAAIoB,CAAK,EAAE,EAGlDd,EAAM,KAAKe,GAAUC,EAAc,CAAC,EACjC,UAAU,IAAM,CACf,SAAS,KAAK,gBAAgB,yBAAyB,CACzD,CAAC,EAGIpC,GAAaC,CAAM,EACvB,KACCoC,EAAUpB,EAAO,KAAKqB,GAAK,CAAC,CAAC,CAAC,EAC9BC,GAAO,EACPC,EAAIC,GAASrB,EAAM,KAAKqB,CAAK,CAAC,EAC9BC,EAAS,IAAMtB,EAAM,SAAS,CAAC,EAC/BZ,EAAIiC,GAAUE,EAAA,CAAE,IAAK/B,GAAO6B,EAAQ,CACtC,CACJ,CAAC,CACH,CChJO,SAASG,GACdC,EAAiB,CAAE,UAAAC,CAAU,EACI,CAGjC,OAAOC,EAAM,IAAM,CACjB,IAAMC,EAAQ,IAAIC,EAClB,OAAAD,EAAM,UAAU,CAAC,CAAE,MAAAE,CAAM,IAAM,CAC7BL,EAAG,MAAM,YAAY,sBAAuB,GAAGK,CAAK,EAAE,CACxD,CAAC,EAGMJ,EACJ,KACCK,EAAID,GAASF,EAAM,KAAK,CAAE,MAAAE,CAAM,CAAC,CAAC,EAClCE,EAAS,IAAMJ,EAAM,SAAS,CAAC,EAC/BK,EAAIH,IAAU,CAAE,IAAKL,EAAI,MAAAK,CAAM,EAAE,CACnC,CACJ,CAAC,CACH,CChEA,IAAAI,GAAwB,SAiCxB,SAASC,GAAQC,EAAyB,CACxCA,EAAG,aAAa,kBAAmB,EAAE,EACrC,IAAMC,EAAOD,EAAG,QAAQ,aAAa,EAC/BE,EAAOD,EACTA,EAAK,aAAa,WAAW,EAC7BD,EAAG,UACP,OAAAA,EAAG,gBAAgB,iBAAiB,EAC7BE,EAAK,QAAQ,CACtB,CAWO,SAASC,GACd,CAAE,OAAAC,CAAO,EACH,CACF,GAAAC,QAAY,YAAY,GAC1B,IAAIC,EAA8BC,GAAc,CAC9C,IAAI,GAAAF,QAAY,iDAAkD,CAChE,KAAML,GACJA,EAAG,aAAa,qBAAqB,GACrCD,GAAQS,EACNR,EAAG,aAAa,uBAAuB,CACzC,CAAC,CAEL,CAAC,EACE,GAAG,UAAWS,GAAMF,EAAW,KAAKE,CAAE,CAAC,CAC5C,CAAC,EACE,KACCC,EAAID,GAAM,CACQA,EAAG,QACX,MAAM,CAChB,CAAC,EACDE,EAAI,IAAMC,GAAY,kBAAkB,CAAC,CAC3C,EACG,UAAUR,CAAM,CAEzB,CCrCA,SAASS,GAAQC,EAAUC,EAAW,CACpC,OAAAD,EAAI,SAAWC,EAAK,SACpBD,EAAI,SAAWC,EAAK,SACbD,CACT,CA2BA,SAASE,GAAQC,EAAoBF,EAAoB,CACvD,IAAMG,EAAmB,IAAI,IAC7B,QAAWC,KAAMC,EAAY,MAAOH,CAAQ,EAAG,CAC7C,IAAMH,EAAMO,EAAW,MAAOF,CAAE,EAG1BG,EAAQ,CAACT,GAAQ,IAAI,IAAIC,EAAI,WAAY,EAAGC,CAAI,CAAC,EACvDG,EAAQ,IAAI,GAAGI,EAAM,CAAC,CAAC,GAAIA,CAAK,EAGhC,QAAWC,KAAQH,EAAY,kBAAmBD,CAAE,EAAG,CACrD,IAAMK,EAAOD,EAAK,aAAa,MAAM,EACjCC,GAAQ,MACVF,EAAM,KAAKT,GAAQ,IAAI,IAAIW,CAAI,EAAGT,CAAI,CAAC,CAC3C,CACF,CAGA,OAAOG,CACT,CAgBO,SAASO,GAAaV,EAAyC,CACpE,OAAOW,GAAW,IAAI,IAAI,cAAeX,CAAI,CAAC,EAC3C,KACCY,EAAIV,GAAYD,GAAQC,EAAU,IAAI,IAAIF,CAAI,CAAC,CAAC,EAChDa,GAAW,IAAMC,EAAG,IAAI,GAAK,CAAC,CAChC,CACJ,CClDA,SAASC,GACPC,EAAgBC,EACC,CACjB,GAAI,EAAED,EAAG,kBAAkB,SACzB,OAAOE,EAIT,IAAMC,EAAKH,EAAG,OAAO,QAAQ,GAAG,EAChC,GAAIG,IAAO,KACT,OAAOD,EAMT,GAAIC,EAAG,QAAUH,EAAG,SAAWA,EAAG,QAChC,OAAOE,EAQT,IAAME,EAAM,IAAI,IAAID,EAAG,IAAI,EAO3B,OANAC,EAAI,OAASA,EAAI,KAAO,GAMnBH,EAAQ,IAAI,GAAGG,CAAG,EAAE,GASzBJ,EAAG,eAAe,EACXK,EAAG,IAAI,IAAIF,EAAG,IAAI,CAAC,GATjBD,CAUX,CASA,SAASI,GAAKC,EAA8C,CAC1D,IAAMC,EAAO,IAAI,IACjB,QAAWL,KAAMM,EAAY,aAAcF,EAAS,IAAI,EACtDC,EAAK,IAAIL,EAAG,UAAWA,CAAE,EAG3B,OAAOK,CACT,CAYA,SAASE,GAAQH,EAA0C,CACzD,QAAWJ,KAAMM,EAAY,gBAAiBF,CAAQ,EACpD,QAAWI,IAAO,CAAC,OAAQ,KAAK,EAAG,CACjC,IAAMC,EAAQT,EAAG,aAAaQ,CAAG,EACjC,GAAIC,GAAS,CAAC,qBAAqB,KAAKA,CAAK,EAAG,CAE9CT,EAAGQ,CAAG,EAAIR,EAAGQ,CAAG,EAChB,KACF,CACF,CAGF,OAAON,EAAGE,CAAQ,CACpB,CASA,SAASM,GAAOC,EAAsC,CACpD,QAAWC,IAAY,CACrB,+BACA,gCACA,mCACA,+BACA,2BACA,2BACA,GAAGC,EAAQ,wBAAwB,EAC/B,CAAC,0BAA0B,EAC3B,CAAC,CACP,EAAG,CACD,IAAMC,EAASC,GAAmBH,CAAQ,EACpCI,EAASD,GAAmBH,EAAUD,CAAI,EAE9C,OAAOG,GAAW,aAClB,OAAOE,GAAW,aAElBF,EAAO,YAAYE,CAAM,CAE7B,CAGA,IAAMX,EAAOF,GAAK,QAAQ,EAC1B,OAAW,CAACc,EAAMjB,CAAE,IAAKG,GAAKQ,CAAI,EAC5BN,EAAK,IAAIY,CAAI,EACfZ,EAAK,OAAOY,CAAI,EAEhB,SAAS,KAAK,YAAYjB,CAAE,EAGhC,QAAWA,KAAMK,EAAK,OAAO,EAAG,CAC9B,IAAMa,EAAOlB,EAAG,aAAa,MAAM,EAI/BkB,IAAS,eAAiBA,IAAS,gBACrClB,EAAG,OAAO,CACd,CAIA,IAAMmB,EAAYC,GAAoB,WAAW,EACjD,OAAOC,GAAOf,EAAY,SAAUa,CAAS,CAAC,EAC3C,KACCG,EAAUtB,GAAM,CACd,IAAMuB,EAASZ,EAAK,cAAc,QAAQ,EAC1C,GAAIX,EAAG,IAAK,CACV,QAAWkB,KAAQlB,EAAG,kBAAkB,EACtCuB,EAAO,aAAaL,EAAMlB,EAAG,aAAakB,CAAI,CAAE,EAClD,OAAAlB,EAAG,YAAYuB,CAAM,EAGd,IAAIC,EAAWC,GAAY,CAChCF,EAAO,OAAS,IAAME,EAAS,SAAS,CAC1C,CAAC,CAGH,KACE,QAAAF,EAAO,YAAcvB,EAAG,YACxBA,EAAG,YAAYuB,CAAM,EACdxB,CAEX,CAAC,EACD2B,EAAe,EACfC,GAAQ,QAAQ,CAClB,CACJ,CAgBO,SAASC,GACd,CAAE,UAAAC,EAAW,UAAAC,EAAW,UAAAC,CAAU,EACZ,CACtB,IAAMC,EAASC,GAAc,EAC7B,GAAI,SAAS,WAAa,QACxB,OAAOlC,EAIT,IAAMmC,EAAWC,GAAaH,EAAO,IAAI,EAUzC9B,EAAG,QAAQ,EACR,UAAUK,EAAO,EAUpB,IAAM6B,EACJC,EAAsB,SAAS,KAAM,OAAO,EACzC,KACCC,GAAkBJ,CAAQ,EAC1BZ,EAAU,CAAC,CAACzB,EAAIC,CAAO,IAAMF,GAAOC,EAAIC,CAAO,CAAC,EAChDyC,GAAM,CACR,EAIEC,EACJH,EAAyB,OAAQ,UAAU,EACxC,KACCI,EAAIC,EAAW,EACfH,GAAM,CACR,EAMJH,EAAS,KAAKO,GAAeb,CAAS,CAAC,EACpC,UAAU,CAAC,CAAC7B,EAAK,CAAE,OAAA2C,CAAO,CAAC,IAAM,CAChC,QAAQ,aAAaA,EAAQ,EAAE,EAC/B,QAAQ,UAAU,KAAM,GAAI3C,CAAG,CACjC,CAAC,EAMH4C,EAAMT,EAAUI,CAAQ,EACrB,UAAUX,CAAS,EActB,IAAMiB,EACJjB,EAAU,KACRkB,EAAwB,UAAU,EAClCzB,EAAUrB,GAAO+C,GAAY/C,EAAK,CAAE,UAAA8B,CAAU,CAAC,EAC5C,KACCkB,GAAW,KACTC,GAAYjD,EAAK,EAAI,EACdF,EACR,CACH,CACF,EAIAuB,EAAUf,EAAO,EACjBe,EAAUZ,EAAM,EAChB6B,GAAM,CACR,EAUF,OAAAM,EACEC,EAAU,KAAKH,GAAed,EAAW,CAACsB,EAAGlD,IAAQA,CAAG,CAAC,EASzD6C,EAAU,KACRxB,EAAU,IAAMO,CAAS,EACzBkB,EAAwB,UAAU,EAClCzB,EAAU,IAAMO,CAAS,EACzBkB,EAAwB,MAAM,CAChC,EAQAlB,EAAU,KACRuB,EAAqB,CAACC,EAAGC,IACvBD,EAAE,WAAaC,EAAE,UACjBD,EAAE,OAAaC,EAAE,IAClB,EACDhC,EAAU,IAAMc,CAAQ,EACxBmB,EAAI,IAAM,QAAQ,KAAK,CAAC,CAC1B,CACF,EACG,UAAUtD,GAAO,CA1YtB,IAAAuD,EAAAC,EAgZU,QAAQ,QAAU,MAAQ,CAACxD,EAAI,KACjC,OAAO,SAAS,GAAGwD,GAAAD,EAAA,QAAQ,QAAR,YAAAA,EAAe,IAAf,KAAAC,EAAoB,CAAC,GAExC,QAAQ,kBAAoB,OAC5BC,GAAgBzD,EAAI,IAAI,EACxB,QAAQ,kBAAoB,SAEhC,CAAC,EAMH4B,EAAU,UAAU,IAAM,CACxB,QAAQ,kBAAoB,QAC9B,CAAC,EAMDQ,EAAU,OAAQ,cAAc,EAC7B,UAAU,IAAM,CACf,QAAQ,kBAAoB,MAC9B,CAAC,EAMHP,EAAU,KACRiB,EAAwB,QAAQ,EAChCY,GAAa,GAAG,CAClB,EACG,UAAU,CAAC,CAAE,OAAAf,CAAO,IAAM,CACzB,QAAQ,aAAaA,EAAQ,EAAE,CACjC,CAAC,EAGIE,CACT,CClaA,IAAAc,GAAuB,SAqChB,SAASC,GACdC,EAC0B,CAE1B,IAAMC,EAAQD,EAAO,UAAU,MAAM,GAAG,EAAE,IAAIE,GAC/BA,EAAK,QAAQ,sBAAuB,EAAE,EACvC,SAAW,EAAI,SAAMA,CAClC,EACE,KAAK,GAAG,EAELC,EAAY,IAAI,OAAOF,EAAO,KAAK,EACnCG,EAAY,CAACC,EAAYC,EAAcJ,IACpC,GAAGI,CAAI,2BAA2BJ,CAAI,UAI/C,OAAQK,GAAkB,CACxBA,EAAQA,EACL,QAAQ,gBAAiB,GAAG,EAC5B,KAAK,EAGR,IAAMC,EAAQ,IAAI,OAAO,MAAMR,EAAO,SAAS,MAC7CO,EACG,QAAQ,uBAAwB,MAAM,EACtC,QAAQJ,EAAW,GAAG,CAC3B,IAAK,KAAK,EAGV,OAAOM,MAAS,GAAAC,SAAWD,CAAK,EAC7B,QAAQD,EAAOJ,CAAS,EACxB,QAAQ,8BAA+B,IAAI,CAChD,CACF,CCEO,SAASO,GACdC,EAC+B,CAC/B,OAAOA,EAAQ,OAAS,CAC1B,CASO,SAASC,GACdD,EACgC,CAChC,OAAOA,EAAQ,OAAS,CAC1B,CC1CO,SAASE,GACdC,EAAaC,EACW,CACxB,IAAMC,EAAUC,GAA2BH,CAAG,EAC9C,OAAAI,EACEC,EAAG,SAAS,WAAa,OAAO,EAChCC,GAAY,QAAQ,CACtB,EACG,KACCC,GAAMC,GAAUA,CAAM,EACtBC,EAAU,IAAMR,CAAM,CACxB,EACG,UAAU,CAAC,CAAE,OAAAS,EAAQ,KAAAC,CAAK,IAAMT,EAAQ,KAAK,CAC5C,OACA,KAAM,CACJ,OAAAQ,EACA,KAAAC,EACA,QAAS,CACP,QAASC,EAAQ,gBAAgB,CACnC,CACF,CACF,CAAC,CAAC,EAGCV,CACT,CCxBO,SAASW,GACd,CAAE,UAAAC,CAAU,EACN,CACN,IAAMC,EAASC,GAAc,EACvBC,EAAYC,GAChB,IAAI,IAAI,mBAAoBH,EAAO,IAAI,CACzC,EACG,KACCI,GAAW,IAAMC,CAAK,CACxB,EAGIC,EAAWJ,EACd,KACCK,EAAIC,GAAY,CACd,GAAM,CAAC,CAAEC,CAAO,EAAIT,EAAO,KAAK,MAAM,aAAa,EACnD,OAAOQ,EAAS,KAAK,CAAC,CAAE,QAAAE,EAAS,QAAAC,CAAQ,IACvCD,IAAYD,GAAWE,EAAQ,SAASF,CAAO,CAChD,GAAKD,EAAS,CAAC,CAClB,CAAC,CACH,EAGFN,EACG,KACCK,EAAIC,GAAY,IAAI,IAAIA,EAAS,IAAIE,GAAW,CAC9C,GAAG,IAAI,IAAI,MAAMA,EAAQ,OAAO,IAAKV,EAAO,IAAI,CAAC,GACjDU,CACF,CAAC,CAAC,CAAC,EACHE,EAAUC,GAAQC,EAAsB,SAAS,KAAM,OAAO,EAC3D,KACCC,EAAOC,GAAM,CAACA,EAAG,SAAW,CAACA,EAAG,OAAO,EACvCC,GAAeX,CAAQ,EACvBM,EAAU,CAAC,CAACI,EAAIP,CAAO,IAAM,CAC3B,GAAIO,EAAG,kBAAkB,QAAS,CAChC,IAAME,EAAKF,EAAG,OAAO,QAAQ,GAAG,EAChC,GAAIE,GAAM,CAACA,EAAG,QAAUL,EAAK,IAAIK,EAAG,IAAI,EAAG,CACzC,IAAMC,EAAMD,EAAG,KAWf,MAAI,CAACF,EAAG,OAAO,QAAQ,aAAa,GAClBH,EAAK,IAAIM,CAAG,IACZV,EACPJ,GAEXW,EAAG,eAAe,EACXI,EAAGD,CAAG,EACf,CACF,CACA,OAAOd,CACT,CAAC,EACDO,EAAUO,GACDE,GAAa,IAAI,IAAIF,CAAG,CAAC,EAC7B,KACCZ,EAAIe,GAAW,CAEb,IAAMC,EADWC,GAAY,EACP,KAAK,QAAQxB,EAAO,KAAMmB,CAAG,EACnD,OAAOG,EAAQ,IAAIC,EAAK,MAAM,GAAG,EAAE,CAAC,CAAC,EACjC,IAAI,IAAIA,CAAI,EACZ,IAAI,IAAIJ,CAAG,CACjB,CAAC,CACH,CACH,CACH,CACF,CACF,EACG,UAAUA,GAAOM,GAAYN,EAAK,EAAI,CAAC,EAG5CO,EAAc,CAACxB,EAAWI,CAAQ,CAAC,EAChC,UAAU,CAAC,CAACE,EAAUC,CAAO,IAAM,CACpBkB,EAAW,mBAAmB,EACtC,YAAYC,GAAsBpB,EAAUC,CAAO,CAAC,CAC5D,CAAC,EAGHV,EAAU,KAAKa,EAAU,IAAMN,CAAQ,CAAC,EACrC,UAAUG,GAAW,CA3J1B,IAAAoB,EA8JM,IAAIC,EAAW,SAAS,aAAc,cAAc,EACpD,GAAIA,IAAa,KAAM,CACrBA,EAAW,GAGX,IAAIC,IAAUF,EAAA7B,EAAO,UAAP,YAAA6B,EAAgB,UAAW,SACpC,MAAM,QAAQE,CAAO,IACxBA,EAAU,CAACA,CAAO,GAGpBC,EAAM,QAAWC,KAAUF,EACzB,QAAWrB,KAAWD,EAAQ,QAAQ,OAAOA,EAAQ,OAAO,EAC1D,GAAI,IAAI,OAAOwB,EAAQ,GAAG,EAAE,KAAKvB,CAAO,EAAG,CACzCoB,EAAW,GACX,MAAME,CACR,CAGJ,SAAS,aAAcF,EAAU,cAAc,CACjD,CAGA,GAAIA,EACF,QAAWI,KAAWC,GAAqB,UAAU,EACnDD,EAAQ,OAAS,EACvB,CAAC,CACL,CCpFO,SAASE,GACdC,EAAsB,CAAE,QAAAC,CAAQ,EACP,CAGzB,GAAM,CAAE,aAAAC,CAAa,EAAIC,GAAY,EACjCD,EAAa,IAAI,GAAG,IACtBE,GAAU,SAAU,EAAI,EAGxBJ,EAAG,MAAQE,EAAa,IAAI,GAAG,EAC/BF,EAAG,MAAM,EAGTK,GAAY,QAAQ,EACjB,KACCC,GAAMC,GAAU,CAACA,CAAM,CACzB,EACG,UAAU,IAAM,CACf,IAAMC,EAAML,GAAY,EACxBK,EAAI,aAAa,OAAO,GAAG,EAC3B,QAAQ,aAAa,CAAC,EAAG,GAAI,GAAGA,CAAG,EAAE,CACvC,CAAC,GAIP,IAAMC,EAASC,GAAkBV,CAAE,EAC7BW,EAASC,EACbX,EAAQ,KAAKK,GAAMO,EAAoB,CAAC,EACxCC,EAAUd,EAAI,OAAO,EACrBS,CACF,EACG,KACCM,EAAI,IAAMf,EAAG,KAAK,EAClBgB,EAAqB,CACvB,EAGF,OAAOC,EAAc,CAACN,EAAQF,CAAM,CAAC,EAClC,KACCM,EAAI,CAAC,CAACG,EAAOC,CAAK,KAAO,CAAE,MAAAD,EAAO,MAAAC,CAAM,EAAE,EAC1CC,EAAY,CAAC,CACf,CACJ,CAUO,SAASC,GACdrB,EAAsB,CAAE,QAAAC,CAAQ,EACsB,CACtD,IAAMqB,EAAQ,IAAIC,EACZC,EAAQF,EAAM,KAAKG,EAAe,EAAGC,GAAQ,EAAI,CAAC,EAGxDT,EAAc,CACZhB,EAAQ,KAAKK,GAAMO,EAAoB,CAAC,EACxCS,CACF,EAAG,CAACK,EAAGC,IAAUA,CAAK,EACnB,KACCC,EAAwB,OAAO,CACjC,EACG,UAAU,CAAC,CAAE,MAAAX,CAAM,IAAMjB,EAAQ,KAAK,CACrC,OACA,KAAMiB,CACR,CAAC,CAAC,EAGNI,EACG,KACCO,EAAwB,OAAO,CACjC,EACG,UAAU,CAAC,CAAE,MAAAV,CAAM,IAAM,CACpBA,GACFf,GAAU,SAAUe,CAAK,CAC7B,CAAC,EAGLL,EAAUd,EAAG,KAAO,OAAO,EACxB,KACC8B,EAAUN,CAAK,CACjB,EACG,UAAU,IAAMxB,EAAG,MAAM,CAAC,EAM/B,IAAM+B,EAAQC,EAAW,uBAAuB,EAChD,OAAAlB,EAAUiB,EAAO,OAAO,EACrB,UAAU,IAAM/B,EAAG,MAAM,CAAC,EAGtBD,GAAiBC,EAAI,CAAE,QAAAC,CAAQ,CAAC,EACpC,KACCgC,EAAIC,GAASZ,EAAM,KAAKY,CAAK,CAAC,EAC9BC,EAAS,IAAMb,EAAM,SAAS,CAAC,EAC/BP,EAAImB,GAAUE,EAAA,CAAE,IAAKpC,GAAOkC,EAAQ,EACpCd,EAAY,CAAC,CACf,CACJ,CCnHO,SAASiB,GACdC,EAAiB,CAAE,QAAAC,EAAS,OAAAC,CAAO,EACE,CACrC,IAAMC,EAAQ,IAAIC,EACZC,EAAYC,GAAqBN,EAAG,aAAc,EACrD,KACCO,EAAO,OAAO,CAChB,EAGIC,EAAYR,EAAG,cAGfS,EAAOC,EAAW,wBAAyBV,CAAE,EAC7CW,EAAOD,EAAW,uBAAwBV,CAAE,EAGlDY,GAAY,QAAQ,EACjB,UAAUC,GAAUF,EAAK,aACxB,OAAQE,EAAS,OAAS,cAC5B,CAAC,EAGHV,EACG,KACCW,GAAeZ,CAAM,EACrBa,GAAUd,EAAQ,KAAKe,GAAMC,EAAoB,CAAC,CAAC,CACrD,EACG,UAAU,CAAC,CAAC,CAAE,MAAAC,CAAM,EAAG,CAAE,MAAAC,CAAM,CAAC,IAAM,CACrC,OAAQD,EAAM,OAAQ,CAGpB,IAAK,GACHT,EAAK,YAAcU,EAAM,OACrBC,GAAY,oBAAoB,EAChCA,GAAY,2BAA2B,EAC3C,MAGF,IAAK,GACHX,EAAK,YAAcW,GAAY,mBAAmB,EAClD,MAGF,QACE,IAAMC,EAAQC,GAAMJ,EAAM,MAAM,EAChCT,EAAK,YAAcW,GAAY,sBAAuBC,CAAK,CAC/D,CACF,CAAC,EAGL,IAAME,EAAUpB,EACb,KACCqB,EAAI,IAAMb,EAAK,UAAY,EAAE,EAC7Bc,EAAU,CAAC,CAAE,MAAAP,CAAM,IAAMQ,EACvBC,EAAG,GAAGT,EAAM,MAAM,EAAG,EAAE,CAAC,EACxBS,EAAG,GAAGT,EAAM,MAAM,EAAE,CAAC,EAClB,KACCU,GAAY,CAAC,EACbC,GAAQxB,CAAS,EACjBoB,EAAU,CAAC,CAACK,CAAK,IAAMA,CAAK,CAC9B,CACJ,CAAC,EACDC,EAAIC,EAAsB,EAC1BC,GAAM,CACR,EAGF,OAAAV,EAAQ,UAAUW,GAAQvB,EAAK,YAAYuB,CAAI,CAAC,EAChDX,EACG,KACCY,GAASD,GAAQ,CACf,IAAME,EAAUC,GAAmB,UAAWH,CAAI,EAClD,OAAI,OAAOE,GAAY,YACdE,EAGFC,EAAUH,EAAS,QAAQ,EAC/B,KACCI,EAAUrC,CAAK,EACf4B,EAAI,IAAMK,CAAO,CACnB,CACJ,CAAC,CACH,EACG,UAAUA,GAAW,CAElBA,EAAQ,OAAS,IACjBA,EAAQ,WAAa5B,EAAU,WAE/BA,EAAU,SAAS,CAAE,IAAK4B,EAAQ,SAAU,CAAC,CACjD,CAAC,EAGWnC,EACb,KACCM,EAAOkC,EAAqB,EAC5BV,EAAI,CAAC,CAAE,KAAAW,CAAK,IAAMA,CAAI,CACxB,EAIC,KACClB,EAAImB,GAASxC,EAAM,KAAKwC,CAAK,CAAC,EAC9BC,EAAS,IAAMzC,EAAM,SAAS,CAAC,EAC/B4B,EAAIY,GAAUE,EAAA,CAAE,IAAK7C,GAAO2C,EAAQ,CACtC,CACJ,CCpHO,SAASG,GACdC,EAAkB,CAAE,OAAAC,CAAO,EACF,CACzB,OAAOA,EACJ,KACCC,EAAI,CAAC,CAAE,MAAAC,CAAM,IAAM,CACjB,IAAMC,EAAMC,GAAY,EACxB,OAAAD,EAAI,KAAO,GAGXD,EAAQA,EACL,QAAQ,OAAQ,GAAG,EACnB,QAAQ,KAAM,KAAK,EACnB,QAAQ,KAAM,KAAK,EAGtBC,EAAI,OAAS,KAAKD,CAAK,GAChB,CAAE,IAAAC,CAAI,CACf,CAAC,CACH,CACJ,CAUO,SAASE,GACdC,EAAuBC,EACa,CACpC,IAAMC,EAAQ,IAAIC,EACZC,EAAQF,EAAM,KAAKG,EAAe,EAAGC,GAAQ,EAAI,CAAC,EACxD,OAAAJ,EAAM,UAAU,CAAC,CAAE,IAAAL,CAAI,IAAM,CAC3BG,EAAG,aAAa,sBAAuBA,EAAG,IAAI,EAC9CA,EAAG,KAAO,GAAGH,CAAG,EAClB,CAAC,EAGDU,EAAUP,EAAI,OAAO,EAClB,KACCQ,EAAUJ,CAAK,CACjB,EACG,UAAUK,GAAMA,EAAG,eAAe,CAAC,EAGjCjB,GAAiBQ,EAAIC,CAAO,EAChC,KACCS,EAAIC,GAAST,EAAM,KAAKS,CAAK,CAAC,EAC9BC,EAAS,IAAMV,EAAM,SAAS,CAAC,EAC/BP,EAAIgB,GAAUE,EAAA,CAAE,IAAKb,GAAOW,EAAQ,CACtC,CACJ,CCpDO,SAASG,GACdC,EAAiB,CAAE,QAAAC,EAAS,UAAAC,CAAU,EACA,CACtC,IAAMC,EAAQ,IAAIC,EAGZC,EAASC,GAAoB,cAAc,EAC3CC,EAASC,EACbC,EAAUJ,EAAO,SAAS,EAC1BI,EAAUJ,EAAO,OAAO,CAC1B,EACG,KACCK,GAAUC,EAAc,EACxBC,EAAI,IAAMP,EAAM,KAAK,EACrBQ,EAAqB,CACvB,EAGF,OAAAV,EACG,KACCW,GAAkBP,CAAM,EACxBK,EAAI,CAAC,CAAC,CAAE,QAAAG,CAAQ,EAAGC,CAAK,IAAM,CAC5B,IAAMC,EAAQD,EAAM,MAAM,UAAU,EACpC,GAAID,GAAA,MAAAA,EAAS,QAAUE,EAAMA,EAAM,OAAS,CAAC,EAAG,CAC9C,IAAMC,EAAOH,EAAQA,EAAQ,OAAS,CAAC,EACnCG,EAAK,WAAWD,EAAMA,EAAM,OAAS,CAAC,CAAC,IACzCA,EAAMA,EAAM,OAAS,CAAC,EAAIC,EAC9B,MACED,EAAM,OAAS,EAEjB,OAAOA,CACT,CAAC,CACH,EACG,UAAUA,GAASjB,EAAG,UAAYiB,EAChC,KAAK,EAAE,EACP,QAAQ,MAAO,QAAQ,CAC1B,EAGJf,EACG,KACCiB,EAAO,CAAC,CAAE,KAAAC,CAAK,IAAMA,IAAS,QAAQ,CACxC,EACG,UAAUC,GAAO,CAChB,OAAQA,EAAI,KAAM,CAGhB,IAAK,aAEDrB,EAAG,UAAU,QACbK,EAAM,iBAAmBA,EAAM,MAAM,SAErCA,EAAM,MAAQL,EAAG,WACnB,KACJ,CACF,CAAC,EAGWC,EACb,KACCkB,EAAOG,EAAqB,EAC5BV,EAAI,CAAC,CAAE,KAAAW,CAAK,IAAMA,CAAI,CACxB,EAIC,KACCC,EAAIC,GAAStB,EAAM,KAAKsB,CAAK,CAAC,EAC9BC,EAAS,IAAMvB,EAAM,SAAS,CAAC,EAC/BS,EAAI,KAAO,CAAE,IAAKZ,CAAG,EAAE,CACzB,CACJ,CCjDO,SAAS2B,GACdC,EAAiB,CAAE,OAAAC,EAAQ,UAAAC,CAAU,EACN,CAC/B,IAAMC,EAASC,GAAc,EAC7B,GAAI,CACF,IAAMC,EAAUC,GAAkBH,EAAO,OAAQF,CAAM,EAGjDM,EAASC,GAAoB,eAAgBR,CAAE,EAC/CS,EAASD,GAAoB,gBAAiBR,CAAE,EAGtDU,EAAwBV,EAAI,OAAO,EAChC,KACCW,EAAO,CAAC,CAAE,OAAAC,CAAO,IACfA,aAAkB,SAAW,CAAC,CAACA,EAAO,QAAQ,GAAG,CAClD,CACH,EACG,UAAU,IAAMC,GAAU,SAAU,EAAK,CAAC,EAG/CX,EACG,KACCS,EAAO,CAAC,CAAE,KAAAG,CAAK,IAAMA,IAAS,QAAQ,CACxC,EACG,UAAUC,GAAO,CAChB,IAAMC,EAASC,GAAiB,EAChC,OAAQF,EAAI,KAAM,CAGhB,IAAK,QACH,GAAIC,IAAWT,EAAO,CACpB,IAAMW,EAAU,IAAI,IACpB,QAAWC,KAAUC,EACnB,sBAAuBX,CACzB,EAAG,CACD,IAAMY,EAAUF,EAAO,kBACvBD,EAAQ,IAAIC,EAAQ,WAClBE,EAAQ,aAAa,eAAe,CACtC,CAAC,CACH,CAGA,GAAIH,EAAQ,KAAM,CAChB,GAAM,CAAC,CAACI,CAAI,CAAC,EAAI,CAAC,GAAGJ,CAAO,EAAE,KAAK,CAAC,CAAC,CAAEK,CAAC,EAAG,CAAC,CAAEC,CAAC,IAAMA,EAAID,CAAC,EAC1DD,EAAK,MAAM,CACb,CAGAP,EAAI,MAAM,CACZ,CACA,MAGF,IAAK,SACL,IAAK,MACHF,GAAU,SAAU,EAAK,EACzBN,EAAM,KAAK,EACX,MAGF,IAAK,UACL,IAAK,YACH,GAAI,OAAOS,GAAW,YACpBT,EAAM,MAAM,MACP,CACL,IAAMkB,EAAM,CAAClB,EAAO,GAAGa,EACrB,wDACAX,CACF,CAAC,EACKiB,EAAI,KAAK,IAAI,GACjB,KAAK,IAAI,EAAGD,EAAI,QAAQT,CAAM,CAAC,EAAIS,EAAI,QACrCV,EAAI,OAAS,UAAY,GAAK,IAE9BU,EAAI,MAAM,EACdA,EAAIC,CAAC,EAAE,MAAM,CACf,CAGAX,EAAI,MAAM,EACV,MAGF,QACMR,IAAUU,GAAiB,GAC7BV,EAAM,MAAM,CAClB,CACF,CAAC,EAGLL,EACG,KACCS,EAAO,CAAC,CAAE,KAAAG,CAAK,IAAMA,IAAS,QAAQ,CACxC,EACG,UAAUC,GAAO,CAChB,OAAQA,EAAI,KAAM,CAGhB,IAAK,IACL,IAAK,IACL,IAAK,IACHR,EAAM,MAAM,EACZA,EAAM,OAAO,EAGbQ,EAAI,MAAM,EACV,KACJ,CACF,CAAC,EAGL,IAAMY,EAASC,GAAiBrB,EAAO,CAAE,QAAAF,CAAQ,CAAC,EAClD,OAAOwB,EACLF,EACAG,GAAkBrB,EAAQ,CAAE,QAAAJ,EAAS,OAAAsB,CAAO,CAAC,CAC/C,EACG,KACCI,GAGE,GAAGC,GAAqB,eAAgBhC,CAAE,EACvC,IAAIiC,GAASC,GAAiBD,EAAO,CAAE,OAAAN,CAAO,CAAC,CAAC,EAGnD,GAAGK,GAAqB,iBAAkBhC,CAAE,EACzC,IAAIiC,GAASE,GAAmBF,EAAO,CAAE,QAAA5B,EAAS,UAAAH,CAAU,CAAC,CAAC,CACnE,CACF,CAGJ,OAASkC,EAAK,CACZ,OAAApC,EAAG,OAAS,GACLqC,EACT,CACF,CCnKO,SAASC,GACdC,EAAiB,CAAE,OAAAC,EAAQ,UAAAC,CAAU,EACG,CACxC,OAAOC,EAAc,CACnBF,EACAC,EACG,KACCE,EAAUC,GAAY,CAAC,EACvBC,EAAOC,GAAO,CAAC,CAACA,EAAI,aAAa,IAAI,GAAG,CAAC,CAC3C,CACJ,CAAC,EACE,KACCC,EAAI,CAAC,CAACC,EAAOF,CAAG,IAAMG,GAAuBD,EAAM,MAAM,EACvDF,EAAI,aAAa,IAAI,GAAG,CAC1B,CAAC,EACDC,EAAIG,GAAM,CA1FhB,IAAAC,EA2FQ,IAAMC,EAAQ,IAAI,IAGZC,EAAK,SAAS,mBAAmBd,EAAI,WAAW,SAAS,EAC/D,QAASe,EAAOD,EAAG,SAAS,EAAGC,EAAMA,EAAOD,EAAG,SAAS,EACtD,IAAIF,EAAAG,EAAK,gBAAL,MAAAH,EAAoB,aAAc,CACpC,IAAMI,EAAWD,EAAK,YAChBE,EAAWN,EAAGK,CAAQ,EACxBC,EAAS,OAASD,EAAS,QAC7BH,EAAM,IAAIE,EAAmBE,CAAQ,CACzC,CAIF,OAAW,CAACF,EAAMG,CAAI,IAAKL,EAAO,CAChC,GAAM,CAAE,WAAAM,CAAW,EAAIC,EAAE,OAAQ,KAAMF,CAAI,EAC3CH,EAAK,YAAY,GAAG,MAAM,KAAKI,CAAU,CAAC,CAC5C,CAGA,MAAO,CAAE,IAAKnB,EAAI,MAAAa,CAAM,CAC1B,CAAC,CACH,CACJ,CCPO,SAASQ,GACdC,EAAiB,CAAE,UAAAC,EAAW,MAAAC,CAAM,EACf,CACrB,IAAMC,EAASH,EAAG,QAAqB,UAAU,EAC3CI,EACJD,EAAO,UACPA,EAAO,cAAe,UAGxB,OAAOE,EAAc,CAACH,EAAOD,CAAS,CAAC,EACpC,KACCK,EAAI,CAAC,CAAC,CAAE,OAAAC,EAAQ,OAAAC,CAAO,EAAG,CAAE,OAAQ,CAAE,EAAAC,CAAE,CAAE,CAAC,KACzCD,EAASA,EACL,KAAK,IAAIJ,EAAQ,KAAK,IAAI,EAAGK,EAAIF,CAAM,CAAC,EACxCH,EACG,CACL,OAAAI,EACA,OAAQC,GAAKF,EAASH,CACxB,EACD,EACDM,EAAqB,CAACC,EAAGC,IACvBD,EAAE,SAAWC,EAAE,QACfD,EAAE,SAAWC,EAAE,MAChB,CACH,CACJ,CAuBO,SAASC,GACdb,EAAiBc,EACe,CADf,IAAAC,EAAAD,EAAE,SAAAE,CA5JrB,EA4JmBD,EAAcE,EAAAC,GAAdH,EAAc,CAAZ,YAEnB,IAAMI,EAAQC,EAAW,0BAA2BpB,CAAE,EAChD,CAAE,EAAAS,CAAE,EAAIY,GAAiBF,CAAK,EACpC,OAAOG,EAAM,IAAM,CACjB,IAAMC,EAAQ,IAAIC,EACZC,EAAQF,EAAM,KAAKG,EAAe,EAAGC,GAAQ,EAAI,CAAC,EAClDC,EAAQL,EACX,KACCM,GAAU,EAAGC,EAAuB,CACtC,EAGF,OAAAF,EAAM,KAAKG,GAAef,CAAO,CAAC,EAC/B,UAAU,CAGT,KAAK,CAAC,CAAE,OAAAR,CAAO,EAAG,CAAE,OAAQD,CAAO,CAAC,EAAG,CACrCY,EAAM,MAAM,OAAS,GAAGX,EAAS,EAAIC,CAAC,KACtCT,EAAG,MAAM,IAAY,GAAGO,CAAM,IAChC,EAGA,UAAW,CACTY,EAAM,MAAM,OAAS,GACrBnB,EAAG,MAAM,IAAY,EACvB,CACF,CAAC,EAGH4B,EAAM,KAAKI,GAAM,CAAC,EACf,UAAU,IAAM,CACf,QAAWC,KAAQC,EAAY,8BAA+BlC,CAAE,EAAG,CACjE,GAAI,CAACiC,EAAK,aACR,SACF,IAAME,EAAYF,EAAK,QAAqB,yBAAyB,EACrE,GAAI,OAAOE,GAAc,YAAa,CACpC,IAAM5B,EAAS0B,EAAK,UAAYE,EAAU,UACpC,CAAE,OAAA3B,CAAO,EAAI4B,GAAeD,CAAS,EAC3CA,EAAU,SAAS,CACjB,IAAK5B,EAASC,EAAS,CACzB,CAAC,CACH,CACF,CACF,CAAC,EAGH6B,GAAKH,EAA8B,kBAAmBlC,CAAE,CAAC,EACtD,KACCsC,GAASC,GAASC,EAAUD,EAAO,OAAO,EACvC,KACCE,GAAUC,EAAc,EACxBpC,EAAI,IAAMiC,CAAK,EACfI,EAAUlB,CAAK,CACjB,CACF,CACF,EACG,UAAUc,GAAS,CAClB,IAAMK,EAAQxB,EAA6B,QAAQmB,EAAM,OAAO,IAAI,EACxDnB,EAAW,qBAAqBmB,EAAM,EAAE,IAAI,EACpD,aAAa,gBAAiB,GAAGK,EAAM,OAAO,EAAE,CACtD,CAAC,EAGE7C,GAAaC,EAAIiB,CAAO,EAC5B,KACC4B,EAAIC,GAASvB,EAAM,KAAKuB,CAAK,CAAC,EAC9BC,EAAS,IAAMxB,EAAM,SAAS,CAAC,EAC/BjB,EAAIwC,GAAUE,EAAA,CAAE,IAAKhD,GAAO8C,EAAQ,CACtC,CACJ,CAAC,CACH,CCxKO,SAASG,GACdC,EAAcC,EACW,CACzB,GAAI,OAAOA,GAAS,YAAa,CAC/B,IAAMC,EAAM,gCAAgCF,CAAI,IAAIC,CAAI,GACxD,OAAOE,GAGLC,GAAqB,GAAGF,CAAG,kBAAkB,EAC1C,KACCG,GAAW,IAAMC,CAAK,EACtBC,EAAIC,IAAY,CACd,QAASA,EAAQ,QACnB,EAAE,EACFC,GAAe,CAAC,CAAC,CACnB,EAGFL,GAAkBF,CAAG,EAClB,KACCG,GAAW,IAAMC,CAAK,EACtBC,EAAIG,IAAS,CACX,MAAOA,EAAK,iBACZ,MAAOA,EAAK,WACd,EAAE,EACFD,GAAe,CAAC,CAAC,CACnB,CACJ,EACG,KACCF,EAAI,CAAC,CAACC,EAASE,CAAI,IAAOC,IAAA,GAAKH,GAAYE,EAAO,CACpD,CAGJ,KAAO,CACL,IAAMR,EAAM,gCAAgCF,CAAI,GAChD,OAAOI,GAAkBF,CAAG,EACzB,KACCK,EAAIG,IAAS,CACX,aAAcA,EAAK,YACrB,EAAE,EACFD,GAAe,CAAC,CAAC,CACnB,CACJ,CACF,CCvDO,SAASG,GACdC,EAAcC,EACW,CACzB,IAAMC,EAAM,WAAWF,CAAI,oBAAoB,mBAAmBC,CAAO,CAAC,GAC1E,OAAOE,GAA2BD,CAAG,EAClC,KACCE,GAAW,IAAMC,CAAK,EACtBC,EAAI,CAAC,CAAE,WAAAC,EAAY,YAAAC,CAAY,KAAO,CACpC,MAAOD,EACP,MAAOC,CACT,EAAE,EACFC,GAAe,CAAC,CAAC,CACnB,CACJ,CCOO,SAASC,GACdC,EACyB,CAGzB,IAAIC,EAAQD,EAAI,MAAM,qCAAqC,EAC3D,GAAIC,EAAO,CACT,GAAM,CAAC,CAAEC,EAAMC,CAAI,EAAIF,EACvB,OAAOG,GAA2BF,EAAMC,CAAI,CAC9C,CAIA,GADAF,EAAQD,EAAI,MAAM,oCAAoC,EAClDC,EAAO,CACT,GAAM,CAAC,CAAEI,EAAMC,CAAI,EAAIL,EACvB,OAAOM,GAA2BF,EAAMC,CAAI,CAC9C,CAGA,OAAOE,CACT,CCpBA,IAAIC,GAgBG,SAASC,GACdC,EACoB,CACpB,OAAOF,QAAWG,EAAM,IAAM,CAC5B,IAAMC,EAAS,SAAsB,WAAY,cAAc,EAC/D,GAAIA,EACF,OAAOC,EAAGD,CAAM,EAKhB,GADYE,GAAqB,SAAS,EAClC,OAAQ,CACd,IAAMC,EAAU,SAA0B,WAAW,EACrD,GAAI,EAAEA,GAAWA,EAAQ,QACvB,OAAOC,CACX,CAGA,OAAOC,GAAiBP,EAAG,IAAI,EAC5B,KACCQ,EAAIC,GAAS,SAAS,WAAYA,EAAO,cAAc,CAAC,CAC1D,CAEN,CAAC,EACE,KACCC,GAAW,IAAMJ,CAAK,EACtBK,EAAOF,GAAS,OAAO,KAAKA,CAAK,EAAE,OAAS,CAAC,EAC7CG,EAAIH,IAAU,CAAE,MAAAA,CAAM,EAAE,EACxBI,EAAY,CAAC,CACf,EACJ,CASO,SAASC,GACdd,EAC+B,CAC/B,IAAMe,EAAQC,EAAW,uBAAwBhB,CAAE,EACnD,OAAOC,EAAM,IAAM,CACjB,IAAMgB,EAAQ,IAAIC,EAClB,OAAAD,EAAM,UAAU,CAAC,CAAE,MAAAR,CAAM,IAAM,CAC7BM,EAAM,YAAYI,GAAkBV,CAAK,CAAC,EAC1CM,EAAM,UAAU,IAAI,+BAA+B,CACrD,CAAC,EAGMhB,GAAYC,CAAE,EAClB,KACCQ,EAAIY,GAASH,EAAM,KAAKG,CAAK,CAAC,EAC9BC,EAAS,IAAMJ,EAAM,SAAS,CAAC,EAC/BL,EAAIQ,GAAUE,EAAA,CAAE,IAAKtB,GAAOoB,EAAQ,CACtC,CACJ,CAAC,CACH,CCtDO,SAASG,GACdC,EAAiB,CAAE,UAAAC,EAAW,QAAAC,CAAQ,EACpB,CAClB,OAAOC,GAAiB,SAAS,IAAI,EAClC,KACCC,EAAU,IAAMC,GAAgBL,EAAI,CAAE,QAAAE,EAAS,UAAAD,CAAU,CAAC,CAAC,EAC3DK,EAAI,CAAC,CAAE,OAAQ,CAAE,EAAAC,CAAE,CAAE,KACZ,CACL,OAAQA,GAAK,EACf,EACD,EACDC,EAAwB,QAAQ,CAClC,CACJ,CAaO,SAASC,GACdT,EAAiBU,EACY,CAC7B,OAAOC,EAAM,IAAM,CACjB,IAAMC,EAAQ,IAAIC,EAClB,OAAAD,EAAM,UAAU,CAGd,KAAK,CAAE,OAAAE,CAAO,EAAG,CACfd,EAAG,OAASc,CACd,EAGA,UAAW,CACTd,EAAG,OAAS,EACd,CACF,CAAC,GAICe,EAAQ,wBAAwB,EAC5BC,EAAG,CAAE,OAAQ,EAAM,CAAC,EACpBjB,GAAUC,EAAIU,CAAO,GAExB,KACCO,EAAIC,GAASN,EAAM,KAAKM,CAAK,CAAC,EAC9BC,EAAS,IAAMP,EAAM,SAAS,CAAC,EAC/BN,EAAIY,GAAUE,EAAA,CAAE,IAAKpB,GAAOkB,EAAQ,CACtC,CACJ,CAAC,CACH,CCfO,SAASG,GACdC,EAAiB,CAAE,UAAAC,EAAW,QAAAC,CAAQ,EACT,CAC7B,IAAMC,EAAQ,IAAI,IAGZC,EAAUC,EAA+B,gBAAiBL,CAAE,EAClE,QAAWM,KAAUF,EAAS,CAC5B,IAAMG,EAAK,mBAAmBD,EAAO,KAAK,UAAU,CAAC,CAAC,EAChDE,EAASC,GAAmB,QAAQF,CAAE,IAAI,EAC5C,OAAOC,GAAW,aACpBL,EAAM,IAAIG,EAAQE,CAAM,CAC5B,CAGA,IAAME,EAAUR,EACb,KACCS,EAAwB,QAAQ,EAChCC,EAAI,CAAC,CAAE,OAAAC,CAAO,IAAM,CAClB,IAAMC,EAAOC,GAAoB,MAAM,EACjCC,EAAOC,EAAW,wBAAyBH,CAAI,EACrD,OAAOD,EAAS,IACdG,EAAK,UACLF,EAAK,UAET,CAAC,EACDI,GAAM,CACR,EAqFF,OAlFmBC,GAAiB,SAAS,IAAI,EAC9C,KACCR,EAAwB,QAAQ,EAGhCS,EAAUC,GAAQC,EAAM,IAAM,CAC5B,IAAIC,EAA4B,CAAC,EACjC,OAAOC,EAAG,CAAC,GAAGrB,CAAK,EAAE,OAAO,CAACsB,EAAO,CAACnB,EAAQE,CAAM,IAAM,CACvD,KAAOe,EAAK,QACGpB,EAAM,IAAIoB,EAAKA,EAAK,OAAS,CAAC,CAAC,EACnC,SAAWf,EAAO,SACzBe,EAAK,IAAI,EAOb,IAAIG,EAASlB,EAAO,UACpB,KAAO,CAACkB,GAAUlB,EAAO,eACvBA,EAASA,EAAO,cAChBkB,EAASlB,EAAO,UAIlB,IAAImB,EAASnB,EAAO,aACpB,KAAOmB,EAAQA,EAASA,EAAO,aAC7BD,GAAUC,EAAO,UAGnB,OAAOF,EAAM,IACX,CAAC,GAAGF,EAAO,CAAC,GAAGA,EAAMjB,CAAM,CAAC,EAAE,QAAQ,EACtCoB,CACF,CACF,EAAG,IAAI,GAAkC,CAAC,CAC5C,CAAC,EACE,KAGCd,EAAIa,GAAS,IAAI,IAAI,CAAC,GAAGA,CAAK,EAAE,KAAK,CAAC,CAAC,CAAEG,CAAC,EAAG,CAAC,CAAEC,CAAC,IAAMD,EAAIC,CAAC,CAAC,CAAC,EAC9DC,GAAkBpB,CAAO,EAGzBU,EAAU,CAAC,CAACK,EAAOM,CAAM,IAAM9B,EAC5B,KACC+B,GAAK,CAAC,CAACC,EAAMC,CAAI,EAAG,CAAE,OAAQ,CAAE,EAAAC,CAAE,EAAG,KAAAC,CAAK,IAAM,CAC9C,IAAMC,EAAOF,EAAIC,EAAK,QAAU,KAAK,MAAMf,EAAK,MAAM,EAGtD,KAAOa,EAAK,QAAQ,CAClB,GAAM,CAAC,CAAER,CAAM,EAAIQ,EAAK,CAAC,EACzB,GAAIR,EAASK,EAASI,GAAKE,EACzBJ,EAAO,CAAC,GAAGA,EAAMC,EAAK,MAAM,CAAE,MAE9B,MAEJ,CAGA,KAAOD,EAAK,QAAQ,CAClB,GAAM,CAAC,CAAEP,CAAM,EAAIO,EAAKA,EAAK,OAAS,CAAC,EACvC,GAAIP,EAASK,GAAUI,GAAK,CAACE,EAC3BH,EAAO,CAACD,EAAK,IAAI,EAAI,GAAGC,CAAI,MAE5B,MAEJ,CAGA,MAAO,CAACD,EAAMC,CAAI,CACpB,EAAG,CAAC,CAAC,EAAG,CAAC,GAAGT,CAAK,CAAC,CAAC,EACnBa,EAAqB,CAACV,EAAGC,IACvBD,EAAE,CAAC,IAAMC,EAAE,CAAC,GACZD,EAAE,CAAC,IAAMC,EAAE,CAAC,CACb,CACH,CACF,CACF,CACF,CACF,EAIC,KACCjB,EAAI,CAAC,CAACqB,EAAMC,CAAI,KAAO,CACrB,KAAMD,EAAK,IAAI,CAAC,CAACV,CAAI,IAAMA,CAAI,EAC/B,KAAMW,EAAK,IAAI,CAAC,CAACX,CAAI,IAAMA,CAAI,CACjC,EAAE,EAGFgB,EAAU,CAAE,KAAM,CAAC,EAAG,KAAM,CAAC,CAAE,CAAC,EAChCC,GAAY,EAAG,CAAC,EAChB5B,EAAI,CAAC,CAACgB,EAAGC,CAAC,IAGJD,EAAE,KAAK,OAASC,EAAE,KAAK,OAClB,CACL,KAAMA,EAAE,KAAK,MAAM,KAAK,IAAI,EAAGD,EAAE,KAAK,OAAS,CAAC,EAAGC,EAAE,KAAK,MAAM,EAChE,KAAM,CAAC,CACT,EAIO,CACL,KAAMA,EAAE,KAAK,MAAM,EAAE,EACrB,KAAMA,EAAE,KAAK,MAAM,EAAGA,EAAE,KAAK,OAASD,EAAE,KAAK,MAAM,CACrD,CAEH,CACH,CACJ,CAYO,SAASa,GACdzC,EAAiB,CAAE,UAAAC,EAAW,QAAAC,EAAS,MAAAwC,EAAO,QAAAC,CAAQ,EACd,CACxC,OAAOrB,EAAM,IAAM,CACjB,IAAMsB,EAAQ,IAAIC,EACZC,EAAQF,EAAM,KAAKG,EAAe,EAAGC,GAAQ,EAAI,CAAC,EAoBxD,GAnBAJ,EAAM,UAAU,CAAC,CAAE,KAAAX,EAAM,KAAAC,CAAK,IAAM,CAGlC,OAAW,CAAC5B,CAAM,IAAK4B,EACrB5B,EAAO,UAAU,OAAO,sBAAsB,EAC9CA,EAAO,UAAU,OAAO,sBAAsB,EAIhD,OAAW,CAACmB,EAAO,CAACnB,CAAM,CAAC,IAAK2B,EAAK,QAAQ,EAC3C3B,EAAO,UAAU,IAAI,sBAAsB,EAC3CA,EAAO,UAAU,OACf,uBACAmB,IAAUQ,EAAK,OAAS,CAC1B,CAEJ,CAAC,EAGGgB,EAAQ,YAAY,EAAG,CAGzB,IAAMC,EAAUC,EACdlD,EAAU,KAAKmD,GAAa,CAAC,EAAGxC,EAAI,IAAG,EAAY,CAAC,EACpDX,EAAU,KAAKmD,GAAa,GAAG,EAAGxC,EAAI,IAAM,QAAiB,CAAC,CAChE,EAGAgC,EACG,KACCS,EAAO,CAAC,CAAE,KAAApB,CAAK,IAAMA,EAAK,OAAS,CAAC,EACpCH,GAAkBY,EAAM,KAAKY,GAAUC,EAAc,CAAC,CAAC,EACvDC,GAAeN,CAAO,CACxB,EACG,UAAU,CAAC,CAAC,CAAC,CAAE,KAAAjB,CAAK,CAAC,EAAGwB,CAAQ,IAAM,CACrC,GAAM,CAACnD,CAAM,EAAI2B,EAAKA,EAAK,OAAS,CAAC,EACrC,GAAI3B,EAAO,aAAc,CAGvB,IAAMoD,EAAYC,GAAoBrD,CAAM,EAC5C,GAAI,OAAOoD,GAAc,YAAa,CACpC,IAAMhC,EAASpB,EAAO,UAAYoD,EAAU,UACtC,CAAE,OAAA7C,CAAO,EAAI+C,GAAeF,CAAS,EAC3CA,EAAU,SAAS,CACjB,IAAKhC,EAASb,EAAS,EACvB,SAAA4C,CACF,CAAC,CACH,CACF,CACF,CAAC,CACP,CAGA,OAAIR,EAAQ,qBAAqB,GAC/BhD,EACG,KACC4D,EAAUf,CAAK,EACfnC,EAAwB,QAAQ,EAChCyC,GAAa,GAAG,EAChBU,GAAK,CAAC,EACND,EAAUlB,EAAQ,KAAKmB,GAAK,CAAC,CAAC,CAAC,EAC/BC,GAAO,CAAE,MAAO,GAAI,CAAC,EACrBP,GAAeZ,CAAK,CACtB,EACG,UAAU,CAAC,CAAC,CAAE,CAAE,KAAAX,CAAK,CAAC,IAAM,CAC3B,IAAM+B,EAAMC,GAAY,EAGlB3D,EAAS2B,EAAKA,EAAK,OAAS,CAAC,EACnC,GAAI3B,GAAUA,EAAO,OAAQ,CAC3B,GAAM,CAAC4D,CAAM,EAAI5D,EACX,CAAE,KAAA6D,CAAK,EAAI,IAAI,IAAID,EAAO,IAAI,EAChCF,EAAI,OAASG,IACfH,EAAI,KAAOG,EACX,QAAQ,aAAa,CAAC,EAAG,GAAI,GAAGH,CAAG,EAAE,EAIzC,MACEA,EAAI,KAAO,GACX,QAAQ,aAAa,CAAC,EAAG,GAAI,GAAGA,CAAG,EAAE,CAEzC,CAAC,EAGAjE,GAAqBC,EAAI,CAAE,UAAAC,EAAW,QAAAC,CAAQ,CAAC,EACnD,KACCkE,EAAIC,GAASzB,EAAM,KAAKyB,CAAK,CAAC,EAC9BC,EAAS,IAAM1B,EAAM,SAAS,CAAC,EAC/BhC,EAAIyD,GAAUE,EAAA,CAAE,IAAKvE,GAAOqE,EAAQ,CACtC,CACJ,CAAC,CACH,CC9RO,SAASG,GACdC,EAAkB,CAAE,UAAAC,EAAW,MAAAC,EAAO,QAAAC,CAAQ,EACvB,CAGvB,IAAMC,EAAaH,EAChB,KACCI,EAAI,CAAC,CAAE,OAAQ,CAAE,EAAAC,CAAE,CAAE,IAAMA,CAAC,EAC5BC,GAAY,EAAG,CAAC,EAChBF,EAAI,CAAC,CAAC,EAAGG,CAAC,IAAM,EAAIA,GAAKA,EAAI,CAAC,EAC9BC,EAAqB,CACvB,EAGIC,EAAUR,EACb,KACCG,EAAI,CAAC,CAAE,OAAAM,CAAO,IAAMA,CAAM,CAC5B,EAGF,OAAOC,EAAc,CAACF,EAASN,CAAU,CAAC,EACvC,KACCC,EAAI,CAAC,CAACM,EAAQE,CAAS,IAAM,EAAEF,GAAUE,EAAU,EACnDJ,EAAqB,EACrBK,EAAUX,EAAQ,KAAKY,GAAK,CAAC,CAAC,CAAC,EAC/BC,GAAQ,EAAI,EACZC,GAAO,CAAE,MAAO,GAAI,CAAC,EACrBZ,EAAIa,IAAW,CAAE,OAAAA,CAAO,EAAE,CAC5B,CACJ,CAYO,SAASC,GACdC,EAAiB,CAAE,UAAAnB,EAAW,QAAAoB,EAAS,MAAAnB,EAAO,QAAAC,CAAQ,EACpB,CAClC,IAAMmB,EAAQ,IAAIC,EACZC,EAAQF,EAAM,KAAKG,EAAe,EAAGT,GAAQ,EAAI,CAAC,EACxD,OAAAM,EAAM,UAAU,CAGd,KAAK,CAAE,OAAAJ,CAAO,EAAG,CACfE,EAAG,OAASF,EACRA,GACFE,EAAG,aAAa,WAAY,IAAI,EAChCA,EAAG,KAAK,GAERA,EAAG,gBAAgB,UAAU,CAEjC,EAGA,UAAW,CACTA,EAAG,MAAM,IAAM,GACfA,EAAG,OAAS,GACZA,EAAG,gBAAgB,UAAU,CAC/B,CACF,CAAC,EAGDC,EACG,KACCP,EAAUU,CAAK,EACfE,EAAwB,QAAQ,CAClC,EACG,UAAU,CAAC,CAAE,OAAAC,CAAO,IAAM,CACzBP,EAAG,MAAM,IAAM,GAAGO,EAAS,EAAE,IAC/B,CAAC,EAGLC,EAAUR,EAAI,OAAO,EAClB,UAAUS,GAAM,CACfA,EAAG,eAAe,EAClB,OAAO,SAAS,CAAE,IAAK,CAAE,CAAC,CAC5B,CAAC,EAGI9B,GAAeqB,EAAI,CAAE,UAAAnB,EAAW,MAAAC,EAAO,QAAAC,CAAQ,CAAC,EACpD,KACC2B,EAAIC,GAAST,EAAM,KAAKS,CAAK,CAAC,EAC9BC,EAAS,IAAMV,EAAM,SAAS,CAAC,EAC/BjB,EAAI0B,GAAUE,EAAA,CAAE,IAAKb,GAAOW,EAAQ,CACtC,CACJ,CCpHO,SAASG,GACd,CAAE,UAAAC,EAAW,UAAAC,CAAU,EACjB,CACND,EACG,KACCE,EAAU,IAAMC,EAAY,cAAc,CAAC,EAC3CC,GAASC,GAAMC,GAAuBD,CAAE,EACrC,KACCE,EAAUP,EAAU,KAAKQ,GAAK,CAAC,CAAC,CAAC,EACjCC,EAAOC,GAAWA,CAAO,EACzBC,EAAI,IAAMN,CAAE,EACZO,GAAK,CAAC,CACR,CACF,EACAH,EAAOJ,GAAMA,EAAG,YAAcA,EAAG,WAAW,EAC5CD,GAASC,GAAM,CACb,IAAMQ,EAAOR,EAAG,UACVS,EAAOT,EAAG,QAAQ,GAAG,GAAKA,EAChC,OAAAS,EAAK,MAAQD,EAGNE,GAAoBD,EAAM,CAAE,UAAAb,CAAU,CAAC,EAC3C,KACCM,EAAUP,EAAU,KAAKQ,GAAK,CAAC,CAAC,CAAC,EACjCQ,EAAS,IAAMF,EAAK,gBAAgB,OAAO,CAAC,CAC9C,CACJ,CAAC,CACH,EACG,UAAU,EAGfd,EACG,KACCE,EAAU,IAAMC,EAAY,YAAY,CAAC,EACzCC,GAASC,GAAMU,GAAoBV,EAAI,CAAE,UAAAJ,CAAU,CAAC,CAAC,CACvD,EACG,UAAU,CACjB,CC7CO,SAASgB,GACd,CAAE,UAAAC,EAAW,QAAAC,CAAQ,EACf,CACND,EACG,KACCE,EAAU,IAAMC,EACd,2BACF,CAAC,EACDC,EAAIC,GAAM,CACRA,EAAG,cAAgB,GACnBA,EAAG,QAAU,EACf,CAAC,EACDC,GAASD,GAAME,EAAUF,EAAI,QAAQ,EAClC,KACCG,GAAU,IAAMH,EAAG,UAAU,SAAS,0BAA0B,CAAC,EACjEI,EAAI,IAAMJ,CAAE,CACd,CACF,EACAK,GAAeT,CAAO,CACxB,EACG,UAAU,CAAC,CAACI,EAAIM,CAAM,IAAM,CAC3BN,EAAG,UAAU,OAAO,0BAA0B,EAC1CM,IACFN,EAAG,QAAU,GACjB,CAAC,CACP,CC9BA,SAASO,IAAyB,CAChC,MAAO,qBAAqB,KAAK,UAAU,SAAS,CACtD,CAiBO,SAASC,GACd,CAAE,UAAAC,CAAU,EACN,CACNA,EACG,KACCC,EAAU,IAAMC,EAAY,qBAAqB,CAAC,EAClDC,EAAIC,GAAMA,EAAG,gBAAgB,mBAAmB,CAAC,EACjDC,EAAOP,EAAa,EACpBQ,GAASF,GAAMG,EAAUH,EAAI,YAAY,EACtC,KACCI,EAAI,IAAMJ,CAAE,CACd,CACF,CACF,EACG,UAAUA,GAAM,CACf,IAAMK,EAAML,EAAG,UAGXK,IAAQ,EACVL,EAAG,UAAY,EAGNK,EAAML,EAAG,eAAiBA,EAAG,eACtCA,EAAG,UAAYK,EAAM,EAEzB,CAAC,CACP,CCpCO,SAASC,GACd,CAAE,UAAAC,EAAW,QAAAC,CAAQ,EACf,CACNC,EAAc,CAACC,GAAY,QAAQ,EAAGF,CAAO,CAAC,EAC3C,KACCG,EAAI,CAAC,CAACC,EAAQC,CAAM,IAAMD,GAAU,CAACC,CAAM,EAC3CC,EAAUF,GAAUG,EAAGH,CAAM,EAC1B,KACCI,GAAMJ,EAAS,IAAM,GAAG,CAC1B,CACF,EACAK,GAAeV,CAAS,CAC1B,EACG,UAAU,CAAC,CAACK,EAAQ,CAAE,OAAQ,CAAE,EAAAM,CAAE,CAAC,CAAC,IAAM,CACzC,GAAIN,EACF,SAAS,KAAK,aAAa,qBAAsB,EAAE,EACnD,SAAS,KAAK,MAAM,IAAM,IAAIM,CAAC,SAC1B,CACL,IAAMC,EAAQ,GAAK,SAAS,SAAS,KAAK,MAAM,IAAK,EAAE,EACvD,SAAS,KAAK,gBAAgB,oBAAoB,EAClD,SAAS,KAAK,MAAM,IAAM,GACtBA,GACF,OAAO,SAAS,EAAGA,CAAK,CAC5B,CACF,CAAC,CACP,CC7DK,OAAO,UACV,OAAO,QAAU,SAAUC,EAAa,CACtC,IAAMC,EAA2B,CAAC,EAClC,QAAWC,KAAO,OAAO,KAAKF,CAAG,EAE/BC,EAAK,KAAK,CAACC,EAAKF,EAAIE,CAAG,CAAC,CAAC,EAG3B,OAAOD,CACT,GAGG,OAAO,SACV,OAAO,OAAS,SAAUD,EAAa,CACrC,IAAMC,EAAiB,CAAC,EACxB,QAAWC,KAAO,OAAO,KAAKF,CAAG,EAE/BC,EAAK,KAAKD,EAAIE,CAAG,CAAC,EAGpB,OAAOD,CACT,GAKE,OAAO,SAAY,cAGhB,QAAQ,UAAU,WACrB,QAAQ,UAAU,SAAW,SAC3BE,EAA8BC,EACxB,CACF,OAAOD,GAAM,UACf,KAAK,WAAaA,EAAE,KACpB,KAAK,UAAYA,EAAE,MAEnB,KAAK,WAAaA,EAClB,KAAK,UAAYC,EAErB,GAGG,QAAQ,UAAU,cACrB,QAAQ,UAAU,YAAc,YAC3BC,EACG,CACN,IAAMC,EAAS,KAAK,WACpB,GAAIA,EAAQ,CACND,EAAM,SAAW,GACnBC,EAAO,YAAY,IAAI,EAGzB,QAASC,EAAIF,EAAM,OAAS,EAAGE,GAAK,EAAGA,IAAK,CAC1C,IAAIC,EAAOH,EAAME,CAAC,EACd,OAAOC,GAAS,SAClBA,EAAO,SAAS,eAAeA,CAAI,EAC5BA,EAAK,YACZA,EAAK,WAAW,YAAYA,CAAI,EAG7BD,EAGHD,EAAO,aAAa,KAAK,gBAAkBE,CAAI,EAF/CF,EAAO,aAAaE,EAAM,IAAI,CAGlC,CACF,CACF,I1MMJ,SAASC,IAA4C,CACnD,OAAI,SAAS,WAAa,QACjBC,GACL,GAAG,IAAI,IAAI,yBAA0BC,GAAO,IAAI,CAAC,EACnD,EACG,KAECC,EAAI,IAAM,OAAO,EACjBC,EAAY,CAAC,CACf,EAEKC,GACL,IAAI,IAAI,2BAA4BH,GAAO,IAAI,CACjD,CAEJ,CAOA,SAAS,gBAAgB,UAAU,OAAO,OAAO,EACjD,SAAS,gBAAgB,UAAU,IAAI,IAAI,EAG3C,IAAMI,GAAYC,GAAc,EAC1BC,GAAYC,GAAc,EAC1BC,GAAYC,GAAoBH,EAAS,EACzCI,GAAYC,GAAc,EAG1BC,GAAYC,GAAc,EAC1BC,GAAYC,GAAW,oBAAoB,EAC3CC,GAAYD,GAAW,qBAAqB,EAC5CE,GAAYC,GAAW,EAGvBlB,GAASmB,GAAc,EACvBC,GAAS,SAAS,MAAM,UAAU,QAAQ,EAC5CtB,GAAiB,EACjBuB,GAGEC,GAAS,IAAIC,EACnBC,GAAiB,CAAE,OAAAF,EAAO,CAAC,EAG3B,IAAMG,GAAY,IAAIF,EAGlBG,EAAQ,oBAAoB,GAC9BC,GAAuB,CAAE,UAAArB,GAAW,UAAAM,GAAW,UAAAa,EAAU,CAAC,EACvD,UAAUrB,EAAS,EAzJxB,IAAAwB,KA4JIA,GAAA5B,GAAO,UAAP,YAAA4B,GAAgB,YAAa,QAC/BC,GAAqB,CAAE,UAAAzB,EAAU,CAAC,EAGpC0B,EAAMxB,GAAWE,EAAO,EACrB,KACCuB,GAAM,GAAG,CACX,EACG,UAAU,IAAM,CACfC,GAAU,SAAU,EAAK,EACzBA,GAAU,SAAU,EAAK,CAC3B,CAAC,EAGLtB,GACG,KACCuB,EAAO,CAAC,CAAE,KAAAC,CAAK,IAAMA,IAAS,QAAQ,CACxC,EACG,UAAUC,GAAO,CAChB,OAAQA,EAAI,KAAM,CAGhB,IAAK,IACL,IAAK,IACH,IAAMC,EAAOC,GAAoC,gBAAgB,EAC7D,OAAOD,GAAS,aAClBE,GAAYF,CAAI,EAClB,MAGF,IAAK,IACL,IAAK,IACH,IAAMG,EAAOF,GAAoC,gBAAgB,EAC7D,OAAOE,GAAS,aAClBD,GAAYC,CAAI,EAClB,MAGF,IAAK,QACH,IAAMC,EAASC,GAAiB,EAC5BD,aAAkB,kBACpBA,EAAO,MAAM,CACnB,CACF,CAAC,EAGLE,GAAc,CAAE,UAAA9B,GAAW,UAAAR,EAAU,CAAC,EACtCuC,GAAmB,CAAE,UAAAvC,GAAW,QAAAU,EAAQ,CAAC,EACzC8B,GAAe,CAAE,UAAAxC,EAAU,CAAC,EAC5ByC,GAAgB,CAAE,UAAAjC,GAAW,QAAAE,EAAQ,CAAC,EAGtC,IAAMgC,GAAUC,GAAYC,GAAoB,QAAQ,EAAG,CAAE,UAAApC,EAAU,CAAC,EAClEqC,GAAQ7C,GACX,KACCH,EAAI,IAAM+C,GAAoB,MAAM,CAAC,EACrCE,EAAUC,GAAMC,GAAUD,EAAI,CAAE,UAAAvC,GAAW,QAAAkC,EAAQ,CAAC,CAAC,EACrD5C,EAAY,CAAC,CACf,EAGImD,GAAWvB,EAGf,GAAGwB,GAAqB,SAAS,EAC9B,IAAIH,GAAMI,GAAaJ,EAAI,CAAE,QAAA3C,EAAQ,CAAC,CAAC,EAG1C,GAAG8C,GAAqB,QAAQ,EAC7B,IAAIH,GAAMK,GAAYL,EAAI,CAAE,OAAA7B,EAAO,CAAC,CAAC,EAGxC,GAAGgC,GAAqB,QAAQ,EAC7B,IAAIH,GAAMM,GAAYN,EAAI,CAAE,UAAAvC,GAAW,QAAAkC,GAAS,MAAAG,EAAM,CAAC,CAAC,EAG3D,GAAGK,GAAqB,SAAS,EAC9B,IAAIH,GAAMO,GAAaP,CAAE,CAAC,EAG7B,GAAGG,GAAqB,UAAU,EAC/B,IAAIH,GAAMQ,GAAcR,EAAI,CAAE,UAAA1B,EAAU,CAAC,CAAC,EAG7C,GAAG6B,GAAqB,QAAQ,EAC7B,IAAIH,GAAMS,GAAYT,EAAI,CAAE,OAAA/B,GAAQ,UAAAV,EAAU,CAAC,CAAC,EAGnD,GAAG4C,GAAqB,QAAQ,EAC7B,IAAIH,GAAMU,GAAYV,CAAE,CAAC,CAC9B,EAGMW,GAAWC,EAAM,IAAMjC,EAG3B,GAAGwB,GAAqB,UAAU,EAC/B,IAAIH,GAAMa,GAAcb,CAAE,CAAC,EAG9B,GAAGG,GAAqB,SAAS,EAC9B,IAAIH,GAAMc,GAAad,EAAI,CAAE,UAAAvC,GAAW,QAAAJ,GAAS,OAAAS,EAAO,CAAC,CAAC,EAG7D,GAAGqC,GAAqB,SAAS,EAC9B,IAAIH,GAAMzB,EAAQ,kBAAkB,EACjCwC,GAAoBf,EAAI,CAAE,OAAA/B,GAAQ,UAAAd,EAAU,CAAC,EAC7C6D,CACJ,EAGF,GAAGb,GAAqB,cAAc,EACnC,IAAIH,GAAMiB,GAAiBjB,EAAI,CAAE,UAAAvC,GAAW,QAAAkC,EAAQ,CAAC,CAAC,EAGzD,GAAGQ,GAAqB,SAAS,EAC9B,IAAIH,GAAMA,EAAG,aAAa,cAAc,IAAM,aAC3CkB,GAAGrD,GAAS,IAAMsD,GAAanB,EAAI,CAAE,UAAAvC,GAAW,QAAAkC,GAAS,MAAAG,EAAM,CAAC,CAAC,EACjEoB,GAAGvD,GAAS,IAAMwD,GAAanB,EAAI,CAAE,UAAAvC,GAAW,QAAAkC,GAAS,MAAAG,EAAM,CAAC,CAAC,CACrE,EAGF,GAAGK,GAAqB,MAAM,EAC3B,IAAIH,GAAMoB,GAAUpB,EAAI,CAAE,UAAAvC,GAAW,QAAAkC,EAAQ,CAAC,CAAC,EAGlD,GAAGQ,GAAqB,KAAK,EAC1B,IAAIH,GAAMqB,GAAqBrB,EAAI,CAClC,UAAAvC,GAAW,QAAAkC,GAAS,MAAAG,GAAO,QAAAzC,EAC7B,CAAC,CAAC,EAGJ,GAAG8C,GAAqB,KAAK,EAC1B,IAAIH,GAAMsB,GAAetB,EAAI,CAAE,UAAAvC,GAAW,QAAAkC,GAAS,MAAAG,GAAO,QAAAzC,EAAQ,CAAC,CAAC,CACzE,CAAC,EAGKkE,GAAatE,GAChB,KACC8C,EAAU,IAAMY,EAAQ,EACxBa,GAAUtB,EAAQ,EAClBnD,EAAY,CAAC,CACf,EAGFwE,GAAW,UAAU,EAMrB,OAAO,UAAatE,GACpB,OAAO,UAAaE,GACpB,OAAO,QAAaE,GACpB,OAAO,UAAaE,GACpB,OAAO,UAAaE,GACpB,OAAO,QAAaE,GACpB,OAAO,QAAaE,GACpB,OAAO,OAAaC,GACpB,OAAO,OAAaK,GACpB,OAAO,UAAaG,GACpB,OAAO,WAAaiD",
+  "names": ["require_focus_visible", "__commonJSMin", "exports", "module", "global", "factory", "applyFocusVisiblePolyfill", "scope", "hadKeyboardEvent", "hadFocusVisibleRecently", "hadFocusVisibleRecentlyTimeout", "inputTypesAllowlist", "isValidFocusTarget", "el", "focusTriggersKeyboardModality", "type", "tagName", "addFocusVisibleClass", "removeFocusVisibleClass", "onKeyDown", "e", "onPointerDown", "onFocus", "onBlur", "onVisibilityChange", "addInitialPointerMoveListeners", "onInitialPointerMove", "removeInitialPointerMoveListeners", "event", "error", "require_clipboard", "__commonJSMin", "exports", "module", "root", "factory", "__webpack_modules__", "__unused_webpack_module", "__webpack_exports__", "__webpack_require__", "clipboard", "tiny_emitter", "tiny_emitter_default", "listen", "listen_default", "src_select", "select_default", "command", "type", "err", "ClipboardActionCut", "target", "selectedText", "actions_cut", "createFakeElement", "value", "isRTL", "fakeElement", "yPosition", "fakeCopyAction", "options", "ClipboardActionCopy", "actions_copy", "_typeof", "obj", "ClipboardActionDefault", "_options$action", "action", "container", "text", "actions_default", "clipboard_typeof", "_classCallCheck", "instance", "Constructor", "_defineProperties", "props", "i", "descriptor", "_createClass", "protoProps", "staticProps", "_inherits", "subClass", "superClass", "_setPrototypeOf", "o", "p", "_createSuper", "Derived", "hasNativeReflectConstruct", "_isNativeReflectConstruct", "Super", "_getPrototypeOf", "result", "NewTarget", "_possibleConstructorReturn", "self", "call", "_assertThisInitialized", "e", "getAttributeValue", "suffix", "element", "attribute", "Clipboard", "_Emitter", "_super", "trigger", "_this", "_this2", "selector", "actions", "support", "DOCUMENT_NODE_TYPE", "proto", "closest", "__unused_webpack_exports", "_delegate", "callback", "useCapture", "listenerFn", "listener", "delegate", "elements", "is", "listenNode", "listenNodeList", "listenSelector", "node", "nodeList", "select", "isReadOnly", "selection", "range", "E", "name", "ctx", "data", "evtArr", "len", "evts", "liveEvents", "__webpack_module_cache__", "moduleId", "getter", "definition", "key", "prop", "require_escape_html", "__commonJSMin", "exports", "module", "matchHtmlRegExp", "escapeHtml", "string", "str", "match", "escape", "html", "index", "lastIndex", "import_focus_visible", "extendStatics", "d", "b", "p", "__extends", "__", "__awaiter", "thisArg", "_arguments", "P", "generator", "adopt", "value", "resolve", "reject", "fulfilled", "step", "e", "rejected", "result", "__generator", "body", "_", "t", "f", "y", "g", "verb", "n", "v", "op", "__values", "o", "s", "m", "i", "__read", "n", "r", "ar", "e", "error", "__spreadArray", "to", "from", "pack", "i", "l", "ar", "__await", "v", "__asyncGenerator", "thisArg", "_arguments", "generator", "g", "q", "verb", "n", "a", "b", "resume", "step", "e", "settle", "r", "fulfill", "reject", "value", "f", "__asyncValues", "o", "m", "i", "__values", "verb", "n", "v", "resolve", "reject", "settle", "d", "isFunction", "value", "createErrorClass", "createImpl", "_super", "instance", "ctorFunc", "UnsubscriptionError", "createErrorClass", "_super", "errors", "err", "i", "arrRemove", "arr", "item", "index", "Subscription", "initialTeardown", "errors", "_parentage", "_parentage_1", "__values", "_parentage_1_1", "parent_1", "initialFinalizer", "isFunction", "e", "UnsubscriptionError", "_finalizers", "_finalizers_1", "_finalizers_1_1", "finalizer", "execFinalizer", "err", "__spreadArray", "__read", "teardown", "_a", "parent", "arrRemove", "empty", "EMPTY_SUBSCRIPTION", "Subscription", "isSubscription", "value", "isFunction", "execFinalizer", "finalizer", "config", "timeoutProvider", "handler", "timeout", "args", "_i", "delegate", "__spreadArray", "__read", "handle", "reportUnhandledError", "err", "timeoutProvider", "onUnhandledError", "config", "noop", "COMPLETE_NOTIFICATION", "createNotification", "errorNotification", "error", "nextNotification", "value", "kind", "context", "errorContext", "cb", "config", "isRoot", "_a", "errorThrown", "error", "captureError", "err", "Subscriber", "_super", "__extends", "destination", "_this", "isSubscription", "EMPTY_OBSERVER", "next", "error", "complete", "SafeSubscriber", "value", "handleStoppedNotification", "nextNotification", "err", "errorNotification", "COMPLETE_NOTIFICATION", "Subscription", "_bind", "bind", "fn", "thisArg", "ConsumerObserver", "partialObserver", "value", "error", "handleUnhandledError", "err", "SafeSubscriber", "_super", "__extends", "observerOrNext", "complete", "_this", "isFunction", "context_1", "config", "Subscriber", "handleUnhandledError", "error", "config", "captureError", "reportUnhandledError", "defaultErrorHandler", "err", "handleStoppedNotification", "notification", "subscriber", "onStoppedNotification", "timeoutProvider", "EMPTY_OBSERVER", "noop", "observable", "identity", "x", "pipe", "fns", "_i", "pipeFromArray", "identity", "input", "prev", "fn", "Observable", "subscribe", "operator", "observable", "observerOrNext", "error", "complete", "_this", "subscriber", "isSubscriber", "SafeSubscriber", "errorContext", "_a", "source", "sink", "err", "next", "promiseCtor", "getPromiseCtor", "resolve", "reject", "value", "operations", "_i", "pipeFromArray", "x", "getPromiseCtor", "promiseCtor", "_a", "config", "isObserver", "value", "isFunction", "isSubscriber", "Subscriber", "isSubscription", "hasLift", "source", "isFunction", "operate", "init", "liftedSource", "err", "createOperatorSubscriber", "destination", "onNext", "onComplete", "onError", "onFinalize", "OperatorSubscriber", "_super", "__extends", "shouldUnsubscribe", "_this", "value", "err", "closed_1", "_a", "Subscriber", "animationFrameProvider", "callback", "request", "cancel", "delegate", "handle", "timestamp", "Subscription", "args", "_i", "__spreadArray", "__read", "ObjectUnsubscribedError", "createErrorClass", "_super", "Subject", "_super", "__extends", "_this", "operator", "subject", "AnonymousSubject", "ObjectUnsubscribedError", "value", "errorContext", "_b", "__values", "_c", "observer", "err", "observers", "_a", "subscriber", "hasError", "isStopped", "EMPTY_SUBSCRIPTION", "Subscription", "arrRemove", "thrownError", "observable", "Observable", "destination", "source", "AnonymousSubject", "_super", "__extends", "destination", "source", "_this", "value", "_b", "_a", "err", "subscriber", "EMPTY_SUBSCRIPTION", "Subject", "BehaviorSubject", "_super", "__extends", "_value", "_this", "subscriber", "subscription", "_a", "hasError", "thrownError", "value", "Subject", "dateTimestampProvider", "ReplaySubject", "_super", "__extends", "_bufferSize", "_windowTime", "_timestampProvider", "dateTimestampProvider", "_this", "value", "_a", "isStopped", "_buffer", "_infiniteTimeWindow", "subscriber", "subscription", "copy", "i", "adjustedBufferSize", "now", "last", "Subject", "Action", "_super", "__extends", "scheduler", "work", "state", "delay", "Subscription", "intervalProvider", "handler", "timeout", "args", "_i", "delegate", "__spreadArray", "__read", "handle", "AsyncAction", "_super", "__extends", "scheduler", "work", "_this", "state", "delay", "id", "_a", "_id", "intervalProvider", "_scheduler", "error", "_delay", "errored", "errorValue", "e", "actions", "arrRemove", "Action", "Scheduler", "schedulerActionCtor", "now", "work", "delay", "state", "dateTimestampProvider", "AsyncScheduler", "_super", "__extends", "SchedulerAction", "now", "Scheduler", "_this", "action", "actions", "error", "asyncScheduler", "AsyncScheduler", "AsyncAction", "async", "QueueAction", "_super", "__extends", "scheduler", "work", "_this", "state", "delay", "id", "AsyncAction", "QueueScheduler", "_super", "__extends", "AsyncScheduler", "queueScheduler", "QueueScheduler", "QueueAction", "AnimationFrameAction", "_super", "__extends", "scheduler", "work", "_this", "id", "delay", "animationFrameProvider", "actions", "_a", "AsyncAction", "AnimationFrameScheduler", "_super", "__extends", "action", "flushId", "actions", "error", "AsyncScheduler", "animationFrameScheduler", "AnimationFrameScheduler", "AnimationFrameAction", "EMPTY", "Observable", "subscriber", "isScheduler", "value", "isFunction", "last", "arr", "popResultSelector", "args", "isFunction", "popScheduler", "isScheduler", "popNumber", "defaultValue", "isArrayLike", "x", "isPromise", "value", "isFunction", "isInteropObservable", "input", "isFunction", "observable", "isAsyncIterable", "obj", "isFunction", "createInvalidObservableTypeError", "input", "getSymbolIterator", "iterator", "isIterable", "input", "isFunction", "iterator", "readableStreamLikeToAsyncGenerator", "readableStream", "reader", "__await", "_a", "_b", "value", "done", "isReadableStreamLike", "obj", "isFunction", "innerFrom", "input", "Observable", "isInteropObservable", "fromInteropObservable", "isArrayLike", "fromArrayLike", "isPromise", "fromPromise", "isAsyncIterable", "fromAsyncIterable", "isIterable", "fromIterable", "isReadableStreamLike", "fromReadableStreamLike", "createInvalidObservableTypeError", "obj", "subscriber", "obs", "observable", "isFunction", "array", "i", "promise", "value", "err", "reportUnhandledError", "iterable", "iterable_1", "__values", "iterable_1_1", "asyncIterable", "process", "readableStream", "readableStreamLikeToAsyncGenerator", "asyncIterable_1", "__asyncValues", "asyncIterable_1_1", "executeSchedule", "parentSubscription", "scheduler", "work", "delay", "repeat", "scheduleSubscription", "observeOn", "scheduler", "delay", "operate", "source", "subscriber", "createOperatorSubscriber", "value", "executeSchedule", "err", "subscribeOn", "scheduler", "delay", "operate", "source", "subscriber", "scheduleObservable", "input", "scheduler", "innerFrom", "subscribeOn", "observeOn", "schedulePromise", "input", "scheduler", "innerFrom", "subscribeOn", "observeOn", "scheduleArray", "input", "scheduler", "Observable", "subscriber", "i", "scheduleIterable", "input", "scheduler", "Observable", "subscriber", "iterator", "executeSchedule", "value", "done", "_a", "err", "isFunction", "scheduleAsyncIterable", "input", "scheduler", "Observable", "subscriber", "executeSchedule", "iterator", "result", "scheduleReadableStreamLike", "input", "scheduler", "scheduleAsyncIterable", "readableStreamLikeToAsyncGenerator", "scheduled", "input", "scheduler", "isInteropObservable", "scheduleObservable", "isArrayLike", "scheduleArray", "isPromise", "schedulePromise", "isAsyncIterable", "scheduleAsyncIterable", "isIterable", "scheduleIterable", "isReadableStreamLike", "scheduleReadableStreamLike", "createInvalidObservableTypeError", "from", "input", "scheduler", "scheduled", "innerFrom", "of", "args", "_i", "scheduler", "popScheduler", "from", "throwError", "errorOrErrorFactory", "scheduler", "errorFactory", "isFunction", "init", "subscriber", "Observable", "EmptyError", "createErrorClass", "_super", "isValidDate", "value", "map", "project", "thisArg", "operate", "source", "subscriber", "index", "createOperatorSubscriber", "value", "isArray", "callOrApply", "fn", "args", "__spreadArray", "__read", "mapOneOrManyArgs", "map", "isArray", "getPrototypeOf", "objectProto", "getKeys", "argsArgArrayOrObject", "args", "first_1", "isPOJO", "keys", "key", "obj", "createObject", "keys", "values", "result", "key", "i", "combineLatest", "args", "_i", "scheduler", "popScheduler", "resultSelector", "popResultSelector", "_a", "argsArgArrayOrObject", "observables", "keys", "from", "result", "Observable", "combineLatestInit", "values", "createObject", "identity", "mapOneOrManyArgs", "valueTransform", "subscriber", "maybeSchedule", "length", "active", "remainingFirstValues", "i", "source", "hasFirstValue", "createOperatorSubscriber", "value", "execute", "subscription", "executeSchedule", "mergeInternals", "source", "subscriber", "project", "concurrent", "onBeforeNext", "expand", "innerSubScheduler", "additionalFinalizer", "buffer", "active", "index", "isComplete", "checkComplete", "outerNext", "value", "doInnerSub", "innerComplete", "innerFrom", "createOperatorSubscriber", "innerValue", "bufferedValue", "executeSchedule", "err", "mergeMap", "project", "resultSelector", "concurrent", "isFunction", "a", "i", "map", "b", "ii", "innerFrom", "operate", "source", "subscriber", "mergeInternals", "mergeAll", "concurrent", "mergeMap", "identity", "concatAll", "mergeAll", "concat", "args", "_i", "concatAll", "from", "popScheduler", "defer", "observableFactory", "Observable", "subscriber", "innerFrom", "nodeEventEmitterMethods", "eventTargetMethods", "jqueryMethods", "fromEvent", "target", "eventName", "options", "resultSelector", "isFunction", "mapOneOrManyArgs", "_a", "__read", "isEventTarget", "methodName", "handler", "isNodeStyleEventEmitter", "toCommonHandlerRegistry", "isJQueryStyleEventEmitter", "add", "remove", "isArrayLike", "mergeMap", "subTarget", "innerFrom", "Observable", "subscriber", "args", "_i", "fromEventPattern", "addHandler", "removeHandler", "resultSelector", "mapOneOrManyArgs", "Observable", "subscriber", "handler", "e", "_i", "retValue", "isFunction", "timer", "dueTime", "intervalOrScheduler", "scheduler", "async", "intervalDuration", "isScheduler", "Observable", "subscriber", "due", "isValidDate", "n", "merge", "args", "_i", "scheduler", "popScheduler", "concurrent", "popNumber", "sources", "innerFrom", "mergeAll", "from", "EMPTY", "NEVER", "Observable", "noop", "isArray", "argsOrArgArray", "args", "filter", "predicate", "thisArg", "operate", "source", "subscriber", "index", "createOperatorSubscriber", "value", "zip", "args", "_i", "resultSelector", "popResultSelector", "sources", "argsOrArgArray", "Observable", "subscriber", "buffers", "completed", "sourceIndex", "innerFrom", "createOperatorSubscriber", "value", "buffer", "result", "__spreadArray", "__read", "i", "EMPTY", "audit", "durationSelector", "operate", "source", "subscriber", "hasValue", "lastValue", "durationSubscriber", "isComplete", "endDuration", "value", "cleanupDuration", "createOperatorSubscriber", "innerFrom", "auditTime", "duration", "scheduler", "asyncScheduler", "audit", "timer", "bufferCount", "bufferSize", "startBufferEvery", "operate", "source", "subscriber", "buffers", "count", "createOperatorSubscriber", "value", "toEmit", "buffers_1", "__values", "buffers_1_1", "buffer", "toEmit_1", "toEmit_1_1", "arrRemove", "buffers_2", "buffers_2_1", "catchError", "selector", "operate", "source", "subscriber", "innerSub", "syncUnsub", "handledResult", "createOperatorSubscriber", "err", "innerFrom", "scanInternals", "accumulator", "seed", "hasSeed", "emitOnNext", "emitBeforeComplete", "source", "subscriber", "hasState", "state", "index", "createOperatorSubscriber", "value", "i", "combineLatest", "args", "_i", "resultSelector", "popResultSelector", "pipe", "__spreadArray", "__read", "mapOneOrManyArgs", "operate", "source", "subscriber", "combineLatestInit", "argsOrArgArray", "combineLatestWith", "otherSources", "_i", "combineLatest", "__spreadArray", "__read", "debounce", "durationSelector", "operate", "source", "subscriber", "hasValue", "lastValue", "durationSubscriber", "emit", "value", "createOperatorSubscriber", "noop", "innerFrom", "debounceTime", "dueTime", "scheduler", "asyncScheduler", "operate", "source", "subscriber", "activeTask", "lastValue", "lastTime", "emit", "value", "emitWhenIdle", "targetTime", "now", "createOperatorSubscriber", "defaultIfEmpty", "defaultValue", "operate", "source", "subscriber", "hasValue", "createOperatorSubscriber", "value", "take", "count", "EMPTY", "operate", "source", "subscriber", "seen", "createOperatorSubscriber", "value", "ignoreElements", "operate", "source", "subscriber", "createOperatorSubscriber", "noop", "mapTo", "value", "map", "delayWhen", "delayDurationSelector", "subscriptionDelay", "source", "concat", "take", "ignoreElements", "mergeMap", "value", "index", "innerFrom", "mapTo", "delay", "due", "scheduler", "asyncScheduler", "duration", "timer", "delayWhen", "distinctUntilChanged", "comparator", "keySelector", "identity", "defaultCompare", "operate", "source", "subscriber", "previousKey", "first", "createOperatorSubscriber", "value", "currentKey", "a", "b", "distinctUntilKeyChanged", "key", "compare", "distinctUntilChanged", "x", "y", "throwIfEmpty", "errorFactory", "defaultErrorFactory", "operate", "source", "subscriber", "hasValue", "createOperatorSubscriber", "value", "EmptyError", "endWith", "values", "_i", "source", "concat", "of", "__spreadArray", "__read", "finalize", "callback", "operate", "source", "subscriber", "first", "predicate", "defaultValue", "hasDefaultValue", "source", "filter", "v", "identity", "take", "defaultIfEmpty", "throwIfEmpty", "EmptyError", "takeLast", "count", "EMPTY", "operate", "source", "subscriber", "buffer", "createOperatorSubscriber", "value", "buffer_1", "__values", "buffer_1_1", "merge", "args", "_i", "scheduler", "popScheduler", "concurrent", "popNumber", "argsOrArgArray", "operate", "source", "subscriber", "mergeAll", "from", "__spreadArray", "__read", "mergeWith", "otherSources", "_i", "merge", "__spreadArray", "__read", "repeat", "countOrConfig", "count", "delay", "_a", "EMPTY", "operate", "source", "subscriber", "soFar", "sourceSub", "resubscribe", "notifier", "timer", "innerFrom", "notifierSubscriber_1", "createOperatorSubscriber", "subscribeToSource", "syncUnsub", "scan", "accumulator", "seed", "operate", "scanInternals", "share", "options", "_a", "connector", "Subject", "_b", "resetOnError", "_c", "resetOnComplete", "_d", "resetOnRefCountZero", "wrapperSource", "connection", "resetConnection", "subject", "refCount", "hasCompleted", "hasErrored", "cancelReset", "reset", "resetAndUnsubscribe", "conn", "operate", "source", "subscriber", "dest", "handleReset", "SafeSubscriber", "value", "err", "innerFrom", "on", "args", "_i", "onSubscriber", "__spreadArray", "__read", "shareReplay", "configOrBufferSize", "windowTime", "scheduler", "bufferSize", "refCount", "_a", "_b", "_c", "share", "ReplaySubject", "skip", "count", "filter", "_", "index", "skipUntil", "notifier", "operate", "source", "subscriber", "taking", "skipSubscriber", "createOperatorSubscriber", "noop", "innerFrom", "value", "startWith", "values", "_i", "scheduler", "popScheduler", "operate", "source", "subscriber", "concat", "switchMap", "project", "resultSelector", "operate", "source", "subscriber", "innerSubscriber", "index", "isComplete", "checkComplete", "createOperatorSubscriber", "value", "innerIndex", "outerIndex", "innerFrom", "innerValue", "takeUntil", "notifier", "operate", "source", "subscriber", "innerFrom", "createOperatorSubscriber", "noop", "takeWhile", "predicate", "inclusive", "operate", "source", "subscriber", "index", "createOperatorSubscriber", "value", "result", "tap", "observerOrNext", "error", "complete", "tapObserver", "isFunction", "operate", "source", "subscriber", "_a", "isUnsub", "createOperatorSubscriber", "value", "err", "_b", "identity", "throttle", "durationSelector", "config", "operate", "source", "subscriber", "_a", "_b", "leading", "_c", "trailing", "hasValue", "sendValue", "throttled", "isComplete", "endThrottling", "send", "cleanupThrottling", "startThrottle", "value", "innerFrom", "createOperatorSubscriber", "throttleTime", "duration", "scheduler", "config", "asyncScheduler", "duration$", "timer", "throttle", "withLatestFrom", "inputs", "_i", "project", "popResultSelector", "operate", "source", "subscriber", "len", "otherValues", "hasValue", "ready", "i", "innerFrom", "createOperatorSubscriber", "value", "identity", "noop", "values", "__spreadArray", "__read", "zip", "sources", "_i", "operate", "source", "subscriber", "__spreadArray", "__read", "zipWith", "otherInputs", "_i", "zip", "__spreadArray", "__read", "watchDocument", "document$", "ReplaySubject", "fromEvent", "getElements", "selector", "node", "getElement", "el", "getOptionalElement", "getActiveElement", "_a", "_b", "_c", "_d", "observer$", "merge", "fromEvent", "debounceTime", "startWith", "map", "getActiveElement", "shareReplay", "watchElementFocus", "el", "active", "distinctUntilChanged", "watchElementHover", "el", "timeout", "defer", "merge", "fromEvent", "map", "debounce", "active", "timer", "identity", "startWith", "appendChild", "el", "child", "node", "h", "tag", "attributes", "children", "attr", "round", "value", "digits", "watchScript", "src", "script", "h", "defer", "merge", "fromEvent", "switchMap", "throwError", "map", "finalize", "take", "entry$", "Subject", "observer$", "defer", "watchScript", "of", "map", "entries", "entry", "switchMap", "observer", "merge", "NEVER", "finalize", "shareReplay", "getElementSize", "el", "watchElementSize", "target", "tap", "filter", "startWith", "getElementContentSize", "el", "getElementContainer", "parent", "getElementContainers", "containers", "getElementOffset", "el", "getElementOffsetAbsolute", "rect", "watchElementOffset", "merge", "fromEvent", "auditTime", "animationFrameScheduler", "map", "startWith", "getElementContentOffset", "el", "watchElementContentOffset", "merge", "fromEvent", "auditTime", "animationFrameScheduler", "map", "startWith", "entry$", "Subject", "observer$", "defer", "of", "entries", "entry", "switchMap", "observer", "merge", "NEVER", "finalize", "shareReplay", "watchElementVisibility", "el", "tap", "filter", "target", "map", "isIntersecting", "watchElementBoundary", "threshold", "watchElementContentOffset", "y", "visible", "getElementSize", "content", "getElementContentSize", "distinctUntilChanged", "toggles", "getElement", "getToggle", "name", "setToggle", "value", "watchToggle", "el", "fromEvent", "map", "startWith", "isSusceptibleToKeyboard", "el", "type", "watchComposition", "merge", "fromEvent", "map", "startWith", "watchKeyboard", "keyboard$", "filter", "ev", "getToggle", "mode", "active", "getActiveElement", "share", "switchMap", "EMPTY", "getLocation", "setLocation", "url", "navigate", "feature", "el", "h", "watchLocation", "Subject", "getLocationHash", "setLocationHash", "hash", "el", "h", "ev", "watchLocationHash", "location$", "merge", "fromEvent", "map", "startWith", "filter", "shareReplay", "watchLocationTarget", "id", "getOptionalElement", "watchMedia", "query", "media", "fromEventPattern", "next", "startWith", "watchPrint", "merge", "fromEvent", "map", "at", "query$", "factory", "switchMap", "active", "EMPTY", "request", "url", "options", "Observable", "observer", "req", "event", "_a", "length", "requestJSON", "switchMap", "res", "map", "body", "shareReplay", "requestHTML", "dom", "requestXML", "getViewportOffset", "watchViewportOffset", "merge", "fromEvent", "map", "startWith", "getViewportSize", "watchViewportSize", "fromEvent", "map", "startWith", "watchViewport", "combineLatest", "watchViewportOffset", "watchViewportSize", "map", "offset", "size", "shareReplay", "watchViewportAt", "el", "viewport$", "header$", "size$", "distinctUntilKeyChanged", "offset$", "combineLatest", "map", "getElementOffset", "height", "offset", "size", "x", "y", "recv", "worker", "fromEvent", "ev", "send", "send$", "Subject", "data", "watchWorker", "url", "recv$", "worker$", "done$", "ignoreElements", "endWith", "mergeWith", "takeUntil", "share", "script", "getElement", "config", "getLocation", "configuration", "feature", "flag", "translation", "key", "value", "getComponentElement", "type", "node", "getElement", "getComponentElements", "getElements", "watchAnnounce", "el", "button", "getElement", "fromEvent", "map", "content", "mountAnnounce", "feature", "EMPTY", "defer", "push$", "Subject", "hash", "tap", "state", "finalize", "__spreadValues", "watchConsent", "el", "target$", "map", "target", "mountConsent", "options", "internal$", "Subject", "hidden", "tap", "state", "finalize", "__spreadValues", "renderTooltip", "id", "style", "h", "renderInlineTooltip2", "children", "renderAnnotation", "id", "prefix", "anchor", "h", "renderTooltip", "renderClipboardButton", "id", "h", "translation", "renderSearchDocument", "document", "flag", "parent", "teaser", "missing", "key", "list", "h", "config", "configuration", "url", "feature", "match", "highlight", "value", "tags", "tag", "type", "translation", "renderSearchResultItem", "result", "threshold", "docs", "doc", "article", "index", "best", "more", "children", "section", "renderSourceFacts", "facts", "h", "key", "value", "round", "renderTabbedControl", "type", "classes", "h", "renderTable", "table", "h", "renderVersion", "version", "_a", "config", "configuration", "url", "h", "renderVersionSelector", "versions", "active", "translation", "sequence", "watchTooltip2", "el", "active$", "combineLatest", "watchElementFocus", "watchElementHover", "map", "focus", "hover", "distinctUntilChanged", "offset$", "defer", "getElementContainers", "mergeMap", "watchElementContentOffset", "throttleTime", "getElementOffsetAbsolute", "first", "active", "switchMap", "offset", "share", "mountTooltip2", "dependencies", "content$", "viewport$", "id", "push$", "Subject", "show$", "BehaviorSubject", "ignoreElements", "endWith", "node$", "debounce", "timer", "queueScheduler", "EMPTY", "tap", "node", "startWith", "states", "origin$", "filter", "withLatestFrom", "_", "size", "host", "x", "height", "getElementSize", "origin", "getElement", "observeOn", "animationFrameScheduler", "state", "finalize", "__spreadValues", "mountInlineTooltip2", "container", "Observable", "observer", "title", "renderInlineTooltip2", "watchAnnotation", "el", "container", "offset$", "defer", "combineLatest", "watchElementOffset", "watchElementContentOffset", "map", "x", "y", "scroll", "width", "height", "getElementSize", "watchElementFocus", "switchMap", "active", "offset", "take", "mountAnnotation", "target$", "tooltip", "index", "push$", "Subject", "done$", "ignoreElements", "endWith", "watchElementVisibility", "takeUntil", "visible", "merge", "filter", "debounceTime", "auditTime", "animationFrameScheduler", "throttleTime", "origin", "fromEvent", "ev", "withLatestFrom", "_a", "parent", "getActiveElement", "target", "delay", "tap", "state", "finalize", "__spreadValues", "findHosts", "container", "getElements", "findMarkers", "markers", "el", "nodes", "it", "node", "text", "match", "id", "force", "marker", "swap", "source", "target", "mountAnnotationList", "target$", "print$", "parent", "prefix", "annotations", "getOptionalElement", "renderAnnotation", "EMPTY", "defer", "push$", "Subject", "done$", "ignoreElements", "endWith", "pairs", "annotation", "getElement", "takeUntil", "active", "inner", "child", "merge", "mountAnnotation", "finalize", "share", "findList", "el", "sibling", "mountAnnotationBlock", "options", "defer", "list", "mountAnnotationList", "EMPTY", "import_clipboard", "sequence", "findCandidateList", "el", "sibling", "watchCodeBlock", "watchElementSize", "map", "width", "getElementContentSize", "distinctUntilKeyChanged", "mountCodeBlock", "options", "hover", "factory$", "defer", "push$", "Subject", "done$", "takeLast", "scrollable", "content$", "ClipboardJS", "feature", "parent", "button", "renderClipboardButton", "mountInlineTooltip2", "container", "list", "annotations$", "mountAnnotationList", "takeUntil", "height", "distinctUntilChanged", "switchMap", "active", "EMPTY", "getElements", "tap", "state", "finalize", "__spreadValues", "mergeWith", "watchElementVisibility", "filter", "visible", "take", "watchDetails", "el", "target$", "print$", "open", "merge", "map", "target", "filter", "details", "active", "tap", "mountDetails", "options", "defer", "push$", "Subject", "action", "reveal", "state", "finalize", "__spreadValues", "mermaid_default", "mermaid$", "sequence", "fetchScripts", "watchScript", "of", "mountMermaid", "el", "tap", "mermaid_default", "map", "shareReplay", "__async", "id", "host", "h", "text", "svg", "fn", "shadow", "sentinel", "h", "mountDataTable", "el", "renderTable", "of", "watchContentTabs", "inputs", "initial", "input", "merge", "fromEvent", "map", "getElement", "startWith", "active", "mountContentTabs", "el", "viewport$", "target$", "container", "getElements", "prev", "renderTabbedControl", "next", "defer", "push$", "Subject", "done$", "ignoreElements", "endWith", "combineLatest", "watchElementSize", "takeUntil", "auditTime", "animationFrameScheduler", "size", "offset", "getElementOffset", "width", "getElementSize", "content", "getElementContentOffset", "watchElementContentOffset", "getElementContentSize", "direction", "filter", "label", "h", "ev", "tap", "feature", "skip", "withLatestFrom", "tab", "y", "set", "tabs", "media", "watchElementVisibility", "switchMap", "state", "finalize", "__spreadValues", "subscribeOn", "asyncScheduler", "mountContent", "el", "viewport$", "target$", "print$", "merge", "getElements", "child", "mountAnnotationBlock", "mountCodeBlock", "mountMermaid", "mountDataTable", "mountDetails", "mountContentTabs", "feature", "mountInlineTooltip2", "watchDialog", "_el", "alert$", "switchMap", "message", "merge", "of", "delay", "map", "active", "mountDialog", "el", "options", "inner", "getElement", "defer", "push$", "Subject", "tap", "state", "finalize", "__spreadValues", "sequence", "watchTooltip", "el", "host", "width", "getElementSize", "container", "getElementContainer", "scroll$", "watchElementContentOffset", "of", "active$", "merge", "watchElementFocus", "watchElementHover", "distinctUntilChanged", "combineLatest", "map", "active", "scroll", "x", "y", "getElementOffset", "size", "table", "mountTooltip", "title", "EMPTY", "id", "tooltip", "renderTooltip", "typeset", "getElement", "defer", "push$", "Subject", "offset", "filter", "debounceTime", "auditTime", "animationFrameScheduler", "throttleTime", "origin", "tap", "state", "finalize", "__spreadValues", "subscribeOn", "asyncScheduler", "isHidden", "viewport$", "feature", "of", "direction$", "map", "y", "bufferCount", "a", "b", "distinctUntilKeyChanged", "hidden$", "combineLatest", "filter", "offset", "direction", "distinctUntilChanged", "search$", "watchToggle", "search", "switchMap", "active", "startWith", "watchHeader", "el", "options", "defer", "watchElementSize", "height", "hidden", "shareReplay", "mountHeader", "header$", "main$", "push$", "Subject", "done$", "ignoreElements", "endWith", "combineLatestWith", "tooltips", "from", "getElements", "mergeMap", "child", "mountTooltip", "takeUntil", "state", "__spreadValues", "mergeWith", "watchHeaderTitle", "el", "viewport$", "header$", "watchViewportAt", "map", "y", "height", "getElementSize", "distinctUntilKeyChanged", "mountHeaderTitle", "options", "defer", "push$", "Subject", "active", "heading", "getOptionalElement", "EMPTY", "tap", "state", "finalize", "__spreadValues", "watchMain", "el", "viewport$", "header$", "adjust$", "map", "height", "distinctUntilChanged", "border$", "switchMap", "watchElementSize", "distinctUntilKeyChanged", "combineLatest", "header", "top", "bottom", "y", "a", "b", "watchPalette", "inputs", "current", "input", "index", "of", "mergeMap", "fromEvent", "map", "startWith", "shareReplay", "mountPalette", "el", "getElements", "meta", "h", "scheme", "media$", "watchMedia", "defer", "push$", "Subject", "palette", "media", "key", "value", "label", "filter", "ev", "withLatestFrom", "_", "header", "getComponentElement", "style", "color", "observeOn", "asyncScheduler", "takeUntil", "skip", "repeat", "tap", "state", "finalize", "__spreadValues", "mountProgress", "el", "progress$", "defer", "push$", "Subject", "value", "tap", "finalize", "map", "import_clipboard", "extract", "el", "copy", "text", "setupClipboardJS", "alert$", "ClipboardJS", "Observable", "subscriber", "getElement", "ev", "tap", "map", "translation", "resolve", "url", "base", "extract", "document", "sitemap", "el", "getElements", "getElement", "links", "link", "href", "fetchSitemap", "requestXML", "map", "catchError", "of", "handle", "ev", "sitemap", "EMPTY", "el", "url", "of", "head", "document", "tags", "getElements", "resolve", "key", "value", "inject", "next", "selector", "feature", "source", "getOptionalElement", "target", "html", "name", "container", "getComponentElement", "concat", "switchMap", "script", "Observable", "observer", "ignoreElements", "endWith", "setupInstantNavigation", "location$", "viewport$", "progress$", "config", "configuration", "sitemap$", "fetchSitemap", "instant$", "fromEvent", "combineLatestWith", "share", "history$", "map", "getLocation", "withLatestFrom", "offset", "merge", "document$", "distinctUntilKeyChanged", "requestHTML", "catchError", "setLocation", "_", "distinctUntilChanged", "a", "b", "tap", "_a", "_b", "setLocationHash", "debounceTime", "import_escape_html", "setupSearchHighlighter", "config", "regex", "term", "separator", "highlight", "_", "data", "query", "match", "value", "escapeHTML", "isSearchReadyMessage", "message", "isSearchResultMessage", "setupSearchWorker", "url", "index$", "worker$", "watchWorker", "merge", "of", "watchToggle", "first", "active", "switchMap", "config", "docs", "feature", "setupVersionSelector", "document$", "config", "configuration", "versions$", "requestJSON", "catchError", "EMPTY", "current$", "map", "versions", "current", "version", "aliases", "switchMap", "urls", "fromEvent", "filter", "ev", "withLatestFrom", "el", "url", "of", "fetchSitemap", "sitemap", "path", "getLocation", "setLocation", "combineLatest", "getElement", "renderVersionSelector", "_a", "outdated", "ignored", "main", "ignore", "warning", "getComponentElements", "watchSearchQuery", "el", "worker$", "searchParams", "getLocation", "setToggle", "watchToggle", "first", "active", "url", "focus$", "watchElementFocus", "value$", "merge", "isSearchReadyMessage", "fromEvent", "map", "distinctUntilChanged", "combineLatest", "value", "focus", "shareReplay", "mountSearchQuery", "push$", "Subject", "done$", "ignoreElements", "endWith", "_", "query", "distinctUntilKeyChanged", "takeUntil", "label", "getElement", "tap", "state", "finalize", "__spreadValues", "mountSearchResult", "el", "worker$", "query$", "push$", "Subject", "boundary$", "watchElementBoundary", "filter", "container", "meta", "getElement", "list", "watchToggle", "active", "withLatestFrom", "skipUntil", "first", "isSearchReadyMessage", "items", "value", "translation", "count", "round", "render$", "tap", "switchMap", "merge", "of", "bufferCount", "zipWith", "chunk", "map", "renderSearchResultItem", "share", "item", "mergeMap", "details", "getOptionalElement", "EMPTY", "fromEvent", "takeUntil", "isSearchResultMessage", "data", "state", "finalize", "__spreadValues", "watchSearchShare", "_el", "query$", "map", "value", "url", "getLocation", "mountSearchShare", "el", "options", "push$", "Subject", "done$", "ignoreElements", "endWith", "fromEvent", "takeUntil", "ev", "tap", "state", "finalize", "__spreadValues", "mountSearchSuggest", "el", "worker$", "keyboard$", "push$", "Subject", "query", "getComponentElement", "query$", "merge", "fromEvent", "observeOn", "asyncScheduler", "map", "distinctUntilChanged", "combineLatestWith", "suggest", "value", "words", "last", "filter", "mode", "key", "isSearchResultMessage", "data", "tap", "state", "finalize", "mountSearch", "el", "index$", "keyboard$", "config", "configuration", "worker$", "setupSearchWorker", "query", "getComponentElement", "result", "fromEvent", "filter", "target", "setToggle", "mode", "key", "active", "getActiveElement", "anchors", "anchor", "getElements", "article", "best", "a", "b", "els", "i", "query$", "mountSearchQuery", "merge", "mountSearchResult", "mergeWith", "getComponentElements", "child", "mountSearchShare", "mountSearchSuggest", "err", "NEVER", "mountSearchHiglight", "el", "index$", "location$", "combineLatest", "startWith", "getLocation", "filter", "url", "map", "index", "setupSearchHighlighter", "fn", "_a", "nodes", "it", "node", "original", "replaced", "text", "childNodes", "h", "watchSidebar", "el", "viewport$", "main$", "parent", "adjust", "combineLatest", "map", "offset", "height", "y", "distinctUntilChanged", "a", "b", "mountSidebar", "_a", "_b", "header$", "options", "__objRest", "inner", "getElement", "getElementOffset", "defer", "push$", "Subject", "done$", "ignoreElements", "endWith", "next$", "auditTime", "animationFrameScheduler", "withLatestFrom", "first", "item", "getElements", "container", "getElementSize", "from", "mergeMap", "label", "fromEvent", "observeOn", "asyncScheduler", "takeUntil", "input", "tap", "state", "finalize", "__spreadValues", "fetchSourceFactsFromGitHub", "user", "repo", "url", "zip", "requestJSON", "catchError", "EMPTY", "map", "release", "defaultIfEmpty", "info", "__spreadValues", "fetchSourceFactsFromGitLab", "base", "project", "url", "requestJSON", "catchError", "EMPTY", "map", "star_count", "forks_count", "defaultIfEmpty", "fetchSourceFacts", "url", "match", "user", "repo", "fetchSourceFactsFromGitHub", "base", "slug", "fetchSourceFactsFromGitLab", "EMPTY", "fetch$", "watchSource", "el", "defer", "cached", "of", "getComponentElements", "consent", "EMPTY", "fetchSourceFacts", "tap", "facts", "catchError", "filter", "map", "shareReplay", "mountSource", "inner", "getElement", "push$", "Subject", "renderSourceFacts", "state", "finalize", "__spreadValues", "watchTabs", "el", "viewport$", "header$", "watchElementSize", "switchMap", "watchViewportAt", "map", "y", "distinctUntilKeyChanged", "mountTabs", "options", "defer", "push$", "Subject", "hidden", "feature", "of", "tap", "state", "finalize", "__spreadValues", "watchTableOfContents", "el", "viewport$", "header$", "table", "anchors", "getElements", "anchor", "id", "target", "getOptionalElement", "adjust$", "distinctUntilKeyChanged", "map", "height", "main", "getComponentElement", "grid", "getElement", "share", "watchElementSize", "switchMap", "body", "defer", "path", "of", "index", "offset", "parent", "a", "b", "combineLatestWith", "adjust", "scan", "prev", "next", "y", "size", "last", "distinctUntilChanged", "startWith", "bufferCount", "mountTableOfContents", "main$", "target$", "push$", "Subject", "done$", "ignoreElements", "endWith", "feature", "smooth$", "merge", "debounceTime", "filter", "observeOn", "asyncScheduler", "withLatestFrom", "behavior", "container", "getElementContainer", "getElementSize", "takeUntil", "skip", "repeat", "url", "getLocation", "active", "hash", "tap", "state", "finalize", "__spreadValues", "watchBackToTop", "_el", "viewport$", "main$", "target$", "direction$", "map", "y", "bufferCount", "b", "distinctUntilChanged", "active$", "active", "combineLatest", "direction", "takeUntil", "skip", "endWith", "repeat", "hidden", "mountBackToTop", "el", "header$", "push$", "Subject", "done$", "ignoreElements", "distinctUntilKeyChanged", "height", "fromEvent", "ev", "tap", "state", "finalize", "__spreadValues", "patchEllipsis", "document$", "viewport$", "switchMap", "getElements", "mergeMap", "el", "watchElementVisibility", "takeUntil", "skip", "filter", "visible", "map", "take", "text", "host", "mountInlineTooltip2", "finalize", "patchIndeterminate", "document$", "tablet$", "switchMap", "getElements", "tap", "el", "mergeMap", "fromEvent", "takeWhile", "map", "withLatestFrom", "tablet", "isAppleDevice", "patchScrollfix", "document$", "switchMap", "getElements", "tap", "el", "filter", "mergeMap", "fromEvent", "map", "top", "patchScrolllock", "viewport$", "tablet$", "combineLatest", "watchToggle", "map", "active", "tablet", "switchMap", "of", "delay", "withLatestFrom", "y", "value", "obj", "data", "key", "x", "y", "nodes", "parent", "i", "node", "fetchSearchIndex", "watchScript", "config", "map", "shareReplay", "requestJSON", "document$", "watchDocument", "location$", "watchLocation", "target$", "watchLocationTarget", "keyboard$", "watchKeyboard", "viewport$", "watchViewport", "tablet$", "watchMedia", "screen$", "print$", "watchPrint", "configuration", "index$", "NEVER", "alert$", "Subject", "setupClipboardJS", "progress$", "feature", "setupInstantNavigation", "_a", "setupVersionSelector", "merge", "delay", "setToggle", "filter", "mode", "key", "prev", "getOptionalElement", "setLocation", "next", "active", "getActiveElement", "patchEllipsis", "patchIndeterminate", "patchScrollfix", "patchScrolllock", "header$", "watchHeader", "getComponentElement", "main$", "switchMap", "el", "watchMain", "control$", "getComponentElements", "mountConsent", "mountDialog", "mountHeader", "mountPalette", "mountProgress", "mountSearch", "mountSource", "content$", "defer", "mountAnnounce", "mountContent", "mountSearchHiglight", "EMPTY", "mountHeaderTitle", "at", "mountSidebar", "mountTabs", "mountTableOfContents", "mountBackToTop", "component$", "mergeWith"]
+}
diff --git a/assets/javascripts/lunr/min/lunr.ar.min.js b/assets/javascripts/lunr/min/lunr.ar.min.js
new file mode 100644
index 000000000..9b06c26c1
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.ar.min.js
@@ -0,0 +1 @@
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.ar=function(){this.pipeline.reset(),this.pipeline.add(e.ar.trimmer,e.ar.stopWordFilter,e.ar.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.ar.stemmer))},e.ar.wordCharacters="ء-ٛٱـ",e.ar.trimmer=e.trimmerSupport.generateTrimmer(e.ar.wordCharacters),e.Pipeline.registerFunction(e.ar.trimmer,"trimmer-ar"),e.ar.stemmer=function(){var e=this;return e.result=!1,e.preRemoved=!1,e.sufRemoved=!1,e.pre={pre1:"ف ك ب و س ل ن ا ي ت",pre2:"ال لل",pre3:"بال وال فال تال كال ولل",pre4:"فبال كبال وبال وكال"},e.suf={suf1:"ه ك ت ن ا ي",suf2:"نك نه ها وك يا اه ون ين تن تم نا وا ان كم كن ني نن ما هم هن تك ته ات يه",suf3:"تين كهم نيه نهم ونه وها يهم ونا ونك وني وهم تكم تنا تها تني تهم كما كها ناه نكم هنا تان يها",suf4:"كموه ناها ونني ونهم تكما تموه تكاه كماه ناكم ناهم نيها وننا"},e.patterns=JSON.parse('{"pt43":[{"pt":[{"c":"ا","l":1}]},{"pt":[{"c":"ا,ت,ن,ي","l":0}],"mPt":[{"c":"ف","l":0,"m":1},{"c":"ع","l":1,"m":2},{"c":"ل","l":2,"m":3}]},{"pt":[{"c":"و","l":2}],"mPt":[{"c":"ف","l":0,"m":0},{"c":"ع","l":1,"m":1},{"c":"ل","l":2,"m":3}]},{"pt":[{"c":"ا","l":2}]},{"pt":[{"c":"ي","l":2}],"mPt":[{"c":"ف","l":0,"m":0},{"c":"ع","l":1,"m":1},{"c":"ا","l":2},{"c":"ل","l":3,"m":3}]},{"pt":[{"c":"م","l":0}]}],"pt53":[{"pt":[{"c":"ت","l":0},{"c":"ا","l":2}]},{"pt":[{"c":"ا,ن,ت,ي","l":0},{"c":"ت","l":2}],"mPt":[{"c":"ا","l":0},{"c":"ف","l":1,"m":1},{"c":"ت","l":2},{"c":"ع","l":3,"m":3},{"c":"ا","l":4},{"c":"ل","l":5,"m":4}]},{"pt":[{"c":"ا","l":0},{"c":"ا","l":2}],"mPt":[{"c":"ا","l":0},{"c":"ف","l":1,"m":1},{"c":"ع","l":2,"m":3},{"c":"ل","l":3,"m":4},{"c":"ا","l":4},{"c":"ل","l":5,"m":4}]},{"pt":[{"c":"ا","l":0},{"c":"ا","l":3}],"mPt":[{"c":"ف","l":0,"m":1},{"c":"ع","l":1,"m":2},{"c":"ل","l":2,"m":4}]},{"pt":[{"c":"ا","l":3},{"c":"ن","l":4}]},{"pt":[{"c":"ت","l":0},{"c":"ي","l":3}]},{"pt":[{"c":"م","l":0},{"c":"و","l":3}]},{"pt":[{"c":"ا","l":1},{"c":"و","l":3}]},{"pt":[{"c":"و","l":1},{"c":"ا","l":2}]},{"pt":[{"c":"م","l":0},{"c":"ا","l":3}]},{"pt":[{"c":"م","l":0},{"c":"ي","l":3}]},{"pt":[{"c":"ا","l":2},{"c":"ن","l":3}]},{"pt":[{"c":"م","l":0},{"c":"ن","l":1}],"mPt":[{"c":"ا","l":0},{"c":"ن","l":1},{"c":"ف","l":2,"m":2},{"c":"ع","l":3,"m":3},{"c":"ا","l":4},{"c":"ل","l":5,"m":4}]},{"pt":[{"c":"م","l":0},{"c":"ت","l":2}],"mPt":[{"c":"ا","l":0},{"c":"ف","l":1,"m":1},{"c":"ت","l":2},{"c":"ع","l":3,"m":3},{"c":"ا","l":4},{"c":"ل","l":5,"m":4}]},{"pt":[{"c":"م","l":0},{"c":"ا","l":2}]},{"pt":[{"c":"م","l":1},{"c":"ا","l":3}]},{"pt":[{"c":"ي,ت,ا,ن","l":0},{"c":"ت","l":1}],"mPt":[{"c":"ف","l":0,"m":2},{"c":"ع","l":1,"m":3},{"c":"ا","l":2},{"c":"ل","l":3,"m":4}]},{"pt":[{"c":"ت,ي,ا,ن","l":0},{"c":"ت","l":2}],"mPt":[{"c":"ا","l":0},{"c":"ف","l":1,"m":1},{"c":"ت","l":2},{"c":"ع","l":3,"m":3},{"c":"ا","l":4},{"c":"ل","l":5,"m":4}]},{"pt":[{"c":"ا","l":2},{"c":"ي","l":3}]},{"pt":[{"c":"ا,ي,ت,ن","l":0},{"c":"ن","l":1}],"mPt":[{"c":"ا","l":0},{"c":"ن","l":1},{"c":"ف","l":2,"m":2},{"c":"ع","l":3,"m":3},{"c":"ا","l":4},{"c":"ل","l":5,"m":4}]},{"pt":[{"c":"ا","l":3},{"c":"ء","l":4}]}],"pt63":[{"pt":[{"c":"ا","l":0},{"c":"ت","l":2},{"c":"ا","l":4}]},{"pt":[{"c":"ا,ت,ن,ي","l":0},{"c":"س","l":1},{"c":"ت","l":2}],"mPt":[{"c":"ا","l":0},{"c":"س","l":1},{"c":"ت","l":2},{"c":"ف","l":3,"m":3},{"c":"ع","l":4,"m":4},{"c":"ا","l":5},{"c":"ل","l":6,"m":5}]},{"pt":[{"c":"ا,ن,ت,ي","l":0},{"c":"و","l":3}]},{"pt":[{"c":"م","l":0},{"c":"س","l":1},{"c":"ت","l":2}],"mPt":[{"c":"ا","l":0},{"c":"س","l":1},{"c":"ت","l":2},{"c":"ف","l":3,"m":3},{"c":"ع","l":4,"m":4},{"c":"ا","l":5},{"c":"ل","l":6,"m":5}]},{"pt":[{"c":"ي","l":1},{"c":"ي","l":3},{"c":"ا","l":4},{"c":"ء","l":5}]},{"pt":[{"c":"ا","l":0},{"c":"ن","l":1},{"c":"ا","l":4}]}],"pt54":[{"pt":[{"c":"ت","l":0}]},{"pt":[{"c":"ا,ي,ت,ن","l":0}],"mPt":[{"c":"ا","l":0},{"c":"ف","l":1,"m":1},{"c":"ع","l":2,"m":2},{"c":"ل","l":3,"m":3},{"c":"ر","l":4,"m":4},{"c":"ا","l":5},{"c":"ر","l":6,"m":4}]},{"pt":[{"c":"م","l":0}],"mPt":[{"c":"ا","l":0},{"c":"ف","l":1,"m":1},{"c":"ع","l":2,"m":2},{"c":"ل","l":3,"m":3},{"c":"ر","l":4,"m":4},{"c":"ا","l":5},{"c":"ر","l":6,"m":4}]},{"pt":[{"c":"ا","l":2}]},{"pt":[{"c":"ا","l":0},{"c":"ن","l":2}]}],"pt64":[{"pt":[{"c":"ا","l":0},{"c":"ا","l":4}]},{"pt":[{"c":"م","l":0},{"c":"ت","l":1}]}],"pt73":[{"pt":[{"c":"ا","l":0},{"c":"س","l":1},{"c":"ت","l":2},{"c":"ا","l":5}]}],"pt75":[{"pt":[{"c":"ا","l":0},{"c":"ا","l":5}]}]}'),e.execArray=["cleanWord","removeDiacritics","cleanAlef","removeStopWords","normalizeHamzaAndAlef","removeStartWaw","removePre432","removeEndTaa","wordCheck"],e.stem=function(){var r=0;for(e.result=!1,e.preRemoved=!1,e.sufRemoved=!1;r<e.execArray.length&&1!=e.result;)e.result=e[e.execArray[r]](),r++},e.setCurrent=function(r){e.word=r},e.getCurrent=function(){return e.word},e.cleanWord=function(){var r=new RegExp("[^ء-ٛٱـ]");return e.word=e.word.replace(new RegExp("ـ","g"),""),!!r.test("")},e.removeDiacritics=function(){new RegExp("[ً-ٛ]");return e.word=e.word.replace(/[\u064b-\u065b]/gi,""),!1},e.cleanAlef=function(){var r=new RegExp("[آأإٱى]");return e.word=e.word.replace(r,"ا"),!1},e.removeStopWords=function(){if("، اض امين اه اها اي ا اب اجل اجمع اخ اخذ اصبح اضحى اقبل اقل اكثر الا ام اما امامك امامك امسى اما ان انا انت انتم انتما انتن انت انشا انى او اوشك اولئك اولئكم اولاء اولالك اوه اي ايا اين اينما اي ان اي اف اذ اذا اذا اذما اذن الى اليكم اليكما اليكن اليك اليك الا اما ان انما اي اياك اياكم اياكما اياكن ايانا اياه اياها اياهم اياهما اياهن اياي ايه ان ا ابتدا اثر اجل احد اخرى اخلولق اذا اربعة ارتد استحال اطار اعادة اعلنت اف اكثر اكد الالاء الالى الا الاخيرة الان الاول الاولى التى التي الثاني الثانية الذاتي الذى الذي الذين السابق الف اللائي اللاتي اللتان اللتيا اللتين اللذان اللذين اللواتي الماضي المقبل الوقت الى اليوم اما امام امس ان انبرى انقلب انه انها او اول اي ايار ايام ايضا ب بات باسم بان بخ برس بسبب بس بشكل بضع بطان بعد بعض بك بكم بكما بكن بل بلى بما بماذا بمن بن بنا به بها بي بيد بين بس بله بئس تان تانك تبدل تجاه تحول تلقاء تلك تلكم تلكما تم تينك تين ته تي ثلاثة ثم ثم ثمة ثم جعل جلل جميع جير حار حاشا حاليا حاي حتى حرى حسب حم حوالى حول حيث حيثما حين حي حبذا حتى حذار خلا خلال دون دونك ذا ذات ذاك ذانك ذان ذلك ذلكم ذلكما ذلكن ذو ذوا ذواتا ذواتي ذيت ذينك ذين ذه ذي راح رجع رويدك ريث رب زيارة سبحان سرعان سنة سنوات سوف سوى ساء ساءما شبه شخصا شرع شتان صار صباح صفر صه صه ضد ضمن طاق طالما طفق طق ظل عاد عام عاما عامة عدا عدة عدد عدم عسى عشر عشرة علق على عليك عليه عليها عل عن عند عندما عوض عين عدس عما غدا غير  ف فان فلان فو فى في فيم فيما فيه فيها قال قام قبل قد قط قلما قوة كانما كاين كاي كاين كاد كان كانت كذا كذلك كرب كل كلا كلاهما كلتا كلم كليكما كليهما كلما كلا كم كما كي كيت كيف كيفما كان كخ لئن لا لات لاسيما لدن لدى لعمر لقاء لك لكم لكما لكن لكنما لكي لكيلا للامم لم لما لما لن لنا له لها لو لوكالة لولا لوما لي لست لست لستم لستما لستن لست لسن لعل لكن ليت ليس ليسا ليستا ليست ليسوا لسنا ما ماانفك مابرح مادام ماذا مازال مافتئ مايو متى مثل مذ مساء مع معاذ مقابل مكانكم مكانكما مكانكن مكانك مليار مليون مما ممن من منذ منها مه مهما من من نحن نحو نعم نفس نفسه نهاية نخ نعما نعم ها هاؤم هاك هاهنا هب هذا هذه هكذا هل هلم هلا هم هما هن هنا هناك هنالك هو هي هيا هيت هيا هؤلاء هاتان هاتين هاته هاتي هج هذا هذان هذين هذه هذي هيهات و وا واحد واضاف واضافت واكد وان واها واوضح وراءك وفي وقال وقالت وقد وقف وكان وكانت ولا ولم ومن وهو وهي ويكان وي وشكان يكون يمكن يوم ايان".split(" ").indexOf(e.word)>=0)return!0},e.normalizeHamzaAndAlef=function(){return e.word=e.word.replace("ؤ","ء"),e.word=e.word.replace("ئ","ء"),e.word=e.word.replace(/([\u0627])\1+/gi,"ا"),!1},e.removeEndTaa=function(){return!(e.word.length>2)||(e.word=e.word.replace(/[\u0627]$/,""),e.word=e.word.replace("ة",""),!1)},e.removeStartWaw=function(){return e.word.length>3&&"و"==e.word[0]&&"و"==e.word[1]&&(e.word=e.word.slice(1)),!1},e.removePre432=function(){var r=e.word;if(e.word.length>=7){var t=new RegExp("^("+e.pre.pre4.split(" ").join("|")+")");e.word=e.word.replace(t,"")}if(e.word==r&&e.word.length>=6){var c=new RegExp("^("+e.pre.pre3.split(" ").join("|")+")");e.word=e.word.replace(c,"")}if(e.word==r&&e.word.length>=5){var l=new RegExp("^("+e.pre.pre2.split(" ").join("|")+")");e.word=e.word.replace(l,"")}return r!=e.word&&(e.preRemoved=!0),!1},e.patternCheck=function(r){for(var t=0;t<r.length;t++){for(var c=!0,l=0;l<r[t].pt.length;l++){var n=r[t].pt[l].c.split(","),o=!1;if(n.forEach(function(c){e.word[r[t].pt[l].l]==c&&(o=!0)}),!o){c=!1;break}}if(1==c){if(r[t].mPt){for(var p=[],m=0;m<r[t].mPt.length;m++)null!=r[t].mPt[m].m?p[r[t].mPt[m].l]=e.word[r[t].mPt[m].m]:p[r[t].mPt[m].l]=r[t].mPt[m].c;e.word=p.join("")}e.result=!0;break}}},e.removePre1=function(){var r=e.word;if(0==e.preRemoved&&e.word.length>3){var t=new RegExp("^("+e.pre.pre1.split(" ").join("|")+")");e.word=e.word.replace(t,"")}return r!=e.word&&(e.preRemoved=!0),!1},e.removeSuf1=function(){var r=e.word;if(0==e.sufRemoved&&e.word.length>3){var t=new RegExp("("+e.suf.suf1.split(" ").join("|")+")$");e.word=e.word.replace(t,"")}return r!=e.word&&(e.sufRemoved=!0),!1},e.removeSuf432=function(){var r=e.word;if(e.word.length>=6){var t=new RegExp("("+e.suf.suf4.split(" ").join("|")+")$");e.word=e.word.replace(t,"")}if(e.word==r&&e.word.length>=5){var c=new RegExp("("+e.suf.suf3.split(" ").join("|")+")$");e.word=e.word.replace(c,"")}if(e.word==r&&e.word.length>=4){var l=new RegExp("("+e.suf.suf2.split(" ").join("|")+")$");e.word=e.word.replace(l,"")}return r!=e.word&&(e.sufRemoved=!0),!1},e.wordCheck=function(){for(var r=(e.word,[e.removeSuf432,e.removeSuf1,e.removePre1]),t=0,c=!1;e.word.length>=7&&!e.result&&t<r.length;)7!=e.word.length||c?(r[t](),t++,c=!1):(e.checkPattern73(),c=!0);var l=[e.checkPattern63,e.removeSuf432,e.removeSuf1,e.removePre1,e.checkPattern64];for(t=0;6==e.word.length&&!e.result&&t<l.length;)l[t](),t++;var n=[e.checkPattern53,e.removeSuf432,e.removeSuf1,e.removePre1,e.checkPattern54];for(t=0;5==e.word.length&&!e.result&&t<n.length;)n[t](),t++;var o=[e.checkPattern43,e.removeSuf1,e.removePre1,e.removeSuf432];for(t=0;4==e.word.length&&!e.result&&t<o.length;)o[t](),t++;return!0},e.checkPattern43=function(){e.patternCheck(e.patterns.pt43)},e.checkPattern53=function(){e.patternCheck(e.patterns.pt53)},e.checkPattern54=function(){e.patternCheck(e.patterns.pt54)},e.checkPattern63=function(){e.patternCheck(e.patterns.pt63)},e.checkPattern64=function(){e.patternCheck(e.patterns.pt64)},e.checkPattern73=function(){e.patternCheck(e.patterns.pt73)},function(r){return"function"==typeof r.update?r.update(function(r){return e.setCurrent(r),e.stem(),e.getCurrent()}):(e.setCurrent(r),e.stem(),e.getCurrent())}}(),e.Pipeline.registerFunction(e.ar.stemmer,"stemmer-ar"),e.ar.stopWordFilter=e.generateStopWordFilter("، اض امين اه اها اي ا اب اجل اجمع اخ اخذ اصبح اضحى اقبل اقل اكثر الا ام اما امامك امامك امسى اما ان انا انت انتم انتما انتن انت انشا انى او اوشك اولئك اولئكم اولاء اولالك اوه اي ايا اين اينما اي ان اي اف اذ اذا اذا اذما اذن الى اليكم اليكما اليكن اليك اليك الا اما ان انما اي اياك اياكم اياكما اياكن ايانا اياه اياها اياهم اياهما اياهن اياي ايه ان ا ابتدا اثر اجل احد اخرى اخلولق اذا اربعة ارتد استحال اطار اعادة اعلنت اف اكثر اكد الالاء الالى الا الاخيرة الان الاول الاولى التى التي الثاني الثانية الذاتي الذى الذي الذين السابق الف اللائي اللاتي اللتان اللتيا اللتين اللذان اللذين اللواتي الماضي المقبل الوقت الى اليوم اما امام امس ان انبرى انقلب انه انها او اول اي ايار ايام ايضا ب بات باسم بان بخ برس بسبب بس بشكل بضع بطان بعد بعض بك بكم بكما بكن بل بلى بما بماذا بمن بن بنا به بها بي بيد بين بس بله بئس تان تانك تبدل تجاه تحول تلقاء تلك تلكم تلكما تم تينك تين ته تي ثلاثة ثم ثم ثمة ثم جعل جلل جميع جير حار حاشا حاليا حاي حتى حرى حسب حم حوالى حول حيث حيثما حين حي حبذا حتى حذار خلا خلال دون دونك ذا ذات ذاك ذانك ذان ذلك ذلكم ذلكما ذلكن ذو ذوا ذواتا ذواتي ذيت ذينك ذين ذه ذي راح رجع رويدك ريث رب زيارة سبحان سرعان سنة سنوات سوف سوى ساء ساءما شبه شخصا شرع شتان صار صباح صفر صه صه ضد ضمن طاق طالما طفق طق ظل عاد عام عاما عامة عدا عدة عدد عدم عسى عشر عشرة علق على عليك عليه عليها عل عن عند عندما عوض عين عدس عما غدا غير  ف فان فلان فو فى في فيم فيما فيه فيها قال قام قبل قد قط قلما قوة كانما كاين كاي كاين كاد كان كانت كذا كذلك كرب كل كلا كلاهما كلتا كلم كليكما كليهما كلما كلا كم كما كي كيت كيف كيفما كان كخ لئن لا لات لاسيما لدن لدى لعمر لقاء لك لكم لكما لكن لكنما لكي لكيلا للامم لم لما لما لن لنا له لها لو لوكالة لولا لوما لي لست لست لستم لستما لستن لست لسن لعل لكن ليت ليس ليسا ليستا ليست ليسوا لسنا ما ماانفك مابرح مادام ماذا مازال مافتئ مايو متى مثل مذ مساء مع معاذ مقابل مكانكم مكانكما مكانكن مكانك مليار مليون مما ممن من منذ منها مه مهما من من نحن نحو نعم نفس نفسه نهاية نخ نعما نعم ها هاؤم هاك هاهنا هب هذا هذه هكذا هل هلم هلا هم هما هن هنا هناك هنالك هو هي هيا هيت هيا هؤلاء هاتان هاتين هاته هاتي هج هذا هذان هذين هذه هذي هيهات وا واحد واضاف واضافت واكد وان واها واوضح وراءك وفي وقال وقالت وقد وقف وكان وكانت ولا ولم ومن وهو وهي ويكان وي وشكان يكون يمكن يوم ايان".split(" ")),e.Pipeline.registerFunction(e.ar.stopWordFilter,"stopWordFilter-ar")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.da.min.js b/assets/javascripts/lunr/min/lunr.da.min.js
new file mode 100644
index 000000000..b9d850986
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.da.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `Danish` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.da=function(){this.pipeline.reset(),this.pipeline.add(e.da.trimmer,e.da.stopWordFilter,e.da.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.da.stemmer))},e.da.wordCharacters="A-Za-zªºÀ-ÖØ-öø-ʸˠ-ˤᴀ-ᴥᴬ-ᵜᵢ-ᵥᵫ-ᵷᵹ-ᶾḀ-ỿⁱⁿₐ-ₜKÅℲⅎⅠ-ↈⱠ-ⱿꜢ-ꞇꞋ-ꞭꞰ-ꞷꟷ-ꟿꬰ-ꭚꭜ-ꭤﬀ-ﬆＡ-Ｚａ-ｚ",e.da.trimmer=e.trimmerSupport.generateTrimmer(e.da.wordCharacters),e.Pipeline.registerFunction(e.da.trimmer,"trimmer-da"),e.da.stemmer=function(){var r=e.stemmerSupport.Among,i=e.stemmerSupport.SnowballProgram,n=new function(){function e(){var e,r=f.cursor+3;if(d=f.limit,0<=r&&r<=f.limit){for(a=r;;){if(e=f.cursor,f.in_grouping(w,97,248)){f.cursor=e;break}if(f.cursor=e,e>=f.limit)return;f.cursor++}for(;!f.out_grouping(w,97,248);){if(f.cursor>=f.limit)return;f.cursor++}d=f.cursor,d<a&&(d=a)}}function n(){var e,r;if(f.cursor>=d&&(r=f.limit_backward,f.limit_backward=d,f.ket=f.cursor,e=f.find_among_b(c,32),f.limit_backward=r,e))switch(f.bra=f.cursor,e){case 1:f.slice_del();break;case 2:f.in_grouping_b(p,97,229)&&f.slice_del()}}function t(){var e,r=f.limit-f.cursor;f.cursor>=d&&(e=f.limit_backward,f.limit_backward=d,f.ket=f.cursor,f.find_among_b(l,4)?(f.bra=f.cursor,f.limit_backward=e,f.cursor=f.limit-r,f.cursor>f.limit_backward&&(f.cursor--,f.bra=f.cursor,f.slice_del())):f.limit_backward=e)}function s(){var e,r,i,n=f.limit-f.cursor;if(f.ket=f.cursor,f.eq_s_b(2,"st")&&(f.bra=f.cursor,f.eq_s_b(2,"ig")&&f.slice_del()),f.cursor=f.limit-n,f.cursor>=d&&(r=f.limit_backward,f.limit_backward=d,f.ket=f.cursor,e=f.find_among_b(m,5),f.limit_backward=r,e))switch(f.bra=f.cursor,e){case 1:f.slice_del(),i=f.limit-f.cursor,t(),f.cursor=f.limit-i;break;case 2:f.slice_from("løs")}}function o(){var e;f.cursor>=d&&(e=f.limit_backward,f.limit_backward=d,f.ket=f.cursor,f.out_grouping_b(w,97,248)?(f.bra=f.cursor,u=f.slice_to(u),f.limit_backward=e,f.eq_v_b(u)&&f.slice_del()):f.limit_backward=e)}var a,d,u,c=[new r("hed",-1,1),new r("ethed",0,1),new r("ered",-1,1),new r("e",-1,1),new r("erede",3,1),new r("ende",3,1),new r("erende",5,1),new r("ene",3,1),new r("erne",3,1),new r("ere",3,1),new r("en",-1,1),new r("heden",10,1),new r("eren",10,1),new r("er",-1,1),new r("heder",13,1),new r("erer",13,1),new r("s",-1,2),new r("heds",16,1),new r("es",16,1),new r("endes",18,1),new r("erendes",19,1),new r("enes",18,1),new r("ernes",18,1),new r("eres",18,1),new r("ens",16,1),new r("hedens",24,1),new r("erens",24,1),new r("ers",16,1),new r("ets",16,1),new r("erets",28,1),new r("et",-1,1),new r("eret",30,1)],l=[new r("gd",-1,-1),new r("dt",-1,-1),new r("gt",-1,-1),new r("kt",-1,-1)],m=[new r("ig",-1,1),new r("lig",0,1),new r("elig",1,1),new r("els",-1,1),new r("løst",-1,2)],w=[17,65,16,1,0,0,0,0,0,0,0,0,0,0,0,0,48,0,128],p=[239,254,42,3,0,0,0,0,0,0,0,0,0,0,0,0,16],f=new i;this.setCurrent=function(e){f.setCurrent(e)},this.getCurrent=function(){return f.getCurrent()},this.stem=function(){var r=f.cursor;return e(),f.limit_backward=r,f.cursor=f.limit,n(),f.cursor=f.limit,t(),f.cursor=f.limit,s(),f.cursor=f.limit,o(),!0}};return function(e){return"function"==typeof e.update?e.update(function(e){return n.setCurrent(e),n.stem(),n.getCurrent()}):(n.setCurrent(e),n.stem(),n.getCurrent())}}(),e.Pipeline.registerFunction(e.da.stemmer,"stemmer-da"),e.da.stopWordFilter=e.generateStopWordFilter("ad af alle alt anden at blev blive bliver da de dem den denne der deres det dette dig din disse dog du efter eller en end er et for fra ham han hans har havde have hende hendes her hos hun hvad hvis hvor i ikke ind jeg jer jo kunne man mange med meget men mig min mine mit mod ned noget nogle nu når og også om op os over på selv sig sin sine sit skal skulle som sådan thi til ud under var vi vil ville vor være været".split(" ")),e.Pipeline.registerFunction(e.da.stopWordFilter,"stopWordFilter-da")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.de.min.js b/assets/javascripts/lunr/min/lunr.de.min.js
new file mode 100644
index 000000000..f3b5c108c
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.de.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `German` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.de=function(){this.pipeline.reset(),this.pipeline.add(e.de.trimmer,e.de.stopWordFilter,e.de.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.de.stemmer))},e.de.wordCharacters="A-Za-zªºÀ-ÖØ-öø-ʸˠ-ˤᴀ-ᴥᴬ-ᵜᵢ-ᵥᵫ-ᵷᵹ-ᶾḀ-ỿⁱⁿₐ-ₜKÅℲⅎⅠ-ↈⱠ-ⱿꜢ-ꞇꞋ-ꞭꞰ-ꞷꟷ-ꟿꬰ-ꭚꭜ-ꭤﬀ-ﬆＡ-Ｚａ-ｚ",e.de.trimmer=e.trimmerSupport.generateTrimmer(e.de.wordCharacters),e.Pipeline.registerFunction(e.de.trimmer,"trimmer-de"),e.de.stemmer=function(){var r=e.stemmerSupport.Among,n=e.stemmerSupport.SnowballProgram,i=new function(){function e(e,r,n){return!(!v.eq_s(1,e)||(v.ket=v.cursor,!v.in_grouping(p,97,252)))&&(v.slice_from(r),v.cursor=n,!0)}function i(){for(var r,n,i,s,t=v.cursor;;)if(r=v.cursor,v.bra=r,v.eq_s(1,"ß"))v.ket=v.cursor,v.slice_from("ss");else{if(r>=v.limit)break;v.cursor=r+1}for(v.cursor=t;;)for(n=v.cursor;;){if(i=v.cursor,v.in_grouping(p,97,252)){if(s=v.cursor,v.bra=s,e("u","U",i))break;if(v.cursor=s,e("y","Y",i))break}if(i>=v.limit)return void(v.cursor=n);v.cursor=i+1}}function s(){for(;!v.in_grouping(p,97,252);){if(v.cursor>=v.limit)return!0;v.cursor++}for(;!v.out_grouping(p,97,252);){if(v.cursor>=v.limit)return!0;v.cursor++}return!1}function t(){m=v.limit,l=m;var e=v.cursor+3;0<=e&&e<=v.limit&&(d=e,s()||(m=v.cursor,m<d&&(m=d),s()||(l=v.cursor)))}function o(){for(var e,r;;){if(r=v.cursor,v.bra=r,!(e=v.find_among(h,6)))return;switch(v.ket=v.cursor,e){case 1:v.slice_from("y");break;case 2:case 5:v.slice_from("u");break;case 3:v.slice_from("a");break;case 4:v.slice_from("o");break;case 6:if(v.cursor>=v.limit)return;v.cursor++}}}function c(){return m<=v.cursor}function u(){return l<=v.cursor}function a(){var e,r,n,i,s=v.limit-v.cursor;if(v.ket=v.cursor,(e=v.find_among_b(w,7))&&(v.bra=v.cursor,c()))switch(e){case 1:v.slice_del();break;case 2:v.slice_del(),v.ket=v.cursor,v.eq_s_b(1,"s")&&(v.bra=v.cursor,v.eq_s_b(3,"nis")&&v.slice_del());break;case 3:v.in_grouping_b(g,98,116)&&v.slice_del()}if(v.cursor=v.limit-s,v.ket=v.cursor,(e=v.find_among_b(f,4))&&(v.bra=v.cursor,c()))switch(e){case 1:v.slice_del();break;case 2:if(v.in_grouping_b(k,98,116)){var t=v.cursor-3;v.limit_backward<=t&&t<=v.limit&&(v.cursor=t,v.slice_del())}}if(v.cursor=v.limit-s,v.ket=v.cursor,(e=v.find_among_b(_,8))&&(v.bra=v.cursor,u()))switch(e){case 1:v.slice_del(),v.ket=v.cursor,v.eq_s_b(2,"ig")&&(v.bra=v.cursor,r=v.limit-v.cursor,v.eq_s_b(1,"e")||(v.cursor=v.limit-r,u()&&v.slice_del()));break;case 2:n=v.limit-v.cursor,v.eq_s_b(1,"e")||(v.cursor=v.limit-n,v.slice_del());break;case 3:if(v.slice_del(),v.ket=v.cursor,i=v.limit-v.cursor,!v.eq_s_b(2,"er")&&(v.cursor=v.limit-i,!v.eq_s_b(2,"en")))break;v.bra=v.cursor,c()&&v.slice_del();break;case 4:v.slice_del(),v.ket=v.cursor,e=v.find_among_b(b,2),e&&(v.bra=v.cursor,u()&&1==e&&v.slice_del())}}var d,l,m,h=[new r("",-1,6),new r("U",0,2),new r("Y",0,1),new r("ä",0,3),new r("ö",0,4),new r("ü",0,5)],w=[new r("e",-1,2),new r("em",-1,1),new r("en",-1,2),new r("ern",-1,1),new r("er",-1,1),new r("s",-1,3),new r("es",5,2)],f=[new r("en",-1,1),new r("er",-1,1),new r("st",-1,2),new r("est",2,1)],b=[new r("ig",-1,1),new r("lich",-1,1)],_=[new r("end",-1,1),new r("ig",-1,2),new r("ung",-1,1),new r("lich",-1,3),new r("isch",-1,2),new r("ik",-1,2),new r("heit",-1,3),new r("keit",-1,4)],p=[17,65,16,1,0,0,0,0,0,0,0,0,0,0,0,0,8,0,32,8],g=[117,30,5],k=[117,30,4],v=new n;this.setCurrent=function(e){v.setCurrent(e)},this.getCurrent=function(){return v.getCurrent()},this.stem=function(){var e=v.cursor;return i(),v.cursor=e,t(),v.limit_backward=e,v.cursor=v.limit,a(),v.cursor=v.limit_backward,o(),!0}};return function(e){return"function"==typeof e.update?e.update(function(e){return i.setCurrent(e),i.stem(),i.getCurrent()}):(i.setCurrent(e),i.stem(),i.getCurrent())}}(),e.Pipeline.registerFunction(e.de.stemmer,"stemmer-de"),e.de.stopWordFilter=e.generateStopWordFilter("aber alle allem allen aller alles als also am an ander andere anderem anderen anderer anderes anderm andern anderr anders auch auf aus bei bin bis bist da damit dann das dasselbe dazu daß dein deine deinem deinen deiner deines dem demselben den denn denselben der derer derselbe derselben des desselben dessen dich die dies diese dieselbe dieselben diesem diesen dieser dieses dir doch dort du durch ein eine einem einen einer eines einig einige einigem einigen einiger einiges einmal er es etwas euch euer eure eurem euren eurer eures für gegen gewesen hab habe haben hat hatte hatten hier hin hinter ich ihm ihn ihnen ihr ihre ihrem ihren ihrer ihres im in indem ins ist jede jedem jeden jeder jedes jene jenem jenen jener jenes jetzt kann kein keine keinem keinen keiner keines können könnte machen man manche manchem manchen mancher manches mein meine meinem meinen meiner meines mich mir mit muss musste nach nicht nichts noch nun nur ob oder ohne sehr sein seine seinem seinen seiner seines selbst sich sie sind so solche solchem solchen solcher solches soll sollte sondern sonst um und uns unse unsem unsen unser unses unter viel vom von vor war waren warst was weg weil weiter welche welchem welchen welcher welches wenn werde werden wie wieder will wir wird wirst wo wollen wollte während würde würden zu zum zur zwar zwischen über".split(" ")),e.Pipeline.registerFunction(e.de.stopWordFilter,"stopWordFilter-de")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.du.min.js b/assets/javascripts/lunr/min/lunr.du.min.js
new file mode 100644
index 000000000..49a0f3f0a
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.du.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `Dutch` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");console.warn('[Lunr Languages] Please use the "nl" instead of the "du". The "nl" code is the standard code for Dutch language, and "du" will be removed in the next major versions.'),e.du=function(){this.pipeline.reset(),this.pipeline.add(e.du.trimmer,e.du.stopWordFilter,e.du.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.du.stemmer))},e.du.wordCharacters="A-Za-zªºÀ-ÖØ-öø-ʸˠ-ˤᴀ-ᴥᴬ-ᵜᵢ-ᵥᵫ-ᵷᵹ-ᶾḀ-ỿⁱⁿₐ-ₜKÅℲⅎⅠ-ↈⱠ-ⱿꜢ-ꞇꞋ-ꞭꞰ-ꞷꟷ-ꟿꬰ-ꭚꭜ-ꭤﬀ-ﬆＡ-Ｚａ-ｚ",e.du.trimmer=e.trimmerSupport.generateTrimmer(e.du.wordCharacters),e.Pipeline.registerFunction(e.du.trimmer,"trimmer-du"),e.du.stemmer=function(){var r=e.stemmerSupport.Among,i=e.stemmerSupport.SnowballProgram,n=new function(){function e(){for(var e,r,i,o=C.cursor;;){if(C.bra=C.cursor,e=C.find_among(b,11))switch(C.ket=C.cursor,e){case 1:C.slice_from("a");continue;case 2:C.slice_from("e");continue;case 3:C.slice_from("i");continue;case 4:C.slice_from("o");continue;case 5:C.slice_from("u");continue;case 6:if(C.cursor>=C.limit)break;C.cursor++;continue}break}for(C.cursor=o,C.bra=o,C.eq_s(1,"y")?(C.ket=C.cursor,C.slice_from("Y")):C.cursor=o;;)if(r=C.cursor,C.in_grouping(q,97,232)){if(i=C.cursor,C.bra=i,C.eq_s(1,"i"))C.ket=C.cursor,C.in_grouping(q,97,232)&&(C.slice_from("I"),C.cursor=r);else if(C.cursor=i,C.eq_s(1,"y"))C.ket=C.cursor,C.slice_from("Y"),C.cursor=r;else if(n(r))break}else if(n(r))break}function n(e){return C.cursor=e,e>=C.limit||(C.cursor++,!1)}function o(){_=C.limit,f=_,t()||(_=C.cursor,_<3&&(_=3),t()||(f=C.cursor))}function t(){for(;!C.in_grouping(q,97,232);){if(C.cursor>=C.limit)return!0;C.cursor++}for(;!C.out_grouping(q,97,232);){if(C.cursor>=C.limit)return!0;C.cursor++}return!1}function s(){for(var e;;)if(C.bra=C.cursor,e=C.find_among(p,3))switch(C.ket=C.cursor,e){case 1:C.slice_from("y");break;case 2:C.slice_from("i");break;case 3:if(C.cursor>=C.limit)return;C.cursor++}}function u(){return _<=C.cursor}function c(){return f<=C.cursor}function a(){var e=C.limit-C.cursor;C.find_among_b(g,3)&&(C.cursor=C.limit-e,C.ket=C.cursor,C.cursor>C.limit_backward&&(C.cursor--,C.bra=C.cursor,C.slice_del()))}function l(){var e;w=!1,C.ket=C.cursor,C.eq_s_b(1,"e")&&(C.bra=C.cursor,u()&&(e=C.limit-C.cursor,C.out_grouping_b(q,97,232)&&(C.cursor=C.limit-e,C.slice_del(),w=!0,a())))}function m(){var e;u()&&(e=C.limit-C.cursor,C.out_grouping_b(q,97,232)&&(C.cursor=C.limit-e,C.eq_s_b(3,"gem")||(C.cursor=C.limit-e,C.slice_del(),a())))}function d(){var e,r,i,n,o,t,s=C.limit-C.cursor;if(C.ket=C.cursor,e=C.find_among_b(h,5))switch(C.bra=C.cursor,e){case 1:u()&&C.slice_from("heid");break;case 2:m();break;case 3:u()&&C.out_grouping_b(z,97,232)&&C.slice_del()}if(C.cursor=C.limit-s,l(),C.cursor=C.limit-s,C.ket=C.cursor,C.eq_s_b(4,"heid")&&(C.bra=C.cursor,c()&&(r=C.limit-C.cursor,C.eq_s_b(1,"c")||(C.cursor=C.limit-r,C.slice_del(),C.ket=C.cursor,C.eq_s_b(2,"en")&&(C.bra=C.cursor,m())))),C.cursor=C.limit-s,C.ket=C.cursor,e=C.find_among_b(k,6))switch(C.bra=C.cursor,e){case 1:if(c()){if(C.slice_del(),i=C.limit-C.cursor,C.ket=C.cursor,C.eq_s_b(2,"ig")&&(C.bra=C.cursor,c()&&(n=C.limit-C.cursor,!C.eq_s_b(1,"e")))){C.cursor=C.limit-n,C.slice_del();break}C.cursor=C.limit-i,a()}break;case 2:c()&&(o=C.limit-C.cursor,C.eq_s_b(1,"e")||(C.cursor=C.limit-o,C.slice_del()));break;case 3:c()&&(C.slice_del(),l());break;case 4:c()&&C.slice_del();break;case 5:c()&&w&&C.slice_del()}C.cursor=C.limit-s,C.out_grouping_b(j,73,232)&&(t=C.limit-C.cursor,C.find_among_b(v,4)&&C.out_grouping_b(q,97,232)&&(C.cursor=C.limit-t,C.ket=C.cursor,C.cursor>C.limit_backward&&(C.cursor--,C.bra=C.cursor,C.slice_del())))}var f,_,w,b=[new r("",-1,6),new r("á",0,1),new r("ä",0,1),new r("é",0,2),new r("ë",0,2),new r("í",0,3),new r("ï",0,3),new r("ó",0,4),new r("ö",0,4),new r("ú",0,5),new r("ü",0,5)],p=[new r("",-1,3),new r("I",0,2),new r("Y",0,1)],g=[new r("dd",-1,-1),new r("kk",-1,-1),new r("tt",-1,-1)],h=[new r("ene",-1,2),new r("se",-1,3),new r("en",-1,2),new r("heden",2,1),new r("s",-1,3)],k=[new r("end",-1,1),new r("ig",-1,2),new r("ing",-1,1),new r("lijk",-1,3),new r("baar",-1,4),new r("bar",-1,5)],v=[new r("aa",-1,-1),new r("ee",-1,-1),new r("oo",-1,-1),new r("uu",-1,-1)],q=[17,65,16,1,0,0,0,0,0,0,0,0,0,0,0,0,128],j=[1,0,0,17,65,16,1,0,0,0,0,0,0,0,0,0,0,0,0,128],z=[17,67,16,1,0,0,0,0,0,0,0,0,0,0,0,0,128],C=new i;this.setCurrent=function(e){C.setCurrent(e)},this.getCurrent=function(){return C.getCurrent()},this.stem=function(){var r=C.cursor;return e(),C.cursor=r,o(),C.limit_backward=r,C.cursor=C.limit,d(),C.cursor=C.limit_backward,s(),!0}};return function(e){return"function"==typeof e.update?e.update(function(e){return n.setCurrent(e),n.stem(),n.getCurrent()}):(n.setCurrent(e),n.stem(),n.getCurrent())}}(),e.Pipeline.registerFunction(e.du.stemmer,"stemmer-du"),e.du.stopWordFilter=e.generateStopWordFilter(" aan al alles als altijd andere ben bij daar dan dat de der deze die dit doch doen door dus een eens en er ge geen geweest haar had heb hebben heeft hem het hier hij hoe hun iemand iets ik in is ja je kan kon kunnen maar me meer men met mij mijn moet na naar niet niets nog nu of om omdat onder ons ook op over reeds te tegen toch toen tot u uit uw van veel voor want waren was wat werd wezen wie wil worden wordt zal ze zelf zich zij zijn zo zonder zou".split(" ")),e.Pipeline.registerFunction(e.du.stopWordFilter,"stopWordFilter-du")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.el.min.js b/assets/javascripts/lunr/min/lunr.el.min.js
new file mode 100644
index 000000000..ace017bd6
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.el.min.js
@@ -0,0 +1 @@
+!function(e,t){"function"==typeof define&&define.amd?define(t):"object"==typeof exports?module.exports=t():t()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.el=function(){this.pipeline.reset(),void 0===this.searchPipeline&&this.pipeline.add(e.el.trimmer,e.el.normilizer),this.pipeline.add(e.el.stopWordFilter,e.el.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.el.stemmer))},e.el.wordCharacters="A-Za-zΑαΒβΓγΔδΕεΖζΗηΘθΙιΚκΛλΜμΝνΞξΟοΠπΡρΣσςΤτΥυΦφΧχΨψΩωΆάΈέΉήΊίΌόΎύΏώΪΐΫΰΐΰ",e.el.trimmer=e.trimmerSupport.generateTrimmer(e.el.wordCharacters),e.Pipeline.registerFunction(e.el.trimmer,"trimmer-el"),e.el.stemmer=function(){function e(e){return s.test(e)}function t(e){return/[ΑΕΗΙΟΥΩ]$/.test(e)}function r(e){return/[ΑΕΗΙΟΩ]$/.test(e)}function n(n){var s=n;if(n.length<3)return s;if(!e(n))return s;if(i.indexOf(n)>=0)return s;var u=new RegExp("(.*)("+Object.keys(l).join("|")+")$"),o=u.exec(s);return null!==o&&(s=o[1]+l[o[2]]),null!==(o=/^(.+?)(ΑΔΕΣ|ΑΔΩΝ)$/.exec(s))&&(s=o[1],/(ΟΚ|ΜΑΜ|ΜΑΝ|ΜΠΑΜΠ|ΠΑΤΕΡ|ΓΙΑΓΙ|ΝΤΑΝΤ|ΚΥΡ|ΘΕΙ|ΠΕΘΕΡ|ΜΟΥΣΑΜ|ΚΑΠΛΑΜ|ΠΑΡ|ΨΑΡ|ΤΖΟΥΡ|ΤΑΜΠΟΥΡ|ΓΑΛΑΤ|ΦΑΦΛΑΤ)$/.test(o[1])||(s+="ΑΔ")),null!==(o=/^(.+?)(ΕΔΕΣ|ΕΔΩΝ)$/.exec(s))&&(s=o[1],/(ΟΠ|ΙΠ|ΕΜΠ|ΥΠ|ΓΗΠ|ΔΑΠ|ΚΡΑΣΠ|ΜΙΛ)$/.test(o[1])&&(s+="ΕΔ")),null!==(o=/^(.+?)(ΟΥΔΕΣ|ΟΥΔΩΝ)$/.exec(s))&&(s=o[1],/(ΑΡΚ|ΚΑΛΙΑΚ|ΠΕΤΑΛ|ΛΙΧ|ΠΛΕΞ|ΣΚ|Σ|ΦΛ|ΦΡ|ΒΕΛ|ΛΟΥΛ|ΧΝ|ΣΠ|ΤΡΑΓ|ΦΕ)$/.test(o[1])&&(s+="ΟΥΔ")),null!==(o=/^(.+?)(ΕΩΣ|ΕΩΝ|ΕΑΣ|ΕΑ)$/.exec(s))&&(s=o[1],/^(Θ|Δ|ΕΛ|ΓΑΛ|Ν|Π|ΙΔ|ΠΑΡ|ΣΤΕΡ|ΟΡΦ|ΑΝΔΡ|ΑΝΤΡ)$/.test(o[1])&&(s+="Ε")),null!==(o=/^(.+?)(ΕΙΟ|ΕΙΟΣ|ΕΙΟΙ|ΕΙΑ|ΕΙΑΣ|ΕΙΕΣ|ΕΙΟΥ|ΕΙΟΥΣ|ΕΙΩΝ)$/.exec(s))&&o[1].length>4&&(s=o[1]),null!==(o=/^(.+?)(ΙΟΥΣ|ΙΑΣ|ΙΕΣ|ΙΟΣ|ΙΟΥ|ΙΟΙ|ΙΩΝ|ΙΟΝ|ΙΑ|ΙΟ)$/.exec(s))&&(s=o[1],(t(s)||s.length<2||/^(ΑΓ|ΑΓΓΕΛ|ΑΓΡ|ΑΕΡ|ΑΘΛ|ΑΚΟΥΣ|ΑΞ|ΑΣ|Β|ΒΙΒΛ|ΒΥΤ|Γ|ΓΙΑΓ|ΓΩΝ|Δ|ΔΑΝ|ΔΗΛ|ΔΗΜ|ΔΟΚΙΜ|ΕΛ|ΖΑΧΑΡ|ΗΛ|ΗΠ|ΙΔ|ΙΣΚ|ΙΣΤ|ΙΟΝ|ΙΩΝ|ΚΙΜΩΛ|ΚΟΛΟΝ|ΚΟΡ|ΚΤΗΡ|ΚΥΡ|ΛΑΓ|ΛΟΓ|ΜΑΓ|ΜΠΑΝ|ΜΠΡ|ΝΑΥΤ|ΝΟΤ|ΟΠΑΛ|ΟΞ|ΟΡ|ΟΣ|ΠΑΝΑΓ|ΠΑΤΡ|ΠΗΛ|ΠΗΝ|ΠΛΑΙΣ|ΠΟΝΤ|ΡΑΔ|ΡΟΔ|ΣΚ|ΣΚΟΡΠ|ΣΟΥΝ|ΣΠΑΝ|ΣΤΑΔ|ΣΥΡ|ΤΗΛ|ΤΙΜ|ΤΟΚ|ΤΟΠ|ΤΡΟΧ|ΦΙΛ|ΦΩΤ|Χ|ΧΙΛ|ΧΡΩΜ|ΧΩΡ)$/.test(o[1]))&&(s+="Ι"),/^(ΠΑΛ)$/.test(o[1])&&(s+="ΑΙ")),null!==(o=/^(.+?)(ΙΚΟΣ|ΙΚΟΝ|ΙΚΕΙΣ|ΙΚΟΙ|ΙΚΕΣ|ΙΚΟΥΣ|ΙΚΗ|ΙΚΗΣ|ΙΚΟ|ΙΚΑ|ΙΚΟΥ|ΙΚΩΝ|ΙΚΩΣ)$/.exec(s))&&(s=o[1],(t(s)||/^(ΑΔ|ΑΛ|ΑΜΑΝ|ΑΜΕΡ|ΑΜΜΟΧΑΛ|ΑΝΗΘ|ΑΝΤΙΔ|ΑΠΛ|ΑΤΤ|ΑΦΡ|ΒΑΣ|ΒΡΩΜ|ΓΕΝ|ΓΕΡ|Δ|ΔΙΚΑΝ|ΔΥΤ|ΕΙΔ|ΕΝΔ|ΕΞΩΔ|ΗΘ|ΘΕΤ|ΚΑΛΛΙΝ|ΚΑΛΠ|ΚΑΤΑΔ|ΚΟΥΖΙΝ|ΚΡ|ΚΩΔ|ΛΟΓ|Μ|ΜΕΡ|ΜΟΝΑΔ|ΜΟΥΛ|ΜΟΥΣ|ΜΠΑΓΙΑΤ|ΜΠΑΝ|ΜΠΟΛ|ΜΠΟΣ|ΜΥΣΤ|Ν|ΝΙΤ|ΞΙΚ|ΟΠΤ|ΠΑΝ|ΠΕΤΣ|ΠΙΚΑΝΤ|ΠΙΤΣ|ΠΛΑΣΤ|ΠΛΙΑΤΣ|ΠΟΝΤ|ΠΟΣΤΕΛΝ|ΠΡΩΤΟΔ|ΣΕΡΤ|ΣΗΜΑΝΤ|ΣΤΑΤ|ΣΥΝΑΔ|ΣΥΝΟΜΗΛ|ΤΕΛ|ΤΕΧΝ|ΤΡΟΠ|ΤΣΑΜ|ΥΠΟΔ|Φ|ΦΙΛΟΝ|ΦΥΛΟΔ|ΦΥΣ|ΧΑΣ)$/.test(o[1])||/(ΦΟΙΝ)$/.test(o[1]))&&(s+="ΙΚ")),"ΑΓΑΜΕ"===s&&(s="ΑΓΑΜ"),null!==(o=/^(.+?)(ΑΓΑΜΕ|ΗΣΑΜΕ|ΟΥΣΑΜΕ|ΗΚΑΜΕ|ΗΘΗΚΑΜΕ)$/.exec(s))&&(s=o[1]),null!==(o=/^(.+?)(ΑΜΕ)$/.exec(s))&&(s=o[1],/^(ΑΝΑΠ|ΑΠΟΘ|ΑΠΟΚ|ΑΠΟΣΤ|ΒΟΥΒ|ΞΕΘ|ΟΥΛ|ΠΕΘ|ΠΙΚΡ|ΠΟΤ|ΣΙΧ|Χ)$/.test(o[1])&&(s+="ΑΜ")),null!==(o=/^(.+?)(ΑΓΑΝΕ|ΗΣΑΝΕ|ΟΥΣΑΝΕ|ΙΟΝΤΑΝΕ|ΙΟΤΑΝΕ|ΙΟΥΝΤΑΝΕ|ΟΝΤΑΝΕ|ΟΤΑΝΕ|ΟΥΝΤΑΝΕ|ΗΚΑΝΕ|ΗΘΗΚΑΝΕ)$/.exec(s))&&(s=o[1],/^(ΤΡ|ΤΣ)$/.test(o[1])&&(s+="ΑΓΑΝ")),null!==(o=/^(.+?)(ΑΝΕ)$/.exec(s))&&(s=o[1],(r(s)||/^(ΒΕΤΕΡ|ΒΟΥΛΚ|ΒΡΑΧΜ|Γ|ΔΡΑΔΟΥΜ|Θ|ΚΑΛΠΟΥΖ|ΚΑΣΤΕΛ|ΚΟΡΜΟΡ|ΛΑΟΠΛ|ΜΩΑΜΕΘ|Μ|ΜΟΥΣΟΥΛΜΑΝ|ΟΥΛ|Π|ΠΕΛΕΚ|ΠΛ|ΠΟΛΙΣ|ΠΟΡΤΟΛ|ΣΑΡΑΚΑΤΣ|ΣΟΥΛΤ|ΤΣΑΡΛΑΤ|ΟΡΦ|ΤΣΙΓΓ|ΤΣΟΠ|ΦΩΤΟΣΤΕΦ|Χ|ΨΥΧΟΠΛ|ΑΓ|ΟΡΦ|ΓΑΛ|ΓΕΡ|ΔΕΚ|ΔΙΠΛ|ΑΜΕΡΙΚΑΝ|ΟΥΡ|ΠΙΘ|ΠΟΥΡΙΤ|Σ|ΖΩΝΤ|ΙΚ|ΚΑΣΤ|ΚΟΠ|ΛΙΧ|ΛΟΥΘΗΡ|ΜΑΙΝΤ|ΜΕΛ|ΣΙΓ|ΣΠ|ΣΤΕΓ|ΤΡΑΓ|ΤΣΑΓ|Φ|ΕΡ|ΑΔΑΠ|ΑΘΙΓΓ|ΑΜΗΧ|ΑΝΙΚ|ΑΝΟΡΓ|ΑΠΗΓ|ΑΠΙΘ|ΑΤΣΙΓΓ|ΒΑΣ|ΒΑΣΚ|ΒΑΘΥΓΑΛ|ΒΙΟΜΗΧ|ΒΡΑΧΥΚ|ΔΙΑΤ|ΔΙΑΦ|ΕΝΟΡΓ|ΘΥΣ|ΚΑΠΝΟΒΙΟΜΗΧ|ΚΑΤΑΓΑΛ|ΚΛΙΒ|ΚΟΙΛΑΡΦ|ΛΙΒ|ΜΕΓΛΟΒΙΟΜΗΧ|ΜΙΚΡΟΒΙΟΜΗΧ|ΝΤΑΒ|ΞΗΡΟΚΛΙΒ|ΟΛΙΓΟΔΑΜ|ΟΛΟΓΑΛ|ΠΕΝΤΑΡΦ|ΠΕΡΗΦ|ΠΕΡΙΤΡ|ΠΛΑΤ|ΠΟΛΥΔΑΠ|ΠΟΛΥΜΗΧ|ΣΤΕΦ|ΤΑΒ|ΤΕΤ|ΥΠΕΡΗΦ|ΥΠΟΚΟΠ|ΧΑΜΗΛΟΔΑΠ|ΨΗΛΟΤΑΒ)$/.test(o[1]))&&(s+="ΑΝ")),null!==(o=/^(.+?)(ΗΣΕΤΕ)$/.exec(s))&&(s=o[1]),null!==(o=/^(.+?)(ΕΤΕ)$/.exec(s))&&(s=o[1],(r(s)||/(ΟΔ|ΑΙΡ|ΦΟΡ|ΤΑΘ|ΔΙΑΘ|ΣΧ|ΕΝΔ|ΕΥΡ|ΤΙΘ|ΥΠΕΡΘ|ΡΑΘ|ΕΝΘ|ΡΟΘ|ΣΘ|ΠΥΡ|ΑΙΝ|ΣΥΝΔ|ΣΥΝ|ΣΥΝΘ|ΧΩΡ|ΠΟΝ|ΒΡ|ΚΑΘ|ΕΥΘ|ΕΚΘ|ΝΕΤ|ΡΟΝ|ΑΡΚ|ΒΑΡ|ΒΟΛ|ΩΦΕΛ)$/.test(o[1])||/^(ΑΒΑΡ|ΒΕΝ|ΕΝΑΡ|ΑΒΡ|ΑΔ|ΑΘ|ΑΝ|ΑΠΛ|ΒΑΡΟΝ|ΝΤΡ|ΣΚ|ΚΟΠ|ΜΠΟΡ|ΝΙΦ|ΠΑΓ|ΠΑΡΑΚΑΛ|ΣΕΡΠ|ΣΚΕΛ|ΣΥΡΦ|ΤΟΚ|Υ|Δ|ΕΜ|ΘΑΡΡ|Θ)$/.test(o[1]))&&(s+="ΕΤ")),null!==(o=/^(.+?)(ΟΝΤΑΣ|ΩΝΤΑΣ)$/.exec(s))&&(s=o[1],/^ΑΡΧ$/.test(o[1])&&(s+="ΟΝΤ"),/ΚΡΕ$/.test(o[1])&&(s+="ΩΝΤ")),null!==(o=/^(.+?)(ΟΜΑΣΤΕ|ΙΟΜΑΣΤΕ)$/.exec(s))&&(s=o[1],/^ΟΝ$/.test(o[1])&&(s+="ΟΜΑΣΤ")),null!==(o=/^(.+?)(ΙΕΣΤΕ)$/.exec(s))&&(s=o[1],/^(Π|ΑΠ|ΣΥΜΠ|ΑΣΥΜΠ|ΑΚΑΤΑΠ|ΑΜΕΤΑΜΦ)$/.test(o[1])&&(s+="ΙΕΣΤ")),null!==(o=/^(.+?)(ΕΣΤΕ)$/.exec(s))&&(s=o[1],/^(ΑΛ|ΑΡ|ΕΚΤΕΛ|Ζ|Μ|Ξ|ΠΑΡΑΚΑΛ|ΠΡΟ|ΝΙΣ)$/.test(o[1])&&(s+="ΕΣΤ")),null!==(o=/^(.+?)(ΗΘΗΚΑ|ΗΘΗΚΕΣ|ΗΘΗΚΕ)$/.exec(s))&&(s=o[1]),null!==(o=/^(.+?)(ΗΚΑ|ΗΚΕΣ|ΗΚΕ)$/.exec(s))&&(s=o[1],(/(ΣΚΩΛ|ΣΚΟΥΛ|ΝΑΡΘ|ΣΦ|ΟΘ|ΠΙΘ)$/.test(o[1])||/^(ΔΙΑΘ|Θ|ΠΑΡΑΚΑΤΑΘ|ΠΡΟΣΘ|ΣΥΝΘ)$/.test(o[1]))&&(s+="ΗΚ")),null!==(o=/^(.+?)(ΟΥΣΑ|ΟΥΣΕΣ|ΟΥΣΕ)$/.exec(s))&&(s=o[1],(t(s)||/^(ΦΑΡΜΑΚ|ΧΑΔ|ΑΓΚ|ΑΝΑΡΡ|ΒΡΟΜ|ΕΚΛΙΠ|ΛΑΜΠΙΔ|ΛΕΧ|Μ|ΠΑΤ|Ρ|Λ|ΜΕΔ|ΜΕΣΑΖ|ΥΠΟΤΕΙΝ|ΑΜ|ΑΙΘ|ΑΝΗΚ|ΔΕΣΠΟΖ|ΕΝΔΙΑΦΕΡ)$/.test(o[1])||/(ΠΟΔΑΡ|ΒΛΕΠ|ΠΑΝΤΑΧ|ΦΡΥΔ|ΜΑΝΤΙΛ|ΜΑΛΛ|ΚΥΜΑΤ|ΛΑΧ|ΛΗΓ|ΦΑΓ|ΟΜ|ΠΡΩΤ)$/.test(o[1]))&&(s+="ΟΥΣ")),null!==(o=/^(.+?)(ΑΓΑ|ΑΓΕΣ|ΑΓΕ)$/.exec(s))&&(s=o[1],(/^(ΑΒΑΣΤ|ΠΟΛΥΦ|ΑΔΗΦ|ΠΑΜΦ|Ρ|ΑΣΠ|ΑΦ|ΑΜΑΛ|ΑΜΑΛΛΙ|ΑΝΥΣΤ|ΑΠΕΡ|ΑΣΠΑΡ|ΑΧΑΡ|ΔΕΡΒΕΝ|ΔΡΟΣΟΠ|ΞΕΦ|ΝΕΟΠ|ΝΟΜΟΤ|ΟΛΟΠ|ΟΜΟΤ|ΠΡΟΣΤ|ΠΡΟΣΩΠΟΠ|ΣΥΜΠ|ΣΥΝΤ|Τ|ΥΠΟΤ|ΧΑΡ|ΑΕΙΠ|ΑΙΜΟΣΤ|ΑΝΥΠ|ΑΠΟΤ|ΑΡΤΙΠ|ΔΙΑΤ|ΕΝ|ΕΠΙΤ|ΚΡΟΚΑΛΟΠ|ΣΙΔΗΡΟΠ|Λ|ΝΑΥ|ΟΥΛΑΜ|ΟΥΡ|Π|ΤΡ|Μ)$/.test(o[1])||/(ΟΦ|ΠΕΛ|ΧΟΡΤ|ΛΛ|ΣΦ|ΡΠ|ΦΡ|ΠΡ|ΛΟΧ|ΣΜΗΝ)$/.test(o[1])&&!/^(ΨΟΦ|ΝΑΥΛΟΧ)$/.test(o[1])||/(ΚΟΛΛ)$/.test(o[1]))&&(s+="ΑΓ")),null!==(o=/^(.+?)(ΗΣΕ|ΗΣΟΥ|ΗΣΑ)$/.exec(s))&&(s=o[1],/^(Ν|ΧΕΡΣΟΝ|ΔΩΔΕΚΑΝ|ΕΡΗΜΟΝ|ΜΕΓΑΛΟΝ|ΕΠΤΑΝ|Ι)$/.test(o[1])&&(s+="ΗΣ")),null!==(o=/^(.+?)(ΗΣΤΕ)$/.exec(s))&&(s=o[1],/^(ΑΣΒ|ΣΒ|ΑΧΡ|ΧΡ|ΑΠΛ|ΑΕΙΜΝ|ΔΥΣΧΡ|ΕΥΧΡ|ΚΟΙΝΟΧΡ|ΠΑΛΙΜΨ)$/.test(o[1])&&(s+="ΗΣΤ")),null!==(o=/^(.+?)(ΟΥΝΕ|ΗΣΟΥΝΕ|ΗΘΟΥΝΕ)$/.exec(s))&&(s=o[1],/^(Ν|Ρ|ΣΠΙ|ΣΤΡΑΒΟΜΟΥΤΣ|ΚΑΚΟΜΟΥΤΣ|ΕΞΩΝ)$/.test(o[1])&&(s+="ΟΥΝ")),null!==(o=/^(.+?)(ΟΥΜΕ|ΗΣΟΥΜΕ|ΗΘΟΥΜΕ)$/.exec(s))&&(s=o[1],/^(ΠΑΡΑΣΟΥΣ|Φ|Χ|ΩΡΙΟΠΛ|ΑΖ|ΑΛΛΟΣΟΥΣ|ΑΣΟΥΣ)$/.test(o[1])&&(s+="ΟΥΜ")),null!=(o=/^(.+?)(ΜΑΤΟΙ|ΜΑΤΟΥΣ|ΜΑΤΟ|ΜΑΤΑ|ΜΑΤΩΣ|ΜΑΤΩΝ|ΜΑΤΟΣ|ΜΑΤΕΣ|ΜΑΤΗ|ΜΑΤΗΣ|ΜΑΤΟΥ)$/.exec(s))&&(s=o[1]+"Μ",/^(ΓΡΑΜ)$/.test(o[1])?s+="Α":/^(ΓΕ|ΣΤΑ)$/.test(o[1])&&(s+="ΑΤ")),null!==(o=/^(.+?)(ΟΥΑ)$/.exec(s))&&(s=o[1]+"ΟΥ"),n.length===s.length&&null!==(o=/^(.+?)(Α|ΑΓΑΤΕ|ΑΓΑΝ|ΑΕΙ|ΑΜΑΙ|ΑΝ|ΑΣ|ΑΣΑΙ|ΑΤΑΙ|ΑΩ|Ε|ΕΙ|ΕΙΣ|ΕΙΤΕ|ΕΣΑΙ|ΕΣ|ΕΤΑΙ|Ι|ΙΕΜΑΙ|ΙΕΜΑΣΤΕ|ΙΕΤΑΙ|ΙΕΣΑΙ|ΙΕΣΑΣΤΕ|ΙΟΜΑΣΤΑΝ|ΙΟΜΟΥΝ|ΙΟΜΟΥΝΑ|ΙΟΝΤΑΝ|ΙΟΝΤΟΥΣΑΝ|ΙΟΣΑΣΤΑΝ|ΙΟΣΑΣΤΕ|ΙΟΣΟΥΝ|ΙΟΣΟΥΝΑ|ΙΟΤΑΝ|ΙΟΥΜΑ|ΙΟΥΜΑΣΤΕ|ΙΟΥΝΤΑΙ|ΙΟΥΝΤΑΝ|Η|ΗΔΕΣ|ΗΔΩΝ|ΗΘΕΙ|ΗΘΕΙΣ|ΗΘΕΙΤΕ|ΗΘΗΚΑΤΕ|ΗΘΗΚΑΝ|ΗΘΟΥΝ|ΗΘΩ|ΗΚΑΤΕ|ΗΚΑΝ|ΗΣ|ΗΣΑΝ|ΗΣΑΤΕ|ΗΣΕΙ|ΗΣΕΣ|ΗΣΟΥΝ|ΗΣΩ|Ο|ΟΙ|ΟΜΑΙ|ΟΜΑΣΤΑΝ|ΟΜΟΥΝ|ΟΜΟΥΝΑ|ΟΝΤΑΙ|ΟΝΤΑΝ|ΟΝΤΟΥΣΑΝ|ΟΣ|ΟΣΑΣΤΑΝ|ΟΣΑΣΤΕ|ΟΣΟΥΝ|ΟΣΟΥΝΑ|ΟΤΑΝ|ΟΥ|ΟΥΜΑΙ|ΟΥΜΑΣΤΕ|ΟΥΝ|ΟΥΝΤΑΙ|ΟΥΝΤΑΝ|ΟΥΣ|ΟΥΣΑΝ|ΟΥΣΑΤΕ|Υ||ΥΑ|ΥΣ|Ω|ΩΝ|ΟΙΣ)$/.exec(s))&&(s=o[1]),null!=(o=/^(.+?)(ΕΣΤΕΡ|ΕΣΤΑΤ|ΟΤΕΡ|ΟΤΑΤ|ΥΤΕΡ|ΥΤΑΤ|ΩΤΕΡ|ΩΤΑΤ)$/.exec(s))&&(/^(ΕΞ|ΕΣ|ΑΝ|ΚΑΤ|Κ|ΠΡ)$/.test(o[1])||(s=o[1]),/^(ΚΑ|Μ|ΕΛΕ|ΛΕ|ΔΕ)$/.test(o[1])&&(s+="ΥΤ")),s}var l={"ΦΑΓΙΑ":"ΦΑ","ΦΑΓΙΟΥ":"ΦΑ","ΦΑΓΙΩΝ":"ΦΑ","ΣΚΑΓΙΑ":"ΣΚΑ","ΣΚΑΓΙΟΥ":"ΣΚΑ","ΣΚΑΓΙΩΝ":"ΣΚΑ","ΣΟΓΙΟΥ":"ΣΟ","ΣΟΓΙΑ":"ΣΟ","ΣΟΓΙΩΝ":"ΣΟ","ΤΑΤΟΓΙΑ":"ΤΑΤΟ","ΤΑΤΟΓΙΟΥ":"ΤΑΤΟ","ΤΑΤΟΓΙΩΝ":"ΤΑΤΟ","ΚΡΕΑΣ":"ΚΡΕ","ΚΡΕΑΤΟΣ":"ΚΡΕ","ΚΡΕΑΤΑ":"ΚΡΕ","ΚΡΕΑΤΩΝ":"ΚΡΕ","ΠΕΡΑΣ":"ΠΕΡ","ΠΕΡΑΤΟΣ":"ΠΕΡ","ΠΕΡΑΤΑ":"ΠΕΡ","ΠΕΡΑΤΩΝ":"ΠΕΡ","ΤΕΡΑΣ":"ΤΕΡ","ΤΕΡΑΤΟΣ":"ΤΕΡ","ΤΕΡΑΤΑ":"ΤΕΡ","ΤΕΡΑΤΩΝ":"ΤΕΡ","ΦΩΣ":"ΦΩ","ΦΩΤΟΣ":"ΦΩ","ΦΩΤΑ":"ΦΩ","ΦΩΤΩΝ":"ΦΩ","ΚΑΘΕΣΤΩΣ":"ΚΑΘΕΣΤ","ΚΑΘΕΣΤΩΤΟΣ":"ΚΑΘΕΣΤ","ΚΑΘΕΣΤΩΤΑ":"ΚΑΘΕΣΤ","ΚΑΘΕΣΤΩΤΩΝ":"ΚΑΘΕΣΤ","ΓΕΓΟΝΟΣ":"ΓΕΓΟΝ","ΓΕΓΟΝΟΤΟΣ":"ΓΕΓΟΝ","ΓΕΓΟΝΟΤΑ":"ΓΕΓΟΝ","ΓΕΓΟΝΟΤΩΝ":"ΓΕΓΟΝ","ΕΥΑ":"ΕΥ"},i=["ΑΚΡΙΒΩΣ","ΑΛΑ","ΑΛΛΑ","ΑΛΛΙΩΣ","ΑΛΛΟΤΕ","ΑΜΑ","ΑΝΩ","ΑΝΑ","ΑΝΑΜΕΣΑ","ΑΝΑΜΕΤΑΞΥ","ΑΝΕΥ","ΑΝΤΙ","ΑΝΤΙΠΕΡΑ","ΑΝΤΙΟ","ΑΞΑΦΝΑ","ΑΠΟ","ΑΠΟΨΕ","ΑΡΑ","ΑΡΑΓΕ","ΑΥΡΙΟ","ΑΦΟΙ","ΑΦΟΥ","ΑΦΟΤΟΥ","ΒΡΕ","ΓΕΙΑ","ΓΙΑ","ΓΙΑΤΙ","ΓΡΑΜΜΑ","ΔΕΗ","ΔΕΝ","ΔΗΛΑΔΗ","ΔΙΧΩΣ","ΔΥΟ","ΕΑΝ","ΕΓΩ","ΕΔΩ","ΕΔΑ","ΕΙΘΕ","ΕΙΜΑΙ","ΕΙΜΑΣΤΕ","ΕΙΣΑΙ","ΕΙΣΑΣΤΕ","ΕΙΝΑΙ","ΕΙΣΤΕ","ΕΙΤΕ","ΕΚΕΙ","ΕΚΟ","ΕΛΑ","ΕΜΑΣ","ΕΜΕΙΣ","ΕΝΤΕΛΩΣ","ΕΝΤΟΣ","ΕΝΤΩΜΕΤΑΞΥ","ΕΝΩ","ΕΞΙ","ΕΞΙΣΟΥ","ΕΞΗΣ","ΕΞΩ","ΕΟΚ","ΕΠΑΝΩ","ΕΠΕΙΔΗ","ΕΠΕΙΤΑ","ΕΠΙ","ΕΠΙΣΗΣ","ΕΠΟΜΕΝΩΣ","ΕΠΤΑ","ΕΣΑΣ","ΕΣΕΙΣ","ΕΣΤΩ","ΕΣΥ","ΕΣΩ","ΕΤΣΙ","ΕΥΓΕ","ΕΦΕ","ΕΦΕΞΗΣ","ΕΧΤΕΣ","ΕΩΣ","ΗΔΗ","ΗΜΙ","ΗΠΑ","ΗΤΟΙ","ΘΕΣ","ΙΔΙΩΣ","ΙΔΗ","ΙΚΑ","ΙΣΩΣ","ΚΑΘΕ","ΚΑΘΕΤΙ","ΚΑΘΟΛΟΥ","ΚΑΘΩΣ","ΚΑΙ","ΚΑΝ","ΚΑΠΟΤΕ","ΚΑΠΟΥ","ΚΑΤΑ","ΚΑΤΙ","ΚΑΤΟΠΙΝ","ΚΑΤΩ","ΚΕΙ","ΚΙΧ","ΚΚΕ","ΚΟΛΑΝ","ΚΥΡΙΩΣ","ΚΩΣ","ΜΑΚΑΡΙ","ΜΑΛΙΣΤΑ","ΜΑΛΛΟΝ","ΜΑΙ","ΜΑΟ","ΜΑΟΥΣ","ΜΑΣ","ΜΕΘΑΥΡΙΟ","ΜΕΣ","ΜΕΣΑ","ΜΕΤΑ","ΜΕΤΑΞΥ","ΜΕΧΡΙ","ΜΗΔΕ","ΜΗΝ","ΜΗΠΩΣ","ΜΗΤΕ","ΜΙΑ","ΜΙΑΣ","ΜΙΣ","ΜΜΕ","ΜΟΛΟΝΟΤΙ","ΜΟΥ","ΜΠΑ","ΜΠΑΣ","ΜΠΟΥΦΑΝ","ΜΠΡΟΣ","ΝΑΙ","ΝΕΣ","ΝΤΑ","ΝΤΕ","ΞΑΝΑ","ΟΗΕ","ΟΚΤΩ","ΟΜΩΣ","ΟΝΕ","ΟΠΑ","ΟΠΟΥ","ΟΠΩΣ","ΟΣΟ","ΟΤΑΝ","ΟΤΕ","ΟΤΙ","ΟΥΤΕ","ΟΧΙ","ΠΑΛΙ","ΠΑΝ","ΠΑΝΟ","ΠΑΝΤΟΤΕ","ΠΑΝΤΟΥ","ΠΑΝΤΩΣ","ΠΑΝΩ","ΠΑΡΑ","ΠΕΡΑ","ΠΕΡΙ","ΠΕΡΙΠΟΥ","ΠΙΑ","ΠΙΟ","ΠΙΣΩ","ΠΛΑΙ","ΠΛΕΟΝ","ΠΛΗΝ","ΠΟΤΕ","ΠΟΥ","ΠΡΟ","ΠΡΟΣ","ΠΡΟΧΤΕΣ","ΠΡΟΧΘΕΣ","ΡΟΔΙ","ΠΩΣ","ΣΑΙ","ΣΑΣ","ΣΑΝ","ΣΕΙΣ","ΣΙΑ","ΣΚΙ","ΣΟΙ","ΣΟΥ","ΣΡΙ","ΣΥΝ","ΣΥΝΑΜΑ","ΣΧΕΔΟΝ","ΤΑΔΕ","ΤΑΞΙ","ΤΑΧΑ","ΤΕΙ","ΤΗΝ","ΤΗΣ","ΤΙΠΟΤΑ","ΤΙΠΟΤΕ","ΤΙΣ","ΤΟΝ","ΤΟΤΕ","ΤΟΥ","ΤΟΥΣ","ΤΣΑ","ΤΣΕ","ΤΣΙ","ΤΣΟΥ","ΤΩΝ","ΥΠΟ","ΥΠΟΨΗ","ΥΠΟΨΙΝ","ΥΣΤΕΡΑ","ΦΕΤΟΣ","ΦΙΣ","ΦΠΑ","ΧΑΦ","ΧΘΕΣ","ΧΤΕΣ","ΧΩΡΙΣ","ΩΣ","ΩΣΑΝ","ΩΣΟΤΟΥ","ΩΣΠΟΥ","ΩΣΤΕ","ΩΣΤΟΣΟ"],s=new RegExp("^[ΑΒΓΔΕΖΗΘΙΚΛΜΝΞΟΠΡΣΤΥΦΧΨΩ]+$");return function(e){return"function"==typeof e.update?e.update(function(e){return n(e.toUpperCase()).toLowerCase()}):n(e.toUpperCase()).toLowerCase()}}(),e.Pipeline.registerFunction(e.el.stemmer,"stemmer-el"),e.el.stopWordFilter=e.generateStopWordFilter("αλλα αν αντι απο αυτα αυτεσ αυτη αυτο αυτοι αυτοσ αυτουσ αυτων για δε δεν εαν ειμαι ειμαστε ειναι εισαι ειστε εκεινα εκεινεσ εκεινη εκεινο εκεινοι εκεινοσ εκεινουσ εκεινων ενω επι η θα ισωσ κ και κατα κι μα με μετα μη μην να ο οι ομωσ οπωσ οσο οτι παρα ποια ποιεσ ποιο ποιοι ποιοσ ποιουσ ποιων που προσ πωσ σε στη στην στο στον τα την τησ το τον τοτε του των ωσ".split(" ")),e.Pipeline.registerFunction(e.el.stopWordFilter,"stopWordFilter-el"),e.el.normilizer=function(){var e={"Ά":"Α","ά":"α","Έ":"Ε","έ":"ε","Ή":"Η","ή":"η","Ί":"Ι","ί":"ι","Ό":"Ο","ο":"ο","Ύ":"Υ","ύ":"υ","Ώ":"Ω","ώ":"ω","Ϊ":"Ι","ϊ":"ι","Ϋ":"Υ","ϋ":"υ","ΐ":"ι","ΰ":"υ"};return function(t){if("function"==typeof t.update)return t.update(function(t){for(var r="",n=0;n<t.length;n++)r+=e[t.charAt(n)]||t.charAt(n);return r});for(var r="",n=0;n<t.length;n++)r+=e[t.charAt(n)]||t.charAt(n);return r}}(),e.Pipeline.registerFunction(e.el.normilizer,"normilizer-el")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.es.min.js b/assets/javascripts/lunr/min/lunr.es.min.js
new file mode 100644
index 000000000..2989d3426
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.es.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `Spanish` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(e,s){"function"==typeof define&&define.amd?define(s):"object"==typeof exports?module.exports=s():s()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.es=function(){this.pipeline.reset(),this.pipeline.add(e.es.trimmer,e.es.stopWordFilter,e.es.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.es.stemmer))},e.es.wordCharacters="A-Za-zªºÀ-ÖØ-öø-ʸˠ-ˤᴀ-ᴥᴬ-ᵜᵢ-ᵥᵫ-ᵷᵹ-ᶾḀ-ỿⁱⁿₐ-ₜKÅℲⅎⅠ-ↈⱠ-ⱿꜢ-ꞇꞋ-ꞭꞰ-ꞷꟷ-ꟿꬰ-ꭚꭜ-ꭤﬀ-ﬆＡ-Ｚａ-ｚ",e.es.trimmer=e.trimmerSupport.generateTrimmer(e.es.wordCharacters),e.Pipeline.registerFunction(e.es.trimmer,"trimmer-es"),e.es.stemmer=function(){var s=e.stemmerSupport.Among,r=e.stemmerSupport.SnowballProgram,n=new function(){function e(){if(A.out_grouping(x,97,252)){for(;!A.in_grouping(x,97,252);){if(A.cursor>=A.limit)return!0;A.cursor++}return!1}return!0}function n(){if(A.in_grouping(x,97,252)){var s=A.cursor;if(e()){if(A.cursor=s,!A.in_grouping(x,97,252))return!0;for(;!A.out_grouping(x,97,252);){if(A.cursor>=A.limit)return!0;A.cursor++}}return!1}return!0}function i(){var s,r=A.cursor;if(n()){if(A.cursor=r,!A.out_grouping(x,97,252))return;if(s=A.cursor,e()){if(A.cursor=s,!A.in_grouping(x,97,252)||A.cursor>=A.limit)return;A.cursor++}}g=A.cursor}function a(){for(;!A.in_grouping(x,97,252);){if(A.cursor>=A.limit)return!1;A.cursor++}for(;!A.out_grouping(x,97,252);){if(A.cursor>=A.limit)return!1;A.cursor++}return!0}function t(){var e=A.cursor;g=A.limit,p=g,v=g,i(),A.cursor=e,a()&&(p=A.cursor,a()&&(v=A.cursor))}function o(){for(var e;;){if(A.bra=A.cursor,e=A.find_among(k,6))switch(A.ket=A.cursor,e){case 1:A.slice_from("a");continue;case 2:A.slice_from("e");continue;case 3:A.slice_from("i");continue;case 4:A.slice_from("o");continue;case 5:A.slice_from("u");continue;case 6:if(A.cursor>=A.limit)break;A.cursor++;continue}break}}function u(){return g<=A.cursor}function w(){return p<=A.cursor}function c(){return v<=A.cursor}function m(){var e;if(A.ket=A.cursor,A.find_among_b(y,13)&&(A.bra=A.cursor,(e=A.find_among_b(q,11))&&u()))switch(e){case 1:A.bra=A.cursor,A.slice_from("iendo");break;case 2:A.bra=A.cursor,A.slice_from("ando");break;case 3:A.bra=A.cursor,A.slice_from("ar");break;case 4:A.bra=A.cursor,A.slice_from("er");break;case 5:A.bra=A.cursor,A.slice_from("ir");break;case 6:A.slice_del();break;case 7:A.eq_s_b(1,"u")&&A.slice_del()}}function l(e,s){if(!c())return!0;A.slice_del(),A.ket=A.cursor;var r=A.find_among_b(e,s);return r&&(A.bra=A.cursor,1==r&&c()&&A.slice_del()),!1}function d(e){return!c()||(A.slice_del(),A.ket=A.cursor,A.eq_s_b(2,e)&&(A.bra=A.cursor,c()&&A.slice_del()),!1)}function b(){var e;if(A.ket=A.cursor,e=A.find_among_b(S,46)){switch(A.bra=A.cursor,e){case 1:if(!c())return!1;A.slice_del();break;case 2:if(d("ic"))return!1;break;case 3:if(!c())return!1;A.slice_from("log");break;case 4:if(!c())return!1;A.slice_from("u");break;case 5:if(!c())return!1;A.slice_from("ente");break;case 6:if(!w())return!1;A.slice_del(),A.ket=A.cursor,e=A.find_among_b(C,4),e&&(A.bra=A.cursor,c()&&(A.slice_del(),1==e&&(A.ket=A.cursor,A.eq_s_b(2,"at")&&(A.bra=A.cursor,c()&&A.slice_del()))));break;case 7:if(l(P,3))return!1;break;case 8:if(l(F,3))return!1;break;case 9:if(d("at"))return!1}return!0}return!1}function f(){var e,s;if(A.cursor>=g&&(s=A.limit_backward,A.limit_backward=g,A.ket=A.cursor,e=A.find_among_b(W,12),A.limit_backward=s,e)){if(A.bra=A.cursor,1==e){if(!A.eq_s_b(1,"u"))return!1;A.slice_del()}return!0}return!1}function _(){var e,s,r,n;if(A.cursor>=g&&(s=A.limit_backward,A.limit_backward=g,A.ket=A.cursor,e=A.find_among_b(L,96),A.limit_backward=s,e))switch(A.bra=A.cursor,e){case 1:r=A.limit-A.cursor,A.eq_s_b(1,"u")?(n=A.limit-A.cursor,A.eq_s_b(1,"g")?A.cursor=A.limit-n:A.cursor=A.limit-r):A.cursor=A.limit-r,A.bra=A.cursor;case 2:A.slice_del()}}function h(){var e,s;if(A.ket=A.cursor,e=A.find_among_b(z,8))switch(A.bra=A.cursor,e){case 1:u()&&A.slice_del();break;case 2:u()&&(A.slice_del(),A.ket=A.cursor,A.eq_s_b(1,"u")&&(A.bra=A.cursor,s=A.limit-A.cursor,A.eq_s_b(1,"g")&&(A.cursor=A.limit-s,u()&&A.slice_del())))}}var v,p,g,k=[new s("",-1,6),new s("á",0,1),new s("é",0,2),new s("í",0,3),new s("ó",0,4),new s("ú",0,5)],y=[new s("la",-1,-1),new s("sela",0,-1),new s("le",-1,-1),new s("me",-1,-1),new s("se",-1,-1),new s("lo",-1,-1),new s("selo",5,-1),new s("las",-1,-1),new s("selas",7,-1),new s("les",-1,-1),new s("los",-1,-1),new s("selos",10,-1),new s("nos",-1,-1)],q=[new s("ando",-1,6),new s("iendo",-1,6),new s("yendo",-1,7),new s("ándo",-1,2),new s("iéndo",-1,1),new s("ar",-1,6),new s("er",-1,6),new s("ir",-1,6),new s("ár",-1,3),new s("ér",-1,4),new s("ír",-1,5)],C=[new s("ic",-1,-1),new s("ad",-1,-1),new s("os",-1,-1),new s("iv",-1,1)],P=[new s("able",-1,1),new s("ible",-1,1),new s("ante",-1,1)],F=[new s("ic",-1,1),new s("abil",-1,1),new s("iv",-1,1)],S=[new s("ica",-1,1),new s("ancia",-1,2),new s("encia",-1,5),new s("adora",-1,2),new s("osa",-1,1),new s("ista",-1,1),new s("iva",-1,9),new s("anza",-1,1),new s("logía",-1,3),new s("idad",-1,8),new s("able",-1,1),new s("ible",-1,1),new s("ante",-1,2),new s("mente",-1,7),new s("amente",13,6),new s("ación",-1,2),new s("ución",-1,4),new s("ico",-1,1),new s("ismo",-1,1),new s("oso",-1,1),new s("amiento",-1,1),new s("imiento",-1,1),new s("ivo",-1,9),new s("ador",-1,2),new s("icas",-1,1),new s("ancias",-1,2),new s("encias",-1,5),new s("adoras",-1,2),new s("osas",-1,1),new s("istas",-1,1),new s("ivas",-1,9),new s("anzas",-1,1),new s("logías",-1,3),new s("idades",-1,8),new s("ables",-1,1),new s("ibles",-1,1),new s("aciones",-1,2),new s("uciones",-1,4),new s("adores",-1,2),new s("antes",-1,2),new s("icos",-1,1),new s("ismos",-1,1),new s("osos",-1,1),new s("amientos",-1,1),new s("imientos",-1,1),new s("ivos",-1,9)],W=[new s("ya",-1,1),new s("ye",-1,1),new s("yan",-1,1),new s("yen",-1,1),new s("yeron",-1,1),new s("yendo",-1,1),new s("yo",-1,1),new s("yas",-1,1),new s("yes",-1,1),new s("yais",-1,1),new s("yamos",-1,1),new s("yó",-1,1)],L=[new s("aba",-1,2),new s("ada",-1,2),new s("ida",-1,2),new s("ara",-1,2),new s("iera",-1,2),new s("ía",-1,2),new s("aría",5,2),new s("ería",5,2),new s("iría",5,2),new s("ad",-1,2),new s("ed",-1,2),new s("id",-1,2),new s("ase",-1,2),new s("iese",-1,2),new s("aste",-1,2),new s("iste",-1,2),new s("an",-1,2),new s("aban",16,2),new s("aran",16,2),new s("ieran",16,2),new s("ían",16,2),new s("arían",20,2),new s("erían",20,2),new s("irían",20,2),new s("en",-1,1),new s("asen",24,2),new s("iesen",24,2),new s("aron",-1,2),new s("ieron",-1,2),new s("arán",-1,2),new s("erán",-1,2),new s("irán",-1,2),new s("ado",-1,2),new s("ido",-1,2),new s("ando",-1,2),new s("iendo",-1,2),new s("ar",-1,2),new s("er",-1,2),new s("ir",-1,2),new s("as",-1,2),new s("abas",39,2),new s("adas",39,2),new s("idas",39,2),new s("aras",39,2),new s("ieras",39,2),new s("ías",39,2),new s("arías",45,2),new s("erías",45,2),new s("irías",45,2),new s("es",-1,1),new s("ases",49,2),new s("ieses",49,2),new s("abais",-1,2),new s("arais",-1,2),new s("ierais",-1,2),new s("íais",-1,2),new s("aríais",55,2),new s("eríais",55,2),new s("iríais",55,2),new s("aseis",-1,2),new s("ieseis",-1,2),new s("asteis",-1,2),new s("isteis",-1,2),new s("áis",-1,2),new s("éis",-1,1),new s("aréis",64,2),new s("eréis",64,2),new s("iréis",64,2),new s("ados",-1,2),new s("idos",-1,2),new s("amos",-1,2),new s("ábamos",70,2),new s("áramos",70,2),new s("iéramos",70,2),new s("íamos",70,2),new s("aríamos",74,2),new s("eríamos",74,2),new s("iríamos",74,2),new s("emos",-1,1),new s("aremos",78,2),new s("eremos",78,2),new s("iremos",78,2),new s("ásemos",78,2),new s("iésemos",78,2),new s("imos",-1,2),new s("arás",-1,2),new s("erás",-1,2),new s("irás",-1,2),new s("ís",-1,2),new s("ará",-1,2),new s("erá",-1,2),new s("irá",-1,2),new s("aré",-1,2),new s("eré",-1,2),new s("iré",-1,2),new s("ió",-1,2)],z=[new s("a",-1,1),new s("e",-1,2),new s("o",-1,1),new s("os",-1,1),new s("á",-1,1),new s("é",-1,2),new s("í",-1,1),new s("ó",-1,1)],x=[17,65,16,0,0,0,0,0,0,0,0,0,0,0,0,0,1,17,4,10],A=new r;this.setCurrent=function(e){A.setCurrent(e)},this.getCurrent=function(){return A.getCurrent()},this.stem=function(){var e=A.cursor;return t(),A.limit_backward=e,A.cursor=A.limit,m(),A.cursor=A.limit,b()||(A.cursor=A.limit,f()||(A.cursor=A.limit,_())),A.cursor=A.limit,h(),A.cursor=A.limit_backward,o(),!0}};return function(e){return"function"==typeof e.update?e.update(function(e){return n.setCurrent(e),n.stem(),n.getCurrent()}):(n.setCurrent(e),n.stem(),n.getCurrent())}}(),e.Pipeline.registerFunction(e.es.stemmer,"stemmer-es"),e.es.stopWordFilter=e.generateStopWordFilter("a al algo algunas algunos ante antes como con contra cual cuando de del desde donde durante e el ella ellas ellos en entre era erais eran eras eres es esa esas ese eso esos esta estaba estabais estaban estabas estad estada estadas estado estados estamos estando estar estaremos estará estarán estarás estaré estaréis estaría estaríais estaríamos estarían estarías estas este estemos esto estos estoy estuve estuviera estuvierais estuvieran estuvieras estuvieron estuviese estuvieseis estuviesen estuvieses estuvimos estuviste estuvisteis estuviéramos estuviésemos estuvo está estábamos estáis están estás esté estéis estén estés fue fuera fuerais fueran fueras fueron fuese fueseis fuesen fueses fui fuimos fuiste fuisteis fuéramos fuésemos ha habida habidas habido habidos habiendo habremos habrá habrán habrás habré habréis habría habríais habríamos habrían habrías habéis había habíais habíamos habían habías han has hasta hay haya hayamos hayan hayas hayáis he hemos hube hubiera hubierais hubieran hubieras hubieron hubiese hubieseis hubiesen hubieses hubimos hubiste hubisteis hubiéramos hubiésemos hubo la las le les lo los me mi mis mucho muchos muy más mí mía mías mío míos nada ni no nos nosotras nosotros nuestra nuestras nuestro nuestros o os otra otras otro otros para pero poco por porque que quien quienes qué se sea seamos sean seas seremos será serán serás seré seréis sería seríais seríamos serían serías seáis sido siendo sin sobre sois somos son soy su sus suya suyas suyo suyos sí también tanto te tendremos tendrá tendrán tendrás tendré tendréis tendría tendríais tendríamos tendrían tendrías tened tenemos tenga tengamos tengan tengas tengo tengáis tenida tenidas tenido tenidos teniendo tenéis tenía teníais teníamos tenían tenías ti tiene tienen tienes todo todos tu tus tuve tuviera tuvierais tuvieran tuvieras tuvieron tuviese tuvieseis tuviesen tuvieses tuvimos tuviste tuvisteis tuviéramos tuviésemos tuvo tuya tuyas tuyo tuyos tú un una uno unos vosotras vosotros vuestra vuestras vuestro vuestros y ya yo él éramos".split(" ")),e.Pipeline.registerFunction(e.es.stopWordFilter,"stopWordFilter-es")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.fi.min.js b/assets/javascripts/lunr/min/lunr.fi.min.js
new file mode 100644
index 000000000..29f5dfcea
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.fi.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `Finnish` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(i,e){"function"==typeof define&&define.amd?define(e):"object"==typeof exports?module.exports=e():e()(i.lunr)}(this,function(){return function(i){if(void 0===i)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===i.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");i.fi=function(){this.pipeline.reset(),this.pipeline.add(i.fi.trimmer,i.fi.stopWordFilter,i.fi.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(i.fi.stemmer))},i.fi.wordCharacters="A-Za-zªºÀ-ÖØ-öø-ʸˠ-ˤᴀ-ᴥᴬ-ᵜᵢ-ᵥᵫ-ᵷᵹ-ᶾḀ-ỿⁱⁿₐ-ₜKÅℲⅎⅠ-ↈⱠ-ⱿꜢ-ꞇꞋ-ꞭꞰ-ꞷꟷ-ꟿꬰ-ꭚꭜ-ꭤﬀ-ﬆＡ-Ｚａ-ｚ",i.fi.trimmer=i.trimmerSupport.generateTrimmer(i.fi.wordCharacters),i.Pipeline.registerFunction(i.fi.trimmer,"trimmer-fi"),i.fi.stemmer=function(){var e=i.stemmerSupport.Among,r=i.stemmerSupport.SnowballProgram,n=new function(){function i(){f=A.limit,d=f,n()||(f=A.cursor,n()||(d=A.cursor))}function n(){for(var i;;){if(i=A.cursor,A.in_grouping(W,97,246))break;if(A.cursor=i,i>=A.limit)return!0;A.cursor++}for(A.cursor=i;!A.out_grouping(W,97,246);){if(A.cursor>=A.limit)return!0;A.cursor++}return!1}function t(){return d<=A.cursor}function s(){var i,e;if(A.cursor>=f)if(e=A.limit_backward,A.limit_backward=f,A.ket=A.cursor,i=A.find_among_b(h,10)){switch(A.bra=A.cursor,A.limit_backward=e,i){case 1:if(!A.in_grouping_b(x,97,246))return;break;case 2:if(!t())return}A.slice_del()}else A.limit_backward=e}function o(){var i,e,r;if(A.cursor>=f)if(e=A.limit_backward,A.limit_backward=f,A.ket=A.cursor,i=A.find_among_b(v,9))switch(A.bra=A.cursor,A.limit_backward=e,i){case 1:r=A.limit-A.cursor,A.eq_s_b(1,"k")||(A.cursor=A.limit-r,A.slice_del());break;case 2:A.slice_del(),A.ket=A.cursor,A.eq_s_b(3,"kse")&&(A.bra=A.cursor,A.slice_from("ksi"));break;case 3:A.slice_del();break;case 4:A.find_among_b(p,6)&&A.slice_del();break;case 5:A.find_among_b(g,6)&&A.slice_del();break;case 6:A.find_among_b(j,2)&&A.slice_del()}else A.limit_backward=e}function l(){return A.find_among_b(q,7)}function a(){return A.eq_s_b(1,"i")&&A.in_grouping_b(L,97,246)}function u(){var i,e,r;if(A.cursor>=f)if(e=A.limit_backward,A.limit_backward=f,A.ket=A.cursor,i=A.find_among_b(C,30)){switch(A.bra=A.cursor,A.limit_backward=e,i){case 1:if(!A.eq_s_b(1,"a"))return;break;case 2:case 9:if(!A.eq_s_b(1,"e"))return;break;case 3:if(!A.eq_s_b(1,"i"))return;break;case 4:if(!A.eq_s_b(1,"o"))return;break;case 5:if(!A.eq_s_b(1,"ä"))return;break;case 6:if(!A.eq_s_b(1,"ö"))return;break;case 7:if(r=A.limit-A.cursor,!l()&&(A.cursor=A.limit-r,!A.eq_s_b(2,"ie"))){A.cursor=A.limit-r;break}if(A.cursor=A.limit-r,A.cursor<=A.limit_backward){A.cursor=A.limit-r;break}A.cursor--,A.bra=A.cursor;break;case 8:if(!A.in_grouping_b(W,97,246)||!A.out_grouping_b(W,97,246))return}A.slice_del(),k=!0}else A.limit_backward=e}function c(){var i,e,r;if(A.cursor>=d)if(e=A.limit_backward,A.limit_backward=d,A.ket=A.cursor,i=A.find_among_b(P,14)){if(A.bra=A.cursor,A.limit_backward=e,1==i){if(r=A.limit-A.cursor,A.eq_s_b(2,"po"))return;A.cursor=A.limit-r}A.slice_del()}else A.limit_backward=e}function m(){var i;A.cursor>=f&&(i=A.limit_backward,A.limit_backward=f,A.ket=A.cursor,A.find_among_b(F,2)?(A.bra=A.cursor,A.limit_backward=i,A.slice_del()):A.limit_backward=i)}function w(){var i,e,r,n,t,s;if(A.cursor>=f){if(e=A.limit_backward,A.limit_backward=f,A.ket=A.cursor,A.eq_s_b(1,"t")&&(A.bra=A.cursor,r=A.limit-A.cursor,A.in_grouping_b(W,97,246)&&(A.cursor=A.limit-r,A.slice_del(),A.limit_backward=e,n=A.limit-A.cursor,A.cursor>=d&&(A.cursor=d,t=A.limit_backward,A.limit_backward=A.cursor,A.cursor=A.limit-n,A.ket=A.cursor,i=A.find_among_b(S,2))))){if(A.bra=A.cursor,A.limit_backward=t,1==i){if(s=A.limit-A.cursor,A.eq_s_b(2,"po"))return;A.cursor=A.limit-s}return void A.slice_del()}A.limit_backward=e}}function _(){var i,e,r,n;if(A.cursor>=f){for(i=A.limit_backward,A.limit_backward=f,e=A.limit-A.cursor,l()&&(A.cursor=A.limit-e,A.ket=A.cursor,A.cursor>A.limit_backward&&(A.cursor--,A.bra=A.cursor,A.slice_del())),A.cursor=A.limit-e,A.ket=A.cursor,A.in_grouping_b(y,97,228)&&(A.bra=A.cursor,A.out_grouping_b(W,97,246)&&A.slice_del()),A.cursor=A.limit-e,A.ket=A.cursor,A.eq_s_b(1,"j")&&(A.bra=A.cursor,r=A.limit-A.cursor,A.eq_s_b(1,"o")?A.slice_del():(A.cursor=A.limit-r,A.eq_s_b(1,"u")&&A.slice_del())),A.cursor=A.limit-e,A.ket=A.cursor,A.eq_s_b(1,"o")&&(A.bra=A.cursor,A.eq_s_b(1,"j")&&A.slice_del()),A.cursor=A.limit-e,A.limit_backward=i;;){if(n=A.limit-A.cursor,A.out_grouping_b(W,97,246)){A.cursor=A.limit-n;break}if(A.cursor=A.limit-n,A.cursor<=A.limit_backward)return;A.cursor--}A.ket=A.cursor,A.cursor>A.limit_backward&&(A.cursor--,A.bra=A.cursor,b=A.slice_to(),A.eq_v_b(b)&&A.slice_del())}}var k,b,d,f,h=[new e("pa",-1,1),new e("sti",-1,2),new e("kaan",-1,1),new e("han",-1,1),new e("kin",-1,1),new e("hän",-1,1),new e("kään",-1,1),new e("ko",-1,1),new e("pä",-1,1),new e("kö",-1,1)],p=[new e("lla",-1,-1),new e("na",-1,-1),new e("ssa",-1,-1),new e("ta",-1,-1),new e("lta",3,-1),new e("sta",3,-1)],g=[new e("llä",-1,-1),new e("nä",-1,-1),new e("ssä",-1,-1),new e("tä",-1,-1),new e("ltä",3,-1),new e("stä",3,-1)],j=[new e("lle",-1,-1),new e("ine",-1,-1)],v=[new e("nsa",-1,3),new e("mme",-1,3),new e("nne",-1,3),new e("ni",-1,2),new e("si",-1,1),new e("an",-1,4),new e("en",-1,6),new e("än",-1,5),new e("nsä",-1,3)],q=[new e("aa",-1,-1),new e("ee",-1,-1),new e("ii",-1,-1),new e("oo",-1,-1),new e("uu",-1,-1),new e("ää",-1,-1),new e("öö",-1,-1)],C=[new e("a",-1,8),new e("lla",0,-1),new e("na",0,-1),new e("ssa",0,-1),new e("ta",0,-1),new e("lta",4,-1),new e("sta",4,-1),new e("tta",4,9),new e("lle",-1,-1),new e("ine",-1,-1),new e("ksi",-1,-1),new e("n",-1,7),new e("han",11,1),new e("den",11,-1,a),new e("seen",11,-1,l),new e("hen",11,2),new e("tten",11,-1,a),new e("hin",11,3),new e("siin",11,-1,a),new e("hon",11,4),new e("hän",11,5),new e("hön",11,6),new e("ä",-1,8),new e("llä",22,-1),new e("nä",22,-1),new e("ssä",22,-1),new e("tä",22,-1),new e("ltä",26,-1),new e("stä",26,-1),new e("ttä",26,9)],P=[new e("eja",-1,-1),new e("mma",-1,1),new e("imma",1,-1),new e("mpa",-1,1),new e("impa",3,-1),new e("mmi",-1,1),new e("immi",5,-1),new e("mpi",-1,1),new e("impi",7,-1),new e("ejä",-1,-1),new e("mmä",-1,1),new e("immä",10,-1),new e("mpä",-1,1),new e("impä",12,-1)],F=[new e("i",-1,-1),new e("j",-1,-1)],S=[new e("mma",-1,1),new e("imma",0,-1)],y=[17,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,8],W=[17,65,16,1,0,0,0,0,0,0,0,0,0,0,0,0,8,0,32],L=[17,65,16,0,0,0,0,0,0,0,0,0,0,0,0,0,8,0,32],x=[17,97,24,1,0,0,0,0,0,0,0,0,0,0,0,0,8,0,32],A=new r;this.setCurrent=function(i){A.setCurrent(i)},this.getCurrent=function(){return A.getCurrent()},this.stem=function(){var e=A.cursor;return i(),k=!1,A.limit_backward=e,A.cursor=A.limit,s(),A.cursor=A.limit,o(),A.cursor=A.limit,u(),A.cursor=A.limit,c(),A.cursor=A.limit,k?(m(),A.cursor=A.limit):(A.cursor=A.limit,w(),A.cursor=A.limit),_(),!0}};return function(i){return"function"==typeof i.update?i.update(function(i){return n.setCurrent(i),n.stem(),n.getCurrent()}):(n.setCurrent(i),n.stem(),n.getCurrent())}}(),i.Pipeline.registerFunction(i.fi.stemmer,"stemmer-fi"),i.fi.stopWordFilter=i.generateStopWordFilter("ei eivät emme en et ette että he heidän heidät heihin heille heillä heiltä heissä heistä heitä hän häneen hänelle hänellä häneltä hänen hänessä hänestä hänet häntä itse ja johon joiden joihin joiksi joilla joille joilta joina joissa joista joita joka joksi jolla jolle jolta jona jonka jos jossa josta jota jotka kanssa keiden keihin keiksi keille keillä keiltä keinä keissä keistä keitä keneen keneksi kenelle kenellä keneltä kenen kenenä kenessä kenestä kenet ketkä ketkä ketä koska kuin kuka kun me meidän meidät meihin meille meillä meiltä meissä meistä meitä mihin miksi mikä mille millä miltä minkä minkä minua minulla minulle minulta minun minussa minusta minut minuun minä minä missä mistä mitkä mitä mukaan mutta ne niiden niihin niiksi niille niillä niiltä niin niin niinä niissä niistä niitä noiden noihin noiksi noilla noille noilta noin noina noissa noista noita nuo nyt näiden näihin näiksi näille näillä näiltä näinä näissä näistä näitä nämä ole olemme olen olet olette oli olimme olin olisi olisimme olisin olisit olisitte olisivat olit olitte olivat olla olleet ollut on ovat poikki se sekä sen siihen siinä siitä siksi sille sillä sillä siltä sinua sinulla sinulle sinulta sinun sinussa sinusta sinut sinuun sinä sinä sitä tai te teidän teidät teihin teille teillä teiltä teissä teistä teitä tuo tuohon tuoksi tuolla tuolle tuolta tuon tuona tuossa tuosta tuota tähän täksi tälle tällä tältä tämä tämän tänä tässä tästä tätä vaan vai vaikka yli".split(" ")),i.Pipeline.registerFunction(i.fi.stopWordFilter,"stopWordFilter-fi")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.fr.min.js b/assets/javascripts/lunr/min/lunr.fr.min.js
new file mode 100644
index 000000000..68cd0094a
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.fr.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `French` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.fr=function(){this.pipeline.reset(),this.pipeline.add(e.fr.trimmer,e.fr.stopWordFilter,e.fr.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.fr.stemmer))},e.fr.wordCharacters="A-Za-zªºÀ-ÖØ-öø-ʸˠ-ˤᴀ-ᴥᴬ-ᵜᵢ-ᵥᵫ-ᵷᵹ-ᶾḀ-ỿⁱⁿₐ-ₜKÅℲⅎⅠ-ↈⱠ-ⱿꜢ-ꞇꞋ-ꞭꞰ-ꞷꟷ-ꟿꬰ-ꭚꭜ-ꭤﬀ-ﬆＡ-Ｚａ-ｚ",e.fr.trimmer=e.trimmerSupport.generateTrimmer(e.fr.wordCharacters),e.Pipeline.registerFunction(e.fr.trimmer,"trimmer-fr"),e.fr.stemmer=function(){var r=e.stemmerSupport.Among,s=e.stemmerSupport.SnowballProgram,i=new function(){function e(e,r,s){return!(!W.eq_s(1,e)||(W.ket=W.cursor,!W.in_grouping(F,97,251)))&&(W.slice_from(r),W.cursor=s,!0)}function i(e,r,s){return!!W.eq_s(1,e)&&(W.ket=W.cursor,W.slice_from(r),W.cursor=s,!0)}function n(){for(var r,s;;){if(r=W.cursor,W.in_grouping(F,97,251)){if(W.bra=W.cursor,s=W.cursor,e("u","U",r))continue;if(W.cursor=s,e("i","I",r))continue;if(W.cursor=s,i("y","Y",r))continue}if(W.cursor=r,W.bra=r,!e("y","Y",r)){if(W.cursor=r,W.eq_s(1,"q")&&(W.bra=W.cursor,i("u","U",r)))continue;if(W.cursor=r,r>=W.limit)return;W.cursor++}}}function t(){for(;!W.in_grouping(F,97,251);){if(W.cursor>=W.limit)return!0;W.cursor++}for(;!W.out_grouping(F,97,251);){if(W.cursor>=W.limit)return!0;W.cursor++}return!1}function u(){var e=W.cursor;if(q=W.limit,g=q,p=q,W.in_grouping(F,97,251)&&W.in_grouping(F,97,251)&&W.cursor<W.limit)W.cursor++;else if(W.cursor=e,!W.find_among(v,3)){W.cursor=e;do{if(W.cursor>=W.limit){W.cursor=q;break}W.cursor++}while(!W.in_grouping(F,97,251))}q=W.cursor,W.cursor=e,t()||(g=W.cursor,t()||(p=W.cursor))}function o(){for(var e,r;;){if(r=W.cursor,W.bra=r,!(e=W.find_among(h,4)))break;switch(W.ket=W.cursor,e){case 1:W.slice_from("i");break;case 2:W.slice_from("u");break;case 3:W.slice_from("y");break;case 4:if(W.cursor>=W.limit)return;W.cursor++}}}function c(){return q<=W.cursor}function a(){return g<=W.cursor}function l(){return p<=W.cursor}function w(){var e,r;if(W.ket=W.cursor,e=W.find_among_b(C,43)){switch(W.bra=W.cursor,e){case 1:if(!l())return!1;W.slice_del();break;case 2:if(!l())return!1;W.slice_del(),W.ket=W.cursor,W.eq_s_b(2,"ic")&&(W.bra=W.cursor,l()?W.slice_del():W.slice_from("iqU"));break;case 3:if(!l())return!1;W.slice_from("log");break;case 4:if(!l())return!1;W.slice_from("u");break;case 5:if(!l())return!1;W.slice_from("ent");break;case 6:if(!c())return!1;if(W.slice_del(),W.ket=W.cursor,e=W.find_among_b(z,6))switch(W.bra=W.cursor,e){case 1:l()&&(W.slice_del(),W.ket=W.cursor,W.eq_s_b(2,"at")&&(W.bra=W.cursor,l()&&W.slice_del()));break;case 2:l()?W.slice_del():a()&&W.slice_from("eux");break;case 3:l()&&W.slice_del();break;case 4:c()&&W.slice_from("i")}break;case 7:if(!l())return!1;if(W.slice_del(),W.ket=W.cursor,e=W.find_among_b(y,3))switch(W.bra=W.cursor,e){case 1:l()?W.slice_del():W.slice_from("abl");break;case 2:l()?W.slice_del():W.slice_from("iqU");break;case 3:l()&&W.slice_del()}break;case 8:if(!l())return!1;if(W.slice_del(),W.ket=W.cursor,W.eq_s_b(2,"at")&&(W.bra=W.cursor,l()&&(W.slice_del(),W.ket=W.cursor,W.eq_s_b(2,"ic")))){W.bra=W.cursor,l()?W.slice_del():W.slice_from("iqU");break}break;case 9:W.slice_from("eau");break;case 10:if(!a())return!1;W.slice_from("al");break;case 11:if(l())W.slice_del();else{if(!a())return!1;W.slice_from("eux")}break;case 12:if(!a()||!W.out_grouping_b(F,97,251))return!1;W.slice_del();break;case 13:return c()&&W.slice_from("ant"),!1;case 14:return c()&&W.slice_from("ent"),!1;case 15:return r=W.limit-W.cursor,W.in_grouping_b(F,97,251)&&c()&&(W.cursor=W.limit-r,W.slice_del()),!1}return!0}return!1}function f(){var e,r;if(W.cursor<q)return!1;if(r=W.limit_backward,W.limit_backward=q,W.ket=W.cursor,!(e=W.find_among_b(x,35)))return W.limit_backward=r,!1;if(W.bra=W.cursor,1==e){if(!W.out_grouping_b(F,97,251))return W.limit_backward=r,!1;W.slice_del()}return W.limit_backward=r,!0}function m(){var e,r,s;if(W.cursor<q)return!1;if(r=W.limit_backward,W.limit_backward=q,W.ket=W.cursor,!(e=W.find_among_b(I,38)))return W.limit_backward=r,!1;switch(W.bra=W.cursor,e){case 1:if(!l())return W.limit_backward=r,!1;W.slice_del();break;case 2:W.slice_del();break;case 3:W.slice_del(),s=W.limit-W.cursor,W.ket=W.cursor,W.eq_s_b(1,"e")?(W.bra=W.cursor,W.slice_del()):W.cursor=W.limit-s}return W.limit_backward=r,!0}function _(){var e,r,s,i,n=W.limit-W.cursor;if(W.ket=W.cursor,W.eq_s_b(1,"s")?(W.bra=W.cursor,r=W.limit-W.cursor,W.out_grouping_b(S,97,232)?(W.cursor=W.limit-r,W.slice_del()):W.cursor=W.limit-n):W.cursor=W.limit-n,W.cursor>=q){if(s=W.limit_backward,W.limit_backward=q,W.ket=W.cursor,e=W.find_among_b(P,7))switch(W.bra=W.cursor,e){case 1:if(l()){if(i=W.limit-W.cursor,!W.eq_s_b(1,"s")&&(W.cursor=W.limit-i,!W.eq_s_b(1,"t")))break;W.slice_del()}break;case 2:W.slice_from("i");break;case 3:W.slice_del();break;case 4:W.eq_s_b(2,"gu")&&W.slice_del()}W.limit_backward=s}}function b(){var e=W.limit-W.cursor;W.find_among_b(U,5)&&(W.cursor=W.limit-e,W.ket=W.cursor,W.cursor>W.limit_backward&&(W.cursor--,W.bra=W.cursor,W.slice_del()))}function d(){for(var e,r=1;W.out_grouping_b(F,97,251);)r--;if(r<=0){if(W.ket=W.cursor,e=W.limit-W.cursor,!W.eq_s_b(1,"é")&&(W.cursor=W.limit-e,!W.eq_s_b(1,"è")))return;W.bra=W.cursor,W.slice_from("e")}}function k(){if(!w()&&(W.cursor=W.limit,!f()&&(W.cursor=W.limit,!m())))return W.cursor=W.limit,void _();W.cursor=W.limit,W.ket=W.cursor,W.eq_s_b(1,"Y")?(W.bra=W.cursor,W.slice_from("i")):(W.cursor=W.limit,W.eq_s_b(1,"ç")&&(W.bra=W.cursor,W.slice_from("c")))}var p,g,q,v=[new r("col",-1,-1),new r("par",-1,-1),new r("tap",-1,-1)],h=[new r("",-1,4),new r("I",0,1),new r("U",0,2),new r("Y",0,3)],z=[new r("iqU",-1,3),new r("abl",-1,3),new r("Ièr",-1,4),new r("ièr",-1,4),new r("eus",-1,2),new r("iv",-1,1)],y=[new r("ic",-1,2),new r("abil",-1,1),new r("iv",-1,3)],C=[new r("iqUe",-1,1),new r("atrice",-1,2),new r("ance",-1,1),new r("ence",-1,5),new r("logie",-1,3),new r("able",-1,1),new r("isme",-1,1),new r("euse",-1,11),new r("iste",-1,1),new r("ive",-1,8),new r("if",-1,8),new r("usion",-1,4),new r("ation",-1,2),new r("ution",-1,4),new r("ateur",-1,2),new r("iqUes",-1,1),new r("atrices",-1,2),new r("ances",-1,1),new r("ences",-1,5),new r("logies",-1,3),new r("ables",-1,1),new r("ismes",-1,1),new r("euses",-1,11),new r("istes",-1,1),new r("ives",-1,8),new r("ifs",-1,8),new r("usions",-1,4),new r("ations",-1,2),new r("utions",-1,4),new r("ateurs",-1,2),new r("ments",-1,15),new r("ements",30,6),new r("issements",31,12),new r("ités",-1,7),new r("ment",-1,15),new r("ement",34,6),new r("issement",35,12),new r("amment",34,13),new r("emment",34,14),new r("aux",-1,10),new r("eaux",39,9),new r("eux",-1,1),new r("ité",-1,7)],x=[new r("ira",-1,1),new r("ie",-1,1),new r("isse",-1,1),new r("issante",-1,1),new r("i",-1,1),new r("irai",4,1),new r("ir",-1,1),new r("iras",-1,1),new r("ies",-1,1),new r("îmes",-1,1),new r("isses",-1,1),new r("issantes",-1,1),new r("îtes",-1,1),new r("is",-1,1),new r("irais",13,1),new r("issais",13,1),new r("irions",-1,1),new r("issions",-1,1),new r("irons",-1,1),new r("issons",-1,1),new r("issants",-1,1),new r("it",-1,1),new r("irait",21,1),new r("issait",21,1),new r("issant",-1,1),new r("iraIent",-1,1),new r("issaIent",-1,1),new r("irent",-1,1),new r("issent",-1,1),new r("iront",-1,1),new r("ît",-1,1),new r("iriez",-1,1),new r("issiez",-1,1),new r("irez",-1,1),new r("issez",-1,1)],I=[new r("a",-1,3),new r("era",0,2),new r("asse",-1,3),new r("ante",-1,3),new r("ée",-1,2),new r("ai",-1,3),new r("erai",5,2),new r("er",-1,2),new r("as",-1,3),new r("eras",8,2),new r("âmes",-1,3),new r("asses",-1,3),new r("antes",-1,3),new r("âtes",-1,3),new r("ées",-1,2),new r("ais",-1,3),new r("erais",15,2),new r("ions",-1,1),new r("erions",17,2),new r("assions",17,3),new r("erons",-1,2),new r("ants",-1,3),new r("és",-1,2),new r("ait",-1,3),new r("erait",23,2),new r("ant",-1,3),new r("aIent",-1,3),new r("eraIent",26,2),new r("èrent",-1,2),new r("assent",-1,3),new r("eront",-1,2),new r("ât",-1,3),new r("ez",-1,2),new r("iez",32,2),new r("eriez",33,2),new r("assiez",33,3),new r("erez",32,2),new r("é",-1,2)],P=[new r("e",-1,3),new r("Ière",0,2),new r("ière",0,2),new r("ion",-1,1),new r("Ier",-1,2),new r("ier",-1,2),new r("ë",-1,4)],U=[new r("ell",-1,-1),new r("eill",-1,-1),new r("enn",-1,-1),new r("onn",-1,-1),new r("ett",-1,-1)],F=[17,65,16,1,0,0,0,0,0,0,0,0,0,0,0,128,130,103,8,5],S=[1,65,20,0,0,0,0,0,0,0,0,0,0,0,0,0,128],W=new s;this.setCurrent=function(e){W.setCurrent(e)},this.getCurrent=function(){return W.getCurrent()},this.stem=function(){var e=W.cursor;return n(),W.cursor=e,u(),W.limit_backward=e,W.cursor=W.limit,k(),W.cursor=W.limit,b(),W.cursor=W.limit,d(),W.cursor=W.limit_backward,o(),!0}};return function(e){return"function"==typeof e.update?e.update(function(e){return i.setCurrent(e),i.stem(),i.getCurrent()}):(i.setCurrent(e),i.stem(),i.getCurrent())}}(),e.Pipeline.registerFunction(e.fr.stemmer,"stemmer-fr"),e.fr.stopWordFilter=e.generateStopWordFilter("ai aie aient aies ait as au aura aurai auraient aurais aurait auras aurez auriez aurions aurons auront aux avaient avais avait avec avez aviez avions avons ayant ayez ayons c ce ceci celà ces cet cette d dans de des du elle en es est et eu eue eues eurent eus eusse eussent eusses eussiez eussions eut eux eûmes eût eûtes furent fus fusse fussent fusses fussiez fussions fut fûmes fût fûtes ici il ils j je l la le les leur leurs lui m ma mais me mes moi mon même n ne nos notre nous on ont ou par pas pour qu que quel quelle quelles quels qui s sa sans se sera serai seraient serais serait seras serez seriez serions serons seront ses soi soient sois soit sommes son sont soyez soyons suis sur t ta te tes toi ton tu un une vos votre vous y à étaient étais était étant étiez étions été étée étées étés êtes".split(" ")),e.Pipeline.registerFunction(e.fr.stopWordFilter,"stopWordFilter-fr")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.he.min.js b/assets/javascripts/lunr/min/lunr.he.min.js
new file mode 100644
index 000000000..b863d3eae
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.he.min.js
@@ -0,0 +1 @@
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.he=function(){this.pipeline.reset(),this.pipeline.add(e.he.trimmer,e.he.stopWordFilter,e.he.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.he.stemmer))},e.he.wordCharacters="֑-״א-תa-zA-Zａ-ｚＡ-Ｚ0-9０-９",e.he.trimmer=e.trimmerSupport.generateTrimmer(e.he.wordCharacters),e.Pipeline.registerFunction(e.he.trimmer,"trimmer-he"),e.he.stemmer=function(){var e=this;return e.result=!1,e.preRemoved=!1,e.sufRemoved=!1,e.pre={pre1:"ה ו י ת",pre2:"ב כ ל מ ש כש",pre3:"הב הכ הל המ הש בש לכ",pre4:"וב וכ ול ומ וש",pre5:"מה שה כל",pre6:"מב מכ מל ממ מש",pre7:"בה בו בי בת כה כו כי כת לה לו לי לת",pre8:"ובה ובו ובי ובת וכה וכו וכי וכת ולה ולו ולי ולת"},e.suf={suf1:"ך כ ם ן נ",suf2:"ים ות וך וכ ום ון ונ הם הן יכ יך ינ ים",suf3:"תי תך תכ תם תן תנ",suf4:"ותי ותך ותכ ותם ותן ותנ",suf5:"נו כם כן הם הן",suf6:"ונו וכם וכן והם והן",suf7:"תכם תכן תנו תהם תהן",suf8:"הוא היא הם הן אני אתה את אנו אתם אתן",suf9:"ני נו כי כו כם כן תי תך תכ תם תן",suf10:"י ך כ ם ן נ ת"},e.patterns=JSON.parse('{"hebrewPatterns": [{"pt1": [{"c": "ה", "l": 0}]}, {"pt2": [{"c": "ו", "l": 0}]}, {"pt3": [{"c": "י", "l": 0}]}, {"pt4": [{"c": "ת", "l": 0}]}, {"pt5": [{"c": "מ", "l": 0}]}, {"pt6": [{"c": "ל", "l": 0}]}, {"pt7": [{"c": "ב", "l": 0}]}, {"pt8": [{"c": "כ", "l": 0}]}, {"pt9": [{"c": "ש", "l": 0}]}, {"pt10": [{"c": "כש", "l": 0}]}, {"pt11": [{"c": "בה", "l": 0}]}, {"pt12": [{"c": "וב", "l": 0}]}, {"pt13": [{"c": "וכ", "l": 0}]}, {"pt14": [{"c": "ול", "l": 0}]}, {"pt15": [{"c": "ומ", "l": 0}]}, {"pt16": [{"c": "וש", "l": 0}]}, {"pt17": [{"c": "הב", "l": 0}]}, {"pt18": [{"c": "הכ", "l": 0}]}, {"pt19": [{"c": "הל", "l": 0}]}, {"pt20": [{"c": "המ", "l": 0}]}, {"pt21": [{"c": "הש", "l": 0}]}, {"pt22": [{"c": "מה", "l": 0}]}, {"pt23": [{"c": "שה", "l": 0}]}, {"pt24": [{"c": "כל", "l": 0}]}]}'),e.execArray=["cleanWord","removeDiacritics","removeStopWords","normalizeHebrewCharacters"],e.stem=function(){var r=0;for(e.result=!1,e.preRemoved=!1,e.sufRemoved=!1;r<e.execArray.length&&1!=e.result;)e.result=e[e.execArray[r]](),r++},e.setCurrent=function(r){e.word=r},e.getCurrent=function(){return e.word},e.cleanWord=function(){return!!new RegExp("[^֑-״א-ת]").test("")},e.removeDiacritics=function(){var r=new RegExp("[ְ-ֿ]","g");return e.word=e.word.replace(r,""),!1},e.removeStopWords=function(){if("אבל או אולי אותו אותי אותך אותם אותן אותנו אז אחר אחרות אחרי אחריכן אחרים אחרת אי איזה איך אין איפה אל אלה אלו אם אנחנו אני אף אפשר את אתה אתכם אתכן אתם אתן באיזה באיזו בגלל בין בלבד בעבור בעזרת בכל בכן בלי במידה במקום שבו ברוב בשביל בשעה ש בתוך גם דרך הוא היא היה היי היכן היתה היתי הם הן הנה הסיבה שבגללה הרי ואילו ואת זאת זה זות יהיה יוכל יוכלו יותר מדי יכול יכולה יכולות יכולים יכל יכלה יכלו יש כאן כאשר כולם כולן כזה כי כיצד כך כל כלל כמו כן כפי כש לא לאו לאיזותך לאן לבין לה להיות להם להן לו לזה לזות לי לך לכם לכן למה למעלה למעלה מ למטה למטה מ למעט למקום שבו למרות לנו לעבר לעיכן לפיכך לפני מאד מאחורי מאיזו סיבה מאין מאיפה מבלי מבעד מדוע מה מהיכן מול מחוץ מי מידע מכאן מכל מכן מלבד מן מנין מסוגל מעט מעטים מעל מצד מקום בו מתחת מתי נגד נגר נו עד עז על עלי עליו עליה עליהם עליך עלינו עם עצמה עצמהם עצמהן עצמו עצמי עצמם עצמן עצמנו פה רק שוב של שלה שלהם שלהן שלו שלי שלך שלכה שלכם שלכן שלנו שם תהיה תחת".split(" ").indexOf(e.word)>=0)return!0},e.normalizeHebrewCharacters=function(){return e.word=e.word.replace("ך","כ"),e.word=e.word.replace("ם","מ"),e.word=e.word.replace("ן","נ"),e.word=e.word.replace("ף","פ"),e.word=e.word.replace("ץ","צ"),!1},function(r){return"function"==typeof r.update?r.update(function(r){return e.setCurrent(r),e.stem(),e.getCurrent()}):(e.setCurrent(r),e.stem(),e.getCurrent())}}(),e.Pipeline.registerFunction(e.he.stemmer,"stemmer-he"),e.he.stopWordFilter=e.generateStopWordFilter("אבל או אולי אותו אותי אותך אותם אותן אותנו אז אחר אחרות אחרי אחריכן אחרים אחרת אי איזה איך אין איפה אל אלה אלו אם אנחנו אני אף אפשר את אתה אתכם אתכן אתם אתן באיזה באיזו בגלל בין בלבד בעבור בעזרת בכל בכן בלי במידה במקום שבו ברוב בשביל בשעה ש בתוך גם דרך הוא היא היה היי היכן היתה היתי הם הן הנה הסיבה שבגללה הרי ואילו ואת זאת זה זות יהיה יוכל יוכלו יותר מדי יכול יכולה יכולות יכולים יכל יכלה יכלו יש כאן כאשר כולם כולן כזה כי כיצד כך כל כלל כמו כן כפי כש לא לאו לאיזותך לאן לבין לה להיות להם להן לו לזה לזות לי לך לכם לכן למה למעלה למעלה מ למטה למטה מ למעט למקום שבו למרות לנו לעבר לעיכן לפיכך לפני מאד מאחורי מאיזו סיבה מאין מאיפה מבלי מבעד מדוע מה מהיכן מול מחוץ מי מידע מכאן מכל מכן מלבד מן מנין מסוגל מעט מעטים מעל מצד מקום בו מתחת מתי נגד נגר נו עד עז על עלי עליו עליה עליהם עליך עלינו עם עצמה עצמהם עצמהן עצמו עצמי עצמם עצמן עצמנו פה רק שוב של שלה שלהם שלהן שלו שלי שלך שלכה שלכם שלכן שלנו שם תהיה תחת".split(" ")),e.Pipeline.registerFunction(e.he.stopWordFilter,"stopWordFilter-he")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.hi.min.js b/assets/javascripts/lunr/min/lunr.hi.min.js
new file mode 100644
index 000000000..7dbc41402
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.hi.min.js
@@ -0,0 +1 @@
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.hi=function(){this.pipeline.reset(),this.pipeline.add(e.hi.trimmer,e.hi.stopWordFilter,e.hi.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.hi.stemmer))},e.hi.wordCharacters="ऀ-ःऄ-एऐ-टठ-यर-िी-ॏॐ-य़ॠ-९॰-ॿa-zA-Zａ-ｚＡ-Ｚ0-9０-９",e.hi.trimmer=e.trimmerSupport.generateTrimmer(e.hi.wordCharacters),e.Pipeline.registerFunction(e.hi.trimmer,"trimmer-hi"),e.hi.stopWordFilter=e.generateStopWordFilter("अत अपना अपनी अपने अभी अंदर आदि आप इत्यादि इन इनका इन्हीं इन्हें इन्हों इस इसका इसकी इसके इसमें इसी इसे उन उनका उनकी उनके उनको उन्हीं उन्हें उन्हों उस उसके उसी उसे एक एवं एस ऐसे और कई कर करता करते करना करने करें कहते कहा का काफ़ी कि कितना किन्हें किन्हों किया किर किस किसी किसे की कुछ कुल के को कोई कौन कौनसा गया घर जब जहाँ जा जितना जिन जिन्हें जिन्हों जिस जिसे जीधर जैसा जैसे जो तक तब तरह तिन तिन्हें तिन्हों तिस तिसे तो था थी थे दबारा दिया दुसरा दूसरे दो द्वारा न नके नहीं ना निहायत नीचे ने पर पहले पूरा पे फिर बनी बही बहुत बाद बाला बिलकुल भी भीतर मगर मानो मे में यदि यह यहाँ यही या यिह ये रखें रहा रहे ऱ्वासा लिए लिये लेकिन व वग़ैरह वर्ग वह वहाँ वहीं वाले वुह वे वो सकता सकते सबसे सभी साथ साबुत साभ सारा से सो संग ही हुआ हुई हुए है हैं हो होता होती होते होना होने".split(" ")),e.hi.stemmer=function(){return function(e){return"function"==typeof e.update?e.update(function(e){return e}):e}}();var r=e.wordcut;r.init(),e.hi.tokenizer=function(i){if(!arguments.length||null==i||void 0==i)return[];if(Array.isArray(i))return i.map(function(r){return isLunr2?new e.Token(r.toLowerCase()):r.toLowerCase()});var t=i.toString().toLowerCase().replace(/^\s+/,"");return r.cut(t).split("|")},e.Pipeline.registerFunction(e.hi.stemmer,"stemmer-hi"),e.Pipeline.registerFunction(e.hi.stopWordFilter,"stopWordFilter-hi")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.hu.min.js b/assets/javascripts/lunr/min/lunr.hu.min.js
new file mode 100644
index 000000000..ed9d909f7
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.hu.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `Hungarian` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(e,n){"function"==typeof define&&define.amd?define(n):"object"==typeof exports?module.exports=n():n()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.hu=function(){this.pipeline.reset(),this.pipeline.add(e.hu.trimmer,e.hu.stopWordFilter,e.hu.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.hu.stemmer))},e.hu.wordCharacters="A-Za-zªºÀ-ÖØ-öø-ʸˠ-ˤᴀ-ᴥᴬ-ᵜᵢ-ᵥᵫ-ᵷᵹ-ᶾḀ-ỿⁱⁿₐ-ₜKÅℲⅎⅠ-ↈⱠ-ⱿꜢ-ꞇꞋ-ꞭꞰ-ꞷꟷ-ꟿꬰ-ꭚꭜ-ꭤﬀ-ﬆＡ-Ｚａ-ｚ",e.hu.trimmer=e.trimmerSupport.generateTrimmer(e.hu.wordCharacters),e.Pipeline.registerFunction(e.hu.trimmer,"trimmer-hu"),e.hu.stemmer=function(){var n=e.stemmerSupport.Among,r=e.stemmerSupport.SnowballProgram,i=new function(){function e(){var e,n=L.cursor;if(d=L.limit,L.in_grouping(W,97,252))for(;;){if(e=L.cursor,L.out_grouping(W,97,252))return L.cursor=e,L.find_among(g,8)||(L.cursor=e,e<L.limit&&L.cursor++),void(d=L.cursor);if(L.cursor=e,e>=L.limit)return void(d=e);L.cursor++}if(L.cursor=n,L.out_grouping(W,97,252)){for(;!L.in_grouping(W,97,252);){if(L.cursor>=L.limit)return;L.cursor++}d=L.cursor}}function i(){return d<=L.cursor}function a(){var e;if(L.ket=L.cursor,(e=L.find_among_b(h,2))&&(L.bra=L.cursor,i()))switch(e){case 1:L.slice_from("a");break;case 2:L.slice_from("e")}}function t(){var e=L.limit-L.cursor;return!!L.find_among_b(p,23)&&(L.cursor=L.limit-e,!0)}function s(){if(L.cursor>L.limit_backward){L.cursor--,L.ket=L.cursor;var e=L.cursor-1;L.limit_backward<=e&&e<=L.limit&&(L.cursor=e,L.bra=e,L.slice_del())}}function c(){var e;if(L.ket=L.cursor,(e=L.find_among_b(_,2))&&(L.bra=L.cursor,i())){if((1==e||2==e)&&!t())return;L.slice_del(),s()}}function o(){L.ket=L.cursor,L.find_among_b(v,44)&&(L.bra=L.cursor,i()&&(L.slice_del(),a()))}function w(){var e;if(L.ket=L.cursor,(e=L.find_among_b(z,3))&&(L.bra=L.cursor,i()))switch(e){case 1:L.slice_from("e");break;case 2:case 3:L.slice_from("a")}}function l(){var e;if(L.ket=L.cursor,(e=L.find_among_b(y,6))&&(L.bra=L.cursor,i()))switch(e){case 1:case 2:L.slice_del();break;case 3:L.slice_from("a");break;case 4:L.slice_from("e")}}function u(){var e;if(L.ket=L.cursor,(e=L.find_among_b(j,2))&&(L.bra=L.cursor,i())){if((1==e||2==e)&&!t())return;L.slice_del(),s()}}function m(){var e;if(L.ket=L.cursor,(e=L.find_among_b(C,7))&&(L.bra=L.cursor,i()))switch(e){case 1:L.slice_from("a");break;case 2:L.slice_from("e");break;case 3:case 4:case 5:case 6:case 7:L.slice_del()}}function k(){var e;if(L.ket=L.cursor,(e=L.find_among_b(P,12))&&(L.bra=L.cursor,i()))switch(e){case 1:case 4:case 7:case 9:L.slice_del();break;case 2:case 5:case 8:L.slice_from("e");break;case 3:case 6:L.slice_from("a")}}function f(){var e;if(L.ket=L.cursor,(e=L.find_among_b(F,31))&&(L.bra=L.cursor,i()))switch(e){case 1:case 4:case 7:case 8:case 9:case 12:case 13:case 16:case 17:case 18:L.slice_del();break;case 2:case 5:case 10:case 14:case 19:L.slice_from("a");break;case 3:case 6:case 11:case 15:case 20:L.slice_from("e")}}function b(){var e;if(L.ket=L.cursor,(e=L.find_among_b(S,42))&&(L.bra=L.cursor,i()))switch(e){case 1:case 4:case 5:case 6:case 9:case 10:case 11:case 14:case 15:case 16:case 17:case 20:case 21:case 24:case 25:case 26:case 29:L.slice_del();break;case 2:case 7:case 12:case 18:case 22:case 27:L.slice_from("a");break;case 3:case 8:case 13:case 19:case 23:case 28:L.slice_from("e")}}var d,g=[new n("cs",-1,-1),new n("dzs",-1,-1),new n("gy",-1,-1),new n("ly",-1,-1),new n("ny",-1,-1),new n("sz",-1,-1),new n("ty",-1,-1),new n("zs",-1,-1)],h=[new n("á",-1,1),new n("é",-1,2)],p=[new n("bb",-1,-1),new n("cc",-1,-1),new n("dd",-1,-1),new n("ff",-1,-1),new n("gg",-1,-1),new n("jj",-1,-1),new n("kk",-1,-1),new n("ll",-1,-1),new n("mm",-1,-1),new n("nn",-1,-1),new n("pp",-1,-1),new n("rr",-1,-1),new n("ccs",-1,-1),new n("ss",-1,-1),new n("zzs",-1,-1),new n("tt",-1,-1),new n("vv",-1,-1),new n("ggy",-1,-1),new n("lly",-1,-1),new n("nny",-1,-1),new n("tty",-1,-1),new n("ssz",-1,-1),new n("zz",-1,-1)],_=[new n("al",-1,1),new n("el",-1,2)],v=[new n("ba",-1,-1),new n("ra",-1,-1),new n("be",-1,-1),new n("re",-1,-1),new n("ig",-1,-1),new n("nak",-1,-1),new n("nek",-1,-1),new n("val",-1,-1),new n("vel",-1,-1),new n("ul",-1,-1),new n("nál",-1,-1),new n("nél",-1,-1),new n("ból",-1,-1),new n("ról",-1,-1),new n("tól",-1,-1),new n("bõl",-1,-1),new n("rõl",-1,-1),new n("tõl",-1,-1),new n("ül",-1,-1),new n("n",-1,-1),new n("an",19,-1),new n("ban",20,-1),new n("en",19,-1),new n("ben",22,-1),new n("képpen",22,-1),new n("on",19,-1),new n("ön",19,-1),new n("képp",-1,-1),new n("kor",-1,-1),new n("t",-1,-1),new n("at",29,-1),new n("et",29,-1),new n("ként",29,-1),new n("anként",32,-1),new n("enként",32,-1),new n("onként",32,-1),new n("ot",29,-1),new n("ért",29,-1),new n("öt",29,-1),new n("hez",-1,-1),new n("hoz",-1,-1),new n("höz",-1,-1),new n("vá",-1,-1),new n("vé",-1,-1)],z=[new n("án",-1,2),new n("én",-1,1),new n("ánként",-1,3)],y=[new n("stul",-1,2),new n("astul",0,1),new n("ástul",0,3),new n("stül",-1,2),new n("estül",3,1),new n("éstül",3,4)],j=[new n("á",-1,1),new n("é",-1,2)],C=[new n("k",-1,7),new n("ak",0,4),new n("ek",0,6),new n("ok",0,5),new n("ák",0,1),new n("ék",0,2),new n("ök",0,3)],P=[new n("éi",-1,7),new n("áéi",0,6),new n("ééi",0,5),new n("é",-1,9),new n("ké",3,4),new n("aké",4,1),new n("eké",4,1),new n("oké",4,1),new n("áké",4,3),new n("éké",4,2),new n("öké",4,1),new n("éé",3,8)],F=[new n("a",-1,18),new n("ja",0,17),new n("d",-1,16),new n("ad",2,13),new n("ed",2,13),new n("od",2,13),new n("ád",2,14),new n("éd",2,15),new n("öd",2,13),new n("e",-1,18),new n("je",9,17),new n("nk",-1,4),new n("unk",11,1),new n("ánk",11,2),new n("énk",11,3),new n("ünk",11,1),new n("uk",-1,8),new n("juk",16,7),new n("ájuk",17,5),new n("ük",-1,8),new n("jük",19,7),new n("éjük",20,6),new n("m",-1,12),new n("am",22,9),new n("em",22,9),new n("om",22,9),new n("ám",22,10),new n("ém",22,11),new n("o",-1,18),new n("á",-1,19),new n("é",-1,20)],S=[new n("id",-1,10),new n("aid",0,9),new n("jaid",1,6),new n("eid",0,9),new n("jeid",3,6),new n("áid",0,7),new n("éid",0,8),new n("i",-1,15),new n("ai",7,14),new n("jai",8,11),new n("ei",7,14),new n("jei",10,11),new n("ái",7,12),new n("éi",7,13),new n("itek",-1,24),new n("eitek",14,21),new n("jeitek",15,20),new n("éitek",14,23),new n("ik",-1,29),new n("aik",18,26),new n("jaik",19,25),new n("eik",18,26),new n("jeik",21,25),new n("áik",18,27),new n("éik",18,28),new n("ink",-1,20),new n("aink",25,17),new n("jaink",26,16),new n("eink",25,17),new n("jeink",28,16),new n("áink",25,18),new n("éink",25,19),new n("aitok",-1,21),new n("jaitok",32,20),new n("áitok",-1,22),new n("im",-1,5),new n("aim",35,4),new n("jaim",36,1),new n("eim",35,4),new n("jeim",38,1),new n("áim",35,2),new n("éim",35,3)],W=[17,65,16,0,0,0,0,0,0,0,0,0,0,0,0,0,1,17,52,14],L=new r;this.setCurrent=function(e){L.setCurrent(e)},this.getCurrent=function(){return L.getCurrent()},this.stem=function(){var n=L.cursor;return e(),L.limit_backward=n,L.cursor=L.limit,c(),L.cursor=L.limit,o(),L.cursor=L.limit,w(),L.cursor=L.limit,l(),L.cursor=L.limit,u(),L.cursor=L.limit,k(),L.cursor=L.limit,f(),L.cursor=L.limit,b(),L.cursor=L.limit,m(),!0}};return function(e){return"function"==typeof e.update?e.update(function(e){return i.setCurrent(e),i.stem(),i.getCurrent()}):(i.setCurrent(e),i.stem(),i.getCurrent())}}(),e.Pipeline.registerFunction(e.hu.stemmer,"stemmer-hu"),e.hu.stopWordFilter=e.generateStopWordFilter("a abban ahhoz ahogy ahol aki akik akkor alatt amely amelyek amelyekben amelyeket amelyet amelynek ami amikor amit amolyan amíg annak arra arról az azok azon azonban azt aztán azután azzal azért be belül benne bár cikk cikkek cikkeket csak de e ebben eddig egy egyes egyetlen egyik egyre egyéb egész ehhez ekkor el ellen elsõ elég elõ elõször elõtt emilyen ennek erre ez ezek ezen ezt ezzel ezért fel felé hanem hiszen hogy hogyan igen ill ill. illetve ilyen ilyenkor ismét ison itt jobban jó jól kell kellett keressünk keresztül ki kívül között közül legalább legyen lehet lehetett lenne lenni lesz lett maga magát majd majd meg mellett mely melyek mert mi mikor milyen minden mindenki mindent mindig mint mintha mit mivel miért most már más másik még míg nagy nagyobb nagyon ne nekem neki nem nincs néha néhány nélkül olyan ott pedig persze rá s saját sem semmi sok sokat sokkal szemben szerint szinte számára talán tehát teljes tovább továbbá több ugyanis utolsó után utána vagy vagyis vagyok valaki valami valamint való van vannak vele vissza viszont volna volt voltak voltam voltunk által általában át én éppen és így õ õk õket össze úgy új újabb újra".split(" ")),e.Pipeline.registerFunction(e.hu.stopWordFilter,"stopWordFilter-hu")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.hy.min.js b/assets/javascripts/lunr/min/lunr.hy.min.js
new file mode 100644
index 000000000..b37f79298
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.hy.min.js
@@ -0,0 +1 @@
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.hy=function(){this.pipeline.reset(),this.pipeline.add(e.hy.trimmer,e.hy.stopWordFilter)},e.hy.wordCharacters="[A-Za-z԰-֏ﬀ-ﭏ]",e.hy.trimmer=e.trimmerSupport.generateTrimmer(e.hy.wordCharacters),e.Pipeline.registerFunction(e.hy.trimmer,"trimmer-hy"),e.hy.stopWordFilter=e.generateStopWordFilter("դու և եք էիր էիք հետո նաև նրանք որը վրա է որ պիտի են այս մեջ ն իր ու ի այդ որոնք այն կամ էր մի ես համար այլ իսկ էին ենք հետ ին թ էինք մենք նրա նա դուք եմ էի ըստ որպես ում".split(" ")),e.Pipeline.registerFunction(e.hy.stopWordFilter,"stopWordFilter-hy"),e.hy.stemmer=function(){return function(e){return"function"==typeof e.update?e.update(function(e){return e}):e}}(),e.Pipeline.registerFunction(e.hy.stemmer,"stemmer-hy")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.it.min.js b/assets/javascripts/lunr/min/lunr.it.min.js
new file mode 100644
index 000000000..344b6a3c0
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.it.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `Italian` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.it=function(){this.pipeline.reset(),this.pipeline.add(e.it.trimmer,e.it.stopWordFilter,e.it.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.it.stemmer))},e.it.wordCharacters="A-Za-zªºÀ-ÖØ-öø-ʸˠ-ˤᴀ-ᴥᴬ-ᵜᵢ-ᵥᵫ-ᵷᵹ-ᶾḀ-ỿⁱⁿₐ-ₜKÅℲⅎⅠ-ↈⱠ-ⱿꜢ-ꞇꞋ-ꞭꞰ-ꞷꟷ-ꟿꬰ-ꭚꭜ-ꭤﬀ-ﬆＡ-Ｚａ-ｚ",e.it.trimmer=e.trimmerSupport.generateTrimmer(e.it.wordCharacters),e.Pipeline.registerFunction(e.it.trimmer,"trimmer-it"),e.it.stemmer=function(){var r=e.stemmerSupport.Among,n=e.stemmerSupport.SnowballProgram,i=new function(){function e(e,r,n){return!(!x.eq_s(1,e)||(x.ket=x.cursor,!x.in_grouping(L,97,249)))&&(x.slice_from(r),x.cursor=n,!0)}function i(){for(var r,n,i,o,t=x.cursor;;){if(x.bra=x.cursor,r=x.find_among(h,7))switch(x.ket=x.cursor,r){case 1:x.slice_from("à");continue;case 2:x.slice_from("è");continue;case 3:x.slice_from("ì");continue;case 4:x.slice_from("ò");continue;case 5:x.slice_from("ù");continue;case 6:x.slice_from("qU");continue;case 7:if(x.cursor>=x.limit)break;x.cursor++;continue}break}for(x.cursor=t;;)for(n=x.cursor;;){if(i=x.cursor,x.in_grouping(L,97,249)){if(x.bra=x.cursor,o=x.cursor,e("u","U",i))break;if(x.cursor=o,e("i","I",i))break}if(x.cursor=i,x.cursor>=x.limit)return void(x.cursor=n);x.cursor++}}function o(e){if(x.cursor=e,!x.in_grouping(L,97,249))return!1;for(;!x.out_grouping(L,97,249);){if(x.cursor>=x.limit)return!1;x.cursor++}return!0}function t(){if(x.in_grouping(L,97,249)){var e=x.cursor;if(x.out_grouping(L,97,249)){for(;!x.in_grouping(L,97,249);){if(x.cursor>=x.limit)return o(e);x.cursor++}return!0}return o(e)}return!1}function s(){var e,r=x.cursor;if(!t()){if(x.cursor=r,!x.out_grouping(L,97,249))return;if(e=x.cursor,x.out_grouping(L,97,249)){for(;!x.in_grouping(L,97,249);){if(x.cursor>=x.limit)return x.cursor=e,void(x.in_grouping(L,97,249)&&x.cursor<x.limit&&x.cursor++);x.cursor++}return void(k=x.cursor)}if(x.cursor=e,!x.in_grouping(L,97,249)||x.cursor>=x.limit)return;x.cursor++}k=x.cursor}function a(){for(;!x.in_grouping(L,97,249);){if(x.cursor>=x.limit)return!1;x.cursor++}for(;!x.out_grouping(L,97,249);){if(x.cursor>=x.limit)return!1;x.cursor++}return!0}function u(){var e=x.cursor;k=x.limit,p=k,g=k,s(),x.cursor=e,a()&&(p=x.cursor,a()&&(g=x.cursor))}function c(){for(var e;;){if(x.bra=x.cursor,!(e=x.find_among(q,3)))break;switch(x.ket=x.cursor,e){case 1:x.slice_from("i");break;case 2:x.slice_from("u");break;case 3:if(x.cursor>=x.limit)return;x.cursor++}}}function w(){return k<=x.cursor}function l(){return p<=x.cursor}function m(){return g<=x.cursor}function f(){var e;if(x.ket=x.cursor,x.find_among_b(C,37)&&(x.bra=x.cursor,(e=x.find_among_b(z,5))&&w()))switch(e){case 1:x.slice_del();break;case 2:x.slice_from("e")}}function v(){var e;if(x.ket=x.cursor,!(e=x.find_among_b(S,51)))return!1;switch(x.bra=x.cursor,e){case 1:if(!m())return!1;x.slice_del();break;case 2:if(!m())return!1;x.slice_del(),x.ket=x.cursor,x.eq_s_b(2,"ic")&&(x.bra=x.cursor,m()&&x.slice_del());break;case 3:if(!m())return!1;x.slice_from("log");break;case 4:if(!m())return!1;x.slice_from("u");break;case 5:if(!m())return!1;x.slice_from("ente");break;case 6:if(!w())return!1;x.slice_del();break;case 7:if(!l())return!1;x.slice_del(),x.ket=x.cursor,e=x.find_among_b(P,4),e&&(x.bra=x.cursor,m()&&(x.slice_del(),1==e&&(x.ket=x.cursor,x.eq_s_b(2,"at")&&(x.bra=x.cursor,m()&&x.slice_del()))));break;case 8:if(!m())return!1;x.slice_del(),x.ket=x.cursor,e=x.find_among_b(F,3),e&&(x.bra=x.cursor,1==e&&m()&&x.slice_del());break;case 9:if(!m())return!1;x.slice_del(),x.ket=x.cursor,x.eq_s_b(2,"at")&&(x.bra=x.cursor,m()&&(x.slice_del(),x.ket=x.cursor,x.eq_s_b(2,"ic")&&(x.bra=x.cursor,m()&&x.slice_del())))}return!0}function b(){var e,r;x.cursor>=k&&(r=x.limit_backward,x.limit_backward=k,x.ket=x.cursor,e=x.find_among_b(W,87),e&&(x.bra=x.cursor,1==e&&x.slice_del()),x.limit_backward=r)}function d(){var e=x.limit-x.cursor;if(x.ket=x.cursor,x.in_grouping_b(y,97,242)&&(x.bra=x.cursor,w()&&(x.slice_del(),x.ket=x.cursor,x.eq_s_b(1,"i")&&(x.bra=x.cursor,w()))))return void x.slice_del();x.cursor=x.limit-e}function _(){d(),x.ket=x.cursor,x.eq_s_b(1,"h")&&(x.bra=x.cursor,x.in_grouping_b(U,99,103)&&w()&&x.slice_del())}var g,p,k,h=[new r("",-1,7),new r("qu",0,6),new r("á",0,1),new r("é",0,2),new r("í",0,3),new r("ó",0,4),new r("ú",0,5)],q=[new r("",-1,3),new r("I",0,1),new r("U",0,2)],C=[new r("la",-1,-1),new r("cela",0,-1),new r("gliela",0,-1),new r("mela",0,-1),new r("tela",0,-1),new r("vela",0,-1),new r("le",-1,-1),new r("cele",6,-1),new r("gliele",6,-1),new r("mele",6,-1),new r("tele",6,-1),new r("vele",6,-1),new r("ne",-1,-1),new r("cene",12,-1),new r("gliene",12,-1),new r("mene",12,-1),new r("sene",12,-1),new r("tene",12,-1),new r("vene",12,-1),new r("ci",-1,-1),new r("li",-1,-1),new r("celi",20,-1),new r("glieli",20,-1),new r("meli",20,-1),new r("teli",20,-1),new r("veli",20,-1),new r("gli",20,-1),new r("mi",-1,-1),new r("si",-1,-1),new r("ti",-1,-1),new r("vi",-1,-1),new r("lo",-1,-1),new r("celo",31,-1),new r("glielo",31,-1),new r("melo",31,-1),new r("telo",31,-1),new r("velo",31,-1)],z=[new r("ando",-1,1),new r("endo",-1,1),new r("ar",-1,2),new r("er",-1,2),new r("ir",-1,2)],P=[new r("ic",-1,-1),new r("abil",-1,-1),new r("os",-1,-1),new r("iv",-1,1)],F=[new r("ic",-1,1),new r("abil",-1,1),new r("iv",-1,1)],S=[new r("ica",-1,1),new r("logia",-1,3),new r("osa",-1,1),new r("ista",-1,1),new r("iva",-1,9),new r("anza",-1,1),new r("enza",-1,5),new r("ice",-1,1),new r("atrice",7,1),new r("iche",-1,1),new r("logie",-1,3),new r("abile",-1,1),new r("ibile",-1,1),new r("usione",-1,4),new r("azione",-1,2),new r("uzione",-1,4),new r("atore",-1,2),new r("ose",-1,1),new r("ante",-1,1),new r("mente",-1,1),new r("amente",19,7),new r("iste",-1,1),new r("ive",-1,9),new r("anze",-1,1),new r("enze",-1,5),new r("ici",-1,1),new r("atrici",25,1),new r("ichi",-1,1),new r("abili",-1,1),new r("ibili",-1,1),new r("ismi",-1,1),new r("usioni",-1,4),new r("azioni",-1,2),new r("uzioni",-1,4),new r("atori",-1,2),new r("osi",-1,1),new r("anti",-1,1),new r("amenti",-1,6),new r("imenti",-1,6),new r("isti",-1,1),new r("ivi",-1,9),new r("ico",-1,1),new r("ismo",-1,1),new r("oso",-1,1),new r("amento",-1,6),new r("imento",-1,6),new r("ivo",-1,9),new r("ità",-1,8),new r("istà",-1,1),new r("istè",-1,1),new r("istì",-1,1)],W=[new r("isca",-1,1),new r("enda",-1,1),new r("ata",-1,1),new r("ita",-1,1),new r("uta",-1,1),new r("ava",-1,1),new r("eva",-1,1),new r("iva",-1,1),new r("erebbe",-1,1),new r("irebbe",-1,1),new r("isce",-1,1),new r("ende",-1,1),new r("are",-1,1),new r("ere",-1,1),new r("ire",-1,1),new r("asse",-1,1),new r("ate",-1,1),new r("avate",16,1),new r("evate",16,1),new r("ivate",16,1),new r("ete",-1,1),new r("erete",20,1),new r("irete",20,1),new r("ite",-1,1),new r("ereste",-1,1),new r("ireste",-1,1),new r("ute",-1,1),new r("erai",-1,1),new r("irai",-1,1),new r("isci",-1,1),new r("endi",-1,1),new r("erei",-1,1),new r("irei",-1,1),new r("assi",-1,1),new r("ati",-1,1),new r("iti",-1,1),new r("eresti",-1,1),new r("iresti",-1,1),new r("uti",-1,1),new r("avi",-1,1),new r("evi",-1,1),new r("ivi",-1,1),new r("isco",-1,1),new r("ando",-1,1),new r("endo",-1,1),new r("Yamo",-1,1),new r("iamo",-1,1),new r("avamo",-1,1),new r("evamo",-1,1),new r("ivamo",-1,1),new r("eremo",-1,1),new r("iremo",-1,1),new r("assimo",-1,1),new r("ammo",-1,1),new r("emmo",-1,1),new r("eremmo",54,1),new r("iremmo",54,1),new r("immo",-1,1),new r("ano",-1,1),new r("iscano",58,1),new r("avano",58,1),new r("evano",58,1),new r("ivano",58,1),new r("eranno",-1,1),new r("iranno",-1,1),new r("ono",-1,1),new r("iscono",65,1),new r("arono",65,1),new r("erono",65,1),new r("irono",65,1),new r("erebbero",-1,1),new r("irebbero",-1,1),new r("assero",-1,1),new r("essero",-1,1),new r("issero",-1,1),new r("ato",-1,1),new r("ito",-1,1),new r("uto",-1,1),new r("avo",-1,1),new r("evo",-1,1),new r("ivo",-1,1),new r("ar",-1,1),new r("ir",-1,1),new r("erà",-1,1),new r("irà",-1,1),new r("erò",-1,1),new r("irò",-1,1)],L=[17,65,16,0,0,0,0,0,0,0,0,0,0,0,0,128,128,8,2,1],y=[17,65,0,0,0,0,0,0,0,0,0,0,0,0,0,128,128,8,2],U=[17],x=new n;this.setCurrent=function(e){x.setCurrent(e)},this.getCurrent=function(){return x.getCurrent()},this.stem=function(){var e=x.cursor;return i(),x.cursor=e,u(),x.limit_backward=e,x.cursor=x.limit,f(),x.cursor=x.limit,v()||(x.cursor=x.limit,b()),x.cursor=x.limit,_(),x.cursor=x.limit_backward,c(),!0}};return function(e){return"function"==typeof e.update?e.update(function(e){return i.setCurrent(e),i.stem(),i.getCurrent()}):(i.setCurrent(e),i.stem(),i.getCurrent())}}(),e.Pipeline.registerFunction(e.it.stemmer,"stemmer-it"),e.it.stopWordFilter=e.generateStopWordFilter("a abbia abbiamo abbiano abbiate ad agl agli ai al all alla alle allo anche avemmo avendo avesse avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste avresti avrete avrà avrò avuta avute avuti avuto c che chi ci coi col come con contro cui da dagl dagli dai dal dall dalla dalle dallo degl degli dei del dell della delle dello di dov dove e ebbe ebbero ebbi ed era erano eravamo eravate eri ero essendo faccia facciamo facciano facciate faccio facemmo facendo facesse facessero facessi facessimo faceste facesti faceva facevamo facevano facevate facevi facevo fai fanno farai faranno farebbe farebbero farei faremmo faremo fareste faresti farete farà farò fece fecero feci fosse fossero fossi fossimo foste fosti fu fui fummo furono gli ha hai hanno ho i il in io l la le lei li lo loro lui ma mi mia mie miei mio ne negl negli nei nel nell nella nelle nello noi non nostra nostre nostri nostro o per perché più quale quanta quante quanti quanto quella quelle quelli quello questa queste questi questo sarai saranno sarebbe sarebbero sarei saremmo saremo sareste saresti sarete sarà sarò se sei si sia siamo siano siate siete sono sta stai stando stanno starai staranno starebbe starebbero starei staremmo staremo stareste staresti starete starà starò stava stavamo stavano stavate stavi stavo stemmo stesse stessero stessi stessimo steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua sue sugl sugli sui sul sull sulla sulle sullo suo suoi ti tra tu tua tue tuo tuoi tutti tutto un una uno vi voi vostra vostre vostri vostro è".split(" ")),e.Pipeline.registerFunction(e.it.stopWordFilter,"stopWordFilter-it")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.ja.min.js b/assets/javascripts/lunr/min/lunr.ja.min.js
new file mode 100644
index 000000000..5f254ebe9
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.ja.min.js
@@ -0,0 +1 @@
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");var r="2"==e.version[0];e.ja=function(){this.pipeline.reset(),this.pipeline.add(e.ja.trimmer,e.ja.stopWordFilter,e.ja.stemmer),r?this.tokenizer=e.ja.tokenizer:(e.tokenizer&&(e.tokenizer=e.ja.tokenizer),this.tokenizerFn&&(this.tokenizerFn=e.ja.tokenizer))};var t=new e.TinySegmenter;e.ja.tokenizer=function(i){var n,o,s,p,a,u,m,l,c,f;if(!arguments.length||null==i||void 0==i)return[];if(Array.isArray(i))return i.map(function(t){return r?new e.Token(t.toLowerCase()):t.toLowerCase()});for(o=i.toString().toLowerCase().replace(/^\s+/,""),n=o.length-1;n>=0;n--)if(/\S/.test(o.charAt(n))){o=o.substring(0,n+1);break}for(a=[],s=o.length,c=0,l=0;c<=s;c++)if(u=o.charAt(c),m=c-l,u.match(/\s/)||c==s){if(m>0)for(p=t.segment(o.slice(l,c)).filter(function(e){return!!e}),f=l,n=0;n<p.length;n++)r?a.push(new e.Token(p[n],{position:[f,p[n].length],index:a.length})):a.push(p[n]),f+=p[n].length;l=c+1}return a},e.ja.stemmer=function(){return function(e){return e}}(),e.Pipeline.registerFunction(e.ja.stemmer,"stemmer-ja"),e.ja.wordCharacters="一二三四五六七八九十百千万億兆一-龠々〆ヵヶぁ-んァ-ヴーｱ-ﾝﾞa-zA-Zａ-ｚＡ-Ｚ0-9０-９",e.ja.trimmer=e.trimmerSupport.generateTrimmer(e.ja.wordCharacters),e.Pipeline.registerFunction(e.ja.trimmer,"trimmer-ja"),e.ja.stopWordFilter=e.generateStopWordFilter("これ それ あれ この その あの ここ そこ あそこ こちら どこ だれ なに なん 何 私 貴方 貴方方 我々 私達 あの人 あのかた 彼女 彼 です あります おります います は が の に を で え から まで より も どの と し それで しかし".split(" ")),e.Pipeline.registerFunction(e.ja.stopWordFilter,"stopWordFilter-ja"),e.jp=e.ja,e.Pipeline.registerFunction(e.jp.stemmer,"stemmer-jp"),e.Pipeline.registerFunction(e.jp.trimmer,"trimmer-jp"),e.Pipeline.registerFunction(e.jp.stopWordFilter,"stopWordFilter-jp")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.jp.min.js b/assets/javascripts/lunr/min/lunr.jp.min.js
new file mode 100644
index 000000000..c055ebaf3
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.jp.min.js
@@ -0,0 +1 @@
+module.exports=require("./lunr.ja");
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.kn.min.js b/assets/javascripts/lunr/min/lunr.kn.min.js
new file mode 100644
index 000000000..1cef9befd
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.kn.min.js
@@ -0,0 +1 @@
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.kn=function(){this.pipeline.reset(),this.pipeline.add(e.kn.trimmer,e.kn.stopWordFilter,e.kn.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.kn.stemmer))},e.kn.wordCharacters="ಀ-಄ಅ-ಔಕ-ಹಾ-ೌ಼-ಽೕ-ೖೝ-ೞೠ-ೡೢ-ೣ೤೥೦-೯ೱ-ೳ",e.kn.trimmer=e.trimmerSupport.generateTrimmer(e.kn.wordCharacters),e.Pipeline.registerFunction(e.kn.trimmer,"trimmer-kn"),e.kn.stopWordFilter=e.generateStopWordFilter("ಮತ್ತು ಈ ಒಂದು ರಲ್ಲಿ ಹಾಗೂ ಎಂದು ಅಥವಾ ಇದು ರ ಅವರು ಎಂಬ ಮೇಲೆ ಅವರ ತನ್ನ ಆದರೆ ತಮ್ಮ ನಂತರ ಮೂಲಕ ಹೆಚ್ಚು ನ ಆ ಕೆಲವು ಅನೇಕ ಎರಡು ಹಾಗು ಪ್ರಮುಖ ಇದನ್ನು ಇದರ ಸುಮಾರು ಅದರ ಅದು ಮೊದಲ ಬಗ್ಗೆ ನಲ್ಲಿ ರಂದು ಇತರ ಅತ್ಯಂತ ಹೆಚ್ಚಿನ ಸಹ ಸಾಮಾನ್ಯವಾಗಿ ನೇ ಹಲವಾರು ಹೊಸ ದಿ ಕಡಿಮೆ ಯಾವುದೇ ಹೊಂದಿದೆ ದೊಡ್ಡ ಅನ್ನು ಇವರು ಪ್ರಕಾರ ಇದೆ ಮಾತ್ರ ಕೂಡ ಇಲ್ಲಿ ಎಲ್ಲಾ ವಿವಿಧ ಅದನ್ನು ಹಲವು ರಿಂದ ಕೇವಲ ದ ದಕ್ಷಿಣ ಗೆ ಅವನ ಅತಿ ನೆಯ ಬಹಳ ಕೆಲಸ ಎಲ್ಲ ಪ್ರತಿ ಇತ್ಯಾದಿ ಇವು ಬೇರೆ ಹೀಗೆ ನಡುವೆ ಇದಕ್ಕೆ ಎಸ್ ಇವರ ಮೊದಲು ಶ್ರೀ ಮಾಡುವ ಇದರಲ್ಲಿ ರೀತಿಯ ಮಾಡಿದ ಕಾಲ ಅಲ್ಲಿ ಮಾಡಲು ಅದೇ ಈಗ ಅವು ಗಳು ಎ ಎಂಬುದು ಅವನು ಅಂದರೆ ಅವರಿಗೆ ಇರುವ ವಿಶೇಷ ಮುಂದೆ ಅವುಗಳ ಮುಂತಾದ ಮೂಲ ಬಿ ಮೀ ಒಂದೇ ಇನ್ನೂ ಹೆಚ್ಚಾಗಿ ಮಾಡಿ ಅವರನ್ನು ಇದೇ ಯ ರೀತಿಯಲ್ಲಿ ಜೊತೆ ಅದರಲ್ಲಿ ಮಾಡಿದರು ನಡೆದ ಆಗ ಮತ್ತೆ ಪೂರ್ವ ಆತ ಬಂದ ಯಾವ ಒಟ್ಟು ಇತರೆ ಹಿಂದೆ ಪ್ರಮಾಣದ ಗಳನ್ನು ಕುರಿತು ಯು ಆದ್ದರಿಂದ ಅಲ್ಲದೆ ನಗರದ ಮೇಲಿನ ಏಕೆಂದರೆ ರಷ್ಟು ಎಂಬುದನ್ನು ಬಾರಿ ಎಂದರೆ ಹಿಂದಿನ ಆದರೂ ಆದ ಸಂಬಂಧಿಸಿದ ಮತ್ತೊಂದು ಸಿ ಆತನ ".split(" ")),e.kn.stemmer=function(){return function(e){return"function"==typeof e.update?e.update(function(e){return e}):e}}();var r=e.wordcut;r.init(),e.kn.tokenizer=function(t){if(!arguments.length||null==t||void 0==t)return[];if(Array.isArray(t))return t.map(function(r){return isLunr2?new e.Token(r.toLowerCase()):r.toLowerCase()});var n=t.toString().toLowerCase().replace(/^\s+/,"");return r.cut(n).split("|")},e.Pipeline.registerFunction(e.kn.stemmer,"stemmer-kn"),e.Pipeline.registerFunction(e.kn.stopWordFilter,"stopWordFilter-kn")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.ko.min.js b/assets/javascripts/lunr/min/lunr.ko.min.js
new file mode 100644
index 000000000..eaf9dabf7
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.ko.min.js
@@ -0,0 +1 @@
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.ko=function(){this.pipeline.reset(),this.pipeline.add(e.ko.trimmer,e.ko.stopWordFilter)},e.ko.wordCharacters="[A-Za-z가-힣]",e.ko.trimmer=e.trimmerSupport.generateTrimmer(e.ko.wordCharacters),e.Pipeline.registerFunction(e.ko.trimmer,"trimmer-ko"),e.ko.stopWordFilter=e.generateStopWordFilter("아 휴 아이구 아이쿠 아이고 어 나 우리 저희 따라 의해 을 를 에 의 가 으로 로 에게 뿐이다 의거하여 근거하여 입각하여 기준으로 예하면 예를 들면 예를 들자면 저 소인 소생 저희 지말고 하지마 하지마라 다른 물론 또한 그리고 비길수 없다 해서는 안된다 뿐만 아니라 만이 아니다 만은 아니다 막론하고 관계없이 그치지 않다 그러나 그런데 하지만 든간에 논하지 않다 따지지 않다 설사 비록 더라도 아니면 만 못하다 하는 편이 낫다 불문하고 향하여 향해서 향하다 쪽으로 틈타 이용하여 타다 오르다 제외하고 이 외에 이 밖에 하여야 비로소 한다면 몰라도 외에도 이곳 여기 부터 기점으로 따라서 할 생각이다 하려고하다 이리하여 그리하여 그렇게 함으로써 하지만 일때 할때 앞에서 중에서 보는데서 으로써 로써 까지 해야한다 일것이다 반드시 할줄알다 할수있다 할수있어 임에 틀림없다 한다면 등 등등 제 겨우 단지 다만 할뿐 딩동 댕그 대해서 대하여 대하면 훨씬 얼마나 얼마만큼 얼마큼 남짓 여 얼마간 약간 다소 좀 조금 다수 몇 얼마 지만 하물며 또한 그러나 그렇지만 하지만 이외에도 대해 말하자면 뿐이다 다음에 반대로 반대로 말하자면 이와 반대로 바꾸어서 말하면 바꾸어서 한다면 만약 그렇지않으면 까악 툭 딱 삐걱거리다 보드득 비걱거리다 꽈당 응당 해야한다 에 가서 각 각각 여러분 각종 각자 제각기 하도록하다 와 과 그러므로 그래서 고로 한 까닭에 하기 때문에 거니와 이지만 대하여 관하여 관한 과연 실로 아니나다를가 생각한대로 진짜로 한적이있다 하곤하였다 하 하하 허허 아하 거바 와 오 왜 어째서 무엇때문에 어찌 하겠는가 무슨 어디 어느곳 더군다나 하물며 더욱이는 어느때 언제 야 이봐 어이 여보시오 흐흐 흥 휴 헉헉 헐떡헐떡 영차 여차 어기여차 끙끙 아야 앗 아야 콸콸 졸졸 좍좍 뚝뚝 주룩주룩 솨 우르르 그래도 또 그리고 바꾸어말하면 바꾸어말하자면 혹은 혹시 답다 및 그에 따르는 때가 되어 즉 지든지 설령 가령 하더라도 할지라도 일지라도 지든지 몇 거의 하마터면 인젠 이젠 된바에야 된이상 만큼\t어찌됏든 그위에 게다가 점에서 보아 비추어 보아 고려하면 하게될것이다 일것이다 비교적 좀 보다더 비하면 시키다 하게하다 할만하다 의해서 연이서 이어서 잇따라 뒤따라 뒤이어 결국 의지하여 기대여 통하여 자마자 더욱더 불구하고 얼마든지 마음대로 주저하지 않고 곧 즉시 바로 당장 하자마자 밖에 안된다 하면된다 그래 그렇지 요컨대 다시 말하자면 바꿔 말하면 즉 구체적으로 말하자면 시작하여 시초에 이상 허 헉 허걱 바와같이 해도좋다 해도된다 게다가 더구나 하물며 와르르 팍 퍽 펄렁 동안 이래 하고있었다 이었다 에서 로부터 까지 예하면 했어요 해요 함께 같이 더불어 마저 마저도 양자 모두 습니다 가까스로 하려고하다 즈음하여 다른 다른 방면으로 해봐요 습니까 했어요 말할것도 없고 무릎쓰고 개의치않고 하는것만 못하다 하는것이 낫다 매 매번 들 모 어느것 어느 로써 갖고말하자면 어디 어느쪽 어느것 어느해 어느 년도 라 해도 언젠가 어떤것 어느것 저기 저쪽 저것 그때 그럼 그러면 요만한걸 그래 그때 저것만큼 그저 이르기까지 할 줄 안다 할 힘이 있다 너 너희 당신 어찌 설마 차라리 할지언정 할지라도 할망정 할지언정 구토하다 게우다 토하다 메쓰겁다 옆사람 퉤 쳇 의거하여 근거하여 의해 따라 힘입어 그 다음 버금 두번째로 기타 첫번째로 나머지는 그중에서 견지에서 형식으로 쓰여 입장에서 위해서 단지 의해되다 하도록시키다 뿐만아니라 반대로 전후 전자 앞의것 잠시 잠깐 하면서 그렇지만 다음에 그러한즉 그런즉 남들 아무거나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 어떻게 만약 만일 위에서 서술한바와같이 인 듯하다 하지 않는다면 만약에 무엇 무슨 어느 어떤 아래윗 조차 한데 그럼에도 불구하고 여전히 심지어 까지도 조차도 하지 않도록 않기 위하여 때 시각 무렵 시간 동안 어때 어떠한 하여금 네 예 우선 누구 누가 알겠는가 아무도 줄은모른다 줄은 몰랏다 하는 김에 겸사겸사 하는바 그런 까닭에 한 이유는 그러니 그러니까 때문에 그 너희 그들 너희들 타인 것 것들 너 위하여 공동으로 동시에 하기 위하여 어찌하여 무엇때문에 붕붕 윙윙 나 우리 엉엉 휘익 윙윙 오호 아하 어쨋든 만 못하다\t하기보다는 차라리 하는 편이 낫다 흐흐 놀라다 상대적으로 말하자면 마치 아니라면 쉿 그렇지 않으면 그렇지 않다면 안 그러면 아니었다면 하든지 아니면 이라면 좋아 알았어 하는것도 그만이다 어쩔수 없다 하나 일 일반적으로 일단 한켠으로는 오자마자 이렇게되면 이와같다면 전부 한마디 한항목 근거로 하기에 아울러 하지 않도록 않기 위해서 이르기까지 이 되다 로 인하여 까닭으로 이유만으로 이로 인하여 그래서 이 때문에 그러므로 그런 까닭에 알 수 있다 결론을 낼 수 있다 으로 인하여 있다 어떤것 관계가 있다 관련이 있다 연관되다 어떤것들 에 대해 이리하여 그리하여 여부 하기보다는 하느니 하면 할수록 운운 이러이러하다 하구나 하도다 다시말하면 다음으로 에 있다 에 달려 있다 우리 우리들 오히려 하기는한데 어떻게 어떻해 어찌됏어 어때 어째서 본대로 자 이 이쪽 여기 이것 이번 이렇게말하자면 이런 이러한 이와 같은 요만큼 요만한 것 얼마 안 되는 것 이만큼 이 정도의 이렇게 많은 것 이와 같다 이때 이렇구나 것과 같이 끼익 삐걱 따위 와 같은 사람들 부류의 사람들 왜냐하면 중의하나 오직 오로지 에 한하다 하기만 하면 도착하다 까지 미치다 도달하다 정도에 이르다 할 지경이다 결과에 이르다 관해서는 여러분 하고 있다 한 후 혼자 자기 자기집 자신 우에 종합한것과같이 총적으로 보면 총적으로 말하면 총적으로 대로 하다 으로서 참 그만이다 할 따름이다 쿵 탕탕 쾅쾅 둥둥 봐 봐라 아이야 아니 와아 응 아이 참나 년 월 일 령 영 일 이 삼 사 오 육 륙 칠 팔 구 이천육 이천칠 이천팔 이천구 하나 둘 셋 넷 다섯 여섯 일곱 여덟 아홉 령 영".split(" ")),e.Pipeline.registerFunction(e.ko.stopWordFilter,"stopWordFilter-ko"),e.ko.stemmer=function(){return function(e){return"function"==typeof e.update?e.update(function(e){return e}):e}}(),e.Pipeline.registerFunction(e.ko.stemmer,"stemmer-ko")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.multi.min.js b/assets/javascripts/lunr/min/lunr.multi.min.js
new file mode 100644
index 000000000..7debad096
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.multi.min.js
@@ -0,0 +1 @@
+!function(e,t){"function"==typeof define&&define.amd?define(t):"object"==typeof exports?module.exports=t():t()(e.lunr)}(this,function(){return function(e){e.multiLanguage=function(){for(var t=Array.prototype.slice.call(arguments),i=t.join("-"),r="",n=[],s=[],p=0;p<t.length;++p)"en"==t[p]?(r+="\\w",n.unshift(e.stopWordFilter),n.push(e.stemmer),s.push(e.stemmer)):(r+=e[t[p]].wordCharacters,e[t[p]].stopWordFilter&&n.unshift(e[t[p]].stopWordFilter),e[t[p]].stemmer&&(n.push(e[t[p]].stemmer),s.push(e[t[p]].stemmer)));var o=e.trimmerSupport.generateTrimmer(r);return e.Pipeline.registerFunction(o,"lunr-multi-trimmer-"+i),n.unshift(o),function(){this.pipeline.reset(),this.pipeline.add.apply(this.pipeline,n),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add.apply(this.searchPipeline,s))}}}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.nl.min.js b/assets/javascripts/lunr/min/lunr.nl.min.js
new file mode 100644
index 000000000..c4a253594
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.nl.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `Dutch` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(r,e){"function"==typeof define&&define.amd?define(e):"object"==typeof exports?module.exports=e():e()(r.lunr)}(this,function(){return function(r){if(void 0===r)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===r.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");r.nl=function(){this.pipeline.reset(),this.pipeline.add(r.nl.trimmer,r.nl.stopWordFilter,r.nl.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(r.nl.stemmer))},r.nl.wordCharacters="A-Za-zªºÀ-ÖØ-öø-ʸˠ-ˤᴀ-ᴥᴬ-ᵜᵢ-ᵥᵫ-ᵷᵹ-ᶾḀ-ỿⁱⁿₐ-ₜKÅℲⅎⅠ-ↈⱠ-ⱿꜢ-ꞇꞋ-ꞭꞰ-ꞷꟷ-ꟿꬰ-ꭚꭜ-ꭤﬀ-ﬆＡ-Ｚａ-ｚ",r.nl.trimmer=r.trimmerSupport.generateTrimmer(r.nl.wordCharacters),r.Pipeline.registerFunction(r.nl.trimmer,"trimmer-nl"),r.nl.stemmer=function(){var e=r.stemmerSupport.Among,i=r.stemmerSupport.SnowballProgram,n=new function(){function r(){for(var r,e,i,o=C.cursor;;){if(C.bra=C.cursor,r=C.find_among(b,11))switch(C.ket=C.cursor,r){case 1:C.slice_from("a");continue;case 2:C.slice_from("e");continue;case 3:C.slice_from("i");continue;case 4:C.slice_from("o");continue;case 5:C.slice_from("u");continue;case 6:if(C.cursor>=C.limit)break;C.cursor++;continue}break}for(C.cursor=o,C.bra=o,C.eq_s(1,"y")?(C.ket=C.cursor,C.slice_from("Y")):C.cursor=o;;)if(e=C.cursor,C.in_grouping(q,97,232)){if(i=C.cursor,C.bra=i,C.eq_s(1,"i"))C.ket=C.cursor,C.in_grouping(q,97,232)&&(C.slice_from("I"),C.cursor=e);else if(C.cursor=i,C.eq_s(1,"y"))C.ket=C.cursor,C.slice_from("Y"),C.cursor=e;else if(n(e))break}else if(n(e))break}function n(r){return C.cursor=r,r>=C.limit||(C.cursor++,!1)}function o(){_=C.limit,d=_,t()||(_=C.cursor,_<3&&(_=3),t()||(d=C.cursor))}function t(){for(;!C.in_grouping(q,97,232);){if(C.cursor>=C.limit)return!0;C.cursor++}for(;!C.out_grouping(q,97,232);){if(C.cursor>=C.limit)return!0;C.cursor++}return!1}function s(){for(var r;;)if(C.bra=C.cursor,r=C.find_among(p,3))switch(C.ket=C.cursor,r){case 1:C.slice_from("y");break;case 2:C.slice_from("i");break;case 3:if(C.cursor>=C.limit)return;C.cursor++}}function u(){return _<=C.cursor}function c(){return d<=C.cursor}function a(){var r=C.limit-C.cursor;C.find_among_b(g,3)&&(C.cursor=C.limit-r,C.ket=C.cursor,C.cursor>C.limit_backward&&(C.cursor--,C.bra=C.cursor,C.slice_del()))}function l(){var r;w=!1,C.ket=C.cursor,C.eq_s_b(1,"e")&&(C.bra=C.cursor,u()&&(r=C.limit-C.cursor,C.out_grouping_b(q,97,232)&&(C.cursor=C.limit-r,C.slice_del(),w=!0,a())))}function m(){var r;u()&&(r=C.limit-C.cursor,C.out_grouping_b(q,97,232)&&(C.cursor=C.limit-r,C.eq_s_b(3,"gem")||(C.cursor=C.limit-r,C.slice_del(),a())))}function f(){var r,e,i,n,o,t,s=C.limit-C.cursor;if(C.ket=C.cursor,r=C.find_among_b(h,5))switch(C.bra=C.cursor,r){case 1:u()&&C.slice_from("heid");break;case 2:m();break;case 3:u()&&C.out_grouping_b(j,97,232)&&C.slice_del()}if(C.cursor=C.limit-s,l(),C.cursor=C.limit-s,C.ket=C.cursor,C.eq_s_b(4,"heid")&&(C.bra=C.cursor,c()&&(e=C.limit-C.cursor,C.eq_s_b(1,"c")||(C.cursor=C.limit-e,C.slice_del(),C.ket=C.cursor,C.eq_s_b(2,"en")&&(C.bra=C.cursor,m())))),C.cursor=C.limit-s,C.ket=C.cursor,r=C.find_among_b(k,6))switch(C.bra=C.cursor,r){case 1:if(c()){if(C.slice_del(),i=C.limit-C.cursor,C.ket=C.cursor,C.eq_s_b(2,"ig")&&(C.bra=C.cursor,c()&&(n=C.limit-C.cursor,!C.eq_s_b(1,"e")))){C.cursor=C.limit-n,C.slice_del();break}C.cursor=C.limit-i,a()}break;case 2:c()&&(o=C.limit-C.cursor,C.eq_s_b(1,"e")||(C.cursor=C.limit-o,C.slice_del()));break;case 3:c()&&(C.slice_del(),l());break;case 4:c()&&C.slice_del();break;case 5:c()&&w&&C.slice_del()}C.cursor=C.limit-s,C.out_grouping_b(z,73,232)&&(t=C.limit-C.cursor,C.find_among_b(v,4)&&C.out_grouping_b(q,97,232)&&(C.cursor=C.limit-t,C.ket=C.cursor,C.cursor>C.limit_backward&&(C.cursor--,C.bra=C.cursor,C.slice_del())))}var d,_,w,b=[new e("",-1,6),new e("á",0,1),new e("ä",0,1),new e("é",0,2),new e("ë",0,2),new e("í",0,3),new e("ï",0,3),new e("ó",0,4),new e("ö",0,4),new e("ú",0,5),new e("ü",0,5)],p=[new e("",-1,3),new e("I",0,2),new e("Y",0,1)],g=[new e("dd",-1,-1),new e("kk",-1,-1),new e("tt",-1,-1)],h=[new e("ene",-1,2),new e("se",-1,3),new e("en",-1,2),new e("heden",2,1),new e("s",-1,3)],k=[new e("end",-1,1),new e("ig",-1,2),new e("ing",-1,1),new e("lijk",-1,3),new e("baar",-1,4),new e("bar",-1,5)],v=[new e("aa",-1,-1),new e("ee",-1,-1),new e("oo",-1,-1),new e("uu",-1,-1)],q=[17,65,16,1,0,0,0,0,0,0,0,0,0,0,0,0,128],z=[1,0,0,17,65,16,1,0,0,0,0,0,0,0,0,0,0,0,0,128],j=[17,67,16,1,0,0,0,0,0,0,0,0,0,0,0,0,128],C=new i;this.setCurrent=function(r){C.setCurrent(r)},this.getCurrent=function(){return C.getCurrent()},this.stem=function(){var e=C.cursor;return r(),C.cursor=e,o(),C.limit_backward=e,C.cursor=C.limit,f(),C.cursor=C.limit_backward,s(),!0}};return function(r){return"function"==typeof r.update?r.update(function(r){return n.setCurrent(r),n.stem(),n.getCurrent()}):(n.setCurrent(r),n.stem(),n.getCurrent())}}(),r.Pipeline.registerFunction(r.nl.stemmer,"stemmer-nl"),r.nl.stopWordFilter=r.generateStopWordFilter(" aan al alles als altijd andere ben bij daar dan dat de der deze die dit doch doen door dus een eens en er ge geen geweest haar had heb hebben heeft hem het hier hij hoe hun iemand iets ik in is ja je kan kon kunnen maar me meer men met mij mijn moet na naar niet niets nog nu of om omdat onder ons ook op over reeds te tegen toch toen tot u uit uw van veel voor want waren was wat werd wezen wie wil worden wordt zal ze zelf zich zij zijn zo zonder zou".split(" ")),r.Pipeline.registerFunction(r.nl.stopWordFilter,"stopWordFilter-nl")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.no.min.js b/assets/javascripts/lunr/min/lunr.no.min.js
new file mode 100644
index 000000000..92bc7e4e8
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.no.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `Norwegian` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.no=function(){this.pipeline.reset(),this.pipeline.add(e.no.trimmer,e.no.stopWordFilter,e.no.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.no.stemmer))},e.no.wordCharacters="A-Za-zªºÀ-ÖØ-öø-ʸˠ-ˤᴀ-ᴥᴬ-ᵜᵢ-ᵥᵫ-ᵷᵹ-ᶾḀ-ỿⁱⁿₐ-ₜKÅℲⅎⅠ-ↈⱠ-ⱿꜢ-ꞇꞋ-ꞭꞰ-ꞷꟷ-ꟿꬰ-ꭚꭜ-ꭤﬀ-ﬆＡ-Ｚａ-ｚ",e.no.trimmer=e.trimmerSupport.generateTrimmer(e.no.wordCharacters),e.Pipeline.registerFunction(e.no.trimmer,"trimmer-no"),e.no.stemmer=function(){var r=e.stemmerSupport.Among,n=e.stemmerSupport.SnowballProgram,i=new function(){function e(){var e,r=w.cursor+3;if(a=w.limit,0<=r||r<=w.limit){for(s=r;;){if(e=w.cursor,w.in_grouping(d,97,248)){w.cursor=e;break}if(e>=w.limit)return;w.cursor=e+1}for(;!w.out_grouping(d,97,248);){if(w.cursor>=w.limit)return;w.cursor++}a=w.cursor,a<s&&(a=s)}}function i(){var e,r,n;if(w.cursor>=a&&(r=w.limit_backward,w.limit_backward=a,w.ket=w.cursor,e=w.find_among_b(m,29),w.limit_backward=r,e))switch(w.bra=w.cursor,e){case 1:w.slice_del();break;case 2:n=w.limit-w.cursor,w.in_grouping_b(c,98,122)?w.slice_del():(w.cursor=w.limit-n,w.eq_s_b(1,"k")&&w.out_grouping_b(d,97,248)&&w.slice_del());break;case 3:w.slice_from("er")}}function t(){var e,r=w.limit-w.cursor;w.cursor>=a&&(e=w.limit_backward,w.limit_backward=a,w.ket=w.cursor,w.find_among_b(u,2)?(w.bra=w.cursor,w.limit_backward=e,w.cursor=w.limit-r,w.cursor>w.limit_backward&&(w.cursor--,w.bra=w.cursor,w.slice_del())):w.limit_backward=e)}function o(){var e,r;w.cursor>=a&&(r=w.limit_backward,w.limit_backward=a,w.ket=w.cursor,e=w.find_among_b(l,11),e?(w.bra=w.cursor,w.limit_backward=r,1==e&&w.slice_del()):w.limit_backward=r)}var s,a,m=[new r("a",-1,1),new r("e",-1,1),new r("ede",1,1),new r("ande",1,1),new r("ende",1,1),new r("ane",1,1),new r("ene",1,1),new r("hetene",6,1),new r("erte",1,3),new r("en",-1,1),new r("heten",9,1),new r("ar",-1,1),new r("er",-1,1),new r("heter",12,1),new r("s",-1,2),new r("as",14,1),new r("es",14,1),new r("edes",16,1),new r("endes",16,1),new r("enes",16,1),new r("hetenes",19,1),new r("ens",14,1),new r("hetens",21,1),new r("ers",14,1),new r("ets",14,1),new r("et",-1,1),new r("het",25,1),new r("ert",-1,3),new r("ast",-1,1)],u=[new r("dt",-1,-1),new r("vt",-1,-1)],l=[new r("leg",-1,1),new r("eleg",0,1),new r("ig",-1,1),new r("eig",2,1),new r("lig",2,1),new r("elig",4,1),new r("els",-1,1),new r("lov",-1,1),new r("elov",7,1),new r("slov",7,1),new r("hetslov",9,1)],d=[17,65,16,1,0,0,0,0,0,0,0,0,0,0,0,0,48,0,128],c=[119,125,149,1],w=new n;this.setCurrent=function(e){w.setCurrent(e)},this.getCurrent=function(){return w.getCurrent()},this.stem=function(){var r=w.cursor;return e(),w.limit_backward=r,w.cursor=w.limit,i(),w.cursor=w.limit,t(),w.cursor=w.limit,o(),!0}};return function(e){return"function"==typeof e.update?e.update(function(e){return i.setCurrent(e),i.stem(),i.getCurrent()}):(i.setCurrent(e),i.stem(),i.getCurrent())}}(),e.Pipeline.registerFunction(e.no.stemmer,"stemmer-no"),e.no.stopWordFilter=e.generateStopWordFilter("alle at av bare begge ble blei bli blir blitt både båe da de deg dei deim deira deires dem den denne der dere deres det dette di din disse ditt du dykk dykkar då eg ein eit eitt eller elles en enn er et ett etter for fordi fra før ha hadde han hans har hennar henne hennes her hjå ho hoe honom hoss hossen hun hva hvem hver hvilke hvilken hvis hvor hvordan hvorfor i ikke ikkje ikkje ingen ingi inkje inn inni ja jeg kan kom korleis korso kun kunne kva kvar kvarhelst kven kvi kvifor man mange me med medan meg meget mellom men mi min mine mitt mot mykje ned no noe noen noka noko nokon nokor nokre nå når og også om opp oss over på samme seg selv si si sia sidan siden sin sine sitt sjøl skal skulle slik so som som somme somt så sånn til um upp ut uten var vart varte ved vere verte vi vil ville vore vors vort vår være være vært å".split(" ")),e.Pipeline.registerFunction(e.no.stopWordFilter,"stopWordFilter-no")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.pt.min.js b/assets/javascripts/lunr/min/lunr.pt.min.js
new file mode 100644
index 000000000..6c16996d6
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.pt.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `Portuguese` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.pt=function(){this.pipeline.reset(),this.pipeline.add(e.pt.trimmer,e.pt.stopWordFilter,e.pt.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.pt.stemmer))},e.pt.wordCharacters="A-Za-zªºÀ-ÖØ-öø-ʸˠ-ˤᴀ-ᴥᴬ-ᵜᵢ-ᵥᵫ-ᵷᵹ-ᶾḀ-ỿⁱⁿₐ-ₜKÅℲⅎⅠ-ↈⱠ-ⱿꜢ-ꞇꞋ-ꞭꞰ-ꞷꟷ-ꟿꬰ-ꭚꭜ-ꭤﬀ-ﬆＡ-Ｚａ-ｚ",e.pt.trimmer=e.trimmerSupport.generateTrimmer(e.pt.wordCharacters),e.Pipeline.registerFunction(e.pt.trimmer,"trimmer-pt"),e.pt.stemmer=function(){var r=e.stemmerSupport.Among,s=e.stemmerSupport.SnowballProgram,n=new function(){function e(){for(var e;;){if(z.bra=z.cursor,e=z.find_among(k,3))switch(z.ket=z.cursor,e){case 1:z.slice_from("a~");continue;case 2:z.slice_from("o~");continue;case 3:if(z.cursor>=z.limit)break;z.cursor++;continue}break}}function n(){if(z.out_grouping(y,97,250)){for(;!z.in_grouping(y,97,250);){if(z.cursor>=z.limit)return!0;z.cursor++}return!1}return!0}function i(){if(z.in_grouping(y,97,250))for(;!z.out_grouping(y,97,250);){if(z.cursor>=z.limit)return!1;z.cursor++}return g=z.cursor,!0}function o(){var e,r,s=z.cursor;if(z.in_grouping(y,97,250))if(e=z.cursor,n()){if(z.cursor=e,i())return}else g=z.cursor;if(z.cursor=s,z.out_grouping(y,97,250)){if(r=z.cursor,n()){if(z.cursor=r,!z.in_grouping(y,97,250)||z.cursor>=z.limit)return;z.cursor++}g=z.cursor}}function t(){for(;!z.in_grouping(y,97,250);){if(z.cursor>=z.limit)return!1;z.cursor++}for(;!z.out_grouping(y,97,250);){if(z.cursor>=z.limit)return!1;z.cursor++}return!0}function a(){var e=z.cursor;g=z.limit,b=g,h=g,o(),z.cursor=e,t()&&(b=z.cursor,t()&&(h=z.cursor))}function u(){for(var e;;){if(z.bra=z.cursor,e=z.find_among(q,3))switch(z.ket=z.cursor,e){case 1:z.slice_from("ã");continue;case 2:z.slice_from("õ");continue;case 3:if(z.cursor>=z.limit)break;z.cursor++;continue}break}}function w(){return g<=z.cursor}function m(){return b<=z.cursor}function c(){return h<=z.cursor}function l(){var e;if(z.ket=z.cursor,!(e=z.find_among_b(F,45)))return!1;switch(z.bra=z.cursor,e){case 1:if(!c())return!1;z.slice_del();break;case 2:if(!c())return!1;z.slice_from("log");break;case 3:if(!c())return!1;z.slice_from("u");break;case 4:if(!c())return!1;z.slice_from("ente");break;case 5:if(!m())return!1;z.slice_del(),z.ket=z.cursor,e=z.find_among_b(j,4),e&&(z.bra=z.cursor,c()&&(z.slice_del(),1==e&&(z.ket=z.cursor,z.eq_s_b(2,"at")&&(z.bra=z.cursor,c()&&z.slice_del()))));break;case 6:if(!c())return!1;z.slice_del(),z.ket=z.cursor,e=z.find_among_b(C,3),e&&(z.bra=z.cursor,1==e&&c()&&z.slice_del());break;case 7:if(!c())return!1;z.slice_del(),z.ket=z.cursor,e=z.find_among_b(P,3),e&&(z.bra=z.cursor,1==e&&c()&&z.slice_del());break;case 8:if(!c())return!1;z.slice_del(),z.ket=z.cursor,z.eq_s_b(2,"at")&&(z.bra=z.cursor,c()&&z.slice_del());break;case 9:if(!w()||!z.eq_s_b(1,"e"))return!1;z.slice_from("ir")}return!0}function f(){var e,r;if(z.cursor>=g){if(r=z.limit_backward,z.limit_backward=g,z.ket=z.cursor,e=z.find_among_b(S,120))return z.bra=z.cursor,1==e&&z.slice_del(),z.limit_backward=r,!0;z.limit_backward=r}return!1}function d(){var e;z.ket=z.cursor,(e=z.find_among_b(W,7))&&(z.bra=z.cursor,1==e&&w()&&z.slice_del())}function v(e,r){if(z.eq_s_b(1,e)){z.bra=z.cursor;var s=z.limit-z.cursor;if(z.eq_s_b(1,r))return z.cursor=z.limit-s,w()&&z.slice_del(),!1}return!0}function p(){var e;if(z.ket=z.cursor,e=z.find_among_b(L,4))switch(z.bra=z.cursor,e){case 1:w()&&(z.slice_del(),z.ket=z.cursor,z.limit-z.cursor,v("u","g")&&v("i","c"));break;case 2:z.slice_from("c")}}function _(){if(!l()&&(z.cursor=z.limit,!f()))return z.cursor=z.limit,void d();z.cursor=z.limit,z.ket=z.cursor,z.eq_s_b(1,"i")&&(z.bra=z.cursor,z.eq_s_b(1,"c")&&(z.cursor=z.limit,w()&&z.slice_del()))}var h,b,g,k=[new r("",-1,3),new r("ã",0,1),new r("õ",0,2)],q=[new r("",-1,3),new r("a~",0,1),new r("o~",0,2)],j=[new r("ic",-1,-1),new r("ad",-1,-1),new r("os",-1,-1),new r("iv",-1,1)],C=[new r("ante",-1,1),new r("avel",-1,1),new r("ível",-1,1)],P=[new r("ic",-1,1),new r("abil",-1,1),new r("iv",-1,1)],F=[new r("ica",-1,1),new r("ância",-1,1),new r("ência",-1,4),new r("ira",-1,9),new r("adora",-1,1),new r("osa",-1,1),new r("ista",-1,1),new r("iva",-1,8),new r("eza",-1,1),new r("logía",-1,2),new r("idade",-1,7),new r("ante",-1,1),new r("mente",-1,6),new r("amente",12,5),new r("ável",-1,1),new r("ível",-1,1),new r("ución",-1,3),new r("ico",-1,1),new r("ismo",-1,1),new r("oso",-1,1),new r("amento",-1,1),new r("imento",-1,1),new r("ivo",-1,8),new r("aça~o",-1,1),new r("ador",-1,1),new r("icas",-1,1),new r("ências",-1,4),new r("iras",-1,9),new r("adoras",-1,1),new r("osas",-1,1),new r("istas",-1,1),new r("ivas",-1,8),new r("ezas",-1,1),new r("logías",-1,2),new r("idades",-1,7),new r("uciones",-1,3),new r("adores",-1,1),new r("antes",-1,1),new r("aço~es",-1,1),new r("icos",-1,1),new r("ismos",-1,1),new r("osos",-1,1),new r("amentos",-1,1),new r("imentos",-1,1),new r("ivos",-1,8)],S=[new r("ada",-1,1),new r("ida",-1,1),new r("ia",-1,1),new r("aria",2,1),new r("eria",2,1),new r("iria",2,1),new r("ara",-1,1),new r("era",-1,1),new r("ira",-1,1),new r("ava",-1,1),new r("asse",-1,1),new r("esse",-1,1),new r("isse",-1,1),new r("aste",-1,1),new r("este",-1,1),new r("iste",-1,1),new r("ei",-1,1),new r("arei",16,1),new r("erei",16,1),new r("irei",16,1),new r("am",-1,1),new r("iam",20,1),new r("ariam",21,1),new r("eriam",21,1),new r("iriam",21,1),new r("aram",20,1),new r("eram",20,1),new r("iram",20,1),new r("avam",20,1),new r("em",-1,1),new r("arem",29,1),new r("erem",29,1),new r("irem",29,1),new r("assem",29,1),new r("essem",29,1),new r("issem",29,1),new r("ado",-1,1),new r("ido",-1,1),new r("ando",-1,1),new r("endo",-1,1),new r("indo",-1,1),new r("ara~o",-1,1),new r("era~o",-1,1),new r("ira~o",-1,1),new r("ar",-1,1),new r("er",-1,1),new r("ir",-1,1),new r("as",-1,1),new r("adas",47,1),new r("idas",47,1),new r("ias",47,1),new r("arias",50,1),new r("erias",50,1),new r("irias",50,1),new r("aras",47,1),new r("eras",47,1),new r("iras",47,1),new r("avas",47,1),new r("es",-1,1),new r("ardes",58,1),new r("erdes",58,1),new r("irdes",58,1),new r("ares",58,1),new r("eres",58,1),new r("ires",58,1),new r("asses",58,1),new r("esses",58,1),new r("isses",58,1),new r("astes",58,1),new r("estes",58,1),new r("istes",58,1),new r("is",-1,1),new r("ais",71,1),new r("eis",71,1),new r("areis",73,1),new r("ereis",73,1),new r("ireis",73,1),new r("áreis",73,1),new r("éreis",73,1),new r("íreis",73,1),new r("ásseis",73,1),new r("ésseis",73,1),new r("ísseis",73,1),new r("áveis",73,1),new r("íeis",73,1),new r("aríeis",84,1),new r("eríeis",84,1),new r("iríeis",84,1),new r("ados",-1,1),new r("idos",-1,1),new r("amos",-1,1),new r("áramos",90,1),new r("éramos",90,1),new r("íramos",90,1),new r("ávamos",90,1),new r("íamos",90,1),new r("aríamos",95,1),new r("eríamos",95,1),new r("iríamos",95,1),new r("emos",-1,1),new r("aremos",99,1),new r("eremos",99,1),new r("iremos",99,1),new r("ássemos",99,1),new r("êssemos",99,1),new r("íssemos",99,1),new r("imos",-1,1),new r("armos",-1,1),new r("ermos",-1,1),new r("irmos",-1,1),new r("ámos",-1,1),new r("arás",-1,1),new r("erás",-1,1),new r("irás",-1,1),new r("eu",-1,1),new r("iu",-1,1),new r("ou",-1,1),new r("ará",-1,1),new r("erá",-1,1),new r("irá",-1,1)],W=[new r("a",-1,1),new r("i",-1,1),new r("o",-1,1),new r("os",-1,1),new r("á",-1,1),new r("í",-1,1),new r("ó",-1,1)],L=[new r("e",-1,1),new r("ç",-1,2),new r("é",-1,1),new r("ê",-1,1)],y=[17,65,16,0,0,0,0,0,0,0,0,0,0,0,0,0,3,19,12,2],z=new s;this.setCurrent=function(e){z.setCurrent(e)},this.getCurrent=function(){return z.getCurrent()},this.stem=function(){var r=z.cursor;return e(),z.cursor=r,a(),z.limit_backward=r,z.cursor=z.limit,_(),z.cursor=z.limit,p(),z.cursor=z.limit_backward,u(),!0}};return function(e){return"function"==typeof e.update?e.update(function(e){return n.setCurrent(e),n.stem(),n.getCurrent()}):(n.setCurrent(e),n.stem(),n.getCurrent())}}(),e.Pipeline.registerFunction(e.pt.stemmer,"stemmer-pt"),e.pt.stopWordFilter=e.generateStopWordFilter("a ao aos aquela aquelas aquele aqueles aquilo as até com como da das de dela delas dele deles depois do dos e ela elas ele eles em entre era eram essa essas esse esses esta estamos estas estava estavam este esteja estejam estejamos estes esteve estive estivemos estiver estivera estiveram estiverem estivermos estivesse estivessem estivéramos estivéssemos estou está estávamos estão eu foi fomos for fora foram forem formos fosse fossem fui fôramos fôssemos haja hajam hajamos havemos hei houve houvemos houver houvera houveram houverei houverem houveremos houveria houveriam houvermos houverá houverão houveríamos houvesse houvessem houvéramos houvéssemos há hão isso isto já lhe lhes mais mas me mesmo meu meus minha minhas muito na nas nem no nos nossa nossas nosso nossos num numa não nós o os ou para pela pelas pelo pelos por qual quando que quem se seja sejam sejamos sem serei seremos seria seriam será serão seríamos seu seus somos sou sua suas são só também te tem temos tenha tenham tenhamos tenho terei teremos teria teriam terá terão teríamos teu teus teve tinha tinham tive tivemos tiver tivera tiveram tiverem tivermos tivesse tivessem tivéramos tivéssemos tu tua tuas tém tínhamos um uma você vocês vos à às éramos".split(" ")),e.Pipeline.registerFunction(e.pt.stopWordFilter,"stopWordFilter-pt")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.ro.min.js b/assets/javascripts/lunr/min/lunr.ro.min.js
new file mode 100644
index 000000000..727714018
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.ro.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `Romanian` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(e,i){"function"==typeof define&&define.amd?define(i):"object"==typeof exports?module.exports=i():i()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.ro=function(){this.pipeline.reset(),this.pipeline.add(e.ro.trimmer,e.ro.stopWordFilter,e.ro.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.ro.stemmer))},e.ro.wordCharacters="A-Za-zªºÀ-ÖØ-öø-ʸˠ-ˤᴀ-ᴥᴬ-ᵜᵢ-ᵥᵫ-ᵷᵹ-ᶾḀ-ỿⁱⁿₐ-ₜKÅℲⅎⅠ-ↈⱠ-ⱿꜢ-ꞇꞋ-ꞭꞰ-ꞷꟷ-ꟿꬰ-ꭚꭜ-ꭤﬀ-ﬆＡ-Ｚａ-ｚ",e.ro.trimmer=e.trimmerSupport.generateTrimmer(e.ro.wordCharacters),e.Pipeline.registerFunction(e.ro.trimmer,"trimmer-ro"),e.ro.stemmer=function(){var i=e.stemmerSupport.Among,r=e.stemmerSupport.SnowballProgram,n=new function(){function e(e,i){L.eq_s(1,e)&&(L.ket=L.cursor,L.in_grouping(W,97,259)&&L.slice_from(i))}function n(){for(var i,r;;){if(i=L.cursor,L.in_grouping(W,97,259)&&(r=L.cursor,L.bra=r,e("u","U"),L.cursor=r,e("i","I")),L.cursor=i,L.cursor>=L.limit)break;L.cursor++}}function t(){if(L.out_grouping(W,97,259)){for(;!L.in_grouping(W,97,259);){if(L.cursor>=L.limit)return!0;L.cursor++}return!1}return!0}function a(){if(L.in_grouping(W,97,259))for(;!L.out_grouping(W,97,259);){if(L.cursor>=L.limit)return!0;L.cursor++}return!1}function o(){var e,i,r=L.cursor;if(L.in_grouping(W,97,259)){if(e=L.cursor,!t())return void(h=L.cursor);if(L.cursor=e,!a())return void(h=L.cursor)}L.cursor=r,L.out_grouping(W,97,259)&&(i=L.cursor,t()&&(L.cursor=i,L.in_grouping(W,97,259)&&L.cursor<L.limit&&L.cursor++),h=L.cursor)}function u(){for(;!L.in_grouping(W,97,259);){if(L.cursor>=L.limit)return!1;L.cursor++}for(;!L.out_grouping(W,97,259);){if(L.cursor>=L.limit)return!1;L.cursor++}return!0}function c(){var e=L.cursor;h=L.limit,k=h,g=h,o(),L.cursor=e,u()&&(k=L.cursor,u()&&(g=L.cursor))}function s(){for(var e;;){if(L.bra=L.cursor,e=L.find_among(z,3))switch(L.ket=L.cursor,e){case 1:L.slice_from("i");continue;case 2:L.slice_from("u");continue;case 3:if(L.cursor>=L.limit)break;L.cursor++;continue}break}}function w(){return h<=L.cursor}function m(){return k<=L.cursor}function l(){return g<=L.cursor}function f(){var e,i;if(L.ket=L.cursor,(e=L.find_among_b(C,16))&&(L.bra=L.cursor,m()))switch(e){case 1:L.slice_del();break;case 2:L.slice_from("a");break;case 3:L.slice_from("e");break;case 4:L.slice_from("i");break;case 5:i=L.limit-L.cursor,L.eq_s_b(2,"ab")||(L.cursor=L.limit-i,L.slice_from("i"));break;case 6:L.slice_from("at");break;case 7:L.slice_from("aţi")}}function p(){var e,i=L.limit-L.cursor;if(L.ket=L.cursor,(e=L.find_among_b(P,46))&&(L.bra=L.cursor,m())){switch(e){case 1:L.slice_from("abil");break;case 2:L.slice_from("ibil");break;case 3:L.slice_from("iv");break;case 4:L.slice_from("ic");break;case 5:L.slice_from("at");break;case 6:L.slice_from("it")}return _=!0,L.cursor=L.limit-i,!0}return!1}function d(){var e,i;for(_=!1;;)if(i=L.limit-L.cursor,!p()){L.cursor=L.limit-i;break}if(L.ket=L.cursor,(e=L.find_among_b(F,62))&&(L.bra=L.cursor,l())){switch(e){case 1:L.slice_del();break;case 2:L.eq_s_b(1,"ţ")&&(L.bra=L.cursor,L.slice_from("t"));break;case 3:L.slice_from("ist")}_=!0}}function b(){var e,i,r;if(L.cursor>=h){if(i=L.limit_backward,L.limit_backward=h,L.ket=L.cursor,e=L.find_among_b(q,94))switch(L.bra=L.cursor,e){case 1:if(r=L.limit-L.cursor,!L.out_grouping_b(W,97,259)&&(L.cursor=L.limit-r,!L.eq_s_b(1,"u")))break;case 2:L.slice_del()}L.limit_backward=i}}function v(){var e;L.ket=L.cursor,(e=L.find_among_b(S,5))&&(L.bra=L.cursor,w()&&1==e&&L.slice_del())}var _,g,k,h,z=[new i("",-1,3),new i("I",0,1),new i("U",0,2)],C=[new i("ea",-1,3),new i("aţia",-1,7),new i("aua",-1,2),new i("iua",-1,4),new i("aţie",-1,7),new i("ele",-1,3),new i("ile",-1,5),new i("iile",6,4),new i("iei",-1,4),new i("atei",-1,6),new i("ii",-1,4),new i("ului",-1,1),new i("ul",-1,1),new i("elor",-1,3),new i("ilor",-1,4),new i("iilor",14,4)],P=[new i("icala",-1,4),new i("iciva",-1,4),new i("ativa",-1,5),new i("itiva",-1,6),new i("icale",-1,4),new i("aţiune",-1,5),new i("iţiune",-1,6),new i("atoare",-1,5),new i("itoare",-1,6),new i("ătoare",-1,5),new i("icitate",-1,4),new i("abilitate",-1,1),new i("ibilitate",-1,2),new i("ivitate",-1,3),new i("icive",-1,4),new i("ative",-1,5),new i("itive",-1,6),new i("icali",-1,4),new i("atori",-1,5),new i("icatori",18,4),new i("itori",-1,6),new i("ători",-1,5),new i("icitati",-1,4),new i("abilitati",-1,1),new i("ivitati",-1,3),new i("icivi",-1,4),new i("ativi",-1,5),new i("itivi",-1,6),new i("icităi",-1,4),new i("abilităi",-1,1),new i("ivităi",-1,3),new i("icităţi",-1,4),new i("abilităţi",-1,1),new i("ivităţi",-1,3),new i("ical",-1,4),new i("ator",-1,5),new i("icator",35,4),new i("itor",-1,6),new i("ător",-1,5),new i("iciv",-1,4),new i("ativ",-1,5),new i("itiv",-1,6),new i("icală",-1,4),new i("icivă",-1,4),new i("ativă",-1,5),new i("itivă",-1,6)],F=[new i("ica",-1,1),new i("abila",-1,1),new i("ibila",-1,1),new i("oasa",-1,1),new i("ata",-1,1),new i("ita",-1,1),new i("anta",-1,1),new i("ista",-1,3),new i("uta",-1,1),new i("iva",-1,1),new i("ic",-1,1),new i("ice",-1,1),new i("abile",-1,1),new i("ibile",-1,1),new i("isme",-1,3),new i("iune",-1,2),new i("oase",-1,1),new i("ate",-1,1),new i("itate",17,1),new i("ite",-1,1),new i("ante",-1,1),new i("iste",-1,3),new i("ute",-1,1),new i("ive",-1,1),new i("ici",-1,1),new i("abili",-1,1),new i("ibili",-1,1),new i("iuni",-1,2),new i("atori",-1,1),new i("osi",-1,1),new i("ati",-1,1),new i("itati",30,1),new i("iti",-1,1),new i("anti",-1,1),new i("isti",-1,3),new i("uti",-1,1),new i("işti",-1,3),new i("ivi",-1,1),new i("ităi",-1,1),new i("oşi",-1,1),new i("ităţi",-1,1),new i("abil",-1,1),new i("ibil",-1,1),new i("ism",-1,3),new i("ator",-1,1),new i("os",-1,1),new i("at",-1,1),new i("it",-1,1),new i("ant",-1,1),new i("ist",-1,3),new i("ut",-1,1),new i("iv",-1,1),new i("ică",-1,1),new i("abilă",-1,1),new i("ibilă",-1,1),new i("oasă",-1,1),new i("ată",-1,1),new i("ită",-1,1),new i("antă",-1,1),new i("istă",-1,3),new i("ută",-1,1),new i("ivă",-1,1)],q=[new i("ea",-1,1),new i("ia",-1,1),new i("esc",-1,1),new i("ăsc",-1,1),new i("ind",-1,1),new i("ând",-1,1),new i("are",-1,1),new i("ere",-1,1),new i("ire",-1,1),new i("âre",-1,1),new i("se",-1,2),new i("ase",10,1),new i("sese",10,2),new i("ise",10,1),new i("use",10,1),new i("âse",10,1),new i("eşte",-1,1),new i("ăşte",-1,1),new i("eze",-1,1),new i("ai",-1,1),new i("eai",19,1),new i("iai",19,1),new i("sei",-1,2),new i("eşti",-1,1),new i("ăşti",-1,1),new i("ui",-1,1),new i("ezi",-1,1),new i("âi",-1,1),new i("aşi",-1,1),new i("seşi",-1,2),new i("aseşi",29,1),new i("seseşi",29,2),new i("iseşi",29,1),new i("useşi",29,1),new i("âseşi",29,1),new i("işi",-1,1),new i("uşi",-1,1),new i("âşi",-1,1),new i("aţi",-1,2),new i("eaţi",38,1),new i("iaţi",38,1),new i("eţi",-1,2),new i("iţi",-1,2),new i("âţi",-1,2),new i("arăţi",-1,1),new i("serăţi",-1,2),new i("aserăţi",45,1),new i("seserăţi",45,2),new i("iserăţi",45,1),new i("userăţi",45,1),new i("âserăţi",45,1),new i("irăţi",-1,1),new i("urăţi",-1,1),new i("ârăţi",-1,1),new i("am",-1,1),new i("eam",54,1),new i("iam",54,1),new i("em",-1,2),new i("asem",57,1),new i("sesem",57,2),new i("isem",57,1),new i("usem",57,1),new i("âsem",57,1),new i("im",-1,2),new i("âm",-1,2),new i("ăm",-1,2),new i("arăm",65,1),new i("serăm",65,2),new i("aserăm",67,1),new i("seserăm",67,2),new i("iserăm",67,1),new i("userăm",67,1),new i("âserăm",67,1),new i("irăm",65,1),new i("urăm",65,1),new i("ârăm",65,1),new i("au",-1,1),new i("eau",76,1),new i("iau",76,1),new i("indu",-1,1),new i("ându",-1,1),new i("ez",-1,1),new i("ească",-1,1),new i("ară",-1,1),new i("seră",-1,2),new i("aseră",84,1),new i("seseră",84,2),new i("iseră",84,1),new i("useră",84,1),new i("âseră",84,1),new i("iră",-1,1),new i("ură",-1,1),new i("âră",-1,1),new i("ează",-1,1)],S=[new i("a",-1,1),new i("e",-1,1),new i("ie",1,1),new i("i",-1,1),new i("ă",-1,1)],W=[17,65,16,0,0,0,0,0,0,0,0,0,0,0,0,0,2,32,0,0,4],L=new r;this.setCurrent=function(e){L.setCurrent(e)},this.getCurrent=function(){return L.getCurrent()},this.stem=function(){var e=L.cursor;return n(),L.cursor=e,c(),L.limit_backward=e,L.cursor=L.limit,f(),L.cursor=L.limit,d(),L.cursor=L.limit,_||(L.cursor=L.limit,b(),L.cursor=L.limit),v(),L.cursor=L.limit_backward,s(),!0}};return function(e){return"function"==typeof e.update?e.update(function(e){return n.setCurrent(e),n.stem(),n.getCurrent()}):(n.setCurrent(e),n.stem(),n.getCurrent())}}(),e.Pipeline.registerFunction(e.ro.stemmer,"stemmer-ro"),e.ro.stopWordFilter=e.generateStopWordFilter("acea aceasta această aceea acei aceia acel acela acele acelea acest acesta aceste acestea aceşti aceştia acolo acord acum ai aia aibă aici al ale alea altceva altcineva am ar are asemenea asta astea astăzi asupra au avea avem aveţi azi aş aşadar aţi bine bucur bună ca care caut ce cel ceva chiar cinci cine cineva contra cu cum cumva curând curînd când cât câte câtva câţi cînd cît cîte cîtva cîţi că căci cărei căror cărui către da dacă dar datorită dată dau de deci deja deoarece departe deşi din dinaintea dintr- dintre doi doilea două drept după dă ea ei el ele eram este eu eşti face fata fi fie fiecare fii fim fiu fiţi frumos fără graţie halbă iar ieri la le li lor lui lângă lîngă mai mea mei mele mereu meu mi mie mine mult multă mulţi mulţumesc mâine mîine mă ne nevoie nici nicăieri nimeni nimeri nimic nişte noastre noastră noi noroc nostru nouă noştri nu opt ori oricare orice oricine oricum oricând oricât oricînd oricît oriunde patra patru patrulea pe pentru peste pic poate pot prea prima primul prin puţin puţina puţină până pînă rog sa sale sau se spate spre sub sunt suntem sunteţi sută sînt sîntem sînteţi să săi său ta tale te timp tine toate toată tot totuşi toţi trei treia treilea tu tăi tău un una unde undeva unei uneia unele uneori unii unor unora unu unui unuia unul vi voastre voastră voi vostru vouă voştri vreme vreo vreun vă zece zero zi zice îi îl îmi împotriva în  înainte înaintea încotro încât încît între întrucât întrucît îţi ăla ălea ăsta ăstea ăştia şapte şase şi ştiu ţi ţie".split(" ")),e.Pipeline.registerFunction(e.ro.stopWordFilter,"stopWordFilter-ro")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.ru.min.js b/assets/javascripts/lunr/min/lunr.ru.min.js
new file mode 100644
index 000000000..186cc485c
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.ru.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `Russian` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(e,n){"function"==typeof define&&define.amd?define(n):"object"==typeof exports?module.exports=n():n()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.ru=function(){this.pipeline.reset(),this.pipeline.add(e.ru.trimmer,e.ru.stopWordFilter,e.ru.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.ru.stemmer))},e.ru.wordCharacters="Ѐ-҄҇-ԯᴫᵸⷠ-ⷿꙀ-ꚟ︮︯",e.ru.trimmer=e.trimmerSupport.generateTrimmer(e.ru.wordCharacters),e.Pipeline.registerFunction(e.ru.trimmer,"trimmer-ru"),e.ru.stemmer=function(){var n=e.stemmerSupport.Among,r=e.stemmerSupport.SnowballProgram,t=new function(){function e(){for(;!W.in_grouping(S,1072,1103);){if(W.cursor>=W.limit)return!1;W.cursor++}return!0}function t(){for(;!W.out_grouping(S,1072,1103);){if(W.cursor>=W.limit)return!1;W.cursor++}return!0}function w(){b=W.limit,_=b,e()&&(b=W.cursor,t()&&e()&&t()&&(_=W.cursor))}function i(){return _<=W.cursor}function u(e,n){var r,t;if(W.ket=W.cursor,r=W.find_among_b(e,n)){switch(W.bra=W.cursor,r){case 1:if(t=W.limit-W.cursor,!W.eq_s_b(1,"а")&&(W.cursor=W.limit-t,!W.eq_s_b(1,"я")))return!1;case 2:W.slice_del()}return!0}return!1}function o(){return u(h,9)}function s(e,n){var r;return W.ket=W.cursor,!!(r=W.find_among_b(e,n))&&(W.bra=W.cursor,1==r&&W.slice_del(),!0)}function c(){return s(g,26)}function m(){return!!c()&&(u(C,8),!0)}function f(){return s(k,2)}function l(){return u(P,46)}function a(){s(v,36)}function p(){var e;W.ket=W.cursor,(e=W.find_among_b(F,2))&&(W.bra=W.cursor,i()&&1==e&&W.slice_del())}function d(){var e;if(W.ket=W.cursor,e=W.find_among_b(q,4))switch(W.bra=W.cursor,e){case 1:if(W.slice_del(),W.ket=W.cursor,!W.eq_s_b(1,"н"))break;W.bra=W.cursor;case 2:if(!W.eq_s_b(1,"н"))break;case 3:W.slice_del()}}var _,b,h=[new n("в",-1,1),new n("ив",0,2),new n("ыв",0,2),new n("вши",-1,1),new n("ивши",3,2),new n("ывши",3,2),new n("вшись",-1,1),new n("ившись",6,2),new n("ывшись",6,2)],g=[new n("ее",-1,1),new n("ие",-1,1),new n("ое",-1,1),new n("ые",-1,1),new n("ими",-1,1),new n("ыми",-1,1),new n("ей",-1,1),new n("ий",-1,1),new n("ой",-1,1),new n("ый",-1,1),new n("ем",-1,1),new n("им",-1,1),new n("ом",-1,1),new n("ым",-1,1),new n("его",-1,1),new n("ого",-1,1),new n("ему",-1,1),new n("ому",-1,1),new n("их",-1,1),new n("ых",-1,1),new n("ею",-1,1),new n("ою",-1,1),new n("ую",-1,1),new n("юю",-1,1),new n("ая",-1,1),new n("яя",-1,1)],C=[new n("ем",-1,1),new n("нн",-1,1),new n("вш",-1,1),new n("ивш",2,2),new n("ывш",2,2),new n("щ",-1,1),new n("ющ",5,1),new n("ующ",6,2)],k=[new n("сь",-1,1),new n("ся",-1,1)],P=[new n("ла",-1,1),new n("ила",0,2),new n("ыла",0,2),new n("на",-1,1),new n("ена",3,2),new n("ете",-1,1),new n("ите",-1,2),new n("йте",-1,1),new n("ейте",7,2),new n("уйте",7,2),new n("ли",-1,1),new n("или",10,2),new n("ыли",10,2),new n("й",-1,1),new n("ей",13,2),new n("уй",13,2),new n("л",-1,1),new n("ил",16,2),new n("ыл",16,2),new n("ем",-1,1),new n("им",-1,2),new n("ым",-1,2),new n("н",-1,1),new n("ен",22,2),new n("ло",-1,1),new n("ило",24,2),new n("ыло",24,2),new n("но",-1,1),new n("ено",27,2),new n("нно",27,1),new n("ет",-1,1),new n("ует",30,2),new n("ит",-1,2),new n("ыт",-1,2),new n("ют",-1,1),new n("уют",34,2),new n("ят",-1,2),new n("ны",-1,1),new n("ены",37,2),new n("ть",-1,1),new n("ить",39,2),new n("ыть",39,2),new n("ешь",-1,1),new n("ишь",-1,2),new n("ю",-1,2),new n("ую",44,2)],v=[new n("а",-1,1),new n("ев",-1,1),new n("ов",-1,1),new n("е",-1,1),new n("ие",3,1),new n("ье",3,1),new n("и",-1,1),new n("еи",6,1),new n("ии",6,1),new n("ами",6,1),new n("ями",6,1),new n("иями",10,1),new n("й",-1,1),new n("ей",12,1),new n("ией",13,1),new n("ий",12,1),new n("ой",12,1),new n("ам",-1,1),new n("ем",-1,1),new n("ием",18,1),new n("ом",-1,1),new n("ям",-1,1),new n("иям",21,1),new n("о",-1,1),new n("у",-1,1),new n("ах",-1,1),new n("ях",-1,1),new n("иях",26,1),new n("ы",-1,1),new n("ь",-1,1),new n("ю",-1,1),new n("ию",30,1),new n("ью",30,1),new n("я",-1,1),new n("ия",33,1),new n("ья",33,1)],F=[new n("ост",-1,1),new n("ость",-1,1)],q=[new n("ейше",-1,1),new n("н",-1,2),new n("ейш",-1,1),new n("ь",-1,3)],S=[33,65,8,232],W=new r;this.setCurrent=function(e){W.setCurrent(e)},this.getCurrent=function(){return W.getCurrent()},this.stem=function(){return w(),W.cursor=W.limit,!(W.cursor<b)&&(W.limit_backward=b,o()||(W.cursor=W.limit,f()||(W.cursor=W.limit),m()||(W.cursor=W.limit,l()||(W.cursor=W.limit,a()))),W.cursor=W.limit,W.ket=W.cursor,W.eq_s_b(1,"и")?(W.bra=W.cursor,W.slice_del()):W.cursor=W.limit,p(),W.cursor=W.limit,d(),!0)}};return function(e){return"function"==typeof e.update?e.update(function(e){return t.setCurrent(e),t.stem(),t.getCurrent()}):(t.setCurrent(e),t.stem(),t.getCurrent())}}(),e.Pipeline.registerFunction(e.ru.stemmer,"stemmer-ru"),e.ru.stopWordFilter=e.generateStopWordFilter("алло без близко более больше будем будет будете будешь будто буду будут будь бы бывает бывь был была были было быть в важная важное важные важный вам вами вас ваш ваша ваше ваши вверх вдали вдруг ведь везде весь вниз внизу во вокруг вон восемнадцатый восемнадцать восемь восьмой вот впрочем времени время все всегда всего всем всеми всему всех всею всю всюду вся всё второй вы г где говорил говорит год года году да давно даже далеко дальше даром два двадцатый двадцать две двенадцатый двенадцать двух девятнадцатый девятнадцать девятый девять действительно дел день десятый десять для до довольно долго должно другая другие других друго другое другой е его ее ей ему если есть еще ещё ею её ж же жизнь за занят занята занято заняты затем зато зачем здесь значит и из или им именно иметь ими имя иногда их к каждая каждое каждые каждый кажется как какая какой кем когда кого ком кому конечно которая которого которой которые который которых кроме кругом кто куда лет ли лишь лучше люди м мало между меля менее меньше меня миллионов мимо мира мне много многочисленная многочисленное многочисленные многочисленный мной мною мог могут мож может можно можхо мои мой мор мочь моя моё мы на наверху над надо назад наиболее наконец нам нами нас начала наш наша наше наши не него недавно недалеко нее ней нельзя нем немного нему непрерывно нередко несколько нет нею неё ни нибудь ниже низко никогда никуда ними них ничего но ну нужно нх о об оба обычно один одиннадцатый одиннадцать однажды однако одного одной около он она они оно опять особенно от отовсюду отсюда очень первый перед по под пожалуйста позже пока пор пора после посреди потом потому почему почти прекрасно при про просто против процентов пятнадцатый пятнадцать пятый пять раз разве рано раньше рядом с сам сама сами самим самими самих само самого самой самом самому саму свое своего своей свои своих свою сеаой себе себя сегодня седьмой сейчас семнадцатый семнадцать семь сих сказал сказала сказать сколько слишком сначала снова со собой собою совсем спасибо стал суть т та так такая также такие такое такой там твой твоя твоё те тебе тебя тем теми теперь тех то тобой тобою тогда того тоже только том тому тот тою третий три тринадцатый тринадцать ту туда тут ты тысяч у уж уже уметь хорошо хотеть хоть хотя хочешь часто чаще чего человек чем чему через четвертый четыре четырнадцатый четырнадцать что чтоб чтобы чуть шестнадцатый шестнадцать шестой шесть эта эти этим этими этих это этого этой этом этому этот эту я \ufeffа".split(" ")),e.Pipeline.registerFunction(e.ru.stopWordFilter,"stopWordFilter-ru")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.sa.min.js b/assets/javascripts/lunr/min/lunr.sa.min.js
new file mode 100644
index 000000000..50ee56420
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.sa.min.js
@@ -0,0 +1 @@
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.sa=function(){this.pipeline.reset(),this.pipeline.add(e.sa.trimmer,e.sa.stopWordFilter,e.sa.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.sa.stemmer))},e.sa.wordCharacters="ऀ-ःऄ-एऐ-टठ-यर-िी-ॏॐ-य़ॠ-९॰-ॿ꣠-꣱ꣲ-ꣷ꣸-ꣻ꣼-ꣽꣾ-ꣿᆰ0-ᆰ9",e.sa.trimmer=e.trimmerSupport.generateTrimmer(e.sa.wordCharacters),e.Pipeline.registerFunction(e.sa.trimmer,"trimmer-sa"),e.sa.stopWordFilter=e.generateStopWordFilter('तथा अयम्‌ एकम्‌ इत्यस्मिन्‌ तथा तत्‌ वा अयम्‌ इत्यस्य ते आहूत उपरि तेषाम्‌  किन्तु तेषाम्‌ तदा इत्यनेन अधिकः इत्यस्य तत्‌ केचन बहवः द्वि तथा महत्वपूर्णः अयम्‌ अस्य  विषये अयं अस्ति तत्‌ प्रथमः विषये इत्युपरि इत्युपरि इतर अधिकतमः अधिकः अपि सामान्यतया ठ इतरेतर नूतनम्‌ द  न्यूनम्‌ कश्चित्‌ वा विशालः द  सः अस्ति तदनुसारम् तत्र अस्ति केवलम्‌ अपि अत्र सर्वे विविधाः तत्‌ बहवः यतः इदानीम्‌ द  दक्षिण इत्यस्मै तस्य उपरि नथ अतीव कार्यम्‌ सर्वे एकैकम्‌ इत्यादि। एते सन्ति  उत इत्थम्‌ मध्ये एतदर्थं . स कस्य प्रथमः श्री. करोति अस्मिन् प्रकारः निर्मिता कालः तत्र कर्तुं  समान अधुना ते सन्ति स एकः अस्ति सः अर्थात् तेषां कृते . स्थितम्  विशेषः अग्रिम तेषाम्‌ समान स्रोतः ख म समान इदानीमपि अधिकतया करोतु ते समान इत्यस्य वीथी सह यस्मिन्  कृतवान्‌ धृतः तदा पुनः पूर्वं सः आगतः किम्‌ कुल इतर पुरा  मात्रा स विषये उ अतएव अपि नगरस्य  उपरि यतः प्रतिशतं  कतरः कालः साधनानि भूत तथापि जात सम्बन्धि अन्यत्‌ ग अतः अस्माकं स्वकीयाः अस्माकं इदानीं अन्तः इत्यादयः भवन्तः इत्यादयः एते एताः तस्य अस्य इदम् एते तेषां तेषां तेषां तान् तेषां तेषां तेषां समानः सः एकः च तादृशाः बहवः अन्ये च वदन्ति यत् कियत् कस्मै  कस्मै  यस्मै  यस्मै  यस्मै  यस्मै न अतिनीचः किन्तु प्रथमं सम्पूर्णतया  ततः चिरकालानन्तरं पुस्तकं सम्पूर्णतया अन्तः  किन्तु अत्र वा इह इव श्रद्धाय अवशिष्यते  परन्तु अन्ये वर्गाः सन्ति ते सन्ति शक्नुवन्ति सर्वे मिलित्वा सर्वे एकत्र"'.split(" ")),e.sa.stemmer=function(){return function(e){return"function"==typeof e.update?e.update(function(e){return e}):e}}();var r=e.wordcut;r.init(),e.sa.tokenizer=function(t){if(!arguments.length||null==t||void 0==t)return[];if(Array.isArray(t))return t.map(function(r){return isLunr2?new e.Token(r.toLowerCase()):r.toLowerCase()});var i=t.toString().toLowerCase().replace(/^\s+/,"");return r.cut(i).split("|")},e.Pipeline.registerFunction(e.sa.stemmer,"stemmer-sa"),e.Pipeline.registerFunction(e.sa.stopWordFilter,"stopWordFilter-sa")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.stemmer.support.min.js b/assets/javascripts/lunr/min/lunr.stemmer.support.min.js
new file mode 100644
index 000000000..abd4475bb
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.stemmer.support.min.js
@@ -0,0 +1 @@
+!function(r,t){"function"==typeof define&&define.amd?define(t):"object"==typeof exports?module.exports=t():t()(r.lunr)}(this,function(){return function(r){r.stemmerSupport={Among:function(r,t,i,s){if(this.toCharArray=function(r){for(var t=r.length,i=new Array(t),s=0;s<t;s++)i[s]=r.charCodeAt(s);return i},!r&&""!=r||!t&&0!=t||!i)throw"Bad Among initialisation: s:"+r+", substring_i: "+t+", result: "+i;this.s_size=r.length,this.s=this.toCharArray(r),this.substring_i=t,this.result=i,this.method=s},SnowballProgram:function(){var r;return{bra:0,ket:0,limit:0,cursor:0,limit_backward:0,setCurrent:function(t){r=t,this.cursor=0,this.limit=t.length,this.limit_backward=0,this.bra=this.cursor,this.ket=this.limit},getCurrent:function(){var t=r;return r=null,t},in_grouping:function(t,i,s){if(this.cursor<this.limit){var e=r.charCodeAt(this.cursor);if(e<=s&&e>=i&&(e-=i,t[e>>3]&1<<(7&e)))return this.cursor++,!0}return!1},in_grouping_b:function(t,i,s){if(this.cursor>this.limit_backward){var e=r.charCodeAt(this.cursor-1);if(e<=s&&e>=i&&(e-=i,t[e>>3]&1<<(7&e)))return this.cursor--,!0}return!1},out_grouping:function(t,i,s){if(this.cursor<this.limit){var e=r.charCodeAt(this.cursor);if(e>s||e<i)return this.cursor++,!0;if(e-=i,!(t[e>>3]&1<<(7&e)))return this.cursor++,!0}return!1},out_grouping_b:function(t,i,s){if(this.cursor>this.limit_backward){var e=r.charCodeAt(this.cursor-1);if(e>s||e<i)return this.cursor--,!0;if(e-=i,!(t[e>>3]&1<<(7&e)))return this.cursor--,!0}return!1},eq_s:function(t,i){if(this.limit-this.cursor<t)return!1;for(var s=0;s<t;s++)if(r.charCodeAt(this.cursor+s)!=i.charCodeAt(s))return!1;return this.cursor+=t,!0},eq_s_b:function(t,i){if(this.cursor-this.limit_backward<t)return!1;for(var s=0;s<t;s++)if(r.charCodeAt(this.cursor-t+s)!=i.charCodeAt(s))return!1;return this.cursor-=t,!0},find_among:function(t,i){for(var s=0,e=i,n=this.cursor,u=this.limit,o=0,h=0,c=!1;;){for(var a=s+(e-s>>1),f=0,l=o<h?o:h,_=t[a],m=l;m<_.s_size;m++){if(n+l==u){f=-1;break}if(f=r.charCodeAt(n+l)-_.s[m])break;l++}if(f<0?(e=a,h=l):(s=a,o=l),e-s<=1){if(s>0||e==s||c)break;c=!0}}for(;;){var _=t[s];if(o>=_.s_size){if(this.cursor=n+_.s_size,!_.method)return _.result;var b=_.method();if(this.cursor=n+_.s_size,b)return _.result}if((s=_.substring_i)<0)return 0}},find_among_b:function(t,i){for(var s=0,e=i,n=this.cursor,u=this.limit_backward,o=0,h=0,c=!1;;){for(var a=s+(e-s>>1),f=0,l=o<h?o:h,_=t[a],m=_.s_size-1-l;m>=0;m--){if(n-l==u){f=-1;break}if(f=r.charCodeAt(n-1-l)-_.s[m])break;l++}if(f<0?(e=a,h=l):(s=a,o=l),e-s<=1){if(s>0||e==s||c)break;c=!0}}for(;;){var _=t[s];if(o>=_.s_size){if(this.cursor=n-_.s_size,!_.method)return _.result;var b=_.method();if(this.cursor=n-_.s_size,b)return _.result}if((s=_.substring_i)<0)return 0}},replace_s:function(t,i,s){var e=s.length-(i-t),n=r.substring(0,t),u=r.substring(i);return r=n+s+u,this.limit+=e,this.cursor>=i?this.cursor+=e:this.cursor>t&&(this.cursor=t),e},slice_check:function(){if(this.bra<0||this.bra>this.ket||this.ket>this.limit||this.limit>r.length)throw"faulty slice operation"},slice_from:function(r){this.slice_check(),this.replace_s(this.bra,this.ket,r)},slice_del:function(){this.slice_from("")},insert:function(r,t,i){var s=this.replace_s(r,t,i);r<=this.bra&&(this.bra+=s),r<=this.ket&&(this.ket+=s)},slice_to:function(){return this.slice_check(),r.substring(this.bra,this.ket)},eq_v_b:function(r){return this.eq_s_b(r.length,r)}}}},r.trimmerSupport={generateTrimmer:function(r){var t=new RegExp("^[^"+r+"]+"),i=new RegExp("[^"+r+"]+$");return function(r){return"function"==typeof r.update?r.update(function(r){return r.replace(t,"").replace(i,"")}):r.replace(t,"").replace(i,"")}}}}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.sv.min.js b/assets/javascripts/lunr/min/lunr.sv.min.js
new file mode 100644
index 000000000..3e5eb6400
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.sv.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `Swedish` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.sv=function(){this.pipeline.reset(),this.pipeline.add(e.sv.trimmer,e.sv.stopWordFilter,e.sv.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.sv.stemmer))},e.sv.wordCharacters="A-Za-zªºÀ-ÖØ-öø-ʸˠ-ˤᴀ-ᴥᴬ-ᵜᵢ-ᵥᵫ-ᵷᵹ-ᶾḀ-ỿⁱⁿₐ-ₜKÅℲⅎⅠ-ↈⱠ-ⱿꜢ-ꞇꞋ-ꞭꞰ-ꞷꟷ-ꟿꬰ-ꭚꭜ-ꭤﬀ-ﬆＡ-Ｚａ-ｚ",e.sv.trimmer=e.trimmerSupport.generateTrimmer(e.sv.wordCharacters),e.Pipeline.registerFunction(e.sv.trimmer,"trimmer-sv"),e.sv.stemmer=function(){var r=e.stemmerSupport.Among,n=e.stemmerSupport.SnowballProgram,t=new function(){function e(){var e,r=w.cursor+3;if(o=w.limit,0<=r||r<=w.limit){for(a=r;;){if(e=w.cursor,w.in_grouping(l,97,246)){w.cursor=e;break}if(w.cursor=e,w.cursor>=w.limit)return;w.cursor++}for(;!w.out_grouping(l,97,246);){if(w.cursor>=w.limit)return;w.cursor++}o=w.cursor,o<a&&(o=a)}}function t(){var e,r=w.limit_backward;if(w.cursor>=o&&(w.limit_backward=o,w.cursor=w.limit,w.ket=w.cursor,e=w.find_among_b(u,37),w.limit_backward=r,e))switch(w.bra=w.cursor,e){case 1:w.slice_del();break;case 2:w.in_grouping_b(d,98,121)&&w.slice_del()}}function i(){var e=w.limit_backward;w.cursor>=o&&(w.limit_backward=o,w.cursor=w.limit,w.find_among_b(c,7)&&(w.cursor=w.limit,w.ket=w.cursor,w.cursor>w.limit_backward&&(w.bra=--w.cursor,w.slice_del())),w.limit_backward=e)}function s(){var e,r;if(w.cursor>=o){if(r=w.limit_backward,w.limit_backward=o,w.cursor=w.limit,w.ket=w.cursor,e=w.find_among_b(m,5))switch(w.bra=w.cursor,e){case 1:w.slice_del();break;case 2:w.slice_from("lös");break;case 3:w.slice_from("full")}w.limit_backward=r}}var a,o,u=[new r("a",-1,1),new r("arna",0,1),new r("erna",0,1),new r("heterna",2,1),new r("orna",0,1),new r("ad",-1,1),new r("e",-1,1),new r("ade",6,1),new r("ande",6,1),new r("arne",6,1),new r("are",6,1),new r("aste",6,1),new r("en",-1,1),new r("anden",12,1),new r("aren",12,1),new r("heten",12,1),new r("ern",-1,1),new r("ar",-1,1),new r("er",-1,1),new r("heter",18,1),new r("or",-1,1),new r("s",-1,2),new r("as",21,1),new r("arnas",22,1),new r("ernas",22,1),new r("ornas",22,1),new r("es",21,1),new r("ades",26,1),new r("andes",26,1),new r("ens",21,1),new r("arens",29,1),new r("hetens",29,1),new r("erns",21,1),new r("at",-1,1),new r("andet",-1,1),new r("het",-1,1),new r("ast",-1,1)],c=[new r("dd",-1,-1),new r("gd",-1,-1),new r("nn",-1,-1),new r("dt",-1,-1),new r("gt",-1,-1),new r("kt",-1,-1),new r("tt",-1,-1)],m=[new r("ig",-1,1),new r("lig",0,1),new r("els",-1,1),new r("fullt",-1,3),new r("löst",-1,2)],l=[17,65,16,1,0,0,0,0,0,0,0,0,0,0,0,0,24,0,32],d=[119,127,149],w=new n;this.setCurrent=function(e){w.setCurrent(e)},this.getCurrent=function(){return w.getCurrent()},this.stem=function(){var r=w.cursor;return e(),w.limit_backward=r,w.cursor=w.limit,t(),w.cursor=w.limit,i(),w.cursor=w.limit,s(),!0}};return function(e){return"function"==typeof e.update?e.update(function(e){return t.setCurrent(e),t.stem(),t.getCurrent()}):(t.setCurrent(e),t.stem(),t.getCurrent())}}(),e.Pipeline.registerFunction(e.sv.stemmer,"stemmer-sv"),e.sv.stopWordFilter=e.generateStopWordFilter("alla allt att av blev bli blir blivit de dem den denna deras dess dessa det detta dig din dina ditt du där då efter ej eller en er era ert ett från för ha hade han hans har henne hennes hon honom hur här i icke ingen inom inte jag ju kan kunde man med mellan men mig min mina mitt mot mycket ni nu när någon något några och om oss på samma sedan sig sin sina sitta själv skulle som så sådan sådana sådant till under upp ut utan vad var vara varför varit varje vars vart vem vi vid vilka vilkas vilken vilket vår våra vårt än är åt över".split(" ")),e.Pipeline.registerFunction(e.sv.stopWordFilter,"stopWordFilter-sv")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.ta.min.js b/assets/javascripts/lunr/min/lunr.ta.min.js
new file mode 100644
index 000000000..a644bed22
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.ta.min.js
@@ -0,0 +1 @@
+!function(e,t){"function"==typeof define&&define.amd?define(t):"object"==typeof exports?module.exports=t():t()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.ta=function(){this.pipeline.reset(),this.pipeline.add(e.ta.trimmer,e.ta.stopWordFilter,e.ta.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.ta.stemmer))},e.ta.wordCharacters="஀-உஊ-ஏஐ-ஙச-ட஠-னப-யர-ஹ஺-ிீ-௉ொ-௏ௐ-௙௚-௟௠-௩௪-௯௰-௹௺-௿a-zA-Zａ-ｚＡ-Ｚ0-9０-９",e.ta.trimmer=e.trimmerSupport.generateTrimmer(e.ta.wordCharacters),e.Pipeline.registerFunction(e.ta.trimmer,"trimmer-ta"),e.ta.stopWordFilter=e.generateStopWordFilter("அங்கு அங்கே அது அதை அந்த அவர் அவர்கள் அவள் அவன் அவை ஆக ஆகவே ஆகையால் ஆதலால் ஆதலினால் ஆனாலும் ஆனால் இங்கு இங்கே இது இதை இந்த இப்படி இவர் இவர்கள் இவள் இவன் இவை இவ்வளவு உனக்கு உனது உன் உன்னால் எங்கு எங்கே எது எதை எந்த எப்படி எவர் எவர்கள் எவள் எவன் எவை எவ்வளவு எனக்கு எனது எனவே என் என்ன என்னால் ஏது ஏன் தனது தன்னால் தானே தான் நாங்கள் நாம் நான் நீ நீங்கள்".split(" ")),e.ta.stemmer=function(){return function(e){return"function"==typeof e.update?e.update(function(e){return e}):e}}();var t=e.wordcut;t.init(),e.ta.tokenizer=function(r){if(!arguments.length||null==r||void 0==r)return[];if(Array.isArray(r))return r.map(function(t){return isLunr2?new e.Token(t.toLowerCase()):t.toLowerCase()});var i=r.toString().toLowerCase().replace(/^\s+/,"");return t.cut(i).split("|")},e.Pipeline.registerFunction(e.ta.stemmer,"stemmer-ta"),e.Pipeline.registerFunction(e.ta.stopWordFilter,"stopWordFilter-ta")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.te.min.js b/assets/javascripts/lunr/min/lunr.te.min.js
new file mode 100644
index 000000000..9fa7a93b9
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.te.min.js
@@ -0,0 +1 @@
+!function(e,t){"function"==typeof define&&define.amd?define(t):"object"==typeof exports?module.exports=t():t()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.te=function(){this.pipeline.reset(),this.pipeline.add(e.te.trimmer,e.te.stopWordFilter,e.te.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(e.te.stemmer))},e.te.wordCharacters="ఀ-ఄఅ-ఔక-హా-ౌౕ-ౖౘ-ౚౠ-ౡౢ-ౣ౦-౯౸-౿఼ఽ్ౝ౷౤౥",e.te.trimmer=e.trimmerSupport.generateTrimmer(e.te.wordCharacters),e.Pipeline.registerFunction(e.te.trimmer,"trimmer-te"),e.te.stopWordFilter=e.generateStopWordFilter("అందరూ అందుబాటులో అడగండి అడగడం అడ్డంగా అనుగుణంగా అనుమతించు అనుమతిస్తుంది అయితే ఇప్పటికే ఉన్నారు ఎక్కడైనా ఎప్పుడు ఎవరైనా ఎవరో ఏ ఏదైనా ఏమైనప్పటికి ఒక ఒకరు కనిపిస్తాయి కాదు కూడా గా గురించి చుట్టూ చేయగలిగింది తగిన తర్వాత దాదాపు దూరంగా నిజంగా పై ప్రకారం ప్రక్కన మధ్య మరియు మరొక మళ్ళీ మాత్రమే మెచ్చుకో వద్ద వెంట వేరుగా వ్యతిరేకంగా సంబంధం".split(" ")),e.te.stemmer=function(){return function(e){return"function"==typeof e.update?e.update(function(e){return e}):e}}();var t=e.wordcut;t.init(),e.te.tokenizer=function(r){if(!arguments.length||null==r||void 0==r)return[];if(Array.isArray(r))return r.map(function(t){return isLunr2?new e.Token(t.toLowerCase()):t.toLowerCase()});var i=r.toString().toLowerCase().replace(/^\s+/,"");return t.cut(i).split("|")},e.Pipeline.registerFunction(e.te.stemmer,"stemmer-te"),e.Pipeline.registerFunction(e.te.stopWordFilter,"stopWordFilter-te")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.th.min.js b/assets/javascripts/lunr/min/lunr.th.min.js
new file mode 100644
index 000000000..dee3aac6e
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.th.min.js
@@ -0,0 +1 @@
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");var r="2"==e.version[0];e.th=function(){this.pipeline.reset(),this.pipeline.add(e.th.trimmer),r?this.tokenizer=e.th.tokenizer:(e.tokenizer&&(e.tokenizer=e.th.tokenizer),this.tokenizerFn&&(this.tokenizerFn=e.th.tokenizer))},e.th.wordCharacters="[฀-๿]",e.th.trimmer=e.trimmerSupport.generateTrimmer(e.th.wordCharacters),e.Pipeline.registerFunction(e.th.trimmer,"trimmer-th");var t=e.wordcut;t.init(),e.th.tokenizer=function(i){if(!arguments.length||null==i||void 0==i)return[];if(Array.isArray(i))return i.map(function(t){return r?new e.Token(t):t});var n=i.toString().replace(/^\s+/,"");return t.cut(n).split("|")}}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.tr.min.js b/assets/javascripts/lunr/min/lunr.tr.min.js
new file mode 100644
index 000000000..563f6ec1f
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.tr.min.js
@@ -0,0 +1,18 @@
+/*!
+ * Lunr languages, `Turkish` language
+ * https://github.com/MihaiValentin/lunr-languages
+ *
+ * Copyright 2014, Mihai Valentin
+ * http://www.mozilla.org/MPL/
+ */
+/*!
+ * based on
+ * Snowball JavaScript Library v0.3
+ * http://code.google.com/p/urim/
+ * http://snowball.tartarus.org/
+ *
+ * Copyright 2010, Oleg Mazko
+ * http://www.mozilla.org/MPL/
+ */
+
+!function(r,i){"function"==typeof define&&define.amd?define(i):"object"==typeof exports?module.exports=i():i()(r.lunr)}(this,function(){return function(r){if(void 0===r)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===r.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");r.tr=function(){this.pipeline.reset(),this.pipeline.add(r.tr.trimmer,r.tr.stopWordFilter,r.tr.stemmer),this.searchPipeline&&(this.searchPipeline.reset(),this.searchPipeline.add(r.tr.stemmer))},r.tr.wordCharacters="A-Za-zªºÀ-ÖØ-öø-ʸˠ-ˤᴀ-ᴥᴬ-ᵜᵢ-ᵥᵫ-ᵷᵹ-ᶾḀ-ỿⁱⁿₐ-ₜKÅℲⅎⅠ-ↈⱠ-ⱿꜢ-ꞇꞋ-ꞭꞰ-ꞷꟷ-ꟿꬰ-ꭚꭜ-ꭤﬀ-ﬆＡ-Ｚａ-ｚ",r.tr.trimmer=r.trimmerSupport.generateTrimmer(r.tr.wordCharacters),r.Pipeline.registerFunction(r.tr.trimmer,"trimmer-tr"),r.tr.stemmer=function(){var i=r.stemmerSupport.Among,e=r.stemmerSupport.SnowballProgram,n=new function(){function r(r,i,e){for(;;){var n=Dr.limit-Dr.cursor;if(Dr.in_grouping_b(r,i,e)){Dr.cursor=Dr.limit-n;break}if(Dr.cursor=Dr.limit-n,Dr.cursor<=Dr.limit_backward)return!1;Dr.cursor--}return!0}function n(){var i,e;i=Dr.limit-Dr.cursor,r(Wr,97,305);for(var n=0;n<Br.length;n++){e=Dr.limit-Dr.cursor;var t=Br[n];if(Dr.eq_s_b(1,t[0])&&r(t[1],t[2],t[3]))return Dr.cursor=Dr.limit-i,!0;Dr.cursor=Dr.limit-e}return Dr.cursor=Dr.limit-e,!(!Dr.eq_s_b(1,"ü")||!r(Zr,246,252))&&(Dr.cursor=Dr.limit-i,!0)}function t(r,i){var e,n=Dr.limit-Dr.cursor;return r()&&(Dr.cursor=Dr.limit-n,Dr.cursor>Dr.limit_backward&&(Dr.cursor--,e=Dr.limit-Dr.cursor,i()))?(Dr.cursor=Dr.limit-e,!0):(Dr.cursor=Dr.limit-n,r()?(Dr.cursor=Dr.limit-n,!1):(Dr.cursor=Dr.limit-n,!(Dr.cursor<=Dr.limit_backward)&&(Dr.cursor--,!!i()&&(Dr.cursor=Dr.limit-n,!0))))}function u(r){return t(r,function(){return Dr.in_grouping_b(Wr,97,305)})}function o(){return u(function(){return Dr.eq_s_b(1,"n")})}function s(){return u(function(){return Dr.eq_s_b(1,"s")})}function c(){return u(function(){return Dr.eq_s_b(1,"y")})}function l(){return t(function(){return Dr.in_grouping_b(Lr,105,305)},function(){return Dr.out_grouping_b(Wr,97,305)})}function a(){return Dr.find_among_b(ur,10)&&l()}function m(){return n()&&Dr.in_grouping_b(Lr,105,305)&&s()}function d(){return Dr.find_among_b(or,2)}function f(){return n()&&Dr.in_grouping_b(Lr,105,305)&&c()}function b(){return n()&&Dr.find_among_b(sr,4)}function w(){return n()&&Dr.find_among_b(cr,4)&&o()}function _(){return n()&&Dr.find_among_b(lr,2)&&c()}function k(){return n()&&Dr.find_among_b(ar,2)}function p(){return n()&&Dr.find_among_b(mr,4)}function g(){return n()&&Dr.find_among_b(dr,2)}function y(){return n()&&Dr.find_among_b(fr,4)}function z(){return n()&&Dr.find_among_b(br,2)}function v(){return n()&&Dr.find_among_b(wr,2)&&c()}function h(){return Dr.eq_s_b(2,"ki")}function q(){return n()&&Dr.find_among_b(_r,2)&&o()}function C(){return n()&&Dr.find_among_b(kr,4)&&c()}function P(){return n()&&Dr.find_among_b(pr,4)}function F(){return n()&&Dr.find_among_b(gr,4)&&c()}function S(){return Dr.find_among_b(yr,4)}function W(){return n()&&Dr.find_among_b(zr,2)}function L(){return n()&&Dr.find_among_b(vr,4)}function x(){return n()&&Dr.find_among_b(hr,8)}function A(){return Dr.find_among_b(qr,2)}function E(){return n()&&Dr.find_among_b(Cr,32)&&c()}function j(){return Dr.find_among_b(Pr,8)&&c()}function T(){return n()&&Dr.find_among_b(Fr,4)&&c()}function Z(){return Dr.eq_s_b(3,"ken")&&c()}function B(){var r=Dr.limit-Dr.cursor;return!(T()||(Dr.cursor=Dr.limit-r,E()||(Dr.cursor=Dr.limit-r,j()||(Dr.cursor=Dr.limit-r,Z()))))}function D(){if(A()){var r=Dr.limit-Dr.cursor;if(S()||(Dr.cursor=Dr.limit-r,W()||(Dr.cursor=Dr.limit-r,C()||(Dr.cursor=Dr.limit-r,P()||(Dr.cursor=Dr.limit-r,F()||(Dr.cursor=Dr.limit-r))))),T())return!1}return!0}function G(){if(W()){Dr.bra=Dr.cursor,Dr.slice_del();var r=Dr.limit-Dr.cursor;return Dr.ket=Dr.cursor,x()||(Dr.cursor=Dr.limit-r,E()||(Dr.cursor=Dr.limit-r,j()||(Dr.cursor=Dr.limit-r,T()||(Dr.cursor=Dr.limit-r)))),nr=!1,!1}return!0}function H(){if(!L())return!0;var r=Dr.limit-Dr.cursor;return!E()&&(Dr.cursor=Dr.limit-r,!j())}function I(){var r,i=Dr.limit-Dr.cursor;return!(S()||(Dr.cursor=Dr.limit-i,F()||(Dr.cursor=Dr.limit-i,P()||(Dr.cursor=Dr.limit-i,C()))))||(Dr.bra=Dr.cursor,Dr.slice_del(),r=Dr.limit-Dr.cursor,Dr.ket=Dr.cursor,T()||(Dr.cursor=Dr.limit-r),!1)}function J(){var r,i=Dr.limit-Dr.cursor;if(Dr.ket=Dr.cursor,nr=!0,B()&&(Dr.cursor=Dr.limit-i,D()&&(Dr.cursor=Dr.limit-i,G()&&(Dr.cursor=Dr.limit-i,H()&&(Dr.cursor=Dr.limit-i,I()))))){if(Dr.cursor=Dr.limit-i,!x())return;Dr.bra=Dr.cursor,Dr.slice_del(),Dr.ket=Dr.cursor,r=Dr.limit-Dr.cursor,S()||(Dr.cursor=Dr.limit-r,W()||(Dr.cursor=Dr.limit-r,C()||(Dr.cursor=Dr.limit-r,P()||(Dr.cursor=Dr.limit-r,F()||(Dr.cursor=Dr.limit-r))))),T()||(Dr.cursor=Dr.limit-r)}Dr.bra=Dr.cursor,Dr.slice_del()}function K(){var r,i,e,n;if(Dr.ket=Dr.cursor,h()){if(r=Dr.limit-Dr.cursor,p())return Dr.bra=Dr.cursor,Dr.slice_del(),i=Dr.limit-Dr.cursor,Dr.ket=Dr.cursor,W()?(Dr.bra=Dr.cursor,Dr.slice_del(),K()):(Dr.cursor=Dr.limit-i,a()&&(Dr.bra=Dr.cursor,Dr.slice_del(),Dr.ket=Dr.cursor,W()&&(Dr.bra=Dr.cursor,Dr.slice_del(),K()))),!0;if(Dr.cursor=Dr.limit-r,w()){if(Dr.bra=Dr.cursor,Dr.slice_del(),Dr.ket=Dr.cursor,e=Dr.limit-Dr.cursor,d())Dr.bra=Dr.cursor,Dr.slice_del();else{if(Dr.cursor=Dr.limit-e,Dr.ket=Dr.cursor,!a()&&(Dr.cursor=Dr.limit-e,!m()&&(Dr.cursor=Dr.limit-e,!K())))return!0;Dr.bra=Dr.cursor,Dr.slice_del(),Dr.ket=Dr.cursor,W()&&(Dr.bra=Dr.cursor,Dr.slice_del(),K())}return!0}if(Dr.cursor=Dr.limit-r,g()){if(n=Dr.limit-Dr.cursor,d())Dr.bra=Dr.cursor,Dr.slice_del();else if(Dr.cursor=Dr.limit-n,m())Dr.bra=Dr.cursor,Dr.slice_del(),Dr.ket=Dr.cursor,W()&&(Dr.bra=Dr.cursor,Dr.slice_del(),K());else if(Dr.cursor=Dr.limit-n,!K())return!1;return!0}}return!1}function M(r){if(Dr.ket=Dr.cursor,!g()&&(Dr.cursor=Dr.limit-r,!k()))return!1;var i=Dr.limit-Dr.cursor;if(d())Dr.bra=Dr.cursor,Dr.slice_del();else if(Dr.cursor=Dr.limit-i,m())Dr.bra=Dr.cursor,Dr.slice_del(),Dr.ket=Dr.cursor,W()&&(Dr.bra=Dr.cursor,Dr.slice_del(),K());else if(Dr.cursor=Dr.limit-i,!K())return!1;return!0}function N(r){if(Dr.ket=Dr.cursor,!z()&&(Dr.cursor=Dr.limit-r,!b()))return!1;var i=Dr.limit-Dr.cursor;return!(!m()&&(Dr.cursor=Dr.limit-i,!d()))&&(Dr.bra=Dr.cursor,Dr.slice_del(),Dr.ket=Dr.cursor,W()&&(Dr.bra=Dr.cursor,Dr.slice_del(),K()),!0)}function O(){var r,i=Dr.limit-Dr.cursor;return Dr.ket=Dr.cursor,!(!w()&&(Dr.cursor=Dr.limit-i,!v()))&&(Dr.bra=Dr.cursor,Dr.slice_del(),r=Dr.limit-Dr.cursor,Dr.ket=Dr.cursor,!(!W()||(Dr.bra=Dr.cursor,Dr.slice_del(),!K()))||(Dr.cursor=Dr.limit-r,Dr.ket=Dr.cursor,!(a()||(Dr.cursor=Dr.limit-r,m()||(Dr.cursor=Dr.limit-r,K())))||(Dr.bra=Dr.cursor,Dr.slice_del(),Dr.ket=Dr.cursor,W()&&(Dr.bra=Dr.cursor,Dr.slice_del(),K()),!0)))}function Q(){var r,i,e=Dr.limit-Dr.cursor;if(Dr.ket=Dr.cursor,!p()&&(Dr.cursor=Dr.limit-e,!f()&&(Dr.cursor=Dr.limit-e,!_())))return!1;if(Dr.bra=Dr.cursor,Dr.slice_del(),Dr.ket=Dr.cursor,r=Dr.limit-Dr.cursor,a())Dr.bra=Dr.cursor,Dr.slice_del(),i=Dr.limit-Dr.cursor,Dr.ket=Dr.cursor,W()||(Dr.cursor=Dr.limit-i);else if(Dr.cursor=Dr.limit-r,!W())return!0;return Dr.bra=Dr.cursor,Dr.slice_del(),Dr.ket=Dr.cursor,K(),!0}function R(){var r,i,e=Dr.limit-Dr.cursor;if(Dr.ket=Dr.cursor,W())return Dr.bra=Dr.cursor,Dr.slice_del(),void K();if(Dr.cursor=Dr.limit-e,Dr.ket=Dr.cursor,q())if(Dr.bra=Dr.cursor,Dr.slice_del(),r=Dr.limit-Dr.cursor,Dr.ket=Dr.cursor,d())Dr.bra=Dr.cursor,Dr.slice_del();else{if(Dr.cursor=Dr.limit-r,Dr.ket=Dr.cursor,!a()&&(Dr.cursor=Dr.limit-r,!m())){if(Dr.cursor=Dr.limit-r,Dr.ket=Dr.cursor,!W())return;if(Dr.bra=Dr.cursor,Dr.slice_del(),!K())return}Dr.bra=Dr.cursor,Dr.slice_del(),Dr.ket=Dr.cursor,W()&&(Dr.bra=Dr.cursor,Dr.slice_del(),K())}else if(Dr.cursor=Dr.limit-e,!M(e)&&(Dr.cursor=Dr.limit-e,!N(e))){if(Dr.cursor=Dr.limit-e,Dr.ket=Dr.cursor,y())return Dr.bra=Dr.cursor,Dr.slice_del(),Dr.ket=Dr.cursor,i=Dr.limit-Dr.cursor,void(a()?(Dr.bra=Dr.cursor,Dr.slice_del(),Dr.ket=Dr.cursor,W()&&(Dr.bra=Dr.cursor,Dr.slice_del(),K())):(Dr.cursor=Dr.limit-i,W()?(Dr.bra=Dr.cursor,Dr.slice_del(),K()):(Dr.cursor=Dr.limit-i,K())));if(Dr.cursor=Dr.limit-e,!O()){if(Dr.cursor=Dr.limit-e,d())return Dr.bra=Dr.cursor,void Dr.slice_del();Dr.cursor=Dr.limit-e,K()||(Dr.cursor=Dr.limit-e,Q()||(Dr.cursor=Dr.limit-e,Dr.ket=Dr.cursor,(a()||(Dr.cursor=Dr.limit-e,m()))&&(Dr.bra=Dr.cursor,Dr.slice_del(),Dr.ket=Dr.cursor,W()&&(Dr.bra=Dr.cursor,Dr.slice_del(),K()))))}}}function U(){var r;if(Dr.ket=Dr.cursor,r=Dr.find_among_b(Sr,4))switch(Dr.bra=Dr.cursor,r){case 1:Dr.slice_from("p");break;case 2:Dr.slice_from("ç");break;case 3:Dr.slice_from("t");break;case 4:Dr.slice_from("k")}}function V(){for(;;){var r=Dr.limit-Dr.cursor;if(Dr.in_grouping_b(Wr,97,305)){Dr.cursor=Dr.limit-r;break}if(Dr.cursor=Dr.limit-r,Dr.cursor<=Dr.limit_backward)return!1;Dr.cursor--}return!0}function X(r,i,e){if(Dr.cursor=Dr.limit-r,V()){var n=Dr.limit-Dr.cursor;if(!Dr.eq_s_b(1,i)&&(Dr.cursor=Dr.limit-n,!Dr.eq_s_b(1,e)))return!0;Dr.cursor=Dr.limit-r;var t=Dr.cursor;return Dr.insert(Dr.cursor,Dr.cursor,e),Dr.cursor=t,!1}return!0}function Y(){var r=Dr.limit-Dr.cursor;(Dr.eq_s_b(1,"d")||(Dr.cursor=Dr.limit-r,Dr.eq_s_b(1,"g")))&&X(r,"a","ı")&&X(r,"e","i")&&X(r,"o","u")&&X(r,"ö","ü")}function $(){for(var r,i=Dr.cursor,e=2;;){for(r=Dr.cursor;!Dr.in_grouping(Wr,97,305);){if(Dr.cursor>=Dr.limit)return Dr.cursor=r,!(e>0)&&(Dr.cursor=i,!0);Dr.cursor++}e--}}function rr(r,i,e){for(;!Dr.eq_s(i,e);){if(Dr.cursor>=Dr.limit)return!0;Dr.cursor++}return(tr=i)!=Dr.limit||(Dr.cursor=r,!1)}function ir(){var r=Dr.cursor;return!rr(r,2,"ad")||(Dr.cursor=r,!rr(r,5,"soyad"))}function er(){var r=Dr.cursor;return!ir()&&(Dr.limit_backward=r,Dr.cursor=Dr.limit,Y(),Dr.cursor=Dr.limit,U(),!0)}var nr,tr,ur=[new i("m",-1,-1),new i("n",-1,-1),new i("miz",-1,-1),new i("niz",-1,-1),new i("muz",-1,-1),new i("nuz",-1,-1),new i("müz",-1,-1),new i("nüz",-1,-1),new i("mız",-1,-1),new i("nız",-1,-1)],or=[new i("leri",-1,-1),new i("ları",-1,-1)],sr=[new i("ni",-1,-1),new i("nu",-1,-1),new i("nü",-1,-1),new i("nı",-1,-1)],cr=[new i("in",-1,-1),new i("un",-1,-1),new i("ün",-1,-1),new i("ın",-1,-1)],lr=[new i("a",-1,-1),new i("e",-1,-1)],ar=[new i("na",-1,-1),new i("ne",-1,-1)],mr=[new i("da",-1,-1),new i("ta",-1,-1),new i("de",-1,-1),new i("te",-1,-1)],dr=[new i("nda",-1,-1),new i("nde",-1,-1)],fr=[new i("dan",-1,-1),new i("tan",-1,-1),new i("den",-1,-1),new i("ten",-1,-1)],br=[new i("ndan",-1,-1),new i("nden",-1,-1)],wr=[new i("la",-1,-1),new i("le",-1,-1)],_r=[new i("ca",-1,-1),new i("ce",-1,-1)],kr=[new i("im",-1,-1),new i("um",-1,-1),new i("üm",-1,-1),new i("ım",-1,-1)],pr=[new i("sin",-1,-1),new i("sun",-1,-1),new i("sün",-1,-1),new i("sın",-1,-1)],gr=[new i("iz",-1,-1),new i("uz",-1,-1),new i("üz",-1,-1),new i("ız",-1,-1)],yr=[new i("siniz",-1,-1),new i("sunuz",-1,-1),new i("sünüz",-1,-1),new i("sınız",-1,-1)],zr=[new i("lar",-1,-1),new i("ler",-1,-1)],vr=[new i("niz",-1,-1),new i("nuz",-1,-1),new i("nüz",-1,-1),new i("nız",-1,-1)],hr=[new i("dir",-1,-1),new i("tir",-1,-1),new i("dur",-1,-1),new i("tur",-1,-1),new i("dür",-1,-1),new i("tür",-1,-1),new i("dır",-1,-1),new i("tır",-1,-1)],qr=[new i("casına",-1,-1),new i("cesine",-1,-1)],Cr=[new i("di",-1,-1),new i("ti",-1,-1),new i("dik",-1,-1),new i("tik",-1,-1),new i("duk",-1,-1),new i("tuk",-1,-1),new i("dük",-1,-1),new i("tük",-1,-1),new i("dık",-1,-1),new i("tık",-1,-1),new i("dim",-1,-1),new i("tim",-1,-1),new i("dum",-1,-1),new i("tum",-1,-1),new i("düm",-1,-1),new i("tüm",-1,-1),new i("dım",-1,-1),new i("tım",-1,-1),new i("din",-1,-1),new i("tin",-1,-1),new i("dun",-1,-1),new i("tun",-1,-1),new i("dün",-1,-1),new i("tün",-1,-1),new i("dın",-1,-1),new i("tın",-1,-1),new i("du",-1,-1),new i("tu",-1,-1),new i("dü",-1,-1),new i("tü",-1,-1),new i("dı",-1,-1),new i("tı",-1,-1)],Pr=[new i("sa",-1,-1),new i("se",-1,-1),new i("sak",-1,-1),new i("sek",-1,-1),new i("sam",-1,-1),new i("sem",-1,-1),new i("san",-1,-1),new i("sen",-1,-1)],Fr=[new i("miş",-1,-1),new i("muş",-1,-1),new i("müş",-1,-1),new i("mış",-1,-1)],Sr=[new i("b",-1,1),new i("c",-1,2),new i("d",-1,3),new i("ğ",-1,4)],Wr=[17,65,16,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,32,8,0,0,0,0,0,0,1],Lr=[1,16,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,8,0,0,0,0,0,0,1],xr=[1,64,16,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1],Ar=[17,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,130],Er=[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1],jr=[17],Tr=[65],Zr=[65],Br=[["a",xr,97,305],["e",Ar,101,252],["ı",Er,97,305],["i",jr,101,105],["o",Tr,111,117],["ö",Zr,246,252],["u",Tr,111,117]],Dr=new e;this.setCurrent=function(r){Dr.setCurrent(r)},this.getCurrent=function(){return Dr.getCurrent()},this.stem=function(){return!!($()&&(Dr.limit_backward=Dr.cursor,Dr.cursor=Dr.limit,J(),Dr.cursor=Dr.limit,nr&&(R(),Dr.cursor=Dr.limit_backward,er())))}};return function(r){return"function"==typeof r.update?r.update(function(r){return n.setCurrent(r),n.stem(),n.getCurrent()}):(n.setCurrent(r),n.stem(),n.getCurrent())}}(),r.Pipeline.registerFunction(r.tr.stemmer,"stemmer-tr"),r.tr.stopWordFilter=r.generateStopWordFilter("acaba altmış altı ama ancak arada aslında ayrıca bana bazı belki ben benden beni benim beri beş bile bin bir biri birkaç birkez birçok birşey birşeyi biz bizden bize bizi bizim bu buna bunda bundan bunlar bunları bunların bunu bunun burada böyle böylece da daha dahi de defa değil diye diğer doksan dokuz dolayı dolayısıyla dört edecek eden ederek edilecek ediliyor edilmesi ediyor elli en etmesi etti ettiği ettiğini eğer gibi göre halen hangi hatta hem henüz hep hepsi her herhangi herkesin hiç hiçbir iki ile ilgili ise itibaren itibariyle için işte kadar karşın katrilyon kendi kendilerine kendini kendisi kendisine kendisini kez ki kim kimden kime kimi kimse kırk milyar milyon mu mü mı nasıl ne neden nedenle nerde nerede nereye niye niçin o olan olarak oldu olduklarını olduğu olduğunu olmadı olmadığı olmak olması olmayan olmaz olsa olsun olup olur olursa oluyor on ona ondan onlar onlardan onları onların onu onun otuz oysa pek rağmen sadece sanki sekiz seksen sen senden seni senin siz sizden sizi sizin tarafından trilyon tüm var vardı ve veya ya yani yapacak yapmak yaptı yaptıkları yaptığı yaptığını yapılan yapılması yapıyor yedi yerine yetmiş yine yirmi yoksa yüz zaten çok çünkü öyle üzere üç şey şeyden şeyi şeyler şu şuna şunda şundan şunları şunu şöyle".split(" ")),r.Pipeline.registerFunction(r.tr.stopWordFilter,"stopWordFilter-tr")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.vi.min.js b/assets/javascripts/lunr/min/lunr.vi.min.js
new file mode 100644
index 000000000..22aed28c4
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.vi.min.js
@@ -0,0 +1 @@
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r():r()(e.lunr)}(this,function(){return function(e){if(void 0===e)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===e.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");e.vi=function(){this.pipeline.reset(),this.pipeline.add(e.vi.stopWordFilter,e.vi.trimmer)},e.vi.wordCharacters="[A-Za-ẓ̀͐́͑̉̃̓ÂâÊêÔôĂ-ăĐ-đƠ-ơƯ-ư]",e.vi.trimmer=e.trimmerSupport.generateTrimmer(e.vi.wordCharacters),e.Pipeline.registerFunction(e.vi.trimmer,"trimmer-vi"),e.vi.stopWordFilter=e.generateStopWordFilter("là cái nhưng mà".split(" "))}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/min/lunr.zh.min.js b/assets/javascripts/lunr/min/lunr.zh.min.js
new file mode 100644
index 000000000..fda66e9c5
--- /dev/null
+++ b/assets/javascripts/lunr/min/lunr.zh.min.js
@@ -0,0 +1 @@
+!function(e,r){"function"==typeof define&&define.amd?define(r):"object"==typeof exports?module.exports=r(require("@node-rs/jieba")):r()(e.lunr)}(this,function(e){return function(r,t){if(void 0===r)throw new Error("Lunr is not present. Please include / require Lunr before this script.");if(void 0===r.stemmerSupport)throw new Error("Lunr stemmer support is not present. Please include / require Lunr stemmer support before this script.");var i="2"==r.version[0];r.zh=function(){this.pipeline.reset(),this.pipeline.add(r.zh.trimmer,r.zh.stopWordFilter,r.zh.stemmer),i?this.tokenizer=r.zh.tokenizer:(r.tokenizer&&(r.tokenizer=r.zh.tokenizer),this.tokenizerFn&&(this.tokenizerFn=r.zh.tokenizer))},r.zh.tokenizer=function(n){if(!arguments.length||null==n||void 0==n)return[];if(Array.isArray(n))return n.map(function(e){return i?new r.Token(e.toLowerCase()):e.toLowerCase()});t&&e.load(t);var o=n.toString().trim().toLowerCase(),s=[];e.cut(o,!0).forEach(function(e){s=s.concat(e.split(" "))}),s=s.filter(function(e){return!!e});var u=0;return s.map(function(e,t){if(i){var n=o.indexOf(e,u),s={};return s.position=[n,e.length],s.index=t,u=n,new r.Token(e,s)}return e})},r.zh.wordCharacters="\\w一-龥",r.zh.trimmer=r.trimmerSupport.generateTrimmer(r.zh.wordCharacters),r.Pipeline.registerFunction(r.zh.trimmer,"trimmer-zh"),r.zh.stemmer=function(){return function(e){return e}}(),r.Pipeline.registerFunction(r.zh.stemmer,"stemmer-zh"),r.zh.stopWordFilter=r.generateStopWordFilter("的 一 不 在 人 有 是 为 為 以 于 於 上 他 而 后 後 之 来 來 及 了 因 下 可 到 由 这 這 与 與 也 此 但 并 並 个 個 其 已 无 無 小 我 们 們 起 最 再 今 去 好 只 又 或 很 亦 某 把 那 你 乃 它 吧 被 比 别 趁 当 當 从 從 得 打 凡 儿 兒 尔 爾 该 該 各 给 給 跟 和 何 还 還 即 几 幾 既 看 据 據 距 靠 啦 另 么 麽 每 嘛 拿 哪 您 凭 憑 且 却 卻 让 讓 仍 啥 如 若 使 谁 誰 虽 雖 随 隨 同 所 她 哇 嗡 往 些 向 沿 哟 喲 用 咱 则 則 怎 曾 至 致 着 著 诸 諸 自".split(" ")),r.Pipeline.registerFunction(r.zh.stopWordFilter,"stopWordFilter-zh")}});
\ No newline at end of file
diff --git a/assets/javascripts/lunr/tinyseg.js b/assets/javascripts/lunr/tinyseg.js
new file mode 100644
index 000000000..167fa6dd6
--- /dev/null
+++ b/assets/javascripts/lunr/tinyseg.js
@@ -0,0 +1,206 @@
+/**
+ * export the module via AMD, CommonJS or as a browser global
+ * Export code from https://github.com/umdjs/umd/blob/master/returnExports.js
+ */
+;(function (root, factory) {
+    if (typeof define === 'function' && define.amd) {
+        // AMD. Register as an anonymous module.
+        define(factory)
+    } else if (typeof exports === 'object') {
+        /**
+         * Node. Does not work with strict CommonJS, but
+         * only CommonJS-like environments that support module.exports,
+         * like Node.
+         */
+        module.exports = factory()
+    } else {
+        // Browser globals (root is window)
+        factory()(root.lunr);
+    }
+}(this, function () {
+    /**
+     * Just return a value to define the module export.
+     * This example returns an object, but the module
+     * can return a function as the exported value.
+     */
+
+    return function(lunr) {
+        // TinySegmenter 0.1 -- Super compact Japanese tokenizer in Javascript
+        // (c) 2008 Taku Kudo <taku@chasen.org>
+        // TinySegmenter is freely distributable under the terms of a new BSD licence.
+        // For details, see http://chasen.org/~taku/software/TinySegmenter/LICENCE.txt
+
+        function TinySegmenter() {
+          var patterns = {
+            "[一二三四五六七八九十百千万億兆]":"M",
+            "[一-龠々〆ヵヶ]":"H",
+            "[ぁ-ん]":"I",
+            "[ァ-ヴーｱ-ﾝﾞｰ]":"K",
+            "[a-zA-Zａ-ｚＡ-Ｚ]":"A",
+            "[0-9０-９]":"N"
+          }
+          this.chartype_ = [];
+          for (var i in patterns) {
+            var regexp = new RegExp(i);
+            this.chartype_.push([regexp, patterns[i]]);
+          }
+
+          this.BIAS__ = -332
+          this.BC1__ = {"HH":6,"II":2461,"KH":406,"OH":-1378};
+          this.BC2__ = {"AA":-3267,"AI":2744,"AN":-878,"HH":-4070,"HM":-1711,"HN":4012,"HO":3761,"IA":1327,"IH":-1184,"II":-1332,"IK":1721,"IO":5492,"KI":3831,"KK":-8741,"MH":-3132,"MK":3334,"OO":-2920};
+          this.BC3__ = {"HH":996,"HI":626,"HK":-721,"HN":-1307,"HO":-836,"IH":-301,"KK":2762,"MK":1079,"MM":4034,"OA":-1652,"OH":266};
+          this.BP1__ = {"BB":295,"OB":304,"OO":-125,"UB":352};
+          this.BP2__ = {"BO":60,"OO":-1762};
+          this.BQ1__ = {"BHH":1150,"BHM":1521,"BII":-1158,"BIM":886,"BMH":1208,"BNH":449,"BOH":-91,"BOO":-2597,"OHI":451,"OIH":-296,"OKA":1851,"OKH":-1020,"OKK":904,"OOO":2965};
+          this.BQ2__ = {"BHH":118,"BHI":-1159,"BHM":466,"BIH":-919,"BKK":-1720,"BKO":864,"OHH":-1139,"OHM":-181,"OIH":153,"UHI":-1146};
+          this.BQ3__ = {"BHH":-792,"BHI":2664,"BII":-299,"BKI":419,"BMH":937,"BMM":8335,"BNN":998,"BOH":775,"OHH":2174,"OHM":439,"OII":280,"OKH":1798,"OKI":-793,"OKO":-2242,"OMH":-2402,"OOO":11699};
+          this.BQ4__ = {"BHH":-3895,"BIH":3761,"BII":-4654,"BIK":1348,"BKK":-1806,"BMI":-3385,"BOO":-12396,"OAH":926,"OHH":266,"OHK":-2036,"ONN":-973};
+          this.BW1__ = {",と":660,",同":727,"B1あ":1404,"B1同":542,"、と":660,"、同":727,"」と":1682,"あっ":1505,"いう":1743,"いっ":-2055,"いる":672,"うし":-4817,"うん":665,"から":3472,"がら":600,"こう":-790,"こと":2083,"こん":-1262,"さら":-4143,"さん":4573,"した":2641,"して":1104,"すで":-3399,"そこ":1977,"それ":-871,"たち":1122,"ため":601,"った":3463,"つい":-802,"てい":805,"てき":1249,"でき":1127,"です":3445,"では":844,"とい":-4915,"とみ":1922,"どこ":3887,"ない":5713,"なっ":3015,"など":7379,"なん":-1113,"にし":2468,"には":1498,"にも":1671,"に対":-912,"の一":-501,"の中":741,"ませ":2448,"まで":1711,"まま":2600,"まる":-2155,"やむ":-1947,"よっ":-2565,"れた":2369,"れで":-913,"をし":1860,"を見":731,"亡く":-1886,"京都":2558,"取り":-2784,"大き":-2604,"大阪":1497,"平方":-2314,"引き":-1336,"日本":-195,"本当":-2423,"毎日":-2113,"目指":-724,"Ｂ１あ":1404,"Ｂ１同":542,"｣と":1682};
+          this.BW2__ = {"..":-11822,"11":-669,"――":-5730,"−−":-13175,"いう":-1609,"うか":2490,"かし":-1350,"かも":-602,"から":-7194,"かれ":4612,"がい":853,"がら":-3198,"きた":1941,"くな":-1597,"こと":-8392,"この":-4193,"させ":4533,"され":13168,"さん":-3977,"しい":-1819,"しか":-545,"した":5078,"して":972,"しな":939,"その":-3744,"たい":-1253,"たた":-662,"ただ":-3857,"たち":-786,"たと":1224,"たは":-939,"った":4589,"って":1647,"っと":-2094,"てい":6144,"てき":3640,"てく":2551,"ては":-3110,"ても":-3065,"でい":2666,"でき":-1528,"でし":-3828,"です":-4761,"でも":-4203,"とい":1890,"とこ":-1746,"とと":-2279,"との":720,"とみ":5168,"とも":-3941,"ない":-2488,"なが":-1313,"など":-6509,"なの":2614,"なん":3099,"にお":-1615,"にし":2748,"にな":2454,"によ":-7236,"に対":-14943,"に従":-4688,"に関":-11388,"のか":2093,"ので":-7059,"のに":-6041,"のの":-6125,"はい":1073,"はが":-1033,"はず":-2532,"ばれ":1813,"まし":-1316,"まで":-6621,"まれ":5409,"めて":-3153,"もい":2230,"もの":-10713,"らか":-944,"らし":-1611,"らに":-1897,"りし":651,"りま":1620,"れた":4270,"れて":849,"れば":4114,"ろう":6067,"われ":7901,"を通":-11877,"んだ":728,"んな":-4115,"一人":602,"一方":-1375,"一日":970,"一部":-1051,"上が":-4479,"会社":-1116,"出て":2163,"分の":-7758,"同党":970,"同日":-913,"大阪":-2471,"委員":-1250,"少な":-1050,"年度":-8669,"年間":-1626,"府県":-2363,"手権":-1982,"新聞":-4066,"日新":-722,"日本":-7068,"日米":3372,"曜日":-601,"朝鮮":-2355,"本人":-2697,"東京":-1543,"然と":-1384,"社会":-1276,"立て":-990,"第に":-1612,"米国":-4268,"１１":-669};
+          this.BW3__ = {"あた":-2194,"あり":719,"ある":3846,"い.":-1185,"い。":-1185,"いい":5308,"いえ":2079,"いく":3029,"いた":2056,"いっ":1883,"いる":5600,"いわ":1527,"うち":1117,"うと":4798,"えと":1454,"か.":2857,"か。":2857,"かけ":-743,"かっ":-4098,"かに":-669,"から":6520,"かり":-2670,"が,":1816,"が、":1816,"がき":-4855,"がけ":-1127,"がっ":-913,"がら":-4977,"がり":-2064,"きた":1645,"けど":1374,"こと":7397,"この":1542,"ころ":-2757,"さい":-714,"さを":976,"し,":1557,"し、":1557,"しい":-3714,"した":3562,"して":1449,"しな":2608,"しま":1200,"す.":-1310,"す。":-1310,"する":6521,"ず,":3426,"ず、":3426,"ずに":841,"そう":428,"た.":8875,"た。":8875,"たい":-594,"たの":812,"たり":-1183,"たる":-853,"だ.":4098,"だ。":4098,"だっ":1004,"った":-4748,"って":300,"てい":6240,"てお":855,"ても":302,"です":1437,"でに":-1482,"では":2295,"とう":-1387,"とし":2266,"との":541,"とも":-3543,"どう":4664,"ない":1796,"なく":-903,"など":2135,"に,":-1021,"に、":-1021,"にし":1771,"にな":1906,"には":2644,"の,":-724,"の、":-724,"の子":-1000,"は,":1337,"は、":1337,"べき":2181,"まし":1113,"ます":6943,"まっ":-1549,"まで":6154,"まれ":-793,"らし":1479,"られ":6820,"るる":3818,"れ,":854,"れ、":854,"れた":1850,"れて":1375,"れば":-3246,"れる":1091,"われ":-605,"んだ":606,"んで":798,"カ月":990,"会議":860,"入り":1232,"大会":2217,"始め":1681,"市":965,"新聞":-5055,"日,":974,"日、":974,"社会":2024,"ｶ月":990};
+          this.TC1__ = {"AAA":1093,"HHH":1029,"HHM":580,"HII":998,"HOH":-390,"HOM":-331,"IHI":1169,"IOH":-142,"IOI":-1015,"IOM":467,"MMH":187,"OOI":-1832};
+          this.TC2__ = {"HHO":2088,"HII":-1023,"HMM":-1154,"IHI":-1965,"KKH":703,"OII":-2649};
+          this.TC3__ = {"AAA":-294,"HHH":346,"HHI":-341,"HII":-1088,"HIK":731,"HOH":-1486,"IHH":128,"IHI":-3041,"IHO":-1935,"IIH":-825,"IIM":-1035,"IOI":-542,"KHH":-1216,"KKA":491,"KKH":-1217,"KOK":-1009,"MHH":-2694,"MHM":-457,"MHO":123,"MMH":-471,"NNH":-1689,"NNO":662,"OHO":-3393};
+          this.TC4__ = {"HHH":-203,"HHI":1344,"HHK":365,"HHM":-122,"HHN":182,"HHO":669,"HIH":804,"HII":679,"HOH":446,"IHH":695,"IHO":-2324,"IIH":321,"III":1497,"IIO":656,"IOO":54,"KAK":4845,"KKA":3386,"KKK":3065,"MHH":-405,"MHI":201,"MMH":-241,"MMM":661,"MOM":841};
+          this.TQ1__ = {"BHHH":-227,"BHHI":316,"BHIH":-132,"BIHH":60,"BIII":1595,"BNHH":-744,"BOHH":225,"BOOO":-908,"OAKK":482,"OHHH":281,"OHIH":249,"OIHI":200,"OIIH":-68};
+          this.TQ2__ = {"BIHH":-1401,"BIII":-1033,"BKAK":-543,"BOOO":-5591};
+          this.TQ3__ = {"BHHH":478,"BHHM":-1073,"BHIH":222,"BHII":-504,"BIIH":-116,"BIII":-105,"BMHI":-863,"BMHM":-464,"BOMH":620,"OHHH":346,"OHHI":1729,"OHII":997,"OHMH":481,"OIHH":623,"OIIH":1344,"OKAK":2792,"OKHH":587,"OKKA":679,"OOHH":110,"OOII":-685};
+          this.TQ4__ = {"BHHH":-721,"BHHM":-3604,"BHII":-966,"BIIH":-607,"BIII":-2181,"OAAA":-2763,"OAKK":180,"OHHH":-294,"OHHI":2446,"OHHO":480,"OHIH":-1573,"OIHH":1935,"OIHI":-493,"OIIH":626,"OIII":-4007,"OKAK":-8156};
+          this.TW1__ = {"につい":-4681,"東京都":2026};
+          this.TW2__ = {"ある程":-2049,"いった":-1256,"ころが":-2434,"しょう":3873,"その後":-4430,"だって":-1049,"ていた":1833,"として":-4657,"ともに":-4517,"もので":1882,"一気に":-792,"初めて":-1512,"同時に":-8097,"大きな":-1255,"対して":-2721,"社会党":-3216};
+          this.TW3__ = {"いただ":-1734,"してい":1314,"として":-4314,"につい":-5483,"にとっ":-5989,"に当た":-6247,"ので,":-727,"ので、":-727,"のもの":-600,"れから":-3752,"十二月":-2287};
+          this.TW4__ = {"いう.":8576,"いう。":8576,"からな":-2348,"してい":2958,"たが,":1516,"たが、":1516,"ている":1538,"という":1349,"ました":5543,"ません":1097,"ようと":-4258,"よると":5865};
+          this.UC1__ = {"A":484,"K":93,"M":645,"O":-505};
+          this.UC2__ = {"A":819,"H":1059,"I":409,"M":3987,"N":5775,"O":646};
+          this.UC3__ = {"A":-1370,"I":2311};
+          this.UC4__ = {"A":-2643,"H":1809,"I":-1032,"K":-3450,"M":3565,"N":3876,"O":6646};
+          this.UC5__ = {"H":313,"I":-1238,"K":-799,"M":539,"O":-831};
+          this.UC6__ = {"H":-506,"I":-253,"K":87,"M":247,"O":-387};
+          this.UP1__ = {"O":-214};
+          this.UP2__ = {"B":69,"O":935};
+          this.UP3__ = {"B":189};
+          this.UQ1__ = {"BH":21,"BI":-12,"BK":-99,"BN":142,"BO":-56,"OH":-95,"OI":477,"OK":410,"OO":-2422};
+          this.UQ2__ = {"BH":216,"BI":113,"OK":1759};
+          this.UQ3__ = {"BA":-479,"BH":42,"BI":1913,"BK":-7198,"BM":3160,"BN":6427,"BO":14761,"OI":-827,"ON":-3212};
+          this.UW1__ = {",":156,"、":156,"「":-463,"あ":-941,"う":-127,"が":-553,"き":121,"こ":505,"で":-201,"と":-547,"ど":-123,"に":-789,"の":-185,"は":-847,"も":-466,"や":-470,"よ":182,"ら":-292,"り":208,"れ":169,"を":-446,"ん":-137,"・":-135,"主":-402,"京":-268,"区":-912,"午":871,"国":-460,"大":561,"委":729,"市":-411,"日":-141,"理":361,"生":-408,"県":-386,"都":-718,"｢":-463,"･":-135};
+          this.UW2__ = {",":-829,"、":-829,"〇":892,"「":-645,"」":3145,"あ":-538,"い":505,"う":134,"お":-502,"か":1454,"が":-856,"く":-412,"こ":1141,"さ":878,"ざ":540,"し":1529,"す":-675,"せ":300,"そ":-1011,"た":188,"だ":1837,"つ":-949,"て":-291,"で":-268,"と":-981,"ど":1273,"な":1063,"に":-1764,"の":130,"は":-409,"ひ":-1273,"べ":1261,"ま":600,"も":-1263,"や":-402,"よ":1639,"り":-579,"る":-694,"れ":571,"を":-2516,"ん":2095,"ア":-587,"カ":306,"キ":568,"ッ":831,"三":-758,"不":-2150,"世":-302,"中":-968,"主":-861,"事":492,"人":-123,"会":978,"保":362,"入":548,"初":-3025,"副":-1566,"北":-3414,"区":-422,"大":-1769,"天":-865,"太":-483,"子":-1519,"学":760,"実":1023,"小":-2009,"市":-813,"年":-1060,"強":1067,"手":-1519,"揺":-1033,"政":1522,"文":-1355,"新":-1682,"日":-1815,"明":-1462,"最":-630,"朝":-1843,"本":-1650,"東":-931,"果":-665,"次":-2378,"民":-180,"気":-1740,"理":752,"発":529,"目":-1584,"相":-242,"県":-1165,"立":-763,"第":810,"米":509,"自":-1353,"行":838,"西":-744,"見":-3874,"調":1010,"議":1198,"込":3041,"開":1758,"間":-1257,"｢":-645,"｣":3145,"ｯ":831,"ｱ":-587,"ｶ":306,"ｷ":568};
+          this.UW3__ = {",":4889,"1":-800,"−":-1723,"、":4889,"々":-2311,"〇":5827,"」":2670,"〓":-3573,"あ":-2696,"い":1006,"う":2342,"え":1983,"お":-4864,"か":-1163,"が":3271,"く":1004,"け":388,"げ":401,"こ":-3552,"ご":-3116,"さ":-1058,"し":-395,"す":584,"せ":3685,"そ":-5228,"た":842,"ち":-521,"っ":-1444,"つ":-1081,"て":6167,"で":2318,"と":1691,"ど":-899,"な":-2788,"に":2745,"の":4056,"は":4555,"ひ":-2171,"ふ":-1798,"へ":1199,"ほ":-5516,"ま":-4384,"み":-120,"め":1205,"も":2323,"や":-788,"よ":-202,"ら":727,"り":649,"る":5905,"れ":2773,"わ":-1207,"を":6620,"ん":-518,"ア":551,"グ":1319,"ス":874,"ッ":-1350,"ト":521,"ム":1109,"ル":1591,"ロ":2201,"ン":278,"・":-3794,"一":-1619,"下":-1759,"世":-2087,"両":3815,"中":653,"主":-758,"予":-1193,"二":974,"人":2742,"今":792,"他":1889,"以":-1368,"低":811,"何":4265,"作":-361,"保":-2439,"元":4858,"党":3593,"全":1574,"公":-3030,"六":755,"共":-1880,"円":5807,"再":3095,"分":457,"初":2475,"別":1129,"前":2286,"副":4437,"力":365,"動":-949,"務":-1872,"化":1327,"北":-1038,"区":4646,"千":-2309,"午":-783,"協":-1006,"口":483,"右":1233,"各":3588,"合":-241,"同":3906,"和":-837,"員":4513,"国":642,"型":1389,"場":1219,"外":-241,"妻":2016,"学":-1356,"安":-423,"実":-1008,"家":1078,"小":-513,"少":-3102,"州":1155,"市":3197,"平":-1804,"年":2416,"広":-1030,"府":1605,"度":1452,"建":-2352,"当":-3885,"得":1905,"思":-1291,"性":1822,"戸":-488,"指":-3973,"政":-2013,"教":-1479,"数":3222,"文":-1489,"新":1764,"日":2099,"旧":5792,"昨":-661,"時":-1248,"曜":-951,"最":-937,"月":4125,"期":360,"李":3094,"村":364,"東":-805,"核":5156,"森":2438,"業":484,"氏":2613,"民":-1694,"決":-1073,"法":1868,"海":-495,"無":979,"物":461,"特":-3850,"生":-273,"用":914,"町":1215,"的":7313,"直":-1835,"省":792,"県":6293,"知":-1528,"私":4231,"税":401,"立":-960,"第":1201,"米":7767,"系":3066,"約":3663,"級":1384,"統":-4229,"総":1163,"線":1255,"者":6457,"能":725,"自":-2869,"英":785,"見":1044,"調":-562,"財":-733,"費":1777,"車":1835,"軍":1375,"込":-1504,"通":-1136,"選":-681,"郎":1026,"郡":4404,"部":1200,"金":2163,"長":421,"開":-1432,"間":1302,"関":-1282,"雨":2009,"電":-1045,"非":2066,"駅":1620,"１":-800,"｣":2670,"･":-3794,"ｯ":-1350,"ｱ":551,"ｸﾞ":1319,"ｽ":874,"ﾄ":521,"ﾑ":1109,"ﾙ":1591,"ﾛ":2201,"ﾝ":278};
+          this.UW4__ = {",":3930,".":3508,"―":-4841,"、":3930,"。":3508,"〇":4999,"「":1895,"」":3798,"〓":-5156,"あ":4752,"い":-3435,"う":-640,"え":-2514,"お":2405,"か":530,"が":6006,"き":-4482,"ぎ":-3821,"く":-3788,"け":-4376,"げ":-4734,"こ":2255,"ご":1979,"さ":2864,"し":-843,"じ":-2506,"す":-731,"ず":1251,"せ":181,"そ":4091,"た":5034,"だ":5408,"ち":-3654,"っ":-5882,"つ":-1659,"て":3994,"で":7410,"と":4547,"な":5433,"に":6499,"ぬ":1853,"ね":1413,"の":7396,"は":8578,"ば":1940,"ひ":4249,"び":-4134,"ふ":1345,"へ":6665,"べ":-744,"ほ":1464,"ま":1051,"み":-2082,"む":-882,"め":-5046,"も":4169,"ゃ":-2666,"や":2795,"ょ":-1544,"よ":3351,"ら":-2922,"り":-9726,"る":-14896,"れ":-2613,"ろ":-4570,"わ":-1783,"を":13150,"ん":-2352,"カ":2145,"コ":1789,"セ":1287,"ッ":-724,"ト":-403,"メ":-1635,"ラ":-881,"リ":-541,"ル":-856,"ン":-3637,"・":-4371,"ー":-11870,"一":-2069,"中":2210,"予":782,"事":-190,"井":-1768,"人":1036,"以":544,"会":950,"体":-1286,"作":530,"側":4292,"先":601,"党":-2006,"共":-1212,"内":584,"円":788,"初":1347,"前":1623,"副":3879,"力":-302,"動":-740,"務":-2715,"化":776,"区":4517,"協":1013,"参":1555,"合":-1834,"和":-681,"員":-910,"器":-851,"回":1500,"国":-619,"園":-1200,"地":866,"場":-1410,"塁":-2094,"士":-1413,"多":1067,"大":571,"子":-4802,"学":-1397,"定":-1057,"寺":-809,"小":1910,"屋":-1328,"山":-1500,"島":-2056,"川":-2667,"市":2771,"年":374,"庁":-4556,"後":456,"性":553,"感":916,"所":-1566,"支":856,"改":787,"政":2182,"教":704,"文":522,"方":-856,"日":1798,"時":1829,"最":845,"月":-9066,"木":-485,"来":-442,"校":-360,"業":-1043,"氏":5388,"民":-2716,"気":-910,"沢":-939,"済":-543,"物":-735,"率":672,"球":-1267,"生":-1286,"産":-1101,"田":-2900,"町":1826,"的":2586,"目":922,"省":-3485,"県":2997,"空":-867,"立":-2112,"第":788,"米":2937,"系":786,"約":2171,"経":1146,"統":-1169,"総":940,"線":-994,"署":749,"者":2145,"能":-730,"般":-852,"行":-792,"規":792,"警":-1184,"議":-244,"谷":-1000,"賞":730,"車":-1481,"軍":1158,"輪":-1433,"込":-3370,"近":929,"道":-1291,"選":2596,"郎":-4866,"都":1192,"野":-1100,"銀":-2213,"長":357,"間":-2344,"院":-2297,"際":-2604,"電":-878,"領":-1659,"題":-792,"館":-1984,"首":1749,"高":2120,"｢":1895,"｣":3798,"･":-4371,"ｯ":-724,"ｰ":-11870,"ｶ":2145,"ｺ":1789,"ｾ":1287,"ﾄ":-403,"ﾒ":-1635,"ﾗ":-881,"ﾘ":-541,"ﾙ":-856,"ﾝ":-3637};
+          this.UW5__ = {",":465,".":-299,"1":-514,"E2":-32768,"]":-2762,"、":465,"。":-299,"「":363,"あ":1655,"い":331,"う":-503,"え":1199,"お":527,"か":647,"が":-421,"き":1624,"ぎ":1971,"く":312,"げ":-983,"さ":-1537,"し":-1371,"す":-852,"だ":-1186,"ち":1093,"っ":52,"つ":921,"て":-18,"で":-850,"と":-127,"ど":1682,"な":-787,"に":-1224,"の":-635,"は":-578,"べ":1001,"み":502,"め":865,"ゃ":3350,"ょ":854,"り":-208,"る":429,"れ":504,"わ":419,"を":-1264,"ん":327,"イ":241,"ル":451,"ン":-343,"中":-871,"京":722,"会":-1153,"党":-654,"務":3519,"区":-901,"告":848,"員":2104,"大":-1296,"学":-548,"定":1785,"嵐":-1304,"市":-2991,"席":921,"年":1763,"思":872,"所":-814,"挙":1618,"新":-1682,"日":218,"月":-4353,"査":932,"格":1356,"機":-1508,"氏":-1347,"田":240,"町":-3912,"的":-3149,"相":1319,"省":-1052,"県":-4003,"研":-997,"社":-278,"空":-813,"統":1955,"者":-2233,"表":663,"語":-1073,"議":1219,"選":-1018,"郎":-368,"長":786,"間":1191,"題":2368,"館":-689,"１":-514,"Ｅ２":-32768,"｢":363,"ｲ":241,"ﾙ":451,"ﾝ":-343};
+          this.UW6__ = {",":227,".":808,"1":-270,"E1":306,"、":227,"。":808,"あ":-307,"う":189,"か":241,"が":-73,"く":-121,"こ":-200,"じ":1782,"す":383,"た":-428,"っ":573,"て":-1014,"で":101,"と":-105,"な":-253,"に":-149,"の":-417,"は":-236,"も":-206,"り":187,"る":-135,"を":195,"ル":-673,"ン":-496,"一":-277,"中":201,"件":-800,"会":624,"前":302,"区":1792,"員":-1212,"委":798,"学":-960,"市":887,"広":-695,"後":535,"業":-697,"相":753,"社":-507,"福":974,"空":-822,"者":1811,"連":463,"郎":1082,"１":-270,"Ｅ１":306,"ﾙ":-673,"ﾝ":-496};
+          
+          return this;
+        }
+        TinySegmenter.prototype.ctype_ = function(str) {
+          for (var i in this.chartype_) {
+            if (str.match(this.chartype_[i][0])) {
+              return this.chartype_[i][1];
+            }
+          }
+          return "O";
+        }
+
+        TinySegmenter.prototype.ts_ = function(v) {
+          if (v) { return v; }
+          return 0;
+        }
+
+        TinySegmenter.prototype.segment = function(input) {
+          if (input == null || input == undefined || input == "") {
+            return [];
+          }
+          var result = [];
+          var seg = ["B3","B2","B1"];
+          var ctype = ["O","O","O"];
+          var o = input.split("");
+          for (i = 0; i < o.length; ++i) {
+            seg.push(o[i]);
+            ctype.push(this.ctype_(o[i]))
+          }
+          seg.push("E1");
+          seg.push("E2");
+          seg.push("E3");
+          ctype.push("O");
+          ctype.push("O");
+          ctype.push("O");
+          var word = seg[3];
+          var p1 = "U";
+          var p2 = "U";
+          var p3 = "U";
+          for (var i = 4; i < seg.length - 3; ++i) {
+            var score = this.BIAS__;
+            var w1 = seg[i-3];
+            var w2 = seg[i-2];
+            var w3 = seg[i-1];
+            var w4 = seg[i];
+            var w5 = seg[i+1];
+            var w6 = seg[i+2];
+            var c1 = ctype[i-3];
+            var c2 = ctype[i-2];
+            var c3 = ctype[i-1];
+            var c4 = ctype[i];
+            var c5 = ctype[i+1];
+            var c6 = ctype[i+2];
+            score += this.ts_(this.UP1__[p1]);
+            score += this.ts_(this.UP2__[p2]);
+            score += this.ts_(this.UP3__[p3]);
+            score += this.ts_(this.BP1__[p1 + p2]);
+            score += this.ts_(this.BP2__[p2 + p3]);
+            score += this.ts_(this.UW1__[w1]);
+            score += this.ts_(this.UW2__[w2]);
+            score += this.ts_(this.UW3__[w3]);
+            score += this.ts_(this.UW4__[w4]);
+            score += this.ts_(this.UW5__[w5]);
+            score += this.ts_(this.UW6__[w6]);
+            score += this.ts_(this.BW1__[w2 + w3]);
+            score += this.ts_(this.BW2__[w3 + w4]);
+            score += this.ts_(this.BW3__[w4 + w5]);
+            score += this.ts_(this.TW1__[w1 + w2 + w3]);
+            score += this.ts_(this.TW2__[w2 + w3 + w4]);
+            score += this.ts_(this.TW3__[w3 + w4 + w5]);
+            score += this.ts_(this.TW4__[w4 + w5 + w6]);
+            score += this.ts_(this.UC1__[c1]);
+            score += this.ts_(this.UC2__[c2]);
+            score += this.ts_(this.UC3__[c3]);
+            score += this.ts_(this.UC4__[c4]);
+            score += this.ts_(this.UC5__[c5]);
+            score += this.ts_(this.UC6__[c6]);
+            score += this.ts_(this.BC1__[c2 + c3]);
+            score += this.ts_(this.BC2__[c3 + c4]);
+            score += this.ts_(this.BC3__[c4 + c5]);
+            score += this.ts_(this.TC1__[c1 + c2 + c3]);
+            score += this.ts_(this.TC2__[c2 + c3 + c4]);
+            score += this.ts_(this.TC3__[c3 + c4 + c5]);
+            score += this.ts_(this.TC4__[c4 + c5 + c6]);
+        //  score += this.ts_(this.TC5__[c4 + c5 + c6]);    
+            score += this.ts_(this.UQ1__[p1 + c1]);
+            score += this.ts_(this.UQ2__[p2 + c2]);
+            score += this.ts_(this.UQ3__[p3 + c3]);
+            score += this.ts_(this.BQ1__[p2 + c2 + c3]);
+            score += this.ts_(this.BQ2__[p2 + c3 + c4]);
+            score += this.ts_(this.BQ3__[p3 + c2 + c3]);
+            score += this.ts_(this.BQ4__[p3 + c3 + c4]);
+            score += this.ts_(this.TQ1__[p2 + c1 + c2 + c3]);
+            score += this.ts_(this.TQ2__[p2 + c2 + c3 + c4]);
+            score += this.ts_(this.TQ3__[p3 + c1 + c2 + c3]);
+            score += this.ts_(this.TQ4__[p3 + c2 + c3 + c4]);
+            var p = "O";
+            if (score > 0) {
+              result.push(word);
+              word = "";
+              p = "B";
+            }
+            p1 = p2;
+            p2 = p3;
+            p3 = p;
+            word += seg[i];
+          }
+          result.push(word);
+
+          return result;
+        }
+
+        lunr.TinySegmenter = TinySegmenter;
+    };
+
+}));
\ No newline at end of file
diff --git a/assets/javascripts/lunr/wordcut.js b/assets/javascripts/lunr/wordcut.js
new file mode 100644
index 000000000..0d898c9ed
--- /dev/null
+++ b/assets/javascripts/lunr/wordcut.js
@@ -0,0 +1,6708 @@
+(function(f){if(typeof exports==="object"&&typeof module!=="undefined"){module.exports=f()}else if(typeof define==="function"&&define.amd){define([],f)}else{var g;if(typeof window!=="undefined"){g=window}else if(typeof global!=="undefined"){g=global}else if(typeof self!=="undefined"){g=self}else{g=this}(g.lunr || (g.lunr = {})).wordcut = f()}})(function(){var define,module,exports;return (function e(t,n,r){function s(o,u){if(!n[o]){if(!t[o]){var a=typeof require=="function"&&require;if(!u&&a)return a(o,!0);if(i)return i(o,!0);var f=new Error("Cannot find module '"+o+"'");throw f.code="MODULE_NOT_FOUND",f}var l=n[o]={exports:{}};t[o][0].call(l.exports,function(e){var n=t[o][1][e];return s(n?n:e)},l,l.exports,e,t,n,r)}return n[o].exports}var i=typeof require=="function"&&require;for(var o=0;o<r.length;o++)s(r[o]);return s})({1:[function(require,module,exports){
+var _ = require("underscore");
+
+var Acceptors = {
+  creators: null,
+  current: null,
+  tag: null,
+
+  init: function() {
+    this.creators = [];
+    this.current = [];
+    this.tag = {};
+  },
+
+  reset: function() {
+    this.current = [];
+    this.tag = {}
+  },
+
+  transit: function(ch) {
+    var self = this;
+
+    self.creators.forEach(function(creator) {
+      var acceptor = creator.createAcceptor(self.tag);
+      if (acceptor) 
+        self.current.push(acceptor);
+    });
+    
+    var _current = [];
+    self.tag = {};
+
+    for (var i = 0; i < self.current.length; i++) {
+      var _acceptor = self.current[i]
+        , acceptor = _acceptor.transit(ch);
+      
+      if (!acceptor.isError) {
+        _current.push(acceptor);
+        self.tag[acceptor.tag] = acceptor;
+      }
+    }
+    self.current = _current;
+
+  },
+
+  getFinalAcceptors: function() {    
+    return this.current.filter(function(acceptor) {
+      return acceptor.isFinal;
+    });
+  }
+};
+
+module.exports = function() {
+  var acceptors = _.clone(Acceptors);
+  acceptors.init();
+  return acceptors;
+};
+
+},{"underscore":25}],2:[function(require,module,exports){
+(function (__dirname){
+
+var LEFT = 0;
+var RIGHT = 1;
+var path = require("path");
+var glob = require("glob");
+
+var WordcutDict = {
+
+
+  init: function (dictPathFile, withDefault, words) {
+    withDefault = withDefault || false
+    var defaultDict = path.normalize(__dirname + "/..") + "/data/tdict-*.txt";
+    this.dict=[]
+    var dictPathIsDefined = dictPathFile !== undefined
+    var dictPath = (withDefault || !dictPathIsDefined) ? [defaultDict]: [];
+    var dictPathFile = dictPathFile || defaultDict
+
+    if(dictPathIsDefined){
+      if (Array.isArray(dictPathFile)) {
+        dictPath.concat.apply(dictPath, dictPathFile);
+      } else {
+        dictPath.push(dictPathFile)
+      }
+    }
+
+    this.addFiles(dictPath, false)
+
+    if(words!==undefined){
+      this.addWords(words, false)
+    }
+    this.finalizeDict();
+  },
+
+  addWords: function(words, finalize){
+    finalize = finalize===undefined || finalize;
+    this.dict.push.apply(this.dict, words)
+    if(finalize){
+      this.finalizeDict();
+    }
+  },
+
+  finalizeDict: function(){
+    this.dict = this.sortuniq(this.dict);
+  },
+
+  addFiles: function(files, finalize){
+    finalize = finalize===undefined || finalize;
+    
+    for (var i = 0; i < 1; i++) {
+      var words = "ก.ก.\nก.ก.น.\nก.ข.ค.\nก.ค.\nก.จ.\nก.ช.น.\nก.ฌ.\nก.ต.\nก.ต.ง.\nก.ต.ช.\nก.ตร.\nก.ท.\nก.น.ช.\nก.บช.\nก.บถ.\nก.ป.ส.\nก.พ.\nก.ม.\nก.ย.\nก.ร.\nก.ล.ต.\nก.ว.\nก.ศ.ว.\nก.ส.ท.\nก.ส.ธ.\nก.ส.อ.\nก.อ.\nกก.ตชด.\nกก.ตร.น.\nกก.ภ.จว.\nกก.รสช.\nกกบ.ขส.ทบ.\nกกล.รพน.\nกง.กห.\nกง.ทบ.\nกง.ทร.\nกซข.ป.\nกซม.ป.\nกทม.กรุงเทพมหานคร\nกบ.ทบ.\nกป.สป.\nกพ.ทบ.\nกพ.ทร.\nกพ.ทหาร\nกร.ทบ.\nกรป.กลาง\nกรอ.พอ.\nกศ.ด.\nกศ.บ.\nกศ.บป.\nกศ.ม.\nกษ.ด.\nกษ.บ.\nกษ.ม.\nกส.ด.\nกส.ทบ.\nกส.บ.\nกส.ม.\nกอ.ปค.\nกอ.รพน.\nกอ.รมน.\nกอ.รสต.\nข.ต.ว.\nขว.ทบ.\nขว.ทร.\nขว.ทหาร\nขส.ทบ.\nขส.ทร.\nขส.ทอ.\nค.ด.\nค.บ.\nค.พ.ศ.\nค.ม.\nค.ร.น.\nค.ร.ฟ.\nค.ร.ม.\nค.ศ.\nค.อ.ด.\nค.อ.บ.\nค.อ.ม.\nคศ.ด.\nคศ.บ.\nคศ.ม.\nง.ด.\nจ.จ.\nจ.จ.จ.\nจ.ช.\nจ.ต.\nจ.ท.\nจ.ป.ร.\nจ.ม.\nจ.ศ.\nจ.ส.ต.\nจ.ส.ท.\nจ.ส.อ.\nจ.อ.\nจ.อ.ร.\nจ.๑๘\nจก.ธน.\nจก.สน.\nช.ค.\nช.ค.บ.\nช.พ.ค.\nช.ส.\nช.ส.ค.\nฌ.ป.ค.\nฌ.ศ.ร.\nฌ.ส.อ.\nฐท.สห.\nด.ช.\nด.ญ.\nด.ต.\nด.ศ.ค.\nด.ศ.ร.\nดย.ทร.\nต.ก.\nต.ค.\nต.จ.\nต.จ.ว.\nต.ช.\nต.ต.\nต.บ.\nต.ม.\nต.ร.\nต.ศ.ร.\nต.ห.\nต.อ.\nต.อ.จ.\nตร.กม.\nตร.ซม.\nตร.ต.\nตร.ทล.\nตร.น.\nตร.ปม.\nตร.ภ.\nตร.ม.\nตร.รฟ.\nตร.ว.\nตร.ส.\nตร.สข.\nท.จ.\nท.จ.ว.\nท.ช.\nท.ญ.\nท.ด.\nท.ท.ท.\nท.ทบ.\nท.บ.\nท.พ.\nท.ม.\nท.ศ.\nทก.ด.\nทก.บ.\nทก.ม.\nทส.ปช.\nทส.รมว.กห.\nทุ.ส.นิ.ม.\nธ.ก.ส.\nธ.ค.\nธ.ญ\nธ.บ.\nน.ช.\nน.ญ.\nน.ด.\nน.ต.\nน.ท.\nน.น.\nน.บ.\nน.บ.ท.\nน.ป.ท.\nน.พ.\nน.ม.\nน.ร.\nน.ว.\nน.ศ.\nน.ส.\nน.ส.พ.\nน.ส.๓\nน.สพ.\nน.อ.\nนปพ.ภ.\nนศ.ด.\nนศ.บ.\nนศ.ม.\nบ.ก.\nบ.ข.ส.\nบ.ช.\nบ.ด.ท.\nบ.ตร.\nบ.ภ.\nบ.ม.\nบก.จร.\nบก.ตชด.\nบก.ตม.\nบก.ทล.\nบก.น.\nบก.ป.\nบก.ปค.\nบก.ปม.\nบก.ภ.เขต\nบก.รน.\nบก.รฟ.\nบก.ร้อย.ตชด.\nบก.ส.\nบกข.ป.\nบจพ.ป.\nบช.ก.\nบช.ด.\nบช.ตชด.\nบช.น.\nบช.บ.\nบช.ปส.\nบช.ภ.\nบช.ม.\nบชท.ป.\nบชน.ป.\nบชส.ป.\nบธ.ด.\nบธ.บ.\nบธ.ม.\nบนท.ป.\nบนอ.ป.\nบปช.ป.\nป.กท.\nป.กศ.\nป.กศ.สูง\nป.จ.\nป.จ.ว.\nป.ช.\nป.ธ.\nป.ป.\nป.ป.ก.\nป.ป.ช.\nป.ป.ป.\nป.ป.ร.\nป.ป.ส.\nป.พ.\nป.พ.พ.\nป.พย.\nป.ม.\nป.ม.ก.\nป.ม.ช.\nป.ม.ธ.\nป.ม.ศ.\nป.ม.อ.\nป.ร.ร.๔\nป.ร.ร.๕\nป.ร.ร.๖\nป.ล.\nป.ว.พ.\nป.วิ.อ.\nป.ส.ส.\nป.อ.\nป.อ.ร.ส.\nป.๑\nปม.วส.\nปอ.พ.\nผกก.ภ.\nผช.ผอ.\nผต.มท.\nผบ.ตร.\nผบ.ทบ.\nผบ.ทร.\nผบ.ทสส.\nผบ.ทอ.\nผบก.น.\nผบก.ป.\nผบก.ปค.\nผบก.ปม.\nผบก.ภ.\nผบช.ก.\nผบช.ตชด.\nผบช.น.\nผบช.ภ.\nผว.กทม.\nผอ.ปจ.\nพ.ก.ง.\nพ.กศ.\nพ.ข.ต.\nพ.ค.\nพ.ค.ช.\nพ.ค.ว.\nพ.ค.ศ.\nพ.จ.ต.\nพ.จ.ท.\nพ.จ.อ.\nพ.ช.\nพ.ช.ค.\nพ.ด.\nพ.ต.\nพ.ต.ต.\nพ.ต.ท.\nพ.ต.อ.\nพ.ต.อ.พิเศษ\nพ.ท.\nพ.บ.\nพ.ป.\nพ.ภ.ม.\nพ.ม.\nพ.ม.ช.\nพ.ย.\nพ.ร.ก.\nพ.ร.ฎ.\nพ.ร.ต.\nพ.ร.ธ.\nพ.ร.บ.\nพ.ศ.\nพ.ศ.บ.\nพ.ส.ร.\nพ.ส.ล.\nพ.อ.\nพ.อ.ต.\nพ.อ.ท.\nพ.อ.พิเศษ\nพ.อ.อ.\nพณ.ด.\nพณ.บ.\nพณ.ม.\nพธ.ด.\nพธ.บ.\nพธ.ม.\nพบ.ด.\nพบ.บ.\nพบ.ม.\nพย.ด.\nพย.บ.\nพย.ม.\nพล.จ.\nพล.ต.\nพล.ต.จ.\nพล.ต.ต.\nพล.ต.ท.\nพล.ต.อ.\nพล.ท.\nพล.ปตอ.\nพล.ม.\nพล.ม.๒\nพล.ร.จ.\nพล.ร.ต.\nพล.ร.ท.\nพล.ร.อ.\nพล.อ.\nพล.อ.จ.\nพล.อ.ต.\nพล.อ.ท.\nพล.อ.อ.\nพลา.ทร.\nพศ.ด.\nพศ.บ.\nพศ.ม.\nพอ.สว.\nภ.ง.ด.\nภ.ง.ด.๙\nภ.ด.\nภ.บ.\nภ.บ.ท.๕\nภ.ป.ร.\nภ.พ.\nภ.ม.\nภ.สถ.บ.\nม.ค.\nม.จ.\nม.ป.ท.\nม.ป.ป.\nม.ป.พ.\nม.ร.ว.\nม.ศ.\nม.อ.\nม.อ.ปัตตานี\nมิ.ย.\nมี.ค.\nยศ.ทบ.\nยศ.ทร.\nยศ.ทอ.\nร.ง.\nร.ด.\nร.ต.\nร.ต.ต.\nร.ต.ท.\nร.ต.อ.\nร.ท.\nร.น.\nร.บ.\nร.พ.\nร.ฟ.ล.\nร.ย.ล.\nร.ย.ส.ท.\nร.ล.\nร.ศ.\nร.ส.พ.\nร.อ.\nรป.ม.\nรร.จปร.\nรร.จอ.\nรร.ชท.\nรร.ตท.\nรร.นร.\nรร.นรต.\nรร.นอ.\nล.ญ.\nล.ว.\nลส.ชบ.\nว.ค.\nว.ฉ.\nว.ช.\nว.ด.ป.\nว.ป.ถ.\nวท.บ.\nศ.บ.\nศ.ป.ก.\nศ.ศ.ป.\nศฝร.ภ.\nศศ.บ.\nศษ.บ.\nศส.บ.\nส.ก.\nส.ก.ศ.ท.\nส.ค.\nส.ค.1\nส.ค.ร.\nส.ค.ส.\nส.ต.\nส.ต.ต.\nส.ต.ท.\nส.ต.อ.\nส.ท.\nส.ทร.\nส.ป.ช.\nส.ป.ส.ท.\nส.ป.อ.\nส.ร.\nส.ล.น.\nส.ว.\nส.ว.ท.\nส.ว.ส.ท.\nส.ส.\nส.ส.ท.\nส.ส.ร.\nส.ห.\nส.อ.\nสถ.บ.\nสนง.สสอ.\nสพ.ญ.\nสพ.บ.\nสว.จร.\nสว.ธร.\nสว.ส.\nสว.สป.\nสว.สส.\nสว.อก.\nสส.บ.\nสุ.จิ.ปุ.ลิ.\nห.ร.ม.\nอ.ก.ค.\nอ.ก.จ.\nอ.จ.\nอ.ช.พ.\nอ.ตร.\nอ.บ.\nอ.ส.ท.\nอ.ส.ม.ท.\nอ.ส.ย.\nอ.อ.ป.\nอส.รด.\nอุ.อา.ก.ส.\nฮ.จ.\nฮ.ท.\nฮ.ฝ.\nฮ.ล.\nฮ.ศ.\nเม.ย.\n\nกรีนิช\nกลันตัน\nกัลกัตตา\nกัวลาลัมเปอร์\nกัศมีร์\nกาฐมาณฑุ\nโกลกาตา\nควิเบก\nคอนเนตทิคัต\nคาบูล\nคุชราต\nคุนหมิง\nเคนตักกี\nเคนทักกี\nเคมบริดจ์\nแคชเมียร์\nแคนซัส\nแคนเบอร์รา\nแคโรไลนา\nแคลิฟอร์เนีย\nโคเปนเฮเกน\nโคลัมโบ\nโคโลราโด\nไครสต์เชิร์ช\nไคโร\nจาการ์ตา\nจำปาศักดิ์\nเจนไน\nเจนีวา\nเจ้อเจียง\nฉงชิ่ง\nเฉิงตู\nชานตง\nชิคาโก\nเชนไน\nเชอร์โนบิล\nซัปโปโร\nซานมารีโน\nซาบาห์\nซาราเยโว\nซาราวัก\nซิดนีย์\nซีอาน\nซีแอตเทิล\nซูริก\nซูริค\nเซเชลส์\nเซนได\nเซี่ยงไฮ้\nโซเฟีย\nโซล\nโซโลมอน\nไซ่ง่อน\nไซบีเรีย\nดัลลัส\nดาโคตา\nดานัง\nดีทรอยต์\nดูไบ\nเดนเวอร์\nเดลาแวร์\nเดียนเบียนฟู\nโดเวอร์\nโดฮา\nไดฟุกุ\nไดฟูกุ\nตรังกานู\nตริโปลี\nตูวาลู\nเตหะราน\nโตเกียว\nโตรอนโต\nทมิฬนาฑู\nทริโปลี\nทิเบต\nเทกซัส\nเท็กซัส\nเทนเนสซี\nเทลอาวีฟ\nแทสเมเนีย\nโทรอนโต\nไทเป\nธากา\nนางาซากิ\nนาริตะ\nนิวเจอร์ซีย์\nนิวเดลี\nนิวยอร์ก\nนิวยอร์ค\nนิวแฮมป์เชียร์\nเนบราสกา\nเนแบรสกา\nเนวาดา\nบรัสเซลส์\nบราซิเลีย\nบอมเบย์\nบอสตัน\nบังกาลอร์\nบังคาลอร์\nบูคาเรสต์\nบูดาเปสต์\nเบงกาซี\nเบนกาซี\nเบรุต\nเบลเกรด\nเบอร์ลิน\nแบกแดด\nปอยเปต\nปะลิส\nปะหัง\nปักกิ่ง\nปัญจาบ\nปัฏนา\nปารีส\nปีนัง\nเประ\nเปียงยาง\nพนมเปญ\nพระตะบอง\nพะโค\nพะสิม\nพาราณสี\nพิหารี\nเพนซิลวาเนีย\nเพนซิลเวเนีย\nฟรานซ์\nฟลอริดา\nฟิลาเดลเฟีย\nฟุกุชิมะ\nฟุกุชิมา\nฟุกุโอกะ\nฟูกูโอกะ\nแฟรงก์เฟิร์ต\nมอสโก\nมะนิลา\nมะละแหม่ง\nมัณฑะเลย์\nมัทราส\nมาดริด\nมิชิแกน\nมินนิโซตา\nมิยางิ\nมิลาน\nมิวนิก\nมิสซูรี\nมุมไบ\nเมน\nเมลเบิร์น\nเมาะตะมะ\nเมาะลำเลิง\nแมนจูเรีย\nแมนเชสเตอร์\nแมนฮัตตัน\nแมริแลนด์\nแมรีแลนด์\nแมสซาชูเซตส์\nยะไข่\nย่างกุ้ง\nยูทาห์\nยูนนาน\nเยรูซาเล็ม\nโยโกฮามา\nริยาด\nรีโอเดจาเนโร\nโรดไอแลนด์\nลอนดอน\nลอสแองเจลิส\nลาปาซ\nลาสเวกัส\nลิสบอน\nลุยเซียนา\nโลซาน\nโลซานน์\nวอชิงตัน\nวอร์ซอ\nวิสคอนซิน\nเวนิส\nเวลส์\nเวอร์จิเนีย\nเวอร์มอนต์\nเวียงจันทน์\nเวียนนา\nแวนคูเวอร์\nไวโอมิง\nสกอตแลนด์\nสก็อตแลนด์\nสตอกโฮล์ม\nสลังงอร์\nเสฉวน\nเสียมราฐ\nเสียมเรียบ\nหงสา\nหงสาวดี\nหนานไห่\nหลวงพระบาง\nหูเป่ย\nหูเป่ย์\nหูหนาน\nเหอเป่ย\nเหอเป่ย์\nเหอหนาน\nอชันตา\nอลาสกา\nอวันตี\nออริกอน\nออสโล\nอะแลสกา\nอัตตะปือ\nอัมมาน\nอัมสเตอร์ดัม\nอัสสัม\nอาบูดาบี\nอาร์คันซอ\nอินเดียนา\nอิบารากิ\nอิลลินอยส์\nอิสตันบูล\nอิสลามาบัด\nอุรุมชี\nอูลานบาตอร์\nเอดินบะระ\nเอเธนส์\nแอตแลนตา\nแอริโซนา\nแอลเจียร์\nโอคลาโฮมา\nโอค็อตสค์\nโอกินาวา\nโอซากา\nโอริสสา\nโอเรกอน\nโอไฮโอ\nไอดาโฮ\nไอโอวา\nฮอนโนลูลู\nฮานอย\nฮาเนดะ\nฮาราเร\nฮาวาย\nฮิโรชิมา\nฮุสตัน\nเฮลซิงกิ\n\nมกรา\nกุมภา\nมีนา\nเมษา\nพฤษภา\nมิถุนา\nกรกฎา\nสิงหา\nกันยา\nตุลา\nพฤศจิกา\nธันวา\nเอ\nบี\nซี\nดี\nอี\nเอฟ\nจี\nเอช\nไอ\nเจ\nเค\nแอล\nเอ็ม\nเอ็น\nโอ\nพี\nคิว\nอาร์\nเอส\nที\nยู\nวี\nดับเบิล\nดับบลิว\nเอ็กซ์\nเอ๊กซ์\nวาย\nแซด\nแอลฟา\nแอลฟ่า\nเบตา\nเบต้า\nแกมมา\nแกมม่า\nเดลตา\nเดลต้า\nโอเมกา\nโอเมก้า\nเมกะ\nกิกะ\nนาโน\nไมโคร\n\nกรรมาชน\nกรอบรูป\nกระดี๊กระด๊า\nกระบับ\nกราวนด์\nกรีน\nกรุ๊ป\nกฤษณ์\nกลาส\nก๊วน\nกษัตริยา\nกษัตริยาธิราช\nก่อนหน้า\nกะบับ\nกับดัก\nกัมมันตะ\nก๊าก\nก๋ากั่น\nกาญจน์\nกาญจนาภิเษก\nกามิกาเซ่\nการันตี\nกาหลิบ\nกิฟท์\nกิมจิ\nกีวี\nกึ๊ก\nกึ๋ย\nกุนซือ\nกุมภาพันธ์\nกู๋\nเกจิ\nเกมส์\nเกย์\nเกรด\nเกรย์\nเกสต์เฮาส์\nเก๊ะ\nเก๋ากี้\nเกิร์ล\nแกงค์\nแกรนด์\nแกสโซฮอล์\nแก๊สโซฮอล์\nโกเต็กซ์\nโกลด์\nโกะ\nโก๊ะ\nไกด์\nขั้นตอน\nเขวี้ยง\nคณาญาติ\nครัวซอง\nครัวซองต์\nคร่ำครวญ\nครีเอทีฟ\nครูเสด\nคลับ\nคลาสสิก\nคลิตอริส\nคลิป\nความหมาย\nควิก\nควีน\nคองเกรส\nคอนซูเมอร์\nคอนเซปต์\nคอนเซ็ปต์\nคอนโด\nคอนโดมิเนียม\nคอนเทนเนอร์\nคอนแทค\nคอนแท็ค\nคอนโทรล\nคอนเฟิร์ม\nคอปเตอร์\nคอมพ์\nคอมเพล็กซ์\nคอมมอนส์\nคอมเมนท์\nคอมเมนต์\nคอร์ป\nคอร์ปอเรชั่น\nคอร์รัปชัน\nคอร์รัปชั่น\nคอรัปชัน\nคอรัปชั่น\nคอร์ส\nคอลเล็กชั่น\nคอลัมน์\nคอลัมนิสต์\nคัตเอาต์\nคันคาก\nคันถธุระ\nคันธาระ\nคันยิ\nคัสตาร์ด\nคาราโอเกะ\nคีตกวี\nคีตปฏิภาณ\nคีตราชัน\nคาปูชิโน\nคามิคาเซ่\nคาเฟ่\nคาร์\nคาร์โก้\nคาราเมล\nคาแรกเตอร์\nคาแร็กเตอร์\nคาแรคเตอร์\nคาแร็คเตอร์\nคาวบอย\nคาสิโน\nคิกขุ\nคิวบิก\nคูลเลอร์\nเคบับ\nเครป\nเคลม\nเคลียร์\nเคลื่อนย้าย\nเคส\nเคอร์ฟิว\nแคชเชียร์\nแคทวอล์ค\nแคนดิเดต\nแคนตาลูป\nแคนยอน\nแคนู\nแคป\nแคมป์\nแคมปัส\nแคมเปญ\nแคร์\nแครกเกอร์\nแคร็กเกอร์\nแครอท\nแคสต์\nแคสติง\nแคสติ้ง\nโค้ก\nโค้ช\nโคโยตี\nโคโยตี้\nโครนา\nโคอะล่า\nโคอาลา\nโคอาล่า\nไคลแมกซ์\nไคลแม็กซ์\nงั้น\nง่าว\nงี้\nเง็ง\nโง่เขลา\nไง\nจตุคาม\nจ๊อกกี้\nจอหงวน\nจังโก้\nจัมโบ้\nจ๊าบ\nจารกรรม\nจารชน\nจิ๊ก\nจิ๊กโก๋\nจิ๊กซอว์\nจิตพิสัย\nจิตเภท\nจีดีพี\nจึ๊ก\nจุ๊ย\nจูน\nจูเนียร์\nเจ๊\nเจได\nเจ็ต\nเจล\nเจ๊าะแจ๊ะ\nเจี๊ยว\nแจ็กเก็ต\nแจ๊กเก็ต\nแจ็กพอต\nแจ็กพ็อต\nแจ๊กพอต\nแจ๊กพ็อต\nแจม\nแจ๊ส\nโจ๋\nฉลุย\nเฉิ่ม\nชนะเลิศ\nช็อค\nช็อต\nช็อป\nช็อปปิ้ง\nช็อปเปอร์\nชะโนด\nชัตเตอร์\nชัวร์\nชาร์จ\nชาร์ต\nชาร์ป\nชินบัญชร\nชิฟฟอน\nชีส\nชีอะห์\nเช็ก\nเช็งเม้ง\nเชฟ\nเชลียร์\nเชอร์รี่\nแชเชือน\nแช่แข็ง\nแชมป์\nแชมปิยอง\nแชมเปญ\nแชมเปี้ยน\nแชมพู\nโชว์รูม\nโชห่วย\nใช้งาน\nไชน่า\nซ้อ\nซอมบี้\nซะ\nซังเต\nซันตาคลอส\nซัพพลาย\nซัพพลายเออร์\nซัมเมอร์\nซากุระ\nซาดิสต์\nซาดิสม์\nซาตาน\nซานตาคลอส\nซาฟารี\nซาบะ\nซามูไร\nซาร์\nซาร์ดีน\nซาเล้ง\nซิง\nซิ่ง\nซิงเกิล\nซิตี\nซิตี้\nซินโดรม\nซิม\nซิ้ม\nซิมโฟนี\nซิมโฟนี่\nซิลเวอร์\nซี้\nซี้ซั้ว\nซีดาน\nซีน\nซีนีเพล็กซ์\nซีเนียร์\nซีร็อกซ์\nซีรีส์\nซีเรียส\nซีอีโอ\nซื่อบื้อ\nซุนหนี่\nซุปเปอร์\nซูชิ\nซูเปอร์\nซูม\nซูโม่\nซูเอี๋ย\nซูฮก\nเซ็กซ์\nเซ็กซี่\nเซ็กส์\nเซนเซอร์\nเซ็นเซอร์\nเซนเตอร์\nเซ็นเตอร์\nเซ็นทรัล\nเซนส์\nเซ่นไหว้\nเซฟตี้\nเซรามิก\nเซลส์\nเซลส์แมน\nเซอร์\nเซอร์ไพรส์\nเซอร์วิส\nเซาท์\nเซี้ยว\nแซ็ก\nแซกโซโฟน\nแซ็กโซโฟน\nแซนด์วิช\nแซมบ้า\nแซลมอน\nแซว\nโซเชียล\nโซน\nโซนี่\nโซลาร์\nโซโล\nโซโล่\nญาณทัสสนะ\nดยุก\nดยุค\nดร็อป\nดรัมเมเยอร์\nดรามา\nดราม่า\nดอกเตอร์\nด็อกเตอร์\nดัมพ์\nดั๊มพ์\nดาวน์\nดิกชันนารี\nดิสเครดิต\nดีกรี\nดีเจ\nดีไซน์\nดีไซน์เนอร์\nดีไซเนอร์\nดีเบต\nดีพาร์ตเมนต์\nดีพาร์ตเมนท์\nดีพาร์ทเมนต์\nดีพาร์ทเมนท์\nดีมานด์\nดีล\nดีลเลอร์\nดีเลย์\nเดชานุภาพ\nเดบิต\nเดโม\nเดย์\nเด้อ\nเดอะ\nเด๊ะ\nเดี้ยง\nเดี๊ยะ\nแดนซ์\nแดนเซอร์\nแดรี่\nโดนัท\nโดมิโน\nโดรายากิ\nไดเอ็ต\nตถตา\nตนเอง\nตรวจทาน\nตรวจสอบ\nตอกย้ำ\nต๊อง\nต่อยอด\nต่อรอง\nตะหงิด\nตังค์\nตันเถียน\nตัวตน\nตัวเอง\nตาปรือ\nต้าอ่วย\nติงต๊อง\nติ๋ม\nติ่มซำ\nติว\nติวเตอร์\nตี๋\nตื้บ\nตุ๊ก\nตุ๊กตุ๊ก\nตุ๊ด\nตุ๋ย\nตู้เซฟ\nเต๊ะ\nเตี๊ยม\nแตงกวา\nแตงโม\nแต๋ว\nโต๋เต๋\nโต๊ะจีน\nไตรมาส\nถ่ายทำ\nถูกต้อง\nทงคัตสึ\nทริป\nทรู\nทอม\nท็อป\nทอร์นาโด\nทอล์ค\nทักซิโด\nทันตกรรม\nทันตแพทยศาสตร์\nทับซ้อน\nทัวร์\nทัวร์นาเมนต์\nทัวร์นาเมนท์\nทัวริสต์\nทาเลนต์\nทาวน์\nทาวน์เฮาส์\nทำงาน\nทิป\nทิพยสมบัติ\nทิวลิป\nทีรามิสุ\nทีวี\nทูน่า\nเท็กซ์\nเทค\nเทคโน\nเทคโนแครต\nเทควันโด\nเทป\nเทรด\nเทรนด์\nเทรนเนอร์\nเทรลเลอร์\nเทรลเล่อร์\nเทเลกราฟ\nเทวบัญชา\nเทวบุตร\nเทวา\nเทวาธิราช\nเทโวโรหนะ\nเทอร์โบ\nเที่ยงคืน\nเที่ยงวัน\nเทียมทาน\nแทกติค\nแทคติค\nแทงกั๊ก\nแทงโก้\nโทมาฮอก\nโทมาฮอว์ก\nโทมาฮอว์ค\nโทร\nโทรโข่ง\nไทม์\nไทยแลนด์\nไทเฮา\nธรรมา\nธรรมาภิบาล\nธัมโม\nธีม\nธุรกรรม\nธุหร่ำ\nเธค\nนพมาศ\nนรีแพทย์\nน็อก\nน็อค\nน้องใหม่\nนอมินี\nนอร์ท\nน่ะ\nนางแบบ\nนาฏยศาลา\nนายแบบ\nนายพราน\nนินจา\nนิรันดร์\nนิว\nนิวส์\nนู้ด\nเนอะ\nเนิร์สเซอรี\nเนิร์สเซอรี่\nเนี้ยบ\nโนติส\nไนท์\nไนน์\nบรรพชน\nบร็อกโคลี\nบร็อคโคลี\nบรา\nบริกร\nบริวเวอรี่ส์\nบลอนด์\nบลูเบอร์รี\nบลูเบอร์รี่\nบ๊วย\nบอกซ์\nบ็อกซ์\nบ๊อกซ์\nบอดี้\nบอนด์\nบ๊อบ\nบอมบ์\nบ๋อย\nบอยคอต\nบอยคอตต์\nบอร์ด\nบังเกอร์\nบัตเตอร์\nบัลลาสต์\nบัส\nบาบูน\nบาร์บีคิว\nบาร์บี้\nบาลานซ์\nบิ๊ก\nบิล\nบึม\nบึ้ม\nบุญคุณ\nบุ๋น\nบุปผา\nบู๊\nบูชิโด\nบูติก\nบูติค\nบูม\nเบเกอรี่\nเบญจมบพิตร\nเบตาดีน\nเบนโตะ\nเบนโล\nเบบี้\nเบลอ\nเบอร์เกอร์\nเบอร์รี\nเบิร์ด\nเบิร์น\nแบ็กโฮ\nแบคโฮ\nแบด\nแบต\nแบนเนอร์\nแบรนด์\nแบล็ก\nแบล็ค\nไบโอ\nโบกี้\nโบตั๋น\nโบ้ย\nโบรกเกอร์\nโบรชัวร์\nโบว์\nโบว์ลิ่ง\nไบเบิล\nปฏิสัมพันธ์\nป๊อก\nปอดแหก\nป๊อป\nป๋อหลอ\nปักขคณนา\nปัจเจกชน\nปัจฉิมนิเทศ\nป๊า\nป๋า\nป่าไม้\nปาร์ตี้\nปาสกาล\nปาสคาล\nปาสเตอร์\nปิกอัพ\nปิ๊ง\nปิโตรเคมี\nปิยมิตร\nปึ้ก\nปูอัด\nเปโซ\nเป็นไง\nเปปเปอร์มินต์\nเปเปอร์\nเปราะบาง\nเป๊ะ\nเป่ายิงฉุบ\nเป่ายิ้งฉุบ\nเปียโน\nแป้ก\nแป๋ว\nแป๊ะเจี๊ยะ\nโปร\nโปรเจกต์\nโปรเจ็กต์\nโปรเจกเตอร์\nโปรเจ็กเตอร์\nโปรเจคท์\nโปรเจ็คท์\nโปรดักชั่น\nโปรดิวเซอร์\nโปรโมชั่น\nโปรโมต\nโปรโมเตอร์\nโปรโมท\nโปลิศ\nโปสเตอร์\nผลไม้\nผลักดัน\nผ้าห่ม\nผิดพลาด\nผู้นำ\nแผดเผา\nเฝอ\nพงษ์\nพริตตี้\nพรีเซนต์\nพรีเซ็นเตอร์\nพรีเมียม\nพรีเมียร์\nพฤหัส\nพล็อต\nพลาซ่า\nพลานุภาพ\nพ่อค้า\nพอเพียง\nพะเรอ\nพันธกิจ\nพันธุวิศวกรรม\nพาร์\nพาร์ตเนอร์\nพาร์ทเนอร์\nพาวเวอร์\nพาสเจอร์ไรส์\nพาสตา\nพาสต้า\nพาสปอร์ต\nพาเหรด\nพิซซ่า\nพีเรียด\nพุดดิ้ง\nพุทธภูมิ\nพุทธศตวรรษ\nพุทโธ\nพูล\nเพทนาการ\nเพนกวิน\nเพนตากอน\nเพรส\nเพรียวบาง\nเพลซ\nเพลท\nเพลย์บอย\nเพียบแปร้\nเพียว\nเพาเวอร์\nแพกเกจ\nแพ็ค\nแพตเทิร์น\nแพทเทิร์น\nแพทยสภา\nแพนงเชิญ\nแพนดา\nแพนด้า\nแพลน\nโพลล์\nโพลารอยด์\nโพสต์\nไพลิน\nฟยอร์ด\nฟรังก์\nฟรุต\nฟลอร์\nฟลุก\nฟลุค\nฟลุต\nฟลุท\nฟอยล์\nฟอร์ม\nฟันด์\nฟาวล์\nฟาสต์ฟู้ด\nฟินิกซ์\nฟิวเจอร์\nฟีด\nฟีเวอร์\nฟุตบาท\nเฟรช\nเฟรชชี่\nเฟรม\nเฟมินิสต์\nเฟส\nเฟอร์นิเจอร์\nเฟอร์รี่\nเฟิร์ม\nเฟี้ยวฟ้าว\nแฟกซ์\nแฟ็กซ์\nแฟนซี\nแฟนตาซี\nแฟ้บ\nแฟร์\nแฟรนไชส์\nแฟรี\nแฟรี่\nแฟลช\nแฟล็ต\nโฟน\nโฟม\nโฟล์ค\nไฟต์\nไฟแนนซ์\nไฟลต์\nไฟลท์\nภควัทคีตา\nภควัมบดี\nภควัมปติ\nภคันทลาพาธ\nภววิสัย\nภารตะ\nภูมิทัศน์\nม้ง\nมวลชน\nมยุราภิรมย์\nมลภาวะ\nมหภาค\nมหาอุปราชา\nมอคคา\nมอคค่า\nมอนสเตอร์\nม็อบ\nมอบตัว\nมอยส์เจอไรเซอร์\nมอลล์\nมะกัน\nมั้ง\nมัฟฟิน\nมั้ย\nม้านั่ง\nมาเฟีย\nมาม่า\nมายองเนส\nมายาคติ\nมาร์ก\nมาร์เก็ต\nมาร์เก็ตติ้ง\nมาร์ค\nมาร์จิน\nมาร์ช\nมาร์ต\nมาร์ท\nมาราธอน\nม้าหินอ่อน\nมินต์\nมินท์\nมินิ\nมิลค์\nมิวสิค\nมิสซัง\nมิสไซล์\nมิสเตอร์\nมือถือ\nมุมมอง\nเมคอัพ\nเมจิก\nเมจิค\nเมทัล\nเมเปิล\nเมาท์\nเมี่ยงคำ\nแมกกาซีน\nแม็กกาซีน\nแมคเคอเรล\nแม่ค้า\nแมชชีน\nแมชีน\nแมนชั่น\nแมมบ้า\nแมมโบ้\nโมจิ\nโมเดล\nโมเดิร์น\nโมเต็ล\nโมโนเรล\nโมหจริต\nไมค์\nไมเกรน\nยนตรกรรม\nยอมรับ\nยะเยือก\nยังไง\nยากูซ่า\nยาวี\nยิม\nยิว\nยุวทูต\nยูโทเปีย\nยูโร\nยูวี\nเยน\nเยลลี่\nเย้ว\nเยอบีรา\nเยอบีร่า\nเยอร์บีรา\nเยอร์บีร่า\nแยมโรล\nโยเกิร์ต\nโยโย่\nรวมมิตร\nร็อค\nร็อคเก็ต\nรองรับ\nรอมฎอน\nรอยัลตี้\nระโงก\nรันเวย์\nรัม\nรากหญ้า\nราชบัณฑิตยสถาน\nราชานุญาต\nราชานุสาวรีย์\nรามเทพ\nรามาธิบดี\nรามายณะ\nราเม็ง\nราเมน\nรายชื่อ\nราสเบอร์รี\nริกเตอร์\nริคเตอร์\nรีไซเคิล\nรีดไถ\nรีทัช\nรีเทิร์น\nรีไทร์\nรีแบรนด์\nรีพอร์ท\nรีโมต\nรีโมท\nรีวิว\nรีสอร์ต\nรีสอร์ท\nรีเสิร์ช\nรุมบ้า\nรุสโซ\nรูบิก\nรูบิค\nเรซิน\nเรซิ่น\nเรดิโอ\nเรต\nเรตติ้ง\nแรงใจ\nแรงดูด\nแรงผลัก\nแรลลี\nแรลลี่\nโรดแมป\nโรเนียว\nโรแมนติก\nโรแมนติค\nโรล\nโรลออน\nไรเฟิล\nล็อกเกอร์\nลอจิสติกส์\nล็อต\nล็อบบี้\nลอร์ด\nล้มเหลว\nละติน\nละอ่อน\nลาซานญ่า\nลาติน\nลาเต้\nลานีญา\nลามะ\nลิมิต\nลิมูซีน\nลิสต์\nลีก\nลีด\nลีดเดอร์\nลีเมอร์\nลีลาวดี\nลุค\nลูกชาย\nลูกสาว\nเลกเชอร์\nเลคเชอร์\nเลดี้\nเลสเบี้ยน\nเลิฟ\nแลนด์\nแล็บ\nโลโก้\nโลชั่น\nไลท์\nไลน์\nไลฟ์\nวนาราม\nวราราม\nวโรกาส\nว้อดก้า\nวอเตอร์\nวอฟเฟิล\nว้อย\nวอร์ม\nวอร์มอัพ\nวอร์รูม\nวอล์ก\nวอล์ค\nวอลซ์\nวอลนัต\nวอลนัท\nวอลล์\nว่ะ\nวันเวย์\nวัสสา\nวาซาบิ\nวาทกรรม\nวาทะ\nวานิลลา\nวานิลา\nวาฟเฟิล\nวาริชศาสตร์\nว้าว\nวัคค์\nวัจนะ\nวาไรตี้\nวิก\nวิดีโอ\nวิทย์\nวิน\nวิป\nวิปปิ้ง\nวิภัชภาค\nวิว\nวิลล์\nวิลเลจ\nวีเจ\nวีซ่า\nวีดิทัศน์\nวีน\nวีไอพี\nวืด\nเวณิกา\nเวเฟอร์\nเวสต์\nเวอร์\nเวิร์ก\nเวิร์กช็อป\nเวิร์ค\nเวิร์ลด์\nเวิลด์\nแวมไพร์\nไวกิ้ง\nไวเบรเตอร์\nไวอะกร้า\nไวอากร้า\nศากยบุตร\nศิรินทร์\nศิลปวัฒนธรรม\nศิลปากร\nศิวิไลซ์\nศึกษาศาสตร์\nสกรัม\nสกาย\nสกู๊ป\nสเกตช์\nสเก็ตช์\nสคริปต์\nสแควร์\nสงบสุข\nสจ๊วต\nสตรอเบอร์รี\nสตรอเบอรี\nสตรอว์เบอร์รี\nสตริง\nสต็อก\nสต๊อก\nสต็อค\nสต๊อค\nสตอรี\nสตาร์\nสตาร์ท\nสติกเกอร์\nสติ๊กเกอร์\nสตีล\nสตูดิโอ\nสเตชัน\nสเตชั่น\nสเตเดียม\nสเตนเลส\nสเต็ป\nสเตย์\nสเตริโอ\nสเตอริโอ\nสแตนดาร์ด\nสแตนเลส\nสโตน\nสโตร์\nสไตรค์\nสไตล์\nสถาปัตย์\nสไนเปอร์\nสปอต\nสป็อต\nสปอนเซอร์\nสปอร์ต\nสปา\nสปาย\nสปิริต\nสเปก\nสเปค\nสไปเดอร์\nสมณพราหมณ์\nสมาพันธ์\nสมิติเวช\nสโรชา\nสลัม\nสแล็ก\nสโลแกน\nสโลว์\nสไลด์\nสวีท\nสหรัฐ\nสหัชญาณ\nสหัสวรรษ\nสะกอม\nสะเด่า\nสะบึม\nสะบึมส์\nสะออน\nสังโฆ\nสะโหลสะเหล\nสันทนาการ\nสัมนา\nสามช่า\nสามแยก\nสารขัณฑ์\nสี่แยก\nสึนามิ\nสุนทรีย์\nสุริยยาตร\nสุริยยาตร์\nสุหนี่\nเสกสรรค์\nเสพติด\nเสือโคร่ง\nหงวน\nหน่อมแน้ม\nหมวย\nหมั่นโถว\nหม่านโถว\nหมายปอง\nหมิง\nหยวน\nหลวงตา\nหลวงปู่\nหลวงพี่\nหล่อฮังก้วย\nหลินจือ\nห่วย\nเห็นด้วย\nเหมย\nเห่ย\nเหี่ยวย่น\nแหม็บ\nแหวว\nโหงว\nโหงวเฮ้ง\nโหลน\nโหลยโท่ย\nไหง\nไหร่\nอพาร์ตเมนต์\nอพาร์ตเมนท์\nอพาร์ทเมนต์\nอพาร์ทเมนท์\nอมาตยาธิปไตย\nอยุติธรรม\nอริยสงฆ์\nอ่วม\nอวอร์ด\nออกแบบ\nออดิชั่น\nออดิทอเรียม\nออเดอร์\nออโต้\nออทิสติก\nอ่อนด้อย\nออฟ\nออยล์\nออร์แกน\nออร์แกนิก\nออร์แกนิค\nออร์เดอร์\nออรัล\nออสซี่\nอะ\nอัตลักษณ์\nอัตวิสัย\nอันเดอร์\nอันตรกิริยา\nอัลตรา\nอัลไซเมอร์\nอัลบัม\nอัลบั้ม\nอัลมอนด์\nอาข่า\nอาโนเนะ\nอาฟเตอร์\nอาร์ติสต์\nอาร์พีจี\nอาว์\nอาสวะ\nอิกัวนา\nอินดอร์\nอินดัสตรีส์\nอินเตอร์\nอิ่มแปร้\nอิมพีเรียล\nอิเล็กทริก\nอิเล็กทริค\nอิเลียด\nอิสรชน\nอิเหนา\nอิออน\nอีแต๋น\nอีโรติก\nอีเวนท์\nอีสต์\nอีสเตอร์\nอึ๊บ\nอึ้ม\nอึ๋ม\nอึมครึม\nอุด้ง\nอุตสาหการ\nอุเทน\nอุปการคุณ\nอุปทาน\nอุปนายก\nอุปนายิกา\nอุปสงค์\nอุปัทวเหตุ\nอุรังคธาตุ\nอูคูเลเล่\nอู้ฟู่\nเอ๋\nเอ็กซ์โป\nเอ็กซ์เพรส\nเอ็กโซเซต์\nเอ็กโซเซ่ต์\nเอเซีย\nเอ็นจีโอ\nเอ็นเตอร์เทน\nเอนทรานซ์\nเอ็นทรานซ์\nเอฟเฟ็กต์\nเอเยนต์\nเอลนีโญ\nเอสเปรสโซ\nเอสเพรสโซ\nเอ๋อ\nเอาต์\nเอาท์\nเอาท์ดอร์\nเอ๊าะ\nแอ็กชั่น\nแอ็คชั่น\nแอคทีฟ\nแอดมิชชั่น\nแอดมิสชัน\nแอนด์\nแอ๊บแบ๊ว\nแอปเปิล\nแอปเปิ้ล\nแอปพริคอท\nแอพพริคอท\nแอพริคอต\nแอร์\nแอโรบิก\nแอโรบิค\nแอลมอนด์\nแอสเตอร์\nโอเค\nโอเปอเรเตอร์\nโอเปร่า\nโอเพ่น\nโอ้ย\nโอยัวะ\nโอรสาธิราช\nโอเลี้ยง\nโอวัลติน\nโอเวอร์\nไอซ์\nไอซียู\nไอดอล\nไอเดีย\nไอติม\nฮวงจุ้ย\nฮ่องเต้\nฮองเฮา\nฮอต\nฮ็อต\nฮอตดอก\nฮ็อตด็อก\nฮันนีมูน\nฮัม\nฮัลโลวีน\nฮัลโหล\nฮากกา\nฮาร์ด\nฮาราคีรี\nฮาลาล\nฮาโลวีน\nฮิ\nฮิต\nฮิบรู\nฮิปโป\nฮิปฮอป\nฮีโร่\nฮูลาฮูป\nฮูล่าฮูป\nเฮฟวี\nเฮฟวี่\nเฮอร์ริเคน\nเฮีย\nแฮนด์\nแฮปปี้\nแฮมเบอร์เกอร์\nโฮป\nโฮม\nโฮลดิงส์\nโฮลวีต\nโฮสเตส\nไฮกุ\nไฮแจ็ค\nไฮโซ\nไฮเทค\nไฮบริด\nไฮเปอร์\nไฮไลต์\nไฮไลท์\nไฮเวย์\nไฮสคูล\nไฮเอนด์\n\nกรีซ\nกัมพูชา\nกัวเตมาลา\nกาตาร์\nกานา\nกาบอง\nกายอานา\nกินี\nเกรนาดีนส์\nเกรเนดา\nเกาหลี\nแกมเบีย\nโกตดิวัวร์\nคองโก\nคอโมโรส\nคอสตาริกา\nคาซัคสถาน\nคิตส์\nคิริบาตี\nคิริบาส\nคิวบา\nคีร์กีซสถาน\nคูเวต\nเคนยา\nเคปเวิร์ด\nเคย์แมน\nแคนาดา\nแคเมอรูน\nโครเอเชีย\nโคลอมเบีย\nจอร์เจีย\nจอร์แดน\nจาเมกา\nจิบูตี\nจีน\nชาด\nชิลี\nเช็ก\nซามัว\nซาอุ\nซิมบับเว\nซีเรีย\nซูดาน\nซูรินาเม\nเซนต์\nเซเนกัล\nเซอร์เบีย\nเซาตูเม\nเซียร์รา\nแซมเบีย\nโซมาเลีย\nโซเวียต\nไซปรัส\nญี่ปุ่น\nดารุสซาลาม\nเดนมาร์ก\nโดมินิกัน\nโดมินิกา\nตรินิแดด\nตองกา\nติมอร์\nตุรกี\nตูนิเซีย\nเติร์กเมนิสถาน\nโตโก\nโตเบโก\nไต้หวัน\nทาจิกิสถาน\nแทนซาเนีย\nนอร์เวย์\nนามิเบีย\nนาอูรู\nนิการากัว\nนิวซีแลนด์\nเนเธอร์แลนด์\nเนปาล\nเนวิส\nไนจีเรีย\nไนเจอร์\nบราซิล\nบริติช\nบริเตน\nบรูไน\nบอตสวานา\nบอสเนีย\nบังกลาเทศ\nบังคลาเทศ\nบัลแกเรีย\nบาร์บูดา\nบาร์เบโดส\nบาห์เรน\nบาฮามาส\nบิสเซา\nบุรุนดี\nบูร์กินาฟาโซ\nเบนิน\nเบลเยียม\nเบลารุส\nเบลีซ\nเบอร์มิวดา\nโบลิเวีย\nปรินซิปี\nปากีสถาน\nปานามา\nปาปัวนิวกินี\nปารากวัย\nปาเลสไตน์\nปาเลา\nเปรู\nเปอร์เซีย\nเปอร์โตริโก\nโปรตุเกส\nโปแลนด์\nฝรั่งเศส\nพม่า\nฟิจิ\nฟินแลนด์\nฟิลิปปินส์\nเฟรนช์\nภูฏาน\nภูฐาน\nมองโกเลีย\nมอนเตเนโกร\nมอนแทนา\nมอริเชียส\nมอริเตเนีย\nมอลโดวา\nมอลตา\nมัลดีฟส์\nมาเก๊า\nมาซิโดเนีย\nมาดากัสการ์\nมาร์แชลล์\nมาลาวี\nมาลี\nมาเลเซีย\nเม็กซิโก\nเมียนมาร์\nโมซัมบิก\nโมนาโก\nโมนาโค\nโมร็อกโก\nไมโครนีเซีย\nยูกันดา\nยูโกสลาเวีย\nยูเครน\nเยเมน\nเยอรมนี\nรวันดา\nรัสเซีย\nโรมาเนีย\nลักเซมเบิร์ก\nลัตเวีย\nลาว\nลิกเตนสไตน์\nลิทัวเนีย\nลิเบีย\nลีโอน\nลูเซีย\nเลโซโท\nเลบานอน\nเลสเต\nไลบีเรีย\nวาติกัน\nวานูอาตู\nวินเซนต์\nเวเนซุเอลา\nเวียดนาม\nศรีลังกา\nสเปน\nสโลวะเกีย\nสโลวัก\nสโลวีเนีย\nสวาซิแลนด์\nสวิตเซอร์แลนด์\nสวีเดน\nสหรัฐ\nสหราชอาณาจักร\nสิกขิม\nสิงคโปร์\nอเมริกา\nออสเตรเลีย\nออสเตรีย\nอันดอร์รา\nอัฟกานิสถาน\nอาเซอร์ไบจาน\nอาร์เจนตินา\nอาร์เมเนีย\nอาระเบีย\nอิเควทอเรียล\nอิตาลี\nอินเดีย\nอินโดนีเซีย\nอิรัก\nอิสราเอล\nอิหร่าน\nอียิปต์\nอุซเบกิสถาน\nอุรุกวัย\nเอกวาดอร์\nเอธิโอเปีย\nเอมิเรตส์\nเอริเทรีย\nเอลซัลวาดอร์\nเอสโตเนีย\nแองโกลา\nแอนติกา\nแอลจีเรีย\nแอลเบเนีย\nโอมาน\nไอซ์แลนด์\nไอร์แลนด์\nฮ่องกง\nฮอนดูรัส\nฮังการี\nเฮติ\nเฮอร์เซโกวีนา\n\nกระบี่\nกรุงเทพ\nกาญจนบุรี\nกาฬสินธุ์\nกำแพงเพชร\nขอนแก่น\nจันทบุรี\nฉะเชิงเทรา\nชลบุรี\nชัยนาท\nชัยภูมิ\nชุมพร\nเชียงราย\nเชียงใหม่\nตรัง\nตราด\nตาก\nนครนายก\nนครปฐม\nนครพนม\nนครราชสีมา\nนครศรีธรรมราช\nนครสวรรค์\nนนทบุรี\nนราธิวาส\nน่าน\nบึงกาฬ\nบุรีรัมย์\nปทุมธานี\nประจวบคีรีขันธ์\nปราจีนบุรี\nปัตตานี\nพะเยา\nพังงา\nพัทลุง\nพิจิตร\nพิษณุโลก\nเพชรบุรี\nเพชรบูรณ์\nแพร่\nภูเก็ต\nมหาสารคาม\nมุกดาหาร\nแม่ฮ่องสอน\nยโสธร\nยะลา\nร้อยเอ็ด\nระนอง\nระยอง\nราชบุรี\nลพบุรี\nลำปาง\nลำพูน\nเลย\nศรีสะเกษ\nสกลนคร\nสงขลา\nสตูล\nสมุทรปราการ\nสมุทรสงคราม\nสมุทรสาคร\nสระแก้ว\nสระบุรี\nสิงห์บุรี\nสุโขทัย\nสุพรรณบุรี\nสุราษฎร์\nสุราษฎร์ธานี\nสุรินทร์\nหนองคาย\nหนองบัวลำภู\nอยุธยา\nอ่างทอง\nอำนาจเจริญ\nอุดรธานี\nอุตรดิตถ์\nอุทัยธานี\nอุบลราชธานี\nกันทรลักษ์\nจตุจักร\nไชยา\nซีคอน\nดอนเมือง\nถลาง\nไทรโยค\nธนบุรี\nธัญบุรี\nบางกอก\nบางปะกง\nบางระจัน\nปะทิว\nปาย\nพญาไท\nพัฒน์พงษ์\nพัทยา\nพารากอน\nภูมิซรอล\nรัตนาธิเบศร์\nรังสิต\nลันตา\nลาดพร้าว\nวโรรส\nวิภาวดี\nสตึก\nสมุย\nสัตหีบ\nสิมิลัน\nสุขุมวิท\nสุไหง\nเสลภูมิ\nอังรีดูนังต์\nอ่างขาง\nอินทนนท์\nเอ็มโพเรียม\n\nคิวชู\nแคริบเบียน\nแคสเปียน\nดานูบ\nตะนาวศรี\nนอร์วีเจียน\nนิโคบาร์\nเนรัญชรา\nไนล์\nบอร์เนียว\nบอลติก\nเบงกอล\nปิง\nแปซิฟิก\nมะละกา\nมินดาเนา\nมิสซิสซิปปี\nเมดิเตอร์เรเนียน\nเมโสโปเตเมีย\nยมุนา\nยุโรป\nยูเรเชีย\nยูเรเซีย\nแยงซี\nแยงซีเกียง\nสแกนดิเนเวีย\nสะโตง\nสาละวิน\nสุมาตรา\nสุเอซ\nอะเมซอน\nอันดามัน\nอัลไต\nอาร์กติก\nอาหรับ\nอินโดจีน\nอิรวดี\nอิระวดี\nอีเจียน\nอุษาคเณย์\nอูราล\nเอเชีย\nเอเดรียติก\nเอเวอเรสต์\nแอตแลนติก\nแอนตาร์กติก\nแอนตาร์กติกา\nแอฟริกา\nโอลิมปัส\nไอโอเนียน\nฮวงโห\nฮอกไกโด\nฮอนชู\n\nกบิลพัสดุ์\nกุสินารา\nโกลิยะ\nโกสัมพี\nโคตรบอง\nโคตรบูรณ์\nตองอู\nทรอย\nทวารวดี\nทวาราวดี\nเทวทหะ\nไทรบุรี\nนาลันทา\nไบแซนไทน์\nปรัสเซีย\nปัลลวะ\nปาฏลีบุตร\nพุทธคยา\nมถุรา\nมายัน\nมิถิลา\nราชคฤห์\nล้านช้าง\nล้านนา\nลุมพินี\nวัชชี\nเวสาลี\nสารนาถ\nสาวัตถี\nหริภุญชัย\nอโยธยา\nออตโตมัน\nอังวะ\nอินทปัตถ์\nอุชเชนี\n\nกราฟิก\nกราฟิกส์\nกราฟิค\nกริด\nกิกะไบต์\nกูเกิล\nกูเกิ้ล\nเกตเวย์\nโกลบอล\nคลัสเตอร์\nคลาส\nคลิก\nคลิปอาร์ต\nคอนโซล\nคอนเทนต์\nคอมพิวติ้ง\nคอมไพล์\nคอมไพเลอร์\nคอมมูนิเคชั่น\nคอร์\nคีย์\nคีย์บอร์ด\nเครือข่าย\nเคอร์เซอร์\nเคอร์เนล\nแคช\nแคมฟรอก\nแคมฟร็อก\nแคร็ก\nโค้ด\nจาวา\nจีพีเอส\nชิป\nชิพ\nเชลล์\nแช็ต\nแชนเนล\nแชนแนล\nซ็อกเก็ต\nซอฟต์แวร์\nซอฟท์แวร์\nซอร์ส\nซัพพอร์ต\nซัพพอร์ท\nซีดี\nซีดีรอม\nซีเนอร์\nเซิร์ฟเวอร์\nโซลูชัน\nโซลูชั่น\nไซต์\nไซเบอร์\nทรานแซกชัน\nทรานแซกชั่น\nทรานแซ็กชัน\nทรานแซ็กชั่น\nทรานแซคชัน\nทรานแซคชั่น\nทรานแซ็คชัน\nทรานแซ็คชั่น\nทวิตเตอร์\nทวีต\nทัชแพด\nเทมเพลต\nเทอร์มินัล\nแท็ก\nแท็บ\nแทบเล็ต\nโทรจัน\nเน็ต\nเน็ตบุ๊ก\nเน็ตบุค\nเน็ตบุ๊ค\nเน็ตเวิร์ก\nเน็ตเวิร์ค\nโน้ตบุ๊ก\nโน้ตบุค\nโน้ตบุ๊ค\nดอส\nดาวน์เกรด\nดาวน์โหลด\nดิจิตอล\nดิจิทัล\nดีบั๊ก\nดีวีดี\nดีไวซ์\nเดเบียน\nเดลไฟ\nเดสก์ท็อป\nโดเมน\nไดรว์\nไดรเวอร์\nไดเรกทอรี\nไดโอด\nเทเลคอม\nบล็อกเกอร์\nบรอดแบนด์\nบราวเซอร์\nบลูทูท\nบลูทูธ\nบลูเรย์\nบั๊ก\nบัฟเฟอร์\nบิต\nบิท\nบูต\nเบราว์เซอร์\nแบนด์วิดท์\nไบต์\nไบนารี\nโปรแกรมเมอร์\nโปรเซส\nโปรเซสเซอร์\nโปรโตคอล\nพร็อกซี\nพอร์ต\nพอร์ท\nพาเนล\nพาร์ทิชัน\nพารามิเตอร์\nพาสเวิร์ด\nพิกเซล\nเพจ\nเพจเจอร์\nแพกเก็ต\nแพตช์\nแพลตฟอร์ม\nโพรเซส\nโพรเซสเซอร์\nโพรโทคอล\nไพธอน\nฟล็อปส์\nฟอนต์\nฟอร์แมต\nฟอร์เวิร์ด\nฟอรัม\nฟีเจอร์\nเฟซบุ๊ก\nเฟิร์มแวร์\nแฟล็ก\nโฟลเดอร์\nไฟร์ฟอกซ์\nไฟร์วอลล์\nไฟล์\nมอดูล\nมอนิเตอร์\nมัลติ\nมัลติทัช\nมัลติเพล็กซ์\nมัลแวร์\nมาสเตอร์\nมีเดีย\nเมนู\nเมมโมรี\nเมล\nเมาส์\nแมค\nโมดูล\nโมเด็ม\nโมบาย\nโมบายล์\nโมไบล์\nไมโครซอฟท์\nยูนิกซ์\nยูนิโคด\nยูนิโค้ด\nริงโทน\nรีเฟรช\nรีเลย์\nเราเตอร์\nเรียลไทม์\nลิงก์\nลินุกซ์\nลีนุกซ์\nลูป\nเลเยอร์\nแล็ปท็อป\nไลเซนส์\nไลบรารี\nวิกิ\nวิกิพีเดีย\nวินโดวส์\nวินโดว์ส\nเว็บ\nเวอร์ชวล\nเวอร์ชัน\nเวอร์ชั่น\nเวิร์กสเตชัน\nเวิร์กสเตชั่น\nเวิร์คสเตชัน\nเวิร์คสเตชั่น\nเวิร์ด\nเวิร์ม\nไวแมกซ์\nสกรีน\nสแกน\nสแกนเนอร์\nสแต็ก\nสนิฟเฟอร์\nสปายแวร์\nสเปซ\nสแปม\nสมาร์ท\nสล็อต\nเสิร์ช\nโหลด\nออนไลน์\nออปติก\nออปติคอล\nออปติคัล\nออฟไลน์\nออราเคิล\nอัพเกรด\nอัพเดต\nอัพโหลด\nอัปเกรด\nอัปเดต\nอัปโหลด\nอัลกอริทึม\nอาร์กิวเมนต์\nอินเตอร์เน็ต\nอินทิเกรเตอร์\nอินเทอร์เน็ต\nอินเทอร์เฟซ\nอินเทล\nอินพุต\nอินพุท\nอีเมล\nอีเมล์\nอูบุนตู\nอูบันตู\nเอนจิน\nเอ็นจิน\nเอาต์พุต\nเอาต์พุท\nเอาท์พุต\nเอาท์พุท\nแอนะล็อก\nแอนิเมชัน\nแอนิเมชั่น\nแอปพลิเคชัน\nแอปพลิเคชั่น\nแอพพลิเคชัน\nแอพพลิเคชั่น\nแอสเซมบลี\nแอสเซมเบลอร์\nโอเพน\nไอคอน\nไอซี\nไอพอด\nไอพ็อด\nไอแพด\nไอโฟน\nฮับ\nฮาร์ดดิสก์\nฮาร์ดแวร์\nแฮกเกอร์\nแฮ็กเกอร์\nแฮนด์เฮลด์\nโฮสต์\n\nกรีก\nกัณณาฑ\nกัศมีรี\nคันจิ\nคาตาคานะ\nคุชราตี\nคุรุมุขี\nซีริลลิก\nซูลู\nเซลติก\nเซิร์บ\nตากาล็อก\nเตลุคู\nเติร์ก\nทราวิฑ\nเบงกาลี\nปัญจาบี\nพินอิน\nมลยาฬัม\nมองโกล\nมาราฐี\nมาเลย์\nเม็กซิกัน\nแมนจู\nแมนดาริน\nไมถิลี\nเยอรมัน\nรัสเซียน\nสวาฮิลี\nสวิส\nสินธี\nอูรดู\nอัสสมี\nอารบิก\nอิตาเลียน\nอุยกูร์\nแอฟริกัน\nโอริยา\nไอริช\nฮันกึล\nฮินดี\nฮิรางานะ\nฮีบรู\n\nกรีนพีซ\nกรือเซะ\nกวนอิม\nกวนอู\nกัดดาฟี\nกัลยาณวัตร\nกัสสปะ\nกาลิเลโอ\nกินเนส\nกุมภกรรณ\nกูเตนเบิร์ก\nเกตส์\nเกษมณี\nโกณฑัญญะ\nขงเบ้ง\nคริสโตเฟอร์\nคองคอร์ด\nคอลเกต\nคานธี\nคาเบรียล\nคาร์ฟูร์\nคาร์สัน\nคาราบาว\nคาสิโอ\nคิริน\nคุนลุ้น\nคูโบต้า\nเครมลิน\nแคทรีนา\nโคตมะ\nโคตมี\nโคลัมบัส\nไคฟง\nไครสเลอร์\nง้อไบ๊\nจตุพร\nจ็อบส์\nจอห์น\nจิ้น\nจิม\nจิ๋ม\nจิว\nจุฬาภรณ์\nจุฬาลงกรณ์\nเจมส์\nแจ็กสัน\nโจเซฟ\nโจว\nชมัยมรุเชฐ\nชมัยมรุเชษฐ์\nชเวดากอง\nชาร์ลส์\nชินราช\nชินวัตร\nชุนชิว\nเช็ง\nเชตวัน\nเชฟรอน\nเชฟโรเลต\nเชลซี\nไชยานุชิต\nซ่ง\nซังฮี้\nซัดดัม\nซันซิล\nซัมซุง\nซัวเจ๋ง\nซินหัว\nซีซาร์\nซีแพค\nซูซาน\nซูซูกิ\nซูบารุ\nเซ็นทารา\nเซเวน\nเซเว่น\nโซฟิเทล\nโซยุซ\nโซยูซ\nณัฐวุฒิ\nดาร์ลี่\nดาวโจนส์\nดิสนีย์\nดีแทค\nดูปองท์\nเดโมแครต\nเดลล์\nเดลินิวส์\nเดวิด\nแดวู\nโดนัลด์\nโดราเอมอน\nโดเรมอน\nต๋อง\nตั๊กม้อ\nตากสิน\nตาเมือน\nตาลีบัน\nตูน\nเตมีย์\nโต๋\nโตชิบา\nโตโยต้า\nถังซัมจั๋ง\nถังซำจั๋ง\nทรพา\nทราเวล\nทรูมูฟ\nทีปังกร\nเทปโก\nเทพรัตน\nเทวทัต\nเทสโก้\nโทมัส\nไททานิก\nไททานิค\nไทยรัฐ\nธีออส\nนครินทรา\nนโปเลียน\nนพดล\nนราดูร\nนเรนทร\nนอสตราดามุส\nนาซา\nนาซ่า\nนาซี\nนาโต\nนาโต้\nนาลแก\nนิคอน\nนิโคลัส\nนิด้า\nนินเทนโด\nนิปปอน\nนิวตัน\nนิสสัน\nเนคเทค\nเนชั่น\nเนชันแนล\nเนชั่นแนล\nเนวิน\nเนสเล่\nเนสาด\nแนท\nแนสแดค\nโนเกีย\nโนเบล\nโนเวลล์\nโนโวเทล\nไนเม็กซ์\nบรอดเวย์\nบรัดเลย์\nบรู๊ซ\nบัลเมอร์\nบารัก\nบารัค\nบู๊ตึ๊ง\nเบญกาย\nเบนซ์\nเบ็นซ์\nเบนจามิน\nโบตัน\nไบโอเทค\nประชาธิปัตย์\nปวีณา\nปอเต็กตึ๊ง\nปอเต๊กตึ๊ง\nป่อเต็กตึ๊ง\nปัตตะโชติ\nปารุสก์\nปีเตอร์\nปูติน\nเป๊ปซี่\nเป้ย\nเปอร์โยต์\nเปาบุ้นจิ้น\nโปเกมอน\nโป๊ยก่าย\nพรหมทัต\nพลาโต\nพอลล่า\nพานาโซนิค\nพานาโซนิก\nพิทยานุกูล\nพิมพิสาร\nเพนแทกซ์\nเพลโต\nไพโอเนียร์\nฟรอยด์\nฟรังซิส\nฟรานซิส\nฟลอเรนซ์\nฟอร์ด\nฟิลิปส์\nฟูจิ\nแฟซ่า\nโฟร์โมสต์\nภูมิพล\nภูริทัต\nมงฟอร์ต\nมณโฑ\nมติชน\nมหิตลาธิเบศร\nมโหสถ\nมัจฉานุ\nมาร์กาเร็ต\nมาร์ติน\nมาสด้า\nมิตซูบิชิ\nมิราเคิล\nมุสโสลินี\nเม้ง\nเมจิ\nเมอร์ซีเดส\nเมอร์เซเดส\nแมกซ์เวลล์\nแมกไซไซ\nแมคอินทอช\nแมชีนเนอรี่\nโมคคัลลานะ\nโมโตโรลา\nโมโตโรล่า\nโมเนีย\nไมเคิล\nไมยราพณ์\nยโสธรา\nยะโฮวา\nยะโฮวาห์\nยามาฮ่า\nยาเวห์\nยาฮู\nยูนิเซฟ\nยูเนสโก\nยูไล\nเยโฮวาห์\nรอยเตอร์\nรอยัล\nรัชดา\nรัสปูติน\nราฟาเอล\nรามาวตาร\nราเมศวร\nราหุล\nริชาร์ด\nรีพับลิกัน\nรูนีย์\nเรนโบว์\nแรมโบ้\nโรตารี\nโรนัลโด\nโรนัลโด้\nโรบินสัน\nโรเบิร์ต\nล็อกซเล่ย์\nลิงคอล์น\nลิจฉวี\nลิไท\nลิไทย\nลินคอล์น\nลิเวอร์พูล\nเลโนโว\nเลียดก๊ก\nโลตัส\nวชิราลงกรณ์\nวลาดิเมียร์\nวอลล์สตรีท\nวาเลนไทน์\nวิกตอเรีย\nวิทยานุสรณ์\nวิทยายน\nวิมเบิลดัน\nวิลเลียม\nวีระ\nวุฒิชัย\nเวียดกง\nไวตามิลค์\nศกุนตลา\nศรีวิชัย\nศิริพงษ์\nศิริราช\nศุภชลาศัย\nสดกก๊อกธม\nสดายุ\nสตาลิน\nสตีฟ\nสแตนฟอร์ด\nสวรินทิรา\nสังกัจจายน์\nสาทิตย์\nสารีบุตร\nสิริกิติ์\nสิรินธร\nสิหิงค์\nสีวลี\nสีหนุ\nสีหมุนี\nสีหโมนี\nสุครีพ\nสุทโธทนะ\nสุเทพ\nสุนทราภรณ์\nสุนีย์\nสุรนารี\nสุรยุทธ์\nสุริยาสน์\nเส้าหลิน\nโสกราตีส\nโสภิต\nหนุมาน\nหลินฮุ่ย\nหลุยส์\nเห้งเจีย\nไหหม่า\nองคต\nองคุลิมาล\nอชาตศัตรู\nอดุลยเดช\nอพอลโล\nอริสโตเติล\nอริสมันต์\nอลิซาเบธ\nอ๋อม\nออร์คิด\nออสการ์\nอะพอลโล\nอับราฮัม\nอั้ม\nอัลกออิดะห์\nอัลคาเทล\nอัลจาซีราห์\nอัลเฟรด\nอัลเลาะห์\nอัสซุส\nอัสสชิ\nอัสสัมชัญ\nอาเซม\nอาเซ็ม\nอาเซียน\nอาฟต้า\nอาร์เซนอล\nอินทรชิต\nอินทราทิตย์\nอีซูซุ\nอีเลฟเวน\nอีเลฟเว่น\nอุณรุท\nอุบลรัตน์\nอุบาลี\nอุ๋ย\nเอกทัศน์\nเอเซอร์\nเอ็ดเวิร์ด\nเอดิสัน\nเอแบค\nเอลิซาเบธ\nเอสพลานาด\nเอสพลานาร์ด\nแอคคอร์\nแอคคอร์ด\nแองเจลิน่า\nแอตแลนติส\nแอน\nแอ๋ม\nแอมบาสซาเดอร์\nแอมบาสเดอร์\nแอมเวย์\nแอ๋ว\nโอดีสซีย์\nโอเดียน\nโอบามา\nโอรสาราม\nโอลิมเปีย\nโออิชิ\nไอน์สไตน์\nฮอนด้า\nฮอปกินส์\nฮอลลีวูด\nฮอลลีวู้ด\nฮานามิ\nฮามาส\nฮิตเลอร์\nฮิตาชิ\nฮุนเซน\nฮุนเซ็น\nฮุนได\nฮุสเซ็น\nเฮนรี\nเฮนรี่\nเฮเลน\nโฮจิมินห์\nโฮปเวลล์\nโฮเมอร์\n\nกลีเซอรีน\nกำทอน\nแกนีมีด\nครอส\nคริสตัล\nคลอโรพลาสต์\nคลอไรด์\nควอนตัม\nคอนดักเตอร์\nคอปเปอร์\nคอลลาเจน\nคอเลสเตอรอล\nคอสมิก\nคูลอมบ์\nเคอราติน\nแคโรทีน\nแคสสินี\nโครมาโทกราฟี\nไคโตซาน\nจีโนม\nจุลชีววิทยา\nชิคุนกุนยา\nซัลฟิวริก\nซัลเฟต\nซัลไฟด์\nซิงค์\nซิริอุส\nซิลิกา\nซิลิเกต\nซิลิโคน\nซีเทน\nซีเวิร์ต\nเซ็กเตอร์\nเซ็กเมนต์\nเซมิ\nโซนาร์\nไซบอร์ก\nดอปเปลอร์\nดอปเพลอร์\nไดนามิก\nไดนามิกส์\nไดนามิค\nไดนามิคส์\nไดออกไซด์\nทรานส์\nทามิฟลู\nเทฟลอน\nเทสโทสเตอโรน\nเทอร์โม\nแทนนิน\nไททัน\nไทฟอยด์\nไทรอยด์\nธาลัสซีเมีย\nเนกาตีฟ\nโนวา\nบอแรกซ์\nโบทอกซ์\nโบท็อกซ์\nไบโอติน\nปฏิยานุพันธ์\nโปรเจสเตอโรน\nพอลิเมอร์\nพันธุศาสตร์\nพัลซาร์\nพาร์กินสัน\nพาราเซตามอล\nพาราโบลา\nเพอร์ออกไซด์\nโพรเจสเทอโรน\nโพลาไรซ์\nโพลิเมอร์\nโพลีเอทิลีน\nไพรเมต\nฟลาโวนอยด์\nฟลูออเรสเซนซ์\nฟลูออไรด์\nฟอสซิล\nฟิชชัน\nฟิวชัน\nฟีโรโมน\nไฟเบอร์\nมอนอกไซด์\nมิราจ\nเมตริกซ์\nเมทริกซ์\nเมลานิน\nเมลามีน\nโมเมนตัม\nไมโตคอนเดรีย\nไมโทคอนเดรีย\nยีสต์\nยูริก\nยูเรีย\nรูมาตอยด์\nวีก้า\nเวกเตอร์\nเวก้า\nเวสิเคิล\nโวลต์\nสเกล\nสเกลาร์\nสเต็ม\nสเตียรอยด์\nสปีชีส์\nสเปิร์ม\nสัมพัทธภาพ\nสุริยจักรวาล\nออกเทน\nออโรรา\nออโรร่า\nอะคริลิก\nอะครีลิก\nอะซีติก\nอะซีโตน\nอะมิโน\nอะลูมินา\nอันโดรเมดา\nอัลคาไลน์\nอัลตราซาวด์\nอัลตราซาวนด์\nอัลลอยด์\nอินทิกรัล\nอินทิเกรต\nอีโบลา\nอีโบล่า\nเอ็กซ์โพเนนเชียล\nเอทานอล\nเอทิลีน\nเอนโทรปี\nเอสเตอร์\nเอสโตรเจน\nเอสโทรเจน\nแอนดรอยด์\nแอนแทร็กซ์\nแอมพลิจูด\nแอมโมเนียม\nแอลกอฮอลิซึม\nแอสพาร์แตม\nโอเซลทามิเวียร์\nฮับเบิล\nฮิวมัส\nไฮดรอกไซด์\nไฮดรอลิก\nไฮโดรลิก\nไฮเพอร์โบลา\n\nกงเต็ก\nกฎุมพี\nกฏ\nกฏหมาย\nกบฎ\nกราไฟต์\nก๊อปปี้\nกะทะ\nกังวาล\nกุฎฐัง\nกุฏุมพี\nฃวด\nคฑา\nคลินิค\nคลีนิก\nคลีนิค\nคาทอลิค\nคึ่นฉ่าย\nแคตตาล็อก\nโควต้า\nฅน\nจุมพฎ\nช็อคโกแลต\nแซ่ด\nดัทช์\nทนง\nทรมาณ\nทราก\nทะแยง\nทิฏฐิ\nบล็อค\nบ๊องแบ๊ว\nบัลเล่ต์\nเบรค\nแบงค์\nปรากฎ\nปัคคหะ\nปาฏิโมกข์\nปิติ\nปิรามิด\nโปรเตสแตนท์\nพนิช\nพยักเพยิด\nพริ้ว\nพลูโตเนียม\nพากษ์\nเฟิร์น\nยากี้\nเยภุยยสิกา\nรุสเซีย\nฤาษี\nล็อค\nล็อคเกอร์\nวันทยาหัตถ์\nวานิช\nวิญญาน\nวิศิษฐ์\nศรีษะ\nสเปกโทรสโคป\nสฤษฎ์\nสลิ่ม\nสัตตสดก\nสาราณียากร\nสุกี้\nสุกี้ยากี้\nสูญญากาศ\nหยอมแหยม\nหยอย\nหล่ะ\nอะดรีนาลีน\nอะหลั่ย\nอัตคัต\nอัฟริกา\nอานิสงค์\nอาฟริกา\nอิริยาบท\nอิเลคโทรนิคส์\nอีรุงตุงนัง\nอุตรายัน\nอุลตรา\nอุลตร้า\nโอกาศ\n\nกกหู\nกงการ\nกงจักร\nกฎเกณฑ์\nกฎบัตร\nกฎหมาย\nกฎหมู่\nกดขี่\nกดดัน\nก้นกบ\nก้นบึ้ง\nก้นปล่อง\nกนิษฐภคินี\nกนิษฐภาดา\nกรงเล็บ\nกรมการ\nกรมท่า\nกรมธรรม์\nกรมนา\nกรมวัง\nกรรมกร\nกรรมการ\nกรรมฐาน\nกรรมบถ\nกรรมพันธุ์\nกรรมวิธี\nกรรมสิทธิ์\nกระจกเงา\nกระจกตา\nกระจกนูน\nกระจกเว้า\nกระจอกชวา\nกระจอกเทศ\nกระจ้อยร่อย\nกระจับบก\nกระจับปิ้ง\nกระจับปี่\nกระโชกโฮกฮาก\nกระดานดำ\nกระดานหก\nกระดาษแก้ว\nกระดาษไข\nกระดาษทราย\nกระดาษสา\nกระดูกงู\nกระทาชาย\nกระเท่เร่\nกระบวนการ\nกระบองเพชร\nกระผีกริ้น\nกระยาทิพย์\nกระยาสารท\nกระยาหาร\nกระสอบทราย\nกระสุนปืน\nกระแสจิต\nกระแสน้ำ\nกระแสลม\nกรับคู่\nกรับพวง\nกรับเสภา\nกราดเกรี้ยว\nกราวรูด\nกริ่งเกรง\nกรีฑาสถาน\nกรีดกราย\nกรี๊ดกร๊าด\nกลไก\nกลบท\nกลเม็ด\nกลยุทธ์\nกลวิธี\nกลศาสตร์\nกลอักษร\nกลบเกลื่อน\nกลมกล่อม\nกลมกลืน\nกลมเกลียว\nกล้วยแขก\nกล้วยไม้\nกล่องเสียง\nกล่อมเกลา\nกล่อมเกลี้ยง\nกลัดกลุ้ม\nกลัดมัน\nกลั่นกรอง\nกลั่นแกล้ง\nกลับกลอก\nกลางคน\nกลางคัน\nกลางค่ำ\nกลางคืน\nกลางแจ้ง\nกลางแปลง\nกลางวัน\nกลาดเกลื่อน\nกล่าวขวัญ\nกล่าวโทษ\nกล่าวหา\nกล้ำกราย\nกล้ำกลืน\nกลิ้งกลอก\nกลิ้งเกลือก\nกลิ่นอาย\nกลียุค\nกวดขัน\nกวัดแกว่ง\nกวัดไกว\nกวีนิพนธ์\nก่อกวน\nก่อการ\nก่อตั้ง\nก่อสร้าง\nก่อหวอด\nก้อร่อก้อติก\nกองกลาง\nกองเกิน\nกองโจร\nกองทัพ\nกองทุน\nกองพล\nกองพัน\nกองฟอน\nกองร้อย\nกองหนุน\nกอบโกย\nกะเกณฑ์\nกะบังลม\nกักกัน\nกักขัง\nกักตัว\nกักตุน\nกัณฑ์เทศน์\nกัดฟัน\nกันชน\nกันท่า\nกันสาด\nกันเอง\nกับแกล้ม\nกับข้าว\nกับระเบิด\nกากเพชร\nกากหมู\nกาชาด\nกาญจนาภิเษก\nก้านคอ\nกาฝาก\nก้ามกราม\nกามกิจ\nกามคุณ\nกามเทพ\nกามโรค\nก้ามปู\nกายกรรม\nกายบริหาร\nกายภาพ\nกายวิภาค\nกายสิทธิ์\nก่ายกอง\nการคลัง\nการเงิน\nการบ้าน\nการเปรียญ\nการเมือง\nการเรือน\nการละเล่น\nกาลกิริยา\nกาลเทศะ\nก้าวก่าย\nก้าวร้าว\nก้าวหน้า\nกาสาวพัสตร์\nกาฬพฤกษ์\nกาฬโรค\nกำปั้น\nกำมือ\nกำแพงขาว\nกำลังใจ\nกำลังม้า\nกี่งอำเภอ\nกิจกรรม\nกิจการ\nกิจวัตร\nกิจจะลักษณะ\nกิตติคุณ\nกิตติศัพท์\nกินขาด\nกินใจ\nกินดอง\nกินโต๊ะ\nกินแบ่ง\nกินเปล่า\nกินเลี้ยง\nกินเส้น\nกินแหนง\nกิโลกรัม\nกิโลเมตร\nกิโลลิตร\nกิโลเฮิรตซ์\nกีดกัน\nกีดกั้น\nกีดขวาง\nกึกก้อง\nกึกกัก\nกึกกือ\nกึ่งกลาง\nกุกกัก\nกุ๊กกิ๊ก\nกุ้งฝอย\nกุ้งมังกร\nกุ้งแห้ง\nกุ้งเต้น\nกุ้งยิง\nกุญแจผี\nกุญแจมือ\nกุญแจเลื่อน\nกุญแจเสียง\nกุลธิดา\nกุลบุตร\nกุลสตรี\nกู้ยืม\nเก้งก้าง\nเก็บกวาด\nเก็บเกี่ยว\nเก็บงำ\nเก็บตก\nเกรงกลัว\nเกรงใจ\nเกรงขาม\nเกรียงไกร\nเกรียมกรม\nเกรี้ยวกราด\nเกล็ดเลือด\nเกลี้ยกล่อม\nเกลี้ยงเกลา\nเกลือกกลั้ว\nเกลือกกลิ้ง\nเกลื่อนกล่น\nเกลื่อนกลาด\nเกศธาตุ\nเกษตรกร\nเกษตรกรรม\nเกษตรศาสตร์\nเกษมสันต์\nเกษียรสมุทร\nเก้อเขิน\nเกาะแกะ\nเกี่ยงงอน\nเกียจคร้าน\nเกียรติคุณ\nเกียรตินิยม\nเกียรติประวัติ\nเกียรติภูมิ\nเกียรติยศ\nเกียรติศักดิ์\nเกียรติมุข\nเกี่ยวข้อง\nเกี่ยวดอง\nเกี่ยวพัน\nเกี่ยวโยง\nเกี้ยวพาน\nเกี้ยวพาราสี\nแก่แดด\nแก้ขัด\nแก้ไข\nแก้ตัว\nแก้เผ็ด\nแก้ลำ\nแกงคั่ว\nแกงจืด\nแกงบวด\nแกงป่า\nแกงเผ็ด\nแกงส้ม\nแก่งแย่ง\nแก่นแก้ว\nแก่นสาร\nแก้วตา\nแก้วหู\nแกว่งกวัด\nแกว่งไกว\nแกะรอย\nโก้เก๋\nโกรธเกรี้ยว\nโกรธขึ้ง\nไก่เขี่ย\nไก่ชน\nไก่บ้าน\nไก่ป่า\nไก่ฟ้า\nไกล่เกลี่ย\nขจัดขจาย\nขนเพชร\nขนสัตว์\nขนหนู\nขนส่ง\nขนมจีน\nขบขัน\nขบวนการ\nข่มขี่\nข่มขู่\nข่มขืน\nข่มเหง\nขมหิน\nขมิ้นชัน\nขมุบขมิบ\nขยะแขยง\nขยักขย่อน\nขยักขย้อน\nขยับขยาย\nขยับเขยื้อน\nขวดโหล\nขวยเขิน\nขวัญใจ\nขวัญตา\nขวัญอ่อน\nขวากหนาม\nขวางโลก\nของ้าว\nขอสับ\nขอขมา\nขอทาน\nขอโทษ\nขอร้อง\nขออภัย\nข้อเขียน\nข้อความ\nข้อเท็จจริง\nของกลาง\nของขวัญ\nของแข็ง\nของชำ\nของลับ\nของเล่น\nของว่าง\nของเหลว\nของไหล\nของไหว้\nข้องใจ\nข้องแวะ\nขอบข่าย\nขอบเขต\nขอบคุณ\nขอบใจ\nขอบพระคุณ\nข้อมูล\nข้อแม้\nข้อหา\nข้อสังเกต\nขัดข้อง\nขัดขืน\nขัดเขิน\nขัดจังหวะ\nขัดดอก\nขัดแตะ\nขัดยอก\nขัดแย้ง\nขัดสมาธิ\nขันหมาก\nขันอาสา\nขับขี่\nขับเคี่ยว\nขั้วโลก\nขาจร\nขาประจำ\nข้าราชการ\nข้าศึก\nข้าหลวง\nขาดแคลน\nขาดใจ\nขาดตอน\nขาดตัว\nขาดทุน\nขาดเหลือ\nขายหน้า\nข่าวกรอง\nข่าวคราว\nข่าวล่า\nข่าวลือ\nข่าวสาร\nข้าวเกรียบ\nข้าวแกง\nข้าวของ\nข้าวจี่\nข้าวเจ้า\nข้าวซอย\nข้าวต้ม\nข้าวตอก\nข้าวตัง\nข้าวแตน\nข้าวทิพย์\nข้าวบิณฑ์\nข้าวเปลือก\nข้าวโพด\nข้าวฟ่าง\nข้าวเม่า\nข้าวสวย\nข้าวสาร\nข้าวเหนียว\nข้าวหมาก\nข้าวหลาม\nขี้เกียจ\nขี้ข้า\nขี้ครอก\nขี้คร้าน\nขี้คุก\nขี้ไคล\nขี้เซา\nขีดขั้น\nขีดคร่อม\nขีดคั่น\nขีดฆ่า\nขี้ตา\nขี้ตืด\nขี้เถ้า\nขี้ทูด\nขี้ปะติ๋ว\nขี้ผึ้ง\nขี้มูก\nขี้ยา\nขี้แย\nขี้ริ้ว\nขี้เรื้อน\nขี้เล็บ\nขี้หู\nขี้หน้า\nขี้เหนียว\nขี้เหล็ก\nขี้เหร่\nขึงขัง\nขึงพืด\nขึ้งโกรธ\nขึ้นใจ\nขึ้นชื่อ\nขึ้นมือ\nขืนใจ\nขื่นขม\nขุดคุ้ย\nขุนทอง\nขุนนาง\nขุนพล\nขุนศึก\nขุนหลวง\nขูดรีด\nเข็มกลัด\nเข็มขัด\nเข้มข้น\nเข้มแข็ง\nเข้มงวด\nเข็มทิศ\nเข็มหมุด\nเข้าขา\nเข้าเค้า\nเข้าใจ\nเข้าชื่อ\nเข้าตัว\nเข้าถึง\nเข้าทรง\nเข้าท่า\nเข้าที\nเข้าเนื้อ\nเข้าเล่ม\nเขียวเสวย\nเขียวหวาน\nแขกเต้า\nแข็งกร้าว\nแข็งกล้า\nแข็งแกร่ง\nแข็งข้อ\nแข็งขัน\nแข่งขัน\nแข็งใจ\nแข็งตัว\nแข็งเมือง\nแข็งแรง\nแขวนลอย\nโขกสับ\nโขยกเขยก\nไขข้อ\nไขควง\nไขมัน\nไข่มุก\nไขว่ห้าง\nไขสันหลัง\nไขสือ\nไข่เค็ม\nไข่เยี่ยวม้า\nไข่หงส์\nไข่เหี้ย\nคงกระพัน\nคงตัว\nคงทน\nคงที่\nคชลักษณ์\nคชสาร\nคชสีห์\nคชราช\nคณิตศาสตร์\nคดเคี้ยว\nคติธรรม\nคติพจน์\nคนกลาง\nคนไข้\nคนใช้\nคนทรง\nคบไฟ\nคบเพลิง\nคบค้า\nคบคิด\nคบหา\nคมคาย\nครบครัน\nครบถ้วน\nครอบครอง\nครอบคลุม\nครอบครัว\nครอบงำ\nครอบจักรวาล\nคริสตกาล\nคริสตจักร\nคริสต์มาส\nคริสต์ศตวรรษ\nคริสต์ศักราช\nคริสตัง\nคริสเตียน\nครุกรรม\nครุภัณฑ์\nครุศาสตร์\nครุฑพ่าห์\nครุ่นคิด\nคลอเคลีย\nคล่องแคล่ว\nคล่องตัว\nคล่องมือ\nคลั่งไคล้\nคลาคล่ำ\nคลาไคล\nคลาดเคลื่อน\nคลาดแคล้ว\nคลี่คลาย\nคลึงเคล้น\nคลึงเคล้า\nคลื่นไส้\nคลื่นเหียน\nคลุกคลี\nคลุกคลาน\nคลุมเครือ\nคลุมโปง\nคลุ้มคลั่ง\nควงสว่าน\nควบคุม\nควบคู่\nควบแน่น\nควันหลง\nความคิด\nความหลัง\nความเห็น\nคอหอย\nคอห่าน\nคอแห้ง\nค่อนขอด\nค่อนแคะ\nค้อนควัก\nคั่งค้าง\nคั่งแค้น\nคัดค้าน\nคัดง้าง\nคัดท้าย\nคัดเลือก\nคันจาม\nคันฉ่อง\nคันฉาย\nคันชัก\nคันชั่ง\nคันไถ\nคันนา\nคันเร่ง\nคับขัน\nคับคั่ง\nคับแค้น\nคับแคบ\nคางทูม\nคางหมู\nค้างคืน\nค้างปี\nคาดคั้น\nคาดเชือก\nคาดโทษ\nคาดหมาย\nคานหาม\nคาบเกี่ยว\nคาบศิลา\nคาบสมุทร\nคำขาด\nคำนำ\nคิดค้น\nคืนดี\nคืนตัว\nคุกเข่า\nคุณค่า\nคุณชาย\nคุณธรรม\nคุณนาย\nคุณภาพ\nคุณลักษณะ\nคุณวุฒิ\nคุณศัพท์\nคุณสมบัติ\nคุณหญิง\nคุณากร\nคุณูปการ\nคุโณปการ\nคุมเชิง\nคุ้มกัน\nคุยเขื่อง\nคุยโต\nคุ้ยเขี่ย\nคุ้มครอง\nคู่กรณี\nคู่กัด\nคู่ขา\nคู่แข่ง\nคู่ครอง\nคู่ควร\nคู่คิด\nคู่คี่\nคู่ใจ\nคู่ชีพ\nคู่ชีวิต\nคู่บารมี\nคู่บุญ\nคู่ปรปักษ์\nคู่ปรับ\nคู่ผสม\nคู่มือ\nคู่รัก\nคู่ลำดับ\nคู่สาย\nคู่หมั้น\nคู่หู\nคู่อริ\nคู่อาฆาต\nเคมีภัณฑ์\nเคยตัว\nเคร่งขรึม\nเคร่งครัด\nเคร่งเครียด\nเครดิตฟองซิเอร์\nเครื่องกล\nเครื่องกัณฑ์\nเครื่องแกง\nเครื่องเขิน\nเครื่องครัว\nเครื่องเคียง\nเครื่องเงิน\nเครื่องจักร\nเครื่องเซ่น\nเครื่องดนตรี\nเครื่องต้น\nเครื่องทุ่นแรง\nเครื่องเทศ\nเครื่องใน\nเครื่องบิน\nเครื่องบูชา\nเครื่องแบบ\nเครื่องประดับ\nเครื่องปรุง\nเครื่องปรุงรส\nเครื่องมือ\nเครื่องยนต์\nเครื่องร่อน\nเครื่องราง\nเครื่องเรือน\nเครื่องล่าง\nเครื่องเล่น\nเครื่องสาย\nเครื่องสำอาง\nเครื่องสุกำศพ\nเครื่องหมาย\nเครือรัฐ\nเคลียคลอ\nเคลื่อนที่\nเคลื่อนไหว\nเคลือบแคลง\nเคลือบแฝง\nเคลือบฟัน\nเคว้งคว้าง\nเคหสถาน\nเค้าโครง\nเคียดแค้น\nเคี่ยวเข็ญ\nเคี้ยวเอื้อง\nเคืองขุ่น\nโคนม\nโคบาล\nโคมูตร\nโคมลอย\nโครงการ\nโครงเรื่อง\nโครงงาน\nโครงสร้าง\nโครมคราม\nโคลงเคลง\nฆ้องกระแต\nฆ้องชัย\nฆ้องวง\nฆ้องหุ่ย\nฆ้องเหม่ง\nฆ้องโหม่ง\nฆาตกร\nฆาตกรรม\nฆานประสาท\nงงงวย\nงงงัน\nงดเว้น\nงบดุล\nงบประมาณ\nงมโข่ง\nงมงาย\nง่วงงุน\nง่วงเหงา\nงอหาย\nง้องอน\nงอนง้อ\nงอมแงม\nงาช้าง\nง่าเงย\nงานการ\nง่ายดาย\nงึมงำ\nเงินเดือน\nเงินตรา\nเงินยวง\nเงียบกริบ\nเงียบเชียบ\nเงียบเหงา\nเงื่องหงอย\nเงื่อนไข\nเงื่อนงำ\nเงื่อนเวลา\nเงื้อมมือ\nแง่งอน\nจงใจ\nจงรัก\nจดจ่อ\nจดจำ\nจดหมาย\nจดหมายเหตุ\nจรจัด\nจรรยาบรรณ\nจริงจัง\nจริงใจ\nจอมขวัญ\nจอมใจ\nจอมทัพ\nจอมปลวก\nจอมพล\nจ๊ะเอ๋\nจักสาน\nจักรพรรดิ\nจักรภพ\nจักรยาน\nจักรยานยนต์\nจักรราศี\nจักรวรรดิ\nจักรวรรดินิยม\nจักรวาล\nจังหนับ\nจัดการ\nจัดจ้าน\nจัดเจน\nจัดแจง\nจัดตั้ง\nจัดสรร\nจับกุม\nจับจด\nจับเจ่า\nจ่าหน้า\nจาตุทสี\nจาตุมหาราช\nจาตุมหาราชิก\nจาตุมหาราชิกา\nจาตุรงคสันนิบาต\nจาตุรราชการ\nจานเชิง\nจานบิน\nจานผี\nจานเสียง\nจาบจ้วง\nจำเป็น\nจำพรรษา\nจำวัด\nจ้ำจี้จ้ำไช\nจำเลาะตา\nจิงโจ้น้ำ\nจิตใจ\nจิตตภาวนา\nจิตตัง\nจิตตานุปัสสนา\nจิตนิยม\nจิตบำบัด\nจิตแพทย์\nจิตวิสัย\nจิตรกร\nจิตรกรรม\nจิตรลดา\nจิตวิทยา\nจิตเวช\nจิตเวชศาสตร์\nจินตกวี\nจินตนา\nจินตนาการ\nจินตภาพ\nจุฑามณี\nจุฑามาศ\nจุฑารัตน์\nจุนเจือ\nจุ้นจ้าน\nจุลชีพ\nจุลชีวัน\nจุลชีวิน\nจุลทรรศน์\nจุลภาค\nจุลวรรค\nจุลศักราช\nจุลสาร\nจุลินทรีย์\nจุฬามณี\nจุฬาลักษณ์\nเจตคติ\nเจตจำนง\nเจตนารมณ์\nเจตภูต\nเจริญพร\nเจ้ากรม\nเจ้ากรรม\nเจ้าของ\nเจ้าขา\nเจ้าข้า\nเจ้าคณะ\nเจ้าค่ะ\nเจ้าจอม\nเจ้าชู้\nเจ้าตัว\nเจ้าถิ่น\nเจ้าท่า\nเจ้าที่\nเจ้าทุกข์\nเจ้านาย\nเจ้าเนื้อ\nเจ้าบ้าน\nเจ้าบ่าว\nเจ้าประคุณ\nเจ้าประคู้น\nเจ้าพนักงาน\nเจ้าพระคุณ\nเจ้าพระยา\nเจ้าพ่อ\nเจ้าพายุ\nเจ้าฟ้า\nเจ้าภาพ\nเจ้ามือ\nเจ้าแม่\nเจ้าเรือน\nเจ้าสังกัด\nเจ้าสัว\nเจ้าสาว\nเจ้าหน้าที่\nเจ้าหนี้\nเจ้าอาวาส\nเจาะจง\nเจือจาง\nเจือจาน\nเจือปน\nเจื้อยแจ้ว\nแจกจ่าย\nแจ่มแจ้ง\nแจ่มใส\nโจงกระเบน\nโจมตี\nโจรกรรม\nโจรสลัด\nใจความ\nใจคอ\nฉกฉวย\nฉกชิง\nฉลองได\nฉ้อฉล\nฉัตรมงคล\nฉันทลักษณ์\nฉายาลักษณ์\nฉิบหาย\nฉุกเฉิน\nฉุกละหุก\nฉุนเฉียว\nฉุปศาสตร์\nเฉไฉ\nเฉยเมย\nเฉาโฉด\nเฉิดฉัน\nเฉิดฉาย\nเฉิดฉิน\nเฉียบขาด\nเฉียบพลัน\nเฉียบแหลม\nเฉื่อยชา\nแฉะแบะ\nโฉดเฉา\nโฉมงาม\nโฉมฉาย\nโฉมเฉลา\nโฉมตรู\nโฉมยง\nโฉมศรี\nโฉมหน้า\nชดช้อย\nชดเชย\nชดใช้\nชนบท\nชนินทร์\nชนกกรรม\nชนมพรรษา\nชนมายุ\nชมเชย\nชมพูทวีป\nชมพูนท\nชมพูนุท\nชราธรรม\nชราภาพ\nชลจร\nชลธาร\nชลธี\nชลนัยน์\nชลนา\nชลเนตร\nชลประทาน\nชลมารค\nชลาธาร\nชลาลัย\nชลาศัย\nชลาสินธุ์\nชโลทร\nช่วงชิง\nช่วงใช้\nชวนชม\nชวนหัว\nช่วยเหลือ\nช่อฟ้า\nช่อม่วง\nชอกช้ำ\nช่องเขา\nช่องแคบ\nช่องไฟ\nช่องว่าง\nช้องนาง\nชอบกล\nชอบใจ\nชอบธรรม\nชอบพอ\nชักโครก\nชักเงา\nชักจูง\nชักชวน\nชักนำ\nชักเนื้อ\nชักพระ\nชักเย่อ\nชักใย\nชั่งใจ\nชังฆวิหาร\nชัดเจน\nชั้นเชิง\nชั่วคน\nชั่วคราว\nชั่วช้า\nชั่วโมง\nชั่วแล่น\nชาเย็น\nช้านาน\nช่างเครื่อง\nช่างฝีมือ\nช่างฟิต\nช่างไฟ\nช้างน้ำ\nช้างเผือก\nช้างพลาย\nช้างพัง\nช้างสาร\nช้างสีดอ\nชาติธรรม\nชาตินิยม\nชาติพันธุ์\nชาติพันธุ์วิทยา\nชาติภูมิ\nชานชาลา\nชายชาตรี\nชายคา\nชายฝั่ง\nชายทะเล\nชาวเล\nชาววัง\nช้ำใจ\nช้ำชอก\nชิงชัง\nชิงพลบ\nชินชา\nชินบุตร\nชิ้นเอก\nชิมลาง\nชีเปลือย\nชี้ขาด\nชี้แจง\nชี้นำ\nชี้แนะ\nชี้ฟ้า\nชีพจร\nชีพิตักษัย\nชื่นชม\nชื่นบาน\nชื่นมื่น\nชื่อย่อ\nชื่อรอง\nชื่อเล่น\nชื่อเสียง\nชุกชุม\nชุติมา\nชุบตัว\nชุบเลี้ยง\nชุมชน\nชุมทาง\nชุมสาย\nชุ่มใจ\nชุ่มชื่น\nชุ่มชื้น\nชุมนุมชน\nชูชีพ\nชูโรง\nชู้สาว\nเชยชม\nเชลยศักดิ์\nเชลยศึก\nเช่าซื้อ\nเช้าตรู่\nเช้ามืด\nเชิงกราน\nเชิงกล\nเชิงชั้น\nเชิงชาย\nเชิงซ้อน\nเชิงเดียว\nเชิงเดี่ยว\nเชิงตะกอน\nเชิงเทิน\nเชิงมุม\nเชิดชู\nเชิงอรรถ\nเชี่ยนหมาก\nเชี่ยวชาญ\nเชื่องช้า\nเชื่อใจ\nเชื่อถือ\nเชื่อฟัง\nเชื่อมือ\nเชื้อชาติ\nเชื้อเพลิง\nเชื้อไฟ\nเชื้อโรค\nเชื้อสาย\nเชื้อเชิญ\nเชื่องช้า\nเชือนแช\nเชื่อวัน\nแช่เย็น\nแช่อิ่ม\nแช่มช้อย\nแช่มชื่น\nโชกโชน\nโชติช่วง\nโชติรส\nใช้สอย\nซบเซา\nซมซาน\nซวนเซ\nซอกซอน\nซอกแซก\nซ่องสุม\nซ่องเสพ\nซ่องแซ่ง\nซ่อนรูป\nซ่อนเร้น\nซ่อนหา\nซ่อนกลิ่น\nซ่อนทราย\nซ่อมแซม\nซักค้าน\nซักซ้อม\nซักไซ้\nซักฟอก\nซักแห้ง\nซังกะตาย\nซังตาย\nซัดเซ\nซัดทอด\nซับซ้อน\nซับใน\nซับพระพักตร์\nซากศพ\nซ่านเซ็น\nซ้ำซ้อน\nซ้ำซาก\nซ้ำเติม\nซ้ำร้าย\nซี่โครง\nซีดเซียว\nซึมกะทือ\nซึมซาบ\nซึมเซา\nซึมทราบ\nซึมเศร้า\nซื่อตรง\nซื่อสัตย์\nซื้อขาย\nซุกซน\nซุกซ่อน\nซุบซิบ\nซู่ซ่า\nเซซัง\nเซ่อซ่า\nแซ่ซ้อง\nโซดาไฟ\nญาณทัสนะ\nญาณวิทยา\nญาณศาสตร์\nญาติกา\nฐานราก\nดกดื่น\nดงดิบ\nดลใจ\nดลบันดาล\nดวงแก้ว\nดวงใจ\nดวงเดือน\nดวงตรา\nดวงตา\nดวงสมร\nดอกจัน\nดอกจิก\nดอกบัว\nดอกเบี้ย\nดอกฟ้า\nดอกไม้\nดอกยาง\nดอกเล็บ\nดอกทอง\nดอกสร้อย\nดองยา\nดักคอ\nดักฟัง\nดังนั้น\nดังนี้\nดังหนึ่ง\nดั้งเดิม\nดัดจริต\nดัดแปลง\nดันทุรัง\nดับขันธ์\nดับจิต\nดับชีพ\nด่าทอ\nด่างทับทิม\nด่างพร้อย\nดาดฟ้า\nดาราศาสตร์\nดาลเดือด\nดาวกระจาย\nดาวเคราะห์\nดาวตก\nดาวเทียม\nดาวรุ่ง\nดาวเรือง\nดาวฤกษ์\nดาวหาง\nดาวเหนือ\nดาษดื่น\nดินขาว\nดินดาน\nดินดำ\nดินประสิว\nดินปืน\nดินระเบิด\nดินสอ\nดินสอพอง\nดิ้นรน\nดิบดี\nดีเกลือ\nดีใจ\nดีซ่าน\nดีดัก\nดีเดือด\nดีฝ่อ\nดีดดิ้น\nดึกดำบรรพ์\nดึกดื่น\nดึงดัน\nดึงดูด\nดื่มด่ำ\nดื้อด้าน\nดื้อดึง\nดื้อแพ่ง\nดื้อยา\nดื้อรั้น\nดุดัน\nดุเดือด\nดุร้าย\nดุลการค้า\nดุลพินิจ\nดุลภาค\nดุลยพินิจ\nดุลยภาพ\nดุษฎีนิพนธ์\nดุษฎีบัณฑิต\nดุษณีภาพ\nดูแคลน\nดูถูก\nดูดาย\nดูเบา\nดูแล\nดูหมิ่น\nดูเหมือน\nดูดดื่ม\nเด็ดขาด\nเด็ดดวง\nเด็ดเดี่ยว\nเดนตาย\nเดาสวด\nเดาสุ่ม\nเดินทาง\nเดินสะพัด\nเดินสาย\nเดินเหิน\nเดิมพัน\nเดียงสา\nเดียดฉันท์\nเดียวกัน\nเดียวดาย\nเดี๋ยวเดียว\nเดี๋ยวนี้\nเดือดดาล\nเดือดร้อน\nเดือนมืด\nเดือนหงาย\nแดดาล\nแดดิ้น\nแดกดัน\nโด่เด่\nโด่งดัง\nโดดเดี่ยว\nโดยสาร\nได้การ\nได้แก่\nได้ใจ\nได้ที\nได้ยิน\nได้เสีย\nตกเขียว\nตกค้าง\nตกใจ\nตกต่ำ\nตกแต่ง\nตกทอด\nตกฟาก\nตกมัน\nตกยาก\nตกลง\nตกหล่น\nต้นขั้ว\nต้นคิด\nต้นฉบับ\nต้นตอ\nต้นตำรับ\nต้นทุน\nต้นแบบ\nต้นเพลิง\nต้นมือ\nต้นไม้\nต้นร่าง\nต้นเรื่อง\nต้นสังกัด\nต้นหน\nต้นเหตุ\nตบตา\nตบแต่ง\nตบแผละ\nตบมือ\nต้มข่า\nต้มโคล้ง\nต้มยำ\nต้มส้ม\nตรมตรอม\nตรรกวิทยา\nตรรกศาสตร์\nตรวจการ\nตรวจการณ์\nตรวจตรา\nตระบัดสัตย์\nตรัสรู้\nตราตั้ง\nตราบาป\nตรายาง\nตราสาร\nตริตรอง\nตรีกฏุก\nตรีกาย\nตรีโกณ\nตรีโกณมิติ\nตรีคูณ\nตรีทูต\nตรีปิฎก\nตรีภพ\nตรีมูรติ\nตรึกตรอง\nตรึงตรา\nตรุษจีน\nตฤณชาติ\nตฤณมัย\nตลกบาตร\nตลบตะแลง\nตลบหลัง\nตลาดนัด\nตลาดน้ำ\nตลาดมืด\nตลาดสด\nต่อตี\nต่อเติม\nต่อว่า\nต่อสู้\nต่อกร\nต่อต้าน\nต่อแย้ง\nต้องการ\nต้องโทษ\nต้องหา\nต้อนรับ\nตอบโต้\nตอบแทน\nต่อยหอย\nตะพาบน้ำ\nตักตวง\nตักบาตร\nตั้งเข็ม\nตั้งไข่\nตั้งเค้า\nตั้งแง่\nตั้งใจ\nตั้งต้น\nตั้งแต่\nตั้งท้อง\nตัดขาด\nตัดใจ\nตัดเชือก\nตัดตอน\nตัดทอน\nตัดบท\nตัดพ้อ\nตัดรอน\nตัดสิน\nตับเต่า\nตับแลบ\nตับอ่อน\nตัวกลาง\nตัวการ\nตัวเก็ง\nตัวดี\nตัวตั้ง\nตัวเต็ง\nตัวถัง\nตัวแทน\nตัวประกอบ\nตัวประกัน\nตัวแปร\nตัวผู้\nตัวพิมพ์\nตัวเมีย\nตัวยืน\nตัวเลข\nตัวอย่าง\nตั๋วเงิน\nตั๋วแลกเงิน\nตากล้อง\nตาไก่\nตาข่าย\nตาชั่ง\nตาตุ่ม\nตาทวด\nตาปลา\nตาราง\nต่างหาก\nต้านทาน\nตามใจ\nตายใจ\nตายซาก\nตายด้าน\nตายตัว\nตายทั้งกลม\nตายห่า\nตายโหง\nตาลปัตร\nต่ำช้า\nต่ำต้อย\nตำส้ม\nติเตียน\nติณชาติ\nติดขัด\nติดใจ\nติดต่อ\nติดตั้ง\nติดตาม\nติดตื้น\nติดพัน\nติดลม\nติดอ่าง\nตีเกลียว\nตีขลุม\nตีความ\nตีคู่\nตีจาก\nตีตื้น\nตีแผ่\nตีรวน\nตีลังกา\nตีวง\nตีเสมอ\nตีนกา\nตีนคู้\nตีนจก\nตีนตะขาบ\nตีนผี\nตีนเหยียด\nตึกแถว\nตึกระฟ้า\nตึงเครียด\nตึงตัง\nตื้นตัน\nตื่นตัว\nตื่นตูม\nตื่นเต้น\nตุ๊ต๊ะ\nตุ้บตั้บ\nตุ้มหู\nตุลาการ\nตุลาคม\nตู้นิรภัย\nตูมตาม\nตู้เสบียง\nเตโชธาตุ\nเตร็ดเตร่\nเต้นรำ\nเตาแก๊ส\nเตาผิง\nเตาฟู่\nเตาไฟ\nเตารีด\nเตาสูบ\nเต่าทอง\nเต้ารับ\nเต้าส่วน\nเต้าเสียบ\nเต้าหู้ยี้\nแต่ละ\nแตกคอ\nแตกคอก\nแตกฉาน\nแตกดับ\nแตกตื่น\nแตกพาน\nแตกแยก\nแตกร้าว\nแตกหัก\nแต่งงาน\nแต่งตั้ง\nแต้มคู\nแต้มต่อ\nแตรงอน\nแตรเดี่ยว\nแตรฝรั่ง\nแตรฟันฟาร์\nแตรวง\nโต้ตอบ\nโต้เถียง\nโต้แย้ง\nโต๊ะหมู่\nโต๊ะอิหม่าม\nใต้ถุน\nไต้ก๋ง\nไต่คู้\nไต่เต้า\nไต่ถาม\nไต้ฝุ่น\nไตรจักร\nไตรจีวร\nไตรตรึงษ์\nไตรทวาร\nไตรปิฎก\nไตรเพท\nไตรภพ\nไตรภูมิ\nไตรภาคี\nไตรยางศ์\nไตรรงค์\nไตรรัตน์\nไตรลักษณ์\nไตรโลก\nไตรสรณคมน์\nไตรสิกขา\nไต่สวน\nถกเถียง\nถดถอย\nถนัดถนี่\nถนิมสร้อย\nถมถืด\nถมเถ\nถมไป\nถลากไถล\nถ้วนถี่\nถ้วยฟู\nถ่องแท้\nถอดถอน\nถ้อยคำ\nถ้อยแถลง\nถากถาง\nถ่านไฟฉาย\nถ่านหิน\nถามไถ่\nถ่ายทอด\nถ่ายทุกข์\nถ่ายเท\nถาวรวัตถุ\nถ้ำมอง\nถี่ถ้วน\nถึงใจ\nถูกใจ\nถูกชะตา\nเถรวาท\nเถ้าแก่\nเถ้าแก่เนี้ย\nแถมพก\nแถลงการณ์\nไถ่ถอน\nไถ่ถาม\nทดแทน\nทดรอง\nทดลอง\nทดสอบ\nทนทาน\nทนายความ\nทบทวน\nทแยงมุม\nทรงกลด\nทรงเครื่อง\nทรงเจ้า\nทรัพย์สิน\nทรามชม\nทรามเชย\nทรามวัย\nทรามสงวน\nทรามสวาท\nทรุดโทรม\nทฤษฎีบท\nท้วงติง\nท่วมท้น\nทวาทศ\nทวาทศมาส\nทวาบรยุค\nทวารบาล\nทวิบถ\nทวิบท\nทวิบาท\nทวิภาค\nทวิภาคี\nทวีคูณ\nทศกัณฐ์\nทศชาติ\nทศทิศ\nทศนิยม\nทศพร\nทศพล\nทศพิธราชธรรม\nทศมาส\nทศวรรษ\nท่อไอเสีย\nท้อถอย\nท้อแท้\nทองขาว\nทองคำ\nทองคำขาว\nทองคำเปลว\nทองเค\nทองแดง\nทองบรอนซ์\nทองม้วน\nทองย้อย\nทองสัมฤทธิ์\nทองหยอด\nทองหยิบ\nทองเหลือง\nทองเอก\nท่องเที่ยว\nท้องตรา\nท้องถิ่น\nท้องที่\nท้องน้อย\nท้องร่อง\nท้องเรื่อง\nทอดมัน\nทอดทิ้ง\nทอดน่อง\nทอดยอด\nทอดหุ่ย\nทอยกอง\nทะเบียนบ้าน\nทะเลทราย\nทะเลสาบ\nทะเลหลวง\nทักขิณาวัฏ\nทักท้วง\nทักทาย\nทักษิณาวรรต\nทักษิณาทาน\nทักษิณานุประทาน\nทั้งกลม\nทั้งคน\nทั้งดุ้น\nทั้งที\nทั้งนั้น\nทั้งนี้\nทั้งปวง\nทั้งผอง\nทั้งเพ\nทั้งมวล\nทั้งสิ้น\nทั้งหมด\nทั้งหลาย\nทัณฑ์บน\nทัดทาน\nทัดเทียม\nทันควัน\nทันใจ\nทันใด\nทันตา\nทันสมัย\nทันที\nทับถม\nทับทรวง\nทับศัพท์\nทั่วถึง\nทั่วไป\nท่าทาง\nท่าที\nท้าทาย\nทางการ\nทางข้าม\nทางด่วน\nทางเท้า\nทางโท\nทางใน\nทางผ่าน\nทางม้าลาย\nทางหลวง\nทางออก\nทางเอก\nทานกัณฑ์\nทานตะวัน\nท่านชาย\nทานบารมี\nท่านผู้หญิง\nท่านหญิง\nทาบทาม\nท้ายทอย\nทารุณกรรม\nทำคลอด\nทำใจ\nทำซ้ำ\nทำท่า\nทำที\nทำแท้ง\nทำโทษ\nทำบาป\nทำบุญ\nทำพิษ\nทำฟัน\nทำร้าย\nทำวัตร\nทำสาว\nทำเสน่ห์\nทำหมัน\nทำให้\nทิ้งขว้าง\nทิ้งทวน\nทิ้งท้าย\nทินกร\nทิพจักขุ\nทิพโสต\nทิพยจักษุ\nทิพยญาณ\nทิพยเนตร\nทิพยรส\nทิพากร\nทิ่มตำ\nทิ่มแทง\nทิวากร\nทิวากาล\nทิศทาง\nทีเด็ด\nทีท่า\nทีนี้\nทีหลัง\nทีฆนิกาย\nทีฆสระ\nที่ดิน\nที่นอน\nที่นั่ง\nที่ปรึกษา\nที่พึ่ง\nที่มั่น\nที่ราบ\nที่ว่าการ\nที่สุด\nที่หมาย\nที่ไหน\nทุกที\nทุกเมื่อ\nทุกข์สุข\nทุนทรัพย์\nทุนนิยม\nทุนรอน\nทุนสำรอง\nทุ่มเถียง\nทุ่มเท\nทูนหัว\nทูลกระหม่อม\nเทกระจาด\nเทครัว\nเทพเจ้า\nเทพดา\nเทพธิดา\nเทพนม\nเทพนิยม\nเทพนิยาย\nเทพบุตร\nเทพสังหรณ์\nเทศกาล\nเทศนาโวหาร\nเทศบัญญัติ\nเทศบาล\nเทศมนตรี\nเทห์ฟากฟ้า\nเท่ากับ\nเท่าใด\nเท่าตัว\nเท่าทัน\nเท่าทุน\nเท่าเทียม\nเท่านั้น\nเท่าไร\nเท้าช้าง\nเทิดทูน\nเที่ยงตรง\nเที่ยงแท้\nเที่ยงธรรม\nเทียนชนวน\nเทียนพรรษา\nเทียบเคียง\nเทียบเท่า\nเทือกเขา\nเทือกเถา\nแท็งก์น้ำ\nแท่นพิมพ์\nแท่นมณฑล\nแท่นหมึก\nแทรกซอน\nแทรกซ้อน\nแทรกซึม\nแทรกแซง\nแทะโลม\nไทยดำ\nไทยทาน\nไทยธรรม\nไทยน้อย\nไทยใหญ่\nธงชัย\nธงชาติ\nธงทิว\nธรณีวิทยา\nธรณีสงฆ์\nธรรมกาย\nธรรมการ\nธรรมเกษตร\nธรรมขันธ์\nธรรมคุณ\nธรรมจรรยา\nธรรมจริยา\nธรรมจักร\nธรรมจักษุ\nธรรมจาคะ\nธรรมจารี\nธรรมชาติ\nธรรมดา\nธรรมเนียม\nธรรมราชา\nธรรมศาสตร์\nธรรมสภา\nธรรมสังเวช\nธัญพืช\nธารพระกร\nธีรภาพ\nธีรราช\nนกเขา\nนกต่อ\nนกยูง\nนกรู้\nนกหวีด\nนครบาล\nนครรัฐ\nนงคราญ\nนงนุช\nนงพะงา\nนงเยาว์\nนงราม\nนงลักษณ์\nนบนอบ\nนพเก้า\nนพคุณ\nนพเคราะห์\nนพปฎล\nนพพล\nนพรัตน์\nนพศก\nนพศูล\nนมข้น\nนมผง\nนมไม้\nนมนาน\nนมหนู\nนมแมว\nนรีเวช\nนรีเวชวิทยา\nนวดฟั้น\nนวยนาด\nนวลระหง\nนวลลออ\nนวลละออง\nนวลจันทร์\nนอกครู\nนอกคอก\nนอกจาก\nนอกใจ\nนอกชาน\nนอกรีต\nนอกเหนือ\nนองเนือง\nนองเลือด\nนอนก้น\nนอนใจ\nนอบนบ\nนอนเล่น\nนอบน้อม\nน้อมนำ\nน้อยใจ\nน้อยหน้า\nนักการ\nนักการเมือง\nนักกีฬา\nนักข่าว\nนักท่องเที่ยว\nนักเทศน์\nนักโทษ\nนักธรรม\nนักบวช\nนักบิน\nนักบุญ\nนักปราชญ์\nนักพรต\nนักรบ\nนักเรียน\nนักเลง\nนักวิชาการ\nนักศึกษา\nนักสิทธิ์\nนักสืบ\nนักหนา\nนั่งเทียน\nนั่งร้าน\nนัดแนะ\nนัดหมาย\nนั่นแหละ\nนั่นเอง\nนับถือ\nนับประสา\nนัยน์ตา\nนาดำ\nนาปรัง\nนาปี\nนาสวน\nนาหว่าน\nนาคบาศ\nนาคปรก\nนาคราช\nนางกวัก\nนางกำนัล\nนางงาม\nนางใน\nนางบำเรอ\nนางแบบ\nนางพญา\nนางฟ้า\nนางไม้\nนางโลม\nนางสาว\nนางห้าม\nนางเอก\nนาฏกรรม\nนาฏดนตรี\nนาฏศิลป์\nนานนม\nน่านน้ำ\nน่านฟ้า\nนามกร\nนามธรรม\nนามไธย\nนามบัตร\nนามปากกา\nนามแฝง\nนามสกุล\nนามสงเคราะห์\nนามสมญา\nนายทะเบียน\nนายท่า\nนายท้าย\nนายทุน\nนายประกัน\nนายหน้า\nนายอำเภอ\nนารายณ์หัตถ์\nนารีผล\nนาวิกโยธิน\nนำจับ\nนำพา\nนำทาง\nนำร่อง\nนำสืบ\nนำแสดง\nน้ำกรด\nน้ำกาม\nน้ำเกลือ\nน้ำข้าว\nน้ำแข็ง\nน้ำแข็งไส\nน้ำแข็งแห้ง\nน้ำครำ\nน้ำคร่ำ\nน้ำค้าง\nน้ำค้างแข็ง\nน้ำคาวปลา\nน้ำคำ\nน้ำเค็ม\nน้ำเคย\nน้ำเงิน\nน้ำเงี้ยว\nน้ำจัณฑ์\nน้ำจิ้ม\nน้ำใจ\nน้ำเชื้อ\nน้ำเชื่อม\nน้ำซาวข้าว\nน้ำดอกไม้\nน้ำดี\nน้ำตก\nน้ำตา\nน้ำตาล\nน้ำท่า\nน้ำนม\nน้ำนวล\nน้ำบาดาล\nน้ำประสานทอง\nน้ำประปา\nน้ำปลา\nน้ำป่า\nน้ำผึ้ง\nน้ำพริก\nน้ำพริกเผา\nน้ำพี้\nน้ำพุ\nน้ำมนต์\nน้ำมนตร์\nน้ำมัน\nน้ำมือ\nน้ำมูก\nน้ำเมา\nน้ำย่อย\nน้ำยา\nน้ำรัก\nน้ำแร่\nน้ำลาย\nน้ำเลี้ยง\nน้ำสต๊อก\nน้ำส้ม\nน้ำส้มสายชู\nน้ำสังข์\nน้ำสาบาน\nน้ำเสียง\nน้ำหนวก\nน้ำหนอง\nน้ำหนัก\nน้ำหน้า\nน้ำหนึ่ง\nน้ำหมึก\nน้ำหอม\nน้ำเหลือง\nน้ำอบ\nน้ำอ้อย\nน้ำอัดลม\nนิ่งเฉย\nนิจศีล\nนิดเดียว\nนิดหน่อย\nนิติกร\nนิติกรรม\nนิติธรรม\nนิตินัย\nนิติบัญญัติ\nนิติบุคคล\nนิติภาวะ\nนิติวิทยาศาสตร์\nนิติเวช\nนิติเวชศาสตร์\nนิติศาสตร์\nนิเทศศาสตร์\nนิ่มนวล\nนิรุกติศาสตร์\nนิเวศวิทยา\nนิศากร\nนิศากาล\nนิศาชล\nนิศารัตน์\nนี่แน่ะ\nนี่แหละ\nนี่เอง\nนึกคิด\nนุงถุง\nนุ่งห่ม\nนุ่มนวล\nนุ่มนิ่ม\nเนตรนารี\nเนติบัณฑิต\nเนยเทียม\nเนยใส\nเนิ่นนาน\nเนิบนาบ\nเนื้อความ\nเนื้อคู่\nเนื้อเค็ม\nเนื้องอก\nเนื้อตัว\nเนื้อตาย\nเนื้อที่\nเนื้อแท้\nเนื้อเปื่อย\nเนื้อผ้า\nเนื้อเพลง\nเนื้อไม้\nเนื้อเยื่อ\nเนื้อร้อง\nเนื้อร้าย\nเนื้อเรื่อง\nเนื้อหา\nเนืองนอง\nเนืองนิตย์\nเนืองแน่น\nแน่ใจ\nแน่ชัด\nแน่แท้\nแน่นอน\nแน่นิ่ง\nแน่แน่ว\nแน่นแฟ้น\nแน่นหนา\nแนบเนียน\nแนบแน่น\nแนวคิด\nแนวทาง\nแนวโน้ม\nแนวป่า\nแนวรบ\nแนวร่วม\nแนวหน้า\nแนวหลัง\nแน่วแน่\nแนะนำ\nแนะแนว\nโน้มน้าว\nในหลวง\nบกพร่อง\nบงกช\nบงการ\nบดบัง\nบทกลอน\nบทกวี\nบทความ\nบทคัดย่อ\nบทเฉพาะกาล\nบทนำ\nบทบัญญัติ\nบทบาท\nบทประพันธ์\nบทเพลง\nบทร้อง\nบทเรียน\nบทลงโทษ\nบทสนทนา\nบทอัศจรรย์\nบทจร\nบทบงสุ์\nบทมาลย์\nบทรัช\nบทเรศ\nบทวลัญช์\nบนบาน\nบรมครู\nบรมธาตุ\nบรมบพิตร\nบรมวงศานุวงศ์\nบรมอัฐิ\nบรรณพิภพ\nบรรณศาลา\nบรรณาการ\nบรรณาธิการ\nบรรณานุกรม\nบรรณารักษ์\nบรรณารักษศาสตร์\nบรรดามี\nบรรดาศักดิ์\nบรรทัดฐาน\nบรรพบุรุษ\nบรรลัยกัลป์\nบรรลัยจักร\nบริคณห์สนธิ\nบวงสรวง\nบ่วงบาศ\nบ้วนพระโอษฐ์\nบ่อเกิด\nบอกกล่าว\nบอกบท\nบอกบุญ\nบอกใบ้\nบอกปัด\nบ้องกัญชา\nบ้องตื้น\nบ้องไฟ\nบ้องหู\nบอดสี\nบ่อนทำลาย\nบอบช้ำ\nบอบบาง\nบอบแบบ\nบังโกลน\nบังโคลน\nบังใบ\nบั้งไฟ\nบังคับการ\nบังคับบัญชา\nบัญชาการ\nบัณฑุกัมพล\nบัดดล\nบัดเดี๋ยว\nบัดนั้น\nบัดนี้\nบัดสีบัดเถลิง\nบัตรเครดิต\nบัตรพลี\nบัตรสนเท่ห์\nบัตรสินเชื่อ\nบั่นทอน\nบั้นท้าย\nบั้นปลาย\nบั้นพระองค์\nบั้นเอว\nบันไดลิง\nบันไดเลื่อน\nบันเทิงคดี\nบัวลอย\nบัวบก\nบ้าจี้\nบ้าดีเดือด\nบ้าน้ำลาย\nบ้าบิ่น\nบ้าระห่ำ\nบ้าเลือด\nบ้าหอบฟาง\nบากบั่น\nบากหน้า\nบางตา\nบางเบา\nบางที\nบาดเจ็บ\nบาดแผล\nบาดหมาง\nบาตรใหญ่\nบาทบงกช\nบาทบงสุ์\nบาทบริจาริกา\nบาทวิถี\nบานเกล็ด\nบานตะเกียง\nบานตะไท\nบานเบอะ\nบานปลาย\nบานแผละ\nบานพับ\nบ้านจัดสรร\nบ้านช่อง\nบ้านนอก\nบ้านพัก\nบ้านเมือง\nบ้านรับรอง\nบ้านเรือน\nบาปกรรม\nบายศรี\nบ่ายเบี่ยง\nบ่ายหน้า\nบ่าวไพร่\nบิดเบี้ยว\nบิดเบือน\nบิดพลิ้ว\nบี้แบน\nบีบคั้น\nบีบรัด\nบึ้งตึง\nบึ้งบูด\nบุกบั่น\nบุกเบิก\nบุกรุก\nบุคลิกภาพ\nบุคลิกลักษณะ\nบุญธรรม\nบุญนิธิ\nบุญฤทธิ์\nบุบสลาย\nบุ้ยใบ้\nบุรุษเพศ\nบุหงารำไป\nบู้บี้\nบูชายัญ\nบูดบึ้ง\nบูดเบี้ยว\nเบาความ\nเบาใจ\nเบาบาง\nเบาปัญญา\nเบามือ\nเบาแรง\nเบาสมอง\nเบาหวาน\nเบาโหวง\nเบ้าตา\nเบาะแส\nเบิกความ\nเบิกบาน\nเบี้ยล่าง\nเบี้ยเลี้ยง\nเบี้ยหวัด\nเบี่ยงบ่าย\nเบียดบัง\nเบียดเบียน\nเบียดเสียด\nเบื้องต้น\nเบื้องบน\nเบื้องหน้า\nเบื้องหลัง\nแบกะดิน\nแบเบาะ\nแบ่งเบา\nแบ่งปัน\nแบ่งแยก\nแบบฉบับ\nแบบแปลน\nแบบแผน\nแบบฝึกหัด\nแบบพิมพ์\nแบบสอบถาม\nแบบอย่าง\nแบะแฉะ\nแบะท่า\nโบแดง\nโบราณคดี\nโบราณวัตถุ\nโบราณสถาน\nใบขับขี่\nใบจอง\nใบตอง\nใบแทรก\nใบบอก\nใบบุญ\nใบเบิกทาง\nใบปลิว\nใบพัด\nใบโพ\nใบไม้\nใบระกา\nใบรับรอง\nใบลา\nใบเลี้ยง\nใบสั่ง\nใบสำคัญ\nใบสุทธิ\nใบเสร็จ\nใบหน้า\nใบอนุญาต\nใบระกา\nปกครอง\nปกคลุม\nปกป้อง\nปกปิด\nปฏิบัติการ\nปฏิบัติบูชา\nปฐพีวิทยา\nปฐมฌาน\nปฐมทัศน์\nปฐมเทศนา\nปฐมนิเทศ\nปฐมพยาบาล\nปฐมยาม\nปฐมฤกษ์\nปฐมวัย\nปฐมสมโพธิ\nปนเป\nป่นปี้\nปมเขื่อง\nปมเด่น\nปมด้อย\nปรนเปรอ\nปรบไก่\nปรบมือ\nปรสิตวิทยา\nประโปรย\nประพรม\nประกันชีวิต\nประกันภัย\nประจักษ์พยาน\nประจัญบาน\nประจันหน้า\nประจำการ\nประจำเดือน\nประจำเมือง\nประจำยาม\nประชดประชัน\nประชากร\nประชากรศาสตร์\nประชาคม\nประชาชน\nประชาราษฎร์\nประชาชาติ\nประชาชี\nประชาทัณฑ์\nประชาบาล\nประชาพิจารณ์\nประชาภิบาล\nประชามติ\nประชาสงเคราะห์\nประชาสัมพันธ์\nประดับประดา\nประดามี\nประดาน้ำ\nประเดี๋ยวเดียว\nประเดี๋ยวนี้\nประทับใจ\nประทุษร้าย\nประเทศราช\nประพาสต้น\nประเพณีนิยม\nประลัยกัลป์\nประวัติการณ์\nประวัติศาสตร์\nประสบการณ์\nประสบการณ์นิยม\nประสาทการ\nประสูติการ\nประสูติกาล\nประเส\nปรับทุกข์\nปรับโทษ\nปรับปรุง\nปรากฏการณ์\nปราดเปรียว\nปราดเปรื่อง\nปราบปราม\nปริญญาบัตร\nปรัยัติธรรม\nปรุโปร่ง\nปลงใจ\nปลงตก\nปลดทุกข์\nปลดปลง\nปลดปล่อย\nปลดเปลื้อง\nปลดระวาง\nปลดแอก\nปล้นสะดม\nปลอกกระสุน\nปลอกคอ\nปลอดโปร่ง\nปลอดภัย\nปลอมปน\nปลอมแปลง\nปลอบโยน\nปล่อยใจ\nปล่อยตัว\nปล่อยปละ\nปลั๊กไฟ\nปลากริม\nปลาเค็ม\nปลาจ่อม\nปลาเจ่า\nปลาแดก\nปลาตู้\nปลาทอง\nปลาร้า\nปลาส้ม\nปลาดาว\nปลาบิน\nปลาฝา\nปลาวาฬ\nปลาหมึก\nปลาบปลื้ม\nปลายข้าว\nปลายแถว\nปลายทาง\nปลิ้นปลอก\nปลิ้นปล้อน\nปลีกตัว\nปลีกย่อย\nปลุกใจ\nปลุกปล้ำ\nปลุกปั่น\nปลุกระดม\nปลุกเสก\nปลูกฝัง\nปลูกสร้าง\nปวดถ่วง\nปวดมวน\nปวดร้าว\nป่วนปั่น\nป่วยการ\nปอกลอก\nป้องกัน\nปักใจ\nปักดำ\nปักหลัก\nปัจเจกบุคคล\nปัจเจกพุทธะ\nปัจเจกโพธิ\nปัจฉิมชน\nปัจฉิมทิศ\nปัจฉิมภาค\nปัจฉิมยาม\nปัจฉิมลิขิต\nปัจฉิมวัย\nปัจฉิมวาจา\nปัญญาชน\nปัญญาวิมุติ\nปัญญาอ่อน\nปัดเป่า\nปันส่วน\nปั่นป่วน\nปั่นแปะ\nปั่นหัว\nปั้นจิ้ม\nปั้นเจ๋อ\nปั้นปึ่ง\nปั้นสิบ\nปั๊มน้ำมัน\nป่าช้า\nป่าชายเลน\nป่าดง\nป่าดงดิบ\nป่าดิบ\nป่าเถื่อน\nป่าเบญจพรรณ\nป่าละเมาะ\nปากกา\nปากขอ\nปากแข็ง\nปากคอ\nปากคำ\nปากคีบ\nปากจัด\nปากน้ำ\nปากเปล่า\nปากเสียง\nปานกลาง\nป่านนี้\nป้านลม\nป้ายสี\nป่าวร้อง\nปิดฉาก\nปิดบัง\nปิตุฆาต\nปิตุภูมิ\nปีมะโว้\nปีแสง\nปี่กลาง\nปี่ไฉน\nปี่ชวา\nปี่นอก\nปี่ใน\nปี่พาทย์\nปี่อ้อ\nปีกกา\nปีนเกลียว\nปีนป่าย\nปึกแผ่น\nปึงปัง\nปืนกล\nปืนครก\nปืนพก\nปืนยา\nปืนยาว\nปืนลม\nปืนเล็ก\nปืนเล็กยาว\nปืนสั้น\nปืนใหญ่\nปุบปับ\nปุ๊บปั๊บ\nปุ่มเปือก\nปุยฝ้าย\nปุ๋ยคอก\nปุ๋ยเคมี\nปุ๋ยวิทยาศาสตร์\nปุ๋ยหมัก\nปุ๋ยอินทรีย์\nปูจ๋า\nปูเสฉวน\nปู่เจ้า\nปู่ทวด\nปูนขาว\nปูนซีเมนต์\nปูนดิบ\nปูนแดง\nปูนปลาสเตอร์\nปูนปั้น\nเป็ดเทศ\nเป็ดน้ำ\nเป็นกลาง\nเป็นใจ\nเป็นต้น\nเป็นต่อ\nเป็นรอง\nเป็นไร\nเป็นลม\nเป็นห่วง\nเป็นอยู่\nเปรมปรีดิ์\nเปรอะเปื้อน\nเปรียบเทียบ\nเปรียบเปรย\nเปรี้ยวปาก\nเปรี้ยวหวาน\nเปรื่องปราด\nเปลญวน\nเปล่งปลั่ง\nเปล่าดาย\nเปล่าเปลี่ยว\nเปลี่ยนใจ\nเปลี่ยนตัว\nเปลี่ยนแปลง\nเปลี่ยนมือ\nเปลี่ยนหน้า\nเป๋อเหลอ\nเปะปะ\nเป่ากบ\nเป้านิ่ง\nเป้าหมาย\nเปิดฉาก\nเปิดเปิง\nเปิดโปง\nเปิดผนึก\nเปิดเผย\nเปียกปูน\nแป้งสาลี\nแป้งนวล\nแป้งเปียก\nแป้งมัน\nแป้งฝุ่น\nแป้งร่ำ\nแป้งสิงคโปร์\nแป้งหมี่\nแปดปน\nแปดเปื้อน\nแปรปรวน\nแปรผัน\nแปรพักตร์\nแปรรูป\nแปรอักษร\nแปลกปลอม\nแปะโป้ง\nโป้ปด\nโปร่งแสง\nโปร่งใส\nโปรดปราน\nโปรยทาน\nโปรยปราย\nโปโลน้ำ\nผกผัน\nผกากรอง\nผงขาว\nผงชูรส\nผงซักฟอก\nผงฟู\nผดุงครรภ์\nผมไฟ\nผลพลอยได้\nผลลัพธ์\nผลัดเปลี่ยน\nผลิตผล\nผลิตภัณฑ์\nผลุบโผล่\nผสมเทียม\nผสมผสาน\nผสมผเส\nผสมพันธุ์\nผสมโรง\nผสมเสร็จ\nผ่องแผ้ว\nผ่องใส\nผ่อนคลาย\nผ่อนชำระ\nผ่อนปรน\nผ่อนผัน\nผ่อนส่ง\nผอมโซ\nผอมแห้ง\nผักชี\nผักตบชวา\nผักบุ้ง\nผังเมือง\nผัดผ่อน\nผันแปร\nผันผวน\nผ่าตัด\nผ่าเผย\nผ่าหมาก\nผ่าเหล่า\nผ้าขนหนู\nผ้าขาวม้า\nผ้าขี้ริ้ว\nผ้าเช็ดตัว\nผ้าเช็ดปาก\nผ้าเช็ดมือ\nผ้าเช็ดหน้า\nผ้าดิบ\nผ้าต่วน\nผ้าไตร\nผ้าถุง\nผ้าแถบ\nผ้านวม\nผ้านุ่ง\nผ้าใบ\nผ้าป่า\nผ้าป่าน\nผ้าผ่อน\nผ้าพันคอ\nผ้าพันแผล\nผ้าแพร\nผ้าโพกหัว\nผ้ามัดหมี่\nผ้ายาง\nผ้าลูกไม้\nผ้าเหลือง\nผ้าอนามัย\nผ้าอ้อม\nผาดโผน\nผาติกรรม\nผิดหวัง\nผิวเผิน\nผิวพรรณ\nผิวหนัง\nผีกระสือ\nผีกระหัง\nผีกองกอย\nผีโขมด\nผีดิบ\nผีตองเหลือง\nผีถ้วยแก้ว\nผีแถน\nผีทะเล\nผีบุญ\nผีปอบ\nผีพุ่งไต้\nผีฟ้า\nผีเรือน\nผีสาง\nผีเสื้อ\nผีห่า\nผึ่งผาย\nผุดผ่อง\nผุดผาด\nผู้คน\nผู้คุม\nผู้จัดการ\nผู้ชาย\nผู้เชี่ยวชาญ\nผู้ดี\nผู้โดยสาร\nผู้ต้องขัง\nผู้ต้องหา\nผู้แทน\nผู้น้อย\nผู้บริโภค\nผู้บังคับบัญชา\nผู้ปกครอง\nผู้ประกอบการ\nผู้ป่วย\nผู้พิพากษา\nผู้เยาว์\nผู้ร้าย\nผู้วิเศษ\nผู้สื่อข่าว\nผู้เสียหาย\nผู้หญิง\nผู้ใหญ่\nผู้ใหญ่บ้าน\nผูกขวัญ\nผูกขาด\nผูกพัน\nผูกมัด\nเผชิญหน้า\nเผด็จการ\nเผด็จศึก\nเผยแผ่\nเผยแพร่\nเผละผละ\nเผ่าพันธุ์\nเผื่อแผ่\nแผงลอย\nแผนการ\nแผนงาน\nแผนที่\nแผนผัง\nแผนภาพ\nแผนภูมิ\nแผ่นดิน\nแผ่นเสียง\nแผ้วพาน\nโผงผาง\nฝนทอง\nฝอยทอง\nฝักแค\nฝักบัว\nฝักฝ่าย\nฝักใฝ่\nฝังใจ\nฝังหัว\nฝาชี\nฝาแฝด\nฝาละมี\nฝ่าพระบาท\nฝ่าฝืน\nฝ่าฟัน\nฝ้าฟาง\nฝากตัว\nฝากฝัง\nฝีดาษ\nฝีมะม่วง\nฝีจักร\nฝีเท้า\nฝีปาก\nฝีพาย\nฝีมือ\nฝีเย็บ\nฝึกงาน\nฝึกปรือ\nฝึกฝน\nฝึกสอน\nฝึกหัด\nฝืดเคือง\nใฝ่ฝัน\nพงพี\nพงศ์พันธุ์\nพญาโศก\nพญาไฟ\nพบปะ\nพบพาน\nพรสวรรค์\nพรมคด\nพรมแดน\nพรมมิ\nพรรคพวก\nพรรณราย\nพรวดพราด\nพรหมชาติ\nพรหมลิขิต\nพรหมโลก\nพรหมวิหาร\nพร้อมใจ\nพร้อมพรั่ง\nพร้อมเพรียง\nพร้อมมูล\nพร้อมสรรพ\nพร้อมหน้า\nพระครู\nพระคุณ\nพระเคราะห์\nพระเครื่อง\nพระเจ้า\nพระเจ้าอยู่หัว\nพระชายา\nพระทัย\nพระนาง\nพระนางเจ้า\nพระเป็นเจ้า\nพระผู้เป็นเจ้า\nพระพิมพ์\nพระพุทธเจ้า\nพระพุทธองค์\nพระภูมิ\nพระยา\nพระรอง\nพระสนม\nพระสนมเอก\nพระองค์\nพระองค์เจ้า\nพระเอก\nพรั่งพร้อม\nพรั่งพรู\nพรั่นพรึง\nพร่างพราว\nพรายน้ำ\nพรายแพรว\nพราวแพรว\nพร่ำพลอด\nพร่ำเพรื่อ\nพร่ำเพ้อ\nพริกไทย\nพริ้งพราย\nพริ้งเพรา\nพริ้งเพริศ\nพริบตา\nพริ้มพราย\nพริ้มเพรา\nพรุ่งนี้\nพฤติกรรม\nพฤติการณ์\nพฤตินัย\nพลการ\nพลขับ\nพลความ\nพลเมือง\nพลรบ\nพลร่ม\nพลเรือน\nพลโลก\nพลศึกษา\nพลบค่ำ\nพลอดรัก\nพลังงาน\nพลังเงียบ\nพลังจิต\nพลั้งปาก\nพลั้งเผลอ\nพลั้งพลาด\nพลัดถิ่น\nพลัดพราก\nพลาดท่า\nพลาดพลั้ง\nพลิกแพลง\nพลีกรรม\nพลุ่งพล่าน\nพวกพ้อง\nพวงมาลัย\nพวงมาลา\nพวงหรีด\nพวงคราม\nพวงชมพู\nพวงแสด\nพ่วงพี\nพวยน้ำ\nพวยพุ่ง\nพสกนิกร\nพหุคูณ\nพหุภาคี\nพหูพจน์\nพหูสูต\nพอควร\nพอใจ\nพอใช้\nพอใช้ได้\nพอดี\nพอตัว\nพอทำเนา\nพอประมาณ\nพอเพียง\nพอแรง\nพอสมควร\nพอเหมาะ\nพ่อขุน\nพ่อครัว\nพ่อตา\nพ่อบ้าน\nพ่อพันธุ์\nพ่อม่าย\nพ่อเมือง\nพ่อเลี้ยง\nพ่อสื่อ\nพอกพูน\nพ้องพาน\nพักผ่อน\nพักพิง\nพักฟื้น\nพักร้อน\nพักแรม\nพัดยศ\nพัดลม\nพันพัว\nพับฐาน\nพับเพียบ\nพัวพัน\nพาซื่อ\nพาดพิง\nพิณพาทย์\nพิธีกร\nพิธีกรรม\nพิธีการ\nพิธีรีตอง\nพิธีสาร\nพินัยกรรม\nพิมพ์เขียว\nพิมพ์ใจ\nพิมพ์ดีด\nพิษสง\nพี่น้อง\nพี่เบิ้ม\nพี่เลี้ยง\nพึงใจ\nพึงพอใจ\nพึ่งพา\nพึ่งพิง\nพืชพันธุ์\nพืชมงคล\nพื้นฐาน\nพื้นที่\nพื้นบ้าน\nพื้นเพ\nพื้นเมือง\nพื้นเสีย\nพุพอง\nพุทธกาล\nพุทธคุณ\nพุทธจักร\nพุทธเจดีย์\nพุทธฎีกา\nพุทธปฏิมา\nพุทธปฏิมากร\nพุทธมามกะ\nพุทธศักราช\nพุทธศาสนิกชน\nพุทธองค์\nพุทธชาด\nพุทธรักษา\nพุ่มพวง\nพุ่มไม้\nพู่กัน\nพูดจา\nเพ่งเล็ง\nเพดานบิน\nเพดานปาก\nเพริศพราย\nเพริศพริ้ง\nเพริศแพร้ว\nเพรียกพร้อง\nเพรียวลม\nเพลงเชิด\nเพลงยาว\nเพลิงกัลป์\nเพลินใจ\nเพลินตา\nเพลี่ยงพล้ำ\nเพ้อฝัน\nเพาะกาย\nเพาะชำ\nเพาะปลูก\nเพิกถอน\nเพิกเฉย\nเพิ่มเติม\nเพิ่มพูน\nเพียงตา\nเพียงพอ\nเพียบแประ\nเพียบพร้อม\nเพื่อนเกลอ\nเพื่อนตาย\nเพื่อนบ้าน\nเพื่อนฝูง\nเพื่อนยาก\nแพ้ท้อง\nแพร่หลาย\nแพร่งพราย\nแพรวพราว\nโพธิญาณ\nโพธิบัลลังก์\nโพธิสมภาร\nโพธิสัตว์\nโพ้นทะเล\nโพยภัย\nไพ่ตาย\nไพ่ป๊อก\nไพรวัน\nไพรสณฑ์\nไพรสัณฑ์\nไพร่พล\nไพร่ฟ้า\nไพร่สม\nไพร่ส่วย\nไพร่หลวง\nฟกช้ำ\nฟองเต้าหู้\nฟองน้ำ\nฟองมัน\nฟ้องกลับ\nฟ้องร้อง\nฟอนเฟะ\nฟักทอง\nฟัดเฟียด\nฟันดาบ\nฟันฝ่า\nฟันแท้\nฟันน้ำนม\nฟันปลา\nฟันฟาง\nฟันเฟือง\nฟันม้า\nฟันเลื่อย\nฟันหนู\nฟั่นเฝือ\nฟั่นเฟือน\nฟื้นตัว\nฟื้นฝอย\nฟื้นฟู\nฟุ้งซ่าน\nฟุ้งเฟ้อ\nฟุ้งเฟื่อง\nฟุตบอล\nฟูฟ่อง\nฟูเฟื่อง\nฟูมฟัก\nฟูมฟาย\nเฟะฟะ\nเฟื่องฟ้า\nเฟื่องฟุ้ง\nเฟื่องฟู\nไฟฉาย\nไฟแช็ก\nไฟธาตุ\nไฟฟ้า\nภัตกิจ\nภาคทัณฑ์\nภาคพื้น\nภาคเรียน\nภาคภูมิ\nภาพถ่าย\nภาพนิ่ง\nภาพประกอบ\nภาพพจน์\nภาพยนตร์\nภาพลวงตา\nภาพลักษณ์\nภายนอก\nภายใน\nภายหน้า\nภายหลัง\nภารกิจ\nภารธุระ\nภารโรง\nภารตวิทยา\nภาษาศาสตร์\nภาสกร\nภิญโญภาพ\nภินชาติ\nภูธร\nภูธเรศ\nภูบาล\nภูเบศ\nภูเบศวร์\nภูเขา\nภูเขาไฟ\nภูผา\nภูตคาม\nภูตบดี\nภูตรูป\nภูเตศวร\nภูมินทร์\nภูมิบาล\nภูมิประเทศ\nภูมิภาค\nภูมิรัฐศาสตร์\nภูมิลำเนา\nภูมิศาสตร์\nภูมิอากาศ\nภูมิธรรม\nภูมิปัญญา\nภูมิรู้\nภูมิใจ\nภูมิฐาน\nภูมิคุ้มกัน\nภูมิแพ้\nภูษาโยง\nเภทภัย\nเภสัชกร\nเภสัชกรรม\nเภสัชวิทยา\nเภสัชศาสตร์\nโภคทรัพย์\nโภคภัณฑ์\nโภชนากร\nโภชนาการ\nมกุฎราชกุมาร\nมงคลแฝด\nมงคลสูตร\nมงคลหัตถี\nมณเฑียรบาล\nมดดำ\nมดแดง\nมดเท็จ\nมดยอบ\nมดลูก\nมธุปายาส\nมธุรส\nมนเทียรบาล\nมนุษย์กบ\nมโนกรรม\nมโนคติ\nมโนทุจริต\nมโนธรรม\nมโนภาพ\nมโนมัย\nมโนรถ\nมโนรมย์\nมโนสุจริต\nมรรคนายก\nมรรคผล\nมฤคชาติ\nมฤคทายวัน\nมฤคราช\nมลทิน\nมลพิษ\nมลสาร\nมวกเหล็ก\nม้วนหน้า\nมวยไทย\nมวยปล้ำ\nมวยล้ม\nมวยวัด\nมวยสากล\nมวยหมู่\nมวลสาร\nมอคราม\nมอซอ\nมอหมึก\nมองเมียง\nมอบตัว\nมอบหมาย\nมอมเมา\nมะขามเทศ\nมะขามป้อม\nมะขามเปียก\nมะเขือเทศ\nมะเขือพวง\nมะพร้าวแก้ว\nมักคุ้น\nมักจี่\nมักง่าย\nมักน้อย\nมักมาก\nมักใหญ่\nมั่งคั่ง\nมั่งมี\nมัจจุราช\nมัชฌิมนิกาย\nมัชฌิมประเทศ\nมัชฌิมยาม\nมัชฌิมวัย\nมัดจำ\nมัดหมี่\nมัธยมกาล\nมัธยมศึกษา\nมันแกว\nมันเทศ\nมันฝรั่ง\nมันเปลว\nมันสมอง\nมั่นคง\nมั่นใจ\nมั่นหมาย\nมั่นเหมาะ\nมัวเมา\nมัวหมอง\nมั่วสุม\nม้าเทศ\nม้าน้ำ\nม้ามืด\nม้าเร็ว\nม้าล่อ\nม้าลาย\nมากมาย\nมาตรการ\nมาตรฐาน\nมาตราส่วน\nมาตุคาม\nมาตุฆาต\nมาตุภูมิ\nม่านตา\nม่านบังตา\nมายากร\nมายากล\nมายาการ\nมายาวี\nมารผจญ\nมารวิชัย\nมารสังคม\nมารหัวขน\nมาลาการ\nมิ่งขวัญ\nมิ่งมิตร\nมิจฉาจาร\nมิจฉาชีพ\nมิดชิด\nมิดเมี้ยน\nมิดหมี\nมิตรจิต\nมิตรภาพ\nมิตรสหาย\nมิน่า\nมีหน้า\nมีดโกน\nมีดดาบ\nมีดโต้\nมีดพก\nมีดพับ\nมีดสั้น\nมึนงง\nมึนชา\nมึนตึง\nมึนเมา\nมืดครึ้ม\nมืดมน\nมืดมัว\nมือจับ\nมือดี\nมือเติบ\nมือปืน\nมือเปล่า\nมือมืด\nมือสอง\nมือเสือ\nมือหนึ่ง\nมือใหม่\nมุกตลก\nมุขปาฐะ\nมุขมนตรี\nมุ่งมั่น\nมุ่งมาด\nมุ่งหน้า\nมุ่งหมาย\nมุ่งหวัง\nมุ้งลวด\nมุ้งสายบัว\nมุมก้ม\nมุมกลับ\nมุมเงย\nมุมฉาก\nมุมตรง\nมุมป้าน\nมุมมืด\nมุมแย้ง\nมุมสะท้อน\nมุมหักเห\nมุมแหลม\nมุสาวาท\nมูกเลือด\nมูกมัน\nมูกหลวง\nมูนดิน\nมูลฐาน\nมูลนาย\nมูลนิธิ\nมูลเหตุ\nมูลค่า\nมูลฝอย\nเม็ดเงิน\nเม็ดเลือด\nเม็ดโลหิต\nเม่นทะเล\nเมรุมาศ\nเมรุราช\nเมล์อากาศ\nเมาดิบ\nเมามัน\nเมามัว\nเมามาย\nเมินเฉย\nเมียน้อย\nเมียหลวง\nเมียงมอง\nเมี่ยงลาว\nเมี่ยงส้ม\nเมื่อกี้\nเมื่อตะกี้\nเมื่อใด\nเมื่อไร\nเมื่อไหร่\nเมื่อนั้น\nเมืองขึ้น\nเมืองท่า\nเมืองนอก\nเมืองหลวง\nเมื่อยขบ\nเมื่อยล้า\nแม่กอง\nแม่กุญแจ\nแม่คุณ\nแม่งาน\nแม่เจ้า\nแม่ชี\nแม่ทัพ\nแม่นม\nแม่น้ำ\nแม่บท\nแม่บ้าน\nแม่เบี้ย\nแม่พระ\nแม่พิมพ์\nแม่เพลง\nแม่มด\nแม่ม่าย\nแม่ไม้\nแม่ยก\nแม่ยาย\nแม่ร้าง\nแม่เรือน\nแม่แรง\nแม่เล้า\nแม่เลี้ยง\nแม่สี\nแม่สื่อ\nแม่เหล็ก\nแมงมุม\nแม่นยำ\nแมลงช้าง\nแมลงวัน\nแมลงปอ\nแมลงภู่\nแมลงเม่า\nแมวเซา\nแมวน้ำ\nแมวป่า\nแมวมอง\nไม้กลัด\nไม้กวาด\nไม้กางเขน\nไม้เกาหลัง\nไม้ขีดไฟ\nไม้จิ้มฟัน\nไม้เด็ด\nไม้ตาย\nไม้ตีพริก\nไม้ที\nไม้เท้า\nไม้บรรทัด\nไม้เมตร\nไม้ระแนง\nไม้เรียว\nไม้หมอน\nไม้อัด\nไม้จัตวา\nไม้ตรี\nไม้ไต่คู้\nไม้โท\nไม้ผัด\nไม้มลาย\nไม้ม้วน\nไม้ยมก\nไม้หน้า\nไม้หันอากาศ\nไม้เอก\nยกกลีบ\nยกครู\nยกเครื่อง\nยกเค้า\nยกทรง\nยกฟ้อง\nยกเมฆ\nยกยอ\nยกย่อง\nยกเลิก\nยกเว้น\nย่นย่อ\nยมทูต\nยมบาล\nยมราช\nยมโลก\nยวดยิ่ง\nยวดยาน\nยวนยี\nยวบยาบ\nย่อท้อ\nย่อส่วน\nย่อหน้า\nย่อหย่อน\nยอกย้อน\nยองใย\nย่องเบา\nย่องแย่ง\nยอดเยี่ยม\nยอดอก\nย้อนยอก\nย้อนรอย\nย้อนศร\nย้อนแสง\nย้อนหลัง\nยอบแยบ\nยอมความ\nย่อมเยา\nย่อยยับ\nยักยอก\nยักย้าย\nยักเยื้อง\nยัญกรรม\nยัญพิธี\nยัดเยียด\nยับเยิน\nยับยั้ง\nยั่วยวน\nยั่วยุ\nยั่วเย้า\nยากวาด\nยากันยุง\nยาเขียว\nยาใจ\nยาฉุน\nยาชา\nยาซัด\nยาดอง\nยาแดง\nยาถ่าย\nยาธาตุ\nยานัตถุ์\nยาเบื่อ\nยาโป๊\nยาแฝด\nยาพิษ\nยาระบาย\nยาสลบ\nยาสั่ง\nยาสีฟัน\nยาสูบ\nยาเส้น\nยาเสพติด\nยาหม่อง\nยาเหลือง\nย่าทวด\nย่านาง\nยากแค้น\nยากจน\nยากเย็น\nยากไร้\nยางนอก\nยางใน\nยางมะตอย\nยางมะตูม\nยางลบ\nยางสน\nยางอาย\nย่างกราย\nย่างเยื้อง\nย่างสด\nย่างสามขุม\nย่างเหยียบ\nยานเกราะ\nยานพาหนะ\nยานอวกาศ\nยานคาง\nยายทวด\nยาวเฟื้อย\nยาวยืด\nยาวเหยียด\nยำทวาย\nยำใหญ่\nยำเกรง\nยำเยง\nย่ำต๊อก\nย่ำยี\nย่ำแย่\nยิงเป้า\nยิ่งนัก\nยิ่งยวด\nยิ่งใหญ่\nยินดี\nยินยอม\nยินร้าย\nยิ้มกริ่ม\nยิ้มแฉ่ง\nยิ้มแต้\nยิ้มแป้น\nยิ้มเผล่\nยิ้มเยาะ\nยิ้มแย้ม\nยียวน\nยึดครอง\nยึดถือ\nยึดมั่น\nยึดเหนี่ยว\nยืดยาด\nยืดยาว\nยืดเยื้อ\nยืดหยุ่น\nยืดอก\nยืนกราน\nยืนต้น\nยืนพื้น\nยืนยง\nยืนยัน\nยืนหยัด\nยื้อยุด\nยุยง\nยุแยง\nยุแหย่\nยุคลบาท\nยุคเข็ญ\nยุคทอง\nยุคมืด\nยุ่งขิง\nยุ่งยาก\nยุ่งเหยิง\nยุติธรรม\nยุทธการ\nยุทธนาวี\nยุทธปัจจัย\nยุทธภัณฑ์\nยุทธภูมิ\nยุทธวิธี\nยุทธศาสตร์\nยุทธหัตถี\nยุทธนาการ\nยุทธนาธิการ\nยุบยับ\nยุบยิบ\nยุพราช\nยู่ยี่\nเย็นเจี๊ยบ\nเย็นใจ\nเย็นฉ่ำ\nเย็นเฉียบ\nเย็นชา\nเย็นชืด\nเย็นตา\nเย็นเยียบ\nเย็นเยือก\nเย็นวาบ\nเย็นวูบ\nเย็บกี่\nเย็บจักร\nเย็บด้าย\nเย้ยหยัน\nเย้าหยอก\nเยาะเย้ย\nเยี่ยมกราย\nเยี่ยมเยียน\nเยี่ยมเยือน\nเยี่ยมยอด\nเยื่อเคย\nเยื่อใย\nเยือกเย็น\nเยื้องกราย\nเยื้องยัก\nเยื้องย่าง\nแยกย้าย\nแยกแยะ\nแย่งชิง\nแยบคาย\nแยบยล\nแย้มพราย\nแย้มยิ้ม\nแย้มสรวล\nโยเย\nโย้เย้\nโยกโคลง\nโยกย้าย\nโยกโย้\nโยนกลอง\nใยหิน\nรกชัฏ\nรกร้าง\nรกเรี้ยว\nรกเรื้อ\nรกราก\nรงควัตถุ\nรชนีกร\nรถกระบะ\nรถเก๋ง\nรถเข็น\nรถแข่ง\nรถจักร\nรถจี๊ป\nรถตู้\nรถทัวร์\nรถบรรทุก\nรถพ่วง\nรถพยาบาล\nรถไฟ\nรถไฟฟ้า\nรถม้า\nรถเมล์\nรถยนต์\nรถราง\nรถลาก\nรถสปอร์ต\nรถสิบล้อ\nรบกวน\nรบรา\nรบเร้า\nรมดำ\nร่มเกล้า\nร่มชูชีพ\nร่มเย็น\nร่มรื่น\nร่วงโรย\nรวงผึ้ง\nรวงรัง\nรวดเร็ว\nรวนเร\nรวบยอด\nรวบรวม\nรวบรัด\nรวมพล\nรวมหัว\nร่วมใจ\nร่วมเพศ\nร่วมมือ\nร่วมรัก\nร่วมสมัย\nรวยริน\nรวยรื่น\nรสชาติ\nรสนิยม\nรองท้อง\nรองเท้า\nรองพื้น\nร่องน้ำ\nร่องรอย\nร้องขอ\nร้องทุกข์\nร้องเรียน\nร้องห่ม\nร้องไห้\nรองช้ำ\nรองทรง\nรอดชีวิต\nรอดตัว\nรอดตาย\nรอนแรม\nร่อนเร่\nร้อนใจ\nร้อนตัว\nร้อนรน\nร้อนรุ่ม\nร้อนวิชา\nร้อนอาสน์\nรอบจัด\nรอบเดือน\nรอบรู้\nรอยร้าว\nร่อยหรอ\nร้อยละ\nร้อยกรอง\nร้อยแก้ว\nร้อยหวาย\nระนาดทุ้ม\nระนาดเอก\nระเบิดขวด\nระเบิดมือ\nระเบียบการ\nรักใคร่\nรักษาการ\nรักษาการณ์\nรังไข่\nรังแตน\nรังนก\nรังผึ้ง\nรังเพลิง\nรังมด\nรังสรรค์\nรังสฤษฏ์\nรั้งรอ\nรังสีแพทย์\nรังสีวิทยา\nรัชกาล\nรัชทายาท\nรัชนีกร\nรัฐธรรมนูญ\nรัฐบาล\nรัฐบุรุษ\nรัฐประศาสน์\nรัฐประหาร\nรัฐพิธี\nรัฐมนตรี\nรัฐวิสาหกิจ\nรัฐศาสตร์\nรัฐสภา\nรัดกุม\nรัดเกล้า\nรัดตัว\nรัดประคด\nรัดรึง\nรัดรูป\nรัตติกาล\nรับขวัญ\nรับจ้าง\nรับช่วง\nรับใช้\nรับซื้อ\nรับทราบ\nรับประกัน\nรับประทาน\nรับปาก\nรับผิด\nรับผิดชอบ\nรับฟ้อง\nรับฟัง\nรับมือ\nรับรอง\nรับรู้\nรับสมัคร\nรับสั่ง\nรับหน้า\nรับเหมา\nรั่วไหล\nรามือ\nร่าเริง\nรากแก้ว\nรากขวัญ\nรากฐาน\nรากฟัน\nรากศัพท์\nรากเหง้า\nร่างกาย\nร่างแห\nร้างรา\nราชกรณียกิจ\nราชการ\nราชกิจ\nราชครู\nราชฐาน\nราชทัณฑ์\nราชทินนาม\nราชทูต\nราชธานี\nราชนาวี\nราชบัณฑิต\nราชบัลลังก์\nราชบาตร\nราชบุตร\nราชปะแตน\nราชภัฏ\nราชมัล\nราชยาน\nราชรถ\nราชลัญจกร\nราชเลขาธิการ\nราชเลขานุการ\nราชวงศ์\nราชวัติ\nราชสกุล\nราชสมบัติ\nราชสาส์น\nราชหัตถเลขา\nราชองครักษ์\nราชโองการ\nราชาคณะ\nราชาศัพท์\nราชินีนาถ\nร้านชำ\nร้านรวง\nราบคาบ\nราบรื่น\nราบเรียบ\nรายการ\nรายงาน\nรายจ่าย\nรายได้\nรายทาง\nรายรับ\nรายล้อม\nรายละเอียด\nรายวิชา\nร่ายยาว\nร่ายรำ\nร้ายกาจ\nร้ายแรง\nราวนม\nราวป่า\nร้าวฉาน\nร้าวราน\nรำพัด\nรำแพน\nรำวง\nร่ำไป\nร่ำร้อง\nร่ำเรียน\nร่ำไร\nร่ำลา\nร่ำไห้\nริเริ่ม\nริอ่าน\nริมฝีปาก\nริ้วรอย\nรีบร้อน\nรีบรุด\nรีบเร่ง\nรื่นรมย์\nรื่นเริง\nรื้อถอน\nรื้อฟื้น\nรุกฆาต\nรุกราน\nรุกล้ำ\nรุกไล่\nรุ่งขึ้น\nรุ่งแจ้ง\nรุ่งเช้า\nรุ่งเรือง\nรุ่งโรจน์\nรุ่งสว่าง\nรุ่งสาง\nรุ่งอรุณ\nรุจิเรข\nรุดหน้า\nรุนแรง\nรุมเร้า\nรุมล้อม\nรุ่มรวย\nรุ่มร้อน\nรุ่ยร่าย\nรู้แกว\nรู้ความ\nรู้คุณ\nรู้งาน\nรู้จัก\nรู้แจ้ง\nรู้ใจ\nรู้เชิง\nรู้ตัว\nรู้ทัน\nรู้เท่า\nรู้เรื่อง\nรู้สำนึก\nรู้สึก\nรู้เห็น\nรูปการณ์\nรูปโฉม\nรูปฌาน\nรูปถ่าย\nรูปทรง\nรูปธรรม\nรูปแบบ\nรูปพรรณ\nรูปพรหม\nรูปภพ\nรูปภาพ\nรูปร่าง\nรูปสมบัติ\nเร่ร่อน\nเร่งด่วน\nเร่งมือ\nเร่งรัด\nเร่งรีบ\nเร่งเร้า\nเร้นลับ\nเร่อร่า\nเร่าร้อน\nเราะราย\nเราะร้าย\nเริงใจ\nเริงรมย์\nเริดร้าง\nเริ่มต้น\nเริ่มแรก\nเรี่ยราด\nเรี่ยไร\nเรียกคืน\nเรียกตัว\nเรียกร้อง\nเรียกหา\nเรียบร้อย\nเรียงความ\nเรียงตัว\nเรียงเบอร์\nเรียงพิมพ์\nเรียงเม็ด\nเรียงราย\nเรียนรู้\nเรียบร้อย\nเรียบเรียง\nเรียบวุธ\nเรี่ยมเร้\nเรี่ยวแรง\nเรือกลไฟ\nเรือกอและ\nเรือกำปั่น\nเรือจ้าง\nเรือดำน้ำ\nเรือโดยสาร\nเรือตรวจการณ์\nเรือตังเก\nเรือธง\nเรือนำร่อง\nเรือบด\nเรือบิน\nเรือใบ\nเรือประมง\nเรือพ่วง\nเรือพิฆาต\nเรือยนต์\nเรือยาว\nเรือโยง\nเรือรบ\nเรือลากจูง\nเรือสำปั้น\nเรือสำเภา\nเรือหลวง\nเรือหางยาว\nเรืออีโปง\nเรือเอี้ยมจุ๊น\nเรื้อรัง\nเรือกสวน\nเรืองนาม\nเรืองรอง\nเรืองแสง\nเรื่องราว\nเรื่องสั้น\nเรือนแก้ว\nเรือนจำ\nเรือนเบี้ย\nเรือนแพ\nเรือนหอ\nเรื่อยเจื้อย\nเรื่อยเฉื่อย\nเรื่อยเปื่อย\nแรเงา\nแรกนา\nแรกนาขวัญ\nแรงงาน\nแรงดึงดูด\nแรงเทียน\nแรงม้า\nแรงเหวี่ยง\nแรมรอน\nแรมรา\nแรมโรย\nโรคจิต\nโรงครัว\nโรงงาน\nโรงเจ\nโรงเตี๊ยม\nโรงทาน\nโรงนา\nโรงพยาบาล\nโรงพัก\nโรงพิมพ์\nโรงเรียน\nโรงเรือน\nโรงแรม\nโรงเลี้ยง\nโรงเลื่อย\nโรงสี\nโรงสีข้าว\nโรงอาหาร\nโรมรัน\nโรยรา\nฤชากร\nฤดูกาล\nลงขัน\nลงแขก\nลงคอ\nลงตัว\nลงท้าย\nลงทุน\nลงโทษ\nลงพุง\nลงมือ\nลงรัก\nลงรอย\nลงแรง\nลงโรง\nลงเอย\nลดตัว\nลดละ\nลดเลี้ยว\nลดหย่อน\nลดหลั่น\nลนลาน\nล้นพ้น\nล้นหลาม\nล้นเหลือ\nลบล้าง\nลบเลือน\nลบหลู่\nลมกรด\nลมค้า\nลมงวง\nลมแดด\nลมทะเล\nลมบก\nลมบน\nลมบ้าหมู\nลมปราณ\nลมปาก\nลมพิษ\nลมว่าว\nลมเสีย\nลมหนาว\nลมหายใจ\nล่มจม\nล่มสลาย\nล้มละลาย\nล้มลุก\nล้มเลิก\nล่วงเกิน\nล่วงรู้\nล่วงละเมิด\nล่วงลับ\nล่วงล้ำ\nล่วงเลย\nล่วงหน้า\nลวดลาย\nลวดสปริง\nลวดหนาม\nล้วนแล้ว\nลหุโทษ\nล่อลวง\nล่อหลอก\nล่อแหลม\nล้อต๊อก\nล้อเลื่อน\nล้อเล่น\nล้อเลียน\nล้อหลอก\nลองเชิง\nลองดี\nลองภูมิ\nล่องหน\nลอดช่อง\nล่อนจ้อน\nลอบกัด\nล้อมวง\nลอยแก้ว\nลอยชาย\nลอยตัว\nลอยนวล\nลอยแพ\nลอยลำ\nละทิ้ง\nละเลย\nละเว้น\nละครนอก\nละครใน\nละครเพลง\nละครร้อง\nละครรำ\nละครลิง\nละครสัตว์\nละเอียดอ่อน\nลักไก่\nลักพา\nลักเพศ\nลักยิ้ม\nลักลอบ\nลักลั่น\nลักหลับ\nลัดเลาะ\nลับตา\nลับแล\nลับหลัง\nลาออก\nล่าช้า\nล่าทัพ\nล้าสมัย\nล้าหลัง\nลากข้าง\nล้างบาง\nล้างผลาญ\nลาดเขา\nลาดตระเวน\nลาดเท\nลาดยาง\nลานบิน\nลาภปาก\nลาภลอย\nลามปาม\nลามเลีย\nลายคราม\nลายเซ็น\nลายแทง\nลายน้ำ\nลายพร้อย\nลายมือ\nลายลักษณ์\nลายเส้น\nลำกล้อง\nลำแข้ง\nลำธาร\nลำแสง\nลำไส้\nลำตัด\nลำนำ\nล่ำสัน\nล้ำยุค\nล้ำสมัย\nล้ำลึก\nล้ำเลิศ\nล้ำเส้น\nล้ำหน้า\nลิงจุ่น\nลิงลม\nลิงโลด\nลิดรอน\nลิ้นไก่\nลิ้นชัก\nลิ้นปี่\nลิ้นควาย\nลิ้นงูเห่า\nลิ้นหมา\nลิบลับ\nลิบลิ่ว\nลิ่มเลือด\nลี้ภัย\nลี้ลับ\nลึกซึ้ง\nลึกลับ\nลึกล้ำ\nลืมตน\nลืมต้น\nลืมตัว\nลืมตา\nลืมเลือน\nลือชา\nลือชื่อ\nลือลั่น\nลุล่วง\nลุกลน\nลุกลาม\nลุกลี้ลุกลน\nลุกฮือ\nลุ่มน้ำ\nลุ่มลึก\nลุ่มหลง\nลุ่ทาง\nลูกกรง\nลูกกรอก\nลูกกรุง\nลูกกลอน\nลูกกลิ้ง\nลูกกวาด\nลูกกะจ๊อก\nลูกกุญแจ\nลูกเกด\nลูกแก้ว\nลูกขนไก่\nลูกข่าง\nลูกขุน\nลูกเขย\nลูกครึ่ง\nลูกคลื่น\nลูกความ\nลูกคอ\nลูกค้า\nลูกคิด\nลูกคู่\nลูกจ้าง\nลูกช้าง\nลูกชิด\nลูกชิ้น\nลูกชุบ\nลูกซอง\nลูกโซ่\nลูกดอก\nลูกดิ่ง\nลูกตะกั่ว\nลูกตุ้ม\nลูกเต้า\nลูกเต๋า\nลูกถ้วย\nลูกทุ่ง\nลูกเธอ\nลูกน้อง\nลูกน้ำ\nลูกนิมิต\nลูกบอล\nลูกบ้าน\nลูกบาศก์\nลูกบิด\nลูกเบี้ยว\nลูกประคบ\nลูกประคำ\nลูกปัด\nลูกปืน\nลูกโป่ง\nลูกผสม\nลูกผู้ชาย\nลูกผู้หญิง\nลูกพรรค\nลูกพี่\nลูกฟูก\nลูกไฟ\nลูกมือ\nลูกโม่\nลูกไม้\nลูกยาเธอ\nลูกรอก\nลูกรัง\nลูกเรือ\nลูกล้อ\nลูกลอย\nลูกเล่น\nลูกเลี้ยง\nลูกโลก\nลูกวัด\nลูกศร\nลูกศิษย์\nลูกสมุน\nลูกสะใภ้\nลูกสูบ\nลูกเสือ\nลูกหนัง\nลูกหนี้\nลูกหนู\nลูกหมาก\nลูกหลง\nลูกหลาน\nลูกหาบ\nลูกหิน\nลูกเห็บ\nลูกเหม็น\nลูกแหง่\nลูกอม\nลูกหม้อ\nลูบคม\nลูบคลำ\nลูบไล้\nเล็กน้อย\nเลขคณิต\nเลขผา\nเลขหมาย\nเล็ดลอด\nเล่นงาน\nเล่นแง่\nเล่นชู้\nเล่นตัว\nเล่นลิ้น\nเล่นหัว\nเลนส์นูน\nเลนส์เว้า\nเล็บครุฑ\nเลยเถิด\nเลศนัย\nเล่ห์กล\nเล่ห์เหลี่ยม\nเลอโฉม\nเลอมาน\nเลอเลิศ\nเลอสรวง\nเล่อล่า\nเลอะเลือน\nเล่าเรียน\nเล่าลือ\nเลาะลัด\nเลิกรา\nเลิกร้าง\nเลิกล้ม\nเลิศเลอ\nเลี้ยงชีพ\nเลี้ยงดู\nเลี้ยงต้อย\nเลียบเคียง\nเลี้ยวลด\nเลือกตั้ง\nเลือกเฟ้น\nเลือกสรร\nเลื่องลือ\nเลือดกำเดา\nเลือดเนื้อ\nเลือดฝาด\nเลือดเย็น\nเลือดร้อน\nเลือดหมู\nเลือดอุ่น\nเลือนราง\nเลื่อนเปื้อน\nเลื่อนลอย\nเลื่อมพราย\nเลื่อมใส\nเลื่อยฉลุ\nเลื่อยลันดา\nเลื่อยวงเดือน\nเลื้อยคลาน\nแลเหลียว\nแลกเปลี่ยน\nแล้วกัน\nและเล็ม\nโล่งใจ\nโล่งโถง\nโล่งอก\nโลดเต้น\nโลดโผน\nโลดลิ่ว\nโลดแล่น\nไล่ที่\nไล่เบี้ย\nไล่เลี่ย\nไล่เลียง\nไล่หลัง\nไล่ออก\nวกวน\nวงกบ\nวงกลม\nวงการ\nวงแขน\nวงเงิน\nวงจร\nวงนอก\nวงใน\nวงรี\nวงเล็บ\nวงเวียน\nวงแหวน\nวงศ์วาน\nวจีกรรม\nวจีเภท\nวจีภาค\nวนเวียน\nวอดวาย\nว็อบแว็บ\nวังวน\nวังหน้า\nวังหลวง\nวังหลัง\nวัดราษฎร์\nวัดวา\nวัดหลวง\nวัดผล\nวัดพื้น\nวัตถุนิยม\nวัตถุประสงค์\nวัตรปฏิบัติ\nวันโกน\nวันพระ\nวันเพ็ญ\nวัยรุ่น\nวัยวุฒิ\nว่ากล่าว\nว่าจ้าง\nว่าด้วย\nว่าที่\nวางก้าม\nวางใจ\nวางตัว\nวางตา\nวางโต\nวางท่า\nวางมวย\nวางมาด\nวางมือ\nวางวาย\nว่างเปล่า\nว่างเว้น\nวาดเขียน\nว่านเครือ\nวาบหวาม\nวายชนม์\nวายปราณ\nวายวาง\nวายวอด\nวายร้าย\nวายุภักษ์\nวาววับ\nวาววาม\nวาวแวว\nวาวแสง\nวิกฤตการณ์\nวิกฤติการณ์\nวิกฤตกาล\nวิกฤติกาล\nวิกลจริต\nวิงเวียน\nวิ่งเต้น\nวิ่งผลัด\nวิ่งรอก\nวิ่งราว\nวิจิตรศิลป์\nวิชาการ\nวิชาชีพ\nวิชาธร\nวิญญูชน\nวิดพื้น\nวิตกจริต\nวิถีทาง\nวิทยากร\nวิทยากล\nวิทยาการ\nวิทยาเขต\nวิทยาทาน\nวิทยาธร\nวิทยานิพนธ์\nวิทยาศาสตร์\nวิเทศสัมพันธ์\nวิธีการ\nวินัยธร\nวินัยปิฎก\nวินาศกรรม\nวินาศภัย\nวินาศสันตะโร\nวิภัชพยากรณ์\nวิภัชวาที\nวิไลวรรณ\nวิสัญญีแพทย์\nวิสัญญีภาพ\nวิสัญญีวิทยา\nวุฒิบัตร\nวุฒิสภา\nวุฒิสมาชิก\nวุ่นวาย\nวุ้นเส้น\nวูบวาบ\nเวจกุฎี\nเวจมรรค\nเวชกรรม\nเวชภัณฑ์\nเวชศาสตร์\nเวทมนตร์\nเวนคืน\nเวรกรรม\nเวฬุการ\nเวฬุวัน\nเว้าวอน\nเวิ้งว้าง\nเวียงวัง\nเวียนเทียน\nแว้งกัด\nแวดล้อม\nแวดวง\nแว่นขยาย\nแว่นแคว้น\nแว่นตา\nแวบวับ\nแววตา\nแวววาม\nแวววาว\nแวะเวียน\nโวยวาย\nไวไฟ\nไว้ใจ\nไว้ชื่อ\nไว้ตัว\nไว้ทุกข์\nไว้ลาย\nไว้หน้า\nไว้อาลัย\nศนิวาร\nศอกกลับ\nศอกกำ\nศอกกำมา\nศักดิ์ศรี\nศักดิ์สิทธิ์\nศารทวิษุวัติ\nศาลแขวง\nศาลจังหวัด\nศาลชั้นต้น\nศาลฎีกา\nศาลเตี้ย\nศาลทหาร\nศาลปกครอง\nศาลพระภูมิ\nศาลเพียงตา\nศาลแพ่ง\nศาลรัฐธรรมนูญ\nศาลแรงงาน\nศาลล้มละลาย\nศาลโลก\nศาลสูง\nศาลสูงสุด\nศาลอาญา\nศาลอุทธรณ์\nศาลากลาง\nศาลาดิน\nศาลาราย\nศาลาวัด\nศิลาฤกษ์\nศิลาแลง\nศิษย์เก่า\nศิษย์เอก\nศีลจุ่ม\nศีลธรรม\nศีลวัต\nศีลอด\nศูนย์กลาง\nศูนย์การค้า\nศูนย์ถ่วง\nศูนย์สูตร\nศูนย์หน้า\nเศร้าใจ\nเศร้าโศก\nเศร้าสร้อย\nเศร้าสลด\nเศร้าหมอง\nเศวตฉัตร\nเศษเกิน\nเศษซ้อน\nเศษวรรค\nเศษส่วน\nเศษเหล็ก\nโศกนาฏกรรม\nโศกศัลย์\nโศกเศร้า\nโศกสลด\nสกลโลก\nส่งเดช\nส่งท้าย\nส่งเสริม\nส่งเสีย\nส่งเสียง\nสงบเงียบ\nสงบเสงี่ยม\nสง่างาม\nสง่าราศี\nสดชื่น\nสดใส\nสตรีเพศ\nสติปัญญา\nสถลมารค\nสถานกงสุล\nสถานที่\nสถานทูต\nสถานการณ์\nสถานภาพ\nสถิติศาสตร์\nสนตะพาย\nสนใจ\nส้นตีน\nสนธิสัญญา\nสนนราคา\nสนับแข้ง\nสนับเพลา\nสนับมือ\nสนามบิน\nสนามเพลาะ\nสนิทสนม\nสนิมขุม\nสนิมสร้อย\nสนุกสนาน\nสบประมาท\nสบายใจ\nสภาพธรรม\nสมควร\nสมจริง\nสมใจ\nสมนัย\nสมน้ำหน้า\nสมประกอบ\nสมส่วน\nสมหวัง\nสมคบ\nสมทบ\nสมยอม\nสมรัก\nสมรู้\nสมสู่\nส้มฉุน\nส้มตำ\nส้มลิ้ม\nส้มกุ้ง\nส้มเช้า\nสมญานาม\nสมมติฐาน\nสมมุติฐาน\nสมมติเทพ\nสมรภูมิ\nสมัครใจ\nสมัยนิยม\nสมุทรศาสตร์\nสมุทรเสนา\nสยดสยอง\nสยองขวัญ\nสยามรัฐ\nสรรหา\nสรวมชีพ\nสรวลเส\nสร้อยเศร้า\nสร้างสรรค์\nสร้างเสริม\nสลดใจ\nสลบไสล\nสละสลวย\nสลาเหิน\nสลากภัต\nสวนครัว\nสวนป่า\nสวนสนุก\nสวนหย่อม\nส่วนกลาง\nส่วนเกิน\nส่วนตัว\nส่วนบุญ\nส่วนแบ่ง\nส่วนประกอบ\nส่วนพระองค์\nส่วนผสม\nส่วนรวม\nส่วนร่วม\nส่วนลด\nส่วนสัด\nสวมกอด\nสวมเขา\nสวมรอย\nสวยมภู\nสว่างไสว\nสวามิภักดิ์\nสวิงสวาย\nสสารนิยม\nส่อเสียด\nสอดคล้อง\nสอดแทรก\nสอดแนม\nสอบถาม\nสอบทาน\nสอบไล่\nสอบสวน\nส้อมเสียง\nสะสวย\nสะแกวัลย์\nสะแกแสง\nสะใจ\nสะเด็ดยาด\nสะเทือนใจ\nสะบัดช่อ\nสั่งสม\nสั่งสอน\nสั่งเสีย\nสังเกตการณ์\nสังคมนิยม\nสังคมวิทยา\nสังคมศาสตร์\nสังคมศึกษา\nสังคมสงเคราะห์\nสัญญาบัตร\nสัดส่วน\nสัตการ\nสัตบุรุษ\nสัตบริภัณฑ์\nสัตภัณฑ์\nสัตมหาสถาน\nสัตโลหะ\nสันเขา\nสันดอน\nสันหลัง\nสั่นเทา\nสั่นเทิ้ม\nสันติบาล\nสันติภาพ\nสันติวิธี\nสันติสุข\nสับเปลี่ยน\nสับสน\nสับหลีก\nสับหว่าง\nสัมมาคารวะ\nสัมมาชีพ\nส่าเหล้า\nสากกะเบือ\nสาทิสลักษณ์\nสาธุการ\nสาธุชน\nสาบเสือ\nสาปสรร\nสาปแช่ง\nสาปส่ง\nสามง่าม\nสามล้อ\nสามเหลี่ยม\nสามเวท\nสามัญชน\nสามัญสำนึก\nสายดิ่ง\nสายดิน\nสายตรวจ\nสายน้ำ\nสายบัว\nสายพาน\nสายฟ้า\nสายยาง\nสายยู\nสายใย\nสายรก\nสายรุ้ง\nสายล่อฟ้า\nสายลับ\nสายเลือด\nสายโลหิต\nสายวัด\nสายส่ง\nสายสวาท\nสายสะดือ\nสายสะพาย\nสายสัมพันธ์\nสายสิญจน์\nสายสืบ\nสายไหม\nสายอากาศ\nสายตา\nสายหยุด\nสารตรา\nสารประกอบ\nสารละลาย\nสารส้ม\nสารหนู\nสารทฤดู\nสาวใช้\nสาวน้อย\nสาวใหญ่\nสำนักงาน\nสำนักพิมพ์\nสำนักสงฆ์\nสำมะโนครัว\nสำเร็จรูป\nสิกขาบท\nสิงสถิต\nสิงสู่\nสิ่งก่อสร้าง\nสิ่งของ\nสิ่งปฏิกูล\nสิ่งพิมพ์\nสิ่งแวดล้อม\nสิ่งศักดิ์สิทธิ์\nสิทธิกร\nสิทธิ์ขาด\nสิทธิชัย\nสิทธิโชค\nสิทธิบัตร\nสินค้า\nสินจ้าง\nสินเชื่อ\nสินไถ่\nสินทรัพย์\nสินน้ำใจ\nสินบน\nสินแร่\nสินสมรส\nสินสอด\nสินไหม\nสิ้นเชิง\nสิ้นสุด\nสีผึ้ง\nสีลม\nสีชอล์ก\nสีถ่าน\nสีเทียน\nสีน้ำ\nสีน้ำมัน\nสีโปสเตอร์\nสีฝุ่น\nสี่เหลี่ยม\nสีหน้า\nสึกหรอ\nสืบทอด\nสืบค้น\nสืบสวน\nสืบสาว\nสืบเสาะ\nสื่อผสม\nสื่อมวลชน\nสื่อสาร\nสุกงอม\nสุกดิบ\nสุกปลั่ง\nสุกใส\nสุขนาฏกรรม\nสุขภัณฑ์\nสุขภาพ\nสุขลักษณะ\nสุขวิทยา\nสุขศาลา\nสุขศึกษา\nสุดท้าย\nสุตกวี\nสุนทรพจน์\nสุภาพชน\nสู่ขอ\nสู่รู้\nสู่สม\nสูงส่ง\nสูญเปล่า\nสูญสิ้น\nสูญเสีย\nสูญหาย\nเสสรวล\nเสแสร้ง\nเสกสรร\nเสถียรภาพ\nเส้นชัย\nเส้นตรง\nเส้นตาย\nเส้นทาง\nเส้นใย\nเส้นรุ้ง\nเส้นเลือด\nเส้นแวง\nเส้นสาย\nเส้นเสียง\nเส้นหมี่\nเส้นเอ็น\nเสบียงกรัง\nเสมอภาค\nเสมอหน้า\nเสมอเหมือน\nเสมียนตรา\nเสร็จสรรพ\nเสร็จสิ้น\nเสริมส่ง\nเสริมสร้าง\nเสริมสวย\nเสรีไทย\nเสรีธรรม\nเสรีนิยม\nเสรีภาพ\nเสาเข็ม\nเสาธง\nเสียใจ\nเสียเชิง\nเสียดาย\nเสียที\nเสียเที่ยว\nเสียเปรียบ\nเสียเปล่า\nเสียรู้\nเสียแรง\nเสียสละ\nเสียหลัก\nเสียหาย\nเสี่ยงทาย\nเสียดแทง\nเสียดแทรก\nเสียดสี\nเสี้ยนศึก\nเสี้ยนหนาม\nเสี้ยมสอน\nเสียวซ่าน\nเสียวไส้\nเสือดาว\nเสือดำ\nเสือปลา\nเสือป่า\nเสือไฟ\nเสื่อกก\nเสื่อกระจูด\nเสื่อน้ำมัน\nเสื่อลำแพน\nเสื้อกล้าม\nเสื้อกั๊ก\nเสื้อเกราะ\nเสื้อครุย\nเสื้อแสง\nเสื้อเมือง\nเสือกคลาน\nเสือกสน\nเสือกไส\nเสื่อมคลาย\nเสื่อมถอย\nเสื่อมทราม\nเสื่อมโทรม\nเสื่อมสลาย\nเสื่อมสูญ\nเสื่อมเสีย\nเสือหมอบ\nแสกหน้า\nแสดงออก\nแสเถา\nแสนกล\nแสนรู้\nแสร้งว่า\nใส่ความ\nใส่ไคล้\nใส่ใจ\nใส่ไฟ\nไส้กรอก\nไส้ไก่\nไส้ติ่ง\nไส้ศึก\nไส้อั่ว\nไส้เดือน\nไส้ตัน\nไสยเวท\nไสยศาสตร์\nหกล้ม\nหงส์หยก\nหงอนไก่\nหงอยก๋อย\nหงอยเหงา\nหงายท้อง\nหงายหลัง\nหงำเหงอะ\nหงำเหงือก\nหดหาย\nหดหู่\nหนทาง\nหนวกหู\nหน่วงเหนี่ยว\nหน่วยก้าน\nหน่อไม้\nหนองใน\nหนองแซง\nหนักข้อ\nหนักใจ\nหนักแน่น\nหนักหน่วง\nหนักหนา\nหนังกลับ\nหนังตะลุง\nหนังเรียด\nหนังสด\nหนังใหญ่\nหนังสือพิมพ์\nหนาแน่น\nหน้ากระดาน\nหน้ากาก\nหน้ากาฬ\nหน้าแข้ง\nหน้าจั่ว\nหน้าฉาน\nหน้าตัก\nหน้าตา\nหน้าต่าง\nหน้าท้อง\nหน้าทับ\nหน้าที่\nหน้าที่นั่ง\nหน้าบัน\nหน้าปัด\nหน้าผา\nหน้าผาก\nหน้าม้า\nหน้ามุข\nหน้าไม้\nหน้าเลือด\nหน้าอก\nหนามเตย\nหน่ายหนี\nหน่ายแหนง\nหนาวเหน็บ\nหนำใจ\nหนี้สิน\nหนี้สูญ\nหนุนเนื่อง\nหนุนหลัง\nหมกมุ่น\nหมดจด\nหมอขวัญ\nหมอความ\nหมอแคน\nหมองู\nหมอดู\nหมอตำแย\nหมอทำขวัญ\nหมอนวด\nหมอผี\nหมอยา\nหมอลำ\nหมอเสน่ห์\nหม้อแกง\nหม้อตาล\nหม้อน้ำ\nหม้อแปลง\nหมองใจ\nหมองมัว\nหมองหม่น\nหมองหมาง\nหมอนขวาน\nหมอนข้าง\nหมอนทอง\nหม่อมเจ้า\nหม่อมฉัน\nหม่อมราชวงศ์\nหม่อมหลวง\nหม่อมห้าม\nหมั่นไส้\nหมาป่า\nหมาหมู่\nหมากฝรั่ง\nหมากสง\nหมากหอม\nหมากเก็บ\nหมากรุก\nหมากเม่า\nหมางใจ\nหมางเมิน\nหมาไม้\nหมายเกณฑ์\nหมายขัง\nหมายค้น\nหมายความ\nหมายจับ\nหมายใจ\nหมายตา\nหมายปล่อย\nหมายมั่น\nหมายเรียก\nหมายเลข\nหมายเหตุ\nหมิ่นเหม่\nหมึกจีน\nหมุนเวียน\nหมูแดง\nหมูป่า\nหมูแผ่น\nหมูยอ\nหมูหย็อง\nหมูหัน\nหมูแฮม\nหมู่บ้าน\nหยดย้อย\nหยอกเย้า\nหยักรั้ง\nหยักศก\nหยั่งทราบ\nหยั่งรู้\nหยั่งเสียง\nหยาบคาย\nหยาบช้า\nหยาบโลน\nหยาบหยาม\nหยิบมือ\nหยิบยก\nหยิบยืม\nหยิบหย่ง\nหยิบโหย่ง\nหริรักษ์\nหริวงศ์\nหลงผิด\nหลบฉาก\nหลบมุม\nหลวงจีน\nหลวงพ่อ\nหลวมตัว\nหล่อลื่น\nหล่อเลี้ยง\nหล่อหลอม\nหลอกลวง\nหลอกล่อ\nหลอกล้อ\nหลอดลม\nหลอดเลือด\nหลอดอาหาร\nหลอมตัว\nหลอมเหลว\nหลักการ\nหลักเกณฑ์\nหลักชัย\nหลักฐาน\nหลักทรัพย์\nหลักเมือง\nหลักลอย\nหลักสูตร\nหลักแหล่ง\nหลักแหลม\nหลังคา\nหลังเต่า\nหลั่งไหล\nหลับนก\nหลับใน\nหลากใจ\nหลากหลาย\nหลาบจำ\nหลายหลาก\nหลายแหล่\nหลุดพ้น\nหลุดลอย\nหลุดลุ่ย\nหลุมโจน\nหลุมพราง\nหวงก้าง\nหวงห้าม\nหวงแหน\nห่วงใย\nห้วงน้ำ\nหวังใจ\nหวังดี\nหวั่นกลัว\nหวั่นเกรง\nหวั่นใจ\nหวั่นวิตก\nหวั่นหวาด\nหวั่นไหว\nหวาดกลัว\nหวาดเกรง\nหวาดผวา\nหวาดเสียว\nหวาดหวั่น\nหวาดไหว\nหวานเย็น\nหว่านล้อม\nหอคอย\nหอคำ\nหอฉัน\nหอไตร\nหอประชุม\nหอพัก\nห่อหมก\nห่อเหี่ยว\nหอกซัด\nห้องเครื่อง\nห้องชุด\nห้องแถว\nห้องโถง\nห้องน้ำ\nห้องสมุด\nหอสมุด\nหอมหวน\nห้อมล้อม\nห้อยโหน\nหักล้าง\nหักหาญ\nหักห้าม\nหักเห\nหักโหม\nหักมุก\nหันเห\nหับเผย\nหัวขโมย\nหัวข้อ\nหัวขั้ว\nหัวเข่า\nหัวโขน\nหัวคะแนน\nหัวค่ำ\nหัวคิด\nหัวจุก\nหัวโจก\nหัวใจ\nหัวเทียน\nหัวนม\nหัวนอน\nหัวป่า\nหัวมุม\nหัวเรื่อง\nหัวแร้ง\nหัวใส\nหัวหน้า\nหัวหน่าว\nหัวหอก\nหัวเห็ด\nหัวไหล่\nหัวอก\nหัสดนตรี\nหัสนาฏกรรม\nหัสนิยาย\nหัสดีลิงค์\nหางเครื่อง\nหางแถว\nหางเลข\nหางว่าว\nหางเสียง\nหางเสือ\nห่างเหิน\nหาบเร่\nห้ามปราม\nห้ามล้อ\nหายตัว\nหาวนอน\nห้าวหาญ\nห้ำหั่น\nหินงอก\nหินทราย\nหินปูน\nหินย้อย\nหินอ่อน\nหินชาติ\nหินยาน\nหีบเพลง\nหีบห่อ\nหุ่นกระบอก\nหุ่นยนต์\nหุ้นลม\nหุ้นส่วน\nหุบเขา\nหุบผา\nหุบเหว\nหูกระต่าย\nหูช้าง\nหูรูด\nหูกวาง\nเหงาหงอย\nเหงื่อกาฬ\nเหตุการณ์\nเหตุผล\nเห็นแก่\nเห็นใจ\nเหน็บแนม\nเหน็บชา\nเหนียวแน่น\nเหนี่ยวนำ\nเหนี่ยวรั้ง\nเหนื่อยหน่าย\nเหมาะเจาะ\nเหมาะสม\nเหมาะเหม็ง\nเหยเก\nเหยียดหยาม\nเหล็กกล้า\nเหล็กจาร\nเหล็กใน\nเหล็กส่ง\nเหล็กเส้น\nเหล็กหล่อ\nเหล็กไหล\nเหลวแหลก\nเหลวไหล\nเหลอหลา\nเหล่ากอ\nเหลียวแล\nเหลือเกิน\nเหลือขอ\nเหลือใจ\nเหลือเชื่อ\nเหลือเฟือ\nเหลือร้าย\nเหลือล้น\nเหลือหลาย\nเหลือแหล่\nเหลือแสน\nเหลือหลอ\nเหลื่อมล้ำ\nเห่อเหิม\nเหินห่าง\nเหิมเกริม\nเหิมหาญ\nเหี้ยมเกรียม\nเหี้ยมหาญ\nเหี้ยมโหด\nเหี่ยวแห้ง\nเหือดหาย\nเหือดแห้ง\nแห่แหน\nแหนงหน่าย\nแหลกลาญ\nแหลกเหลว\nแหวกแนว\nแหวกว่าย\nโหงพราย\nโหดร้าย\nโหดเหี้ยม\nโหยหวน\nโหวงเหวง\nให้การ\nให้ท่า\nให้ท้าย\nให้ร้าย\nให้หลัง\nไหมพรม\nไหวพริบ\nอกไก่\nอกร่อง\nองค์กร\nองค์การ\nอดกลั้น\nอดทน\nอดสู\nอดอยาก\nอดออม\nอดีตกาล\nอดีตชาติ\nอดีตภพ\nอติชาตบุตร\nอธิการบดี\nอนาคตกาล\nอนิจกรรม\nอนุชาตบุตร\nอเนกประสงค์\nอบรม\nอบอวล\nอบอ้าว\nอบอุ่น\nอบายภูมิ\nอบายมุข\nอภัพบุคคล\nอภัยทาน\nอภัยโทษ\nอภิชาตบุตร\nอมยิ้ม\nอมรรัตน์\nอมฤตบท\nอมฤตรส\nอย่างไร\nอรรถกร\nอรรถกวี\nอรรถคดี\nอรรถประโยชน์\nอรรถรส\nอรรธนิศา\nอรรธภาค\nอรรธสระ\nอรสุมพล\nอรูปฌาน\nอรูปพรหม\nอรูปภพ\nอรูปภูมิ\nอวชาตบุตร\nอวดดี\nอวดอ้าง\nอ้วนท้วน\nอ้วนพี\nอวบอั๋น\nอวยชัย\nอวยพร\nอสุภกรรมฐาน\nอสุภสัญญา\nอโหสิกรรม\nออเจ้า\nออกแขก\nออกตัว\nออกโรง\nออกฤทธิ์\nออกลาย\nออกหาก\nออดอ้อน\nออดแอด\nอ่อนข้อ\nอ่อนใจ\nอ่อนช้อย\nอ่อนน้อม\nอ่อนเปลี้ย\nอ่อนเพลีย\nอ่อนโยน\nอ่อนหวาน\nอ่อนหัด\nอ่อนไหว\nอ่อนแอ\nอ้อนวอน\nอ้อนออด\nอ้อมค้อม\nอักษรศาสตร์\nอักษรสาส์น\nอัคคีภัย\nอัญชนะศักราช\nอัดฉีด\nอัดอั้น\nอัตราส่วน\nอันโตชน\nอันโตนาที\nอับจน\nอับเฉา\nอับอาย\nอัสสุชล\nอัสสุธารา\nอากัปกิริยา\nอาการนาม\nอากาศธาตุ\nอากาศยาน\nอาคารชุด\nอ่างเก็บน้ำ\nอ้างอิง\nอาจหาญ\nอาจอง\nอาชญากร\nอาชญากรรม\nอาชญาบัตร\nอาชญาสิทธิ์\nอาญาสิทธิ์\nอาณาเขต\nอาณาจักร\nอาณานิคม\nอาณาประโยชน์\nอาโปกสิณ\nอาโปธาตุ\nอาภากร\nอายุขัย\nอายุวัฒนะ\nอาโลกกสิณ\nอาหารว่าง\nอำพราง\nอิดโรย\nอิดออด\nอิดเอื้อน\nอิตถีลิงค์\nอิทธิปาฏิหาริย์\nอิทธิพล\nอิทธิฤทธิ์\nอินังขังขอบ\nอิ่มตัว\nอิ่มหนำ\nอิ่มเอม\nอิ่มเอิบ\nอีฉัน\nอีตัว\nอึงคะนึง\nอึงมี่\nอึงอล\nอึ่งยาง\nอึ่งอ่าง\nอึดใจ\nอึดอัด\nอืดอาด\nอื้อฉาว\nอื้อซ่า\nอื้ออึง\nอุกฉกรรจ์\nอุกอาจ\nอุดอู้\nอุ่นเครื่อง\nอุ่นใจ\nอุบอิบ\nอุบัติภัย\nอุบัติเหตุ\nอุโบสถกรรม\nอุโบสถหัตถี\nอุปมาโวหาร\nอุ้มชู\nอุ้มสม\nอุ้ยอ้าย\nอู้อี้\nเอกจิต\nเอกฉันท์\nเอกชน\nเอกเทศ\nเอกนัย\nเอกบุคคล\nเอกบุรุษ\nเอกพจน์\nเอกภพ\nเอกภาพ\nเอกมัย\nเอกราช\nเอกรูป\nเอกลักษณ์\nเอกศก\nเอกสาร\nเอกสิทธิ์\nเอกอุ\nเอ็ดอึง\nเอนเอียง\nเอมอร\nเอออวย\nเออออ\nเอาการ\nเอางาน\nเอาจริง\nเอาใจ\nเอาเปรียบ\nเอาเยี่ยง\nเอิบอาบ\nเอียงอาย\nเอียงเอน\nเอื้อเฟื้อ\nโอ่โถง\nโอ้โถง\nโอ่อวด\nโอ้อวด\nโอ่อ่า\nโอ้โลม\nโอดครวญ\nโอดโอย\nโอนอ่อน\nโอนเอน\nโอบอ้อม\nโอบอุ้ม\nโอสถกรรม\nไอเสีย\nไอกรน\nฮวบฮาบ\nฮาป่า\nฮึกหาญ\nฮึกห้าว\nฮึกเหิม\nฮึกโหม\nฮึกฮัก\nเฮงซวย\nโฮกฮือ\nโฮกฮาก\n\nก็\nกก\nก๊ก\nกกุธภัณฑ์\nกง\nก่ง\nก้ง\nก๊ง\nก๋ง\nกงกอน\nกงไฉ่\nกงเต๊ก\nกงสี\nกงสุล\nกช\nกฎ\nกฏุก\nกฐิน\nกณิกนันต์\nกณิการ์\nกด\nกตเวทิตา\nกตเวที\nกตัญชลี\nกตัญญุตา\nกตัญญู\nกตาธิการ\nกตาภินิหาร\nกติกา\nกถา\nกถิกาจารย์\nกทลี\nกน\nก่น\nก้น\nกนก\nกนิษฐ์\nกนิษฐา\nกบ\nกบฏ\nกบดาน\nกบทู\nกบาล\nกบินทร์\nกบิล\nกบี่\nกบูร\nกเบนทร์\nกม\nก้ม\nกมณฑลาภิเษก\nกมณฑโลทก\nกมล\nกมลา\nกมลาศ\nกมลาสน์\nกมเลศ\nกมัณฑลุ\nกมุท\nกร\nกรกฎ\nกรกฎาคม\nกรกฏ\nกรง\nกรชกาย\nกรณฑ์\nกรณิการ์\nกรณี\nกรณีย์\nกรณียกิจ\nกรณียะ\nกรด\nกรน\nกรบ\nกรบูร\nกรพินธุ์\nกรม\nกรรกฎ\nกรรกศ\nกรรเกด\nกรรไกร\nกรรเจียก\nกรรชิง\nกรรเชียง\nกรรโชก\nกรรฐ์\nกรรฐา\nกรรณ\nกรรณา\nกรรณิกา\nกรรณิการ์\nกรรดิ\nกรรดิก\nกรรดึก\nกรรตุ\nกรรไตร\nกรรทบ\nกรรแทก\nกรรบิด\nกรรบูร\nกรรภิรมย์\nกรรม\nกรรม์\nกรรม์ภิรมย์\nกรรมชวาต\nกรรมัชวาต\nกรรมาชีพ\nกรรมาธิการ\nกรรมาร\nกรรษก\nกรรสะ\nกรรแสง\nกรวด\nกรวบ\nกรวม\nกร้วม\nกรวย\nกรวิก\nกรสาปน์\nกรสุทธิ์\nกรอ\nกร้อ\nกรอก\nกร็อกกร๋อย\nกรอกแกรก\nกรอง\nกรองกรอย\nกรอด\nกร่อน\nกรอบ\nกรอม\nกร่อย\nกระ\nกระกร\nกระกรุ่น\nกระกลับกลอก\nกระกี้\nกระเกรอก\nกระเกริก\nกระเกริ่น\nกระคน\nกระคาย\nกระงกกระเงิ่น\nกระง่องกระแง่ง\nกระง่อนกระแง่น\nกระเง้ากระงอด\nกระโงก\nกระจก\nกระจง\nกระจร\nกระจอก\nกระจองหง่อง\nกระจ๋องหง่อง\nกระจองอแง\nกระจ้อน\nกระจอนหู\nกระจ้อย\nกระจ๋อหวอ\nกระจะ\nกระจัก\nกระจัง\nกระจัด\nกระจับ\nกระจ่า\nกระจ่าง\nกระจาด\nกระจาน\nกระจาบ\nกระจาม\nกระจาย\nกระจาว\nกระจิก\nกระจิ๋ง\nกระจิด\nกระจิบ\nกระจิ๋ม\nกระจิริด\nกระจิ๋ว\nกระจี้\nกระจี๋\nกระจุก\nกระจุ๋งกระจิ๋ง\nกระจุบ\nกระจุ๊บ\nกระจุ๋มกระจิ๋ม\nกระจุย\nกระจู้\nกระจู๋กระจี๋\nกระจูด\nกระเจอะกระเจิง\nกระเจา\nกระเจ่า\nกระเจ้า\nกระเจาะ\nกระเจิง\nกระเจิดกระเจิง\nกระเจี้ยง\nกระเจี๊ยบ\nกระเจียว\nกระเจี๊ยว\nกระแจะ\nกระโจน\nกระโจม\nกระฉอก\nกระฉ่อน\nกระฉับกระเฉง\nกระฉิ่ง\nกระฉีก\nกระฉูด\nกระเฉก\nกระเฉด\nกระแฉก\nกระโฉกกระเฉก\nกระโฉม\nกระชดกระช้อย\nกระชอน\nกระชอมดอก\nกระช้อย\nกระชัง\nกระชั้น\nกระชับ\nกระชาก\nกระชาย\nกระชิง\nกระชิด\nกระชุ\nกระชุก\nกระชุ่มกระชวย\nกระเชอ\nกระเชา\nกระเช้า\nกระเชียง\nกระแชง\nกระแชะ\nกระโชก\nกระซ่องกระแซ่ง\nกระซับ\nกระซาบ\nกระซิก\nกระซิบ\nกระซี้\nกระซุง\nกระซุบกระซิบ\nกระซุ้ม\nกระซู่\nกระเซ็น\nกระเซอ\nกระเซอะกระเซอ\nกระเซอะกระเซิง\nกระเซ้า\nกระเซิง\nกระแซ\nกระแซะ\nกระโซกระเซ\nกระฎี\nกระฎุมพี\nกระดก\nกระด้ง\nกระดนโด่\nกระดวง\nกระดวน\nกระด้วมกระเดี้ยม\nกระดอ\nกระดอง\nกระดองหาย\nกระดอน\nกระดอม\nกระดักกระเดี้ย\nกระดังงัว\nกระดังงา\nกระดาก\nกระด้าง\nกระดางลาง\nกระดาด\nกระดาดขาว\nกระดาน\nกระดานพน\nกระดาษ\nกระดำกระด่าง\nกระดิก\nกระดิ่ง\nกระดิ้ง\nกระดิบ\nกระดี่\nกระดี้กระเดียม\nกระดึง\nกระดืบ\nกระดุ\nกระดุกกระดิก\nกระดุ้งกระดิ้ง\nกระดุบ\nกระดุบกระดิบ\nกระดุม\nกระดูก\nกระเดก\nกระเด้ง\nกระเด็น\nกระเด้า\nกระเดาะ\nกระเดิด\nกระเดี้ย\nกระเดียด\nกระเดือก\nกระเดื่อง\nกระแด็ก\nกระแด้ง\nกระแด้แร่\nกระแด่ว\nกระแดะ\nกระโดก\nกระโดง\nกระโดด\nกระโดน\nกระได\nกระตรับ\nกระตราก\nกระตรุด\nกระตรุม\nกระต้วมกระเตี้ยม\nกระต้อ\nกระต่องกระแต่ง\nกระต๊อบ\nกระต้อยตีวิด\nกระตัก\nกระตั้ว\nกระต่าย\nกระติก\nกระติ๊ด\nกระติบ\nกระตือรือร้น\nกระตุก\nกระตุ้งกระติ้ง\nกระตุ่น\nกระตุ้น\nกระตูบ\nกระเตง\nกระเต็น\nกระเตอะ\nกระเตาะ\nกระเตาะกระแตะ\nกระเตื้อง\nกระแต\nกระแตแต้แว้ด\nกระโตกกระตาก\nกระโตน\nกระถด\nกระถอบ\nกระถั่ว\nกระถาง\nกระถิก\nกระถิน\nกระเถิบ\nกระโถน\nกระทก\nกระทง\nกระทบ\nกระทรวง\nกระทอก\nกระท้อน\nกระท่อนกระแท่น\nกระท่อม\nกระท้อมกระแท้ม\nกระทะ\nกระทั่ง\nกระทั้น\nกระทา\nกระทาย\nกระทาสี\nกระทาหอง\nกระทำ\nกระทิกกระทวย\nกระทิง\nกระทึง\nกระทืบ\nกระทุ\nกระทุง\nกระทุ้ง\nกระทุ่ม\nกระทู้\nกระเท่\nกระเทียบ\nกระเทียม\nกระเทือน\nกระเทื้อม\nกระแทก\nกระแท่น\nกระแทะ\nกระไทชาย\nกระน่อง\nกระนั้น\nกระนี้\nกระแนะกระแหน\nกระโน้น\nกระไน\nกระบก\nกระบม\nกระบวน\nกระบวย\nกระบวร\nกระบอก\nกระบอง\nกระบะ\nกระบัด\nกระบั้วกระเบี้ย\nกระบ่า\nกระบ้า\nกระบาก\nกระบาย\nกระบาล\nกระบิ\nกระบิ้ง\nกระบิด\nกระบิล\nกระบี่\nกระบือ\nกระบุง\nกระบุ่มกระบ่าม\nกระบู้กระบี้\nกระบูน\nกระบูร\nกระเบง\nกระเบญ\nกระเบ็ดกระบวน\nกระเบน\nกระเบา\nกระเบิก\nกระเบียด\nกระเบียน\nกระเบื้อง\nกระแบก\nกระแบะ\nกระโบม\nกระปมกระปำ\nกระปมกระเปา\nกระปรอก\nกระปรอกว่าว\nกระปรี้กระเปร่า\nกระปอก\nกระป้อกระแป้\nกระป่อง\nกระป๋อง\nกระปอดกระแปด\nกระป๋อหลอ\nกระปั้วกระเปี้ย\nกระป่ำ\nกระปุก\nกระปุ๊กลุก\nกระปุ่ม\nกระปุ่มกระป่ำ\nกระปุ่มกระปิ่ม\nกระเป๋า\nกระเปาะ\nกระโปก\nกระโปรง\nกระผม\nกระผลีกระผลาม\nกระผาน\nกระผีก\nกระพรวน\nกระพริ้ม\nกระพอก\nกระพอง\nกระพ้อม\nกระพัก\nกระพัง\nกระพังเหิร\nกระพังโหม\nกระพัด\nกระพัตร\nกระพัน\nกระพั่น\nกระพา\nกระพาก\nกระพี้\nกระพือ\nกระพุ้ง\nกระพุ่ม\nกระเพาะ\nกระเพิง\nกระเพื่อม\nกระแพ้ง\nกระฟัดกระเฟียด\nกระฟูมกระฟาย\nกระมล\nกระมอบ\nกระมอมกระแมม\nกระมัง\nกระมัน\nกระมิดกระเมี้ยน\nกระมุท\nกระเมาะ\nกระย่อง\nกระย่องกระแย่ง\nกระย่อน\nกระย่อม\nกระยา\nกระยาง\nกระยาจก\nกระยาหงัน\nกระยิก\nกระยิ้มกระย่อง\nกระยึกกระยือ\nกระยืดกระยาด\nกระเย้อกระแหย่ง\nกระรอก\nกระเรียน\nกระโรกน้ำข้าว\nกระโรกใหญ่\nกระไร\nกระลด\nกระลบ\nกระลอก\nกระลอม\nกระละหล่ำ\nกระลัด\nกระลับ\nกระลัมพร\nกระลา\nกระลำ\nกระลำพัก\nกระลำพุก\nกระลิง\nกระลี\nกระลุมพาง\nกระลุมพุก\nกระลุมพู\nกระลูน\nกระลู่น์\nกระเล็น\nกระเลียด\nกระเลือก\nกระโลง\nกระวน\nกระวัด\nกระวาด\nกระวาน\nกระวาย\nกระวิน\nกระวี\nกระวีกระวาด\nกระวูดกระวาด\nกระเวน\nกระเวยกระวาย\nกระแวน\nกระโวยกระวาย\nกระษัย\nกระษาปณ์\nกระสง\nกระสบ\nกระสม\nกระสรวล\nกระสร้อย\nกระสวน\nกระสวย\nกระสอบ\nกระสะ\nกระสัง\nกระสัน\nกระสับกระส่าย\nกระสา\nกระสานติ์\nกระสาบ\nกระสาย\nกระสือ\nกระสุงกระสิง\nกระสุน\nกระสูทธิ์\nกระสูบ\nกระเสด\nกระเส็นกระสาย\nกระเส่า\nกระเสาะกระแสะ\nกระเสียน\nกระเสียร\nกระเสือกกระสน\nกระแส\nกระแสง\nกระแสะ\nกระโสง\nกระไส\nกระหนก\nกระหนาก\nกระหนาบ\nกระหน่ำ\nกระหมวด\nกระหมอบ\nกระหม่อม\nกระหมั่ง\nกระหมิบ\nกระหมุดกระหมิด\nกระหมุบ\nกระหย่ง\nกระหย่อม\nกระหยัง\nกระหยับ\nกระหยิ่ม\nกระหรอด\nกระหริ่ง\nกระหวน\nกระหวัด\nกระหอง\nกระหัง\nกระหัด\nกระหาง\nกระหาย\nกระหึม\nกระหึ่ม\nกระหืดกระหอบ\nกระเห็น\nกระเหนียด\nกระเหม็ดกระเหมียด\nกระเหม็ดกระแหม่\nกระเหม่น\nกระเหม่า\nกระเหว่า\nกระเห่อ\nกระเหิม\nกระเหี้ยนกระหือรือ\nกระแห\nกระแหทอง\nกระแหนบ\nกระแหนะ\nกระแหมบ\nกระแหม่ว\nกระแหย่ง\nกระแหร่ม\nกระแหล่ง\nกระโห้\nกระโหนด\nกระโหม\nกระโหย\nกระโหย่ง\nกระอวล\nกระอ้อกระแอ้\nกระออดกระแอด\nกระออบ\nกระออม\nกระอ้อมกระแอ้ม\nกระอัก\nกระอักกระอ่วน\nกระอั้วแทงควาย\nกระอ้า\nกระอาน\nกระอิด\nกระอิดกระเอื้อน\nกระอึก\nกระอืด\nกระอุ\nกระอุก\nกระเอา\nกระเอิก\nกระเอิบ\nกระแอก\nกระแอบ\nกระแอม\nกระไอ\nกรัก\nกรักขี\nกรัง\nกรัชกาย\nกรัณฑ์\nกรัณย์\nกรัน\nกรับ\nกรัม\nกราก\nกราง\nกร่าง\nกราด\nกราดวง\nกราน\nกร้าน\nกราบ\nกราฟ\nกราม\nกราย\nกร่าย\nกราว\nกร้าว\nกรำ\nกร่ำ\nกริก\nกริ๊ก\nกริกกริว\nกริกกรี\nกริ่ง\nกริ๊ง\nกริงกริว\nกริ้งกริ้ว\nกริช\nกริณี\nกริน\nกรินทร์\nกรินี\nกริบ\nกริม\nกริ่ม\nกริยา\nกริยานุเคราะห์\nกริว\nกริ้ว\nกรี\nกรีฑา\nกรีด\nกรี๊ด\nกรีธา\nกรีษ\nกรีส\nกรึ๊บ\nกรุ\nกรุง\nกรุ้งกริ่ง\nกรุณ\nกรุณา\nกรุณาธิคุณ\nกรุ่น\nกรุบ\nกรุ่ม\nกรุ้มกริ่ม\nกรุย\nกรุยเกรียว\nกรู\nกรูด\nกรูม\nกเรณุ\nกเรนทร\nกเรนทร์\nกฤช\nกฤดาภินิหาร\nกฤตติกา\nกฤษฎา\nกฤษฎาธาร\nกฤษฎาภินิหาร\nกฤษฎีกา\nกฤษณา\nกล\nกลด\nกล่น\nกลบ\nกลม\nกลละ\nกลวง\nกล้วย\nกลศ\nกล้อ\nกลอก\nกลอง\nกล่อง\nกล้อง\nกล้องแกล้ง\nกลอน\nกล่อน\nกล้อน\nกล่อม\nกล้อมแกล้ม\nกลอย\nกลัก\nกลัด\nกลั่น\nกลั้น\nกลันทก์\nกลันทะ\nกลับ\nกลัมพร\nกลัมพัก\nกลัว\nกลั้ว\nกลา\nกล้า\nกลาก\nกลากลาด\nกลาง\nกลาด\nกลาบาต\nกลาป\nกล้าม\nกลาย\nกล้าย\nกลายกลอก\nกล่าว\nกลาโหม\nกล่ำ\nกล้ำ\nกลิ้ง\nกลิงค์\nกลิ่น\nกลี\nกลีบ\nกลึง\nกลึงค์\nกลืน\nกลุ่ม\nกลุ้ม\nกลูโคส\nกเลวระ\nกวด\nกวน\nกวม\nกวย\nกวยจั๊บ\nกวยจี๊\nก๋วยเตี๋ยว\nกวัก\nกวัด\nกวา\nกว่า\nกวาง\nกว่าง\nกว้าง\nกว่างโซ้ง\nกวางตุ้ง\nกวาด\nกว้าน\nกว๊าน\nกว้าว\nกวาวเครือ\nกวี\nกษณะ\nกษมา\nกษัตร\nกษัตรา\nกษัตริย์\nกษัตรี\nกษัตรีย์\nกษัย\nกษาปณ์\nกษิดิ\nกษีร\nกษีรธารา\nกษีระ\nกสานติ์\nกสิกร\nกสิกรรม\nกสิณ\nกหังปายา\nกหาปณะ\nกเฬวราก\nกอ\nก่อ\nก้อ\nก๊อ\nกอก\nก๊อก\nกอแก\nกอง\nก่อง\nก้อง\nกองกอย\nก๊อซ\nกอด\nก่อน\nก้อน\nกอบ\nกอบนาง\nก๊อบปี้\nกอปร\nก้อม\nกอมก้อ\nก่อมก้อ\nกอย\nก้อย\nก๋อย\nกอริลลา\nกอล์ฟ\nกอและ\nกอเอี๊ยะ\nกะ\nกะกัง\nกะง้องกะแง้ง\nกะจัง\nกะแจะ\nกะชะ\nกะชัง\nกะชามาศ\nกะชิง\nกะชึ่กกะชั่ก\nกะแช่\nกะซวก\nกะซ้าหอย\nกะซี่\nกะโซ่\nกะโซ้\nกะดก\nกะดง\nกะดวน\nกะดอก\nกะดะ\nกะดังบาย\nกะดัด\nกะด้าง\nกะดำกะด่าง\nกะดี\nกะดี่\nกะดุ้ง\nกะเด้\nกะเดก\nกะเดี๋ยว\nกะตรุด\nกะตอก\nกะต่อย\nกะตัก\nกะตั้ก\nกะตัง\nกะตังกะติ้ว\nกะต๊าก\nกะต้ำ\nกะติ๊กริก\nกะติงกะแตง\nกะตีบ\nกะตึงกะแตง\nกะตุ๊ก\nกะตุด\nกะตูก\nกะเตง\nกะโต๊ก\nกะโตงกะเตง\nกะโต้งโห่ง\nกะถัว\nกะทกรก\nกะทอ\nกะทัง\nกะทังหัน\nกะทัดรัด\nกะทันหัน\nกะทับ\nกะทิ\nกะทือ\nกะทุน\nกะเทย\nกะเทาะ\nกะแท้\nกะแท่ง\nกะแทน\nกะนวล\nกะนัด\nกะบ่อนกะแบ่น\nกะบัง\nกะบั้ง\nกะบิ้ง\nกะบิล\nกะบึงกะบอน\nกะบุด\nกะเบ้อ\nกะเบียน\nกะเบือ\nกะปริดกะปรอย\nกะปริบ\nกะปริบกะปรอย\nกะปลกกะเปลี้ย\nกะปวกกะเปียก\nกะปอม\nกะปอมขาง\nกะปะ\nกะป้ำกะเป๋อ\nกะปิ\nกะปู\nกะปูด\nกะปูดหลูด\nกะเปะ\nกะเปิ๊บกะป๊าบ\nกะเปียด\nกะแป้น\nกะแปะ\nกะโปรง\nกะโปโล\nกะผลุบกะโผล่\nกะเผ่น\nกะเผลก\nกะโผลกกะเผลก\nกะพง\nกะพรวดกะพราด\nกะพร่องกะแพร่ง\nกะพริบ\nกะพรุน\nกะพรูดกะพราด\nกะพล้อ\nกะพ้อ\nกะเพรา\nกะเพียด\nกะเม็ง\nกะร่องกะแร่ง\nกะระตะ\nกะระหนะ\nกะรัง\nกะรัต\nกะราง\nกะริง\nกะรุงกะรัง\nกะรุ่งกะริ่ง\nกะรุน\nกะเร\nกะเรกะร่อน\nกะเร่กะร่อน\nกะเร่อ\nกะเรี่ยกะราด\nกะโรกะเร\nกะลวย\nกะลอ\nกะล่อกะแล่\nกะลอจี๊\nกะล่อน\nกะล่อมกะแล่ม\nกะล่อยกะหลิบ\nกะละปังหา\nกะละมัง\nกะละแม\nกะละออม\nกะลังตังไก่\nกะลัน\nกะลันทา\nกะลา\nกะลาง\nกะลาสี\nกะลำพอ\nกะลิง\nกะลิงปลิง\nกะลิ้มกะเหลี่ย\nกะลิอ่อง\nกะลุมพี\nกะเล็ง\nกะเล่อกะล่า\nกะเลิด\nกะเลียว\nกะแล\nกะโล่\nกะโลง\nกะวอกกะแวก\nกะวะ\nกะส้มชื่น\nกะสัง\nกะส้าหอย\nกะหนอกะแหน\nกะหน็องกะแหน็ง\nกะหนะ\nกะหนุงกะหนิง\nกะหร่อง\nกะหรอด\nกะหร็อมกะแหร็ม\nกะหราน\nกะหรี่\nกะหรี่ปั๊บ\nกะหลาป๋า\nกะหล่ำ\nกะหลี่\nกะหลีกะหลอ\nกะหลุกกะหลิก\nกะหำ\nกะหำแพะ\nกะหือ\nกะหูด\nกะเหรี่ยง\nกะเหลาะเปาะ\nกะแหยก\nกะแหะ\nกะโหลก\nกะโหล้ง\nกะไหล่\nกะอวม\nกะออม\nกะอาน\nกะอาม\nกะอูบ\nกัก\nกั๊ก\nกักกรา\nกักการุ\nกักขฬะ\nกัง\nกั้ง\nกังก้า\nกังเกียง\nกังขา\nกังฉิน\nกังฟู\nกังวล\nกังวาน\nกังสดาล\nกังไส\nกังหัน\nกัจฉปะ\nกัจฉะ\nกัจฉา\nกัญ\nกัญจุก\nกัญจุการา\nกัญชา\nกัญญา\nกัฐ\nกัณฏกะ\nกัณฐกะ\nกัณฐชะ\nกัณฐัศ\nกัณฐัศว์\nกัณฐา\nกัณฐี\nกัณฑ์\nกัณณ์\nกัณหา\nกัด\nกัตติกมาส\nกัตติกา\nกัตติเกยา\nกัตรา\nกัทลี\nกัน\nกั่น\nกั้น\nกันเกรา\nกันไกร\nกันชิง\nกันเชอ\nกันดาร\nกันดาล\nกันได\nกันต์\nกันตัง\nกันไตร\nกันทร\nกันทรากร\nกันภิรมย์\nกันเมียง\nกันย์\nกันยา\nกันยายน\nกันลง\nกันลอง\nกันแสง\nกั้นหยั่น\nกับ\nกับแก้\nกัป\nกัปตัน\nกัปปาสิก\nกัปปิยภัณฑ์\nกัปปิยะ\nกัมปนาท\nกัมประโด\nกัมปี\nกัมพล\nกัมพุช\nกัมพู\nกัมพูชา\nกัมโพช\nกัมมัชวาต\nกัมมัฏฐาน\nกัมมันตภาพรังสี\nกัมมันตรังสี\nกัมมาร\nกัมลาศ\nกัยวิกัย\nกัลชาญ\nกัลบก\nกัลป์\nกัลปนา\nกัลปพฤกษ์\nกัลปังหา\nกัลปาวสาน\nกัลปิต\nกัลเม็ด\nกัลยา\nกัลยาณมิตร\nกัลยาณี\nกัลออม\nกัศยป\nกัษณ\nกา\nก๋า\nกาก\nกากบาท\nกากะทิง\nกากะเยีย\nกากี\nกาง\nก้าง\nกางเกง\nกางเขน\nก๊าซ\nกาซะลอง\nกาญจนา\nกาฐ\nกาด\nก๊าด\nกาน\nก่าน\nก้าน\nก๊าน\nกานดา\nกานต์\nกานน\nก้านพร้าว\nกานพลู\nกาน้า\nกาบ\nก้าบ\nกาบู\nกาพย์\nกาเฟอีน\nกาแฟ\nกาม\nก้าม\nกามารมณ์\nกามินี\nกาเมสุมิจฉาจาร\nกาย\nก่าย\nกาเยน\nการ\nการณ์\nการ์ด\nการ์ตูน\nการบูร\nการย์\nการวิก\nการเวก\nการะเกด\nการะบุหนิง\nการัณย์\nการันต์\nการางหัวขวาน\nการิตการก\nการิตวาจก\nการุญ\nการุณย์\nกาเรการ่อน\nกาล\nกาลกรรณี\nกาลกิณี\nกาลจักร\nกาลัญญุตา\nกาลัญญู\nกาลัด\nกาลานุกาล\nกาลิก\nกาลี\nกาแล\nกาแล็กซี\nกาแล็กโทส\nกาว\nก้าว\nกาววาว\nกาวาง\nกาแวน\nกาศิก\nกาษฐะ\nกาษา\nกาสร\nกาสะ\nกาสา\nกาสาร\nกาสาวะ\nกาสิโน\nกาหล\nกาหลง\nกาหลา\nกาเหว่า\nกาไหล่\nกาฬ\nกาฬาวก\nกาฮัง\nกำ\nก่ำ\nกำกวม\nกำกัด\nกำกับ\nก้ำกึ่ง\nกำกูน\nก้ำเกิน\nกำเกียง\nกำคูน\nกำจร\nกำจัด\nกำจาย\nกำชับ\nกำชำ\nกำซาบ\nกำซำ\nกำด้น\nกำดัด\nกำดาล\nกำเดา\nกำธร\nกำนล\nกำนัน\nกำนัล\nกำเนิด\nกำบัง\nก่ำบึ้ง\nกำเบ้อ\nกำปอ\nกำปั่น\nกำผลา\nกำพง\nกำพด\nกำพต\nกำพร้า\nกำพราก\nกำพวด\nกำพอง\nกำพืด\nกำพุด\nกำพู\nกำเพลิง\nกำแพง\nกำภู\nกำมลาศน์\nกำมเลศ\nกำมะถัน\nกำมะลอ\nกำมะหยี่\nกำมะหริด\nกำมังละการ\nกำมังวิลิต\nกำมัชพล\nกำยาน\nกำยำ\nกำรอ\nกำราบ\nกำราล\nกำเริบ\nกำไร\nกำลัง\nกำลุง\nกำเลา\nกำไล\nกำสรด\nกำสรวล\nกำหนด\nกำหนัด\nกำเหน็จ\nกำแหง\nกิก\nกิ๊ก\nกิ่ง\nกิ้งก่า\nกิ้งกือ\nกิ้งโครง\nกิจ\nกิจจะ\nกิจจา\nกิดาการ\nกิดาหยัน\nกิตติ\nกิตติมศักดิ์\nกิน\nกินนร\nกินปลี\nกินเปี้ยว\nกินริน\nกินรี\nกิ๊บ\nกิมตึ๋ง\nกิมิชาติ\nกิมิวิทยา\nกิโมโน\nกิโยตีน\nกิระ\nกิริณี\nกิรินท\nกิริเนศวร\nกิริยา\nกิเลน\nกิเลส\nกิโล\nกิโลมกะ\nกิ่ว\nกิ๋ว\nกี\nกี่\nกี้\nกี๊\nกี๋\nกีฏวิทยา\nกีด\nกีตาร์\nกีบ\nกีรติ\nกีฬา\nกึก\nกึง\nกึ่ง\nกึ๋น\nกุ\nกุก\nกุ๊ก\nกุกกุฏ\nกุกกุร\nกุกรรม\nกุ้ง\nกุงอน\nกุงาน\nกุโงก\nกุจี\nกุญแจ\nกุญชร\nกุฎ\nกุฎา\nกุฎี\nกุฎุมพี\nกุฏฐัง\nกุฏิ\nกุณฑ์\nกุณฑล\nกุณฑี\nกุณโฑ\nกุณาล\nกุณี\nกุด\nกุดัง\nกุดั่น\nกุดา\nกุทัณฑ์\nกุน\nกุ๊น\nกุนเชียง\nกุนที\nกุโนกามอ\nกุบ\nกุบกับ\nกุม\nกุ่ม\nกุมฝอย\nกุมภ์\nกุมภนิยา\nกุมภัณฑ์\nกุมภา\nกุมภิล\nกุมภีล์\nกุมเหง\nกุมาร\nกุมารา\nกุมารี\nกุมุท\nกุย\nกุ๊ย\nกุ๋ย\nกุยช่าย\nกุยเฮง\nกุรระ\nกุรุพินท์\nกุเรา\nกุล\nกุลา\nกุลาหล\nกุลี\nกุลีกุจอ\nกุเลา\nกุแล\nกุเวร\nกุศราช\nกุศล\nกุศโลบาย\nกุสุม\nกุสุมภ์\nกุสุมา\nกุสุมาลย์\nกุสุมิตลดาเวลลิตา\nกุหนี\nกุหนุง\nกุหร่า\nกุหล่า\nกุหลาบ\nกุแหละ\nกู\nกู่\nกู้\nกู๊ก\nกูฏ\nกูฏา\nกูณฑ์\nกูด\nกูบ\nกูปรี\nกูรมะ\nกูรมาวตาร\nเก\nเก้\nเก๊\nเก๋\nเกก\nเก๊ก\nเกกมะเหรก\nเก๊กฮวย\nเก้กัง\nเก็ง\nเก่ง\nเก้ง\nเก๋ง\nเกงกอย\nเก่งกาจ\nเกงเขง\nเก๋งเคง\nเก็จ\nเกจิอาจารย์\nเกชา\nเกณฑ์\nเกด\nเก็ด\nเกตุ\nเกน\nเก็บ\nเกม\nเกย\nเกยูร\nเกรง\nเกร็ง\nเกร็ด\nเกรน\nเกร่อ\nเกรอะ\nเกราะ\nเกริก\nเกริน\nเกริ่น\nเกรียก\nเกรียง\nเกรียด\nเกรียน\nเกรียบ\nเกรียม\nเกรียว\nเกรี้ยว\nเกเร\nเกล็ด\nเกลศ\nเกลอ\nเกลา\nเกล้า\nเกลาะ\nเกลี่ย\nเกลี้ย\nเกลียง\nเกลี้ยง\nเกลียด\nเกลียว\nเกลือ\nเกลื้อ\nเกลือก\nเกลื่อน\nเกลื้อน\nเกวัฏ\nเกวียน\nเกศ\nเกศว\nเกศวะ\nเกศา\nเกศินี\nเกศี\nเกษตร\nเกษม\nเกษียณ\nเกษียน\nเกษียร\nเกส\nเกสร\nเกสรี\nเกสา\nเกสี\nเก้อ\nเกอิชา\nเกะ\nเกะกะ\nเกา\nเก่า\nเก้า\nเก๋า\nเกาต์\nเกาทัณฑ์\nเกาบิล\nเกาลัด\nเกาลิน\nเกาไศย\nเกาหลี\nเกาเหลา\nเกาเหลียง\nเก้าอี้\nเกาะ\nเกิ้ง\nเกิด\nเกิน\nเกิบ\nเกีย\nเกียกกาย\nเกียง\nเกี่ยง\nเกี๋ยง\nเกียจ\nเกียด\nเกียน\nเกี้ยมไฉ่\nเกี้ยมอี๋\nเกียร์\nเกียรติ\nเกียรติ์\nเกี่ยว\nเกี้ยว\nเกี๊ยว\nเกี๊ยะ\nเกื้อ\nเกือก\nเกื้อกูล\nเกือบ\nแก\nแก่\nแก้\nแกง\nแก่ง\nแก้ง\nแก๊ง\nแกงได\nแกงแนง\nแกโดลิเนียม\nแกน\nแก่น\nแก๊ป\nแกม\nแก้ม\nแกมมา\nแกรก\nแกร่ง\nแกร็น\nแกรนิต\nแกรไฟต์\nแกร่ว\nแกระ\nแกล\nแกล้ง\nแกลน\nแกลบ\nแกล้ม\nแกลลอน\nแกลเลียม\nแกล้ว\nแกละ\nแกแล\nแกว\nแก้ว\nแกว่ง\nแก๊ส\nแกะ\nโก\nโก่\nโก้\nโก๋\nโกก\nโกกนุท\nโกกิลา\nโกโก้\nโกง\nโก่ง\nโกงกาง\nโก้งเก้ง\nโกงโก้\nโก้งโค้ง\nโกเชาว์\nโกญจนาท\nโกญจา\nโกฏิ\nโกฐ\nโกฐาส\nโกณะ\nโกดัง\nโกทัณฑ์\nโกน\nโก่น\nโก๋น\nโกมล\nโกมุท\nโกเมน\nโกเมศ\nโกย\nโกรก\nโกรกกราก\nโกรง\nโกร่ง\nโกร่งกร่าง\nโกรงเกรง\nโกร๋งเกร๋ง\nโกรญจ\nโกรต๋น\nโกรธ\nโกรธา\nโกร๋น\nโกรม\nโกรย\nโกรศ\nโกโรโกเต\nโกโรโกโรก\nโกโรโกโส\nโกลน\nโกลาหล\nโกไล\nโกวิท\nโกศ\nโกศล\nโกษม\nโกสน\nโกสัช\nโกสินทร์\nโกสีย์\nโกสุม\nโกไสย\nโกหก\nใกล้\nไก\nไก่\nไก๊\nไก๋\nไก่กอม\nไกพัล\nไกร\nไกรพ\nไกรลาส\nไกรศร\nไกรศรี\nไกรสร\nไกรสรี\nไกรสิทธิ\nไกล\nไกล่\nไกลาส\nไกว\nไกวัล\nขงจื๊อ\nขจร\nขจรจบ\nขจัด\nขจ่าง\nขจาย\nขจาว\nขจิต\nขจี\nขจุย\nขเจา\nขณะ\nขด\nขน\nข้น\nขนง\nขนด\nขนบ\nขนม\nขนอง\nขนอน\nขนอบ\nขนัด\nขนัน\nขนาก\nขนาง\nขนาด\nขนาน\nขนาบ\nขนาย\nขนำ\nขนิษฐ\nขนิษฐา\nขนุน\nขนุนนก\nขบ\nขบถ\nขบวน\nขบวร\nขม\nข่ม\nขมงโกรย\nขมวด\nขมวน\nขมอง\nขม่อม\nขมัง\nขมับ\nขมา\nขม้ำ\nขมิ้น\nขมิบ\nขมีขมัน\nขมึง\nขมึงทึง\nขมุ\nขมุกขมัว\nขมุบ\nขโมย\nขยด\nขยม\nขย่ม\nขยอก\nขยอง\nขย่อน\nขย้อน\nขยะ\nขยัก\nขยัน\nขยั้น\nขยับ\nขยาด\nขยาย\nขยำ\nขย้ำ\nขยิก\nขยิบ\nขยิ่ม\nขยี้\nขยุกขยิก\nขยุกขยุย\nขยุบ\nขยุบขยิบ\nขยุม\nขยุ้ม\nขยุย\nขรม\nขรรค์\nขรัว\nขริบ\nขรี\nขรึม\nขรุขระ\nขลบ\nขล้อ\nขลัง\nขลับ\nขลาด\nขลาย\nขลิบ\nขลุก\nขลุกขลัก\nขลุกขลิก\nขลุบ\nขลุม\nขลุ่ย\nขลู\nขลู่\nขวง\nข่วง\nขวด\nข่วน\nขวนขวาย\nขวบ\nขวย\nขวักไขว่\nขวัญ\nขวั้น\nขวับ\nขวับเขวียว\nขวา\nขวาก\nขวาง\nขว้าง\nขวาด\nขวาน\nขวายขวน\nขวาว\nขว้าว\nขวิด\nขอ\nข่อ\nข้อ\nของ\nข้อง\nขอด\nขอน\nข้อน\nขอบ\nขอม\nข่อย\nข้อย\nข่อยหยอง\nขะแจะ\nขะเน็ด\nขะมอมขะแมม\nขะมักเขม้น\nขะมุกขะมอม\nขะยิก\nขะยุก\nขะเย้อแขย่ง\nขัค\nขัง\nขังขอก\nขัช\nขัณฑสกร\nขัณฑสีมา\nขัด\nขัดมอน\nขัตติยมานะ\nขัน\nขั้น\nขันติ\nขันตี\nขันโตก\nขันที\nขันธ์\nขันธาวาร\nขับ\nขัว\nขั้ว\nขา\nข่า\nข้า\nขาก\nขาก๊วย\nขาง\nข่าง\nข้าง\nขาณุ\nขาด\nขาทนียะ\nขาน\nขาบ\nข้าพเจ้า\nขาม\nข่าม\nข้าม\nขาย\nข่าย\nขาล\nขาว\nข่าว\nข้าว\nข้าวอังกุลี\nขำ\nขิก\nขิง\nขิงแกลง\nขิงแครง\nขิด\nขิปสัทโท\nขิม\nขี่\nขี้\nขี้เข็บ\nขีณาสพ\nขีด\nขี้ตังนี\nขีปนาวุธ\nขี้ยอก\nขีระ\nขึง\nขึ้ง\nขึ้น\nขึ้นฉ่าย\nขืน\nขื่น\nขื่อ\nขุก\nขุด\nขุน\nขุ่น\nขุนเพ็ด\nขุม\nขุย\nขู่\nขูด\nเข\nเข้\nเขก\nเข็ง\nเข่ง\nเขจร\nเข็ญ\nเข็ด\nเขดา\nเขต\nเขน\nเข็น\nเข่น\nเขนง\nเขน็ด\nเขนย\nเขบ็จขบวน\nเขบ็ต\nเขม\nเข็ม\nเข้ม\nเข้มขาบ\nเขม็ง\nเขม็ดแขม่\nเขม่น\nเขม้น\nเขม้นขะมัก\nเขมร\nเขมา\nเขม่า\nเขมือบ\nเขย\nเขยก\nเขย่ง\nเขย้อแขย่ง\nเขย่า\nเขยิน\nเขยิบ\nเขยื้อน\nเขรอะ\nเขลง\nเขลอะ\nเขละ\nเขลา\nเขลาะ\nเขว\nเขษม\nเขฬะ\nเขะขะ\nเขา\nเข่า\nเข้า\nเขิง\nเขิน\nเขิบ\nเขี่ย\nเขียง\nเขียด\nเขียดตะปาด\nเขียน\nเขี่ยน\nเขียม\nเขียว\nเขี้ยว\nเขียะ\nเขือ\nเขือง\nเขื่อง\nเขื่อน\nเขือม\nแข\nแข้\nแขก\nแข็ง\nแข่ง\nแข้ง\nแขน\nแข่น\nแข้น\nแขนง\nแขม\nแขม็บ\nแขม่ว\nแขยง\nแขย่ง\nแขวก\nแขวง\nแขวน\nแขวะ\nโข\nโขก\nโขง\nโข่ง\nโขด\nโขดง\nโขน\nโขนง\nโขม\nโขมง\nโขมด\nโขยก\nโขยง\nโขย่ง\nโขยด\nโขลก\nโขลง\nโขลน\nโขษม\nไข\nไข่\nไข้\nไขว่\nไขว้\nคคนะ\nคคนัมพร\nคคนางค์\nคคนานต์\nคง\nคงคา\nคงไคย\nคช\nคชาชาติ\nคชาชีพ\nคชาธาร\nคชาภรณ์\nคณนา\nคณบดี\nคณะ\nคณาจารย์\nคณาธิการ\nคณาธิปไตย\nคณานับ\nคณิกา\nคณิต\nคเณศ\nคด\nคดี\nคติ\nคทา\nคน\nค้น\nคนทา\nคนทิสอ\nคนที\nคนโท\nคนธ์\nคันธ์\nคนธรรพ์\nคเนจร\nคบ\nคม\nคมน์\nคมนาการ\nคมนาคม\nคมิกภัต\nครก\nครบ\nครรชิต\nครรภ\nครรภ์\nครรลอง\nครรโลง\nครรไล\nครวญ\nครวี\nครหา\nครอก\nครอง\nครองแครง\nคร่อเงาะ\nคร่อเทียน\nครอบ\nคร่อม\nคระเมิม\nคระแลง\nคระไล\nคระแวง\nคระหน\nคระหวน\nคระหาย\nคระโหย\nครั่ง\nครั้ง\nครัดเคร่ง\nครัน\nครั่น\nครั้น\nครับ\nครัว\nครา\nคร่า\nคราก\nคราง\nคราญ\nคราด\nคร้าน\nคราบ\nคราม\nคร้าม\nครามครัน\nคราว\nคร่าว\nคราส\nครำ\nคร่ำ\nคร่ำเคร่ง\nคริปทอน\nคริสต์\nครีบ\nครีม\nครีษมายัน\nครึ\nครึกครื้น\nครึกโครม\nครึ่ง\nครึ่ด\nครึน\nครึ้ม\nครืด\nครืน\nครื้น\nครืนครั่น\nครื้นครั่น\nครื้นครึก\nครื้นเครง\nครือ\nครุ\nครุคระ\nครุฑ\nครุ่น\nครุมเครือ\nครุย\nครุวนา\nครู\nครู่\nครูด\nคฤโฆษ\nคฤนถ์\nคฤหบดี\nคฤหัสถ์\nคฤหาสน์\nคลวง\nคลอ\nคล้อ\nคลอก\nคลอง\nคล่อง\nคล้อง\nคลอด\nคลอน\nคล้อย\nคลอรีน\nคลอโรฟอร์ม\nคลอโรฟีลล์\nคละ\nคละคลุ้ง\nคลัก\nคลั่ก\nคลัง\nคลั่ง\nคลัตช์\nคลับคล้าย\nคลับคลา\nคลา\nคล้า\nคลางแคลง\nคลาด\nคลาน\nคลาย\nคล้าย\nคล้ายคลึง\nคล่าว\nคลำ\nคล่ำ\nคล้ำ\nคลิ้งโคลง\nคลิด\nคลินิก\nคลี\nคลี่\nคลึง\nคลื่น\nคลุก\nคลุ้ง\nคลุบ\nคลุม\nคลุ่ม\nคลุ้ม\nควง\nควณ\nควน\nควบ\nควย\nควร\nควัก\nควั่ก\nควั่งคว้าง\nควัน\nควั่น\nคว้า\nควาก\nคว้าง\nควาญ\nควาน\nคว้าน\nความ\nควาย\nคว่าว\nคว่ำ\nควินิน\nควิวคว่าง\nคหกรรม\nคหกรรมศาสตร์\nคหบดี\nคหัฐ\nคอ\nค้อ\nคอก\nค็อกคัส\nค็อกเทล\nคอเคซอยด์\nค่องอ้อย\nคอด\nคอแดง\nคอน\nค่อน\nค้อน\nคอนกรีต\nคอนเดนเซอร์\nคอนแวนต์\nคอนเสิร์ต\nคอม\nค่อม\nค้อม\nคอมพิวเตอร์\nคอมมานโด\nคอมมิวนิสต์\nคอย\nค่อย\nค้อย\nคอยล์\nคอร์ด\nคอแลน\nคอสติกโซดา\nคะ\nค่ะ\nคะไขว่\nคะค้อย\nคะคาน\nคะนน\nคะนอง\nคะน้า\nคะนึง\nคะเน\nคะเนงร้าย\nคะเน็ด\nคะแนน\nคะมำ\nคะยั้นคะยอ\nคะเยอ\nคัก\nคั่ก\nคัคนะ\nคัคนัมพร\nคัคนางค์\nคัคนานต์\nคั่ง\nคังไคย\nคัจฉ\nคัณฑมาลา\nคัณฑสูตร\nคัด\nคัดเค้า\nคัดมอน\nคัดเม็ง\nคัทลียา\nคัน\nคั่น\nคั้น\nคันถรจนาจารย์\nคันธกุฎี\nคันธมาทน์\nคันธารราษฎร์\nคับ\nคับค้อน\nคับคา\nคับแค\nคัพภ์\nคัมภีร์\nคัมภีรภาพ\nคัล\nคั่ว\nคา\nค่า\nค้า\nค่าคบ\nคาง\nค่าง\nค้าง\nคางคก\nค้างคาว\nคาด\nคาถา\nคาทอลิก\nคาน\nค้าน\nคาบ\nคาพยุต\nคาม\nคามวาสี\nคามณีย์\nคามภีร์\nคาย\nค่าย\nคาร์บอน\nคาร์บอเนต\nคาร์บอลิก\nคาร์บูเรเตอร์\nคาร์โบรันดัม\nคาร์โบไฮเดรต\nคารม\nคารวะ\nคาราเต้\nคาราวาน\nคาว\nค่าว\nค้าว\nคาวตอง\nคาวี\nคาวุต\nคาส\nคำ\nค่ำ\nค้ำ\nคำนวณ\nคำนวร\nคำนับ\nคำนัล\nคำนึง\nคำนูณ\nคำฝอย\nคำเพลิง\nคำรน\nคำรบ\nคำราม\nคำแสด\nคำแหง\nคำโอง\nคิก\nคิง\nคิด\nคิมหันต์\nคิรี\nคิลาน\nคิลานะ\nคิว\nคิ้ว\nคี่\nคีต\nคีบ\nคีม\nคีรี\nคีรีบูน\nคึก\nคึ่ก\nคึกคัก\nคืน\nคืบ\nคือ\nคุ\nคุก\nคุกกี้\nคุกคาม\nคุกพาทย์\nคุ้ง\nคุณ\nคุด\nคุดทะราด\nคุต\nคุตติ\nคุ่น\nคุ้น\nคุป\nคุปต์\nคุปติ\nคุม\nคุ่ม\nคุ้ม\nคุย\nคุ้ย\nคุยหฐาน\nคุยหประเทศ\nคุรุ\nคุลา\nคุลิก่า\nคุลีการ\nคุหา\nคู\nคู่\nคู้\nคูณ\nคูถ\nคูน\nคูปอง\nคูเรียม\nคูหา\nเค้ก\nเค้เก้\nเค้ง\nเคณฑะ\nเคด\nเค็ด\nเคน\nเค้น\nเคเบิล\nเค็ม\nเคมี\nเคย\nเครง\nเคร่ง\nเครงครา\nเครงครำ\nเครดิต\nเครน\nเครา\nเคร่า\nเคราหณี\nเคราะห์\nเครียด\nเครียว\nเครือ\nเครื่อง\nเคล้ง\nเคล็ด\nเคล้น\nเคล้า\nเคล่าคล่อง\nเคลิบเคลิ้ม\nเคลิ้ม\nเคลีย\nเคลื่อน\nเคลือบ\nเคว้ง\nเคหะ\nเคหา\nเคอะ\nเค้า\nเคาน์เตอร์\nเคารพ\nเคาะ\nเคาะแคะ\nเคียง\nเคียด\nเคียน\nเคียม\nเคี่ยม\nเคียร\nเคียว\nเคี่ยว\nเคี้ยว\nเคือง\nแค\nแค่\nแค้\nแคแล\nแคดเมียม\nแค็ตตาล็อก\nแคแตร\nแคโทด\nแคน\nแค่น\nแค้น\nแคบ\nแคบหมู\nแคปซูล\nแคม\nแคร่\nแครก\nแครง\nแคระ\nแคลคูลัส\nแคลง\nแคลเซียม\nแคลน\nแคล้ว\nแคล่วคล่อง\nแคลอรี\nแคลิฟอร์เนียม\nแคว\nแควก\nแคว้น\nแคแสด\nแคะ\nโค\nโคก\nโคเคน\nโค่ง\nโค้ง\nโคจร\nโคเซแคนต์\nโคไซน์\nโคตร\nโคแทนเจนต์\nโคธา\nโคน\nโค่น\nโคบอลต์\nโคปผกะ\nโคม\nโคม่า\nโครก\nโครกคราก\nโครง\nโคร่ง\nโคร่งคร่าง\nโครม\nโครเมียม\nโครโมโซม\nโคราช\nโครำ\nโคล\nโคลง\nโคลน\nโควตา\nโคออร์ดิเนต\nใคร\nใคร่\nใคร่ครวญ\nไค\nไค้\nไคร้\nไคร้เครือ\nไคล\nไคล้\nฆนะ\nฆราวาส\nฆ้อง\nฆ่า\nฆาต\nฆาน\nฆานินทรีย์\nเฆี่ยน\nโฆรวิส\nโฆษก\nโฆษณา\nโฆษะ\nโฆษิต\nงก\nงง\nงด\nงดงาม\nงบ\nงม\nงวง\nง่วง\nงวด\nง่วน\nง้วน\nงวยงง\nงอ\nง้อ\nงอก\nงอกแงก\nง่อกแง่ก\nง่อง\nง่องแง่ง\nงอแง\nงอด\nงอดแงด\nงอน\nง่อน\nง่อนแง่น\nงอนหง่อ\nงอบ\nงอม\nง้อม\nงอย\nง่อย\nงัก\nงั่ก\nงั่ง\nงัด\nงัน\nงันงก\nงับ\nงัว\nงั่ว\nงัวเงีย\nงา\nง่า\nง้าง\nงาน\nง่าน\nงาบ\nงาม\nง่าม\nงาย\nง่าย\nง้าว\nงำ\nง่ำ\nง้ำ\nงิ้ว\nงี่เง่า\nงีบ\nงึก\nงึน\nงึม\nงุด\nงุนงง\nงุ่นง่าน\nงุบ\nงุบงิบ\nงุ้ม\nงุ่มง่าม\nงุย\nงู\nงูบ\nงูสวัด\nเงก\nเงย\nเงอะ\nเงอะงะ\nเงา\nเง่า\nเง้า\nเงาะ\nเงิน\nเงี่ยง\nเงี่ยน\nเงียบ\nเงี้ยว\nเงี่ยหู\nเงื้อ\nเงือก\nเงื่อง\nเงือด\nเงื่อน\nเงือบ\nเงื้อม\nแง\nแง่\nแง่ง\nแง่น\nแง้ม\nแงะ\nโง\nโง่\nโงก\nโงกเงก\nโงง\nโง่ง\nโง้ง\nโงงเงง\nโง่งเง่ง\nโงเง\nโงน\nโงนเงน\nไง้\nจก\nจง\nจ่ง\nจงกรม\nจงกล\nจงกลนี\nจงโคร่ง\nโจงโคร่ง\nจงอร\nจงอาง\nจด\nจดุรงค์\nจตุปัจจัย\nจตุลังคบาท\nจตุโลกบาล\nจตุสดมภ์\nจตุตถ\nจตุตถี\nจตุร\nจตุรงค์\nจตุรพักตร์\nจตุรพิธ\nจตุรพิธพร\nจน\nจบ\nจม\nจ่ม\nจมร\nจมรี\nจมูก\nจยุติ\nจร\nจรณะ\nจรด\nจรรจา\nจรรโจษ\nจรรม\nจรรยา\nจรรโลง\nจรลี\nจรวจ\nจรวด\nจรส\nจรอก\nจระเข้\nจระนำ\nจระบี\nจรัล\nจรัส\nจราจร\nจราญ\nจริก\nจริง\nจริต\nจริม\nจริยธรรม\nจริยวัตร\nจริยาวัตร\nจริยศาสตร์\nจริยศึกษา\nจริยา\nจรุง\nจรูง\nจรูญ\nจเร\nจล\nจลนพลศาสตร์\nจลนศาสตร์\nจลนี\nจลาจล\nจวก\nจ๊วก\nจวง\nจ้วง\nจ๋วง\nจวด\nจวน\nจวบ\nจวัก\nจอ\nจ่อ\nจ้อ\nจ๋อ\nจอก\nจ้อก\nจ๊อก\nจ้อกแจ้ก\nจอง\nจ้อง\nจ๋อง\nจ้องเต\nจองเปรียง\nจ้องหน่อง\nจองหอง\nจอแจ\nจ๋อแจ๋\nจอด\nจอน\nจ้อน\nจอนจ่อ\nจอบ\nจอม\nจ่อม\nจอมสุรางค์\nจ่อย\nจ้อย\nจ๋อย\nจอแส\nจะ\nจ้ะ\nจ๊ะ\nจ๋ะ\nจะกละ\nจะกลาม\nจะกูด\nจะขาบ\nจะเข้\nจะเข็บ\nจะงอย\nจะจะ\nจ๊ะจ๋า\nจะแจ้ง\nจะแจ่ม\nจะละเม็ด\nจะละหวั่น\nจัก\nจั้ก\nจักกาย\nจั๊กกิ้ม\nจักขุ\nจักจั่น\nจักจี้\nจั๊กจี้\nจั๊กเดียม\nจักร\nจักรพาก\nจักรวาก\nจักริน\nจักรี\nจั๊กเล้อ\nจักษุ\nจักแหล่น\nจัง\nจั้ง\nจั๋ง\nจังกวด\nจังกอบ\nจังก้า\nจังกูด\nจังโกฏก์\nจังงัง\nจั้งมั่ง\nจังไร\nจังหนับ\nจังหรีด\nจังหวะ\nจังหวัด\nจังหัน\nจัญไร\nจัณฑ์\nจัณฑาล\nจัด\nจัตตาฬีสะ\nจัตวา\nจัตุ\nจัตุรงค์\nจัตุรัส\nจัตุลังคบาท\nจัตุโลกบาล\nจัตุสดมภ์\nจัน\nจั่น\nจันโจษ\nจั่นดิน\nจันท์\nจันทน์\nจันทร์\nจันทรคติ\nจันทรคราส\nจันทรุปราคา\nจันทรเม็ด\nจันทวาร\nจันทัน\nจันอับ\nจับ\nจับกัง\nจับฉ่าย\nจับเดิม\nจับปิ้ง\nจับยี่กี\nจัมบก\nจัมปกะ\nจัมปา\nจัมมะ\nจัว\nจั่ว\nจั๊วะ\nจา\nจ่า\nจ้า\nจ๋า\nจาก\nจากพาก\nจาคะ\nจาคี\nจาง\nจ่าง\nจ้าง\nจางปาง\nจางวาง\nจาด\nจาตุรงค์\nจาตุรนต์\nจาตุรันต์\nจาน\nจ้าน\nจาบ\nจาบัล\nจาบัลย์\nจาป\nจาม\nจ่ามงกุฎ\nจามจุรี\nจามร\nจามรี\nจามีกร\nจ่าย\nจาร\nจ่ารง\nจารวาก\nจาระไน\nจาระบี\nจาริก\nจารึก\nจารี\nจารีต\nจารุ\nจ้าละหวั่น\nจาว\nจ้าว\nจ่าหวัก\nจำ\nจ้ำ\nจำกัด\nจำงาย\nจ้ำจี้\nจำเจ\nจำเดิม\nจำทวย\nจำนง\nจำนน\nจำนรรจ์\nจำนรรจา\nจำนวน\nจำนอง\nจำนัล\nจำนำ\nจำเนียน\nจำเนียม\nจำเนียร\nจำแนก\nจำบ่ม\nจำบัง\nจ้ำเบ้า\nจำปา\nจำปาดะ\nจำปี\nจำปูน\nจำพวก\nจำเพาะ\nจ้ำม่ำ\nจำรัส\nจำราญ\nจำรูญ\nจำเริญ\nจำเรียง\nจำลอง\nจำเลย\nจำเลาะ\nจำแลง\nจำแล่น\nจำหนับ\nจ๋ำหนับ\nจำหน่าย\nจำหระ\nจำหล่อ\nจำหลัก\nจำเหียง\nจำอวด\nจิ\nจิก\nจิ้งโกร่ง\nจิ้งจก\nจิงจ้อ\nจิ้งจอก\nจิงจัง\nจิ้งจัง\nจิงโจ้\nจิ้งหรีด\nจิ้งเหลน\nจิต\nจิตกาธาน\nจิตต์\nจิตร\nจิตรจุล\nจิตระ\nจิตรา\nจินเจา\nจินดา\nจินดาหนา\nจินดาหรา\nจินต์\nจิบ\nจิปาถะ\nจิ่ม\nจิ้ม\nจิ้มก้อง\nจิ้มลิ้ม\nจิรกาล\nจิ๋ว\nจี\nจี่\nจี้\nจี๋\nจี๋จ้อ\nจีแจ๊บ\nจี๊ด\nจีน\nจีนแส\nจีบ\nจีโบ\nจีม\nจีวร\nจึง\nจึ่ง\nจึ้ง\nจืด\nจุ\nจุก\nจุ๊กกรู๊\nจุกจิก\nจุกชี\nจุกผาม\nจุกโรหินี\nจุ่ง\nจุ๋งจิ๋ง\nจุฑา\nจุณ\nจุณณียบท\nจุด\nจุติ\nจุตูปปาตญาณ\nจุทส\nจุน\nจุ่น\nจุ้น\nจุนจู๋\nจุ้นจู๊\nจุนทการ\nจุนสี\nจุบ\nจุ๊บ\nจุบจิบ\nจุ๊บแจง\nจุ่ม\nจุ้ม\nจุ๋มจิ๋ม\nจุมพฏ\nจุมพรวด\nจุมพล\nจุมพิต\nจุมโพล่\nจุ้ย\nจุรณ\nจูรณ\nจุรี\nจุไร\nจุล\nจุลจอมเกล้า\nจุลวงศ์\nจุฬา\nจุฬาราชมนตรี\nจุฬาลัมพา\nจุฬาลำพา\nจู\nจู่\nจู้\nจู๋\nจูง\nจู้จี้\nจู๋จี๋\nจู๊ด\nจูบ\nเจ\nเจ๊ก\nเจ่ง\nเจ้ง\nเจ๊ง\nเจ๋ง\nเจ็ด\nเจ็ดตะคลี\nเจดีย์\nเจดียสถาน\nเจต\nเจตนา\nเจตพังคี\nเจตมูลเพลิง\nเจตสิก\nเจโตวิมุติ\nเจน\nเจ็บ\nเจรจา\nเจริญ\nเจริด\nเจรียง\nเจลียง\nเจว็ด\nเจษฎา\nเจ๊สัว\nเจอ\nเจ่อ\nเจ๋อ\nเจ๋อเจ๊อะ\nเจอร์เมเนียม\nเจอะ\nเจา\nเจ่า\nเจ้า\nเจ๊า\nเจาะ\nเจิ่ง\nเจิด\nเจิ่น\nเจิม\nเจีย\nเจียง\nเจียด\nเจียน\nเจี๋ยน\nเจี๊ยบ\nเจียม\nเจี๋ยมเจี้ยม\nเจียร\nเจียระไน\nเจียระบาด\nเจียว\nเจี๊ยวจ๊าว\nเจือ\nเจื่อน\nเจื้อย\nเจือสม\nแจ\nแจ้\nแจ๋\nแจก\nแจกัน\nแจง\nแจ่ง\nแจ้ง\nแจงลอน\nแจ๊ด\nแจ๊ดแจ๋\nแจตร\nแจ้น\nแจบ\nแจ่ม\nแจรง\nแจว\nแจ่ว\nแจ้ว\nแจ๋ว\nแจะ\nโจก\nโจ๊ก\nโจง\nโจ่งครึ่ม\nโจ๋งครึ่ม\nโจ่งครุ่ม\nโจ๋งเจ๋ง\nโจ่งแจ้ง\nโจท\nโจทก์\nโจทนา\nโจทย์\nโจน\nโจม\nโจร\nโจล\nโจษ\nโจษจัน\nใจ\nไจ\nไจ้\nฉก\nฉกรรจ์\nฉกษัตริย์\nฉกาจ\nฉกามาพจร\nฉกามาวจร\nฉง\nฉงน\nฉงาย\nฉทึง\nฉนวน\nฉนัง\nฉนาก\nฉนำ\nฉบัง\nฉบัด\nฉบับ\nฉบำ\nฉม\nฉมบ\nฉมวก\nฉมวย\nฉม่อง\nฉมัง\nฉมัน\nฉมา\nฉมำ\nฉล\nฉลวย\nฉลอง\nฉลอม\nฉลัก\nฉลับ\nฉลาก\nฉลาง\nฉลาด\nฉลาม\nฉลาย\nฉลิว\nฉลีก\nฉลุ\nฉลู\nฉวย\nฉวะ\nฉวัดเฉวียน\nฉวาง\nฉวี\nฉศก\nฉ้อ\nฉอก\nฉ่อง\nฉอด\nฉ่อย\nฉอเลาะ\nฉะ\nฉะฉาด\nฉะฉาน\nฉะฉ่ำ\nฉะฉี่\nฉะเฉื่อย\nฉะนั้น\nฉะนี้\nฉะอ้อน\nฉักกะ\nฉัฐ\nฉัด\nฉัตร\nฉัททันต์\nฉัน\nฉันท\nฉันท์\nฉันทะ\nฉันทา\nฉันทาคติ\nฉันทานุมัติ\nฉับ\nฉัพพรรณรังสี\nฉัยยา\nฉ่า\nฉาก\nฉาง\nฉ่าง\nฉ่าฉาว\nฉาด\nฉาดฉาน\nฉาตกภัย\nฉาน\nฉาบ\nฉาบฉวย\nฉาย\nฉายา\nฉาว\nฉ่ำ\nฉำฉา\nฉำแฉะ\nฉิ่ง\nฉิน\nฉินท์\nฉินทฤกษ์\nฉิบ\nฉิมพลี\nฉิว\nฉี่\nฉีก\nฉีด\nฉุ\nฉุก\nฉุด\nฉุน\nฉุป\nฉุป\nฉุย\nฉุยฉาย\nฉู่\nฉู่ฉี่\nฉูด\nฉูดฉาด\nเฉ\nเฉก\nเฉโก\nเฉ่ง\nเฉด\nเฉท\nเฉนียน\nเฉพาะ\nเฉย\nเฉลย\nเฉลว\nเฉลา\nเฉลิม\nเฉลี่ย\nเฉลียง\nเฉลี่ยง\nเฉลียบ\nเฉลียว\nเฉวียง\nเฉวียน\nเฉอะแฉะ\nเฉา\nเฉาก๊วย\nเฉาฮื้อ\nเฉาะ\nเฉิด\nเฉิบ\nเฉียง\nเฉียงพร้านางแอ\nเฉียด\nเฉียบ\nเฉียว\nเฉี่ยว\nเฉือน\nเฉื่อย\nแฉ\nแฉ่\nแฉก\nแฉง\nแฉ่ง\nแฉลบ\nแฉล้ม\nแฉะ\nโฉ\nโฉ่\nโฉเก\nโฉ่งฉ่าง\nโฉงเฉง\nโฉด\nโฉนด\nโฉบ\nโฉเบ๊\nโฉม\nโฉลก\nไฉน\nไฉไล\nชก\nชคัตตรัย\nชง\nชงโค\nชงฆ์\nชงฆา\nชงโลง\nชฎา\nชฎามังษี\nชฎามังสี\nชฎิล\nชด\nชน\nชนก\nชนนี\nชนม์\nชนวน\nชนะ\nชนัก\nชนา\nชนาง\nชนิด\nชเนตตี\nชบา\nชม\nชมดชม้อย\nชมนาด\nชมพู\nชมพู่\nชมรม\nชม้อย\nชม้าย\nชไม\nชยา\nชโย\nชรทึง\nชรริน\nชรอุ่ม\nชระล้ำ\nชระลุ\nชระอาบ\nชระเอม\nชรัด\nชรา\nชล\nชโลง\nชโลม\nช่วง\nชวด\nชวน\nชวย\nช่วย\nชวร\nชวลิต\nชวา\nชวาล\nชวาลา\nช่อ\nชอก\nช็อก\nช็อกโกเลต\nช็อกโกแลต\nชอง\nช่อง\nช้อง\nชองระอา\nชอน\nช่อน\nช้อน\nชอบ\nชอม\nช้อย\nชอล์ก\nชอ่ำ\nชอุ่ม\nชะ\nชะคราม\nชะงอก\nชะง่อน\nชะงัก\nชะงัด\nชะง้ำ\nชะงุ้ม\nชะเง้อ\nชะเงื้อม\nชะแง้\nชะโงก\nชะฉ่า\nชะช่อง\nชะชะ\nชะช้า\nชะโด\nชะตา\nชะต้า\nชะนี\nชะเนาะ\nชะเนียง\nชะพลู\nชะเพลิง\nชะมด\nชะมบ\nชะมวง\nชะมัง\nชะมัด\nชะแม่\nชะรอย\nชะลอ\nชะลอม\nชะล่า\nชะลาน\nชะลิน\nชะลูด\nชะเลง\nชะเลย\nชะแล็ก\nชะแลง\nชะวาก\nชะวาด\nชะเวิกชะวาก\nชะแวง\nชะอม\nชะอ้อน\nชะเอม\nชะโอน\nชัก\nชักคราม\nชักช้า\nชัง\nชั่ง\nชังคา\nชังฆ\nชัชวาล\nชัฏ\nชัด\nชัดช้า\nชัน\nชั้น\nชันกาด\nชันชี\nชันตุ\nชันนะตุ\nชันนุ\nชันโรง\nชันษา\nชันสูตร\nชัปนะ\nชัพ\nชัมพูนท\nชัย\nชัยพฤกษ์\nชัยภูมิ\nชัลลุกา\nชั่ว\nชั้ว\nชัวชม\nชา\nช้า\nชาคระ\nชาคริต\nชาคริยานุโยค\nช่าง\nช้าง\nช้าช่อน\nชาญ\nชาด\nชาดก\nชาต\nชาตบุษย์\nชาตรี\nชาตะ\nชาตา\nชาติ\nชาน\nชานุ\nช้าปี่\nชาปีไหน\nช้าแป้น\nช้าพลู\nชาม\nชามพูนท\nชามาดร\nชามาดา\nชามาตุ\nชาย\nชายา\nชาล\nชาลา\nชาลินี\nช้าเลือด\nชาว\nชาวี\nชำ\nช่ำ\nช้ำ\nชำงัด\nชำงาย\nช่ำชอง\nชำนะ\nชำนัญ\nชำนัน\nชำนาญ\nชำนิ\nชำเนียร\nชำมะนาด\nชำมะเลียง\nชำร่วย\nชำระ\nช้ำรั่ว\nชำรุด\nชำเรา\nชำเราะ\nชำแรก\nชำแระ\nชำเลือง\nชำแหละ\nชิ\nชิง\nชิ่ง\nชิงชัน\nชิงช้า\nชิงช้าชาลี\nชิงชี่\nชิงฮื้อ\nชิชะ\nชิชิ\nชิณณะ\nชิด\nชิเดนทรีย์\nชิต\nชิตินทรีย์\nชิน\nชิ้น\nชินโต\nชิโนรส\nชิม\nชิมแปนซี\nชิยา\nชิรณะ\nชิระ\nชิวหา\nชิสา\nชี\nชี่\nชี้\nชีปะขาว\nชีผะขาว\nชีผ้าขาว\nชีพ\nชีฟอง\nชีรณ\nชีระ\nชีวเคมี\nชีวประวัติ\nชีวภาพ\nชีววิทยา\nชีวะ\nชีวัน\nชีวา\nชีวาตม์\nชีวาลัย\nชีวิต\nชีวิตักษัย\nชีวิน\nชีวี\nชืด\nชื่น\nชื้น\nชื่อ\nชุก\nชุกชี\nชุ้ง\nชุณห\nชุด\nชุติ\nชุน\nชุบ\nชุม\nชุ่ม\nชุมนุม\nชุมพร\nชุมพา\nชุมแพรก\nชุมรุม\nชุมแสง\nชุมเห็ด\nชุ่ย\nชุลมุน\nชุลี\nชุษณะ\nชู\nชู้\nเช็ค\nเช้ง\nเช้งวับ\nเชงเลง\nเช็ด\nเชน\nเช่น\nเชย\nเชลง\nเชลย\nเชลแล็ก\nเชลียง\nเชวง\nเชษฐะ\nเชษฐา\nเชอ\nเช่า\nเช้า\nเชาว์\nเชาวน์\nเชิง\nเชิญ\nเชิด\nเชิ้ต\nเชียง\nเชี่ยน\nเชียบ\nเชี่ยม\nเชียร\nเชียร์\nเชียว\nเชี่ยว\nเชื่อ\nเชื้อ\nเชือก\nเชื่อง\nเชือด\nเชือน\nเชื่อม\nแช\nแช่\nแช่ง\nแชงมา\nแชบ๊วย\nแช่ม\nแชร์\nแชล่ม\nแชสซี\nแชะ\nโชก\nโชค\nโชงโลง\nโชดก\nโชดึก\nโชต\nโชตก\nโชติ\nโชติก\nโชน\nโชมโรม\nโชย\nโชยงการ\nโชยชาย\nโชยติส\nโชว์\nใช่\nใช้\nไช\nไชนะ\nไชย\nไชโย\nซก\nซ่ก\nซงดำ\nซ่งฮื้อ\nซด\nซน\nซ้น\nซบ\nซม\nซวดเซ\nซวน\nซวย\nซอ\nซอก\nซอง\nซ่อง\nซ้อง\nซองแมว\nซ้องแมว\nซอน\nซ่อน\nซ้อน\nซอม\nซ่อม\nซ้อม\nซอมซ่อ\nซอย\nซอส\nซัก\nซักส้าว\nซัง\nซั้ง\nซัด\nซับ\nซัลฟา\nซั้ว\nซา\nซ่า\nซาก\nซาง\nซ่าง\nซาด\nซาน\nซ่าน\nซาบซ่าน\nซาบซึ้ง\nซ่าโบะ\nซาแมเรียม\nซ้าย\nซาลาเปา\nซาว\nซ่าหริ่ม\nซำ\nซ้ำ\nซิ\nซี\nซิก\nซิกข์\nซิกซี้\nซิกแซ็ก\nซิการ์\nซิงโคนา\nซิ่น\nซินนามิก\nซินแส\nซิบ\nซิป\nซิฟิลิส\nซิลิคอน\nซิว\nซี่\nซีก\nซีเซียม\nซีด\nซี้ด\nซีนอน\nซีป่าย\nซีเมนต์\nซีเรียม\nซีลีเนียม\nซีอิ๊ว\nซึก\nซึง\nซึ่ง\nซึ้ง\nซึม\nซื่อ\nซื้อ\nซุก\nซุง\nซุน\nซุบ\nซุป\nซุ่ม\nซุ้ม\nซุ่มซ่าม\nซุย\nซู่\nซูโครส\nซูด\nซู้ด\nซูดซาด\nซูบ\nเซ\nเซ็ก\nเซแคนต์\nเซ็ง\nเซ่ง\nเซ้ง\nเซ็งแซ่\nเซต\nเซน\nเซ็น\nเซ่น\nเซนติกรัม\nเซนติเกรด\nเซนติเมตร\nเซนติลิตร\nเซปักตะกร้อ\nเซราะ\nเซรุ่ม\nเซลเซียส\nเซลล์\nเซลลูลอยด์\nเซลลูโลส\nเซ่อ\nเซอร์โคเนียม\nเซอะ\nเซา\nเซ้าซี้\nเซาะ\nเซิง\nเซิ้ง\nเซียน\nเซียบ\nเซียมซี\nเซียว\nเซี่ยว\nเซี่ยวกาง\nเซื่อง\nแซ\nแซ่\nแซ็กคาริน\nแซง\nแซงแซว\nแซด\nแซบ\nแซม\nแซยิด\nแซ่ว\nแซะ\nโซ\nโซ่\nโซก\nโซ่ง\nโซงโขดง\nโซเซ\nโซดา\nโซเดียม\nโซม\nโซรม\nโซลา\nไซ\nไซ้\nไซเกิล\nไซโคลน\nไซน์\nไซยาไนด์\nไซร้\nไซเรน\nไซโล\nฌาน\nฌาปน\nฌาปนกิจ\nฌาปนสถาน\nเฌอ\nเฌอเอม\nญวน\nญัตติ\nญาณ\nญาติ\nญานาซะฮ์\nญิบ\nญี่ปุ่น\nเญยธรรม\nไญยธรรม\nฎีกา\nฐกัด\nฐากูร\nฐาน\nฐานะ\nฐานันดร\nฐานานุกรม\nฐานานุรูป\nฐานานุศักดิ์\nฐานียะ\nฐาปน\nฐาปนา\nฐายี\nฐิต\nฐิติ\nฑาหก\nฑาหะ\nเฒ่า\nณรงค์\nเณร\nดก\nดง\nด้ง\nด้น\nดนโด่\nดนตรี\nดนัย\nดนุ\nดนู\nดบัสวิน\nดบัสวี\nดม\nดรงค์\nดรณี\nดรรชนี\nดราฟต์\nดรุณ\nดรุณี\nดล\nดวง\nด้วง\nดวด\nด่วน\nด้วน\nด้วย\nดอก\nดอง\nด่อง\nด้อง\nดองฉาย\nดองดึง\nดอด\nดอน\nด่อน\nดอม\nด้อม\nดอย\nด้อย\nดอลลาร์\nดะ\nดะโต๊ะ\nดะหมัง\nดัก\nดักดาน\nดักแด้\nดัง\nดั่ง\nดั้ง\nดัชนี\nดัด\nดัตช์\nดัน\nดั้น\nดับ\nดัมพ์\nดั้วเดี้ย\nดัสกร\nดา\nด่า\nดาก\nด่าง\nด้าง\nดาด\nดาน\nด่าน\nด้าน\nดาบ\nดาบส\nดาม\nด้าม\nด้ามจิ้ว\nดามพ์\nดาย\nด้าย\nดารกะ\nดารณี\nดารดาษ\nดาระ\nดารา\nดาล\nดาลัด\nดาว\nด่าว\nด้าว\nดาวดึงส์\nดาวบส\nดาษ\nดาษดา\nดำ\nด่ำ\nด้ำ\nดำกล\nดำเกิง\nดำแคง\nดำดง\nดำนาณ\nดำเนิน\nดำบล\nดำรง\nดำรวจ\nดำรัส\nดำริ\nดำรี\nดำรู\nดำฤษณา\nดำเลิง\nดิก\nดิ่ง\nดิฉัน\nดิฐ\nดิตถ์\nดิถี\nดิน\nดิ้น\nดิบ\nดิรัจฉาน\nดิลก\nดิ่ว\nดิ้ว\nดิ้วเดี้ยว\nดิษฐ์\nดิสโพรเซียม\nดี\nดีเซล\nดีด\nดีดีที\nดีบุก\nดีปลี\nดีเปรสชัน\nดีหมี\nดีหลี\nดึก\nดึง\nดึ่ง\nดึ่ม\nดื่น\nดื่ม\nดือ\nดื้อ\nดุ\nดุก\nดุกดิก\nดุกทะเล\nดุ้ง\nดุ้งดิ้ง\nดุจ\nดุด\nดุน\nดุ้น\nดุบ\nดุม\nดุ่ม\nดุ่ย\nดุรงค์\nดุริยะ\nดุริยางค์\nดุริยางคศาสตร์\nดุริยางคศิลป์\nดุล\nดุษฎี\nดุษณี\nดุษณีภาพ\nดุษิต\nดุสิต\nดุเหว่า\nดู\nดูกค่าง\nดูกร\nดูด\nดูรา\nดูแล\nเด\nเด่\nเดก\nเด็ก\nเดกซ์โทรส\nเดคากรัม\nเดคาเมตร\nเดคาลิตร\nเด้ง\nเด็จ\nเดช\nเดชน์\nเดชนะ\nเดชะ\nเดโช\nเดซิกรัม\nเดซิเมตร\nเดซิลิตร\nเด็ด\nเดน\nเด่น\nเดนมาร์ก\nเดรัจฉาน\nเด๋อ\nเด๋อด๋า\nเดา\nเด้า\nเดาะ\nเดิน\nเดิ่น\nเดิม\nเดียง\nเดียด\nเดียรดาษ\nเดียรถีย์\nเดียรัจฉาน\nเดียว\nเดี่ยว\nเดี๋ยว\nเดียะ\nเดื่อ\nเดือก\nเดื่อง\nเดือด\nเดือน\nเดือย\nแด\nแด่\nแดก\nแด็ก\nแดกงา\nแดกแด้\nแดง\nแดด\nแดน\nแด่น\nแด่ว\nแดะ\nแดะแด๋\nโด\nโด่\nโดกเดก\nโด่ง\nโดด\nโดน\nโดม\nโดมร\nโดย\nโดรณ\nใด\nได\nได้\nไดแซ็กคาไรด์\nไดนาโม\nไดนาไมต์\nไดโนเสาร์\nไดเรกตริกซ์\nตก\nต๊กโต\nตง\nต๋ง\nตงฉิน\nตงิด\nตงุ่น\nตด\nตติย\nตถาคต\nตน\nต้น\nตนัย\nตนุ\nตบ\nตบะ\nตปนียะ\nตม\nต้ม\nตมูก\nตยาคี\nตรง\nตรณี\nตรม\nตรรก\nตรรกะ\nตรลบ\nตรลอด\nตรลาด\nตรวจ\nตรวน\nตรอก\nตรอง\nตรอมใจ\nตรอมตรม\nตระ\nตระกล\nตระกวน\nตระกอง\nตระการ\nตระกูล\nตระคัร\nตระเตรียม\nตระนาว\nตระบก\nตระบอก\nตระบอง\nตระบัด\nตระบัน\nตระเบ็ง\nตระแบก\nตระแบง\nตระโบม\nตระพอง\nตระพัง\nตระลาการ\nตระวัน\nตระเว็ด\nตระเวน\nตระสัก\nตระหง่าน\nตระหนก\nตระหนัก\nตระหน่ำ\nตระหนี่\nตรัง\nตรังค์\nตรับ\nตรับฟัง\nตรัย\nตรัยตรึงศ์\nตรัส\nตรัสสา\nตรา\nตรากตรำ\nตราชู\nตราบ\nตราสัง\nตรำ\nตริ\nตริว\nตรี\nตรีปวาย\nตรีพิธพรรณ\nตรียัมปวาย\nตรึก\nตรึง\nตรุ\nตรุณ\nตรุณะ\nตรุษ\nตรู\nตรู่\nตฤณ\nตฤตีย\nตฤษณา\nตลก\nตลบ\nตลอด\nตลับ\nตลาด\nตลิ่ง\nตลึง\nตวง\nต่วน\nต้วมเตี้ยม\nตวัก\nตวัด\nตวาด\nตอ\nตอม่อ\nต่อ\nต้อ\nตอก\nต๊อก\nต๊อกต๋อย\nตอง\nต้อง\nตองกราย\nต้องเต\nตองแตก\nต่องแต่ง\nตองเหลือง\nตอด\nตอน\nต้อน\nตอบ\nตอเบา\nตอม\nต่อม\nต๋อม\nต่อย\nต้อย\nต้อยตริ่ง\nต้อยติ่ง\nต้อยตีวิด\nตอแย\nตอร์ปิโด\nต่อไส้\nตอแหล\nตะ\nตะกรน\nตะกร้อ\nตะกรัน\nตะกรับ\nตะกร้า\nตะกราม\nตะกรุด\nตะกรุม\nตะกรุมตะกราม\nตะกละ\nตะกลาม\nตะกวด\nตะกอ\nตะกอน\nตะกัง\nตะกั่ว\nตะกาง\nตะกาด\nตะกาย\nตะกาว\nตะกุกตะกัก\nตะกุย\nตะกู\nตะกูด\nตะเกียกตะกาย\nตะเกียง\nตะเกียบ\nตะแก\nตะแก่\nตะแกรง\nตะโก\nตะโก้\nตะโกก\nตะโกน\nตะโกรง\nตะโกรม\nตะไกร\nตะขบ\nตะขอ\nตะขาบ\nตะขิดตะขวง\nตะเข้\nตะเข็บ\nตะโขง\nตะคร้อ\nตะครอง\nตะครั่นตะครอ\nตะคร้ำ\nตะคริว\nตะคิว\nตะครุบ\nตะคอก\nตะคัน\nตะค้า\nตะคาก\nตะค้าน\nตะคุ่ม\nตะเครียว\nตะเคียว\nตะเคียน\nตะแคง\nตะไคร่\nตะไคร้\nตะเฆ่\nตะนอย\nตะนาว\nตะบม\nตะบอง\nตะบอย\nตะบัน\nตะบิ้ง\nตะบิด\nตะบิดตะบอย\nตะบี้ตะบัน\nตะบึง\nตะบูน\nตะเบ็ง\nตะเบ็งมาน\nตะเบ๊ะ\nตะแบก\nตะแบง\nตะโบม\nตะไบ\nตะปบ\nตะปลิง\nตะปิ้ง\nตะปุ่มตะป่ำ\nตะปู\nตะพง\nตะพด\nตะพอง\nตะพัก\nตะพัง\nตะพัด\nตะพั้น\nตะพาก\nตะพาน\nตะพาบ\nตะพาย\nตะพึด\nตะพึดตะพือ\nตะพุ่น\nตะเพรา\nตะเพิง\nตะเพิด\nตะเพียน\nตะโพก\nตะโพง\nตะโพน\nตะเภา\nตะใภ้\nตะม่อ\nตะมอย\nตะรังกะนู\nตะรังตังกวาง\nตะรังตังช้าง\nตะราง\nตะลอง\nตะลอน\nตะล่อม\nตะละ\nตะลาน\nตะลิงปลิง\nตะลิบ\nตะลีตะลาน\nตะลึง\nตะลึงพรึงเพริด\nตะลุง\nตะลุ่ม\nตะลุ่มนก\nตะลุมบอน\nตะลุ่มโปง\nตะลุมพอ\nตะลุมพุก\nตะลุย\nตะเลง\nตะแลงแกง\nตะไล\nตะวัน\nตะเวน\nตะหลิว\nตะหลุก\nตะหลุง\nตะแหง่ว\nตะแหมะแขะ\nตะโหงก\nตัก\nตักกะ\nตักเตือน\nตั๊กแตน\nตักษัย\nตัง\nตั่ง\nตั้ง\nตังเก\nตังฉ่าย\nตังเม\nตังวาย\nตังโอ๋\nตัจฉก\nตัจฉนี\nตัณฑุล\nตัณหา\nตัด\nตัน\nตันตระ\nตันติ\nตันหยง\nตับ\nตับปิ้ง\nตัว\nตั๋ว\nตัวจี๊ด\nตัวตืด\nตั้วโผ\nตั้วเหี่ย\nตา\nตาก\nตากวาง\nต่าง\nตาด\nตาน\nต่าน\nต้าน\nตานนกกด\nตานี\nตาบ\nตาม\nตามะแน\nตามิน\nตาย\nตาราไต\nตาล\nตาลุ\nต๋าว\nตาเสือ\nตาหนู\nตาฬ\nตำ\nต่ำ\nตำนาน\nตำบล\nตำแบ\nตำแย\nตำรวจ\nตำรับ\nตำรา\nตำรุ\nตำลึง\nตำเสา\nตำหนัก\nตำหนิ\nตำแหน่ง\nติ\nติก\nติ๊ก\nติกะ\nติกาหรัง\nติง\nติ่ง\nติ๋ง\nติ่งตั่ง\nติ๋งต่าง\nติงส\nติงสติ\nติณ\nติด\nติตติกะ\nติตติร\nติตถ\nติตถะ\nติถี\nติมิงคละ\nติรัจฉาน\nติลก\nติละ\nติ้ว\nตี\nตี่\nตีน\nตีบ\nตีรถะ\nตีระ\nตึ\nตึก\nตึ้ก\nตึ้กตั้ก\nตึง\nตึดตื๋อ\nตึ๊ดตื๋อ\nตืด\nตื่น\nตื้น\nตื้อ\nตื๊อ\nตื๋อ\nตุ\nตุ๊\nตุ๊กแก\nตุ๊กตา\nตุ๊กต่ำ\nตุกติก\nตุ๊กติ๊ก\nตุ๊กตุ่น\nตุ๊กตุ๋ย\nตุง\nตุ้งก่า\nตุ้งติ้ง\nตุ๊ดตู่\nตุน\nตุ่น\nตุ๋น\nตุนาหงัน\nตุบ\nตุ้บ\nตุ๊บป่อง\nตุปัดตุป่อง\nตุปัดตุเป๋\nตุ่ม\nตุ้ม\nตุ๋ม\nตุ้มกว้าว\nตุมกา\nตุ้มแซะ\nตุมตัง\nตุ้มเต๋น\nตุ้มปี่\nตุมพะ\nตุ่ย\nตุ้ย\nตุ๊ย\nตุ๋ยตุ่ย\nตุรคะ\nตุรงค์\nตุล\nตุลา\nตุหรัดตุเหร่\nตู\nตู่\nตู้\nตูก\nตูด\nตูบ\nตูม\nเต๊ก\nเต็ง\nเต่ง\nเตช\nเตโช\nเต้น\nเต็นท์\nเต็ม\nเตย\nเตร่\nเตร็ด\nเตรตา\nเตรียม\nเตรียมตรม\nเตละ\nเตลิด\nเตว็ด\nเต่อ\nเตอะ\nเตะ\nเตา\nเต่า\nเต้า\nเต๋า\nเต่าเกียด\nเต้าเจี้ยว\nเต้าทึง\nเต้าหู้\nเต้าฮวย\nเต๊าะ\nเตาะแตะ\nเติ่ง\nเติบ\nเติม\nเตี้ย\nเตียง\nเตียน\nเตียบ\nเตี๋ยม\nเตียรถ์\nเตียว\nเตี่ยว\nเตือน\nแต่\nแต้\nแตก\nแตง\nแต่ง\nแตงเม\nแต้จิ๋ว\nแตด\nแต๊ดแต๋\nแตน\nแต้ม\nแตร\nแตระ\nแต้ว\nแต้วแร้ว\nแต้วแล้ว\nแต่ว่า\nแต้แว้ด\nแตะ\nโต\nโต้\nโตก\nโต่ง\nโต้ง\nโตงเตง\nโตฎก\nโต๊ด\nโตน\nโตนด\nโต้โผ\nโตมร\nโตย\nโตรก\nโต๊ะ\nใต้\nไต\nไต่\nไต้\nไต๋\nไตร\nไตรกิศยา\nไตรดายุค\nไตร่ตรอง\nไตรย\nไต้หวัน\nถก\nถกล\nถงาด\nถด\nถนน\nถนอม\nถนัด\nถนัน\nถนำ\nถนิม\nถม\nถ่ม\nถมอ\nถมึงทึง\nถลก\nถลกบาตร\nถลน\nถล่ม\nถลอก\nถลัน\nถลา\nถลาก\nถลาย\nถลำ\nถลึงตา\nถลุง\nถ่วง\nถ้วน\nถ้วย\nถวัล\nถวัลย์\nถวาย\nถวิน\nถวิล\nถ่อ\nถ้อ\nถอก\nถอง\nถ่อง\nถ้อง\nถอด\nถอน\nถอบ\nถอบแถบ\nถ่อม\nถอย\nถ่อย\nถ้อย\nถะ\nถะถั่น\nถะมัดถะแมง\nถัก\nถัง\nถั่ง\nถัด\nถัทธ\nถัน\nถั่น\nถับ\nถัมภ์\nถัว\nถั่ว\nถา\nถ้า\nถาก\nถาง\nถ่าง\nถาด\nถาน\nถ่าน\nถาบ\nถาม\nถามะ\nถ่าย\nถ่าว\nถาวร\nถาวรธิรา\nถ้ำ\nถิ่น\nถี่\nถีบ\nถึก\nถึง\nถือ\nถุง\nถุน\nถุย\nถู\nถูก\nเถกิง\nเถน\nเถร\nเถระ\nเถรานุเถระ\nเถรี\nเถลไถล\nเถลิง\nเถลือกถลน\nเถ่อ\nเถอะ\nเถา\nเถ้า\nเถาวัลย์\nเถาะ\nเถิก\nเถิง\nเถิด\nเถิดเทิง\nเถิน\nเถียง\nเถียร\nเถือ\nเถือก\nเถื่อน\nแถ\nแถก\nแถง\nแถน\nแถบ\nแถม\nแถลง\nแถลบ\nแถว\nโถ\nโถง\nโถงเถง\nโถบ\nโถม\nโถมนาการ\nไถ\nไถ่\nไถ้\nไถง\nไถล\nทกล้า\nทแกล้ว\nท่ง\nทด\nทน\nท้น\nทนต์\nทนโท่\nทนาย\nทบ\nทบวง\nทมอ\nทมะ\nทมิฬ\nทโมน\nทยอย\nทแยง\nทรกรรม\nทรชน\nทรชาติ\nทรพิษ\nทรยศ\nทรราช\nทรลักษณ์\nทรง\nทรพี\nทรมาทรกรรม\nทรมาน\nทรรทึง\nทรรป\nทรรปณ์\nทรรปณะ\nทรรศนะ\nทรรศนาการ\nทรรศนีย์\nทรวง\nทรวดทรง\nทรวาร\nทรหด\nทรหวล\nทรหึง\nทรอมโบน\nทระนง\nทรัพย์\nทรัพยากร\nทรัมเป็ต\nทรานซิสเตอร์\nทราบ\nทราม\nทราย\nทรุด\nทฤษฎี\nทลาย\nทลิท\nทลิททก\nทวง\nท้วง\nท่วงท่า\nท่วงทำนอง\nท่วงที\nทวด\nทวน\nท้วน\nท่วม\nท้วม\nทวย\nท่วย\nท้วย\nทวอย\nทวัตดึงส์\nทวัย\nทวา\nทวาบร\nทว่า\nทวาย\nทวาร\nทวิ\nทวิช\nทวิตีย์\nทวิตียา\nทวี\nทวีธาภิเษก\nทวีป\nทศ\nทศมี\nทศางค์\nทหระ\nทหาร\nทอ\nท่อ\nท้อ\nทอก\nทอง\nท่อง\nท้อง\nทองกวาว\nทองภู\nทองลิน\nทองหลาง\nทองโหลง\nทองอุไร\nทอด\nทอน\nท่อน\nทอนซิล\nทอฟฟี่\nท่อม\nทอย\nทอเรียม\nทะ\nทะงัน\nทะนง\nทะนน\nทะนาน\nทะนุ\nทะเบียน\nทะมัดทะแมง\nทะมึน\nทะมื่น\nทะแม่ง\nทะยาน\nทะเยอทะยาน\nทะแย\nทะร่อทะแร่\nทะลวง\nทะลอก\nทะลัก\nทะลาย\nทะลึ่ง\nทะลุ\nทะลุดทะลาด\nทะเล\nทะเล้น\nทะเล่อทะล่า\nทะเลาะ\nทะเลิ่กทะลั่ก\nทะวาย\nทัก\nทักข์\nทักขิญ\nทักขิณ\nทักขิณา\nทักขิณาวัฏ\nทักขิโณทก\nทักขิไณยบุคคล\nทักทิน\nทักษะ\nทักษา\nทักษิณ\nทักษิณา\nทักษิโณทก\nทัง\nทั่ง\nทั้ง\nทังวล\nทังวี้ทังวล\nทังสเตน\nทัณฑ์\nทัณฑกรรม\nทัณฑฆาต\nทัณฑสถาน\nทัณฑะ\nทัณฑิกา\nทัณฑิมา\nทัณฑีบท\nทัด\nทัดทา\nทัต\nทัน\nทันต์\nทันตชะ\nทันตแพทย์\nทันติน\nทันตี\nทันธ์\nทับ\nทับทิม\nทับสมิงคลา\nทัพ\nทัพพะ\nทัพพี\nทั่ว\nทัศ\nทัศน์\nทัศนะ\nทัศนา\nทัศนคติ\nทัศนวิสัย\nทัศนศาสตร์\nทัศนศิลป์\nทัศนศึกษา\nทัศนาการ\nทัศนาจร\nทัศนีย์\nทัศนียภาพ\nทัศนูปกรณ์\nทัศไนย\nทัสนานุตริยะ\nทัฬหะ\nทัฬหิ\nทัฬหี\nทา\nท่า\nท้า\nทาก\nทาง\nท้าง\nทาฐะ\nทาฐิกะ\nทาฒะ\nทาฒิกะ\nทาน\nท่าน\nทานต์\nทานพ\nทาบ\nทาม\nท่ามกลาง\nทาย\nท้าย\nทายก\nทายัช\nทายาด\nทายาท\nทายิกา\nทารก\nทารพี\nทาริกา\nทารุณ\nทาว\nท่าว\nท้าว\nทาส\nทาสี\nทำ\nทำนบ\nทำนอง\nทำนาย\nทำนุ\nทำนูล\nทำเนา\nทำเนียบ\nทำไม\nทำลาย\nทำเล\nทิคัมพร\nทิฆัมพร\nทิ้ง\nทิงเจอร์\nทิ้งถ่อน\nทิ้งทูด\nทิชะ\nทิชากร\nทิชาชาติ\nทิฏฐะ\nทิฏฐานุคติ\nทิฏฐุชุกรรม\nทิฐธรรม\nทิฐิ\nทิด\nทิต\nทิน\nทิพ\nทิพย์\nทิพา\nทิม\nทิ่ม\nทิมทอง\nทิว\nทิวงคต\nทิวทัศน์\nทิวา\nทิศ\nทิศา\nทิศานุทิศ\nที\nที่\nทีฆชาติ\nทีฆนิกาย\nทีฆสระ\nทีฆายุ\nทีป\nทีม\nทีเอ็นที\nทึก\nทึกทัก\nทึ่ง\nทึ้ง\nทึดทือ\nทึนทึก\nทึบ\nทึม\nทึ่ม\nทื่อ\nทุ\nทุก\nทุกข์\nทุกขลาภ\nทุกขเวทนา\nทุกขารมณ์\nทุกฏ\nทุกรกิริยา\nทุกะ\nทุกัง\nทุกูล\nทุคตะ\nทุคติ\nทุ่ง\nทุ้ง\nทุงงะ\nทุจริต\nทุด\nทุทรรศนนิยม\nทุนิยม\nทุน\nทุ่น\nทุนนิมิต\nทุบ\nทุบทู\nทุปปัญญา\nทุพพรรณ\nทุพพล\nทุพพลภาพ\nทุพภิกขภัย\nทุม\nทุ่ม\nทุ้ม\nทุย\nทุ้ย\nทุรกันดาร\nทุรชน\nทุรชาติ\nทุรพล\nทุรลักษณ์\nทุรน\nทุรนทุราย\nทุรัศ\nทุราคม\nทุราจาร\nทุเรศ\nทุเรียน\nทุลักทุเล\nทุเลา\nทุศีล\nทุสสะ\nทุสสีล\nทู\nทูโม่ง\nทู่\nทู้\nทูกัง\nทู่ซี้\nทูต\nทูตานุทูต\nทูน\nทูบ\nทูม\nทูล\nทูเลียม\nเท\nเท่\nเทคนิค\nเทคนีเชียม\nเทคโนโลยี\nเท้ง\nเท้งเต้ง\nเท็จ\nเทนนิส\nเทพ\nเทพา\nเทพารักษ์\nเทพยเจ้า\nเทพยดา\nเทพยุดา\nเทพิน\nเทพินทร์\nเทพี\nเทเพนทร์\nเทโพ\nเทริด\nเทลลูเรียม\nเทวทัณฑ์\nเทวดา\nเทวทูต\nเทวธรรม\nเทวนาครี\nเทวนิยม\nเทวรูป\nเทวโลก\nเทววิทยา\nเทวสถาน\nเทวศ\nเทวษ\nเทวัญ\nเทวัน\nเทวาลัย\nเทวินทร์\nเทวี\nเทเวศ\nเทเวศร์\nเทเวศวร์\nเทศ\nเทศะ\nเทศาภิบาล\nเทศน์\nเทศนา\nเทห์\nเท่ห์\nเทห์ฟากฟ้า\nเทหวัตถุ\nเท่อ\nเท้อ\nเทอญ\nเทอม\nเทอร์เบียม\nเทอร์โมมิเตอร์\nเทอะทะ\nเทา\nเท่า\nเท้า\nเท้ายายม่อม\nเท่ารึง\nเทิ่ง\nเทิด\nเทิน\nเทิบ\nเทิบทาบ\nเทิ้ม\nเที่ยง\nเทียด\nเทียน\nเที้ยน\nเทียบ\nเทียม\nเทียร\nเที้ยร\nเทียว\nเที่ยว\nเทือ\nเทื่อ\nเทื้อ\nเทือก\nแท้\nแท็กซี่\nแทง\nแท่ง\nแท้ง\nแท็งก์\nแทงทวย\nแทงวิสัย\nแทตย์\nแทน\nแท่น\nแทนเจนต์\nแทนทาลัม\nแทบ\nแทรก\nแทรกเตอร์\nแทลเลียม\nแทะ\nโท\nโท่\nโทกเทก\nโทง\nโทงเทง\nโทณะ\nโทน\nโทนโท่\nโทมนัส\nโทรคมนาคม\nโทรทรรศน์\nโทรทัศน์\nโทรพิมพ์\nโทรภาพ\nโทรเลข\nโทรศัพท์\nโทรสาร\nโทรม\nโทษ\nโทษา\nโทษานุโทษ\nโทสะ\nโทสาคติ\nโทโส\nโทหฬินี\nไท\nไท้\nไทเทเนียม\nไทเทรต\nไทย\nไทร\nไทวะ\nธง\nธงก์\nธชะ\nธชี\nธตรฐ\nธนบัตร\nธนสมบัติ\nธนสาร\nธนะ\nธนา\nธนาคม\nธนาคาร\nธนาณัติ\nธเนศ\nธโนปจัย\nธไนศวรรย์\nธนิต\nธนิษฐะ\nธนิษฐา\nธนุ\nธนุรวิทยา\nธนุรเวท\nธนู\nธม\nธมกรก\nธรณะ\nธรณิน\nธรณินทร์\nธรณิศ\nธรณิศร\nธรณิศวร์\nธรณี\nธรมาน\nธรรม\nธรรมนูญ\nธรรมยุต\nธรรมยุติกนิกาย\nธรรมะ\nธรรมาทิตย์\nธรรมาธรรม\nธรรมาธิปไตย\nธรรมาธิษฐาน\nธรรมานุสาร\nธรรมาภิมุข\nธรรมาภิสมัย\nธรรมายตนะ\nธรรมารมณ์\nธรรมาสน์\nธรรมิก\nธรา\nธราดล\nธราธร\nธราธาร\nธราธิบดี\nธราธิป\nธริษตรี\nธเรษตรี\nธเรศ\nธวัช\nธัช\nธัญ\nธัญญาหาร\nธันยา\nธันยาวาท\nธันวาคม\nธัมมะ\nธาดา\nธาตรี\nธาตวากร\nธาตุ\nธาตุโขภ\nธาตุมมิสสา\nธานิน\nธานินทร์\nธานี\nธาร\nธารกำนัล\nธารคำนัล\nธารณะ\nธารณา\nธารา\nธาษตรี\nธำมรงค์\nธำรง\nธิดา\nธิติ\nธีระ\nธุช\nธุดงค์\nธุดงควัตร\nธุต\nธุตตะ\nธุมเกตุ\nธุมา\nธุรการ\nธุรกิจ\nธุระ\nธุรำ\nธุลี\nธุวดารา\nธุวภาค\nธุวมณฑล\nธูป\nเธนุ\nเธอ\nเธียร\nโธ่\nโธวนะ\nนก\nนกุล\nนขลิขิต\nนขะ\nนขา\nนเคนทร์\nนโคทร\nนคร\nนครินทร์\nนคเรศ\nนง\nนงคุฐ\nนที\nนนตรา\nนนท์\nนันทน์\nนนทรี\nนนทลี\nนนทิ\nนบ\nนปุงสกลิงค์\nนปุงสกลึงค์\nนพ\nนพนิต\nนภจร\nนภดล\nนภศูล\nนภา\nนภาลัย\nนม\nนมตำเรีย\nนมตำเลีย\nนมะ\nนมัสการ\nนมาซ\nนยนะ\nนยนา\nนโยบาย\nนรชาติ\nนรเทพ\nนรนาถ\nนรบดี\nนรบาล\nนรสิงห์\nนรสีห์\nนรา\nนรากร\nนราธิป\nนรินทร์\nนริศ\nนริศร\nนริศวร\nนเรศ\nนเรศวร\nนเรศวร์\nนโรดม\nนรก\nนรกานต์\nนรการ\nนรี\nนฤเทพ\nนฤบดี\nนฤบาล\nนฤเบศ\nนฤปเวศม์\nนฤปัตนี\nนฤคหิต\nนฤนาท\nนฤมล\nนฤตย์\nนฤตยสถาน\nนฤพาน\nนฤมาณ\nนฤมิต\nนลาฏ\nนลิน\nนลินี\nนวกรรม\nนวการ\nนวกิจ\nนวนิยาย\nนวปฎล\nนวรัตน์\nนวโลหะ\nนวกะ\nนวโกวาท\nนวด\nนวม\nน่วม\nนวมี\nนวย\nนวล\nนวัตกรรม\nนวาระ\nนหารุ\nนหุต\nนฬการ\nนอ\nนอก\nนอง\nน่อง\nน้อง\nน่องแน่ง\nนอต\nนอน\nนอบ\nน้อม\nน้อย\nน้อยหน่า\nน้อยโหน่ง\nนะ\nนะแน่ง\nนัก\nนักขัต\nนักขัตฤกษ์\nนักษัตร\nนักสราช\nนัข\nนั่ง\nนังคัล\nนัจ\nนัฑ\nนัด\nนัดดา\nนัตถุ์\nนั่น\nนั้น\nนันททายี\nนันทนาการ\nนันทวัน\nนันทิ\nนับ\nนัย\nนัยน์\nนัยนา\nนัว\nนัวเนีย\nนา\nน่า\nน้า\nนาก\nนากบุด\nนากาสาหรี\nนาค\nนาคร\nนาคา\nนาคาวโลก\nนาคินทร์\nนาคี\nนาเคนทร์\nนาเคศวร\nนาง\nนางเกล็ด\nนางนวล\nนางนูน\nนางรม\nนางรำ\nนางล้อม\nนางเล็ด\nนางเลิ้ง\nนางหงส์\nนางอาย\nนางแอ่น\nนาฏ\nนาฏกะ\nนาด\nนาถ\nนาท\nนาที\nนาน\nน่าน\nนานัครส\nนานัปการ\nนานา\nนาเนก\nนาบ\nนาภี\nนาม\nนามานุกรม\nนามาภิไธย\nนาย\nน่าย\nนายก\nนายิกา\nนารา\nนารายณ์\nนารี\nนาเรศ\nนาลิวัน\nนาว\nน้าว\nนาวา\nนาวิก\nนาวิน\nนาวี\nนาเวศ\nนาศ\nนาสา\nนาสิก\nนาฬิกา\nนาฬิเก\nนาฬี\nนำ\nน้ำ\nน้ำละว้า\nน้ำว้า\nนิ\nนิกเกิล\nนิกขะ\nนิกร\nนิกรอยด์\nนิกาย\nนิคม\nนิครนถ์\nนิคหกรรม\nนิคหะ\nนิคหิต\nนิคาลัย\nนิเคราะห์\nนิโคติน\nนิโครธ\nนิโครม\nนิ่ง\nนิจ\nนิด\nนิตย์\nนิตยทาน\nนิตยภัต\nนิตยสาร\nนิติ\nนิทร\nนิทรรศการ\nนิทรา\nนิทรารมณ์\nนิทัศน์\nนิทาน\nนิเทศ\nนิธาน\nนิธิ\nนินทา\nนินนาท\nนินาท\nนิบาต\nนิปริยาย\nนิปัจการ\nนิพจน์\nนิพนธ์\nนิพพาน\nนิพพิทา\nนิพัทธ์\nนิพันธ์\nนิพิท\nนิเพท\nนิภา\nนิ่ม\nนิ้ม\nนิมนต์\nนิมมาน\nนิมมานรดี\nนิมิต\nนิยต\nนิยม\nนิยัตินิยม\nนิยาม\nนิยาย\nนิยุต\nนิรคุณ\nนิรชร\nนิรชรา\nนิรทุกข์\nนิรเทศ\nนิรโทษ\nนิรโทษกรรม\nนิรนัย\nนิรนาม\nนิรภัย\nนิรมล\nนิรมาน\nนิรัตศัย\nนิรันดร\nนิราพาธ\nนิรามัย\nนิรามิษ\nนิราศรัย\nนิรินธน์\nนิรมาณ\nนิรมิต\nนิรยบาล\nนิรัพพุท\nนิรา\nนิราศ\nนิรุกติ\nนิรุตติ\nนิรุทธ์\nนิโรธ\nนิล\nนิลุบล\nนิโลบล\nนิ่ว\nนิ้ว\nนิวคลิอิก\nนิวเคลียร์\nนิวเคลียส\nนิวตรอน\nนิวรณ์\nนิวัต\nนิวัตน์\nนิวาต\nนิวาส\nนิเวศ\nนิเวศน์\nนิศา\nนิษาท\nนิสัช\nนิสัชชาการ\nนิสัย\nนิสาท\nนิสิต\nนิสีทนสันถัต\nนิสีทนะ\nนิสีทนาการ\nนิเสธ\nนี่\nนี้\nนี่นัน\nนีรนาท\nนีออน\nนีโอดิเมียม\nนึก\nนึง\nนึ่ง\nนุง\nนุ่ง\nนุงนัง\nนุช\nนุต\nนุ่น\nนุ่ม\nนุ้ย\nนูน\nนู่น\nนู้น\nเนกขัม\nเนตบอล\nเนตร\nเนติ\nเน้น\nเนบิวลา\nเนปจูน\nเนปทูเนียม\nเนมิ\nเนย\nเนรกัณฐี\nเนรคุณ\nเนรเทศ\nเนรนาด\nเนรมิต\nเนระพูสี\nเนอ\nเน้อ\nเนา\nเน่า\nเนาวนิต\nเนาวรัตน์\nเนิน\nเนิ่น\nเนิบ\nเนียง\nเนียน\nเนียม\nเนียร\nเนียรทุกข์\nเนียรเทศ\nเนียรนาท\nเนื้อ\nเนือง\nเนื่อง\nเนือย\nแน่\nแน่ง\nแน่น\nแนบ\nแน่บ\nแนม\nแนว\nแน่ว\nแนะ\nแน่ะ\nแนะแหน\nโน\nโน้ต\nโนน\nโน่น\nโน้น\nโนเบเลียม\nโน้ม\nโนมพรรณ\nโนรา\nโนรี\nใน\nไน\nไนต์คลับ\nไนโตรเจน\nไนลอน\nไนโอเบียม\nบ่\nบก\nบง\nบ่ง\nบงก์\nบ๊งเบ๊ง\nบงสุ์\nบด\nบดินทร์\nบดี\nบถ\nบท\nบน\nบ่น\nบพิตร\nบพิธ\nบ่ม\nบรม\nบรมัตถ์\nบรรจง\nบรรจถรณ์\nบรรจบ\nบรรจวบ\nบรรจุ\nบรรเจิด\nบรรณ\nบรรดา\nบรรตานึก\nบรรถร\nบรรทม\nบรรทัด\nบรรทาน\nบรรทุก\nบรรเทา\nบรรเทือง\nบรรพ\nบรรพ์\nบรรพชา\nบรรพชิต\nบรรพต\nบรรยง\nบรรยงก์\nบรรยเวกษก์\nบรรยากาศ\nบรรยาย\nบรรลัย\nบรรลาย\nบรรลุ\nบรรเลง\nบรรโลม\nบรรษัท\nบรรสบ\nบรรสพ\nบรรสม\nบรรสาน\nบรรสาร\nบรรหาน\nบรรหาร\nบรอนซ์\nบรั่นดี\nบรัศว์\nบราลี\nบริกรรม\nบริการ\nบริขาร\nบริขารโจล\nบริคณห์\nบริจาค\nบริจาริกา\nบริเฉท\nบริชน\nบริดจ์\nบริบท\nบริบาล\nบริบูรณ์\nบริพนธ์\nบริพัตร\nบริพันธ์\nบริพาชก\nบริพาร\nบริภัณฑ์\nบริภาษ\nบริโภค\nบริมาส\nบริยาย\nบริรม\nบริรักษ์\nบริราช\nบริวรรต\nบริวาร\nบริวาส\nบริเวณ\nบริษัท\nบริสชน\nบริสุทธิ์\nบริหาร\nบล็อก\nบวก\nบวง\nบ่วง\nบวช\nบวน\nบ้วน\nบวบ\nบวม\nบ๊วย\nบวร\nบหลิ่ม\nบอ\nบ่อ\nบ้อ\nบอก\nบอง\nบ่อง\nบ้อง\nบ๊อง\nบ้องแบ๊ว\nบองหลา\nบอด\nบอน\nบ่อน\nบอบ\nบ้อม\nบ๋อม\nบ่อย\nบอระเพ็ด\nบอล\nบอลลูน\nบ้อหุ้น\nบ๊ะ\nบ๊ะจ่าง\nบะหมี่\nบัก\nบักโกรก\nบัคเตรี\nบัง\nบั้ง\nบังกะโล\nบังเกิด\nบังคน\nบังคม\nบังคล\nบังควร\nบังคับ\nบังคัล\nบังแทรก\nบังวาย\nบังเวียน\nบังสุกุล\nบังสุกูลิก\nบังสูรย์\nบังหวน\nบังเหตุ\nบังเหียน\nบังอร\nบังอวจ\nบังอาจ\nบังเอิญ\nบัญจก\nบัญชร\nบัญชา\nบัญชี\nบัญญัติ\nบัญหา\nบัฏ\nบัณฑร\nบัณฑิต\nบัณฑิตย์\nบัณฑุ\nบัณฑูร\nบัณเฑาะก์\nบัณเฑาะว์\nบัณณาส\nบัณรส\nบัณรสี\nบัด\nบัดกรี\nบัดซบ\nบัดสี\nบัตร\nบัทม์\nบัน\nบั่น\nบั้น\nบันจวบ\nบันดล\nบันดาล\nบันได\nบันทึก\nบันทึง\nบันเทิง\nบันยะบันยัง\nบันลือ\nบัปผาสะ\nบัพ\nบัพชา\nบัพพาชนียกรรม\nบัล\nบัลลพ\nบัลลังก์\nบัลลูน\nบัลเลต์\nบัว\nบา\nบ่า\nบ้า\nบาก\nบาง\nบ่าง\nบ้าง\nบาจรีย์\nบาซิลลัส\nบาด\nบาดทะจิต\nบาดทะพิษ\nบาดทะยัก\nบาดาล\nบาตร\nบาท\nบาทสกุณี\nบาทหลวง\nบาทาธึก\nบาทุกา\nบาน\nบ้าน\nบานชื่น\nบานเช้า\nบานบุรี\nบานไม่รู้โรย\nบานเย็น\nบ้าบ๋า\nบาป\nบาย\nบ่าย\nบ้าย\nบาร์\nบารนี\nบารมี\nบาร์เรล\nบาร์เลย์\nบารอมิเตอร์\nบ้าระบุ่น\nบาเรียน\nบาเรียม\nบาล\nบาลี\nบ่าว\nบ่าวขุน\nบาศ\nบาศก์\nบาสเกตบอล\nบาหลี\nบ๋ำ\nบำเทิง\nบำนาญ\nบำบวง\nบำบัด\nบำเพ็ญ\nบำราบ\nบำราศ\nบำรุง\nบำรู\nบำเรอ\nบำหยัด\nบำเหน็จ\nบิ\nบิฐ\nบิณฑบาต\nบิด\nบิดร\nบิดหล่า\nบิดา\nบิตุ\nบิตุจฉา\nบิตุรงค์\nบิตุเรศ\nบิตุลา\nบิน\nบิ่น\nบินยา\nบิลเลียด\nบิวเรตต์\nบิสมัท\nบี้\nบีฑา\nบีตา\nบีบ\nบีเยศ\nบึก\nบึกบึน\nบึง\nบึ่ง\nบึ้ง\nบุ\nบุก\nบุคคล\nบุคลากร\nบุคลาธิษฐาน\nบุคลิก\nบุง\nบุ่ง\nบุ้ง\nบุ้งกี๋\nบุญ\nบุญญาธิการ\nบุญญานุภาพ\nบุญญาภินิหาร\nบุญญาภิสังขาร\nบุณฑริก\nบุณมี\nบุณย์\nบุตร\nบุตรี\nบุถุชน\nบุทคล\nบุนนาค\nบุบ\nบุบบิบ\nบุปผชาติ\nบุพกรรม\nบุพการี\nบุพกิจ\nบุพชาติ\nบุพทักษิณ\nบุพนิมิต\nบุพบท\nบุพพาจารย์\nบุพเพสันนิวาส\nบุพโพ\nบุ๋ม\nบุ่มบ่าม\nบุ้ย\nบุรณะ\nบุรพทิศ\nบุรพบท\nบุรพาจารย์\nบูรพาจารย์\nบุระ\nบุราณ\nบุรินทร์\nบุริมทิศ\nบุริมพรรษา\nบุริมสิทธิ\nบุรี\nบุรุษ\nบุโรทั่ง\nบุษกร\nบุษบก\nบุษบง\nบุษบัน\nบุษบา\nบุษบามินตรา\nบุษปราค\nบุษปะ\nบุษย์\nบุษย์น้ำทอง\nบุษยมาส\nบุษยะ\nบุษราคัม\nบุหงัน\nบุหงา\nบุหรง\nบุหรี่\nบุหลัน\nบู่\nบู้\nบูชนียสถาน\nบูชา\nบูชิต\nบูด\nบูดู\nบูร\nบูรณ์\nบูรณภาพ\nบูรณมี\nบูรณะ\nบูรณาการ\nบูรพ์\nบูรพะ\nบูรพา\nเบ้\nเบ่ง\nเบ๊จี๋\nเบญกานี\nเบญจกัลยาณี\nเบญจกามคุณ\nเบญจขันธ์\nเบญจดุริยางค์\nเบญจธรรม\nเบญจบรรพต\nเบญจพรรณ\nเบญจเพส\nเบญจมาศ\nเบญจรงค์\nเบญจศก\nเบญจศีล\nเบญจะ\nเบญจา\nเบญจางค์\nเบญจางคประดิษฐ์\nเบญญา\nเบญพาด\nเบ็ด\nเบ็ดเตล็ด\nเบ็ดเสร็จ\nเบน\nเบนซิน\nเบรก\nเบริลเลียม\nเบส\nเบ้อ\nเบอร์\nเบอร์คีเลียม\nเบ้อเร่อ\nเบ้อเร่อเท่อ\nเบ้อเริ่ม\nเบ้อเริ่มเทิ่ม\nเบอะ\nเบอะบะ\nเบะ\nเบา\nเบ้า\nเบาราณ\nเบาะ\nเบิก\nเบิ่ง\nเบี้ย\nเบี่ยง\nเบียด\nเบียน\nเบียร์\nเบี้ยว\nเบือ\nเบื่อ\nเบื้อ\nเบื้อง\nเบือน\nแบ\nแบ้\nแบก\nแบคทีเรีย\nแบ่ง\nแบงก์\nแบดมินตัน\nแบตเตอรี่\nแบน\nแบนโจ\nแบบ\nแบ็บ\nแบเรียม\nแบหลา\nแบะ\nโบ\nโบ้\nโบ๋\nโบก\nโบกขรณี\nโบกขรพรรษ\nโบชุก\nโบต\nโบนัส\nโบ๊เบ๊\nโบย\nโบรมีน\nโบรอน\nโบราณ\nโบสถ์\nใบ\nใบ้\nไบ่\nปก\nปกติ\nปกรณ์\nปกรณัม\nปกิณกะ\nปกีรณัม\nปโกฏิ\nปง\nป่ง\nปงช้าง\nปฎล\nปฏัก\nปฏิกรณ์\nปฏิกรรม\nปฏิการะ\nปฏิกิริยา\nปฏิกูล\nปฏิคม\nปฏิคหิต\nปฏิคาหก\nปฏิฆะ\nปฏิชีวนะ\nปฏิญญา\nปฏิญาณ\nปฏิทิน\nปฏิบถ\nปฏิบัติ\nปฏิปทา\nปฏิปักษ์\nปฏิปัน\nปฏิปุจฉาพยากรณ์\nปฏิปุจฉาวาที\nปฏิพัทธ์\nปฏิพากย์\nปฏิภาค\nปฏิภาณ\nปฏิมา\nปฏิมากร\nปฏิยุทธ์\nปฏิรพ\nปฏิรูป\nปฏิโลม\nปฏิวัติ\nปฏิวาต\nปฏิวาท\nปฏิเวธ\nปฏิสนธิ\nปฏิสวะ\nปฏิสังขรณ์\nปฏิสันถาร\nปฏิสัมภิทา\nปฏิเสธ\nปฐพี\nปฐม\nปฐวี\nปณต\nปณาม\nปณิธาน\nปณิธิ\nปณีต\nปด\nปดิวรัดา\nปติ\nปถพี\nปถมัง\nปถวี\nปทัฏฐาน\nปทัสถาน\nปทานุกรม\nปทีป\nปทุม\nปน\nป่น\nปนัดดา\nปปัญจะ\nปม\nปรนัย\nปรปักษ์\nปรโลก\nปรวาที\nปรก\nปรกติ\nปรง\nปรตยักษ์\nปรน\nปรนนิบัติ\nปรนิมมิตวสวัตดี\nปรบ\nปรปักษ์\nปรมัตถ์\nปรมาจารย์\nปรมาณู\nปรมาภิไธย\nปรมาภิเษก\nปรมินทร์\nบรเมนทร์\nปรเมศวร์\nปรเมษฐ์\nปรวด\nปรวนแปร\nปรศุ\nปรสิต\nปร๋อ\nปรองดอง\nปรอด\nปรอท\nปรอย\nประ\nประกบ\nประกฤต\nประกฤติ\nประกล\nประกวด\nประกวดประขัน\nประกอบ\nประกัน\nประกับ\nประกาย\nประกายพรึก\nประการ\nประกาศ\nประกาศนียบัตร\nประกาศิต\nประกำ\nประกิด\nประกิต\nประคด\nประคนธรรพ\nประคนธรรพ์\nประคบ\nประคบประหงม\nประคอง\nประคับประคอง\nประคัลภ์\nประคำ\nประคิ่น\nประคุณ\nประเคน\nประเคราะห์\nประโคน\nประโคนธรรพ\nประโคนธรรพ์\nประโคม\nประจง\nประจญ\nประจบ\nประจบประแจง\nประจวบ\nประจ๋อประแจ๋\nประจักษ์\nประจักษนิยม\nประจัญ\nประจัน\nประจาก\nประจาค\nประจาน\nประจำ\nประจิม\nประจิ้มประเจ๋อ\nประจุ\nประจุคมน์\nประจุบัน\nประเจก\nประเจิด\nประเจิดประเจ้อ\nประเจียด\nประแจ\nประชด\nประชน\nประชวม\nประชวร\nประชัน\nประชา\nประชาธิปไตย\nประชิด\nประชี\nประชุม\nประเชิญ\nประณต\nประณม\nประณาม\nประณิธาน\nประณิธิ\nประณีต\nประณุท\nประดง\nประดน\nประดวน\nประดอน\nประดอย\nประดัก\nประดักประเดิด\nประดัง\nประดับ\nประดา\nประดาก\nประดาป\nประดาษ\nประดิชญา\nประดิดประดอย\nประดิทิน\nประดิษฐ์\nประดิษฐกรรม\nประดิษฐาน\nประดุง\nประดุจ\nประดู่\nประเด\nประเด็น\nประเดิม\nประเดียง\nประเดี๋ยว\nประเดี๋ยวประด๋าว\nประแดง\nประแดะ\nประโดง\nประโดย\nประตง\nประตัก\nประตาป\nประติชญา\nประติญาณ\nประติทิน\nประติมากร\nประติมากรรม\nประติรพ\nประตู\nประถม\nประถมจินดา\nประทม\nประท้วง\nประทวน\nประทักษ์\nประทักษิณ\nประทัง\nประทัด\nประทับ\nประทาน\nประทาย\nประทาศี\nประทิน\nประทิ่น\nประทีป\nประทุฐ\nประทุน\nประทุษ\nประทุษฐ์\nประเทศ\nประเทา\nประเทียด\nประเทียบ\nประเทือง\nประธาน\nประธานาธิบดี\nประนม\nประนอ\nประนอม\nประนัง\nประนัปดา\nประนีประนอม\nประปราน\nประปราย\nประปา\nประเปรี้ยง\nประเปรียว\nประพจน์\nประพนธ์\nประพรม\nประพฤติ\nประพฤทธิ์\nประพัด\nประพัทธ์\nประพันธ์\nประพาต\nประพาส\nประพาสมหรณพ\nประพาฬ\nประพิณ\nประพิมพ์ประพาย\nประพุทธ์\nประเพณี\nประโพธ\nประไพ\nประไพร\nประภพ\nประภัสสร\nประภา\nประภาคาร\nประภาพ\nประภาษ\nประภาส\nประเภท\nประมง\nประมวล\nประมาณ\nประมาท\nประมุข\nประมุท\nประมูล\nประเมิน\nประโมง\nประโมทย์\nประยงค์\nประยุกต์\nประยุทธ์\nประยุร\nประยูร\nประโยค\nประโยชน์\nประโรหิต\nประลมพ์\nประลอง\nประลัย\nประลาต\nประลาย\nประลุ\nประเล่ห์\nประเล้าประโลม\nประโลม\nประวรรต\nประวรรตน์\nประวัติ\nประวาล\nประวาลปัทม์\nประวาส\nประวิง\nประวิช\nประวิตร\nประวิน\nประวีณ\nประเวณี\nประเวศ\nประเวศน์\nประศม\nประศาสน์\nประศุ\nประสก\nประสงค์\nประสบ\nประสพ\nประสม\nประสะ\nประสัก\nประสันนาการ\nประสัยห์\nประสา\nประสาท\nประสาธน์\nประสาน\nประสาร\nประสิทธิ์\nประสิทธิผล\nประสิทธิภาพ\nประสีประสา\nประสูต\nประสูติ\nประเสบัน\nประเสบันอากง\nประเสริฐ\nประหนึ่ง\nประหม่า\nประหยัด\nประหลาด\nประหล่ำ\nประหวัด\nประหวั่น\nประหัตประหาร\nประหาณ\nประหาร\nประเหล\nประเหส\nประไหมสุหรี\nประอบ\nประอร\nปรัก\nปรักปรำ\nปรักมะ\nปรัง\nปรัชญา\nปรัตถจริยา\nปรัตยุบัน\nปรัน\nปรับ\nปรัมปรา\nปรัศจิม\nปรัศนา\nปรัศนี\nปรัศว์\nปรัสสบท\nปร่า\nปรากฏ\nปรากรม\nปรากฤต\nปราการ\nปราง\nปรางค์\nปราจีน\nปราชญ์\nปราชญา\nปราชัย\nปราณ\nปราณี\nปราด\nปราน\nปรานี\nปราบ\nปราบดาภิเษก\nปราปต์\nปราม\nปรามาส\nปราโมช\nปราโมทย์\nปราย\nปรารถนา\nปรารภ\nปรารมภ์\nปราศ\nปราศจาก\nปราศรัย\nปราษณี\nปราษาณ\nปราสัย\nปราสาท\nปรำ\nปริ\nปริก\nปริกขาร\nปริกรรม\nปริกัป\nปริคณห์\nปริจาค\nปริจาริกา\nปริเฉท\nปริชน\nปริซึม\nปริญญา\nปริณาม\nปริณายก\nปริต\nปริตตะ\nปริตโตทก\nปริตร\nปริทรรศน์\nปริทัยหัคคี\nปริทัศน์\nปริเทพ\nปริเทวะ\nปรินิพพาน\nปริบ\nปริบท\nปริปันถ์\nปริพนธ์\nปริพัตร\nปริพันธ์\nปริพาชก\nปริภัณฑ์\nปริภาษ\nปริภูมิ\nปริโภค\nปริ่ม\nปริมณฑล\nปริมาณ\nปริมาตร\nปริยัติ\nปริยานุช\nปริยาย\nปริเยศ\nปริโยสาน\nปริวรรต\nปริวัตร\nปริวาร\nปริวาส\nปริวิตก\nปริเวณ\nปริศนา\nปริษัท\nปริสัญญู\nปริสุทธิ\nปริหาน\nปริหาร\nปรี่\nปรีชญา\nปรีชา\nปรี๊ด\nปรีดา\nปรีดิ\nปรีดิ์\nปรีดี\nปรีติ\nปรียะ\nปรียา\nปรึก\nปรึกษา\nปรึง\nปรือ\nปรื๋อ\nปรุ\nปรุง\nปรู\nปรู๋\nปรูด\nปรู๊ด\nปรู๊ดปร๊าด\nปรู๊ฟ\nปฤงคพ\nปฤจฉา\nปฤษฎางค์\nปฤษฐ\nปลก\nปลกเปลี้ย\nปลง\nปล่ง\nปลด\nปล้น\nปลวก\nปลอก\nปล่อง\nปล้อง\nปลอด\nปล้อน\nปลอบ\nปลอม\nปล่อย\nปละ\nปลัก\nปลั๊ก\nปลัง\nปลั่ง\nปลัด\nปลัดขิก\nปลา\nปลาต\nปลาบ\nปลาย\nปลาสเตอร์\nปลาสนาการ\nปล้ำ\nปลิง\nปลิด\nปลิ้น\nปลิโพธ\nปลิม\nปลิ่ม\nปลิว\nปลี\nปลีก\nปลื้ม\nปลุก\nปลูก\nปวกเปียก\nปวง\nป่วง\nปวด\nป่วน\nป้วน\nป้วนเปี้ยน\nป่วย\nปวัตน์\nปวารณา\nปวาล\nปวาส\nปวาฬ\nปวิช\nปวิตร\nปวิธ\nปวิเวก\nปวีณ\nปวุติ\nปเวณี\nปเวส\nปเวสน์\nปศุ\nปสันนะ\nปสันนาการ\nปสาท\nปสาน\nปสาสน์\nปสุ\nปสุต\nปสูติ\nปหังสนะ\nปหาน\nปหาร\nปหาส\nปอ\nป้อ\nป๋อ\nปอก\nปอง\nป่อง\nป้อง\nปอด\nปอน\nป้อน\nปอนด์\nปอเนาะ\nปอบ\nป้อแป้\nปอม\nป้อม\nป๋อม\nปอย\nป้อย\nป้อยอ\nปะ\nปะกน\nปะกัง\nปะการัง\nปะกำ\nปะขาว\nปะงาบ\nปะตาปา\nปะตาระกาหลา\nปะติดปะต่อ\nปะติยาน\nปะทะ\nปะทะปะทัง\nปะทุ\nปะทุน\nปะปน\nปะมง\nปะราลี\nปะรำ\nปะไร\nปะลอม\nปะเลง\nปะแล่ม\nปะโลง\nปะวะหล่ำ\nปะหงับ\nปะหนัน\nปะหัง\nปะเหลาะ\nปัก\nปักข์\nปักเป้า\nปักษ์\nปักษา\nปักษิน\nปักษี\nปัง\nปั๋ง\nปังสุ์\nปังสุกุล\nปัจจัตตะ\nปัจจันต์\nปัจจันตคาม\nปัจจันตชนบท\nปัจจันตประเทศ\nปัจจัย\nปัจจามิตร\nปัจจุคมน์\nปัจจุทธรณ์\nปัจจุบัน\nปัจจุสมัย\nปัจเจก\nปัจโจปการกิจ\nปัจฉา\nปัจฉิม\nปัจถรณ์\nปัจนึก\nปัจยาการ\nปัจเวกขณ์\nปัชชุน\nปัญจนที\nปัญจวัคคีย์\nปัญจก\nปัญจกะ\nปัญจมี\nปัญจวีสติ\nปัญญัติ\nปัญญา\nปัญหา\nปัฏ\nปัฏนะ\nปัฐยาวัต\nปัณฑรหัตถี\nปัณณะ\nปัณณาส\nปัณณาสก์\nปัณรสี\nปัณหิ\nปัด\nปัตคาด\nปัตตะ\nปัตตานึก\nปัตตานุโมทนา\nปัตตาเวีย\nปัตติ\nปัตติก\nปัตถร\nปัตถะ\nปัตนิ\nปัตนี\nปัตหล่า\nปัถพี\nปัถวี\nปัทม์\nปัทมะ\nปัทมาสน์\nปัน\nปั่น\nปั้น\nปั้นจั่น\nปันจุเหร็จ\nปั้นลม\nปั้นหยา\nปั้นเหน่ง\nปับ\nปั๊บ\nปัปผาสะ\nปัพพาชนียกรรม\nปัพภาระ\nปั๊ม\nปัยกา\nปัยยิกา\nปัวเปีย\nปัศจิม\nปัศตัน\nปัสสาวะ\nปัสสาสะ\nปา\nป่า\nป้า\nปาก\nปาง\nป้าง\nปาจรีย์\nปาจิตตีย์\nปาจีน\nปาฏลิ\nปาฏิบท\nปาฏิบุคลิก\nปาฏิโภค\nปาฏิหาริย์\nปาฐก\nปาฐกถา\nปาฐะ\nปาณกชาติ\nปาณะ\nปาณาติบาต\nปาณิ\nปาณี\nปาด\nปาติโมกข์\nปาตี\nปาเต๊ะ\nปาท่องโก๋\nปาทังกา\nปาทาน\nปาทุกา\nปาน\nป่าน\nป้าน\nปานะ\nปานียะ\nป้าบ\nป๊าบ\nปาพจน์\nปาม\nปาโมกข์\nป่าย\nป้าย\nปายาส\nปาร์เกต์\nปารมี\nปารเมศ\nปาราชิก\nปาริฉัตร\nปาริชาต\nปารุสกวัน\nปาล\nปาล์ม\nปาลิไลยก์\nปาลี\nปาว\nป่าว\nป๊าว\nปาวาร\nปาษาณ\nปาส\nปาสาณ\nปาสาทิกะ\nปาหนัน\nปาหี่\nปำ\nป้ำ\nป้ำเป๋อ\nปิกนิก\nปิ้ง\nปิงคละ\nปิงปอง\nปิฎก\nปิฏฐะ\nปิฐิ\nปิณฑะ\nปิด\nปิตตะ\nปิตา\nปิตามหัยกา\nปิตามหัยยิกา\nปิตุ\nปิตุจฉา\nปิตุภูมิ\nปิตุลา\nปิโตรเลียม\nปิ่น\nปิ่นแก้ว\nปิ่นโต\nปิปผลี\nปิ่ม\nปิ้ม\nปิยะ\nปิยังคุ\nปิโยรส\nปิลันธน์\nปิ๋ว\nปิศาจ\nปิหกะ\nปี\nปี่\nปี้\nปี๋\nปีก\nปีฐะ\nปี๊ด\nปีติ\nปีน\nปีบ\nปี๊บ\nปีศาจ\nปีฬกะ\nปึก\nปึง\nปึ่ง\nปึ๋ง\nปึ้ด\nปึมปื้อ\nปืน\nปื้น\nปือ\nปื้อ\nปื๋อ\nปุ\nปุ๊\nปุก\nปุกปุย\nปุคละ\nปุ้งกี๋\nปุงควะ\nปุงลิงค์\nปุงลึงค์\nปุจฉา\nปุฏะ\nปุณฑริก\nปุด\nปุตตะ\nปุถุชน\nปุนนาค\nปุนภพ\nปุนัพสุ\nปุบ\nปุ๊บ\nปุปผะ\nปุปะ\nปุพพะ\nปุ่ม\nปุ่มป่ำ\nปุ้ม\nปุ๋ม\nปุย\nปุ้ย\nปุ๋ย\nปุรณะ\nปุระ\nปุราณ\nปุราณะ\nปุริมพรรษา\nปุเรจาริก\nปุโรหิต\nปุลลิงค์\nปุลลึงค์\nปุลินท์\nปุโลปุเล\nปุษยะ\nปุสสะ\nปู\nปู่\nปูชกะ\nปูชนียบุคคล\nปูชนียวัตถุ\nปูชนียะ\nปูชา\nปูชิต\nปูด\nปูน\nปูม\nปู้ยี่ปู้ยำ\nปูระ\nปูลู\nเป้\nเป๋\nเปก\nเป๊ก\nเป่ง\nเป้ง\nเป๋ง\nเป็ด\nเปตพลี\nเปตอง\nเป็น\nเปยยาล\nเปร็ง\nเปรต\nเปรม\nเปรย\nเปรอ\nเปรอะ\nเปราะ\nเปรียง\nเปรี้ยง\nเปรี้ยงปร้าง\nเปรียญ\nเปรียบ\nเปรี่ยม\nเปรียว\nเปรี้ยว\nเปรียะ\nเปรี๊ยะ\nเปรื่อง\nเปรื้อย\nเปล\nเปล่ง\nเปลว\nเปลา\nเปล่า\nเปล้า\nเปลาะ\nเปลี้ย\nเปลี่ยน\nเปลี่ยม\nเปลี่ยว\nเปลือก\nเปลือง\nเปลื้อง\nเปลือย\nเปศะ\nเปศัส\nเปสการ\nเปสละ\nเปสุญวาท\nเป๋อ\nเป้อเย้อ\nเปอร์\nเปอร์เซ็นต์\nเปะ\nเปา\nเป่า\nเป้า\nเป๊า\nเป๋า\nเป๋าฮื้อ\nเปาะ\nเป๊าะ\nเปาะเปี๊ยะ\nเปาะแปะ\nเปิก\nเปิง\nเปิงมาง\nเปิด\nเปิ่น\nเปิบ\nเปิ๊บ\nเปีย\nเปียก\nเปี๊ยก\nเปี๊ยบ\nเปี่ยม\nเปี้ยว\nเปี๊ยว\nเปียะ\nเปี๊ยะ\nเปือก\nเปื้อน\nเปื่อย\nแป\nแป้ง\nแป๋ง\nแปด\nแป๊ด\nแปทู\nแป้น\nแป๊น\nแปบ\nแป๊บ\nแปม\nแปร\nแปร๋\nแปรก\nแปรง\nแปร่ง\nแปร๊ด\nแปร้น\nแปร๋น\nแปรปรวน\nแประ\nแปล\nแปล้\nแปลก\nแปลง\nแปลน\nแปลบ\nแปล๊บ\nแป้ว\nแป๊ว\nแปะ\nแป๊ะ\nแป๊ะซะ\nโป\nโป่\nโป้\nโป๊\nโปก\nโป๊ก\nโป๊กเกอร์\nโปกขรณี\nโปกขรพรรษ\nโปเก\nโปง\nโป่ง\nโป้ง\nโป่งข่าม\nโปงลาง\nโป่งวิด\nโปฐบท\nโปฐปทมาส\nโปดก\nโปตถกะ\nโปน\nโป๊ป\nโป๊ยเซียน\nโปรแกรม\nโปรง\nโปร่ง\nโปรด\nโปรตอน\nโปรตีน\nโปรเตสแตนต์\nโปรแทรกเตอร์\nโปรย\nโปล่ง\nโปลิโอ\nโปโล\nโปสก\nโปสต์การ์ด\nโปะ\nโป๊ะ\nโป๊ะจ้าย\nไป\nไป่\nไป๋\nไปยาล\nไปรษณีย์\nไปรษณียบัตร\nไปรษณียภัณฑ์\nไปรษณียากร\nไปล่\nไปศาจ\nผก\nผกา\nผกาย\nผคม\nผง\nผงก\nผงม\nผงะ\nผงาด\nผง่าน\nผจง\nผจญ\nผจัญ\nผจาน\nผชุม\nผณิน\nผณินทร\nผณิศวร\nผด\nผดุง\nผเดิน\nผทม\nผนวก\nผนวช\nผนัง\nผนิด\nผนึก\nผม\nผยอง\nผรณาปีติ\nผรสุ\nผริต\nผรุสวาท\nผล\nผลคุน\nผลคุนี\nผล็อย\nผละ\nผลัก\nผลัด\nผลับ\nผลัวะ\nผลา\nผลาญ\nผลานิสงส์\nผลาผล\nผลาหาร\nผลิ\nผลิกะ\nผลิต\nผลิน\nผลี\nผลีผลาม\nผลึก\nผลึ่ง\nผลือ\nผลุ\nผลุง\nผลุด\nผลุน\nผลุนผลัน\nผลุบ\nผลุบผลับ\nผลุย\nผลู\nผวน\nผวย\nผวา\nผสม\nผสาน\nผอง\nผ่อง\nผ่อน\nผอบ\nผอม\nผ็อย\nผอูน\nผะ\nผะดา\nผะสา\nผัก\nผัคคุณ\nผัคคุณี\nผัง\nผัด\nผัน\nผับ\nผัว\nผัวะ\nผัสสะ\nผัสสาหาร\nผา\nผ่า\nผ้า\nผาก\nผาง\nผ่าง\nผาณิต\nผาด\nผาติ\nผ่าน\nผาม\nผาย\nผ่ายผอม\nผาล\nผาลคุน\nผาลา\nผ่าว\nผาสุก\nผ้าฮาด\nผำ\nผ้ำ\nผิ\nผิง\nผิด\nผิตะ\nผิน\nผิว\nผี\nผี้ว์\nผึง\nผึ่ง\nผึ้ง\nผึ้งรวง\nผืน\nผื่น\nผุ\nผุด\nผุยผง\nผุสราคา\nผู้\nผูก\nเผ\nเผง\nเผชิญ\nเผ็ด\nเผด็จ\nเผดิม\nเผดียง\nเผ่น\nเผนิก\nเผย\nเผยอ\nเผยิบ\nเผยิบผยาบ\nเผล\nเผล่\nเผล็ด\nเผลอ\nเผลอไผล\nเผละ\nเผลาะ\nเผลาะแผละ\nเผลียง\nเผอเรอ\nเผอิญ\nเผอิล\nเผะ\nเผา\nเผ่า\nเผ้า\nเผาะ\nเผิ้ง\nเผิน\nเผียน\nเผือ\nเผื่อ\nเผือก\nเผือด\nเผือน\nเผื่อน\nแผ่\nแผก\nแผง\nแผด\nแผน\nแผ่น\nแผนก\nแผล\nแผลง\nแผล็บ\nแผล็ว\nแผละ\nแผ่ว\nแผ้ว\nโผ\nโผง\nโผฏฐัพพะ\nโผน\nโผเผ\nโผย\nโผล่\nโผลกเผลก\nโผละ\nโผอน\nโผะ\nไผ\nไผ่\nไผท\nฝน\nฝรั่ง\nฝรั่งเศส\nฝ่อ\nฝอย\nฝัก\nฝัง\nฝั่ง\nฝัด\nฝัน\nฝา\nฝ่า\nฝ้า\nฝาก\nฝาง\nฝาด\nฝาน\nฝาย\nฝ่าย\nฝ้าย\nฝิ่น\nฝี\nฝี่\nฝีก\nฝึก\nฝืด\nฝืน\nฝุ่น\nฝูง\nเฝ้า\nเฝือ\nเฝือก\nเฝือง\nเฝื่อน\nแฝก\nแฝง\nแฝด\nใฝ่\nไฝ\nพก\nพกุล\nพง\nพงศ์\nพงศกร\nพงศธร\nพงศา\nพงศาวดาร\nพจน์\nพจนา\nพจนานุกรม\nพจนารถ\nพจนีย์\nพจมาน\nพจี\nพชระ\nพญา\nพญาลอ\nพณิช\nพณิชย์\nพดด้วง\nพธู\nพนันดร\nพนาดร\nพนาดอน\nพนาราม\nพนาลัย\nพนาลี\nพนาวาส\nพนาเวศ\nพนาศรม\nพนาสณฑ์\nพนาสัณฑ์\nพเนจร\nพ่น\nพ้น\nพนม\nพนอง\nพนอม\nพนัก\nพนักงาน\nพนัง\nพนัน\nพนัส\nพนา\nพนาย\nพนิดา\nพนิต\nพบ\nพม่า\nพยนต์\nพยศ\nพยัก\nพยักพเยิด\nพยัคฆ์\nพยัคฆา\nพยัคฆิน\nพยัคฆี\nพยัชน์\nพยัญชนะ\nพยัต\nพยับ\nพยากรณ์\nพยาฆร์\nพยางค์\nพยาธิ\nพยาน\nพยาบาท\nพยาบาล\nพยาม\nพยามะ\nพยายาม\nพยุ\nพยุง\nพยุหยาตรา\nพยุหโยธา\nพยุหเสนา\nพยุหะ\nพยู่ห์\nพเยีย\nพร\nพรต\nพรม\nพรรค\nพรรค์\nพรรคานต์\nพรรณ\nพรรณนา\nพรรดึก\nพรรลาย\nพรรษ\nพรรษา\nพรรเอิญ\nพรวด\nพรวน\nพรหม\nพรหมจรรย์\nพรหมจาริณี\nพรหมจารี\nพรหมา\nพรหมาสตร์\nพรหมินทร์\nพรอก\nพร่อง\nพร้อง\nพรอด\nพร้อม\nพร้อมพรัก\nพร่อย\nพร้อย\nพระ\nพระนอม\nพระนาด\nพระฮาม\nพรักพร้อม\nพรั่ง\nพรัด\nพรั่น\nพรับ\nพร่า\nพร้า\nพราก\nพราง\nพร่าง\nพราด\nพราน\nพราย\nพราว\nพราหมณ์\nพราหมณะ\nพราหมณี\nพราหมี\nพรำ\nพร่ำ\nพริก\nพริ้ง\nพริบ\nพริ้ม\nพรึง\nพรึน\nพรึบ\nพรึ่บ\nพรืด\nพรุ\nพรุ่ง\nพรุน\nพรู\nพรูด\nพฤกษ์\nพฤกษชาติ\nพฤกษเทวดา\nพฤกษราช\nพฤกษศาสตร์\nพฤกษา\nพฤฒ\nพฤฒา\nพฤฒาจารย์\nพฤฒิ\nพฤต\nพฤติ\nพฤทธ์\nพฤทธิ์\nพฤนต์\nพฤนท์\nพฤศจิก\nพฤศจิกายน\nพฤษภ\nพฤษภาคม\nพฤหัสบดี\nพล\nพละ\nพลากร\nพลาดิศัย\nพลาธิการ\nพลานามัย\nพลบ\nพลวก\nพลวง\nพลวัต\nพลศาสตร์\nพลอ\nพล้อ\nพลอง\nพลอด\nพลอน\nพลอมแพลม\nพลอย\nพล่อย\nพลั่ก\nพลัง\nพลั่ง\nพลั้ง\nพลัด\nพลัน\nพลับ\nพลับพลา\nพลับพลึง\nพลั่ว\nพล่า\nพลาง\nพลาญ\nพลาด\nพล่าน\nพลาม\nพล่าม\nพลาย\nพลาสติก\nพลาสมา\nพลาหก\nพลำ\nพล้ำ\nพลำภัง\nพลิก\nพลิพัท\nพลิ้ว\nพลี\nพลุ\nพลุก\nพลุ่ก\nพลุกพล่าน\nพลุ่ง\nพลุ้ย\nพลู\nพลูโต\nพลูโทเนียม\nพวก\nพวง\nพ่วง\nพวน\nพวย\nพสก\nพสุ\nพสุธา\nพสุสงกรานต์\nพหล\nพหุ\nพหุล\nพหู\nพอ\nพ่อ\nพ้อ\nพอก\nพอง\nพ้อง\nพอน\nพ้อม\nพอโลเนียม\nพะ\nพะงา\nพะงาบ\nพะจง\nพะทำมะรง\nพะนอ\nพะเน้าพะนอ\nพะเนิน\nพะเนียง\nพะแนง\nพะพาน\nพะพิง\nพะเพิง\nพะยอม\nพ่ะย่ะค่ะ\nพะยูง\nพะยูน\nพะเยิบ\nพะเยิบพะยาบ\nพะรุงพะรัง\nพะโล้\nพะไล\nพะวง\nพะวักพะวน\nพะวา\nพะว้าพะวัง\nพะอง\nพะอากพะอำ\nพะอืดพะอม\nพัก\nพักตร์\nพักตรา\nพักร\nพัง\nพังกา\nพังงา\nพังผืด\nพังพวย\nพังพอน\nพังพาน\nพังพาบ\nพังเพย\nพัช\nพัชนี\nพัชระ\nพัญจน์\nพัฒนะ\nพัฒนา\nพัฒนากร\nพัฒนาการ\nพัด\nพัดชา\nพัดดึงส์\nพัตร\nพัทธ์\nพัทธยา\nพัทธสีมา\nพัทร\nพัน\nพันตู\nพันทาง\nพันธ์\nพันธะ\nพันธกรณี\nพันธบัตร\nพันธมิตร\nพันธนะ\nพันธนาคาร\nพันธนาการ\nพันธุ์\nพันธุกรรม\nพันลึก\nพันลือ\nพันเลิศ\nพันเอิญ\nพับ\nพัลลภ\nพัลวัน\nพัว\nพัวะ\nพัศดี\nพัสดุ\nพัสตร์\nพัสถาน\nพา\nพาก\nพากเพียร\nพากย์\nพาง\nพ่าง\nพาชี\nพาณิช\nพาณิชย์\nพาณิชยกรรม\nพาณิชยการ\nพาณิชยศาสตร์\nพาณิชยศิลป์\nพาณินี\nพาณี\nพาณีนี\nพาด\nพาท\nพาทย์\nพาธ\nพาธา\nพาน\nพ่าน\nพานร\nพานรินทร์\nพาม\nพาย\nพ่าย\nพายม้า\nพายัพ\nพายุ\nพาร์เซก\nพารณ\nพารา\nพาราฟิน\nพาล\nพาลา\nพาลี\nพาลุก\nพาโล\nพาไล\nพาส\nพาสน์\nพาสนา\nพาสุกรี\nพ่าห์\nพาหนะ\nพาหะ\nพาหา\nพาหิรกะ\nพาหิระ\nพาหุ\nพาหุรัด\nพาหุสัจจะ\nพาเหียร\nพาฬ\nพำ\nพำนัก\nพำพึม\nพำลา\nพิกล\nพิกสิต\nพิกัด\nพิกัติ\nพิกัน\nพิการ\nพิกุล\nพิเคราะห์\nพิฆน์\nพิฆเนศ\nพิฆเนศวร\nพิฆาต\nพิง\nพิจัย\nพิจาร\nพิจารณ์\nพิจารณา\nพิจิก\nพิจิต\nพิจิตร\nพิชญ์\nพิชัย\nพิชาน\nพิชิต\nพิเชฐ\nพิเชียร\nพิฑูรย์\nพิณ\nพิดทูล\nพิดาน\nพิโดร\nพิตร\nพิถี\nพิถีพิถัน\nพิทย\nพิทย์\nพิทยา\nพิทยาคม\nพิทยาคาร\nพิทยาธร\nพิทยาลัย\nพิทักษ์\nพิทูร\nพิเทศ\nพิธาน\nพิธี\nพิธุ\nพินทุ\nพินอบพิเทา\nพินัย\nพินาศ\nพินิจ\nพินิต\nพินิศ\nพินิศจัย\nพิเนต\nพิบัติ\nพิบุล\nพิบูล\nพิปริต\nพิปลาส\nพิพรรธ\nพิพรรธน์\nพิพักพิพ่วน\nพิพัฒ\nพิพัฒน์\nพิพากษ์\nพิพากษา\nพิพาท\nพิพิธ\nพิพิธภัณฑ์\nพิพิธภัณฑสถาน\nพิภพ\nพิภัช\nพิภาค\nพิภูษณะ\nพิเภก\nพิมปะการัง\nพิมพ์\nพิมพการัง\nพิมพา\nพิมพาภรณ์\nพิมล\nพิมเสน\nพิมาน\nพิมุข\nพิโมกข์\nพิโมกษ์\nพิโยกพิเกน\nพิโยค\nพิรอด\nพิระ\nพิรากล\nพิราบ\nพิราม\nพิราลัย\nพิริยะ\nพิรี้พิไร\nพิรุณ\nพิรุธ\nพิรุฬห์\nพิเรนทร์\nพิเราะ\nพิโรธ\nพิไร\nพิลังกาสา\nพิลาป\nพิลาส\nพิลิปดา\nพิลึก\nพิลึกกึกกือ\nพิลึกพิลั่น\nพิโลน\nพิไล\nพิศ\nพิศวง\nพิศวาส\nพิศาล\nพิศุทธ์\nพิศุทธิ์\nพิเศษ\nพิษ\nพิษฐาน\nพิษนาศน์\nพิสดาร\nพิสมร\nพิสมัย\nพิสัง\nพิสัช\nพิสัย\nพิสิฐ\nพิสุทธิ์\nพิสูจน์\nพิหค\nพิหาร\nพิฬาร\nพี\nพี่\nพี้\nพีชคณิต\nพีระมิด\nพึง\nพึ่ง\nพึ่บ\nพึ่บพั่บ\nพึม\nพึมพำ\nพืช\nพืด\nพื้น\nพุ\nพุก\nพุกาม\nพุง\nพุ่ง\nพุงดอ\nพุฒ\nพุฒิ\nพุด\nพุดตาน\nพุทธ\nพุทธะ\nพุทธังกูร\nพุทธางกูร\nพุทธันดร\nพุทธาภิเษก\nพุทธาวาส\nพุทธิ\nพุทโธ่\nพุทรา\nพุธ\nพุ่ม\nพุมเรียง\nพุ้ย\nพู\nพูพอน\nพู่\nพูด\nพูน\nพู้น\nพู่ระหง\nเพ\nเพ็ก\nเพกา\nเพคะ\nเพ็ง\nเพ่ง\nเพ็จ\nเพชฉลูกรรม\nเพชฌฆาต\nเพชร\nเพชรดา\nเพชรปาณี\nเพชรฤกษ์\nเพชรายุธ\nเพชรกลับ\nเพชรสังฆาต\nเพชรหลีก\nเพชรหึง\nเพ็ญ\nเพฑูริย์\nเพณี\nเพ็ดทูล\nเพดาน\nเพท\nเพทนา\nเพทาย\nเพทุบาย\nเพโทบาย\nเพ่นพ่าน\nเพนียด\nเพไนย\nเพ้ย\nเพรง\nเพรซีโอดิเมียม\nเพรา\nเพราะ\nเพริด\nเพริศ\nเพรียก\nเพรียง\nเพรียบ\nเพรี้ยม\nเพรียว\nเพรื่อ\nเพรือง\nเพล\nเพลง\nเพล็ด\nเพล้โพล้\nเพลา\nเพลาะ\nเพลิง\nเพลิดเพลิน\nเพลิน\nเพลีย\nเพลี้ย\nเพลี่ยง\nเพศ\nเพส\nเพสลาด\nเพ่อ\nเพ้อ\nเพ้อเจ้อ\nเพอิญ\nเพะ\nเพา\nเพาะ\nเพิก\nเพิง\nเพิ่ง\nเพิดเพ้ย\nเพิ่ม\nเพี้ย\nเพียง\nเพี้ยง\nเพียงออ\nเพี้ยน\nเพียบ\nเพียร\nเพื่อ\nเพื่อน\nแพ\nแพ้\nแพง\nแพ่ง\nแพงพวย\nแพทย์\nแพทยศาสตร์\nแพน\nแพ่น\nแพนก\nแพนงเชิง\nแพร\nแพร่\nแพรก\nแพร่ง\nแพรว\nแพร้ว\nแพลง\nแพลทินัม\nแพล็บ\nแพลม\nแพลเลเดียม\nแพละ\nแพละโลม\nแพว\nแพ้ว\nแพศย์\nแพศยา\nแพะ\nโพ\nโพก\nโพกพาย\nโพง\nโพงพาง\nโพชฌงค์\nโพซิตรอน\nโพด\nโพทะเล\nโพแทสเซียม\nโพธ\nโพธิ\nโพธิ์\nโพน\nโพ้น\nโพนทะนา\nโพบาย\nโพย\nโพยก๊วน\nโพยม\nโพรก\nโพรง\nโพรโทแอกทิเนียม\nโพรมีเทียม\nโพระดก\nโพล่\nโพลง\nโพล่ง\nโพล้ง\nโพลน\nโพล้เพล้\nโพละ\nโพสพ\nไพ\nไพ่\nไพจิตร\nไพชน\nไพชยนต์\nไพฑูรย์\nไพที\nไพบูลย์\nไพพรรณ\nไพร\nไพร่\nไพรจิตร\nไพรชน\nไพรชยนต์\nไพรฑูรย์\nไพรที\nไพรบูลย์\nไพรเราะ\nไพรัช\nไพรำ\nไพริน\nไพรินทร์\nไพรี\nไพเราะ\nไพโรจน์\nไพล\nไพล่\nไพศาขะ\nไพศาล\nไพเศษ\nไพสพ\nไพสิฐ\nไพหาร\nฟก\nฟ้ง\nฟรักโทส\nฟรี\nฟลูออรีน\nฟ่อ\nฟ้อ\nฟอก\nฟอง\nฟ่อง\nฟ้อง\nฟอด\nฟอน\nฟ่อน\nฟ้อน\nฟ้อแฟ้\nฟอร์มาลดีไฮด์\nฟอร์มาลิน\nฟอสฟอรัส\nฟอสเฟต\nฟัก\nฟักฟุ้น\nฟัง\nฟังก์ชัน\nฟัด\nฟัน\nฟั่น\nฟั้น\nฟ้า\nฟาก\nฟาง\nฟ่าง\nฟาด\nฟาทอม\nฟาน\nฟ่าม\nฟาย\nฟาร์ม\nฟาสซิสต์\nฟิด\nฟิต\nฟิบ\nฟิล์ม\nฟิวส์\nฟิสิกส์\nฟี่\nฟี้\nฟืดฟาด\nฟืน\nฟื้น\nฟืม\nฟุ\nฟุ้ง\nฟุต\nฟุน\nฟุบ\nฟุ่บ\nฟุ่มเฟือย\nฟุลสแก๊ป\nฟู\nฟู่\nฟูก\nฟูด\nฟูม\nเฟ็ด\nเฟ้น\nเฟลด์สปาร์\nเฟ้อ\nเฟอร์เมียม\nเฟอะ\nเฟอะฟะ\nเฟะ\nเฟะฟะ\nเฟิน\nเฟี้ยม\nเฟี้ยว\nเฟือ\nเฟื้อ\nเฟือง\nเฟื่อง\nเฟื้อง\nเฟือน\nเฟือย\nเฟื้อย\nแฟ่\nแฟง\nแฟชั่น\nแฟน\nแฟบ\nแฟ้ม\nแฟรนเซียม\nแฟลกซ์\nแฟลต\nแฟะ\nโฟกัส\nไฟ\nภควดี\nภควัต\nภควันต์\nภควัม\nภควา\nภควาน\nภคะ\nภคันทลา\nภคินี\nภณะ\nภณิดา\nภพ\nภมร\nภมริน\nภมรี\nภมุกา\nภยันตราย\nภยาคติ\nภระ\nภรณี\nภรต\nภรรดร\nภรรดา\nภรรยา\nภระมร\nภระมรี\nภราดร\nภราดรภาพ\nภราดา\nภริยา\nภฤศ\nภวะ\nภวตัณหา\nภวนะ\nภวังค์\nภวังคจิต\nภักดี\nภักตะ\nภักติ\nภักษ์\nภักษา\nภักษาหาร\nภัค\nภัคน์\nภังคะ\nภังคี\nภัจ\nภัณฑ์\nภัณฑาคาร\nภัณฑาคาริก\nภัณฑารักษ์\nภัณฑนะ\nภัณฑู\nภัต\nภัตตาคาร\nภัตตาหาร\nภัตร\nภัทระ\nภัทรกัป\nภัพ\nภัย\nภัสดา\nภัสตรา\nภัสมะ\nภัสสร\nภา\nภาค\nภาคย์\nภาคยานุวัติ\nภาคินี\nภาคิไนย\nภาคี\nภาคียะ\nภาชนะ\nภาชี\nภาณ\nภาณวาร\nภาณกะ\nภาณี\nภาณุ\nภาดร\nภาดา\nภาตระ\nภาตา\nภาตุ\nภาติกะ\nภาติยะ\nภาพ\nภาพย์\nภาม\nภาย\nภาร\nภาระ\nภารดี\nภารต\nภารตี\nภารยทรัพย์\nภารยา\nภารา\nภาวนา\nภาวะ\nภาษ\nภาษณ์\nภาษา\nภาษิต\nภาษี\nภาส\nภาสน์\nภาสวร\nภาสา\nภาสุระ\nภิกขา\nภิกขาจาร\nภิกขุ\nภิกขุนี\nภิกษา\nภิกษาจาร\nภิกษาหาร\nภิกษุ\nภิกษุณี\nภิงคาร\nภิญโญ\nภิตติ\nภินท์\nภินทนาการ\nภิยโย\nภิรมย์\nภิรมย์สุรางค์\nภิษัช\nภิสัก\nภีตะ\nภีมะ\nภีรุ\nภุกต์\nภุขัน\nภุช\nภุชงค์\nภุต\nภุมมะ\nภุมรัตน์\nภุมวาร\nภุมรา\nภุมริน\nภุมรี\nภุมเรศ\nภู\nภู่\nภูต\nภูติ\nภูม\nภูมิ\nภูมี\nภูริ\nภูรี\nภูวดล\nภูวนาถ\nภูวเนตร\nภูวไนย\nภูษา\nภูษิต\nเภกะ\nเภตรา\nเภท\nเภทุบาย\nเภรี\nเภสัช\nโภค\nโภคะ\nโภคิน\nโภคี\nโภไคย\nโภไคศวรรย์\nโภช\nโภชย์\nโภชก\nโภชนะ\nโภชนา\nโภชนาหาร\nโภชนียะ\nไภริน\nไภรี\nไภษัชคุรุ\nไภษัชย์\nมกร\nมกราคม\nมกุฎ\nมคธ\nมฆวัน\nมฆะ\nมฆา\nม่ง\nมงกุฎ\nมงโกรย\nมงคล\nมงคลวาร\nมณฑ์\nมณฑก\nมณฑนะ\nมณฑป\nมณฑล\nมณฑา\nมณฑารพ\nมณฑิระ\nมณเฑียร\nมณี\nมด\nมตะ\nมตกภัต\nมติ\nมทนะ\nมทะ\nมธุ\nมธุกร\nมธุการี\nมธุลีห์\nมธุระ\nมธุรพจน์\nมน\nมนินทรีย์\nม่น\nมนต์\nมนตร์\nมนตรี\nมนท์\nมนทิราลัย\nมนเทียร\nมนสิการ\nมนัส\nมนัสวี\nมนินทรีย์\nมนิมนา\nมนิลา\nมนุญ\nมนุษย์\nมนุษยชาติ\nมนุษยธรรม\nมนุษย์มนา\nมนุษยโลก\nมนุษยศาสตร์\nมนุษยสัมพันธ์\nมนุสาร\nมนู\nมนูสาร\nมโน\nมโนช\nมโนชญ์\nมโนราห์\nมโนสาเร่\nมโนห์รา\nมมังการ\nมยุรฉัตร\nมยุระ\nมยุรา\nมยุรี\nมยุเรศ\nมยูร\nมรกต\nมรคา\nมรฑป\nมรณ์\nมรณะ\nมรณกรรม\nมรณบัตร\nมรณภัย\nมรณภาพ\nมรดก\nมรรค\nมรรคา\nมรรตัย\nมรรยาท\nมรรษ\nมรสุม\nมริจ\nมริยาท\nมรีจิ\nมรุต\nมฤค\nมฤคย์\nมฤคศิระ\nมฤคศิรมาส\nมฤคเศียร\nมฤคินทร์\nมฤเคนทร์\nมฤดก\nมฤต\nมฤตยู\nมฤทุ\nมล\nมละ\nมลัก\nมลังเมลือง\nมล้าง\nมลาย\nมลายู\nมวก\nม่วง\nมวน\nม่วน\nม้วน\nม้วนต้วน\nมวย\nม้วย\nมวล\nมหกรรม\nมหรณพ\nมหรรณพ\nมหรสพ\nมหัจฉริยะ\nมหัต\nมหัทธนะ\nมหันต์\nมหันตโทษ\nมหัพภาค\nมหัศจรรย์\nมหา\nมหากฐิน\nมหากาฬ\nมหาขันธกะ\nมหาจักร\nมหาชน\nมหาชัย\nมหาชาติ\nมหาโชตรัต\nมหาดไทย\nมหาดเล็ก\nมหาตมะ\nมหาไถ่\nมหาเทพ\nมหาเทพี\nมหาเทวี\nมหาธาตุ\nมหานิกาย\nมหานิล\nมหาบพิตร\nมหาบัณฑิต\nมหาพน\nมหาพรหม\nมหาภารตะ\nมหาภิเนษกรมณ์\nมหาภูต\nมหาเมฆ\nมหายาน\nมหายุค\nมหาราช\nมหาฤกษ์\nมหาละลวย\nมหาละลาย\nมหาวงศ์\nมหาวรรค\nมหาวิทยาลัย\nมหาศักราช\nมหาศาล\nมหาสงกรานต์\nมหาสดมภ์\nมหาสดำ\nมหาสมุทร\nมหาสาวก\nมหาหงส์\nมหาหิงคุ์\nมหาอำนาจ\nมหาอุจ\nมหาอุด\nมหาอุปรากร\nมหาอุปราช\nมหิ\nมหิดล\nมหิธร\nมหิป\nมหิงส์\nมหิทธิ\nมหินท์\nมหิมา\nมหิศร\nมหิศวร\nมหิษ\nมหิษี\nมหึมา\nมเหยงค์\nมเหศ\nมเหศวร\nมเหศักดิ์\nมเหสักข์\nมเหสิ\nมเหสี\nมเหาฬาร\nมโหรสพ\nมโหระทึก\nมโหรี\nมโหฬาร\nมไหศวรรย์\nมอ\nมอง\nมองโกลอยด์\nมองโกเลีย\nมองคร่อ\nมอญ\nมอด\nม่อต้อ\nมอเตอร์\nมอเตอร์ไซค์\nมอน\nม่อน\nมอบ\nมอม\nมอมแมม\nม่อย\nมอร์ฟีน\nมอระกู่\nมอลโทส\nม่อลอกม่อแลก\nม่อห้อม\nม่อฮ่อม\nมะ\nมะกรูด\nมะกล่ำ\nมะกอก\nมะก่อง\nมะกะโรนี\nมะกา\nมะเกลือ\nมะเกี๋ยง\nมะข่วง\nมะขวิด\nมะขาม\nมะเขือ\nมะแข่น\nมะคังแดง\nมะค่า\nมะคำไก่\nมะคำดีควาย\nมะงั่ว\nมะงุมมะงาหรา\nมะซัก\nมะซาง\nมะดัน\nมะดีหวี\nมะดูก\nมะเดหวี\nมะเดื่อ\nมะต้อง\nมะตะบะ\nมะตาด\nมะตาหะรี\nมะตึ่ง\nมะตื๋น\nมะตูม\nมะแตก\nมะโต\nมะนาว\nมะปราง\nมะปริง\nมะฝ่อ\nมะพร้าว\nมะพลับ\nมะพูด\nมะแพน\nมะแพร้ว\nมะเฟือง\nมะแฟน\nมะไฟ\nมะม่วง\nมะม่าว\nมะมี่\nมะมื่น\nมะมุด\nมะเมอ\nมะเมีย\nมะเมื่อย\nมะแม\nมะยง\nมะยม\nมะระ\nมะริด\nมะรืน\nมะรุม\nมะรุมมะตุ้ม\nมะเร็ง\nมะเรื่อง\nมะโรง\nมะลอกมะแลก\nมะละกอ\nมะลิ\nมะลื่น\nมะลืมดำ\nมะลุลี\nมะแว้ง\nมะสัง\nมะเส็ง\nมะหวด\nมะหะหมัด\nมะหาด\nมะหิ่ง\nมะเหงก\nมะอึก\nมะฮอกกานี\nมัก\nมักกะโรนี\nมักกะลีผล\nมักกะสัน\nมักขะ\nมั่กขั้ก\nมักขิกา\nมัค\nมัคคะ\nมัคคุเทศก์\nมัคนายก\nมัฆวาน\nมั่ง\nมังกง\nมังกร\nมังกุ\nมังคละ\nมังค่า\nมังคุด\nมังตาน\nมังสวิรัติ\nมังสะ\nมังสี\nมัจจะ\nมัจจุ\nมัจฉริยะ\nมัจฉรี\nมัจฉะ\nมัจฉา\nมัชชะ\nมัชวิรัติ\nมัชชาระ\nมัชฌันติกสมัย\nมัชฌิม\nมัชฌิมา\nมัญจา\nมัญชิษฐา\nมัญชุ\nมัญชุสา\nมัญชูสา\nมัญเชฏฐะ\nมัฏฐะ\nมัณฑนศิลป์\nมัณฑนา\nมัด\nมัตตะ\nมัตตัญญู\nมัตตา\nมัตติกา\nมัตถกะ\nมัตถลุงค์\nมัตสยะ\nมัตสยา\nมัตสระ\nมัตสริน\nมัททวะ\nมัทนะ\nมัทยะ\nมัธยฐาน\nมัธยม\nมัธยันห์\nมัธยัสถ์\nมัน\nมั่น\nมันตา\nมันถะ\nมันทิระ\nมันทิราลัย\nมับ\nมั้ม\nมัมมี่\nมัย\nมัลละ\nมัลลิกา\nมัว\nมัวซัว\nมั่ว\nมัศยา\nมัสตุ\nมัสตาร์ด\nมัสมั่น\nมัสยิด\nมัสรู่\nมัสลิน\nมัสสุ\nมา\nม้า\nมาก\nมาคสิระ\nมาฆบูชา\nมาฆะ\nม้าง\nมางสะ\nมาณพ\nมาณวิกา\nมาด\nมาดา\nมาตงค์\nมาตร\nมาตรา\nมาตฤ\nมาตังคะ\nมาตา\nมาตามหัยกะ\nมาตามหัยกา\nมาตามหัยยิกา\nมาติกะ\nมาติกา\nมาตุ\nมาตุจฉา\nมาตุรงค์\nมาตุเรศ\nมาตุละ\nมาตุลา\nมาตุลานี\nมาทะ\nมาธยมิก\nมาธยมิกะ\nมาธุระ\nมาธุสร\nมาธูระ\nมาน\nม่าน\nม้าน\nมานพ\nมานะ\nมานัต\nมานัส\nมานิต\nมานี\nมานุษ\nมานุษยวิทยา\nมาโนชญ์\nมาบ\nมาภา\nม้าม\nม่าย\nมายา\nมาร\nมาราธิราช\nมารค\nมารดร\nมารดา\nมารยา\nมารยาท\nมารศรี\nมารษา\nมาริต\nมารุต\nมาลย์\nมาลัย\nมาลา\nมาลาตี\nมาลาเรีย\nมาลินี\nมาลี\nมาลุต\nมาศ\nมาส\nมาสก\nมาห์\nม่าห์\nมาหิส\nม่าเหมี่ยว\nมาฬก\nมิ\nมิค\nมิคสัญญี\nมิ่ง\nมิจฉา\nมิด\nมิตร\nมิติ\nมิเตอร์\nมิถยา\nมิถุน\nมิถุนายน\nมิทธะ\nมินตรา\nมินตา\nมินหม้อ\nมิ่ม\nมิ้ม\nมิไย\nมิรันตี\nมิลลิกรัม\nมิลลิบาร์\nมิลลิเมตร\nมิลลิลิตร\nมิลักขะ\nมิลักขู\nมิส\nมิสกรี\nมิสกวัน\nมิสซา\nมี\nมี่\nมีด\nมีเทน\nมีน\nมีนาคม\nมี่สั้ว\nมึง\nมึน\nมืด\nมืน\nมื่น\nมือ\nมื้อ\nมุ\nมุก\nมุกดา\nมุกดาหาร\nมุกุระ\nมุข\nมุขเด็จ\nมุขยประโยค\nมุโขโลกนะ\nมุคคะ\nมุง\nมุ่ง\nมุ้ง\nมุจฉา\nมุจนะ\nมุจลินท์\nมุญจนะ\nมุญชะ\nมุฐิ\nมุณฑกะ\nมุณฑะ\nมุด\nมุตกิด\nมุตฆาต\nมุตตะ\nมุตตา\nมุตติ\nมุตะ\nมุติ\nมุททา\nมุทธชะ\nมุทธา\nมุทธาภิเษก\nมุทรา\nมุทริกา\nมุทะลุ\nมุทา\nมุทิกา\nมุทิงค์\nมุทิตา\nมุทุ\nมุทุตา\nมุ่น\nมุนิ\nมุนินทร์\nมุนี\nมุบ\nมุบมิบ\nมุม\nมุ้ม\nมุ่ย\nมุรธา\nมุรธาภิเษก\nมุสละ\nมุสลิม\nมุสา\nมุสิก\nมุหงิด\nมุหน่าย\nมุหุต\nมุฮัมมัด\nมูก\nมูเซอ\nมูตร\nมู่ทู่\nมูน\nมูมมาม\nมูรติ\nมูรธา\nมูรธาภิเษก\nมูล\nมูละ\nมูลา\nมูลิกากร\nมู่ลี่\nมู่เล่\nมูสัง\nมูสิก\nมูสิกะ\nมูสิกทันต์\nเม\nเม็ก\nเมกะเฮิรตซ์\nเมขลา\nเมฆ\nเมฆา\nเมฆินทร์\nเมฆี\nเม็ง\nเม็ด\nเมตตา\nเมตไตรย\nเมตร\nเมตริก\nเมตริกตัน\nเมถุน\nเมท\nเมโท\nเมทนี\nเมทินี\nเมทนีดล\nเมทานอล\nเมทิลแอลกอฮอล์\nเมธ\nเมธา\nเมธาวี\nเมธี\nเมน\nเม่น\nเม้น\nเมนเดลีเวียม\nเมนทอล\nเม้ม\nเมรัย\nเมริเดียน\nเมรุ\nเมล์\nเมล็ด\nเมลือง\nเมษ\nเมษายน\nเมห์\nเมหนะ\nเมหะ\nเมะ\nเมา\nเม่า\nเม้า\nเมารี\nเมาลี\nเมาฬี\nเมาะ\nเมิง\nเมิน\nเมิล\nเมีย\nเมียง\nเมี่ยง\nเมี้ยน\nเมือ\nเมื้อ\nเมื่อ\nเมือก\nเมือง\nเมือบ\nเมื่อย\nแม่\nแม้\nแมก\nแมกนีเซียม\nแมง\nแมงกะพรุน\nแมงกานิน\nแมงกานีส\nแมงคา\nแมงคาเรือง\nแมงช้าง\nแมงดา\nแมงลัก\nแม่ตะงาว\nแมน\nแม่น\nแม้น\nแมลง\nแมลบ\nแมว\nแม้ว\nแมะ\nโม\nโม่\nโม้\nโมก\nโมกข์\nโมกษะ\nโมฆกรรม\nโมฆสัญญา\nโมฆะ\nโมฆียกรรม\nโมฆียะ\nโมง\nโม่ง\nโมงครุ่ม\nโมทนา\nโมโนแซ็กคาไรด์\nโมไนย\nโมเม\nโมเมนต์\nโมเย\nโมรา\nโมรี\nโมเรส\nโมลิบดีนัม\nโมลี\nโมเลกุล\nโมเสก\nโมเสส\nโม่ห์\nโมหะ\nโมหันธ์\nโมหาคติ\nโมโห\nไม่\nไม้\nไมกา\nไมครอน\nไมโครกรัม\nไมโครฟิล์ม\nไมโครโฟน\nไมโครมิเตอร์\nไมโครเมตร\nไมโครลิตร\nไมโครเวฟ\nไมตรี\nไมยราบ\nไมล์\nยก\nยกกระบัตร\nยกนะ\nยง\nยงโย่\nยชุรเวท\nยติ\nยติภังค์\nยถากรรม\nยถาภูตญาณ\nย่น\nยนต์\nยนตร์\nยม\nยมก\nยมโดย\nยมนา\nยมล\nยมะ\nยรรยง\nยล\nยวง\nยวด\nยวน\nยวบ\nย้วย\nยวรยาตร\nยศ\nยโส\nยอ\nย่อ\nยอก\nย็อกแย็ก\nยอง\nย่อง\nย้อง\nยอด\nยอน\nย้อน\nยอบ\nยอม\nย่อม\nย้อม\nย่อย\nย้อย\nย้อแย้\nยะ\nย่ะ\nยะยอบ\nยะยับ\nยัก\nยักข์\nยักขินี\nยักษ์\nยักษา\nยักษิณี\nยักษี\nยัง\nยั้ง\nยั่งยืน\nยัชโญปวีต\nยัญ\nยัญญะ\nยัด\nยัติภังค์\nยัน\nยั่น\nยันต์\nยันตร\nยันตร์\nยันตรกรรม\nยั่นตะนี\nยับ\nยั่ว\nยั้ว\nยั้วเยี้ย\nยัวรยาตร\nยัวะ\nยัษฏิ\nยา\nย่า\nยาก\nยาคุ\nยาคู\nยาง\nย่าง\nยางพารา\nยาจก\nยาจนา\nยาไฉน\nยาด\nยาดา\nยาตร\nยาตรา\nยาน\nย่าน\nย่านพาโหม\nยานมาศ\nยานุมาศ\nยานี\nยาม\nย่าม\nยามะ\nยามักการ\nยามา\nยาย\nย้าย\nยายี\nยาว\nย้าว\nยาวกาลิก\nยาวชีวิก\nยาสูบ\nย่าหยา\nยาหยี\nยำ\nย่ำ\nย้ำ\nยำเยีย\nยิก\nยิง\nยิ่ง\nยิฏฐะ\nยิน\nยิบ\nยิบหยี\nยิปซัม\nยิปซี\nยิ้ม\nยิมนาสติก\nยิหวา\nยี\nยี่\nยี้\nยี่ก่า\nยี่เก\nยี่เข่ง\nยี่โถ\nยีน\nยี่โป้\nยี่ภู่\nยีราฟ\nยี่สก\nยี่สง\nยี่สน\nยี่สาน\nยี่สุ่น\nยี่หระ\nยี่หร่า\nยี่ห้อ\nยี่หุบ\nยึกยัก\nยึกยือ\nยึด\nยืด\nยืน\nยื่น\nยืม\nยื้อ\nยุ\nยุกกระบัตร\nยุกดิ\nยุกติ\nยุกติธรรม\nยุกต์\nยุค\nยุคนธร\nยุคล\nยุคันต์\nยุคันธร\nยุคุนธร\nยุง\nยุ่ง\nยุ้ง\nยุด\nยุต\nยุติ\nยุทธ\nยุทธ์\nยุทธนา\nยุทโธปกรณ์\nยุบ\nยุ่บ\nยุ่บยั่บ\nยุบล\nยุพดี\nยุพเรศ\nยุพา\nยุพาน\nยุพาพาล\nยุพาพิน\nยุ่มย่าม\nยุ่ย\nยุ้ย\nยุรยาตร\nยูรยาตร\nยุวชน\nยุวดี\nยุวราช\nยุวา\nยุวาน\nยู\nยู่\nยูง\nยูโด\nยูถะ\nยูถิกา\nยูริก\nยูเรนัส\nยูเรเนียม\nยูโรเพียม\nเย\nเย้\nเยง\nเยซู\nเย็ด\nเย็น\nเย็นตาโฟ\nเย็นเตาโฟ\nเย็บ\nเย้ย\nเยอ\nเย่อ\nเยอรมัน\nเยอว\nเย่อหยิ่ง\nเยอะ\nเยอะแยะ\nเยา\nเย้า\nเยาว์\nเยาวชน\nเยาวมาลย์\nเยาวยอด\nเยาวราช\nเยาวเรศ\nเยาวลักษณ์\nเยาวพา\nเยาวพาณี\nเยาวพาน\nเยาะ\nเยิง\nเยิน\nเยิ่น\nเยิ่นเย้อ\nเยินยอ\nเยิบ\nเยิบยาบ\nเยิ้ม\nเยีย\nเยี่ยง\nเยี่ยงอย่าง\nเยียงผา\nเยียดยัด\nเยียน\nเยียบ\nเยี่ยม\nเยียรบับ\nเยียรยง\nเยียว\nเยี่ยว\nเยียวยา\nเยือ\nเยื่อ\nเยื้อ\nเยือก\nเยือง\nเยื่อง\nเยื้อง\nเยือน\nเยื้อน\nแย่\nแย้\nแยก\nแยง\nแย่ง\nแย้ง\nแยงแย่\nแยงแย้\nแยบ\nแย็บ\nแยม\nแย้ม\nแยแส\nแยะ\nโย\nโย้\nโยก\nโยกเยก\nโยคาพจร\nโยคาวจร\nโยคเกณฑ์\nโยคยะ\nโยคะ\nโยคิน\nโยคี\nโยง\nโย่ง\nโย่งเย่ง\nโยงโย่\nโยชน์\nโยชนา\nโยถิกะ\nโยทะกา\nโยธวาทิต\nโยธา\nโยธิน\nโยน\nโยนก\nโยนิโส\nโยนี\nโยม\nโยโส\nใย\nไย\nไย่\nไยดี\nไยไพ\nรก\nรง\nรงค์\nรงควัตถุ\nรงรอง\nรจนา\nรจเรข\nรจเลข\nรจิต\nรชตะ\nรชนิ\nรชนี\nรชะ\nรณรงค์\nรด\nรดี\nรตนะ\nรตะ\nรติ\nรถ\nรน\nร่น\nรบ\nรบาญ\nรพี\nรม\nร่ม\nรมณี\nรมณีย์\nรมณียสถาน\nรมย์\nรมเยศ\nรยางค์\nรวก\nรวง\nร่วง\nรวด\nรวน\nรวนเร\nร่วน\nรวบ\nรวม\nร่วม\nรวย\nรวิ\nรวิวาร\nรวี\nรศนา\nรส\nรสนา\nรสสุคนธ์\nรสายนเวท\nรสิก\nรหัท\nรหัส\nรโห\nรโหฐาน\nรอ\nร่อ\nรอก\nรอง\nร่อง\nร้อง\nรองเง็ง\nร่องแร่ง\nรอด\nรอน\nร่อน\nร้อน\nรอบ\nรอบคอบ\nรอม\nรอมชอม\nรอมร่อ\nรอย\nร่อย\nร้อย\nร่อแร่\nระ\nระกะ\nระกา\nระกำ\nระเกะระกะ\nระคน\nระคาง\nระคาย\nระแคะ\nระฆัง\nระงม\nระงับ\nระแง้\nระโงกหิน\nระชวย\nระดม\nระดะ\nระดับ\nระดา\nระด่าว\nระดู\nระเด่น\nระเดียง\nระแด\nระตู\nระทก\nระทด\nระทม\nระทวย\nระทา\nระทึก\nระแทะ\nระนาด\nระนาบ\nระนาม\nระนาว\nระเนน\nระเนระนาด\nระเนียด\nระแนง\nระแนะ\nระบบ\nระบม\nระบอบ\nระบัด\nระบับ\nระบาด\nระบาย\nระบำ\nระบิล\nระบือ\nระบุ\nระเบง\nระเบ็ง\nระเบิด\nระเบียง\nระเบียน\nระเบียบ\nระแบบ\nระมัดระวัง\nระมาด\nระเมียร\nระย่อ\nระย่อม\nระยะ\nระยั้ง\nระยับ\nระย้า\nระยาบ\nระยำ\nระยิบระยับ\nระโยง\nระโยงระยาง\nระรวย\nระรอง\nระร่อน\nระรัว\nระราน\nระร่าย\nระริก\nระรี่\nระรึง\nระรื่น\nระรื้น\nระเร้ง\nระเริง\nระเรียง\nระเรื่อย\nระแรง\nระลวง\nระลอก\nระลึก\nระวัง\nระวาง\nระวาย\nระวิง\nระแวง\nระแวดระวัง\nระไว\nระส่ำระสาย\nระหกระเหิน\nระหง\nระหวย\nระหว่าง\nระหองระแหง\nระหัด\nระหาย\nระเห็จ\nระเหย\nระเหระหน\nระเหหน\nระเหิด\nระเหินระหก\nระแหง\nระโหย\nระอา\nระอิดระอา\nระอุ\nรัก\nรักข์\nรักขิต\nรักตะ\nรักบี้\nรักเร่\nรักแร้\nรักษ์\nรักษา\nรัง\nรั้ง\nรังเกียจ\nรังแก\nรังค์\nรังควาน\nรังแค\nรังรอง\nรังวัด\nรังสิ\nรังสี\nรังสิมันตุ์\nรังสิมา\nรัจฉา\nรัช\nรัชชูปการ\nรัชมังคลาภิเษก\nรัชชุ\nรัชฎาภิเษก\nรัชดาภิเษก\nรัชนะ\nรัชนี\nรัญจวน\nรัฏฐาภิปาลโนบาย\nรัฐ\nรัฐประศาสโนบาย\nรัฐประศาสนศาสตร์\nรัด\nรัต\nรัตกัมพล\nรัตมณี\nรัตคน\nรัตจันทน์\nรัตตัญญู\nรัตติ\nรัตน์\nรัตนะ\nรัตนโกสินทร์\nรัตนโกสินทรศก\nรัตนชาติ\nรัตนตรัย\nรัตนบัลลังก์\nรัตนวราภรณ์\nรัตนสิงหาสน์\nรัตนา\nรัตนากร\nรัตนาภรณ์\nรัตนาวลี\nรัตมา\nรัถ\nรัถยา\nรัทเทอร์ฟอร์เดียม\nรัน\nรั้น\nรันทด\nรันทวย\nรับ\nรัมณียสถาน\nรัมภา\nรัมมี่\nรัมย์\nรัย\nรัว\nรั่ว\nรั้ว\nรัศมิมัต\nรัศมิมาน\nรัศมี\nรัษฎากร\nรัสเซีย\nรัสสะ\nรัสสระ\nรา\nร่า\nร้า\nราก\nรากษส\nรากสาด\nราคะ\nราคจริต\nราคา\nราคิน\nราคี\nราง\nร่าง\nร้าง\nรางจืด\nรางชาง\nรางวัล\nราช\nราชกิจจานุเบกษา\nราชนิกุล\nราชวโรงการ\nราชญี\nราชดัด\nราชพฤกษ์\nราชมาณพ\nราชมาษ\nราชมาส\nราชย์\nราชสีห์\nราชะ\nราชัน\nราชันย์\nราชัย\nราชา\nราชาธิปไตย\nราชาธิราช\nราชาภิเษก\nราชายตนะ\nราชาวดี\nราชี\nราชินิกุล\nราชินีกุล\nราชินี\nราชินูปถัมภ์\nราชูปถัมภ์\nราชูปโภค\nราเชน\nราเชนทร์\nราเชนทรยาน\nราโชวาท\nราไชศวรรย์\nราญ\nราญรอน\nราด\nราต\nราตร\nราตรี\nราน\nร่าน\nร้าน\nราบ\nราพณ์\nราพณาสูร\nราม\nรามเกียรติ์\nรามสูร\nรามัญ\nรามา\nราย\nร่าย\nร้าย\nราว\nร้าว\nราวี\nราศี\nราษฎร\nราษฎร์\nราษตรี\nราษราตรี\nราหุ\nราหู\nรำ\nร่ำ\nรำคาญ\nรำงับ\nรำจวน\nรำบาญ\nรำพัน\nรำพาย\nรำพึง\nรำเพย\nรำไพ\nรำมะนา\nรำมะนาด\nรำมะร่อ\nร่ำรวย\nร่ำร่ำ\nรำไร\nรำลึก\nรำหัด\nรำหัส\nริ\nริก\nริดสีดวง\nริน\nริ้น\nริบ\nริบบิ้น\nริบรี่\nริบหรี่\nริปุ\nริปู\nริม\nริ้ว\nริษยา\nรี\nรี่\nรี้พล\nรีด\nรีดักชัน\nรีต\nรีเนียม\nรีบ\nรีม\nรีรอ\nรี้ริก\nรึง\nรึ้ง\nรื่น\nรื้น\nรื้อ\nรุ\nรุก\nรุกข์\nรุกขชาติ\nรุกขเทวดา\nรุกขมูล\nรุกขา\nรุกรุย\nรุ่ง\nรุ้ง\nรุงรัง\nรุ่งริ่ง\nรุจ\nรุจา\nรุจนะ\nรุจิ\nรุจี\nรุจิระ\nรุจิรา\nรุด\nรุต\nรุทธ์\nรุทระ\nรุธิร\nรุธิระ\nรุเธียร\nรุน\nรุ่น\nรุบรู่\nรุม\nรุ่ม\nรุ่มร่าม\nรุย\nรุ่ย\nรุรุ\nรุหะ\nรู\nรู่\nรู้\nรูจี\nรูด\nรูทีเนียม\nรูบิเดียม\nรูป\nรูปิยะ\nรูปี\nรูเล็ตต์\nเร่\nเรข\nเรขา\nเรขาคณิต\nเร็ง\nเร่ง\nเร้ง\nเรณุ\nเรณู\nเรดอน\nเรดาร์\nเรเดียม\nเร้น\nเรรวน\nเรไร\nเร็ว\nเร่ว\nเรวดี\nเรอ\nเร่อ\nเรา\nเร่า\nเร้า\nเราะ\nเริง\nเริด\nเริม\nเริ่ม\nเริ้ม\nเริศร้าง\nเรี่ย\nเรี้ย\nเรียก\nเรียง\nเรียด\nเรียน\nเรียบ\nเรียม\nเรี่ยม\nเรียว\nเรี่ยว\nเรี้ยวรก\nเรือ\nเรื่อ\nเรื้อ\nเรือก\nเรือง\nเรื่อง\nเรื้อง\nเรืองรอง\nเรือด\nเรือน\nเรื้อน\nเรื่อย\nแร\nแร่\nแรก\nแร็กเกต\nแรง\nแร่ง\nแร้ง\nแรด\nแร้นแค้น\nแรม\nแร้ว\nแระ\nโร\nโร่\nโรค\nโรคา\nโรคาพาธ\nโรง\nโรจ\nโรจน์\nโรเดียม\nโรตี\nโรท\nโรธ\nโรม\nโรมัน\nโรเมอร์\nโรย\nโรเร\nโรหิณี\nโรหิต\nไร\nไร่\nไร้\nไรย์\nฤกษ์\nฤกษณะ\nฤคเวท\nฤชา\nฤชุ\nฤณ\nฤดี\nฤดียา\nฤดู\nฤต\nฤติยา\nฤตุ\nฤทธา\nฤทธิ์\nฤทัย\nฤษภ\nฤษยา\nฤษี\nฤๅ\nฤๅดี\nฤๅทัย\nฤๅษี\nฤๅสาย\nลก\nล่ก\nลฆุ\nลง\nล่ง\nลงกา\nล้งเล้ง\nลด\nลดา\nลดาวัลย์\nลน\nล้น\nลบ\nลบอง\nลพ\nลพุช\nลม\nล่ม\nล้ม\nลมาด\nลรรลุง\nลลนา\nลลิต\nลวก\nลวง\nล่วง\nล้วง\nลวณะ\nลวด\nล้วน\nลวนลาม\nลวนะ\nล่วม\nลวะ\nลวิตร\nลหุ\nลหุกาบัติ\nล่อ\nล้อ\nลอก\nล็อก\nล็อกเกต\nลอกแลก\nลอการิทึม\nลอง\nล่อง\nลองกอง\nลองจิจูด\nลองไน\nลอด\nลอตเตอรี่\nลอน\nล่อน\nลอบ\nลอม\nล้อม\nลอมชอม\nลอมพอก\nลอย\nล่อย\nล่อแล่\nลอว์เรนเซียม\nลออ\nละ\nล่ะ\nละคร\nละติจูด\nละบม\nละบอง\nละบือ\nละเบ็ง\nละโบม\nละม่อม\nละมั่ง\nละมาน\nละม้าย\nละมุ\nละมุด\nละมุน\nละเมอ\nละเมาะ\nละเมิด\nละเมียด\nละแมะ\nละโมก\nละโมบ\nละไม\nละลวย\nละลอก\nละล้า\nละล้าละลัง\nละลาน\nละลาบละล้วง\nละลาย\nละล้าว\nละล่ำละลัก\nละลิบ\nละลุม\nละเลง\nละเล้า\nละเลาะ\nละเลิง\nละเลียด\nละเลียบ\nละไล้\nละว้า\nละวาด\nละเวง\nละแวก\nละโว้\nละหมาด\nละห้อย\nละหาน\nละหาร\nละหุ่ง\nละเหย\nละเหี่ย\nละอง\nละออง\nละอาย\nละเอียด\nละแอน\nลัก\nลักขณะ\nลักขณา\nลักขะ\nลักขี\nลักจั่น\nลักปิดลักเปิด\nลักษณ์\nลักษณนาม\nลักษณะ\nลักษณาการ\nลักษมณ์\nลักษมาณา\nลักษมี\nลักษะ\nลัคคะ\nลัคน์\nลัคนา\nลัง\nลั่ง\nลังกา\nลังคี\nลังถึง\nลังลอง\nลังเล\nลังสาด\nลัชชา\nลัชชี\nลัญจ์\nลัญจกร\nลัญฉกร\nลัญฉน์\nลัฐิ\nลัฐิกา\nลัด\nลัดา\nลัทธ์\nลัทธิ\nลัน\nลั่น\nลันเต\nลันเตา\nลันไต\nลั่นทม\nลันโทม\nลับ\nลัพธ์\nลัพธิ\nลัภ\nลัภนะ\nลัภย์\nลัมพ์\nลัย\nลา\nล่า\nล้า\nลาก\nลาง\nล่าง\nล้าง\nลางลิง\nลางสาด\nลาช\nลาชะ\nลาชา\nลาญ\nลาด\nลาดเลา\nล้าต้า\nล่าเตียง\nลาน\nล่าน\nล้าน\nลาบ\nลาพอน\nลาภ\nลาม\nล่าม\nลามก\nลาย\nล้าย\nลายสือ\nลาลา\nลาว\nลาวัณย์\nลาวา\nลำ\nล่ำ\nล้ำ\nลำเข็ญ\nลำแข\nลำเค็ญ\nลำเจียก\nลำดวน\nลำดับ\nลำเนา\nลำบอง\nลำบาก\nลำปำ\nลำพวน\nลำพอง\nลำพัง\nลำพู\nลำเพ็ญ\nลำเพา\nลำแพน\nลำโพง\nลำไพ่\nลำภุขัน\nลำมะลอก\nลำยอง\nลำไย\nลำลอง\nล่ำลา\nลำลาบ\nลำลึก\nลำเลาะ\nลำเลิก\nลำเลียง\nลำเวียง\nลำเอียก\nลำเอียง\nลิ\nลิกขา\nลิกไนต์\nลิกู\nลิเก\nลิขนะ\nลิขสิทธิ์\nลิขิต\nลิง\nลิงค์\nลิด\nลิต\nลิตมัส\nลิตร\nลิเทียม\nลิ่น\nลิ้น\nลินจง\nลิ้นจี่\nลินลา\nลินสีด\nลิ่นฮื้อ\nลินิน\nลิบ\nลิปดา\nลิปสติก\nลิปิ\nลิฟต์\nลิเภา\nลิ่ม\nลิ้ม\nลิมป์\nลิมปนะ\nลิลิต\nลิว\nลิ่ว\nลิสง\nลี\nลี่\nลี้\nลีซอ\nลีบ\nลีลา\nลีลาศ\nลีฬหา\nลึก\nลึงค์\nลืด\nลื่น\nลื้น\nลืบ\nลืม\nลือ\nลื่อ\nลื้อ\nลุ\nลุก\nลุง\nลุ้ง\nลุ่น\nลุ้น\nลุพธ์\nลุ่ม\nลุมพี\nลุมพู\nลุย\nลุ่ย\nลุ้ย\nลู่\nลูก\nลูกระมาศ\nลูกเอ็น\nลูขะ\nลูทีเชียม\nลูบ\nเลก\nเล็ก\nเลข\nเลขา\nเลขาธิการ\nเลขานุการ\nเล็ง\nเล้ง\nเล่งฮื้อ\nเลเซอร์\nเลฑฑุ\nเลณฑุ\nเลณะ\nเล็ด\nเลน\nเล็น\nเล่น\nเลนส์\nเล็บ\nเลบง\nเลปกร\nเลปน์\nเลเป\nเลเพ\nเล็ม\nเล่ม\nเลย\nเลว\nเลวง\nเลวูโลส\nเลศ\nเลษฏุ\nเล่ห์\nเล่ห์กระเท่ห์\nเลหลัง\nเลหะ\nเลอ\nเล่อ\nเลอะ\nเลอะเทอะ\nเละ\nเละเทะ\nเลา\nเล่า\nเล้า\nเลากัย\nเล้าโลม\nเลาะ\nเลิก\nเลิ่กลั่ก\nเลิง\nเลิ้ง\nเลินเล่อ\nเลิศ\nเลีย\nเลียง\nเลี่ยง\nเลี้ยง\nเลียงผา\nเลียงฝ้าย\nเลียงมัน\nเลียน\nเลี่ยน\nเลียนไฟ\nเลียบ\nเลี่ยม\nเลียว\nเลี้ยว\nเลือก\nเลือง\nเลื่อง\nเลือด\nเลือน\nเลื่อน\nเลื่อม\nเลื่อย\nเลื้อย\nเลื่อยล้า\nแล\nแล่\nแล้\nแลก\nแล็กเกอร์\nแล็กโทส\nแลง\nแล่ง\nแล้ง\nแลน\nแล่น\nแลนทานัม\nแลบ\nแล้ว\nและ\nโล่\nโล้\nโลก\nโลกเชษฐ์\nโลกธรรม\nโลกธาตุ\nโลกนาถ\nโลกบาล\nโลกย์\nโลกัย\nโลกวัชชะ\nโลกวิทู\nโลกัตถจริยา\nโลกันตร์\nโลกา\nโลกาธิบดี\nโลกาธิปไตย\nโลกานุวัตร\nโลกาภิวัตน์\nโลกามิส\nโลกายัต\nโลกาวินาศ\nโลกิยะ\nโลกีย์\nโลกียวัตร\nโลกียวิสัย\nโลกียสุข\nโลกุตระ\nโลกุตรธรรม\nโลกุตรภูมิ\nโลง\nโล่ง\nโล้ง\nโล่งโจ้ง\nโล่งโต้ง\nโล้งโต้ง\nโลจนะ\nโลณะ\nโลด\nโล่ติ๊น\nโลโต\nโลท\nโลน\nโล้น\nโลภ\nโลม\nโลมเล้า\nโลมะ\nโลมา\nโลลุป\nโลเล\nโลโล\nโลโล้\nโลหะ\nโลหกุมภี\nโลหัช\nโลหิต\nไล่\nไล้\nไลย\nไลลา\nไล่เลี่ย\nฦๅ\nฦๅชา\nฦๅสาย\nวก\nวง\nวงก์\nวงกต\nวงศ์\nวงศกร\nวงศา\nวงษ์\nวจนะ\nวจี\nวชิระ\nวชิรปาณี\nวชิรหัตถ์\nวชิราวุธ\nวฏะ\nวฏาการ\nวณิช\nวณิชชา\nวณิชย์\nวณิชยา\nวณิพก\nวดี\nวทนะ\nวทัญญุตา\nวทัญญู\nวธุกา\nวธู\nวน\nวนศาสตร์\nวนสณฑ์\nวนสัณฑ์\nวนอุทยาน\nวนัส\nวนัสบดี\nวนา\nวนาดร\nวนาดอน\nวนานต์\nวนาลัย\nวนาลี\nวนาวาส\nวนาศรม\nวนาสณฑ์\nวนาสัณฑ์\nวนิดา\nวนิพก\nวเนจร\nวโนทยาน\nวยัคฆ์\nวยากรณ์\nวรดนู\nวรทาน\nวรมหาวิหาร\nวรงค์\nวรณะ\nวรรค\nวรรคย์\nวรรช\nวรรชย์\nวรรณะ\nวรรณกรรม\nวรรณคดี\nวรรณยุกต์\nวรรณยุต\nวรรณศิลป์\nวรรณนา\nวรรณพฤติ\nวรรณึก\nวรรธกะ\nวรรธนะ\nวรรษ\nวรรษา\nวรวิหาร\nวรัญญู\nวรางคณา\nวรางคนา\nวราห์\nวราหะ\nวรุณ\nวโรดม\nวฤก\nวลัช\nวลัญช์\nวลัญชน์\nวลัย\nวลาหก\nวลี\nวศค\nวศะ\nวศิน\nวสนะ\nวสภะ\nวสละ\nวสวัดดี\nวสวัตตี\nวสะ\nวสันต์\nวสันตดิลก\nวสันตฤดู\nวสันตวิษุวัต\nวสา\nวสี\nวสุ\nวสุธา\nวสุนธรา\nวสุมดี\nวหะ\nวอ\nวอก\nวอกแวก\nว่องไว\nวอด\nวอน\nว่อน\nว็อบ\nวอมแวม\nวอลเลย์บอล\nวอแว\nวะ\nวัก\nวักกะ\nวัคคีย์\nวัคคุ\nวัคซีน\nวัง\nวังก์\nวังชา\nวังเวง\nวังศะ\nวังสะ\nวัจจะ\nวัจกุฎี\nวัจฉละ\nวัจน์\nวัช\nวัชชะ\nวัชพืช\nวัชฌ์\nวัชระ\nวัชรปาณี\nวัชรยาน\nวัชรอาสน์\nวัชราสน์\nวัชรินทร์\nวัชรี\nวัชเรนทร์\nวัฏ\nวัฏฏะ\nวัฏจักร\nวัฏทุกข์\nวัฏสงสาร\nวัฏกะ\nวัฏฏิ\nวัฒกะ\nวัฒกี\nวัฒนธรรม\nวัฒนะ\nวัฒนา\nวัณ\nวัณโรค\nวัณฏ์\nวัณณะ\nวัณนา\nวัด\nวัต\nวัตต์\nวัตตา\nวัตถ์\nวัตถาภรณ์\nวัตถาลังการ\nวัตถุ\nวัตนะ\nวัตร\nวัตสดร\nวัตสะ\nวัติ\nวัทน์\nวัน\nวันต์\nวันทนา\nวันทนาการ\nวันทนีย์\nวันทยหัตถ์\nวันทยาวุธ\nวันทา\nวันทิ\nวับ\nวับวาบ\nวับวาม\nวับแวบ\nวับแวม\nวัปปะ\nวัมมิกะ\nวัย\nวัลก์\nวัลคุ\nวัลย์\nวัลลภ\nวัลลี\nวัว\nวัสสะ\nวัสโสทก\nวัสดุ\nวัสตร์\nวัสน์\nวัสนะ\nวัสสานะ\nวัสสานฤดู\nวา\nว่า\nว้า\nว้าเหว่\nวาก\nว้าก\nวากยสัมพันธ์\nวากยะ\nวาง\nว่าง\nว้าง\nวาจก\nวาจา\nวาจาไปยะ\nวาจาล\nวาชเปยะ\nวาณิช\nวาณิชกะ\nวาณิชย์\nวาณี\nวาด\nวาต\nวาตะ\nวาตภัย\nวาท\nวาทศาสตร์\nวาทศิลป์\nวาทกะ\nวาทนะ\nวาทย์\nวาทยกร\nวาทิต\nวาทิน\nวาที\nวาน\nวานซืน\nว่าน\nวานร\nวานรินทร์\nวาเนเดียม\nวาบ\nวาปี\nวาม\nวามน\nวามนาวตาร\nวามะ\nวาย\nว่าย\nว้าย\nวายะ\nวาโย\nวายามะ\nวายุ\nวายุกูล\nวาร\nวาระ\nวารสาร\nวารสารศาสตร์\nวาริ\nวารี\nวาริช\nวารีช\nวาริท\nวาริธร\nวารุณ\nวารุณี\nวาล\nวาลวีชนี\nวาล์ว\nวาลิกา\nวาลุกา\nวาว\nว่าว\nว้าว่อน\nว้าวุ่น\nวาสนะ\nวาสนา\nวาสพ\nวาสะ\nวาสิน\nวาสี\nวาสุกรี\nวาสุกี\nวาสุเทพ\nวาหนะ\nวาหะ\nวาหินี\nวาฬ\nวิกขัมภ์\nวิกขัมภนะ\nวิกเขป\nวิกรม\nวิกรัย\nวิกรานต์\nวิกฤต\nวิกฤติ\nวิกล\nวิกสิต\nวิกัต\nวิกัติ\nวิกัติการก\nวิกัป\nวิกัย\nวิการ\nวิกาล\nวิกาลโภชน์\nวิคหะ\nวิเคราะห์\nวิฆเนศ\nวิฆเนศวร\nวิฆาต\nวิง\nวิ่ง\nวิ่งเปี้ยว\nวิงวอน\nวิจฉิกะ\nวิจล\nวิจักขณ์\nวิจักษ์\nวิจักษณ์\nวิจัย\nวิจาร\nวิจารณ์\nวิจารณญาณ\nวิจิ\nวิจิกิจฉา\nวิจิต\nวิจิตร\nวิจิน\nวิจุณ\nวิจุรณ\nวิชชา\nวิชชุ\nวิชชุดา\nวิชชุตา\nวิชชุลดา\nวิชญะ\nวิชน\nวิชนี\nวิชย\nวิชัย\nวิชา\nวิชานนะ\nวิชิต\nวิเชียร\nวิญญัตติ\nวิญญาณ\nวิญญาณกทรัพย์\nวิญญู\nวิฑูรย์\nวิด\nวิตก\nวิตถาร\nวิตามิน\nวิถี\nวิทธะ\nวิทยฐานะ\nวิทยา\nวิทยาคม\nวิทยาคาร\nวิทยาลัย\nวิทยุ\nวิทยุต\nวิทวัส\nวิทัตถิ\nวิทัศน์\nวิทารณ์\nวิทิต\nวิทู\nวิทูร\nวิเทศ\nวิเทโศบาย\nวิธ\nวิธวา\nวิธาน\nวิธี\nวิธุระ\nวิธู\nวิธูปนะ\nวิ่น\nวินตกะ\nวินัย\nวินาที\nวินายก\nวินาศ\nวินิจ\nวินิจฉัย\nวินิต\nวินิบาต\nวินิปาติก\nวิเนต\nวิบัติ\nวิบาก\nวิบุล\nวิบุลย์\nวิบูล\nวิบูลย์\nวิปการ\nวิปฏิสาร\nวิปโยค\nวิประโยค\nวิปริต\nวิปลาส\nวิปวาส\nวิปักษ์\nวิปัสสก\nวิปัสสนา\nวิปัสสนายานิก\nวิพากษ์\nวิพิธทัศนา\nวิพุธ\nวิภว\nวิภวตัณหา\nวิภังค์\nวิภัช\nวิภัตติ\nวิภา\nวิภาค\nวิภาช\nวิภาดา\nวิภาวี\nวิภาษ\nวิภาส\nวิภู\nวิภูษณะ\nวิภูษา\nวิภูษิต\nวิมน\nวิมล\nวิมลัก\nวิมังสา\nวิมัติ\nวิมาน\nวิมุข\nวิมุต\nวิมุตติ\nวิเมลือง\nวิโมกข์\nวิโยค\nวิระ\nวิรงรอง\nวิรังรอง\nวิรัช\nวิรัต\nวิรัติ\nวิราคะ\nวิราม\nวิริยภาพ\nวิริยะ\nวิรุธ\nวิรุฬห์\nวิรุฬหก\nวิรูป\nวิรูปักษ์\nวิเรนทร์\nวิโรจ\nวิโรจน์\nวิโรฒ\nวิโรธ\nวิลันดา\nวิลัย\nวิลาด\nวิลาศ\nวิลาป\nวิลาวัณย์\nวิลาส\nวิลาสินี\nวิลิปดา\nวิลิศมาหรา\nวิเลป\nวิเลปนะ\nวิโลกนะ\nวิโลม\nวิไล\nวิไลวรรณ\nวิวรณ์\nวิวรรธน์\nวิวัฏ\nวิวัฒน์\nวิวัฒนาการ\nวิวัน\nวิวาท\nวิวาห์\nวิวาหมงคล\nวิวาหะ\nวิวิต\nวิวิธ\nวิเวก\nวิศรุต\nวิศว\nวิศวกร\nวิศวกรรม\nวิศวกรรมศาสตร์\nวิศัลย์\nวิศาขบูชา\nวิศาขา\nวิศาล\nวิศิษฏ์\nวิศุทธ์\nวิศุทธิ์\nวิเศษ\nวิเศษณ์\nวิษณุ\nวิษณุกรรม\nวิษธร\nวิษัย\nวิษาณ\nวิษุวัต\nวิสกี้\nวิสรรชนีย์\nวิสฤต\nวิสสุกรรม\nวิสัชนา\nวิสัญญี\nวิสัย\nวิสัยทัศน์\nวิสาขบูชา\nวิสาขะ\nวิสาขา\nวิสามัญ\nวิสามานยนาม\nวิสาร\nวิสารทะ\nวิสาล\nวิสาสะ\nวิสาหกิจ\nวิสิฐ\nวิสุงคามสีมา\nวิสุทธ์\nวิสุทธิ์\nวิสูตร\nวิเสท\nวิหค\nวิหลั่น\nวิหาร\nวิหิงสา\nวิเหสา\nวิฬาร\nวิฬาร์\nวี\nวีจิ\nวีชนี\nวีณา\nวี้ด\nวีรกรรม\nวีรชน\nวีรบุรุษ\nวีรสตรี\nวี่วัน\nวี่แวว\nวีสะ\nวุ้ง\nวุฐิ\nวุฒ\nวุฒิ\nวุด\nวุ่น\nวุ้น\nวุบ\nวุ้ย\nวุลแฟรม\nวู้\nวูดวาด\nวูบ\nวู่วาม\nเว้\nเวค\nเวคิน\nเวคี\nเวจ\nเวช\nเวชยันต์\nเวฐน์\nเวณิ\nเวณิก\nเวณุ\nเวตน์\nเวตร\nเวตาล\nเวท\nเวทคู\nเวทนา\nเวทย์\nเวทัลละ\nเวทางค์\nเวทางคศาสตร์\nเวทานต์\nเวทานตะ\nเวทิ\nเวที\nเวธะ\nเวน\nเว้น\nเวนไตย\nเวไนย\nเวมัต\nเว้ย\nเวยยากรณะ\nเวร\nเวรมณี\nเวรี\nเวโรจน์\nเวลา\nเวเลนซี\nเวศม์\nเวศย์\nเวศยา\nเวสน์\nเวสภู\nเวสม์\nเวสวัณ\nเวสสะ\nเวสสันดร\nเวสสุกรรม\nเวสสุวัณ\nเวสารัช\nเวสิยา\nเวหน\nเวหะ\nเวหา\nเวหาส\nเวฬุ\nเวฬุริยะ\nเว่อ\nเว้า\nเวิก\nเวิ้ง\nเวี่ย\nเวียง\nเวียด\nเวียดนาม\nเวียน\nเวียร\nเวี่ยว\nแว้\nแวง\nแว้ง\nแวด\nแว้ด\nแวน\nแว่น\nแวนดา\nแวบ\nแว็บ\nแวม\nแว็ม\nแวว\nแว่ว\nแวะ\nโว\nโว่\nโวการ\nโว่ง\nโวทาน\nโวย\nโว้ย\nโว้เว้\nโวหาร\nไว\nไว้\nไวกูณฐ์\nไวฑูรย์\nไวทย์\nไวน์\nไวพจน์\nไวยากรณ์\nไวยาวัจกร\nไวยาวัจมัย\nไวรัส\nไววรรณ\nไวษณพ\nไวโอลิน\nศก\nศกุน\nศกุนต์\nศกุนิ\nศกุนี\nศจี\nศตะ\nศตภิษัช\nศตวรรษ\nศตพรรษ\nศตกะ\nศนิ\nศพ\nศมนะ\nศมะ\nศยาม\nศยามล\nศร\nศรายุธ\nศราวรณ์\nศรรกรา\nศรวณะ\nศรวณีย์\nศรวิษฐา\nศรัณย์\nศรัณยู\nศรัท\nศรัทธา\nศรัย\nศราทธ์\nศราทธพรต\nศราพก\nศราวก\nศราวณะ\nศรี\nศรีตรัง\nศรุติ\nศฤคาล\nศฤงค์\nศฤงคาร\nศฤงคาริน\nศฤงคารี\nศลิษฏ์\nศลิษา\nศวะ\nศวัส\nศวา\nศวาน\nศศะ\nศศธร\nศศพินทุ์\nศศลักษณ์\nศศิ\nศศิน\nศศี\nศศิขัณฑ์\nศศิธร\nศศิมณฑล\nศศิวิมล\nศอ\nศอก\nศักดา\nศักดิ\nศักดิ์\nศักดินา\nศักติ\nศักย\nศักยภาพ\nศักย์\nศักยะ\nศักร\nศักรินทร์\nศักเรนทร์\nศักราช\nศังกร\nศัตรู\nศันสนะ\nศันสนีย์\nศัพท์\nศัยยา\nศัล\nศัลย์\nศัลยกรรม\nศัลยแพทย์\nศัลยศาสตร์\nศัสดร\nศัสตร\nศัสตรศาสตร์\nศัสตรา\nศัสตราวุธ\nศากตะ\nศากย\nศากยะ\nศากยพุทธ\nศากยมุนี\nศาฎก\nศาณ\nศานต์\nศานติ\nศาป\nศารท\nศารทูล\nศาริกา\nศาล\nศาลา\nศาศวัต\nศาสดา\nศาสตร์\nศาสตรา\nศาสตราจารย์\nศาสนา\nศาสนกิจ\nศาสนจักร\nศาสนธรรม\nศาสนบุคคล\nศาสนพิธี\nศาสนวัตถุ\nศาสนศาสตร์\nศาสนสถาน\nศาสนสมบัติ\nศาสนิกชน\nศาสนีย์\nศาสนูปถัมภก\nศาสน์\nศิกษก\nศิการ\nศิขร\nศิขริน\nศิขรี\nศิขัณฑ์\nศิคาล\nศิงขร\nศิงขริน\nศิตะ\nศิถี\nศิพิระ\nศิระ\nศิรประภา\nศิราภรณ์\nศิโรรัตน์\nศิโรเวฐน์\nศิรา\nศิรามพุช\nศิโรราบ\nศิลป\nศิลป์\nศิลปะ\nศิลปกร\nศิลปกรรม\nศิลปกิจ\nศิลปวัตถุ\nศิลปวิทยา\nศิลปศาสตร์\nศิลปศึกษา\nศิลปหัตถกรรม\nศิลปิน\nศิลปี\nศิลา\nศิวะ\nศิวโมกข์\nศิวลึงค์\nศิวเวท\nศิวาลัย\nศิศีระ\nศิษฎิ\nศิษฏ์\nศิษย์\nศิษยานุศิษย์\nศีขร\nศีต\nศีตกาล\nศีรษะ\nศีล\nศึก\nศึกษา\nศึกษาธิการ\nศึกษานิเทศก์\nศุกร์\nศุกรวรรณ\nศุกรวาร\nศุกระ\nศุกล\nศุกลปักษ์\nศุจิ\nศุทธะ\nศุทธิ\nศุนะ\nศุนิ\nศุภกร\nศุภเคราะห์\nศุภนิมิต\nศุภมัสดุ\nศุภมาตรา\nศุภมาส\nศุภอักษร\nศุภางค์\nศูกร\nศุลกากร\nศุลการักษ์\nศุลี\nศุษิร\nศูทร\nศูนย์\nศูนยวาท\nศูละ\nศูลิน\nเศรณี\nเศรษฐ\nเศรษฐ์\nเศรษฐกิจ\nเศรษฐศาสตร์\nเศรษฐี\nเศร้า\nเศลษ\nเศวต\nเศวตร\nเศวตัมพร\nเศษ\nเศาจ\nเศาร์\nเศารยะ\nเศิก\nเศียร\nโศก\nโศกา\nโศกาดูร\nโศกาลัย\nโศกี\nโศจิ\nโศธนะ\nโศภน\nโศภะ\nโศภา\nโศภิต\nโศภิน\nโศภิษฐ์\nโศภี\nโศรดา\nโศรตร\nโศลก\nไศล\nไศวะ\nษมา\nษัฏ\nษัฑ\nษัณ\nษัษ\nษัษฐะ\nษัษฐี\nโษฑศัน\nสก\nสกวาที\nสกฏะ\nสกทาคามิผล\nสกิทาคามิผล\nสกทาคามิมรรค\nสกิทาคามิมรรค\nสกทาคามี\nสกิทาคามี\nสกนธ์\nสกปรก\nสกรณีย์\nสกรรจ์\nสกรรมกริยา\nสกล\nสกลมหาสังฆปริณายก\nสกัด\nสกา\nสกาว\nสกี\nสกุณ\nสกุณา\nสกุณี\nสกุน\nสกุนต์\nสกุล\nสเกต\nสแกนเดียม\nสขะ\nสง\nส่ง\nสงกร\nสงกรานต์\nสงกา\nสงค์\nสงคร\nสงคราม\nสงเคราะห์\nสงฆ์\nสงบ\nสงวน\nส่งสการ\nสงสัย\nสงสาร\nสงสารวัฏ\nสงัด\nสง่า\nสฐะ\nสณฑ์\nสด\nสดมภ์\nสดับ\nสดับปกรณ์\nสดำ\nสดุดี\nสตะ\nสตน\nสตภิสชะ\nสตรอนเชียม\nสตริกนิน\nสตรี\nสตัฟฟ์\nสตัมภ์\nสตางค์\nสติ\nสติปัฏฐาน\nสตี\nสตู\nสตูป\nสเต๊ก\nสถบดี\nสถล\nสถวีระ\nสถาน\nสถานะ\nสถานี\nสถาบัน\nสถาปนา\nสถาปนิก\nสถาปัตยกรรม\nสถาปัตยกรรมศาสตร์\nสถาปัตยเรขา\nสถาปัตยเวท\nสถาพร\nสถาวร\nสถิต\nสถิตยศาสตร์\nสถิติ\nสถิร\nสถีรวาท\nสถุล\nสถูป\nสทิง\nสทึง\nสทุม\nสธนะ\nสาธุสะ\nสน\nส้น\nสนทนา\nสนทรรศ\nสนทรรศน์\nสนเทศ\nสนเท่ห์\nสนธยา\nสนธิ\nสนน\nสนม\nสนวน\nสนอง\nสนอบ\nสนอม\nสนะ\nสนัด\nสนั่น\nสนับ\nสนับทึบ\nสนับสนุน\nสนาน\nสนาม\nสนายุ\nสนิกะ\nสนิท\nสนิธ\nสนิม\nสนุก\nสนุกเกอร์\nสนุข\nสนุต\nสนุ่น\nสบ\nสบง\nสบถ\nสบัน\nสบาย\nสบู่\nสไบ\nสปริง\nสปอร์\nสปาเกตตี\nสเปกตรัม\nสเปกโทรสโกป\nสไปริลลัม\nสพาบ\nสภา\nสภาพ\nสภาวการณ์\nสภาวะ\nสม\nสมการ\nสมจารี\nสมดุล\nสมมูล\nส้ม\nสมญา\nสมณะ\nสมณบริขาร\nสมณศักดิ์\nสมณสารูป\nสมเด็จ\nสมถะ\nสมถยานิก\nสมถวิปัสสนา\nสมนาคุณ\nสมบัติ\nสมบุกสมบัน\nสมบูรณ์\nสมบูรณาญาสิทธิราชย์\nสมประดี\nสมปฤดี\nสมปฤๅดี\nส้มป่อย\nสมปัก\nสมผุส\nสมพง\nสมพงศ์\nสมพล\nสมพัตสร\nสมพาส\nสมเพช\nสมโพธน์\nสมโพธิ\nสมภพ\nสมภาร\nสมโภค\nสมโภช\nสมมต\nสมมติ\nสมมุติ\nสมมาตร\nส้มมือ\nสมโมท\nสมโยค\nสมร\nสมรด\nสมรรถ\nสมรรถนะ\nสมรรถภาพ\nสมรส\nสมฤดี\nสมฤติ\nสมวายะ\nสมเสร็จ\nสมอ\nสมอง\nสมะ\nสมัคร\nสมังคี\nสมัช\nสมัชชา\nสมัญญา\nสมัต\nสมัน\nสมันต์\nสมัย\nสมา\nสมาคม\nสมาจาร\nสมาชิก\nสมาทาน\nสมาธิ\nสมาน\nสมานฉันท์\nสมาบัติ\nสมาพันธรัฐ\nสมาส\nสม่ำเสมอ\nสมิง\nสมิต\nสมิติ\nสมิทธ์\nสมิทธิ\nสมี\nสมุก\nสมุจจัย\nสมุจเฉท\nสมุฏฐาน\nสมุด\nสมุทร\nสมุทรโคดม\nสมุทัย\nสมุน\nสมุนไพร\nสมุลแว้ง\nสมุห\nสมุห์\nสมุหกลาโหม\nสมุหเทศาภิบาล\nสมุหนาม\nสมุหนายก\nสโมธาน\nสโมสร\nสยด\nสยนะ\nสยบ\nสยมพร\nสยมภู\nสยอง\nสยอน\nสยัมวรา\nสยาม\nสยามานุสติ\nสยามินทร์\nสยาย\nสยิว\nสยิ้ว\nสยุมพร\nสยุมภู\nสร\nสรง\nสร่ง\nสรณะ\nสรณคมน์\nสรณาคมน์\nสรณตรัย\nสรตะ\nสรทะ\nสรนุก\nสรเนาะ\nสรไน\nสรเพชญ\nสรภะ\nสรภัญญะ\nสรภู\nสรม\nสรร\nสรรค์\nสรรพ\nสรรพคุณ\nสรรพนาม\nสรรพสามิต\nสรรพัชญ\nสรรพากร\nสรรพางค์\nสรรเพชญ\nสรรเพชุดา\nสรรเสริญ\nสรลอน\nสรเลข\nสรวง\nสรวม\nสรวล\nสรเสริญ\nสร้อย\nสระ\nสระกอ\nสระท้อน\nสระพรั่ง\nสระอาด\nสรั่ง\nสรัสวดี\nสร่าง\nสร้าง\nสราญ\nสรี้\nสรีระ\nสรีรกิจ\nสรีรธาตุ\nสรีรวิทยา\nสรีรศาสตร์\nสรีรังคาร\nสรีรางคาร\nสรุป\nสโรช\nสโรชะ\nสฤก\nสฤต\nสฤษฎิ\nสฤษฎี\nสฤษฏ์\nสฤษดิ์\nสลด\nสลบ\nสลวน\nสลวย\nสลอด\nสลอน\nสลอย\nสละ\nสลัก\nสลัด\nสลัดได\nสลับ\nสลัว\nสลา\nสลาก\nสลาง\nสล้าง\nสลาด\nสลาตัน\nสลาบ\nสลาย\nสลิด\nสลิล\nสลึก\nสลึง\nสลุต\nสลุบ\nสลุมพร\nสแลง\nสวการย์\nสวภาพ\nสวราชย์\nสวก\nส้วง\nสวด\nสวน\nสวนะ\nสวนาการ\nส่วน\nสวนิต\nสวบ\nสวม\nส้วม\nสวย\nส่วย\nส้วย\nสวยม\nสวรรค\nสวรรค์\nสวรรคต\nสวรรคาลัย\nสวรรยา\nสวระ\nสวะ\nสวัสดิ\nสวัสดิ์\nสวัสดิการ\nสวัสดิภาพ\nสวัสดิมงคล\nสวัสดี\nสวัสติ\nสวาตี\nสวัสติกะ\nสวา\nสวาปาม\nสวาคตะ\nสวาง\nสว่าง\nสวาด\nสวาดิ\nสวาท\nสว่าน\nสว้าน\nสวาบ\nสวามิ\nสวามี\nสวามินี\nสวาย\nสวาสดิ์\nสวาหะ\nสวิง\nสวิญญาณกทรัพย์\nสวิตช์\nสสาร\nสสุระ\nสสุรี\nสหกรณ์\nสหการ\nสหจร\nสหชาต\nสหชาติ\nสหธรรม\nสหธรรมิก\nสหประชาชาติ\nสหพันธ์\nสหพันธรัฐ\nสหภาพ\nสหศึกษา\nสหัช\nสหัมบดี\nสหัส\nสหัสสะ\nสหัสธารา\nสหัสนัยน์\nสหัสเนตร\nสหัสรังสี\nสหัสา\nสหาย\nสอ\nส่อ\nสอง\nส่อง\nส้อง\nสอด\nสอน\nส่อน\nสอบ\nสอพลอ\nส้อม\nสอย\nสะ\nสะกด\nสะกอ\nสะกาง\nสะการะ\nสะกิด\nสะกิดสะเกา\nสะเก็ด\nสะแก\nสะคร้อ\nสะคราญ\nสะค้าน\nสะเงาะสะแงะ\nสะดม\nสะดวก\nสะดิ้ง\nสะดึง\nสะดือ\nสะดุ้ง\nสะดุด\nสะเด็ด\nสะเดา\nสะเดาะ\nสะตอ\nสะตาหมัน\nสะตึ\nสะตือ\nสะตุ\nสะเต๊ะ\nสะโตก\nสะทก\nสะท้อน\nสะท้าน\nสะทึก\nสะเทิน\nสะเทิ้น\nสะเทือน\nสะเทื้อน\nสะบะ\nสะบัก\nสะบักสะบอม\nสะบัด\nสะบัดสะบิ้ง\nสะบั้น\nสะบันงา\nสะบ้า\nสะบู\nสะแบง\nสะเปะสะปะ\nสะพรั่ง\nสะพรึงกลัว\nสะพรึบ\nสะพรึ่บ\nสะพัก\nสะพัง\nสะพัด\nสะพั้น\nสะพาน\nสะพาย\nสะเพร่า\nสะโพก\nสะเภา\nสะใภ้\nสะโมง\nสะระตะ\nสะระแหน่\nสะลาง\nสะลาบ\nสะลึมสะลือ\nสะวี้ดสะว้าด\nสะสม\nสะสวย\nสะสาง\nสะเหล่อ\nสะอาง\nสะอาด\nสะอ้าน\nสะอิ้ง\nสะอิดสะเอียน\nสะอึก\nสะอื้น\nสะเอ้ง\nสะเอว\nสะเออะ\nสะโอดสะอง\nสะไอ\nสัก\nสักกะ\nสักยะ\nสักกัจจะ\nสักกายทิฐิ\nสักการ\nสักการะ\nสักขี\nสักวา\nสักหลาด\nสัค\nสัคคะ\nสั่ง\nสังกร\nสังกรณี\nสังกรประโยค\nสังกะตัง\nสังกะวัง\nสังกะวาด\nสังกะสี\nสังกัด\nสังกัปปะ\nสังกา\nสังการ\nสังกาศ\nสังกิเลส\nสังเกต\nสังข์\nสังขกร\nสังขตธรรม\nสังขตะ\nสังขยา\nสังขลิก\nสังขลิกา\nสังขาร\nสังขารา\nสังเขป\nสังค์\nสังคญาติ\nสังคม\nสังคหะ\nสังคัง\nสังคายนา\nสังคายนาย\nสังคีต\nสังคีติ\nสังเค็ด\nสังเคราะห์\nสังฆกรรม\nสังฆการี\nสังฆเถระ\nสังฆทาน\nสังฆนายก\nสังฆปาโมกข์\nสังฆภัต\nสังฆเภท\nสังฆมณฑล\nสังฆมนตรี\nสังฆราช\nสังฆสภา\nสังฆาณัติ\nสังฆาฏิ\nสังฆาทิเสส\nสังฆาธิการ\nสังฆานุสติ\nสังฆาวาส\nสังยุตนิกาย\nสังโยค\nสังโยชน์\nสังวร\nสังวัจฉระ\nสังวัธยาย\nสังวาล\nสังวาส\nสังเวคะ\nสังเวช\nสังเวชนียสถาน\nสังเวย\nสังเวียน\nสังสกฤต\nสังสการ\nสังสนทนา\nสั่งสนทนา\nสังสรรค์\nสังสารวัฏ\nสังสิทธิ\nสังสุทธ์\nสังสุทธิ\nสังหร\nสังหรณ์\nสังหาร\nสังหาริมทรัพย์\nสังหาริมะ\nสังหิต\nสัจ\nสัจกิริยา\nสัจจะ\nสัจญาณ\nสัจธรรม\nสัจนิยม\nสัจพจน์\nสัชฌะ\nสัชฌุ\nสัญจร\nสัญเจตนา\nสัญชาตญาณ\nสัญชาติ\nสัญฌา\nสัญญา\nสัญญาณ\nสัญญี\nสัญโญชน์\nสัญนิยม\nสัญประกาศ\nสัญลักษณ์\nสัฐิ\nสัณฐาน\nสัณฐิติ\nสัณฑ์\nสัณห์\nสัด\nสัดจอง\nสัต\nสัตตะ\nสัตตาหกรณียะ\nสัตตาหกาลิก\nสัตมวาร\nสัตสดก\nสัตตบงกช\nสัตตบรรณ\nสัตตบุษย์\nสัตตู\nสัตถันดร\nสัตถา\nสัตถิ\nสัตถุ\nสัตถุศาสนา\nสัตบรรณ\nสัตย์\nสัตยพรต\nสัตยวาที\nสัตยาเคราะห์\nสัตยาธิษฐาน\nสัตยาบัน\nสัตว์\nสัตวชาติ\nสัตวบาล\nสัตวแพทย์\nสัตววิทยา\nสัตวา\nสัทธรรม\nสัทธา\nสัทธาจริต\nสัทธาธิกะ\nสัทธินทรีย์\nสัทธิงวิหาริก\nสัทธิวิหาริก\nสัทวิทยา\nสัทศาสตร์\nสัทอักษร\nสัน\nสั่น\nสั้น\nสันดาน\nสันดาป\nสันโดษ\nสันต์\nสันตติ\nสันตะปาปา\nสันตะวา\nสันติ\nสันตุฏฐี\nสันถวไมตรี\nสันถวะ\nสันถัต\nสันถาร\nสันทนะ\nสันทะ\nสันทัด\nสันทัสนะ\nสันทาน\nสันทิฐิก\nสันทิส\nสันเทหะ\nสันธาน\nสันนิธิ\nสันนิบาต\nสันนิวาส\nสันนิษฐาน\nสันสกฤต\nสับ\nสับปลับ\nสับปลี้\nสับปะรด\nสัปคับ\nสัปดาห์\nสัปดาหะ\nสัปดน\nสัปตศก\nสัปทน\nสัปปะ\nสัปปิ\nสัปปุริส\nสัปปุรุษ\nสัประยุทธ์\nสัปหงก\nสัปเหร่อ\nสัพ\nสัพพะ\nสัพพัญญู\nสัพเพเหระ\nสัพยอก\nสัมบูรณ์\nสัมปชัญญะ\nสัมปทา\nสัมปทาน\nสัมปยุต\nสัมปโยค\nสัมประสิทธิ์\nสัมประหาร\nสัมปรายภพ\nสัมปรายิกภพ\nสัมปัตติ\nสัมผัปลาป\nสัมผัปลาปะ\nสัมผัส\nสัมพล\nสัมพหุลา\nสัมพัจฉรฉินท์\nสัมพัตสร\nสัมพัทธ์\nสัมพันธ์\nสัมพันธน์\nสัมพันธภาพ\nสัมพันธมิตร\nสัมพันธไมตรี\nสัมพาหะ\nสัมพุทธ\nสัมพุทธะ\nสัมโพธิ\nสัมภวะ\nสัมภเวสี\nสัมภัต\nสัมภัตตะ\nสัมภาระ\nสัมภาษณ์\nสัมโภคกาย\nสัมมนา\nสัมมัปธาน\nสัมมา\nสัมโมทนียกถา\nสัมฤทธิ\nสัมฤทธิ์\nสัมฤทธิศก\nสัยน์\nสัลเลข\nสัสดี\nสัสตทิฐิ\nสัสสะ\nสัสสุ\nสัสสู\nสา\nส่า\nสาก\nสากรรจ์\nสากล\nสากัจฉา\nสากัลย์\nสากิยะ\nสาเก\nสาขา\nสาคร\nสาคเรศ\nสาคู\nสาง\nส้าง\nสาชล\nสาฎก\nสาฏิก\nสาณี\nสาด\nสาไถย\nสาทร\nสาทิส\nสาทุ\nสาโท\nสาธก\nสาธยะ\nสาธยาย\nสาธารณะ\nสาธารณชน\nสาธารณประโยชน์\nสาธารณภัย\nสาธารณรัฐ\nสาธารณสถาน\nสาธารณสมบัติ\nสาธารณสุข\nสาธารณูปการ\nสาธารณูปโภค\nสาธารณ์\nสาธิต\nสาธุ\nสาน\nส่าน\nสานุ\nสานู\nสานุศิษย์\nสาบ\nสาบสูญ\nสาบาน\nสาป\nสาปไตย\nสาม\nสามชุก\nสามเณร\nสามเณรี\nสามนต์\nสามนตราช\nสามยทรัพย์\nสามล\nสามหาว\nสามะ\nสามัคคี\nสามัญ\nสามัตถิยะ\nสามานย์\nสามานยนาม\nสามารถ\nสามิต\nสามินี\nสามิภักดิ์\nสามี\nสามีจิกรรม\nสาย\nส่าย\nส้าย\nสายชู\nสายัณห์\nสายาห์\nสาร\nสารคดี\nสารธรรม\nสารนิเทศ\nสารบบ\nสารบรรณ\nสารบัญ\nสารบาญ\nสารบาญชี\nสารประโยชน์\nสารสนเทศ\nสารทุกข์\nสารถี\nสารท\nสารพัด\nสารพัน\nสารพางค์\nสารภาพ\nสารภี\nสารวัตร\nสาระ\nสาระแน\nสาระพา\nสาระยำ\nสาระวารี\nสาระสะมา\nสารัตถประโยชน์\nสารัตถศึกษา\nสารัตถะ\nสารัทธ์\nสารัมภ์\nสาราณียกร\nสาราณียธรรม\nสาราณียะ\nสารานุกรม\nสารีริกธาตุ\nสารูป\nสาโรช\nสาละ\nสาละวน\nสาลิ\nสาลิกา\nสาลินี\nสาลี\nสาลี่\nสาลู\nสาโลหิต\nสาว\nสาวก\nสาวิกา\nสาวิตร\nสาวิตรี\nสาสน\nสาสน์\nสาส์น\nสาสนา\nสาสม\nสาหร่าย\nสาหรี\nส่าหรี\nสาหัส\nสาเหตุ\nสาแหรก\nสำ\nสำส่อน\nส่ำ\nสำคัญ\nสำซ่าง\nสำแดง\nสำทับ\nสำนวน\nสำนอง\nสำนัก\nสำนาน\nสำนึก\nสำนึง\nสำเนา\nสำเนียง\nสำบัด\nสำปะลอ\nสำปะหลัง\nสำปั้น\nสำปันนี\nสำเภา\nสำมะงา\nสำมะโน\nสำมะลอ\nสำมะเลเทเมา\nสำมะหา\nสำรด\nสำรวจ\nสำรวม\nสำรวย\nสำรวล\nสำรอก\nสำรอง\nสำรับ\nสำราก\nสำราญ\nสำริด\nสำเร็จ\nสำเรา\nสำเริง\nสำโรง\nสำลัก\nสำลาน\nสำลี\nสำแลง\nสำหรวด\nสำหรับ\nสำหา\nสำเหนียก\nสำเหร่\nสำออย\nสำอาง\nสิ\nสิกข์\nสิข\nสิกขมานา\nสิกขา\nสิขร\nสิขรี\nสิขเรศ\nสิขา\nสิขานล\nสิขี\nสิคาล\nสิง\nสิ่ง\nสิงขร\nสิงค์\nสิงคลิ้ง\nสิงคลี\nสิงคาร\nสิงคาล\nสิงคี\nสิงโต\nสิงห์\nสิงหนาท\nสิงหบัญชร\nสิงหรา\nสิงหราช\nสิงหาคม\nสิงหาสน์\nสิงหล\nสิญจน์\nสิตะ\nสิตางศุ์\nสิถิล\nสิทธ์\nสิทธัตถะ\nสิทธา\nสิทธาจารย์\nสิทธารถ\nสิทธิ\nสิทธิ์\nสิทธิการิยะ\nสิธยะ\nสิน\nสิ้น\nสินเทา\nสินธพ\nสินธุ\nสินธุ์\nสินธุระ\nสินธู\nสินเธาว์\nสินาด\nสินิทธ์\nสินี\nสิเนรุ\nสิเนหก\nสิเนหะ\nสิเนหา\nสิเน่หา\nสิบ\nสิปปะ\nสิมพลี\nสิระ\nสิโรดม\nสิโรตม์\nสิริ\nสิรี\nสิลา\nสิว\nสิ่ว\nสิวะ\nสิวาลัย\nสิวิกา\nสี\nสี่\nสี้\nสีกา\nสีกุน\nสีข้าง\nสีด\nสีดอ\nสีดา\nสีตลรัศมี\nสีตโลทก\nสีโตทก\nสีทันดร\nสีมันต์\nสีมา\nสีละมัน\nสีวิกา\nสีสอ\nสีสะ\nสีสา\nสีสุก\nสีเสียด\nสีห์\nสีหนาท\nสีหบัญชร\nสีหราช\nสีหไสยา\nสีหไสยาสน์\nสีหะ\nสึก\nสึง\nสืบ\nสื่อ\nสุ\nสุก\nสุกข์\nสุกร\nสุกรม\nสุกำศพ\nสุกียากี้\nสุข\nสุขา\nสุขาภิบาล\nสุขารมณ์\nสุขาวดี\nสุขิน\nสุขี\nสุขุม\nสุขุมาล\nสุโข\nสุคต\nสุคติ\nสุคนธ\nสุคนธ์\nสุคนธชาติ\nสุคนธรส\nสุคันธ์\nสุคันธรส\nสุงกะ\nสุงกากร\nสุงสิง\nสุงสุมาร\nสุจริต\nสุจหนี่\nสุจิ\nสุจิต\nสุจิตร\nสุชน\nสุชัมบดี\nสุชา\nสุชาดา\nสุญ\nสุญญากาศ\nสุญตา\nสุญนิยม\nสุณ\nสุณิสา\nสุด\nสุดา\nสุต\nสุตตนิบาต\nสุตตะ\nสุตตันตปิฎก\nสุตตันตะ\nสุติ\nสุทธ\nสุทธ์\nสุทธาวาส\nสุทธิ\nสุทรรศน์\nสุทัศน์\nสุธา\nสุธาโภชน์\nสุธารส\nสุธาสินี\nสุธาสี\nสุธี\nสุนทร\nสุนทรี\nสุนทรียภาพ\nสุนทรียศาสตร์\nสุนทรียะ\nสุนัข\nสุนันท์\nสุโนก\nสุบดี\nสุบรรณ\nสุบิน\nสุปรีดิ์\nสุปรีย์\nสุปาณี\nสุพพัต\nสุพรรณ\nสุพรรณบัฏ\nสุพรรณภาชน์\nสุพรรณราช\nสุพรรณศรี\nสุพรรณถัน\nสุพรรณิการ์\nสุภร\nสุภัค\nสุภา\nสุภาพ\nสุภาษิต\nสุม\nสุ่ม\nสุมทุม\nสุมน\nสุมนะ\nสุมนัส\nสุมนา\nสุ้มเสียง\nสุมะ\nสุมาลี\nสุเมธ\nสุเมรุ\nสุรคต\nสุรเชษฐ์\nสุรบดี\nสุรภาพ\nสุรโลก\nสุรสีหนาท\nสุรเสียง\nสุรงค์\nสุรังค์\nสุรภี\nสุรัติ\nสุรัสวดี\nสุรา\nสุรางค์จำเรียง\nสุรางคนา\nสุรางคนางค์\nสุรารักษ์\nสุราลัย\nสุรินทร์\nสุรินทราหู\nสุริยะ\nสุริยกันต์\nสุริยกานต์\nสุริยการ\nสุริยกาล\nสุริยคติ\nสุริยคราส\nสุริยมณฑล\nสุริยวงศ์\nสุริยง\nสุริยา\nสุริเยนทร์\nสุริเยศ\nสุริโย\nสุริยน\nสุริยัน\nสุริยุปราคา\nสุรีย์\nสุรุ่ยสุร่าย\nสุลต่าน\nสุวคนธ์\nสุวภาพ\nสุวรรณ\nสุวรรณภูมิ\nสุวะ\nสุวาน\nสุวินัย\nสุวิมล\nสุษิระ\nสุสาน\nสุหนัต\nสุหร่ง\nสุหร่าย\nสุหฤท\nสุหัท\nสุเหร่า\nสู\nสู่\nสู้\nสูง\nสูจิ\nสูจิบัตร\nสูญ\nสูด\nสูต\nสูตร\nสูติ\nสูติกรรม\nสูตินรีเวช\nสูติบัตร\nสูติแพทย์\nสูติศาสตร์\nสูท\nสูทกรรม\nสูทศาสตร์\nสูบ\nสูปะ\nสูร\nสูรย์\nสูรยกานต์\nสูริ\nสูสี\nเส\nเสก\nเสกขบุคคล\nเสกขะ\nเสขบุคคล\nเสขะ\nเส็ง\nเส้ง\nเส็งเคร็ง\nเสงี่ยม\nเสฏฐี\nเสณี\nเสด\nเสด็จ\nเสตุ\nเสถียร\nเสทะ\nเสโท\nเสน\nเส้น\nเสนง\nเสน่ง\nเสน่ห์\nเสนหา\nเสน่หา\nเสนอ\nเสนะ\nเสนา\nเสนาธิการ\nเสนาบดี\nเสน่า\nเสนากุฎ\nเสนางค์\nเสนางคนิกร\nเสนานี\nเสนาสนะ\nเสนาะ\nเสนี\nเสนีย์\nเสนียะ\nเสนียด\nเสบย\nเสบียง\nเสพ\nเสพย์\nเสเพล\nเสภา\nเสม็ด\nเสมหะ\nเสมอ\nเสมา\nเสมียน\nเสมือน\nเสย\nเสร็จ\nเสริด\nเสริม\nเสรี\nเสลด\nเสลบรรพต\nเสลา\nเสลี่ยง\nเสลือกสลน\nเสโล\nเสวก\nเสวกามาตย์\nเสวนะ\nเสวนา\nเสวย\nเสวียน\nเสสรวง\nเสสรวล\nเสา\nเส้า\nเสาร์\nเสารภย์\nเสารี\nเสาวคนธ์\nเสาวธาร\nเสาวภา\nเสาวภาคย์\nเสาวภาพ\nเสาวรภย์\nเสาวรส\nเสาวลักษณ์\nเสาวณิต\nเสาวนะ\nเสาวนา\nเสาวนีย์\nเสาหฤท\nเสาะ\nเสาะแสะ\nเสิร์จ\nเสิร์ฟ\nเสีย\nเสียง\nเสี่ยง\nเสียด\nเสี้ยน\nเสียบ\nเสียม\nเสี่ยม\nเสี้ยม\nเสียว\nเสี่ยว\nเสี้ยว\nเสือ\nเสื่อ\nเสื้อ\nเสือก\nเสื่อม\nแส\nแส่\nแส้\nแสก\nแสง\nแสด\nแสดง\nแสตมป์\nแสน\nแสนย์\nแสนยากร\nแสนยานุภาพ\nแสบ\nแสม\nแสยก\nแสยง\nแสยะ\nแสรก\nแสร้ง\nแสลง\nแสล้ม\nแสวง\nแสะ\nโสก\nโสกโดก\nโสกันต์\nโสโครก\nโสณฑ์\nโสณิ\nโสณี\nโสด\nโสดก\nโสดม\nโสดา\nโสดาบัน\nโสดาปัตติผล\nโสดาปัตติมรรค\nโสต\nโสตทัศนวัสดุ\nโสตทัศนอุปกรณ์\nโสตทัศนูปกรณ์\nโสตินทรีย์\nโสตถิ\nโสทก\nโสทร\nโสธก\nโสธนะ\nโสน\nโสภณ\nโสภา\nโสภี\nโสภิณี\nโสเภณี\nโสม\nโสมนัส\nโสมม\nโสมย์\nโสร่ง\nโสรจ\nโสรวาร\nโสโร\nโสวรรณ\nโสหุ้ย\nโสฬส\nใส\nใส่\nไส\nไส้\nไสย\nไสยา\nไสยาสน์\nไสร้\nไสว\nหก\nหกคะเมน\nหง\nหงก\nหงส์\nหงสบาท\nหงสรถ\nหงอ\nหงอก\nหง่อง\nหงองแหงง\nหงอด\nหงอน\nหง่อม\nหงอย\nหง่อย\nหงัก\nหงับ\nหง่าง\nหงาย\nหง่าว\nหงำ\nหงิก\nหงิง\nหงิม\nหงึก\nหงุงหงิง\nหงุดหงิด\nหงุบ\nหงุ่ย\nหญ้า\nหญ้าฝรั่น\nหญ้ายายเภา\nหญิง\nหญิบ\nหด\nหตะ\nหทัย\nหน\nหนวก\nหน่วง\nหนวด\nหน่วย\nหน่วยกิต\nหนอ\nหน่อ\nหนอก\nหนอง\nหนอน\nหนอนตายหยาก\nหน่อย\nหน็อยแน่\nหนัก\nหนัง\nหนังสติ๊ก\nหนังสือ\nหนั่น\nหนับ\nหนา\nหน้า\nหน่าง\nหนาด\nหนาน\nหนาม\nหน่าย\nหนาว\nหนำ\nหนำเลี้ยบ\nหนี\nหนี้\nหนีบ\nหนึก\nหนึ่ง\nหนึบ\nหนืด\nหนุ\nหนุน\nหนุบ\nหนุ่ม\nหนุ่ย\nหนู\nห่ม\nหมก\nหมด\nหม่น\nหมวก\nหมวด\nหมวน\nหมอ\nหม่อ\nหม้อ\nหมอก\nหมอง\nหม่อง\nหมอน\nหม่อน\nหมอบ\nหม่อม\nหมอย\nหม้อห้อม\nหมัก\nหมักหมม\nหมัด\nหมัน\nหมั่น\nหมั้น\nหมับ\nหมา\nหม่า\nหมาก\nหมากฮอส\nหมาง\nหมาด\nหมามุ่ย\nหมามุ้ย\nหมาย\nหม้าย\nหมาร่า\nหม่ำ\nหม้ำ\nหมิ่น\nหมี\nหมี่\nหมึก\nหมืน\nหมื่น\nหมุด\nหมุน\nหมุบ\nหมุบหมับ\nหมุบหมิบ\nหมุ่ย\nหมุยขาว\nหมู\nหมู่\nหมูหริ่ง\nหยก\nหย่ง\nหยด\nหยวก\nหยวบ\nหยอก\nหยอกเอิน\nหย็อกหย็อย\nหยอง\nหย็อง\nหย่อง\nหย็องกรอด\nหย็องแหย็ง\nหยอด\nหยอน\nหย่อน\nหย่อม\nหย็อมแหย็ม\nหย็อย\nหย่อย\nหยัก\nหยักไย่\nหยักเหยา\nหยัง\nหยั่ง\nหยังหยัง\nหยัด\nหยัน\nหยับ\nหยั่วเมือง\nหย่า\nหยากเยื่อ\nหยากไย่\nหยาด\nหยาบ\nหยาม\nหยาว\nหย้าว\nหยำเป\nหยำเหยอะ\nหยำแหยะ\nหยิก\nหยิ่ง\nหยิบ\nหยิม\nหยี\nหยี่\nหยุกหยิก\nหยุด\nหยุ่น\nหยุบ\nหยุมหยิม\nหยูกยา\nหโยดม\nหรคุณ\nหรณะ\nหรดาล\nหรดี\nหรรษ์\nหรรษา\nหรอ\nหรอก\nหร็อมแหร็ม\nหรอย\nหระ\nหรับ\nหรา\nหริ\nหริ่ง\nหริณะ\nหริต\nหริตกี\nหรีตกี\nหรี่\nหรีด\nหรือ\nหรุบ\nหรุบรู่\nหรุบหรู่\nหรุ่ม\nหรู\nหรูหรา\nหฤทัย\nหฤทย์\nหฤษฎ์\nหฤษฎี\nหฤหรรษ์\nหฤโหด\nหลง\nหลงใหล\nหลงจู๊\nหลด\nหลน\nหล่น\nหลบ\nหล่ม\nหลวง\nหลวม\nหลอ\nหล่อ\nหลอก\nหลอด\nหลอน\nหล็อน\nหล่อน\nหลอม\nหละ\nหละหลวม\nหลัก\nหลัง\nหลั่ง\nหลัด\nหลั่น\nหลับ\nหลัว\nหลา\nหล้า\nหลาก\nหลาน\nหลาบ\nหลาม\nหลาย\nหลาว\nหลิ่ง\nหลิท\nหลิน\nหลิม\nหลิว\nหลิ่ว\nหลี\nหลีก\nหลีโก\nหลีบ\nหลีฮื้อ\nหลืบ\nหลุกหลิก\nหลุด\nหลุน\nหลุบ\nหลุม\nหลุมพอ\nหลุมพี\nหลู่\nหวง\nห่วง\nห้วง\nหวด\nหวน\nห้วน\nหวย\nห้วย\nหวอ\nหวอด\nหวะ\nหวัง\nหวัด\nหวั่น\nหวันยิหวา\nหวัว\nหวัวร่อ\nหวัวเราะ\nหวา\nหว่า\nหว้า\nหวาก\nหว่าง\nหวาด\nหวาน\nหว่าน\nหวาม\nหวาย\nหวำ\nหวิด\nหวิว\nหวี\nหวี่\nหวีด\nหวือ\nหวุดหวิด\nหวูด\nหอ\nห่อ\nห้อ\nหอก\nหอง\nห้อง\nหอน\nห่อน\nหอบ\nหอม\nห้อม\nหอย\nห้อย\nหะ\nหะยี\nหะหาย\nหัก\nหัจญ์\nหัจญี\nหัช\nหัฏฐะ\nหัด\nหัต\nหัตถ์\nหัตถกรรม\nหัตถการ\nหัตถกิจ\nหัตถบาส\nหัตถพันธ์\nหัตถาภรณ์\nหัตถศาสตร์\nหัตถศิลป์\nหัตถศึกษา\nหัตถาจารย์\nหัตถินี\nหัตถี\nหัน\nหั่น\nหั้น\nหันตรา\nหับ\nหัย\nหัว\nหัวร่อ\nหัวเราะ\nหัส\nหัสดิน\nหัสดี\nหัสต์\nหัสตะ\nหา\nห่า\nห้า\nหาก\nหาง\nห่าง\nห้าง\nหาญ\nหาด\nห่าน\nหาบ\nหาม\nห่าม\nห้าม\nหาย\nหายใจ\nหายนะ\nหาร\nหารือ\nหาว\nห้าว\nหาสะ\nหำ\nห้ำ\nหิ้ง\nหิงคุ\nหิงสา\nหิงห้อย\nหิ่งห้อย\nหิ่งหาย\nหิด\nหิต\nหิตานุหิตประโยชน์\nหิน\nหิมพาน\nหิมพานต์\nหิมวัต\nหิมวันต์\nหิมวา\nหิมะ\nหิมาลัย\nหิรัญ\nหิรัญญิการ์\nหิรัญบัฏ\nหิรัณย์\nหิรัณยรัศมี\nหิริ\nหิว\nหิ้ว\nหี\nหีด\nหีนยาน\nหีบ\nหึ\nหึง\nหึ่ง\nหึงสา\nหืด\nหืน\nหื่น\nหือ\nหื้อ\nหุง\nหุน\nหุ่น\nหุ้น\nหุนหัน\nหุบ\nหุ้ม\nหุยฮา\nหู\nหู่\nหูก\nหูด\nเห\nเห่\nเหง\nเหง่ง\nเหงา\nเหง้า\nเหงื่อ\nเหงือก\nเห็จ\nเห็ด\nเหติ\nเหตุ\nเห็น\nเหน่ง\nเหนงนายพราน\nเหน็ดเหนื่อย\nเหน็บ\nเหน่อ\nเห็นอ้ม\nเหนอะ\nเหนอะหนะ\nเหน้า\nเหนาะ\nเหนียง\nเหนี่ยง\nเหนี่ยน\nเหนียม\nเหนียว\nเหนี่ยว\nเหนือ\nเหนื่อย\nเห็บ\nเหม\nเหม่\nเหม็ง\nเหม่ง\nเหม็น\nเหมวดี\nเหม่อ\nเหมันต์\nเหมันตฤดู\nเหมา\nเหมายัน\nเหมาะ\nเหมียว\nเหมี่ยว\nเหมือง\nเหมือด\nเหมือน\nเหมื่อย\nเหย\nเหยง\nเหย่อย\nเหยา\nเหย่า\nเหย้า\nเหยาะ\nเหยาะแหยะ\nเหยิง\nเหยิบ\nเหยียด\nเหยียบ\nเหยี่ยว\nเหยื่อ\nเหยือก\nเหรอ\nเหรอะ\nเหรัญญิก\nเหรา\nเหราะ\nเหรียญ\nเหล่\nเหล็ก\nเหลน\nเหลว\nเหลอ\nเหลา\nเหล่า\nเหล้า\nเหลาะแหละ\nเหลิง\nเหลิงเจิ้ง\nเหลียน\nเหลี่ยม\nเหลียว\nเหลือ\nเหลือก\nเหลือง\nเหลือบ\nเหลือม\nเหลื่อม\nเหว\nเหว่\nเหวง\nเหวย\nเหวอะ\nเหวอะหวะ\nเหวี่ยง\nเห่อ\nเหอะ\nเหะ\nเหะหะ\nเหา\nเห่า\nเหาะ\nเหิน\nเหิม\nเหี้ย\nเหียง\nเหียน\nเหี้ยน\nเหี้ยม\nเหี่ยว\nเหื่อ\nเหือด\nแห\nแห่\nแห้\nแหก\nแหง\nแหง่\nแห่ง\nแห้ง\nแหงแก๋\nแหง่ง\nแหงน\nแหน\nแห้น\nแหนง\nแหนบ\nแหนม\nแหบ\nแหม\nแหม่\nแหม่ม\nแหมะ\nแหย\nแหย่\nแหยง\nแหย่ง\nแหยม\nแหย็ม\nแหยะ\nแหล่\nแหลก\nแหล่ง\nแหลน\nแหลม\nแหละ\nแหว\nแห้ว\nแหวก\nแหว่ง\nแหวด\nแหวน\nแหวะ\nแหะ\nโห่\nโหง\nโหด\nโหน\nโหนก\nโหน่ง\nโหม\nโหม่ง\nโหมด\nโหย\nโหยกเหยก\nโหยง\nโหย่ง\nโหร\nโหรง\nโหรงเหรง\nโหรดาจารย์\nโหระพา\nโหรา\nโหราจารย์\nโหราศาสตร์\nโหล\nโหล่\nโหลงโจ้ง\nโหว\nโหว่\nโหว้\nโหวกเหวก\nโหวง\nโหวด\nโหวต\nให้\nใหญ่\nใหม่\nไห\nไห่\nไห้\nไหน\nไหม\nไหม้\nไหรณย์\nไหล\nไหล่\nไหว\nไหว้\nไหหลำ\nอก\nอกตเวทิตา\nอกตเวที\nอกตัญญุตา\nอกตัญญู\nอกนิษฐ์\nอกรณีย์\nอกรรมกริยา\nอกัปปิยวัตถุ\nอกัปปิยะ\nอกุศล\nอคติ\nอคาธ\nอโฆษะ\nองก์\nองค์\nองคชาต\nองคมนตรี\nองครักษ์\nองคาพยพ\nองคุลี\nองศ์\nองศา\nองอาจ\nองุ่น\nอจลา\nอจินตา\nอจินไตย\nอจิระ\nอเจลก\nอเจละ\nอชะ\nอชิน\nอชินี\nอชิระ\nอฏวี\nอณิ\nอณู\nอโณทัย\nอด\nอดิถี\nอดิเทพ\nอดิเรก\nอดิศร\nอดิศวร\nอดิศัย\nอดีต\nอดุล\nอดุลย์\nอติ\nอติชาต\nอติมานะ\nอติราช\nอติเรก\nอติสาร\nอถรรพเวท\nอาถรรพเวท\nอทระ\nอทินนาทาน\nอธรรม\nอธิ\nอธิกมาส\nอธิกรณ์\nอธิกวาร\nอธิกสุรทิน\nอธิการ\nอธิคม\nอธิฏฐาน\nอธิบดี\nอธิบาย\nอธิป\nอธิปไตย\nอธิมาตร\nอธิมุตติ\nอธิโมกข์\nอธิราช\nอธิวาส\nอธิวาสนะ\nอธิศีล\nอธิษฐาน\nอธึก\nอ้น\nอนงค์\nอนงคณะ\nอนงคเลขา\nอนธการ\nอนนต์\nอนยะ\nอนรรฆ\nอนรรถ\nอนล\nอนวัช\nอนัญ\nอนัตตา\nอนันต์\nอนันตริยกรรม\nอนัม\nอนาคต\nอนาคามิผล\nอนาคามิมรรค\nอนาคามี\nอนาจาร\nอนาถ\nอนาถา\nอนาทร\nอนาธิปไตย\nอนามัย\nอนามิกา\nอนารยชน\nอนารยธรรม\nอนารยะ\nอนาลัย\nอนำ\nอนิจ\nอนิจจัง\nอนิจจา\nอนิฏฐารมณ์\nอนิยต\nอนิยม\nอนิล\nอนิวรรต\nอนิวรรตน์\nอนีกะ\nอนีจะ\nอนึก\nอนึ่ง\nอนุ\nอนุกร\nอนุกรม\nอนุกรรมการ\nอนุกระเบียด\nอนุกาชาด\nอนุการ\nอนุกูล\nอนุคามิก\nอนุเคราะห์\nอนุจร\nอนุช\nอนุชน\nอนุชา\nอนุชาต\nอนุชิต\nอนุญาต\nอนุญาโตตุลาการ\nอนุตร\nอนุเถระ\nอนุทิน\nอนุบท\nอนุบาล\nอนุประโยค\nอนุปริญญา\nอนุปสัมบัน\nอนุปัสนา\nอนุพงศ์\nอนุพัทธ์\nอนุพันธ์\nอนุโพธ\nอนุภรรยา\nอนุภริยา\nอนุภาค\nอนุภาษ\nอนุมัติ\nอนุมาตรา\nอนุมาน\nอนุมูล\nอนุโมทนา\nอนุโยค\nอนุรักษ์\nอนุรักษนิยม\nอนุราช\nอนุราธ\nอนุราธะ\nอนุราธา\nอนุรูป\nอนุโลม\nอนุวงศ์\nอนุวรรตน์\nอนุวัต\nอนุวัตน์\nอนุวัตร\nอนุวัติ\nอนุวาต\nอนุศาสก\nอนุศาสน์\nอนุศาสนาจารย์\nอนุศิษฏ์\nอนุสติ\nอนุสนธิ\nอนุสร\nอนุสรณ์\nอนุสัญญา\nอนุสัย\nอนุสาวรีย์\nอนุสาสนี\nอเนก\nอเนกคุณ\nอเนกรรถประโยค\nอเนจอนาถ\nอโนชา\nอโนดาต\nอบ\nอบเชย\nอบาย\nอปจายนธรรม\nอปจายนมัย\nอปมงคล\nอปยศ\nอประไมย\nอปรัณณชาติ\nอปรา\nอปราชัย\nอปราชิต\nอปริมาณ\nอปลักษณ์\nอปโลกน์\nอปวาท\nอเปหิ\nอพพะ\nอพยพ\nอภัพ\nอภัย\nอภิ\nอภิฆาต\nอภิชฌา\nอภิชน\nอภิชนาธิปไตย\nอภิชัย\nอภิชาต\nอภิชิต\nอภิญญา\nอภิญญาณ\nอภิธรรม\nอภิธาน\nอภิไธย\nอภินันท์\nอภินันทนาการ\nอภินัย\nอภินิหาร\nอภิเนษกรมณ์\nอภิบาล\nอภิปรัชญา\nอภิปราย\nอภิมหาอำนาจ\nอภิมานะ\nอภิมุข\nอภิรดี\nอภิรติ\nอภิรมย์\nอภิรักษ์\nอภิราม\nอภิรุต\nอภิรุม\nอภิรูป\nอภิลักขิต\nอภิลักขิตสมัย\nอภิเลปน์\nอภิวันท์\nอภิวาท\nอภิวาทน์\nอภิเษก\nอภิสมโพธิ\nอภิสมัย\nอภิสมาจาร\nอภิสัมโพธิ\nอภิสัมโพธิญาณ\nอภิสิต\nอภิสิทธิ์\nอภูตะ\nอม\nอมพะนำ\nอ้ม\nอมตธรรม\nอมตบท\nอมตะ\nอมนุษย์\nอมร\nอมรา\nอมราวดี\nอมรินทร์\nอมเรนทร์\nอมเรศ\nอมฤต\nอมัตร\nอมาตย์\nอมาวสี\nอมาวสุ\nอมาวาสี\nอมิตร\nอเมริกัน\nอย่า\nอยาก\nอย่าง\nอยุทธ์\nอยู่\nอร\nอรชร\nอรชุน\nอรดี\nอรติ\nอรทัย\nอรไท\nอรนุช\nอรพินท์\nอรพิม\nอรรค\nอรรฆ\nอรรฆย์\nอรรจน์\nอรรณพ\nอรรถ\nอรรถกถา\nอรรถกถาจารย์\nอรรถาธิบาย\nอรรธ\nอรสุม\nอรหะ\nอรหัง\nอรหัต\nอรหัตผล\nอรหัตมรรค\nอรหัน\nอรหันต์\nอรหันตฆาต\nอร่อย\nอรัญ\nอรัญญิก\nอรัญวาส\nอรัญวาสี\nอรัณย์\nอราดี\nอร่าม\nอริ\nอรินทร์\nอริน\nอริยกะ\nอริยทรัพย์\nอริยบุคคล\nอริยผล\nอริยมรรค\nอริยสัจ\nอริยะ\nอรุณ\nอรุโณทัย\nอรุ่ม\nอรูป\nอลงกต\nอลงกรณ์\nอลงการ\nอลวน\nอลเวง\nอลหม่าน\nอล่องฉ่อง\nอลักเอลื่อ\nอลังการ\nอลัชชี\nอล่างฉ่าง\nอลิงค์\nอลึงค์\nอลึ่งฉึ่ง\nอโลหะ\nอ้วก\nอวกาศ\nอวจร\nอวชัย\nอวชาต\nอวด\nอวตาร\nอวน\nอ้วน\nอวบ\nอวมงคล\nอวย\nอวยวะ\nอวรรค\nอวรุทธ์\nอวรุทธก\nอวล\nอวสาน\nอวหาร\nอวัยวะ\nอวัสดา\nอวาจี\nอวิจี\nอวิชชา\nอวิญญาณกทรัพย์\nอวิญญู\nอวิรุทธ์\nอวิโรธน์\nอวิโรธนะ\nอวิหิงสา\nอวีจิ\nอเวจี\nอโศก\nอสงไขย\nอสนี\nอัสนี\nอสนีบาต\nอสภะ\nอสมการ\nอสมมาตร\nอสรพิษ\nอสังหาริมทรัพย์\nอสังหาริมะ\nอสัญกรรม\nอสัญญี\nอสัญแดหวา\nอสัตถพฤกษ์\nอัสสัตถพฤกษ์\nอสัตย์\nอสัมภิน\nอสัมภินพงศ์\nอสัมภินวงศ์\nอสิ\nอสิธารา\nอสิต\nอสิเลสะ\nอสีตยานุพยัญชนะ\nอสีติ\nอสุ\nอสุจิ\nอสุนีบาต\nอสุภ\nอสุรกาย\nอสุรา\nอสุรี\nอสุเรศ\nอสูร\nอเสกขบุคคล\nอเสกขะ\nอเสขบุคคล\nอเสขะ\nอหังการ\nอหิ\nอหิงสา\nอหิวาต์\nอหิวาตกโรค\nอหึงสา\nอเหตุกทิฐิ\nอโหสิ\nออ\nอ้อ\nอ๋อ\nออก\nออกซิเจน\nออกซิเดชัน\nออกไซด์\nออกญา\nอ่อง\nอ๋อง\nอ้องแอ้ง\nออเซาะ\nออด\nอ๊อด\nอ๊อดแอ๊ด\nอ่อน\nอ้อน\nออนซ์\nออนซอน\nอ้อนแอ้น\nออฟฟิศ\nออม\nอ่อม\nอ้อม\nออมชอม\nออมซอม\nอ้อมแอ้ม\nอ่อย\nอ้อย\nอ๋อย\nอ้อยส้อย\nอ้อยอิ่ง\nออสเมียม\nอ้อแอ้\nอ๊ะ\nอะคร้าว\nอะเคื้อ\nอะแจ\nอะเซทิลีน\nอะดรีนาลิน\nอะดุง\nอะตอม\nอะมีบา\nอะเมริเซียม\nอะร้าอร่าม\nอะไร\nอะลุ่มอล่วย\nอะลุ้มอล่วย\nอะลูมิเนียม\nอะหม\nอะไหล่\nอัก\nอั้ก\nอั๊ก\nอักกะ\nอักโกธะ\nอักขรวิธี\nอักขรวิบัติ\nอักขรสมัย\nอักขระ\nอักขรานุกรม\nอักขะ\nอักโข\nอักโขภิณี\nอักโขเภณี\nอักษร\nอักษะ\nอักเษาหิณี\nอักเสบ\nอักอ่วน\nอัคคะ\nอัคคิ\nอัคคี\nอัคนิ\nอัคนี\nอัคร\nอัครชายา\nอัครมเหสี\nอัครราชทูต\nอัครสมณทูต\nอัง\nอังก์\nอังกนะ\nอังกฤษ\nอังกะลุง\nอังกา\nอังกาบ\nอังกุระ\nอังกุศ\nอังกูร\nอังคณะ\nอังคณา\nอังคาร\nอังคาส\nอังคีรส\nอังคุฐ\nอังคุตรนิกาย\nอังฆาต\nอังแพลม\nอั้งยี่\nอั้งโล่\nอังศุ\nอังศุก\nอังศุธร\nอังศุมาลี\nอังสกุฏ\nอังสตรอม\nอังสนา\nอังสภาระ\nอังสะ\nอังสา\nอัจกลับ\nอัจจิ\nอัจจิมา\nอัจจุตะ\nอัจฉรา\nอัจฉริยบุคคล\nอัจฉริยภาพ\nอัจฉริยลักษณ์\nอัจฉริยลักษณะ\nอัจฉริยะ\nอัจนา\nอัชฌัตติก\nอัชฌา\nอัชฌาจาร\nอัชฌาศัย\nอัชฌาสัย\nอัญเดียรถีย์\nอัญมณี\nอัญขยม\nอัญชนะ\nอัญชลี\nอัญชัน\nอัญชุลี\nอัญเชิญ\nอัญญะ\nอัญดิตถีย์\nอัญเดียรถีย์\nอัญประกาศ\nอัญรูป\nอัฏ\nอัฏฐบาน\nอัฏฐะ\nอัฏฐังคิกมรรค\nอัฏนา\nอัฐ\nอัฐฬส\nอัฐเคราะห์\nอัฐทิศ\nอัฐบริขาร\nอัฐบาน\nอัฐม\nอัฐมี\nอัฐศก\nอัฐิ\nอัฒจันทร์\nอัฒภาค\nอัฒมาส\nอัฒรัตติ\nอัณฑโกส\nอัณฑชะ\nอัณฑะ\nอัณณพ\nอัด\nอัดแจ\nอัต\nอัตชีวประวัติ\nอัตนัย\nอัตภาพ\nอัตวินิบาตกรรม\nอัตคัด\nอัตตโนบท\nอัตตา\nอัตตาธิปไตย\nอัตถ์\nอัตถะ\nอัตโนมัติ\nอัตรชะ\nอัตรา\nอัตลัด\nอัททา\nอัทธ์\nอัทธา\nอัทธาน\nอัทธายุ\nอัธยาตมวิทยา\nอัธยาย\nอัธยาศัย\nอัน\nอั้น\nอั๋น\nอันดร\nอันดับ\nอันตกะ\nอันตกาล\nอันตะ\nอันตคุณ\nอันตรภาค\nอันตรวาสก\nอันตรธาน\nอันตรา\nอันตราย\nอันตรายิกธรรม\nอันติกะ\nอันติมสัจ\nอันติมะ\nอันเต\nอันโต\nอันเตปุริก\nอันเตวาสิก\nอันแถ้ง\nอันโทล\nอันธการ\nอันธพาล\nอันธิกา\nอันเวส\nอับ\nอับปาง\nอัปปะ\nอัปเปหิ\nอัปภาคย์\nอัปมงคล\nอัปยศ\nอัประมาณ\nอัประไมย\nอัปราชัย\nอัปรีย์\nอัปลักษณ์\nอัปสร\nอัพพุท\nอัพโพหาริก\nอัพภันดร\nอัพภาน\nอัพภาส\nอัพภูตธรรม\nอัพยากฤต\nอัมพฤกษ์\nอัมพาต\nอัมพวัน\nอัมพวา\nอัมพร\nอัมพา\nอัมพิละ\nอัมพุ\nอัมพุช\nอัมพุชินี\nอัมพุท\nอัยกา\nอัยการ\nอัยกี\nอัยยะ\nอัยยิกา\nอัลกุรอาน\nอัลตราไวโอเลต\nอั่ว\nอัศจรรย์\nอัศเจรีย์\nอัศว\nอัศวเมธ\nอัศวยุช\nอัศวานึก\nอัศวิน\nอัศวินี\nอัษฎมงคล\nอัษฏมงคล\nอัษฎางคิกมรรค\nอัษฎายุธ\nอัษฎาวุธ\nอัสสะ\nอัสดร\nอัสกัณ\nอัสดง\nอัสดงคต\nอัสมิมานะ\nอัสสนี\nอัสสานึก\nอัสสาสะ\nอัสสุ\nอา\nอ่า\nอ้า\nอ๋า\nอากร\nอากังขา\nอากัป\nอาการ\nอากาศ\nอากูล\nอาเกียรณ์\nอาขยาต\nอาขยาน\nอาคเนย์\nอาคม\nอาครหายณี\nอาคันตุกะ\nอาคันตุกภัต\nอาคันตุกวัตร\nอาคาร\nอาฆาต\nอ่าง\nอ้าง\nอางขนาง\nอ้างว้าง\nอาจ\nอาจม\nอาจริยวัตร\nอาจริยวาท\nอาจาด\nอาจาร\nอาจารย์\nอาจารี\nอาจิณ\nอาเจียน\nอาชญา\nอาชวะ\nอาชา\nอาชาไนย\nอาชีพ\nอาชีวศึกษา\nอาชีวะ\nอาชีวก\nอาญา\nอาฏานา\nอาณัติ\nอาณา\nอาด\nอาดูร\nอาดุลย์\nอาดูลย์\nอาเด๊ะ\nอาตมภาพ\nอาตมัน\nอาตมา\nอาถรรพ์\nอาถรรพณ์\nอาทร\nอาทิ\nอาทิจจวาร\nอาทิตย์\nอาทิตยมณฑล\nอาทิตยวาร\nอาทีนพ\nอาทีนวะ\nอาทึก\nอาเทศ\nอาเทสนา\nอาธรรม\nอาธรรม์\nอาธาน\nอาธาร\nอาน\nอ่าน\nอานน\nอานนท์\nอานันท์\nอานันทนะ\nอานัม\nอานาปานะ\nอานาปานัสสติ\nอานิสงส์\nอานุภาพ\nอานุภาวะ\nอาบ\nอาบัติ\nอาบัน\nอาปณกะ\nอาปณะ\nอาปะ\nอาโป\nอาปานะ\nอาพัทธ์\nอาพันธ์\nอาพันธนะ\nอาพาธ\nอาเพศ\nอาภรณ์\nอาภัพ\nอาภัสระ\nอาภา\nอาภาส\nอามลกะ\nอามัย\nอามิษ\nอามิส\nอาย\nอ้าย\nอายตนะ\nอายตะ\nอายน\nอายัด\nอายัต\nอายัน\nอายาจนะ\nอายานะ\nอายุ\nอายุตกะ\nอายุธ\nอายุรกรรม\nอายุรแพทย์\nอายุรเวช\nอายุรเวท\nอายุศาสตร์\nอายุษ\nอาร์กอน\nอารดี\nอารติ\nอาร์ต\nอารทรา\nอาร์ม\nอารมณ์\nอารยชน\nอารยชาติ\nอารยธรรม\nอารยประเทศ\nอารยะ\nอารยัน\nอาระ\nอารักขา\nอารักษ์\nอารัญ\nอารัณย์\nอารัญญิก\nอารัณยกะ\nอารัติ\nอารัมภ์\nอารัมภกถา\nอารัมภบท\nอารัมภะ\nอาราธน์\nอาราธนา\nอาราม\nอารามิก\nอารี\nอารุม\nอาลปนะ\nอาละวาด\nอาลักษณ์\nอาลัย\nอาลัว\nอาลี\nอาโลก\nอาว\nอ่าว\nอ้าว\nอาวรณ์\nอาวัชนาการ\nอาวัล\nอาวาส\nอาวาสิก\nอาวาหมงคล\nอาวาหะ\nอาวุต\nอาวุธ\nอาวุโส\nอาเวค\nอาศรม\nอาศรมบท\nอาศเลษา\nอาศัย\nอาศิรพจน์\nอาศิรพาท\nอาศิรวาท\nอาศุ\nอาเศียรพจน์\nอาเศียรพาท\nอาเศียรวาท\nอาษาฒ\nอาสน\nอาสน์\nอาสนะ\nอาสนศาลา\nอาสัญ\nอาสัตย์\nอาสา\nอาสาฬห์\nอาสาฬหบูชา\nอาสาฬหะ\nอาสิญจ์\nอาสิน\nอาหม\nอาหรับ\nอาหาร\nอาฬหก\nอำ\nอ่ำ\nอ้ำ\nอำแดง\nอำนนต์\nอำนรรฆ\nอำนวย\nอำนาจ\nอำนาถ\nอำนิฐ\nอำนิษฐ์\nอำปลัง\nอำพน\nอำพล\nอำพะนำ\nอำพัน\nอำไพ\nอำเภอ\nอำมร\nอำมฤคโชค\nอำมฤต\nอำมหิต\nอำมาตย์\nอำมาตยาธิปไตย\nอำยวน\nอำรุง\nอำลา\nอำอวม\nอ้ำอึ้ง\nอิก\nอิง\nอิงค์\nอิงอร\nอิจฉา\nอิฉัน\nอิชยา\nอิฏฐารมณ์\nอิฐ\nอิฐผล\nอิด\nอิตถี\nอิตเทรียม\nอิตเทอร์เบียม\nอิติวุตตกะ\nอิทธิ\nอิน\nอินซูลิน\nอินเดีย\nอินเดียนแดง\nอินเดียม\nอินท์\nอินทขีล\nอินทนิล\nอินทผลัม\nอินทร์\nอินทรธนู\nอินทรวงศ์\nอินทรวิเชียร\nอินทรศักดิ์\nอินทราณี\nอินทราภิเษก\nอินทรายุธ\nอินทรี\nอินทรีย์\nอินทรียสังวร\nอินทีวร\nอินทุ\nอินฟราเรด\nอินัง\nอิ่ม\nอิมัลชัน\nอิริเดียม\nอิริยา\nอิริยาบถ\nอิรุพเพท\nอิเล็กตรอน\nอิเล็กทรอนิกส์\nอิเล็กโทน\nอิศร\nอิศวร\nอิษฏ์\nอิษฏี\nอิส\nอิสตรี\nอิสัตรี\nอิสรภาพ\nอิสระ\nอิสริยยศ\nอิสริยะ\nอิสริยาภรณ์\nอิสลาม\nอิสสา\nอิสิ\nอิสี\nอิหม่าม\nอิหลักอิเหลื่อ\nอี\nอี่\nอี้\nอี๊\nอี๋\nอี๋อ๋อ\nอีก\nอีก้อ\nอีก๋อย\nอีโก้ง\nอีจู้\nอี๊ด\nอีเต้อ\nอีโต้\nอีทุบ\nอีเทอร์\nอีนุงตุงนัง\nอีนูน\nอีโน\nอีแปะ\nอีโปง\nอีเพา\nอีมู\nอีรม\nอีลุ้ม\nอีลุ่ยฉุยแฉก\nอีเลิ้ง\nอีศ\nอีศวร\nอีส\nอีสาน\nอีสุกอีใส\nอีหรอบ\nอีหลักอีเหลื่อ\nอีหลี\nอีหลุกขลุกขลัก\nอีหลุกขลุกขลุ่ย\nอีเห็น\nอีเหน็บ\nอีเหนียว\nอีเหละเขละขละ\nอีเหละเขะขะ\nอีโหน่อีเหน่\nอีโหลกโขลกเขลก\nอีแอ่น\nอึ\nอึก\nอึ้ก\nอึ๊ก\nอึกทึก\nอึกอัก\nอึง\nอึ่ง\nอึ้ง\nอึด\nอึดตะปือ\nอึ้ดทึ่ด\nอึน\nอืด\nอื่น\nอื้น\nอือ\nอื้อ\nอื้อฮือ\nอุ\nอุก\nอุกกา\nอุกกาบาต\nอุกฤษฏ์\nอุกลาบาต\nอุค\nอุคระ\nอุคหนิมิต\nอุโฆษ\nอุ้ง\nอุจ\nอุจจาระ\nอุจฉุ\nอุจเฉท\nอุจเฉททิฐิ\nอุจาด\nอุชุ\nอุฏฐาการ\nอุณหภูมิ\nอุณหะ\nอุณหาหาร\nอุณหิส\nอุณา\nอุณาโลม\nอุด\nอุดเตา\nอุดม\nอุดมการณ์\nอุดมคติ\nอุดมศึกษา\nอุดร\nอุดหนุน\nอุตดม\nอุตตมะ\nอุตมภาพ\nอุตมางค์\nอุตดร\nอุตรกุรุทวีป\nอุตตรายัน\nอุตรนิกาย\nอุตรผลคุนี\nอุตตรผลคุนี\nอุตรภัทรบท\nอุตตรภัทรบท\nอุตตรภัททะ\nอุตราภิมุข\nอุตราวรรต\nอุตราวัฏ\nอุตราษาฒ\nอุตตราสาฬหะ\nอุตราสงค์\nอุตตานภาพ\nอุตพิด\nอุตรา\nอุตริ\nอุตริมนุสธรรม\nอุตลุด\nอุตส่าห์\nอุตสาหกรรม\nอุตสาหะ\nอุตุ\nอุตุนิยม\nอุตุนิยมวิทยา\nอุทก\nอุทกธาร\nอุทกธารา\nอุทกภัย\nอุทกวิทยา\nอุทกศาสตร์\nอุทธรณ์\nอุทธัจ\nอุทยาน\nอุทร\nอุทริยะ\nอุทลุม\nอุทัช\nอุทัย\nอุทาน\nอุทาร\nอุทาหรณ์\nอุทิศ\nอุทุมพร\nอุเทศ\nอุเทสิกเจดีย์\nอุธัจ\nอุ่น\nอุบ\nอุบล\nอุบะ\nอุบ๊ะ\nอุบัติ\nอุบาท\nอุบาทว์\nอุบาย\nอุบาสก\nอุบาสิกา\nอุเบกขา\nอุโบสถ\nอุปกรณ์\nอุปกรม\nอุปการ\nอุปการะ\nอุปการี\nอุปกิเลส\nอุปจาร\nอุปถัมภ์\nอุปถัมภก\nอุปทม\nอุปทูต\nอุปเทศ\nอุปเท่ห์\nอุปธิ\nอุปนัย\nอุปนิกขิต\nอุปนิษัท\nอุปนิสัย\nอุปบัติ\nอุปปาติกะ\nอุปพัทธ์\nอุปพันธ์\nอุปโภค\nอุปมา\nอุปมาน\nอุปไมย\nอุปยุวราช\nอุปรากร\nอุปราคา\nอุปราช\nอุปริ\nอุปริมปริยาย\nอุปโลกน์\nอุปเวท\nอุปสมบท\nอุปสมบัน\nอุปสัมบัน\nอุปสรรค\nอุปสัมปทา\nอุปฮาด\nอุปัชฌาย์\nอุปัชฌายวัตร\nอุปัชฌายะ\nอุปัฏฐาก\nอุปัฏฐานะ\nอุปัทวะ\nอุปัทวันตราย\nอุปาทาน\nอุปาหนา\nอุภัย\nอุ้ม\nอุมงค์\nอุโมงค์\nอุย\nอุ่ย\nอุ้ย\nอุ๊ย\nอุยยาน\nอุยยาม\nอุรณะ\nอุรพี\nอุระ\nอุรังอุตัง\nอุรัจฉัท\nอุรัจฉทะ\nอุรา\nอุรุ\nอุไร\nอุลกมณี\nอุลโลจ\nอุลามก\nอุลิด\nอุโลก\nอุแว้\nอุษณกร\nอุษณกาล\nอุษณรัศมี\nอุษณรุจี\nอุษณาการ\nอุษณีษ์\nอุษมะ\nอุษมัน\nอุษา\nอุษาโยค\nอุสภ\nอุสส่าห์\nอุสสาหะ\nอุสา\nอุสุ\nอุสุภ\nอุสุภราช\nอุสุม\nอุหรับ\nอุหลบ\nอุเหม่\nอุฬาร\nอู\nอู่\nอู้\nอูฐ\nอูด\nอูม\nอูย\nอูรุ\nอู๋อี๋\nเอ\nเอ้\nเอ๊\nเอก\nเอกเขนก\nเอกซเรย์\nเอกรรถประโยค\nเอกัคตา\nเอกังสพยากรณ์\nเอกังสวาที\nเอกา\nเอ้กา\nเอกาธิปไตย\nเอเคอร์\nเอง\nเอ็ง\nเอ๋ง\nเอ็ด\nเอ็ดตะโร\nเอดส์\nเอตทัคคะ\nเอ้เต\nเอทิล\nเอน\nเอ็น\nเอนไซม์\nเอ็นดู\nเอ็นอ่อน\nเอม\nเอ็มบริโอ\nเอย\nเอ่ย\nเอ๊ย\nเอ๋ย\nเอร็ดอร่อย\nเอราวัณ\nเอว\nเอ๊ว\nเอวัง\nเอฬกะ\nเอฬา\nเออ\nเอ่อ\nเออร์เบียม\nเอ้อระเหย\nเอ้อเร้อ\nเอ้อเฮอ\nเอ๊ะ\nเอะใจ\nเอะอะ\nเอะอะมะเทิ่ง\nเอา\nเอาทาร\nเอาทารย์\nเอารส\nเอาฬาร\nเอาะลาย\nเอิก\nเอิกเกริก\nเอิ้น\nเอิบ\nเอียง\nเอี้ยง\nเอียด\nเอี๊ยด\nเอียน\nเอี่ยน\nเอี่ยม\nเอี๊ยม\nเอี้ยมจุ๊น\nเอี้ยมเฟี้ยม\nเอี่ยว\nเอี้ยว\nเอื้อ\nเอื๊อก\nเอื้อง\nเอือด\nเอือน\nเอื้อน\nเอือม\nเอื้อม\nเอื่อย\nเอื้อย\nแอ\nแอ้\nแอ๋\nแอก\nแอกทิเนียม\nแอ่ง\nแอ้งแม้ง\nแอด\nแอ้ด\nแอ๊ด\nแอ่น\nแอนติเจน\nแอนติบอดี\nแอนติอิเล็กตรอน\nแอโนด\nแอบ\nแอม\nแอ้ม\nแอมแปร์\nแอมมิเตอร์\nแอมโมเนีย\nแอร่ม\nแอลกอฮอล์\nแอลฟา\nแอว\nแอ่ว\nแอ้วแซ่ว\nแอสทาทีน\nแอสไพริน\nแอสฟัลต์\nแอหนัง\nแออัด\nโอ\nโอ่\nโอ้\nโอ๋\nโอก\nโอ้ก\nโอ้กอ้าก\nโอ๊ก\nโอกาส\nโอฆชล\nโอฆสงสาร\nโอฆะ\nโอ่ง\nโองการ\nโองโขดง\nโอชะ\nโอชา\nโอโซน\nโอฐ\nโอด\nโอ๊ต\nโอตตัปปะ\nโอทนะ\nโอน\nโอบ\nโอปปาติกะ\nโอภา\nโอภาส\nโอม\nโอย\nโอ๊ย\nโอรส\nโอละพ่อ\nโอลิมปิก\nโอวาท\nโอษฐ์\nโอษฐชะ\nโอษฐภัย\nโอสถ\nโอห์ม\nโอหัง\nโอฬาร\nโอฬาริก\nโอฬารึก\nโอ้เอ้\nโอเอซิส\nโอ้โฮ\nไอ\nไอ้\nไอโซโทป\nไอน์สไตเนียม\nไอยรา\nไอยเรศ\nไอราพต\nไอราวัณ\nไอราวัต\nไอศกรีม\nไอศวรรย์\nไอศุริยสมบัติ\nไอศูรย์\nไอออน\nไอโอดีน\nฮกเกี้ยน\nฮด\nฮวงซุ้ย\nฮวน\nฮ้วนหมู\nฮวบ\nฮ่อ\nฮ้อ\nฮอกกี้\nฮอด\nฮ่อม\nฮ่อยจ๊อ\nฮอร์โมน\nฮอลแลนด์\nฮอลันดา\nฮะ\nฮะเบส\nฮะเรีย\nฮัก\nฮังเล\nฮัจญ์\nฮัจญะฮ์\nฮัจญี\nฮั่น\nฮั้ว\nฮา\nฮ้า\nฮ่างหลวง\nฮาจญ์\nฮาม\nฮาเร็ม\nฮาห์เนียม\nฮิจเราะห์\nฮินดู\nฮิปโปโปเตมัส\nฮิสทีเรีย\nฮีเลียม\nฮึ\nฮึก\nฮึด\nฮึดฮัด\nฮึ่ม\nฮึย\nฮึ่ย\nฮืดฮาด\nฮือ\nฮื่อ\nฮื้อ\nฮื้อฉี่\nฮุด\nฮุบ\nฮุยเลฮุย\nฮู้\nฮูก\nฮูม\nเฮ\nเฮฮา\nเฮกตาร์\nเฮกโตกรัม\nเฮกโตเมตร\nเฮกโตลิตร\nเฮง\nเฮ็ด\nเฮโมโกลบิน\nเฮย\nเฮ่ย\nเฮ้ย\nเฮโรอีน\nเฮลิคอปเตอร์\nเฮโล\nเฮละโล\nเฮ้ว\nเฮอ\nเฮ่อ\nเฮ้อ\nเฮอริเคน\nเฮิรตซ์\nเฮี้ยน\nเฮี้ยบ\nเฮี้ยว\nเฮือก\nเฮือน\nแฮ\nแฮ่\nแฮก\nแฮ่กึ๊น\nแฮนด์บอล\nแฮฟเนียม\nแฮม\nแฮะ\nโฮ\nโฮก\nโฮ่ง\nโฮ้ง\nโฮเต็ล\nโฮลเมียม\nโฮะ\nไฮ้\nไฮโกรมิเตอร์\nไฮดรา\nไฮโดร\nไฮโดรคาร์บอน\nไฮโดรเจน\nไฮโดรมิเตอร์\nไฮไฟ\nไฮโล\nไฮฮี\n"
+              .split(/[\r\n]+/)
+              .filter(function (w) {
+                return w.length > 1;
+              })
+      this.addWords(words, false)
+    }
+    if(finalize){
+      this.finalizeDict();
+    }
+  },
+
+  dictSeek: function (l, r, ch, strOffset, pos) {
+    var ans = null;
+    while (l <= r) {
+      var m = Math.floor((l + r) / 2),
+        dict_item = this.dict[m],
+        len = dict_item.length;
+      if (len <= strOffset) {
+        l = m + 1;
+      } else {
+        var ch_ = dict_item[strOffset];
+        if (ch_ < ch) {
+          l = m + 1;
+        } else if (ch_ > ch) {
+          r = m - 1;
+        } else {
+          ans = m;
+          if (pos == LEFT) {
+            r = m - 1;
+          } else {
+            l = m + 1;
+          }
+        }
+      }
+    }
+    return ans;
+  },
+
+  isFinal: function (acceptor) {
+    return this.dict[acceptor.l].length == acceptor.strOffset;
+  },
+
+  createAcceptor: function () {
+    return {
+      l: 0,
+      r: this.dict.length - 1,
+      strOffset: 0,
+      isFinal: false,
+      dict: this,
+      transit: function (ch) {
+        return this.dict.transit(this, ch);
+      },
+      isError: false,
+      tag: "DICT",
+      w: 1,
+      type: "DICT"
+    };
+  },
+
+  transit: function (acceptor, ch) {
+    var l = this.dictSeek(acceptor.l,
+      acceptor.r,
+      ch,
+      acceptor.strOffset,
+      LEFT);
+    if (l !== null) {
+      var r = this.dictSeek(l,
+        acceptor.r,
+        ch,
+        acceptor.strOffset,
+        RIGHT);
+      acceptor.l = l;
+      acceptor.r = r;
+      acceptor.strOffset++;
+      acceptor.isFinal = this.isFinal(acceptor);
+    } else {
+      acceptor.isError = true;
+    }
+    return acceptor;
+  },
+
+  sortuniq: function(a){
+    return a.sort().filter(function(item, pos, arr){
+      return !pos || item != arr[pos - 1];
+    })
+  },
+
+  flatten: function(a){
+    //[[1,2],[3]] -> [1,2,3]
+    return [].concat.apply([], a);
+  }
+};
+module.exports = WordcutDict;
+
+}).call(this,"/dist/tmp")
+},{"glob":16,"path":22}],3:[function(require,module,exports){
+var WordRule = {
+  createAcceptor: function(tag) {
+    if (tag["WORD_RULE"])
+      return null;
+
+    return {strOffset: 0,
+            isFinal: false,
+            transit: function(ch) {
+              var lch = ch.toLowerCase();
+              if (lch >= "a" && lch <= "z") {
+                this.isFinal = true;
+                this.strOffset++;
+              } else {
+                this.isError = true;
+              }
+              return this;
+            },
+            isError: false,
+            tag: "WORD_RULE",
+            type: "WORD_RULE",
+            w: 1};
+  }
+};
+
+var NumberRule = {
+  createAcceptor: function(tag) {
+    if (tag["NUMBER_RULE"])
+      return null;
+
+    return {strOffset: 0,
+            isFinal: false,
+            transit: function(ch) {
+              if (ch >= "0" && ch <= "9") {
+                this.isFinal = true;
+                this.strOffset++;
+              } else {
+                this.isError = true;
+              }
+              return this;
+            },
+            isError: false,
+            tag: "NUMBER_RULE",
+            type: "NUMBER_RULE",
+            w: 1};
+  }
+};
+
+var SpaceRule = {
+  tag: "SPACE_RULE",
+  createAcceptor: function(tag) {
+
+    if (tag["SPACE_RULE"])
+      return null;
+
+    return {strOffset: 0,
+            isFinal: false,
+            transit: function(ch) {
+              if (ch == " " || ch == "\t" || ch == "\r" || ch == "\n" ||
+                  ch == "\u00A0" || ch=="\u2003"//nbsp and emsp
+                 ) {
+                this.isFinal = true;
+                this.strOffset++;
+              } else {
+                this.isError = true;
+              }
+              return this;
+            },
+            isError: false,
+            tag: SpaceRule.tag,
+            w: 1,
+            type: "SPACE_RULE"};
+  }
+}
+
+var SingleSymbolRule = {
+  tag: "SINSYM",
+  createAcceptor: function(tag) {
+    return {strOffset: 0,
+            isFinal: false,
+            transit: function(ch) {
+              if (this.strOffset == 0 && ch.match(/^[\@\(\)\/\,\-\."`]$/)) {
+                this.isFinal = true;
+                this.strOffset++;
+              } else {
+                this.isError = true;
+              }
+              return this;
+            },
+            isError: false,
+            tag: "SINSYM",
+            w: 1,
+            type: "SINSYM"};
+  }
+}
+
+
+var LatinRules = [WordRule, SpaceRule, SingleSymbolRule, NumberRule];
+
+module.exports = LatinRules;
+
+},{}],4:[function(require,module,exports){
+var _ = require("underscore")
+  , WordcutCore = require("./wordcut_core");
+var PathInfoBuilder = {
+
+  /*
+    buildByPartAcceptors: function(path, acceptors, i) {
+    var 
+    var genInfos = partAcceptors.reduce(function(genInfos, acceptor) {
+      
+    }, []);
+    
+    return genInfos;
+  } 
+  */
+
+  buildByAcceptors: function(path, finalAcceptors, i) {
+    var self = this;
+    var infos = finalAcceptors.map(function(acceptor) {
+      var p = i - acceptor.strOffset + 1
+        , _info = path[p];            
+      
+      var info = {p: p, 
+                  mw: _info.mw + (acceptor.mw === undefined ? 0 : acceptor.mw),
+                  w: acceptor.w + _info.w,
+                  unk: (acceptor.unk ? acceptor.unk : 0) + _info.unk, 
+                  type: acceptor.type};
+
+      if (acceptor.type == "PART") {
+        for(var j = p + 1; j <= i; j++) {
+          path[j].merge = p;
+        }
+        info.merge = p;
+      }
+
+      return info;
+    });
+    return infos.filter(function(info) { return info; });
+  },
+  
+  fallback: function(path, leftBoundary, text, i) {
+    var _info = path[leftBoundary];
+    if (text[i].match(/[\u0E48-\u0E4E]/)) {
+      if (leftBoundary != 0) 
+        leftBoundary = path[leftBoundary].p;
+      return {p: leftBoundary,
+              mw: 0,
+              w: 1 + _info.w,
+              unk: 1 + _info.unk,
+              type: "UNK"};      
+/*    } else if(leftBoundary > 0 && path[leftBoundary].type !== "UNK") {
+      leftBoundary = path[leftBoundary].p;
+      return {p: leftBoundary,
+              w: 1 + _info.w,
+              unk: 1 + _info.unk,
+              type: "UNK"};            */
+    } else {      
+      return {p: leftBoundary,
+              mw: _info.mw,
+              w: 1 + _info.w,
+              unk: 1 + _info.unk,
+              type: "UNK"};
+    }
+  },
+  
+  build: function(path, finalAcceptors, i, leftBoundary, text) {
+    var basicPathInfos = this.buildByAcceptors(path, finalAcceptors, i);
+    if (basicPathInfos.length > 0) {
+      return basicPathInfos;
+    } else {
+      return [this.fallback(path, leftBoundary, text, i)];
+    }
+  }
+};
+
+module.exports = function() {
+  return _.clone(PathInfoBuilder);
+}
+
+},{"./wordcut_core":8,"underscore":25}],5:[function(require,module,exports){
+var _ = require("underscore");
+
+
+var PathSelector = {
+  selectPath: function(paths) {
+    var path = paths.reduce(function(selectedPath, path) {
+      if (selectedPath == null) {        
+        return path;
+      } else {
+        if (path.unk < selectedPath.unk) 
+          return path;        
+        if (path.unk == selectedPath.unk) {
+          if (path.mw < selectedPath.mw)
+            return path
+          if (path.mw == selectedPath.mw) {
+            if (path.w < selectedPath.w) 
+              return path;
+          }
+        }
+        return selectedPath;
+      }
+    }, null);
+    return path;
+  },
+  
+  createPath: function() {
+    return [{p:null, w:0, unk:0, type: "INIT", mw:0}];
+  }
+};
+
+module.exports = function() {
+  return _.clone(PathSelector);
+};
+
+},{"underscore":25}],6:[function(require,module,exports){
+function isMatch(pat, offset, ch) {
+  if (pat.length <= offset)
+    return false;
+  var _ch = pat[offset];
+  return _ch == ch ||
+         (_ch.match(/[กข]/) && ch.match(/[ก-ฮ]/)) ||
+         (_ch.match(/[มบ]/) && ch.match(/[ก-ฮ]/)) ||
+         (_ch.match(/\u0E49/) && ch.match(/[\u0E48-\u0E4B]/));
+}
+
+var Rule0 = {
+  pat: "เหก็ม",
+  createAcceptor: function(tag) {
+    return {strOffset: 0,
+            isFinal: false,
+            transit: function(ch) {
+              if (isMatch(Rule0.pat, this.strOffset,ch)) {                 
+                this.isFinal = (this.strOffset + 1 == Rule0.pat.length);                
+                this.strOffset++;
+              } else {              
+                this.isError = true;             
+              }
+              return this;
+            },
+            isError: false,
+            tag: "THAI_RULE",
+            type: "THAI_RULE", 
+            w: 1};                        
+  }
+};
+
+var PartRule = {
+  createAcceptor: function(tag) {
+    return {strOffset: 0,
+            patterns: [
+              "แก", "เก", "ก้", "กก์", "กา", "กี", "กิ", "กืก"  
+            ],
+            isFinal: false,
+            transit: function(ch) {
+              var offset = this.strOffset;
+              this.patterns = this.patterns.filter(function(pat) {
+                return isMatch(pat, offset, ch);
+              });
+              
+              if (this.patterns.length > 0) {
+                var len = 1 + offset;
+                this.isFinal = this.patterns.some(function(pat) {
+                  return pat.length == len; 
+                });
+                this.strOffset++;
+              } else {              
+                this.isError = true;             
+              }
+              return this;
+            },
+            isError: false,
+            tag: "PART",
+            type: "PART", 
+            unk: 1,
+            w: 1};                        
+  }
+};
+
+var ThaiRules = [Rule0, PartRule];
+
+module.exports = ThaiRules;
+
+},{}],7:[function(require,module,exports){
+var sys = require("sys")
+  , WordcutDict = require("./dict")
+  , WordcutCore = require("./wordcut_core")
+  , PathInfoBuilder = require("./path_info_builder")
+  , PathSelector = require("./path_selector")
+  , Acceptors = require("./acceptors")
+  , latinRules = require("./latin_rules")
+  , thaiRules = require("./thai_rules")
+  , _ = require("underscore");
+
+
+var Wordcut = Object.create(WordcutCore);
+Wordcut.defaultPathInfoBuilder = PathInfoBuilder;
+Wordcut.defaultPathSelector = PathSelector;
+Wordcut.defaultAcceptors = Acceptors;
+Wordcut.defaultLatinRules = latinRules;
+Wordcut.defaultThaiRules = thaiRules;
+Wordcut.defaultDict = WordcutDict;
+
+
+Wordcut.initNoDict = function(dict_path) {
+  var self = this;
+  self.pathInfoBuilder = new self.defaultPathInfoBuilder;
+  self.pathSelector = new self.defaultPathSelector;
+  self.acceptors = new self.defaultAcceptors;
+  self.defaultLatinRules.forEach(function(rule) {
+    self.acceptors.creators.push(rule);
+  });
+  self.defaultThaiRules.forEach(function(rule) {
+    self.acceptors.creators.push(rule);
+  });
+};
+
+Wordcut.init = function(dict_path, withDefault, additionalWords) {
+  withDefault = withDefault || false;
+  this.initNoDict();
+  var dict = _.clone(this.defaultDict);
+  dict.init(dict_path, withDefault, additionalWords);
+  this.acceptors.creators.push(dict);
+};
+
+module.exports = Wordcut;
+
+},{"./acceptors":1,"./dict":2,"./latin_rules":3,"./path_info_builder":4,"./path_selector":5,"./thai_rules":6,"./wordcut_core":8,"sys":28,"underscore":25}],8:[function(require,module,exports){
+var WordcutCore = {
+
+  buildPath: function(text) {
+    var self = this
+      , path = self.pathSelector.createPath()
+      , leftBoundary = 0;
+    self.acceptors.reset();
+    for (var i = 0; i < text.length; i++) {
+      var ch = text[i];
+      self.acceptors.transit(ch);
+
+      var possiblePathInfos = self
+        .pathInfoBuilder
+        .build(path,
+               self.acceptors.getFinalAcceptors(),
+               i,
+               leftBoundary,
+               text);
+      var selectedPath = self.pathSelector.selectPath(possiblePathInfos)
+
+      path.push(selectedPath);
+      if (selectedPath.type !== "UNK") {
+        leftBoundary = i;
+      }
+    }
+    return path;
+  },
+
+  pathToRanges: function(path) {
+    var e = path.length - 1
+     , ranges = [];
+
+    while (e > 0) {
+      var info = path[e]
+       , s = info.p;
+
+      if (info.merge !== undefined && ranges.length > 0) {
+        var r = ranges[ranges.length - 1];
+        r.s = info.merge;
+        s = r.s;
+      } else {
+        ranges.push({s:s, e:e});
+      }
+      e = s;
+    }
+    return ranges.reverse();
+  },
+
+  rangesToText: function(text, ranges, delimiter) {
+    return ranges.map(function(r) {
+      return text.substring(r.s, r.e);
+    }).join(delimiter);
+  },
+
+  cut: function(text, delimiter) {
+    var path = this.buildPath(text)
+      , ranges = this.pathToRanges(path);
+    return this
+      .rangesToText(text, ranges,
+                    (delimiter === undefined ? "|" : delimiter));
+  },
+
+  cutIntoRanges: function(text, noText) {
+    var path = this.buildPath(text)
+      , ranges = this.pathToRanges(path);
+
+    if (!noText) {
+      ranges.forEach(function(r) {
+        r.text = text.substring(r.s, r.e);
+      });
+    }
+    return ranges;
+  },
+
+  cutIntoArray: function(text) {
+    var path = this.buildPath(text)
+      , ranges = this.pathToRanges(path);
+    
+    return ranges.map(function(r) {
+      return text.substring(r.s, r.e)
+    });
+  }
+};
+
+module.exports = WordcutCore;
+
+},{}],9:[function(require,module,exports){
+// http://wiki.commonjs.org/wiki/Unit_Testing/1.0
+//
+// THIS IS NOT TESTED NOR LIKELY TO WORK OUTSIDE V8!
+//
+// Originally from narwhal.js (http://narwhaljs.org)
+// Copyright (c) 2009 Thomas Robinson <280north.com>
+//
+// Permission is hereby granted, free of charge, to any person obtaining a copy
+// of this software and associated documentation files (the 'Software'), to
+// deal in the Software without restriction, including without limitation the
+// rights to use, copy, modify, merge, publish, distribute, sublicense, and/or
+// sell copies of the Software, and to permit persons to whom the Software is
+// furnished to do so, subject to the following conditions:
+//
+// The above copyright notice and this permission notice shall be included in
+// all copies or substantial portions of the Software.
+//
+// THE SOFTWARE IS PROVIDED 'AS IS', WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+// IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+// FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+// AUTHORS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN
+// ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION
+// WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
+
+// when used in node, this will actually load the util module we depend on
+// versus loading the builtin util module as happens otherwise
+// this is a bug in node module loading as far as I am concerned
+var util = require('util/');
+
+var pSlice = Array.prototype.slice;
+var hasOwn = Object.prototype.hasOwnProperty;
+
+// 1. The assert module provides functions that throw
+// AssertionError's when particular conditions are not met. The
+// assert module must conform to the following interface.
+
+var assert = module.exports = ok;
+
+// 2. The AssertionError is defined in assert.
+// new assert.AssertionError({ message: message,
+//                             actual: actual,
+//                             expected: expected })
+
+assert.AssertionError = function AssertionError(options) {
+  this.name = 'AssertionError';
+  this.actual = options.actual;
+  this.expected = options.expected;
+  this.operator = options.operator;
+  if (options.message) {
+    this.message = options.message;
+    this.generatedMessage = false;
+  } else {
+    this.message = getMessage(this);
+    this.generatedMessage = true;
+  }
+  var stackStartFunction = options.stackStartFunction || fail;
+
+  if (Error.captureStackTrace) {
+    Error.captureStackTrace(this, stackStartFunction);
+  }
+  else {
+    // non v8 browsers so we can have a stacktrace
+    var err = new Error();
+    if (err.stack) {
+      var out = err.stack;
+
+      // try to strip useless frames
+      var fn_name = stackStartFunction.name;
+      var idx = out.indexOf('\n' + fn_name);
+      if (idx >= 0) {
+        // once we have located the function frame
+        // we need to strip out everything before it (and its line)
+        var next_line = out.indexOf('\n', idx + 1);
+        out = out.substring(next_line + 1);
+      }
+
+      this.stack = out;
+    }
+  }
+};
+
+// assert.AssertionError instanceof Error
+util.inherits(assert.AssertionError, Error);
+
+function replacer(key, value) {
+  if (util.isUndefined(value)) {
+    return '' + value;
+  }
+  if (util.isNumber(value) && !isFinite(value)) {
+    return value.toString();
+  }
+  if (util.isFunction(value) || util.isRegExp(value)) {
+    return value.toString();
+  }
+  return value;
+}
+
+function truncate(s, n) {
+  if (util.isString(s)) {
+    return s.length < n ? s : s.slice(0, n);
+  } else {
+    return s;
+  }
+}
+
+function getMessage(self) {
+  return truncate(JSON.stringify(self.actual, replacer), 128) + ' ' +
+         self.operator + ' ' +
+         truncate(JSON.stringify(self.expected, replacer), 128);
+}
+
+// At present only the three keys mentioned above are used and
+// understood by the spec. Implementations or sub modules can pass
+// other keys to the AssertionError's constructor - they will be
+// ignored.
+
+// 3. All of the following functions must throw an AssertionError
+// when a corresponding condition is not met, with a message that
+// may be undefined if not provided.  All assertion methods provide
+// both the actual and expected values to the assertion error for
+// display purposes.
+
+function fail(actual, expected, message, operator, stackStartFunction) {
+  throw new assert.AssertionError({
+    message: message,
+    actual: actual,
+    expected: expected,
+    operator: operator,
+    stackStartFunction: stackStartFunction
+  });
+}
+
+// EXTENSION! allows for well behaved errors defined elsewhere.
+assert.fail = fail;
+
+// 4. Pure assertion tests whether a value is truthy, as determined
+// by !!guard.
+// assert.ok(guard, message_opt);
+// This statement is equivalent to assert.equal(true, !!guard,
+// message_opt);. To test strictly for the value true, use
+// assert.strictEqual(true, guard, message_opt);.
+
+function ok(value, message) {
+  if (!value) fail(value, true, message, '==', assert.ok);
+}
+assert.ok = ok;
+
+// 5. The equality assertion tests shallow, coercive equality with
+// ==.
+// assert.equal(actual, expected, message_opt);
+
+assert.equal = function equal(actual, expected, message) {
+  if (actual != expected) fail(actual, expected, message, '==', assert.equal);
+};
+
+// 6. The non-equality assertion tests for whether two objects are not equal
+// with != assert.notEqual(actual, expected, message_opt);
+
+assert.notEqual = function notEqual(actual, expected, message) {
+  if (actual == expected) {
+    fail(actual, expected, message, '!=', assert.notEqual);
+  }
+};
+
+// 7. The equivalence assertion tests a deep equality relation.
+// assert.deepEqual(actual, expected, message_opt);
+
+assert.deepEqual = function deepEqual(actual, expected, message) {
+  if (!_deepEqual(actual, expected)) {
+    fail(actual, expected, message, 'deepEqual', assert.deepEqual);
+  }
+};
+
+function _deepEqual(actual, expected) {
+  // 7.1. All identical values are equivalent, as determined by ===.
+  if (actual === expected) {
+    return true;
+
+  } else if (util.isBuffer(actual) && util.isBuffer(expected)) {
+    if (actual.length != expected.length) return false;
+
+    for (var i = 0; i < actual.length; i++) {
+      if (actual[i] !== expected[i]) return false;
+    }
+
+    return true;
+
+  // 7.2. If the expected value is a Date object, the actual value is
+  // equivalent if it is also a Date object that refers to the same time.
+  } else if (util.isDate(actual) && util.isDate(expected)) {
+    return actual.getTime() === expected.getTime();
+
+  // 7.3 If the expected value is a RegExp object, the actual value is
+  // equivalent if it is also a RegExp object with the same source and
+  // properties (`global`, `multiline`, `lastIndex`, `ignoreCase`).
+  } else if (util.isRegExp(actual) && util.isRegExp(expected)) {
+    return actual.source === expected.source &&
+           actual.global === expected.global &&
+           actual.multiline === expected.multiline &&
+           actual.lastIndex === expected.lastIndex &&
+           actual.ignoreCase === expected.ignoreCase;
+
+  // 7.4. Other pairs that do not both pass typeof value == 'object',
+  // equivalence is determined by ==.
+  } else if (!util.isObject(actual) && !util.isObject(expected)) {
+    return actual == expected;
+
+  // 7.5 For all other Object pairs, including Array objects, equivalence is
+  // determined by having the same number of owned properties (as verified
+  // with Object.prototype.hasOwnProperty.call), the same set of keys
+  // (although not necessarily the same order), equivalent values for every
+  // corresponding key, and an identical 'prototype' property. Note: this
+  // accounts for both named and indexed properties on Arrays.
+  } else {
+    return objEquiv(actual, expected);
+  }
+}
+
+function isArguments(object) {
+  return Object.prototype.toString.call(object) == '[object Arguments]';
+}
+
+function objEquiv(a, b) {
+  if (util.isNullOrUndefined(a) || util.isNullOrUndefined(b))
+    return false;
+  // an identical 'prototype' property.
+  if (a.prototype !== b.prototype) return false;
+  // if one is a primitive, the other must be same
+  if (util.isPrimitive(a) || util.isPrimitive(b)) {
+    return a === b;
+  }
+  var aIsArgs = isArguments(a),
+      bIsArgs = isArguments(b);
+  if ((aIsArgs && !bIsArgs) || (!aIsArgs && bIsArgs))
+    return false;
+  if (aIsArgs) {
+    a = pSlice.call(a);
+    b = pSlice.call(b);
+    return _deepEqual(a, b);
+  }
+  var ka = objectKeys(a),
+      kb = objectKeys(b),
+      key, i;
+  // having the same number of owned properties (keys incorporates
+  // hasOwnProperty)
+  if (ka.length != kb.length)
+    return false;
+  //the same set of keys (although not necessarily the same order),
+  ka.sort();
+  kb.sort();
+  //~~~cheap key test
+  for (i = ka.length - 1; i >= 0; i--) {
+    if (ka[i] != kb[i])
+      return false;
+  }
+  //equivalent values for every corresponding key, and
+  //~~~possibly expensive deep test
+  for (i = ka.length - 1; i >= 0; i--) {
+    key = ka[i];
+    if (!_deepEqual(a[key], b[key])) return false;
+  }
+  return true;
+}
+
+// 8. The non-equivalence assertion tests for any deep inequality.
+// assert.notDeepEqual(actual, expected, message_opt);
+
+assert.notDeepEqual = function notDeepEqual(actual, expected, message) {
+  if (_deepEqual(actual, expected)) {
+    fail(actual, expected, message, 'notDeepEqual', assert.notDeepEqual);
+  }
+};
+
+// 9. The strict equality assertion tests strict equality, as determined by ===.
+// assert.strictEqual(actual, expected, message_opt);
+
+assert.strictEqual = function strictEqual(actual, expected, message) {
+  if (actual !== expected) {
+    fail(actual, expected, message, '===', assert.strictEqual);
+  }
+};
+
+// 10. The strict non-equality assertion tests for strict inequality, as
+// determined by !==.  assert.notStrictEqual(actual, expected, message_opt);
+
+assert.notStrictEqual = function notStrictEqual(actual, expected, message) {
+  if (actual === expected) {
+    fail(actual, expected, message, '!==', assert.notStrictEqual);
+  }
+};
+
+function expectedException(actual, expected) {
+  if (!actual || !expected) {
+    return false;
+  }
+
+  if (Object.prototype.toString.call(expected) == '[object RegExp]') {
+    return expected.test(actual);
+  } else if (actual instanceof expected) {
+    return true;
+  } else if (expected.call({}, actual) === true) {
+    return true;
+  }
+
+  return false;
+}
+
+function _throws(shouldThrow, block, expected, message) {
+  var actual;
+
+  if (util.isString(expected)) {
+    message = expected;
+    expected = null;
+  }
+
+  try {
+    block();
+  } catch (e) {
+    actual = e;
+  }
+
+  message = (expected && expected.name ? ' (' + expected.name + ').' : '.') +
+            (message ? ' ' + message : '.');
+
+  if (shouldThrow && !actual) {
+    fail(actual, expected, 'Missing expected exception' + message);
+  }
+
+  if (!shouldThrow && expectedException(actual, expected)) {
+    fail(actual, expected, 'Got unwanted exception' + message);
+  }
+
+  if ((shouldThrow && actual && expected &&
+      !expectedException(actual, expected)) || (!shouldThrow && actual)) {
+    throw actual;
+  }
+}
+
+// 11. Expected to throw an error:
+// assert.throws(block, Error_opt, message_opt);
+
+assert.throws = function(block, /*optional*/error, /*optional*/message) {
+  _throws.apply(this, [true].concat(pSlice.call(arguments)));
+};
+
+// EXTENSION! This is annoying to write outside this module.
+assert.doesNotThrow = function(block, /*optional*/message) {
+  _throws.apply(this, [false].concat(pSlice.call(arguments)));
+};
+
+assert.ifError = function(err) { if (err) {throw err;}};
+
+var objectKeys = Object.keys || function (obj) {
+  var keys = [];
+  for (var key in obj) {
+    if (hasOwn.call(obj, key)) keys.push(key);
+  }
+  return keys;
+};
+
+},{"util/":28}],10:[function(require,module,exports){
+'use strict';
+module.exports = balanced;
+function balanced(a, b, str) {
+  if (a instanceof RegExp) a = maybeMatch(a, str);
+  if (b instanceof RegExp) b = maybeMatch(b, str);
+
+  var r = range(a, b, str);
+
+  return r && {
+    start: r[0],
+    end: r[1],
+    pre: str.slice(0, r[0]),
+    body: str.slice(r[0] + a.length, r[1]),
+    post: str.slice(r[1] + b.length)
+  };
+}
+
+function maybeMatch(reg, str) {
+  var m = str.match(reg);
+  return m ? m[0] : null;
+}
+
+balanced.range = range;
+function range(a, b, str) {
+  var begs, beg, left, right, result;
+  var ai = str.indexOf(a);
+  var bi = str.indexOf(b, ai + 1);
+  var i = ai;
+
+  if (ai >= 0 && bi > 0) {
+    begs = [];
+    left = str.length;
+
+    while (i >= 0 && !result) {
+      if (i == ai) {
+        begs.push(i);
+        ai = str.indexOf(a, i + 1);
+      } else if (begs.length == 1) {
+        result = [ begs.pop(), bi ];
+      } else {
+        beg = begs.pop();
+        if (beg < left) {
+          left = beg;
+          right = bi;
+        }
+
+        bi = str.indexOf(b, i + 1);
+      }
+
+      i = ai < bi && ai >= 0 ? ai : bi;
+    }
+
+    if (begs.length) {
+      result = [ left, right ];
+    }
+  }
+
+  return result;
+}
+
+},{}],11:[function(require,module,exports){
+var concatMap = require('concat-map');
+var balanced = require('balanced-match');
+
+module.exports = expandTop;
+
+var escSlash = '\0SLASH'+Math.random()+'\0';
+var escOpen = '\0OPEN'+Math.random()+'\0';
+var escClose = '\0CLOSE'+Math.random()+'\0';
+var escComma = '\0COMMA'+Math.random()+'\0';
+var escPeriod = '\0PERIOD'+Math.random()+'\0';
+
+function numeric(str) {
+  return parseInt(str, 10) == str
+    ? parseInt(str, 10)
+    : str.charCodeAt(0);
+}
+
+function escapeBraces(str) {
+  return str.split('\\\\').join(escSlash)
+            .split('\\{').join(escOpen)
+            .split('\\}').join(escClose)
+            .split('\\,').join(escComma)
+            .split('\\.').join(escPeriod);
+}
+
+function unescapeBraces(str) {
+  return str.split(escSlash).join('\\')
+            .split(escOpen).join('{')
+            .split(escClose).join('}')
+            .split(escComma).join(',')
+            .split(escPeriod).join('.');
+}
+
+
+// Basically just str.split(","), but handling cases
+// where we have nested braced sections, which should be
+// treated as individual members, like {a,{b,c},d}
+function parseCommaParts(str) {
+  if (!str)
+    return [''];
+
+  var parts = [];
+  var m = balanced('{', '}', str);
+
+  if (!m)
+    return str.split(',');
+
+  var pre = m.pre;
+  var body = m.body;
+  var post = m.post;
+  var p = pre.split(',');
+
+  p[p.length-1] += '{' + body + '}';
+  var postParts = parseCommaParts(post);
+  if (post.length) {
+    p[p.length-1] += postParts.shift();
+    p.push.apply(p, postParts);
+  }
+
+  parts.push.apply(parts, p);
+
+  return parts;
+}
+
+function expandTop(str) {
+  if (!str)
+    return [];
+
+  // I don't know why Bash 4.3 does this, but it does.
+  // Anything starting with {} will have the first two bytes preserved
+  // but *only* at the top level, so {},a}b will not expand to anything,
+  // but a{},b}c will be expanded to [a}c,abc].
+  // One could argue that this is a bug in Bash, but since the goal of
+  // this module is to match Bash's rules, we escape a leading {}
+  if (str.substr(0, 2) === '{}') {
+    str = '\\{\\}' + str.substr(2);
+  }
+
+  return expand(escapeBraces(str), true).map(unescapeBraces);
+}
+
+function identity(e) {
+  return e;
+}
+
+function embrace(str) {
+  return '{' + str + '}';
+}
+function isPadded(el) {
+  return /^-?0\d/.test(el);
+}
+
+function lte(i, y) {
+  return i <= y;
+}
+function gte(i, y) {
+  return i >= y;
+}
+
+function expand(str, isTop) {
+  var expansions = [];
+
+  var m = balanced('{', '}', str);
+  if (!m || /\$$/.test(m.pre)) return [str];
+
+  var isNumericSequence = /^-?\d+\.\.-?\d+(?:\.\.-?\d+)?$/.test(m.body);
+  var isAlphaSequence = /^[a-zA-Z]\.\.[a-zA-Z](?:\.\.-?\d+)?$/.test(m.body);
+  var isSequence = isNumericSequence || isAlphaSequence;
+  var isOptions = m.body.indexOf(',') >= 0;
+  if (!isSequence && !isOptions) {
+    // {a},b}
+    if (m.post.match(/,.*\}/)) {
+      str = m.pre + '{' + m.body + escClose + m.post;
+      return expand(str);
+    }
+    return [str];
+  }
+
+  var n;
+  if (isSequence) {
+    n = m.body.split(/\.\./);
+  } else {
+    n = parseCommaParts(m.body);
+    if (n.length === 1) {
+      // x{{a,b}}y ==> x{a}y x{b}y
+      n = expand(n[0], false).map(embrace);
+      if (n.length === 1) {
+        var post = m.post.length
+          ? expand(m.post, false)
+          : [''];
+        return post.map(function(p) {
+          return m.pre + n[0] + p;
+        });
+      }
+    }
+  }
+
+  // at this point, n is the parts, and we know it's not a comma set
+  // with a single entry.
+
+  // no need to expand pre, since it is guaranteed to be free of brace-sets
+  var pre = m.pre;
+  var post = m.post.length
+    ? expand(m.post, false)
+    : [''];
+
+  var N;
+
+  if (isSequence) {
+    var x = numeric(n[0]);
+    var y = numeric(n[1]);
+    var width = Math.max(n[0].length, n[1].length)
+    var incr = n.length == 3
+      ? Math.abs(numeric(n[2]))
+      : 1;
+    var test = lte;
+    var reverse = y < x;
+    if (reverse) {
+      incr *= -1;
+      test = gte;
+    }
+    var pad = n.some(isPadded);
+
+    N = [];
+
+    for (var i = x; test(i, y); i += incr) {
+      var c;
+      if (isAlphaSequence) {
+        c = String.fromCharCode(i);
+        if (c === '\\')
+          c = '';
+      } else {
+        c = String(i);
+        if (pad) {
+          var need = width - c.length;
+          if (need > 0) {
+            var z = new Array(need + 1).join('0');
+            if (i < 0)
+              c = '-' + z + c.slice(1);
+            else
+              c = z + c;
+          }
+        }
+      }
+      N.push(c);
+    }
+  } else {
+    N = concatMap(n, function(el) { return expand(el, false) });
+  }
+
+  for (var j = 0; j < N.length; j++) {
+    for (var k = 0; k < post.length; k++) {
+      var expansion = pre + N[j] + post[k];
+      if (!isTop || isSequence || expansion)
+        expansions.push(expansion);
+    }
+  }
+
+  return expansions;
+}
+
+
+},{"balanced-match":10,"concat-map":13}],12:[function(require,module,exports){
+
+},{}],13:[function(require,module,exports){
+module.exports = function (xs, fn) {
+    var res = [];
+    for (var i = 0; i < xs.length; i++) {
+        var x = fn(xs[i], i);
+        if (isArray(x)) res.push.apply(res, x);
+        else res.push(x);
+    }
+    return res;
+};
+
+var isArray = Array.isArray || function (xs) {
+    return Object.prototype.toString.call(xs) === '[object Array]';
+};
+
+},{}],14:[function(require,module,exports){
+// Copyright Joyent, Inc. and other Node contributors.
+//
+// Permission is hereby granted, free of charge, to any person obtaining a
+// copy of this software and associated documentation files (the
+// "Software"), to deal in the Software without restriction, including
+// without limitation the rights to use, copy, modify, merge, publish,
+// distribute, sublicense, and/or sell copies of the Software, and to permit
+// persons to whom the Software is furnished to do so, subject to the
+// following conditions:
+//
+// The above copyright notice and this permission notice shall be included
+// in all copies or substantial portions of the Software.
+//
+// THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS
+// OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
+// MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN
+// NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM,
+// DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR
+// OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE
+// USE OR OTHER DEALINGS IN THE SOFTWARE.
+
+function EventEmitter() {
+  this._events = this._events || {};
+  this._maxListeners = this._maxListeners || undefined;
+}
+module.exports = EventEmitter;
+
+// Backwards-compat with node 0.10.x
+EventEmitter.EventEmitter = EventEmitter;
+
+EventEmitter.prototype._events = undefined;
+EventEmitter.prototype._maxListeners = undefined;
+
+// By default EventEmitters will print a warning if more than 10 listeners are
+// added to it. This is a useful default which helps finding memory leaks.
+EventEmitter.defaultMaxListeners = 10;
+
+// Obviously not all Emitters should be limited to 10. This function allows
+// that to be increased. Set to zero for unlimited.
+EventEmitter.prototype.setMaxListeners = function(n) {
+  if (!isNumber(n) || n < 0 || isNaN(n))
+    throw TypeError('n must be a positive number');
+  this._maxListeners = n;
+  return this;
+};
+
+EventEmitter.prototype.emit = function(type) {
+  var er, handler, len, args, i, listeners;
+
+  if (!this._events)
+    this._events = {};
+
+  // If there is no 'error' event listener then throw.
+  if (type === 'error') {
+    if (!this._events.error ||
+        (isObject(this._events.error) && !this._events.error.length)) {
+      er = arguments[1];
+      if (er instanceof Error) {
+        throw er; // Unhandled 'error' event
+      }
+      throw TypeError('Uncaught, unspecified "error" event.');
+    }
+  }
+
+  handler = this._events[type];
+
+  if (isUndefined(handler))
+    return false;
+
+  if (isFunction(handler)) {
+    switch (arguments.length) {
+      // fast cases
+      case 1:
+        handler.call(this);
+        break;
+      case 2:
+        handler.call(this, arguments[1]);
+        break;
+      case 3:
+        handler.call(this, arguments[1], arguments[2]);
+        break;
+      // slower
+      default:
+        len = arguments.length;
+        args = new Array(len - 1);
+        for (i = 1; i < len; i++)
+          args[i - 1] = arguments[i];
+        handler.apply(this, args);
+    }
+  } else if (isObject(handler)) {
+    len = arguments.length;
+    args = new Array(len - 1);
+    for (i = 1; i < len; i++)
+      args[i - 1] = arguments[i];
+
+    listeners = handler.slice();
+    len = listeners.length;
+    for (i = 0; i < len; i++)
+      listeners[i].apply(this, args);
+  }
+
+  return true;
+};
+
+EventEmitter.prototype.addListener = function(type, listener) {
+  var m;
+
+  if (!isFunction(listener))
+    throw TypeError('listener must be a function');
+
+  if (!this._events)
+    this._events = {};
+
+  // To avoid recursion in the case that type === "newListener"! Before
+  // adding it to the listeners, first emit "newListener".
+  if (this._events.newListener)
+    this.emit('newListener', type,
+              isFunction(listener.listener) ?
+              listener.listener : listener);
+
+  if (!this._events[type])
+    // Optimize the case of one listener. Don't need the extra array object.
+    this._events[type] = listener;
+  else if (isObject(this._events[type]))
+    // If we've already got an array, just append.
+    this._events[type].push(listener);
+  else
+    // Adding the second element, need to change to array.
+    this._events[type] = [this._events[type], listener];
+
+  // Check for listener leak
+  if (isObject(this._events[type]) && !this._events[type].warned) {
+    var m;
+    if (!isUndefined(this._maxListeners)) {
+      m = this._maxListeners;
+    } else {
+      m = EventEmitter.defaultMaxListeners;
+    }
+
+    if (m && m > 0 && this._events[type].length > m) {
+      this._events[type].warned = true;
+      console.error('(node) warning: possible EventEmitter memory ' +
+                    'leak detected. %d listeners added. ' +
+                    'Use emitter.setMaxListeners() to increase limit.',
+                    this._events[type].length);
+      if (typeof console.trace === 'function') {
+        // not supported in IE 10
+        console.trace();
+      }
+    }
+  }
+
+  return this;
+};
+
+EventEmitter.prototype.on = EventEmitter.prototype.addListener;
+
+EventEmitter.prototype.once = function(type, listener) {
+  if (!isFunction(listener))
+    throw TypeError('listener must be a function');
+
+  var fired = false;
+
+  function g() {
+    this.removeListener(type, g);
+
+    if (!fired) {
+      fired = true;
+      listener.apply(this, arguments);
+    }
+  }
+
+  g.listener = listener;
+  this.on(type, g);
+
+  return this;
+};
+
+// emits a 'removeListener' event iff the listener was removed
+EventEmitter.prototype.removeListener = function(type, listener) {
+  var list, position, length, i;
+
+  if (!isFunction(listener))
+    throw TypeError('listener must be a function');
+
+  if (!this._events || !this._events[type])
+    return this;
+
+  list = this._events[type];
+  length = list.length;
+  position = -1;
+
+  if (list === listener ||
+      (isFunction(list.listener) && list.listener === listener)) {
+    delete this._events[type];
+    if (this._events.removeListener)
+      this.emit('removeListener', type, listener);
+
+  } else if (isObject(list)) {
+    for (i = length; i-- > 0;) {
+      if (list[i] === listener ||
+          (list[i].listener && list[i].listener === listener)) {
+        position = i;
+        break;
+      }
+    }
+
+    if (position < 0)
+      return this;
+
+    if (list.length === 1) {
+      list.length = 0;
+      delete this._events[type];
+    } else {
+      list.splice(position, 1);
+    }
+
+    if (this._events.removeListener)
+      this.emit('removeListener', type, listener);
+  }
+
+  return this;
+};
+
+EventEmitter.prototype.removeAllListeners = function(type) {
+  var key, listeners;
+
+  if (!this._events)
+    return this;
+
+  // not listening for removeListener, no need to emit
+  if (!this._events.removeListener) {
+    if (arguments.length === 0)
+      this._events = {};
+    else if (this._events[type])
+      delete this._events[type];
+    return this;
+  }
+
+  // emit removeListener for all listeners on all events
+  if (arguments.length === 0) {
+    for (key in this._events) {
+      if (key === 'removeListener') continue;
+      this.removeAllListeners(key);
+    }
+    this.removeAllListeners('removeListener');
+    this._events = {};
+    return this;
+  }
+
+  listeners = this._events[type];
+
+  if (isFunction(listeners)) {
+    this.removeListener(type, listeners);
+  } else {
+    // LIFO order
+    while (listeners.length)
+      this.removeListener(type, listeners[listeners.length - 1]);
+  }
+  delete this._events[type];
+
+  return this;
+};
+
+EventEmitter.prototype.listeners = function(type) {
+  var ret;
+  if (!this._events || !this._events[type])
+    ret = [];
+  else if (isFunction(this._events[type]))
+    ret = [this._events[type]];
+  else
+    ret = this._events[type].slice();
+  return ret;
+};
+
+EventEmitter.listenerCount = function(emitter, type) {
+  var ret;
+  if (!emitter._events || !emitter._events[type])
+    ret = 0;
+  else if (isFunction(emitter._events[type]))
+    ret = 1;
+  else
+    ret = emitter._events[type].length;
+  return ret;
+};
+
+function isFunction(arg) {
+  return typeof arg === 'function';
+}
+
+function isNumber(arg) {
+  return typeof arg === 'number';
+}
+
+function isObject(arg) {
+  return typeof arg === 'object' && arg !== null;
+}
+
+function isUndefined(arg) {
+  return arg === void 0;
+}
+
+},{}],15:[function(require,module,exports){
+(function (process){
+exports.alphasort = alphasort
+exports.alphasorti = alphasorti
+exports.setopts = setopts
+exports.ownProp = ownProp
+exports.makeAbs = makeAbs
+exports.finish = finish
+exports.mark = mark
+exports.isIgnored = isIgnored
+exports.childrenIgnored = childrenIgnored
+
+function ownProp (obj, field) {
+  return Object.prototype.hasOwnProperty.call(obj, field)
+}
+
+var path = require("path")
+var minimatch = require("minimatch")
+var isAbsolute = require("path-is-absolute")
+var Minimatch = minimatch.Minimatch
+
+function alphasorti (a, b) {
+  return a.toLowerCase().localeCompare(b.toLowerCase())
+}
+
+function alphasort (a, b) {
+  return a.localeCompare(b)
+}
+
+function setupIgnores (self, options) {
+  self.ignore = options.ignore || []
+
+  if (!Array.isArray(self.ignore))
+    self.ignore = [self.ignore]
+
+  if (self.ignore.length) {
+    self.ignore = self.ignore.map(ignoreMap)
+  }
+}
+
+function ignoreMap (pattern) {
+  var gmatcher = null
+  if (pattern.slice(-3) === '/**') {
+    var gpattern = pattern.replace(/(\/\*\*)+$/, '')
+    gmatcher = new Minimatch(gpattern)
+  }
+
+  return {
+    matcher: new Minimatch(pattern),
+    gmatcher: gmatcher
+  }
+}
+
+function setopts (self, pattern, options) {
+  if (!options)
+    options = {}
+
+  // base-matching: just use globstar for that.
+  if (options.matchBase && -1 === pattern.indexOf("/")) {
+    if (options.noglobstar) {
+      throw new Error("base matching requires globstar")
+    }
+    pattern = "**/" + pattern
+  }
+
+  self.silent = !!options.silent
+  self.pattern = pattern
+  self.strict = options.strict !== false
+  self.realpath = !!options.realpath
+  self.realpathCache = options.realpathCache || Object.create(null)
+  self.follow = !!options.follow
+  self.dot = !!options.dot
+  self.mark = !!options.mark
+  self.nodir = !!options.nodir
+  if (self.nodir)
+    self.mark = true
+  self.sync = !!options.sync
+  self.nounique = !!options.nounique
+  self.nonull = !!options.nonull
+  self.nosort = !!options.nosort
+  self.nocase = !!options.nocase
+  self.stat = !!options.stat
+  self.noprocess = !!options.noprocess
+
+  self.maxLength = options.maxLength || Infinity
+  self.cache = options.cache || Object.create(null)
+  self.statCache = options.statCache || Object.create(null)
+  self.symlinks = options.symlinks || Object.create(null)
+
+  setupIgnores(self, options)
+
+  self.changedCwd = false
+  var cwd = process.cwd()
+  if (!ownProp(options, "cwd"))
+    self.cwd = cwd
+  else {
+    self.cwd = options.cwd
+    self.changedCwd = path.resolve(options.cwd) !== cwd
+  }
+
+  self.root = options.root || path.resolve(self.cwd, "/")
+  self.root = path.resolve(self.root)
+  if (process.platform === "win32")
+    self.root = self.root.replace(/\\/g, "/")
+
+  self.nomount = !!options.nomount
+
+  // disable comments and negation unless the user explicitly
+  // passes in false as the option.
+  options.nonegate = options.nonegate === false ? false : true
+  options.nocomment = options.nocomment === false ? false : true
+  deprecationWarning(options)
+
+  self.minimatch = new Minimatch(pattern, options)
+  self.options = self.minimatch.options
+}
+
+// TODO(isaacs): remove entirely in v6
+// exported to reset in tests
+exports.deprecationWarned
+function deprecationWarning(options) {
+  if (!options.nonegate || !options.nocomment) {
+    if (process.noDeprecation !== true && !exports.deprecationWarned) {
+      var msg = 'glob WARNING: comments and negation will be disabled in v6'
+      if (process.throwDeprecation)
+        throw new Error(msg)
+      else if (process.traceDeprecation)
+        console.trace(msg)
+      else
+        console.error(msg)
+
+      exports.deprecationWarned = true
+    }
+  }
+}
+
+function finish (self) {
+  var nou = self.nounique
+  var all = nou ? [] : Object.create(null)
+
+  for (var i = 0, l = self.matches.length; i < l; i ++) {
+    var matches = self.matches[i]
+    if (!matches || Object.keys(matches).length === 0) {
+      if (self.nonull) {
+        // do like the shell, and spit out the literal glob
+        var literal = self.minimatch.globSet[i]
+        if (nou)
+          all.push(literal)
+        else
+          all[literal] = true
+      }
+    } else {
+      // had matches
+      var m = Object.keys(matches)
+      if (nou)
+        all.push.apply(all, m)
+      else
+        m.forEach(function (m) {
+          all[m] = true
+        })
+    }
+  }
+
+  if (!nou)
+    all = Object.keys(all)
+
+  if (!self.nosort)
+    all = all.sort(self.nocase ? alphasorti : alphasort)
+
+  // at *some* point we statted all of these
+  if (self.mark) {
+    for (var i = 0; i < all.length; i++) {
+      all[i] = self._mark(all[i])
+    }
+    if (self.nodir) {
+      all = all.filter(function (e) {
+        return !(/\/$/.test(e))
+      })
+    }
+  }
+
+  if (self.ignore.length)
+    all = all.filter(function(m) {
+      return !isIgnored(self, m)
+    })
+
+  self.found = all
+}
+
+function mark (self, p) {
+  var abs = makeAbs(self, p)
+  var c = self.cache[abs]
+  var m = p
+  if (c) {
+    var isDir = c === 'DIR' || Array.isArray(c)
+    var slash = p.slice(-1) === '/'
+
+    if (isDir && !slash)
+      m += '/'
+    else if (!isDir && slash)
+      m = m.slice(0, -1)
+
+    if (m !== p) {
+      var mabs = makeAbs(self, m)
+      self.statCache[mabs] = self.statCache[abs]
+      self.cache[mabs] = self.cache[abs]
+    }
+  }
+
+  return m
+}
+
+// lotta situps...
+function makeAbs (self, f) {
+  var abs = f
+  if (f.charAt(0) === '/') {
+    abs = path.join(self.root, f)
+  } else if (isAbsolute(f) || f === '') {
+    abs = f
+  } else if (self.changedCwd) {
+    abs = path.resolve(self.cwd, f)
+  } else {
+    abs = path.resolve(f)
+  }
+  return abs
+}
+
+
+// Return true, if pattern ends with globstar '**', for the accompanying parent directory.
+// Ex:- If node_modules/** is the pattern, add 'node_modules' to ignore list along with it's contents
+function isIgnored (self, path) {
+  if (!self.ignore.length)
+    return false
+
+  return self.ignore.some(function(item) {
+    return item.matcher.match(path) || !!(item.gmatcher && item.gmatcher.match(path))
+  })
+}
+
+function childrenIgnored (self, path) {
+  if (!self.ignore.length)
+    return false
+
+  return self.ignore.some(function(item) {
+    return !!(item.gmatcher && item.gmatcher.match(path))
+  })
+}
+
+}).call(this,require('_process'))
+},{"_process":24,"minimatch":20,"path":22,"path-is-absolute":23}],16:[function(require,module,exports){
+(function (process){
+// Approach:
+//
+// 1. Get the minimatch set
+// 2. For each pattern in the set, PROCESS(pattern, false)
+// 3. Store matches per-set, then uniq them
+//
+// PROCESS(pattern, inGlobStar)
+// Get the first [n] items from pattern that are all strings
+// Join these together.  This is PREFIX.
+//   If there is no more remaining, then stat(PREFIX) and
+//   add to matches if it succeeds.  END.
+//
+// If inGlobStar and PREFIX is symlink and points to dir
+//   set ENTRIES = []
+// else readdir(PREFIX) as ENTRIES
+//   If fail, END
+//
+// with ENTRIES
+//   If pattern[n] is GLOBSTAR
+//     // handle the case where the globstar match is empty
+//     // by pruning it out, and testing the resulting pattern
+//     PROCESS(pattern[0..n] + pattern[n+1 .. $], false)
+//     // handle other cases.
+//     for ENTRY in ENTRIES (not dotfiles)
+//       // attach globstar + tail onto the entry
+//       // Mark that this entry is a globstar match
+//       PROCESS(pattern[0..n] + ENTRY + pattern[n .. $], true)
+//
+//   else // not globstar
+//     for ENTRY in ENTRIES (not dotfiles, unless pattern[n] is dot)
+//       Test ENTRY against pattern[n]
+//       If fails, continue
+//       If passes, PROCESS(pattern[0..n] + item + pattern[n+1 .. $])
+//
+// Caveat:
+//   Cache all stats and readdirs results to minimize syscall.  Since all
+//   we ever care about is existence and directory-ness, we can just keep
+//   `true` for files, and [children,...] for directories, or `false` for
+//   things that don't exist.
+
+module.exports = glob
+
+var fs = require('fs')
+var minimatch = require('minimatch')
+var Minimatch = minimatch.Minimatch
+var inherits = require('inherits')
+var EE = require('events').EventEmitter
+var path = require('path')
+var assert = require('assert')
+var isAbsolute = require('path-is-absolute')
+var globSync = require('./sync.js')
+var common = require('./common.js')
+var alphasort = common.alphasort
+var alphasorti = common.alphasorti
+var setopts = common.setopts
+var ownProp = common.ownProp
+var inflight = require('inflight')
+var util = require('util')
+var childrenIgnored = common.childrenIgnored
+var isIgnored = common.isIgnored
+
+var once = require('once')
+
+function glob (pattern, options, cb) {
+  if (typeof options === 'function') cb = options, options = {}
+  if (!options) options = {}
+
+  if (options.sync) {
+    if (cb)
+      throw new TypeError('callback provided to sync glob')
+    return globSync(pattern, options)
+  }
+
+  return new Glob(pattern, options, cb)
+}
+
+glob.sync = globSync
+var GlobSync = glob.GlobSync = globSync.GlobSync
+
+// old api surface
+glob.glob = glob
+
+glob.hasMagic = function (pattern, options_) {
+  var options = util._extend({}, options_)
+  options.noprocess = true
+
+  var g = new Glob(pattern, options)
+  var set = g.minimatch.set
+  if (set.length > 1)
+    return true
+
+  for (var j = 0; j < set[0].length; j++) {
+    if (typeof set[0][j] !== 'string')
+      return true
+  }
+
+  return false
+}
+
+glob.Glob = Glob
+inherits(Glob, EE)
+function Glob (pattern, options, cb) {
+  if (typeof options === 'function') {
+    cb = options
+    options = null
+  }
+
+  if (options && options.sync) {
+    if (cb)
+      throw new TypeError('callback provided to sync glob')
+    return new GlobSync(pattern, options)
+  }
+
+  if (!(this instanceof Glob))
+    return new Glob(pattern, options, cb)
+
+  setopts(this, pattern, options)
+  this._didRealPath = false
+
+  // process each pattern in the minimatch set
+  var n = this.minimatch.set.length
+
+  // The matches are stored as {<filename>: true,...} so that
+  // duplicates are automagically pruned.
+  // Later, we do an Object.keys() on these.
+  // Keep them as a list so we can fill in when nonull is set.
+  this.matches = new Array(n)
+
+  if (typeof cb === 'function') {
+    cb = once(cb)
+    this.on('error', cb)
+    this.on('end', function (matches) {
+      cb(null, matches)
+    })
+  }
+
+  var self = this
+  var n = this.minimatch.set.length
+  this._processing = 0
+  this.matches = new Array(n)
+
+  this._emitQueue = []
+  this._processQueue = []
+  this.paused = false
+
+  if (this.noprocess)
+    return this
+
+  if (n === 0)
+    return done()
+
+  for (var i = 0; i < n; i ++) {
+    this._process(this.minimatch.set[i], i, false, done)
+  }
+
+  function done () {
+    --self._processing
+    if (self._processing <= 0)
+      self._finish()
+  }
+}
+
+Glob.prototype._finish = function () {
+  assert(this instanceof Glob)
+  if (this.aborted)
+    return
+
+  if (this.realpath && !this._didRealpath)
+    return this._realpath()
+
+  common.finish(this)
+  this.emit('end', this.found)
+}
+
+Glob.prototype._realpath = function () {
+  if (this._didRealpath)
+    return
+
+  this._didRealpath = true
+
+  var n = this.matches.length
+  if (n === 0)
+    return this._finish()
+
+  var self = this
+  for (var i = 0; i < this.matches.length; i++)
+    this._realpathSet(i, next)
+
+  function next () {
+    if (--n === 0)
+      self._finish()
+  }
+}
+
+Glob.prototype._realpathSet = function (index, cb) {
+  var matchset = this.matches[index]
+  if (!matchset)
+    return cb()
+
+  var found = Object.keys(matchset)
+  var self = this
+  var n = found.length
+
+  if (n === 0)
+    return cb()
+
+  var set = this.matches[index] = Object.create(null)
+  found.forEach(function (p, i) {
+    // If there's a problem with the stat, then it means that
+    // one or more of the links in the realpath couldn't be
+    // resolved.  just return the abs value in that case.
+    p = self._makeAbs(p)
+    fs.realpath(p, self.realpathCache, function (er, real) {
+      if (!er)
+        set[real] = true
+      else if (er.syscall === 'stat')
+        set[p] = true
+      else
+        self.emit('error', er) // srsly wtf right here
+
+      if (--n === 0) {
+        self.matches[index] = set
+        cb()
+      }
+    })
+  })
+}
+
+Glob.prototype._mark = function (p) {
+  return common.mark(this, p)
+}
+
+Glob.prototype._makeAbs = function (f) {
+  return common.makeAbs(this, f)
+}
+
+Glob.prototype.abort = function () {
+  this.aborted = true
+  this.emit('abort')
+}
+
+Glob.prototype.pause = function () {
+  if (!this.paused) {
+    this.paused = true
+    this.emit('pause')
+  }
+}
+
+Glob.prototype.resume = function () {
+  if (this.paused) {
+    this.emit('resume')
+    this.paused = false
+    if (this._emitQueue.length) {
+      var eq = this._emitQueue.slice(0)
+      this._emitQueue.length = 0
+      for (var i = 0; i < eq.length; i ++) {
+        var e = eq[i]
+        this._emitMatch(e[0], e[1])
+      }
+    }
+    if (this._processQueue.length) {
+      var pq = this._processQueue.slice(0)
+      this._processQueue.length = 0
+      for (var i = 0; i < pq.length; i ++) {
+        var p = pq[i]
+        this._processing--
+        this._process(p[0], p[1], p[2], p[3])
+      }
+    }
+  }
+}
+
+Glob.prototype._process = function (pattern, index, inGlobStar, cb) {
+  assert(this instanceof Glob)
+  assert(typeof cb === 'function')
+
+  if (this.aborted)
+    return
+
+  this._processing++
+  if (this.paused) {
+    this._processQueue.push([pattern, index, inGlobStar, cb])
+    return
+  }
+
+  //console.error('PROCESS %d', this._processing, pattern)
+
+  // Get the first [n] parts of pattern that are all strings.
+  var n = 0
+  while (typeof pattern[n] === 'string') {
+    n ++
+  }
+  // now n is the index of the first one that is *not* a string.
+
+  // see if there's anything else
+  var prefix
+  switch (n) {
+    // if not, then this is rather simple
+    case pattern.length:
+      this._processSimple(pattern.join('/'), index, cb)
+      return
+
+    case 0:
+      // pattern *starts* with some non-trivial item.
+      // going to readdir(cwd), but not include the prefix in matches.
+      prefix = null
+      break
+
+    default:
+      // pattern has some string bits in the front.
+      // whatever it starts with, whether that's 'absolute' like /foo/bar,
+      // or 'relative' like '../baz'
+      prefix = pattern.slice(0, n).join('/')
+      break
+  }
+
+  var remain = pattern.slice(n)
+
+  // get the list of entries.
+  var read
+  if (prefix === null)
+    read = '.'
+  else if (isAbsolute(prefix) || isAbsolute(pattern.join('/'))) {
+    if (!prefix || !isAbsolute(prefix))
+      prefix = '/' + prefix
+    read = prefix
+  } else
+    read = prefix
+
+  var abs = this._makeAbs(read)
+
+  //if ignored, skip _processing
+  if (childrenIgnored(this, read))
+    return cb()
+
+  var isGlobStar = remain[0] === minimatch.GLOBSTAR
+  if (isGlobStar)
+    this._processGlobStar(prefix, read, abs, remain, index, inGlobStar, cb)
+  else
+    this._processReaddir(prefix, read, abs, remain, index, inGlobStar, cb)
+}
+
+Glob.prototype._processReaddir = function (prefix, read, abs, remain, index, inGlobStar, cb) {
+  var self = this
+  this._readdir(abs, inGlobStar, function (er, entries) {
+    return self._processReaddir2(prefix, read, abs, remain, index, inGlobStar, entries, cb)
+  })
+}
+
+Glob.prototype._processReaddir2 = function (prefix, read, abs, remain, index, inGlobStar, entries, cb) {
+
+  // if the abs isn't a dir, then nothing can match!
+  if (!entries)
+    return cb()
+
+  // It will only match dot entries if it starts with a dot, or if
+  // dot is set.  Stuff like @(.foo|.bar) isn't allowed.
+  var pn = remain[0]
+  var negate = !!this.minimatch.negate
+  var rawGlob = pn._glob
+  var dotOk = this.dot || rawGlob.charAt(0) === '.'
+
+  var matchedEntries = []
+  for (var i = 0; i < entries.length; i++) {
+    var e = entries[i]
+    if (e.charAt(0) !== '.' || dotOk) {
+      var m
+      if (negate && !prefix) {
+        m = !e.match(pn)
+      } else {
+        m = e.match(pn)
+      }
+      if (m)
+        matchedEntries.push(e)
+    }
+  }
+
+  //console.error('prd2', prefix, entries, remain[0]._glob, matchedEntries)
+
+  var len = matchedEntries.length
+  // If there are no matched entries, then nothing matches.
+  if (len === 0)
+    return cb()
+
+  // if this is the last remaining pattern bit, then no need for
+  // an additional stat *unless* the user has specified mark or
+  // stat explicitly.  We know they exist, since readdir returned
+  // them.
+
+  if (remain.length === 1 && !this.mark && !this.stat) {
+    if (!this.matches[index])
+      this.matches[index] = Object.create(null)
+
+    for (var i = 0; i < len; i ++) {
+      var e = matchedEntries[i]
+      if (prefix) {
+        if (prefix !== '/')
+          e = prefix + '/' + e
+        else
+          e = prefix + e
+      }
+
+      if (e.charAt(0) === '/' && !this.nomount) {
+        e = path.join(this.root, e)
+      }
+      this._emitMatch(index, e)
+    }
+    // This was the last one, and no stats were needed
+    return cb()
+  }
+
+  // now test all matched entries as stand-ins for that part
+  // of the pattern.
+  remain.shift()
+  for (var i = 0; i < len; i ++) {
+    var e = matchedEntries[i]
+    var newPattern
+    if (prefix) {
+      if (prefix !== '/')
+        e = prefix + '/' + e
+      else
+        e = prefix + e
+    }
+    this._process([e].concat(remain), index, inGlobStar, cb)
+  }
+  cb()
+}
+
+Glob.prototype._emitMatch = function (index, e) {
+  if (this.aborted)
+    return
+
+  if (this.matches[index][e])
+    return
+
+  if (isIgnored(this, e))
+    return
+
+  if (this.paused) {
+    this._emitQueue.push([index, e])
+    return
+  }
+
+  var abs = this._makeAbs(e)
+
+  if (this.nodir) {
+    var c = this.cache[abs]
+    if (c === 'DIR' || Array.isArray(c))
+      return
+  }
+
+  if (this.mark)
+    e = this._mark(e)
+
+  this.matches[index][e] = true
+
+  var st = this.statCache[abs]
+  if (st)
+    this.emit('stat', e, st)
+
+  this.emit('match', e)
+}
+
+Glob.prototype._readdirInGlobStar = function (abs, cb) {
+  if (this.aborted)
+    return
+
+  // follow all symlinked directories forever
+  // just proceed as if this is a non-globstar situation
+  if (this.follow)
+    return this._readdir(abs, false, cb)
+
+  var lstatkey = 'lstat\0' + abs
+  var self = this
+  var lstatcb = inflight(lstatkey, lstatcb_)
+
+  if (lstatcb)
+    fs.lstat(abs, lstatcb)
+
+  function lstatcb_ (er, lstat) {
+    if (er)
+      return cb()
+
+    var isSym = lstat.isSymbolicLink()
+    self.symlinks[abs] = isSym
+
+    // If it's not a symlink or a dir, then it's definitely a regular file.
+    // don't bother doing a readdir in that case.
+    if (!isSym && !lstat.isDirectory()) {
+      self.cache[abs] = 'FILE'
+      cb()
+    } else
+      self._readdir(abs, false, cb)
+  }
+}
+
+Glob.prototype._readdir = function (abs, inGlobStar, cb) {
+  if (this.aborted)
+    return
+
+  cb = inflight('readdir\0'+abs+'\0'+inGlobStar, cb)
+  if (!cb)
+    return
+
+  //console.error('RD %j %j', +inGlobStar, abs)
+  if (inGlobStar && !ownProp(this.symlinks, abs))
+    return this._readdirInGlobStar(abs, cb)
+
+  if (ownProp(this.cache, abs)) {
+    var c = this.cache[abs]
+    if (!c || c === 'FILE')
+      return cb()
+
+    if (Array.isArray(c))
+      return cb(null, c)
+  }
+
+  var self = this
+  fs.readdir(abs, readdirCb(this, abs, cb))
+}
+
+function readdirCb (self, abs, cb) {
+  return function (er, entries) {
+    if (er)
+      self._readdirError(abs, er, cb)
+    else
+      self._readdirEntries(abs, entries, cb)
+  }
+}
+
+Glob.prototype._readdirEntries = function (abs, entries, cb) {
+  if (this.aborted)
+    return
+
+  // if we haven't asked to stat everything, then just
+  // assume that everything in there exists, so we can avoid
+  // having to stat it a second time.
+  if (!this.mark && !this.stat) {
+    for (var i = 0; i < entries.length; i ++) {
+      var e = entries[i]
+      if (abs === '/')
+        e = abs + e
+      else
+        e = abs + '/' + e
+      this.cache[e] = true
+    }
+  }
+
+  this.cache[abs] = entries
+  return cb(null, entries)
+}
+
+Glob.prototype._readdirError = function (f, er, cb) {
+  if (this.aborted)
+    return
+
+  // handle errors, and cache the information
+  switch (er.code) {
+    case 'ENOTSUP': // https://github.com/isaacs/node-glob/issues/205
+    case 'ENOTDIR': // totally normal. means it *does* exist.
+      this.cache[this._makeAbs(f)] = 'FILE'
+      break
+
+    case 'ENOENT': // not terribly unusual
+    case 'ELOOP':
+    case 'ENAMETOOLONG':
+    case 'UNKNOWN':
+      this.cache[this._makeAbs(f)] = false
+      break
+
+    default: // some unusual error.  Treat as failure.
+      this.cache[this._makeAbs(f)] = false
+      if (this.strict) {
+        this.emit('error', er)
+        // If the error is handled, then we abort
+        // if not, we threw out of here
+        this.abort()
+      }
+      if (!this.silent)
+        console.error('glob error', er)
+      break
+  }
+
+  return cb()
+}
+
+Glob.prototype._processGlobStar = function (prefix, read, abs, remain, index, inGlobStar, cb) {
+  var self = this
+  this._readdir(abs, inGlobStar, function (er, entries) {
+    self._processGlobStar2(prefix, read, abs, remain, index, inGlobStar, entries, cb)
+  })
+}
+
+
+Glob.prototype._processGlobStar2 = function (prefix, read, abs, remain, index, inGlobStar, entries, cb) {
+  //console.error('pgs2', prefix, remain[0], entries)
+
+  // no entries means not a dir, so it can never have matches
+  // foo.txt/** doesn't match foo.txt
+  if (!entries)
+    return cb()
+
+  // test without the globstar, and with every child both below
+  // and replacing the globstar.
+  var remainWithoutGlobStar = remain.slice(1)
+  var gspref = prefix ? [ prefix ] : []
+  var noGlobStar = gspref.concat(remainWithoutGlobStar)
+
+  // the noGlobStar pattern exits the inGlobStar state
+  this._process(noGlobStar, index, false, cb)
+
+  var isSym = this.symlinks[abs]
+  var len = entries.length
+
+  // If it's a symlink, and we're in a globstar, then stop
+  if (isSym && inGlobStar)
+    return cb()
+
+  for (var i = 0; i < len; i++) {
+    var e = entries[i]
+    if (e.charAt(0) === '.' && !this.dot)
+      continue
+
+    // these two cases enter the inGlobStar state
+    var instead = gspref.concat(entries[i], remainWithoutGlobStar)
+    this._process(instead, index, true, cb)
+
+    var below = gspref.concat(entries[i], remain)
+    this._process(below, index, true, cb)
+  }
+
+  cb()
+}
+
+Glob.prototype._processSimple = function (prefix, index, cb) {
+  // XXX review this.  Shouldn't it be doing the mounting etc
+  // before doing stat?  kinda weird?
+  var self = this
+  this._stat(prefix, function (er, exists) {
+    self._processSimple2(prefix, index, er, exists, cb)
+  })
+}
+Glob.prototype._processSimple2 = function (prefix, index, er, exists, cb) {
+
+  //console.error('ps2', prefix, exists)
+
+  if (!this.matches[index])
+    this.matches[index] = Object.create(null)
+
+  // If it doesn't exist, then just mark the lack of results
+  if (!exists)
+    return cb()
+
+  if (prefix && isAbsolute(prefix) && !this.nomount) {
+    var trail = /[\/\\]$/.test(prefix)
+    if (prefix.charAt(0) === '/') {
+      prefix = path.join(this.root, prefix)
+    } else {
+      prefix = path.resolve(this.root, prefix)
+      if (trail)
+        prefix += '/'
+    }
+  }
+
+  if (process.platform === 'win32')
+    prefix = prefix.replace(/\\/g, '/')
+
+  // Mark this as a match
+  this._emitMatch(index, prefix)
+  cb()
+}
+
+// Returns either 'DIR', 'FILE', or false
+Glob.prototype._stat = function (f, cb) {
+  var abs = this._makeAbs(f)
+  var needDir = f.slice(-1) === '/'
+
+  if (f.length > this.maxLength)
+    return cb()
+
+  if (!this.stat && ownProp(this.cache, abs)) {
+    var c = this.cache[abs]
+
+    if (Array.isArray(c))
+      c = 'DIR'
+
+    // It exists, but maybe not how we need it
+    if (!needDir || c === 'DIR')
+      return cb(null, c)
+
+    if (needDir && c === 'FILE')
+      return cb()
+
+    // otherwise we have to stat, because maybe c=true
+    // if we know it exists, but not what it is.
+  }
+
+  var exists
+  var stat = this.statCache[abs]
+  if (stat !== undefined) {
+    if (stat === false)
+      return cb(null, stat)
+    else {
+      var type = stat.isDirectory() ? 'DIR' : 'FILE'
+      if (needDir && type === 'FILE')
+        return cb()
+      else
+        return cb(null, type, stat)
+    }
+  }
+
+  var self = this
+  var statcb = inflight('stat\0' + abs, lstatcb_)
+  if (statcb)
+    fs.lstat(abs, statcb)
+
+  function lstatcb_ (er, lstat) {
+    if (lstat && lstat.isSymbolicLink()) {
+      // If it's a symlink, then treat it as the target, unless
+      // the target does not exist, then treat it as a file.
+      return fs.stat(abs, function (er, stat) {
+        if (er)
+          self._stat2(f, abs, null, lstat, cb)
+        else
+          self._stat2(f, abs, er, stat, cb)
+      })
+    } else {
+      self._stat2(f, abs, er, lstat, cb)
+    }
+  }
+}
+
+Glob.prototype._stat2 = function (f, abs, er, stat, cb) {
+  if (er) {
+    this.statCache[abs] = false
+    return cb()
+  }
+
+  var needDir = f.slice(-1) === '/'
+  this.statCache[abs] = stat
+
+  if (abs.slice(-1) === '/' && !stat.isDirectory())
+    return cb(null, false, stat)
+
+  var c = stat.isDirectory() ? 'DIR' : 'FILE'
+  this.cache[abs] = this.cache[abs] || c
+
+  if (needDir && c !== 'DIR')
+    return cb()
+
+  return cb(null, c, stat)
+}
+
+}).call(this,require('_process'))
+},{"./common.js":15,"./sync.js":17,"_process":24,"assert":9,"events":14,"fs":12,"inflight":18,"inherits":19,"minimatch":20,"once":21,"path":22,"path-is-absolute":23,"util":28}],17:[function(require,module,exports){
+(function (process){
+module.exports = globSync
+globSync.GlobSync = GlobSync
+
+var fs = require('fs')
+var minimatch = require('minimatch')
+var Minimatch = minimatch.Minimatch
+var Glob = require('./glob.js').Glob
+var util = require('util')
+var path = require('path')
+var assert = require('assert')
+var isAbsolute = require('path-is-absolute')
+var common = require('./common.js')
+var alphasort = common.alphasort
+var alphasorti = common.alphasorti
+var setopts = common.setopts
+var ownProp = common.ownProp
+var childrenIgnored = common.childrenIgnored
+
+function globSync (pattern, options) {
+  if (typeof options === 'function' || arguments.length === 3)
+    throw new TypeError('callback provided to sync glob\n'+
+                        'See: https://github.com/isaacs/node-glob/issues/167')
+
+  return new GlobSync(pattern, options).found
+}
+
+function GlobSync (pattern, options) {
+  if (!pattern)
+    throw new Error('must provide pattern')
+
+  if (typeof options === 'function' || arguments.length === 3)
+    throw new TypeError('callback provided to sync glob\n'+
+                        'See: https://github.com/isaacs/node-glob/issues/167')
+
+  if (!(this instanceof GlobSync))
+    return new GlobSync(pattern, options)
+
+  setopts(this, pattern, options)
+
+  if (this.noprocess)
+    return this
+
+  var n = this.minimatch.set.length
+  this.matches = new Array(n)
+  for (var i = 0; i < n; i ++) {
+    this._process(this.minimatch.set[i], i, false)
+  }
+  this._finish()
+}
+
+GlobSync.prototype._finish = function () {
+  assert(this instanceof GlobSync)
+  if (this.realpath) {
+    var self = this
+    this.matches.forEach(function (matchset, index) {
+      var set = self.matches[index] = Object.create(null)
+      for (var p in matchset) {
+        try {
+          p = self._makeAbs(p)
+          var real = fs.realpathSync(p, self.realpathCache)
+          set[real] = true
+        } catch (er) {
+          if (er.syscall === 'stat')
+            set[self._makeAbs(p)] = true
+          else
+            throw er
+        }
+      }
+    })
+  }
+  common.finish(this)
+}
+
+
+GlobSync.prototype._process = function (pattern, index, inGlobStar) {
+  assert(this instanceof GlobSync)
+
+  // Get the first [n] parts of pattern that are all strings.
+  var n = 0
+  while (typeof pattern[n] === 'string') {
+    n ++
+  }
+  // now n is the index of the first one that is *not* a string.
+
+  // See if there's anything else
+  var prefix
+  switch (n) {
+    // if not, then this is rather simple
+    case pattern.length:
+      this._processSimple(pattern.join('/'), index)
+      return
+
+    case 0:
+      // pattern *starts* with some non-trivial item.
+      // going to readdir(cwd), but not include the prefix in matches.
+      prefix = null
+      break
+
+    default:
+      // pattern has some string bits in the front.
+      // whatever it starts with, whether that's 'absolute' like /foo/bar,
+      // or 'relative' like '../baz'
+      prefix = pattern.slice(0, n).join('/')
+      break
+  }
+
+  var remain = pattern.slice(n)
+
+  // get the list of entries.
+  var read
+  if (prefix === null)
+    read = '.'
+  else if (isAbsolute(prefix) || isAbsolute(pattern.join('/'))) {
+    if (!prefix || !isAbsolute(prefix))
+      prefix = '/' + prefix
+    read = prefix
+  } else
+    read = prefix
+
+  var abs = this._makeAbs(read)
+
+  //if ignored, skip processing
+  if (childrenIgnored(this, read))
+    return
+
+  var isGlobStar = remain[0] === minimatch.GLOBSTAR
+  if (isGlobStar)
+    this._processGlobStar(prefix, read, abs, remain, index, inGlobStar)
+  else
+    this._processReaddir(prefix, read, abs, remain, index, inGlobStar)
+}
+
+
+GlobSync.prototype._processReaddir = function (prefix, read, abs, remain, index, inGlobStar) {
+  var entries = this._readdir(abs, inGlobStar)
+
+  // if the abs isn't a dir, then nothing can match!
+  if (!entries)
+    return
+
+  // It will only match dot entries if it starts with a dot, or if
+  // dot is set.  Stuff like @(.foo|.bar) isn't allowed.
+  var pn = remain[0]
+  var negate = !!this.minimatch.negate
+  var rawGlob = pn._glob
+  var dotOk = this.dot || rawGlob.charAt(0) === '.'
+
+  var matchedEntries = []
+  for (var i = 0; i < entries.length; i++) {
+    var e = entries[i]
+    if (e.charAt(0) !== '.' || dotOk) {
+      var m
+      if (negate && !prefix) {
+        m = !e.match(pn)
+      } else {
+        m = e.match(pn)
+      }
+      if (m)
+        matchedEntries.push(e)
+    }
+  }
+
+  var len = matchedEntries.length
+  // If there are no matched entries, then nothing matches.
+  if (len === 0)
+    return
+
+  // if this is the last remaining pattern bit, then no need for
+  // an additional stat *unless* the user has specified mark or
+  // stat explicitly.  We know they exist, since readdir returned
+  // them.
+
+  if (remain.length === 1 && !this.mark && !this.stat) {
+    if (!this.matches[index])
+      this.matches[index] = Object.create(null)
+
+    for (var i = 0; i < len; i ++) {
+      var e = matchedEntries[i]
+      if (prefix) {
+        if (prefix.slice(-1) !== '/')
+          e = prefix + '/' + e
+        else
+          e = prefix + e
+      }
+
+      if (e.charAt(0) === '/' && !this.nomount) {
+        e = path.join(this.root, e)
+      }
+      this.matches[index][e] = true
+    }
+    // This was the last one, and no stats were needed
+    return
+  }
+
+  // now test all matched entries as stand-ins for that part
+  // of the pattern.
+  remain.shift()
+  for (var i = 0; i < len; i ++) {
+    var e = matchedEntries[i]
+    var newPattern
+    if (prefix)
+      newPattern = [prefix, e]
+    else
+      newPattern = [e]
+    this._process(newPattern.concat(remain), index, inGlobStar)
+  }
+}
+
+
+GlobSync.prototype._emitMatch = function (index, e) {
+  var abs = this._makeAbs(e)
+  if (this.mark)
+    e = this._mark(e)
+
+  if (this.matches[index][e])
+    return
+
+  if (this.nodir) {
+    var c = this.cache[this._makeAbs(e)]
+    if (c === 'DIR' || Array.isArray(c))
+      return
+  }
+
+  this.matches[index][e] = true
+  if (this.stat)
+    this._stat(e)
+}
+
+
+GlobSync.prototype._readdirInGlobStar = function (abs) {
+  // follow all symlinked directories forever
+  // just proceed as if this is a non-globstar situation
+  if (this.follow)
+    return this._readdir(abs, false)
+
+  var entries
+  var lstat
+  var stat
+  try {
+    lstat = fs.lstatSync(abs)
+  } catch (er) {
+    // lstat failed, doesn't exist
+    return null
+  }
+
+  var isSym = lstat.isSymbolicLink()
+  this.symlinks[abs] = isSym
+
+  // If it's not a symlink or a dir, then it's definitely a regular file.
+  // don't bother doing a readdir in that case.
+  if (!isSym && !lstat.isDirectory())
+    this.cache[abs] = 'FILE'
+  else
+    entries = this._readdir(abs, false)
+
+  return entries
+}
+
+GlobSync.prototype._readdir = function (abs, inGlobStar) {
+  var entries
+
+  if (inGlobStar && !ownProp(this.symlinks, abs))
+    return this._readdirInGlobStar(abs)
+
+  if (ownProp(this.cache, abs)) {
+    var c = this.cache[abs]
+    if (!c || c === 'FILE')
+      return null
+
+    if (Array.isArray(c))
+      return c
+  }
+
+  try {
+    return this._readdirEntries(abs, fs.readdirSync(abs))
+  } catch (er) {
+    this._readdirError(abs, er)
+    return null
+  }
+}
+
+GlobSync.prototype._readdirEntries = function (abs, entries) {
+  // if we haven't asked to stat everything, then just
+  // assume that everything in there exists, so we can avoid
+  // having to stat it a second time.
+  if (!this.mark && !this.stat) {
+    for (var i = 0; i < entries.length; i ++) {
+      var e = entries[i]
+      if (abs === '/')
+        e = abs + e
+      else
+        e = abs + '/' + e
+      this.cache[e] = true
+    }
+  }
+
+  this.cache[abs] = entries
+
+  // mark and cache dir-ness
+  return entries
+}
+
+GlobSync.prototype._readdirError = function (f, er) {
+  // handle errors, and cache the information
+  switch (er.code) {
+    case 'ENOTSUP': // https://github.com/isaacs/node-glob/issues/205
+    case 'ENOTDIR': // totally normal. means it *does* exist.
+      this.cache[this._makeAbs(f)] = 'FILE'
+      break
+
+    case 'ENOENT': // not terribly unusual
+    case 'ELOOP':
+    case 'ENAMETOOLONG':
+    case 'UNKNOWN':
+      this.cache[this._makeAbs(f)] = false
+      break
+
+    default: // some unusual error.  Treat as failure.
+      this.cache[this._makeAbs(f)] = false
+      if (this.strict)
+        throw er
+      if (!this.silent)
+        console.error('glob error', er)
+      break
+  }
+}
+
+GlobSync.prototype._processGlobStar = function (prefix, read, abs, remain, index, inGlobStar) {
+
+  var entries = this._readdir(abs, inGlobStar)
+
+  // no entries means not a dir, so it can never have matches
+  // foo.txt/** doesn't match foo.txt
+  if (!entries)
+    return
+
+  // test without the globstar, and with every child both below
+  // and replacing the globstar.
+  var remainWithoutGlobStar = remain.slice(1)
+  var gspref = prefix ? [ prefix ] : []
+  var noGlobStar = gspref.concat(remainWithoutGlobStar)
+
+  // the noGlobStar pattern exits the inGlobStar state
+  this._process(noGlobStar, index, false)
+
+  var len = entries.length
+  var isSym = this.symlinks[abs]
+
+  // If it's a symlink, and we're in a globstar, then stop
+  if (isSym && inGlobStar)
+    return
+
+  for (var i = 0; i < len; i++) {
+    var e = entries[i]
+    if (e.charAt(0) === '.' && !this.dot)
+      continue
+
+    // these two cases enter the inGlobStar state
+    var instead = gspref.concat(entries[i], remainWithoutGlobStar)
+    this._process(instead, index, true)
+
+    var below = gspref.concat(entries[i], remain)
+    this._process(below, index, true)
+  }
+}
+
+GlobSync.prototype._processSimple = function (prefix, index) {
+  // XXX review this.  Shouldn't it be doing the mounting etc
+  // before doing stat?  kinda weird?
+  var exists = this._stat(prefix)
+
+  if (!this.matches[index])
+    this.matches[index] = Object.create(null)
+
+  // If it doesn't exist, then just mark the lack of results
+  if (!exists)
+    return
+
+  if (prefix && isAbsolute(prefix) && !this.nomount) {
+    var trail = /[\/\\]$/.test(prefix)
+    if (prefix.charAt(0) === '/') {
+      prefix = path.join(this.root, prefix)
+    } else {
+      prefix = path.resolve(this.root, prefix)
+      if (trail)
+        prefix += '/'
+    }
+  }
+
+  if (process.platform === 'win32')
+    prefix = prefix.replace(/\\/g, '/')
+
+  // Mark this as a match
+  this.matches[index][prefix] = true
+}
+
+// Returns either 'DIR', 'FILE', or false
+GlobSync.prototype._stat = function (f) {
+  var abs = this._makeAbs(f)
+  var needDir = f.slice(-1) === '/'
+
+  if (f.length > this.maxLength)
+    return false
+
+  if (!this.stat && ownProp(this.cache, abs)) {
+    var c = this.cache[abs]
+
+    if (Array.isArray(c))
+      c = 'DIR'
+
+    // It exists, but maybe not how we need it
+    if (!needDir || c === 'DIR')
+      return c
+
+    if (needDir && c === 'FILE')
+      return false
+
+    // otherwise we have to stat, because maybe c=true
+    // if we know it exists, but not what it is.
+  }
+
+  var exists
+  var stat = this.statCache[abs]
+  if (!stat) {
+    var lstat
+    try {
+      lstat = fs.lstatSync(abs)
+    } catch (er) {
+      return false
+    }
+
+    if (lstat.isSymbolicLink()) {
+      try {
+        stat = fs.statSync(abs)
+      } catch (er) {
+        stat = lstat
+      }
+    } else {
+      stat = lstat
+    }
+  }
+
+  this.statCache[abs] = stat
+
+  var c = stat.isDirectory() ? 'DIR' : 'FILE'
+  this.cache[abs] = this.cache[abs] || c
+
+  if (needDir && c !== 'DIR')
+    return false
+
+  return c
+}
+
+GlobSync.prototype._mark = function (p) {
+  return common.mark(this, p)
+}
+
+GlobSync.prototype._makeAbs = function (f) {
+  return common.makeAbs(this, f)
+}
+
+}).call(this,require('_process'))
+},{"./common.js":15,"./glob.js":16,"_process":24,"assert":9,"fs":12,"minimatch":20,"path":22,"path-is-absolute":23,"util":28}],18:[function(require,module,exports){
+(function (process){
+var wrappy = require('wrappy')
+var reqs = Object.create(null)
+var once = require('once')
+
+module.exports = wrappy(inflight)
+
+function inflight (key, cb) {
+  if (reqs[key]) {
+    reqs[key].push(cb)
+    return null
+  } else {
+    reqs[key] = [cb]
+    return makeres(key)
+  }
+}
+
+function makeres (key) {
+  return once(function RES () {
+    var cbs = reqs[key]
+    var len = cbs.length
+    var args = slice(arguments)
+
+    // XXX It's somewhat ambiguous whether a new callback added in this
+    // pass should be queued for later execution if something in the
+    // list of callbacks throws, or if it should just be discarded.
+    // However, it's such an edge case that it hardly matters, and either
+    // choice is likely as surprising as the other.
+    // As it happens, we do go ahead and schedule it for later execution.
+    try {
+      for (var i = 0; i < len; i++) {
+        cbs[i].apply(null, args)
+      }
+    } finally {
+      if (cbs.length > len) {
+        // added more in the interim.
+        // de-zalgo, just in case, but don't call again.
+        cbs.splice(0, len)
+        process.nextTick(function () {
+          RES.apply(null, args)
+        })
+      } else {
+        delete reqs[key]
+      }
+    }
+  })
+}
+
+function slice (args) {
+  var length = args.length
+  var array = []
+
+  for (var i = 0; i < length; i++) array[i] = args[i]
+  return array
+}
+
+}).call(this,require('_process'))
+},{"_process":24,"once":21,"wrappy":29}],19:[function(require,module,exports){
+if (typeof Object.create === 'function') {
+  // implementation from standard node.js 'util' module
+  module.exports = function inherits(ctor, superCtor) {
+    ctor.super_ = superCtor
+    ctor.prototype = Object.create(superCtor.prototype, {
+      constructor: {
+        value: ctor,
+        enumerable: false,
+        writable: true,
+        configurable: true
+      }
+    });
+  };
+} else {
+  // old school shim for old browsers
+  module.exports = function inherits(ctor, superCtor) {
+    ctor.super_ = superCtor
+    var TempCtor = function () {}
+    TempCtor.prototype = superCtor.prototype
+    ctor.prototype = new TempCtor()
+    ctor.prototype.constructor = ctor
+  }
+}
+
+},{}],20:[function(require,module,exports){
+module.exports = minimatch
+minimatch.Minimatch = Minimatch
+
+var path = { sep: '/' }
+try {
+  path = require('path')
+} catch (er) {}
+
+var GLOBSTAR = minimatch.GLOBSTAR = Minimatch.GLOBSTAR = {}
+var expand = require('brace-expansion')
+
+var plTypes = {
+  '!': { open: '(?:(?!(?:', close: '))[^/]*?)'},
+  '?': { open: '(?:', close: ')?' },
+  '+': { open: '(?:', close: ')+' },
+  '*': { open: '(?:', close: ')*' },
+  '@': { open: '(?:', close: ')' }
+}
+
+// any single thing other than /
+// don't need to escape / when using new RegExp()
+var qmark = '[^/]'
+
+// * => any number of characters
+var star = qmark + '*?'
+
+// ** when dots are allowed.  Anything goes, except .. and .
+// not (^ or / followed by one or two dots followed by $ or /),
+// followed by anything, any number of times.
+var twoStarDot = '(?:(?!(?:\\\/|^)(?:\\.{1,2})($|\\\/)).)*?'
+
+// not a ^ or / followed by a dot,
+// followed by anything, any number of times.
+var twoStarNoDot = '(?:(?!(?:\\\/|^)\\.).)*?'
+
+// characters that need to be escaped in RegExp.
+var reSpecials = charSet('().*{}+?[]^$\\!')
+
+// "abc" -> { a:true, b:true, c:true }
+function charSet (s) {
+  return s.split('').reduce(function (set, c) {
+    set[c] = true
+    return set
+  }, {})
+}
+
+// normalizes slashes.
+var slashSplit = /\/+/
+
+minimatch.filter = filter
+function filter (pattern, options) {
+  options = options || {}
+  return function (p, i, list) {
+    return minimatch(p, pattern, options)
+  }
+}
+
+function ext (a, b) {
+  a = a || {}
+  b = b || {}
+  var t = {}
+  Object.keys(b).forEach(function (k) {
+    t[k] = b[k]
+  })
+  Object.keys(a).forEach(function (k) {
+    t[k] = a[k]
+  })
+  return t
+}
+
+minimatch.defaults = function (def) {
+  if (!def || !Object.keys(def).length) return minimatch
+
+  var orig = minimatch
+
+  var m = function minimatch (p, pattern, options) {
+    return orig.minimatch(p, pattern, ext(def, options))
+  }
+
+  m.Minimatch = function Minimatch (pattern, options) {
+    return new orig.Minimatch(pattern, ext(def, options))
+  }
+
+  return m
+}
+
+Minimatch.defaults = function (def) {
+  if (!def || !Object.keys(def).length) return Minimatch
+  return minimatch.defaults(def).Minimatch
+}
+
+function minimatch (p, pattern, options) {
+  if (typeof pattern !== 'string') {
+    throw new TypeError('glob pattern string required')
+  }
+
+  if (!options) options = {}
+
+  // shortcut: comments match nothing.
+  if (!options.nocomment && pattern.charAt(0) === '#') {
+    return false
+  }
+
+  // "" only matches ""
+  if (pattern.trim() === '') return p === ''
+
+  return new Minimatch(pattern, options).match(p)
+}
+
+function Minimatch (pattern, options) {
+  if (!(this instanceof Minimatch)) {
+    return new Minimatch(pattern, options)
+  }
+
+  if (typeof pattern !== 'string') {
+    throw new TypeError('glob pattern string required')
+  }
+
+  if (!options) options = {}
+  pattern = pattern.trim()
+
+  // windows support: need to use /, not \
+  if (path.sep !== '/') {
+    pattern = pattern.split(path.sep).join('/')
+  }
+
+  this.options = options
+  this.set = []
+  this.pattern = pattern
+  this.regexp = null
+  this.negate = false
+  this.comment = false
+  this.empty = false
+
+  // make the set of regexps etc.
+  this.make()
+}
+
+Minimatch.prototype.debug = function () {}
+
+Minimatch.prototype.make = make
+function make () {
+  // don't do it more than once.
+  if (this._made) return
+
+  var pattern = this.pattern
+  var options = this.options
+
+  // empty patterns and comments match nothing.
+  if (!options.nocomment && pattern.charAt(0) === '#') {
+    this.comment = true
+    return
+  }
+  if (!pattern) {
+    this.empty = true
+    return
+  }
+
+  // step 1: figure out negation, etc.
+  this.parseNegate()
+
+  // step 2: expand braces
+  var set = this.globSet = this.braceExpand()
+
+  if (options.debug) this.debug = console.error
+
+  this.debug(this.pattern, set)
+
+  // step 3: now we have a set, so turn each one into a series of path-portion
+  // matching patterns.
+  // These will be regexps, except in the case of "**", which is
+  // set to the GLOBSTAR object for globstar behavior,
+  // and will not contain any / characters
+  set = this.globParts = set.map(function (s) {
+    return s.split(slashSplit)
+  })
+
+  this.debug(this.pattern, set)
+
+  // glob --> regexps
+  set = set.map(function (s, si, set) {
+    return s.map(this.parse, this)
+  }, this)
+
+  this.debug(this.pattern, set)
+
+  // filter out everything that didn't compile properly.
+  set = set.filter(function (s) {
+    return s.indexOf(false) === -1
+  })
+
+  this.debug(this.pattern, set)
+
+  this.set = set
+}
+
+Minimatch.prototype.parseNegate = parseNegate
+function parseNegate () {
+  var pattern = this.pattern
+  var negate = false
+  var options = this.options
+  var negateOffset = 0
+
+  if (options.nonegate) return
+
+  for (var i = 0, l = pattern.length
+    ; i < l && pattern.charAt(i) === '!'
+    ; i++) {
+    negate = !negate
+    negateOffset++
+  }
+
+  if (negateOffset) this.pattern = pattern.substr(negateOffset)
+  this.negate = negate
+}
+
+// Brace expansion:
+// a{b,c}d -> abd acd
+// a{b,}c -> abc ac
+// a{0..3}d -> a0d a1d a2d a3d
+// a{b,c{d,e}f}g -> abg acdfg acefg
+// a{b,c}d{e,f}g -> abdeg acdeg abdeg abdfg
+//
+// Invalid sets are not expanded.
+// a{2..}b -> a{2..}b
+// a{b}c -> a{b}c
+minimatch.braceExpand = function (pattern, options) {
+  return braceExpand(pattern, options)
+}
+
+Minimatch.prototype.braceExpand = braceExpand
+
+function braceExpand (pattern, options) {
+  if (!options) {
+    if (this instanceof Minimatch) {
+      options = this.options
+    } else {
+      options = {}
+    }
+  }
+
+  pattern = typeof pattern === 'undefined'
+    ? this.pattern : pattern
+
+  if (typeof pattern === 'undefined') {
+    throw new TypeError('undefined pattern')
+  }
+
+  if (options.nobrace ||
+    !pattern.match(/\{.*\}/)) {
+    // shortcut. no need to expand.
+    return [pattern]
+  }
+
+  return expand(pattern)
+}
+
+// parse a component of the expanded set.
+// At this point, no pattern may contain "/" in it
+// so we're going to return a 2d array, where each entry is the full
+// pattern, split on '/', and then turned into a regular expression.
+// A regexp is made at the end which joins each array with an
+// escaped /, and another full one which joins each regexp with |.
+//
+// Following the lead of Bash 4.1, note that "**" only has special meaning
+// when it is the *only* thing in a path portion.  Otherwise, any series
+// of * is equivalent to a single *.  Globstar behavior is enabled by
+// default, and can be disabled by setting options.noglobstar.
+Minimatch.prototype.parse = parse
+var SUBPARSE = {}
+function parse (pattern, isSub) {
+  if (pattern.length > 1024 * 64) {
+    throw new TypeError('pattern is too long')
+  }
+
+  var options = this.options
+
+  // shortcuts
+  if (!options.noglobstar && pattern === '**') return GLOBSTAR
+  if (pattern === '') return ''
+
+  var re = ''
+  var hasMagic = !!options.nocase
+  var escaping = false
+  // ? => one single character
+  var patternListStack = []
+  var negativeLists = []
+  var stateChar
+  var inClass = false
+  var reClassStart = -1
+  var classStart = -1
+  // . and .. never match anything that doesn't start with .,
+  // even when options.dot is set.
+  var patternStart = pattern.charAt(0) === '.' ? '' // anything
+  // not (start or / followed by . or .. followed by / or end)
+  : options.dot ? '(?!(?:^|\\\/)\\.{1,2}(?:$|\\\/))'
+  : '(?!\\.)'
+  var self = this
+
+  function clearStateChar () {
+    if (stateChar) {
+      // we had some state-tracking character
+      // that wasn't consumed by this pass.
+      switch (stateChar) {
+        case '*':
+          re += star
+          hasMagic = true
+        break
+        case '?':
+          re += qmark
+          hasMagic = true
+        break
+        default:
+          re += '\\' + stateChar
+        break
+      }
+      self.debug('clearStateChar %j %j', stateChar, re)
+      stateChar = false
+    }
+  }
+
+  for (var i = 0, len = pattern.length, c
+    ; (i < len) && (c = pattern.charAt(i))
+    ; i++) {
+    this.debug('%s\t%s %s %j', pattern, i, re, c)
+
+    // skip over any that are escaped.
+    if (escaping && reSpecials[c]) {
+      re += '\\' + c
+      escaping = false
+      continue
+    }
+
+    switch (c) {
+      case '/':
+        // completely not allowed, even escaped.
+        // Should already be path-split by now.
+        return false
+
+      case '\\':
+        clearStateChar()
+        escaping = true
+      continue
+
+      // the various stateChar values
+      // for the "extglob" stuff.
+      case '?':
+      case '*':
+      case '+':
+      case '@':
+      case '!':
+        this.debug('%s\t%s %s %j <-- stateChar', pattern, i, re, c)
+
+        // all of those are literals inside a class, except that
+        // the glob [!a] means [^a] in regexp
+        if (inClass) {
+          this.debug('  in class')
+          if (c === '!' && i === classStart + 1) c = '^'
+          re += c
+          continue
+        }
+
+        // if we already have a stateChar, then it means
+        // that there was something like ** or +? in there.
+        // Handle the stateChar, then proceed with this one.
+        self.debug('call clearStateChar %j', stateChar)
+        clearStateChar()
+        stateChar = c
+        // if extglob is disabled, then +(asdf|foo) isn't a thing.
+        // just clear the statechar *now*, rather than even diving into
+        // the patternList stuff.
+        if (options.noext) clearStateChar()
+      continue
+
+      case '(':
+        if (inClass) {
+          re += '('
+          continue
+        }
+
+        if (!stateChar) {
+          re += '\\('
+          continue
+        }
+
+        patternListStack.push({
+          type: stateChar,
+          start: i - 1,
+          reStart: re.length,
+          open: plTypes[stateChar].open,
+          close: plTypes[stateChar].close
+        })
+        // negation is (?:(?!js)[^/]*)
+        re += stateChar === '!' ? '(?:(?!(?:' : '(?:'
+        this.debug('plType %j %j', stateChar, re)
+        stateChar = false
+      continue
+
+      case ')':
+        if (inClass || !patternListStack.length) {
+          re += '\\)'
+          continue
+        }
+
+        clearStateChar()
+        hasMagic = true
+        var pl = patternListStack.pop()
+        // negation is (?:(?!js)[^/]*)
+        // The others are (?:<pattern>)<type>
+        re += pl.close
+        if (pl.type === '!') {
+          negativeLists.push(pl)
+        }
+        pl.reEnd = re.length
+      continue
+
+      case '|':
+        if (inClass || !patternListStack.length || escaping) {
+          re += '\\|'
+          escaping = false
+          continue
+        }
+
+        clearStateChar()
+        re += '|'
+      continue
+
+      // these are mostly the same in regexp and glob
+      case '[':
+        // swallow any state-tracking char before the [
+        clearStateChar()
+
+        if (inClass) {
+          re += '\\' + c
+          continue
+        }
+
+        inClass = true
+        classStart = i
+        reClassStart = re.length
+        re += c
+      continue
+
+      case ']':
+        //  a right bracket shall lose its special
+        //  meaning and represent itself in
+        //  a bracket expression if it occurs
+        //  first in the list.  -- POSIX.2 2.8.3.2
+        if (i === classStart + 1 || !inClass) {
+          re += '\\' + c
+          escaping = false
+          continue
+        }
+
+        // handle the case where we left a class open.
+        // "[z-a]" is valid, equivalent to "\[z-a\]"
+        if (inClass) {
+          // split where the last [ was, make sure we don't have
+          // an invalid re. if so, re-walk the contents of the
+          // would-be class to re-translate any characters that
+          // were passed through as-is
+          // TODO: It would probably be faster to determine this
+          // without a try/catch and a new RegExp, but it's tricky
+          // to do safely.  For now, this is safe and works.
+          var cs = pattern.substring(classStart + 1, i)
+          try {
+            RegExp('[' + cs + ']')
+          } catch (er) {
+            // not a valid class!
+            var sp = this.parse(cs, SUBPARSE)
+            re = re.substr(0, reClassStart) + '\\[' + sp[0] + '\\]'
+            hasMagic = hasMagic || sp[1]
+            inClass = false
+            continue
+          }
+        }
+
+        // finish up the class.
+        hasMagic = true
+        inClass = false
+        re += c
+      continue
+
+      default:
+        // swallow any state char that wasn't consumed
+        clearStateChar()
+
+        if (escaping) {
+          // no need
+          escaping = false
+        } else if (reSpecials[c]
+          && !(c === '^' && inClass)) {
+          re += '\\'
+        }
+
+        re += c
+
+    } // switch
+  } // for
+
+  // handle the case where we left a class open.
+  // "[abc" is valid, equivalent to "\[abc"
+  if (inClass) {
+    // split where the last [ was, and escape it
+    // this is a huge pita.  We now have to re-walk
+    // the contents of the would-be class to re-translate
+    // any characters that were passed through as-is
+    cs = pattern.substr(classStart + 1)
+    sp = this.parse(cs, SUBPARSE)
+    re = re.substr(0, reClassStart) + '\\[' + sp[0]
+    hasMagic = hasMagic || sp[1]
+  }
+
+  // handle the case where we had a +( thing at the *end*
+  // of the pattern.
+  // each pattern list stack adds 3 chars, and we need to go through
+  // and escape any | chars that were passed through as-is for the regexp.
+  // Go through and escape them, taking care not to double-escape any
+  // | chars that were already escaped.
+  for (pl = patternListStack.pop(); pl; pl = patternListStack.pop()) {
+    var tail = re.slice(pl.reStart + pl.open.length)
+    this.debug('setting tail', re, pl)
+    // maybe some even number of \, then maybe 1 \, followed by a |
+    tail = tail.replace(/((?:\\{2}){0,64})(\\?)\|/g, function (_, $1, $2) {
+      if (!$2) {
+        // the | isn't already escaped, so escape it.
+        $2 = '\\'
+      }
+
+      // need to escape all those slashes *again*, without escaping the
+      // one that we need for escaping the | character.  As it works out,
+      // escaping an even number of slashes can be done by simply repeating
+      // it exactly after itself.  That's why this trick works.
+      //
+      // I am sorry that you have to see this.
+      return $1 + $1 + $2 + '|'
+    })
+
+    this.debug('tail=%j\n   %s', tail, tail, pl, re)
+    var t = pl.type === '*' ? star
+      : pl.type === '?' ? qmark
+      : '\\' + pl.type
+
+    hasMagic = true
+    re = re.slice(0, pl.reStart) + t + '\\(' + tail
+  }
+
+  // handle trailing things that only matter at the very end.
+  clearStateChar()
+  if (escaping) {
+    // trailing \\
+    re += '\\\\'
+  }
+
+  // only need to apply the nodot start if the re starts with
+  // something that could conceivably capture a dot
+  var addPatternStart = false
+  switch (re.charAt(0)) {
+    case '.':
+    case '[':
+    case '(': addPatternStart = true
+  }
+
+  // Hack to work around lack of negative lookbehind in JS
+  // A pattern like: *.!(x).!(y|z) needs to ensure that a name
+  // like 'a.xyz.yz' doesn't match.  So, the first negative
+  // lookahead, has to look ALL the way ahead, to the end of
+  // the pattern.
+  for (var n = negativeLists.length - 1; n > -1; n--) {
+    var nl = negativeLists[n]
+
+    var nlBefore = re.slice(0, nl.reStart)
+    var nlFirst = re.slice(nl.reStart, nl.reEnd - 8)
+    var nlLast = re.slice(nl.reEnd - 8, nl.reEnd)
+    var nlAfter = re.slice(nl.reEnd)
+
+    nlLast += nlAfter
+
+    // Handle nested stuff like *(*.js|!(*.json)), where open parens
+    // mean that we should *not* include the ) in the bit that is considered
+    // "after" the negated section.
+    var openParensBefore = nlBefore.split('(').length - 1
+    var cleanAfter = nlAfter
+    for (i = 0; i < openParensBefore; i++) {
+      cleanAfter = cleanAfter.replace(/\)[+*?]?/, '')
+    }
+    nlAfter = cleanAfter
+
+    var dollar = ''
+    if (nlAfter === '' && isSub !== SUBPARSE) {
+      dollar = '$'
+    }
+    var newRe = nlBefore + nlFirst + nlAfter + dollar + nlLast
+    re = newRe
+  }
+
+  // if the re is not "" at this point, then we need to make sure
+  // it doesn't match against an empty path part.
+  // Otherwise a/* will match a/, which it should not.
+  if (re !== '' && hasMagic) {
+    re = '(?=.)' + re
+  }
+
+  if (addPatternStart) {
+    re = patternStart + re
+  }
+
+  // parsing just a piece of a larger pattern.
+  if (isSub === SUBPARSE) {
+    return [re, hasMagic]
+  }
+
+  // skip the regexp for non-magical patterns
+  // unescape anything in it, though, so that it'll be
+  // an exact match against a file etc.
+  if (!hasMagic) {
+    return globUnescape(pattern)
+  }
+
+  var flags = options.nocase ? 'i' : ''
+  try {
+    var regExp = new RegExp('^' + re + '$', flags)
+  } catch (er) {
+    // If it was an invalid regular expression, then it can't match
+    // anything.  This trick looks for a character after the end of
+    // the string, which is of course impossible, except in multi-line
+    // mode, but it's not a /m regex.
+    return new RegExp('$.')
+  }
+
+  regExp._glob = pattern
+  regExp._src = re
+
+  return regExp
+}
+
+minimatch.makeRe = function (pattern, options) {
+  return new Minimatch(pattern, options || {}).makeRe()
+}
+
+Minimatch.prototype.makeRe = makeRe
+function makeRe () {
+  if (this.regexp || this.regexp === false) return this.regexp
+
+  // at this point, this.set is a 2d array of partial
+  // pattern strings, or "**".
+  //
+  // It's better to use .match().  This function shouldn't
+  // be used, really, but it's pretty convenient sometimes,
+  // when you just want to work with a regex.
+  var set = this.set
+
+  if (!set.length) {
+    this.regexp = false
+    return this.regexp
+  }
+  var options = this.options
+
+  var twoStar = options.noglobstar ? star
+    : options.dot ? twoStarDot
+    : twoStarNoDot
+  var flags = options.nocase ? 'i' : ''
+
+  var re = set.map(function (pattern) {
+    return pattern.map(function (p) {
+      return (p === GLOBSTAR) ? twoStar
+      : (typeof p === 'string') ? regExpEscape(p)
+      : p._src
+    }).join('\\\/')
+  }).join('|')
+
+  // must match entire pattern
+  // ending in a * or ** will make it less strict.
+  re = '^(?:' + re + ')$'
+
+  // can match anything, as long as it's not this.
+  if (this.negate) re = '^(?!' + re + ').*$'
+
+  try {
+    this.regexp = new RegExp(re, flags)
+  } catch (ex) {
+    this.regexp = false
+  }
+  return this.regexp
+}
+
+minimatch.match = function (list, pattern, options) {
+  options = options || {}
+  var mm = new Minimatch(pattern, options)
+  list = list.filter(function (f) {
+    return mm.match(f)
+  })
+  if (mm.options.nonull && !list.length) {
+    list.push(pattern)
+  }
+  return list
+}
+
+Minimatch.prototype.match = match
+function match (f, partial) {
+  this.debug('match', f, this.pattern)
+  // short-circuit in the case of busted things.
+  // comments, etc.
+  if (this.comment) return false
+  if (this.empty) return f === ''
+
+  if (f === '/' && partial) return true
+
+  var options = this.options
+
+  // windows: need to use /, not \
+  if (path.sep !== '/') {
+    f = f.split(path.sep).join('/')
+  }
+
+  // treat the test path as a set of pathparts.
+  f = f.split(slashSplit)
+  this.debug(this.pattern, 'split', f)
+
+  // just ONE of the pattern sets in this.set needs to match
+  // in order for it to be valid.  If negating, then just one
+  // match means that we have failed.
+  // Either way, return on the first hit.
+
+  var set = this.set
+  this.debug(this.pattern, 'set', set)
+
+  // Find the basename of the path by looking for the last non-empty segment
+  var filename
+  var i
+  for (i = f.length - 1; i >= 0; i--) {
+    filename = f[i]
+    if (filename) break
+  }
+
+  for (i = 0; i < set.length; i++) {
+    var pattern = set[i]
+    var file = f
+    if (options.matchBase && pattern.length === 1) {
+      file = [filename]
+    }
+    var hit = this.matchOne(file, pattern, partial)
+    if (hit) {
+      if (options.flipNegate) return true
+      return !this.negate
+    }
+  }
+
+  // didn't get any hits.  this is success if it's a negative
+  // pattern, failure otherwise.
+  if (options.flipNegate) return false
+  return this.negate
+}
+
+// set partial to true to test if, for example,
+// "/a/b" matches the start of "/*/b/*/d"
+// Partial means, if you run out of file before you run
+// out of pattern, then that's fine, as long as all
+// the parts match.
+Minimatch.prototype.matchOne = function (file, pattern, partial) {
+  var options = this.options
+
+  this.debug('matchOne',
+    { 'this': this, file: file, pattern: pattern })
+
+  this.debug('matchOne', file.length, pattern.length)
+
+  for (var fi = 0,
+      pi = 0,
+      fl = file.length,
+      pl = pattern.length
+      ; (fi < fl) && (pi < pl)
+      ; fi++, pi++) {
+    this.debug('matchOne loop')
+    var p = pattern[pi]
+    var f = file[fi]
+
+    this.debug(pattern, p, f)
+
+    // should be impossible.
+    // some invalid regexp stuff in the set.
+    if (p === false) return false
+
+    if (p === GLOBSTAR) {
+      this.debug('GLOBSTAR', [pattern, p, f])
+
+      // "**"
+      // a/**/b/**/c would match the following:
+      // a/b/x/y/z/c
+      // a/x/y/z/b/c
+      // a/b/x/b/x/c
+      // a/b/c
+      // To do this, take the rest of the pattern after
+      // the **, and see if it would match the file remainder.
+      // If so, return success.
+      // If not, the ** "swallows" a segment, and try again.
+      // This is recursively awful.
+      //
+      // a/**/b/**/c matching a/b/x/y/z/c
+      // - a matches a
+      // - doublestar
+      //   - matchOne(b/x/y/z/c, b/**/c)
+      //     - b matches b
+      //     - doublestar
+      //       - matchOne(x/y/z/c, c) -> no
+      //       - matchOne(y/z/c, c) -> no
+      //       - matchOne(z/c, c) -> no
+      //       - matchOne(c, c) yes, hit
+      var fr = fi
+      var pr = pi + 1
+      if (pr === pl) {
+        this.debug('** at the end')
+        // a ** at the end will just swallow the rest.
+        // We have found a match.
+        // however, it will not swallow /.x, unless
+        // options.dot is set.
+        // . and .. are *never* matched by **, for explosively
+        // exponential reasons.
+        for (; fi < fl; fi++) {
+          if (file[fi] === '.' || file[fi] === '..' ||
+            (!options.dot && file[fi].charAt(0) === '.')) return false
+        }
+        return true
+      }
+
+      // ok, let's see if we can swallow whatever we can.
+      while (fr < fl) {
+        var swallowee = file[fr]
+
+        this.debug('\nglobstar while', file, fr, pattern, pr, swallowee)
+
+        // XXX remove this slice.  Just pass the start index.
+        if (this.matchOne(file.slice(fr), pattern.slice(pr), partial)) {
+          this.debug('globstar found match!', fr, fl, swallowee)
+          // found a match.
+          return true
+        } else {
+          // can't swallow "." or ".." ever.
+          // can only swallow ".foo" when explicitly asked.
+          if (swallowee === '.' || swallowee === '..' ||
+            (!options.dot && swallowee.charAt(0) === '.')) {
+            this.debug('dot detected!', file, fr, pattern, pr)
+            break
+          }
+
+          // ** swallows a segment, and continue.
+          this.debug('globstar swallow a segment, and continue')
+          fr++
+        }
+      }
+
+      // no match was found.
+      // However, in partial mode, we can't say this is necessarily over.
+      // If there's more *pattern* left, then
+      if (partial) {
+        // ran out of file
+        this.debug('\n>>> no match, partial?', file, fr, pattern, pr)
+        if (fr === fl) return true
+      }
+      return false
+    }
+
+    // something other than **
+    // non-magic patterns just have to match exactly
+    // patterns with magic have been turned into regexps.
+    var hit
+    if (typeof p === 'string') {
+      if (options.nocase) {
+        hit = f.toLowerCase() === p.toLowerCase()
+      } else {
+        hit = f === p
+      }
+      this.debug('string match', p, f, hit)
+    } else {
+      hit = f.match(p)
+      this.debug('pattern match', p, f, hit)
+    }
+
+    if (!hit) return false
+  }
+
+  // Note: ending in / means that we'll get a final ""
+  // at the end of the pattern.  This can only match a
+  // corresponding "" at the end of the file.
+  // If the file ends in /, then it can only match a
+  // a pattern that ends in /, unless the pattern just
+  // doesn't have any more for it. But, a/b/ should *not*
+  // match "a/b/*", even though "" matches against the
+  // [^/]*? pattern, except in partial mode, where it might
+  // simply not be reached yet.
+  // However, a/b/ should still satisfy a/*
+
+  // now either we fell off the end of the pattern, or we're done.
+  if (fi === fl && pi === pl) {
+    // ran out of pattern and filename at the same time.
+    // an exact hit!
+    return true
+  } else if (fi === fl) {
+    // ran out of file, but still had pattern left.
+    // this is ok if we're doing the match as part of
+    // a glob fs traversal.
+    return partial
+  } else if (pi === pl) {
+    // ran out of pattern, still have file left.
+    // this is only acceptable if we're on the very last
+    // empty segment of a file with a trailing slash.
+    // a/* should match a/b/
+    var emptyFileEnd = (fi === fl - 1) && (file[fi] === '')
+    return emptyFileEnd
+  }
+
+  // should be unreachable.
+  throw new Error('wtf?')
+}
+
+// replace stuff like \* with *
+function globUnescape (s) {
+  return s.replace(/\\(.)/g, '$1')
+}
+
+function regExpEscape (s) {
+  return s.replace(/[-[\]{}()*+?.,\\^$|#\s]/g, '\\$&')
+}
+
+},{"brace-expansion":11,"path":22}],21:[function(require,module,exports){
+var wrappy = require('wrappy')
+module.exports = wrappy(once)
+module.exports.strict = wrappy(onceStrict)
+
+once.proto = once(function () {
+  Object.defineProperty(Function.prototype, 'once', {
+    value: function () {
+      return once(this)
+    },
+    configurable: true
+  })
+
+  Object.defineProperty(Function.prototype, 'onceStrict', {
+    value: function () {
+      return onceStrict(this)
+    },
+    configurable: true
+  })
+})
+
+function once (fn) {
+  var f = function () {
+    if (f.called) return f.value
+    f.called = true
+    return f.value = fn.apply(this, arguments)
+  }
+  f.called = false
+  return f
+}
+
+function onceStrict (fn) {
+  var f = function () {
+    if (f.called)
+      throw new Error(f.onceError)
+    f.called = true
+    return f.value = fn.apply(this, arguments)
+  }
+  var name = fn.name || 'Function wrapped with `once`'
+  f.onceError = name + " shouldn't be called more than once"
+  f.called = false
+  return f
+}
+
+},{"wrappy":29}],22:[function(require,module,exports){
+(function (process){
+// Copyright Joyent, Inc. and other Node contributors.
+//
+// Permission is hereby granted, free of charge, to any person obtaining a
+// copy of this software and associated documentation files (the
+// "Software"), to deal in the Software without restriction, including
+// without limitation the rights to use, copy, modify, merge, publish,
+// distribute, sublicense, and/or sell copies of the Software, and to permit
+// persons to whom the Software is furnished to do so, subject to the
+// following conditions:
+//
+// The above copyright notice and this permission notice shall be included
+// in all copies or substantial portions of the Software.
+//
+// THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS
+// OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
+// MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN
+// NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM,
+// DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR
+// OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE
+// USE OR OTHER DEALINGS IN THE SOFTWARE.
+
+// resolves . and .. elements in a path array with directory names there
+// must be no slashes, empty elements, or device names (c:\) in the array
+// (so also no leading and trailing slashes - it does not distinguish
+// relative and absolute paths)
+function normalizeArray(parts, allowAboveRoot) {
+  // if the path tries to go above the root, `up` ends up > 0
+  var up = 0;
+  for (var i = parts.length - 1; i >= 0; i--) {
+    var last = parts[i];
+    if (last === '.') {
+      parts.splice(i, 1);
+    } else if (last === '..') {
+      parts.splice(i, 1);
+      up++;
+    } else if (up) {
+      parts.splice(i, 1);
+      up--;
+    }
+  }
+
+  // if the path is allowed to go above the root, restore leading ..s
+  if (allowAboveRoot) {
+    for (; up--; up) {
+      parts.unshift('..');
+    }
+  }
+
+  return parts;
+}
+
+// Split a filename into [root, dir, basename, ext], unix version
+// 'root' is just a slash, or nothing.
+var splitPathRe =
+    /^(\/?|)([\s\S]*?)((?:\.{1,2}|[^\/]+?|)(\.[^.\/]*|))(?:[\/]*)$/;
+var splitPath = function(filename) {
+  return splitPathRe.exec(filename).slice(1);
+};
+
+// path.resolve([from ...], to)
+// posix version
+exports.resolve = function() {
+  var resolvedPath = '',
+      resolvedAbsolute = false;
+
+  for (var i = arguments.length - 1; i >= -1 && !resolvedAbsolute; i--) {
+    var path = (i >= 0) ? arguments[i] : process.cwd();
+
+    // Skip empty and invalid entries
+    if (typeof path !== 'string') {
+      throw new TypeError('Arguments to path.resolve must be strings');
+    } else if (!path) {
+      continue;
+    }
+
+    resolvedPath = path + '/' + resolvedPath;
+    resolvedAbsolute = path.charAt(0) === '/';
+  }
+
+  // At this point the path should be resolved to a full absolute path, but
+  // handle relative paths to be safe (might happen when process.cwd() fails)
+
+  // Normalize the path
+  resolvedPath = normalizeArray(filter(resolvedPath.split('/'), function(p) {
+    return !!p;
+  }), !resolvedAbsolute).join('/');
+
+  return ((resolvedAbsolute ? '/' : '') + resolvedPath) || '.';
+};
+
+// path.normalize(path)
+// posix version
+exports.normalize = function(path) {
+  var isAbsolute = exports.isAbsolute(path),
+      trailingSlash = substr(path, -1) === '/';
+
+  // Normalize the path
+  path = normalizeArray(filter(path.split('/'), function(p) {
+    return !!p;
+  }), !isAbsolute).join('/');
+
+  if (!path && !isAbsolute) {
+    path = '.';
+  }
+  if (path && trailingSlash) {
+    path += '/';
+  }
+
+  return (isAbsolute ? '/' : '') + path;
+};
+
+// posix version
+exports.isAbsolute = function(path) {
+  return path.charAt(0) === '/';
+};
+
+// posix version
+exports.join = function() {
+  var paths = Array.prototype.slice.call(arguments, 0);
+  return exports.normalize(filter(paths, function(p, index) {
+    if (typeof p !== 'string') {
+      throw new TypeError('Arguments to path.join must be strings');
+    }
+    return p;
+  }).join('/'));
+};
+
+
+// path.relative(from, to)
+// posix version
+exports.relative = function(from, to) {
+  from = exports.resolve(from).substr(1);
+  to = exports.resolve(to).substr(1);
+
+  function trim(arr) {
+    var start = 0;
+    for (; start < arr.length; start++) {
+      if (arr[start] !== '') break;
+    }
+
+    var end = arr.length - 1;
+    for (; end >= 0; end--) {
+      if (arr[end] !== '') break;
+    }
+
+    if (start > end) return [];
+    return arr.slice(start, end - start + 1);
+  }
+
+  var fromParts = trim(from.split('/'));
+  var toParts = trim(to.split('/'));
+
+  var length = Math.min(fromParts.length, toParts.length);
+  var samePartsLength = length;
+  for (var i = 0; i < length; i++) {
+    if (fromParts[i] !== toParts[i]) {
+      samePartsLength = i;
+      break;
+    }
+  }
+
+  var outputParts = [];
+  for (var i = samePartsLength; i < fromParts.length; i++) {
+    outputParts.push('..');
+  }
+
+  outputParts = outputParts.concat(toParts.slice(samePartsLength));
+
+  return outputParts.join('/');
+};
+
+exports.sep = '/';
+exports.delimiter = ':';
+
+exports.dirname = function(path) {
+  var result = splitPath(path),
+      root = result[0],
+      dir = result[1];
+
+  if (!root && !dir) {
+    // No dirname whatsoever
+    return '.';
+  }
+
+  if (dir) {
+    // It has a dirname, strip trailing slash
+    dir = dir.substr(0, dir.length - 1);
+  }
+
+  return root + dir;
+};
+
+
+exports.basename = function(path, ext) {
+  var f = splitPath(path)[2];
+  // TODO: make this comparison case-insensitive on windows?
+  if (ext && f.substr(-1 * ext.length) === ext) {
+    f = f.substr(0, f.length - ext.length);
+  }
+  return f;
+};
+
+
+exports.extname = function(path) {
+  return splitPath(path)[3];
+};
+
+function filter (xs, f) {
+    if (xs.filter) return xs.filter(f);
+    var res = [];
+    for (var i = 0; i < xs.length; i++) {
+        if (f(xs[i], i, xs)) res.push(xs[i]);
+    }
+    return res;
+}
+
+// String.prototype.substr - negative index don't work in IE8
+var substr = 'ab'.substr(-1) === 'b'
+    ? function (str, start, len) { return str.substr(start, len) }
+    : function (str, start, len) {
+        if (start < 0) start = str.length + start;
+        return str.substr(start, len);
+    }
+;
+
+}).call(this,require('_process'))
+},{"_process":24}],23:[function(require,module,exports){
+(function (process){
+'use strict';
+
+function posix(path) {
+	return path.charAt(0) === '/';
+}
+
+function win32(path) {
+	// https://github.com/nodejs/node/blob/b3fcc245fb25539909ef1d5eaa01dbf92e168633/lib/path.js#L56
+	var splitDeviceRe = /^([a-zA-Z]:|[\\\/]{2}[^\\\/]+[\\\/]+[^\\\/]+)?([\\\/])?([\s\S]*?)$/;
+	var result = splitDeviceRe.exec(path);
+	var device = result[1] || '';
+	var isUnc = Boolean(device && device.charAt(1) !== ':');
+
+	// UNC paths are always absolute
+	return Boolean(result[2] || isUnc);
+}
+
+module.exports = process.platform === 'win32' ? win32 : posix;
+module.exports.posix = posix;
+module.exports.win32 = win32;
+
+}).call(this,require('_process'))
+},{"_process":24}],24:[function(require,module,exports){
+// shim for using process in browser
+var process = module.exports = {};
+
+// cached from whatever global is present so that test runners that stub it
+// don't break things.  But we need to wrap it in a try catch in case it is
+// wrapped in strict mode code which doesn't define any globals.  It's inside a
+// function because try/catches deoptimize in certain engines.
+
+var cachedSetTimeout;
+var cachedClearTimeout;
+
+function defaultSetTimout() {
+    throw new Error('setTimeout has not been defined');
+}
+function defaultClearTimeout () {
+    throw new Error('clearTimeout has not been defined');
+}
+(function () {
+    try {
+        if (typeof setTimeout === 'function') {
+            cachedSetTimeout = setTimeout;
+        } else {
+            cachedSetTimeout = defaultSetTimout;
+        }
+    } catch (e) {
+        cachedSetTimeout = defaultSetTimout;
+    }
+    try {
+        if (typeof clearTimeout === 'function') {
+            cachedClearTimeout = clearTimeout;
+        } else {
+            cachedClearTimeout = defaultClearTimeout;
+        }
+    } catch (e) {
+        cachedClearTimeout = defaultClearTimeout;
+    }
+} ())
+function runTimeout(fun) {
+    if (cachedSetTimeout === setTimeout) {
+        //normal enviroments in sane situations
+        return setTimeout(fun, 0);
+    }
+    // if setTimeout wasn't available but was latter defined
+    if ((cachedSetTimeout === defaultSetTimout || !cachedSetTimeout) && setTimeout) {
+        cachedSetTimeout = setTimeout;
+        return setTimeout(fun, 0);
+    }
+    try {
+        // when when somebody has screwed with setTimeout but no I.E. maddness
+        return cachedSetTimeout(fun, 0);
+    } catch(e){
+        try {
+            // When we are in I.E. but the script has been evaled so I.E. doesn't trust the global object when called normally
+            return cachedSetTimeout.call(null, fun, 0);
+        } catch(e){
+            // same as above but when it's a version of I.E. that must have the global object for 'this', hopfully our context correct otherwise it will throw a global error
+            return cachedSetTimeout.call(this, fun, 0);
+        }
+    }
+
+
+}
+function runClearTimeout(marker) {
+    if (cachedClearTimeout === clearTimeout) {
+        //normal enviroments in sane situations
+        return clearTimeout(marker);
+    }
+    // if clearTimeout wasn't available but was latter defined
+    if ((cachedClearTimeout === defaultClearTimeout || !cachedClearTimeout) && clearTimeout) {
+        cachedClearTimeout = clearTimeout;
+        return clearTimeout(marker);
+    }
+    try {
+        // when when somebody has screwed with setTimeout but no I.E. maddness
+        return cachedClearTimeout(marker);
+    } catch (e){
+        try {
+            // When we are in I.E. but the script has been evaled so I.E. doesn't  trust the global object when called normally
+            return cachedClearTimeout.call(null, marker);
+        } catch (e){
+            // same as above but when it's a version of I.E. that must have the global object for 'this', hopfully our context correct otherwise it will throw a global error.
+            // Some versions of I.E. have different rules for clearTimeout vs setTimeout
+            return cachedClearTimeout.call(this, marker);
+        }
+    }
+
+
+
+}
+var queue = [];
+var draining = false;
+var currentQueue;
+var queueIndex = -1;
+
+function cleanUpNextTick() {
+    if (!draining || !currentQueue) {
+        return;
+    }
+    draining = false;
+    if (currentQueue.length) {
+        queue = currentQueue.concat(queue);
+    } else {
+        queueIndex = -1;
+    }
+    if (queue.length) {
+        drainQueue();
+    }
+}
+
+function drainQueue() {
+    if (draining) {
+        return;
+    }
+    var timeout = runTimeout(cleanUpNextTick);
+    draining = true;
+
+    var len = queue.length;
+    while(len) {
+        currentQueue = queue;
+        queue = [];
+        while (++queueIndex < len) {
+            if (currentQueue) {
+                currentQueue[queueIndex].run();
+            }
+        }
+        queueIndex = -1;
+        len = queue.length;
+    }
+    currentQueue = null;
+    draining = false;
+    runClearTimeout(timeout);
+}
+
+process.nextTick = function (fun) {
+    var args = new Array(arguments.length - 1);
+    if (arguments.length > 1) {
+        for (var i = 1; i < arguments.length; i++) {
+            args[i - 1] = arguments[i];
+        }
+    }
+    queue.push(new Item(fun, args));
+    if (queue.length === 1 && !draining) {
+        runTimeout(drainQueue);
+    }
+};
+
+// v8 likes predictible objects
+function Item(fun, array) {
+    this.fun = fun;
+    this.array = array;
+}
+Item.prototype.run = function () {
+    this.fun.apply(null, this.array);
+};
+process.title = 'browser';
+process.browser = true;
+process.env = {};
+process.argv = [];
+process.version = ''; // empty string to avoid regexp issues
+process.versions = {};
+
+function noop() {}
+
+process.on = noop;
+process.addListener = noop;
+process.once = noop;
+process.off = noop;
+process.removeListener = noop;
+process.removeAllListeners = noop;
+process.emit = noop;
+process.prependListener = noop;
+process.prependOnceListener = noop;
+
+process.listeners = function (name) { return [] }
+
+process.binding = function (name) {
+    throw new Error('process.binding is not supported');
+};
+
+process.cwd = function () { return '/' };
+process.chdir = function (dir) {
+    throw new Error('process.chdir is not supported');
+};
+process.umask = function() { return 0; };
+
+},{}],25:[function(require,module,exports){
+//     Underscore.js 1.8.3
+//     http://underscorejs.org
+//     (c) 2009-2015 Jeremy Ashkenas, DocumentCloud and Investigative Reporters & Editors
+//     Underscore may be freely distributed under the MIT license.
+
+(function() {
+
+  // Baseline setup
+  // --------------
+
+  // Establish the root object, `window` in the browser, or `exports` on the server.
+  var root = this;
+
+  // Save the previous value of the `_` variable.
+  var previousUnderscore = root._;
+
+  // Save bytes in the minified (but not gzipped) version:
+  var ArrayProto = Array.prototype, ObjProto = Object.prototype, FuncProto = Function.prototype;
+
+  // Create quick reference variables for speed access to core prototypes.
+  var
+    push             = ArrayProto.push,
+    slice            = ArrayProto.slice,
+    toString         = ObjProto.toString,
+    hasOwnProperty   = ObjProto.hasOwnProperty;
+
+  // All **ECMAScript 5** native function implementations that we hope to use
+  // are declared here.
+  var
+    nativeIsArray      = Array.isArray,
+    nativeKeys         = Object.keys,
+    nativeBind         = FuncProto.bind,
+    nativeCreate       = Object.create;
+
+  // Naked function reference for surrogate-prototype-swapping.
+  var Ctor = function(){};
+
+  // Create a safe reference to the Underscore object for use below.
+  var _ = function(obj) {
+    if (obj instanceof _) return obj;
+    if (!(this instanceof _)) return new _(obj);
+    this._wrapped = obj;
+  };
+
+  // Export the Underscore object for **Node.js**, with
+  // backwards-compatibility for the old `require()` API. If we're in
+  // the browser, add `_` as a global object.
+  if (typeof exports !== 'undefined') {
+    if (typeof module !== 'undefined' && module.exports) {
+      exports = module.exports = _;
+    }
+    exports._ = _;
+  } else {
+    root._ = _;
+  }
+
+  // Current version.
+  _.VERSION = '1.8.3';
+
+  // Internal function that returns an efficient (for current engines) version
+  // of the passed-in callback, to be repeatedly applied in other Underscore
+  // functions.
+  var optimizeCb = function(func, context, argCount) {
+    if (context === void 0) return func;
+    switch (argCount == null ? 3 : argCount) {
+      case 1: return function(value) {
+        return func.call(context, value);
+      };
+      case 2: return function(value, other) {
+        return func.call(context, value, other);
+      };
+      case 3: return function(value, index, collection) {
+        return func.call(context, value, index, collection);
+      };
+      case 4: return function(accumulator, value, index, collection) {
+        return func.call(context, accumulator, value, index, collection);
+      };
+    }
+    return function() {
+      return func.apply(context, arguments);
+    };
+  };
+
+  // A mostly-internal function to generate callbacks that can be applied
+  // to each element in a collection, returning the desired result — either
+  // identity, an arbitrary callback, a property matcher, or a property accessor.
+  var cb = function(value, context, argCount) {
+    if (value == null) return _.identity;
+    if (_.isFunction(value)) return optimizeCb(value, context, argCount);
+    if (_.isObject(value)) return _.matcher(value);
+    return _.property(value);
+  };
+  _.iteratee = function(value, context) {
+    return cb(value, context, Infinity);
+  };
+
+  // An internal function for creating assigner functions.
+  var createAssigner = function(keysFunc, undefinedOnly) {
+    return function(obj) {
+      var length = arguments.length;
+      if (length < 2 || obj == null) return obj;
+      for (var index = 1; index < length; index++) {
+        var source = arguments[index],
+            keys = keysFunc(source),
+            l = keys.length;
+        for (var i = 0; i < l; i++) {
+          var key = keys[i];
+          if (!undefinedOnly || obj[key] === void 0) obj[key] = source[key];
+        }
+      }
+      return obj;
+    };
+  };
+
+  // An internal function for creating a new object that inherits from another.
+  var baseCreate = function(prototype) {
+    if (!_.isObject(prototype)) return {};
+    if (nativeCreate) return nativeCreate(prototype);
+    Ctor.prototype = prototype;
+    var result = new Ctor;
+    Ctor.prototype = null;
+    return result;
+  };
+
+  var property = function(key) {
+    return function(obj) {
+      return obj == null ? void 0 : obj[key];
+    };
+  };
+
+  // Helper for collection methods to determine whether a collection
+  // should be iterated as an array or as an object
+  // Related: http://people.mozilla.org/~jorendorff/es6-draft.html#sec-tolength
+  // Avoids a very nasty iOS 8 JIT bug on ARM-64. #2094
+  var MAX_ARRAY_INDEX = Math.pow(2, 53) - 1;
+  var getLength = property('length');
+  var isArrayLike = function(collection) {
+    var length = getLength(collection);
+    return typeof length == 'number' && length >= 0 && length <= MAX_ARRAY_INDEX;
+  };
+
+  // Collection Functions
+  // --------------------
+
+  // The cornerstone, an `each` implementation, aka `forEach`.
+  // Handles raw objects in addition to array-likes. Treats all
+  // sparse array-likes as if they were dense.
+  _.each = _.forEach = function(obj, iteratee, context) {
+    iteratee = optimizeCb(iteratee, context);
+    var i, length;
+    if (isArrayLike(obj)) {
+      for (i = 0, length = obj.length; i < length; i++) {
+        iteratee(obj[i], i, obj);
+      }
+    } else {
+      var keys = _.keys(obj);
+      for (i = 0, length = keys.length; i < length; i++) {
+        iteratee(obj[keys[i]], keys[i], obj);
+      }
+    }
+    return obj;
+  };
+
+  // Return the results of applying the iteratee to each element.
+  _.map = _.collect = function(obj, iteratee, context) {
+    iteratee = cb(iteratee, context);
+    var keys = !isArrayLike(obj) && _.keys(obj),
+        length = (keys || obj).length,
+        results = Array(length);
+    for (var index = 0; index < length; index++) {
+      var currentKey = keys ? keys[index] : index;
+      results[index] = iteratee(obj[currentKey], currentKey, obj);
+    }
+    return results;
+  };
+
+  // Create a reducing function iterating left or right.
+  function createReduce(dir) {
+    // Optimized iterator function as using arguments.length
+    // in the main function will deoptimize the, see #1991.
+    function iterator(obj, iteratee, memo, keys, index, length) {
+      for (; index >= 0 && index < length; index += dir) {
+        var currentKey = keys ? keys[index] : index;
+        memo = iteratee(memo, obj[currentKey], currentKey, obj);
+      }
+      return memo;
+    }
+
+    return function(obj, iteratee, memo, context) {
+      iteratee = optimizeCb(iteratee, context, 4);
+      var keys = !isArrayLike(obj) && _.keys(obj),
+          length = (keys || obj).length,
+          index = dir > 0 ? 0 : length - 1;
+      // Determine the initial value if none is provided.
+      if (arguments.length < 3) {
+        memo = obj[keys ? keys[index] : index];
+        index += dir;
+      }
+      return iterator(obj, iteratee, memo, keys, index, length);
+    };
+  }
+
+  // **Reduce** builds up a single result from a list of values, aka `inject`,
+  // or `foldl`.
+  _.reduce = _.foldl = _.inject = createReduce(1);
+
+  // The right-associative version of reduce, also known as `foldr`.
+  _.reduceRight = _.foldr = createReduce(-1);
+
+  // Return the first value which passes a truth test. Aliased as `detect`.
+  _.find = _.detect = function(obj, predicate, context) {
+    var key;
+    if (isArrayLike(obj)) {
+      key = _.findIndex(obj, predicate, context);
+    } else {
+      key = _.findKey(obj, predicate, context);
+    }
+    if (key !== void 0 && key !== -1) return obj[key];
+  };
+
+  // Return all the elements that pass a truth test.
+  // Aliased as `select`.
+  _.filter = _.select = function(obj, predicate, context) {
+    var results = [];
+    predicate = cb(predicate, context);
+    _.each(obj, function(value, index, list) {
+      if (predicate(value, index, list)) results.push(value);
+    });
+    return results;
+  };
+
+  // Return all the elements for which a truth test fails.
+  _.reject = function(obj, predicate, context) {
+    return _.filter(obj, _.negate(cb(predicate)), context);
+  };
+
+  // Determine whether all of the elements match a truth test.
+  // Aliased as `all`.
+  _.every = _.all = function(obj, predicate, context) {
+    predicate = cb(predicate, context);
+    var keys = !isArrayLike(obj) && _.keys(obj),
+        length = (keys || obj).length;
+    for (var index = 0; index < length; index++) {
+      var currentKey = keys ? keys[index] : index;
+      if (!predicate(obj[currentKey], currentKey, obj)) return false;
+    }
+    return true;
+  };
+
+  // Determine if at least one element in the object matches a truth test.
+  // Aliased as `any`.
+  _.some = _.any = function(obj, predicate, context) {
+    predicate = cb(predicate, context);
+    var keys = !isArrayLike(obj) && _.keys(obj),
+        length = (keys || obj).length;
+    for (var index = 0; index < length; index++) {
+      var currentKey = keys ? keys[index] : index;
+      if (predicate(obj[currentKey], currentKey, obj)) return true;
+    }
+    return false;
+  };
+
+  // Determine if the array or object contains a given item (using `===`).
+  // Aliased as `includes` and `include`.
+  _.contains = _.includes = _.include = function(obj, item, fromIndex, guard) {
+    if (!isArrayLike(obj)) obj = _.values(obj);
+    if (typeof fromIndex != 'number' || guard) fromIndex = 0;
+    return _.indexOf(obj, item, fromIndex) >= 0;
+  };
+
+  // Invoke a method (with arguments) on every item in a collection.
+  _.invoke = function(obj, method) {
+    var args = slice.call(arguments, 2);
+    var isFunc = _.isFunction(method);
+    return _.map(obj, function(value) {
+      var func = isFunc ? method : value[method];
+      return func == null ? func : func.apply(value, args);
+    });
+  };
+
+  // Convenience version of a common use case of `map`: fetching a property.
+  _.pluck = function(obj, key) {
+    return _.map(obj, _.property(key));
+  };
+
+  // Convenience version of a common use case of `filter`: selecting only objects
+  // containing specific `key:value` pairs.
+  _.where = function(obj, attrs) {
+    return _.filter(obj, _.matcher(attrs));
+  };
+
+  // Convenience version of a common use case of `find`: getting the first object
+  // containing specific `key:value` pairs.
+  _.findWhere = function(obj, attrs) {
+    return _.find(obj, _.matcher(attrs));
+  };
+
+  // Return the maximum element (or element-based computation).
+  _.max = function(obj, iteratee, context) {
+    var result = -Infinity, lastComputed = -Infinity,
+        value, computed;
+    if (iteratee == null && obj != null) {
+      obj = isArrayLike(obj) ? obj : _.values(obj);
+      for (var i = 0, length = obj.length; i < length; i++) {
+        value = obj[i];
+        if (value > result) {
+          result = value;
+        }
+      }
+    } else {
+      iteratee = cb(iteratee, context);
+      _.each(obj, function(value, index, list) {
+        computed = iteratee(value, index, list);
+        if (computed > lastComputed || computed === -Infinity && result === -Infinity) {
+          result = value;
+          lastComputed = computed;
+        }
+      });
+    }
+    return result;
+  };
+
+  // Return the minimum element (or element-based computation).
+  _.min = function(obj, iteratee, context) {
+    var result = Infinity, lastComputed = Infinity,
+        value, computed;
+    if (iteratee == null && obj != null) {
+      obj = isArrayLike(obj) ? obj : _.values(obj);
+      for (var i = 0, length = obj.length; i < length; i++) {
+        value = obj[i];
+        if (value < result) {
+          result = value;
+        }
+      }
+    } else {
+      iteratee = cb(iteratee, context);
+      _.each(obj, function(value, index, list) {
+        computed = iteratee(value, index, list);
+        if (computed < lastComputed || computed === Infinity && result === Infinity) {
+          result = value;
+          lastComputed = computed;
+        }
+      });
+    }
+    return result;
+  };
+
+  // Shuffle a collection, using the modern version of the
+  // [Fisher-Yates shuffle](http://en.wikipedia.org/wiki/Fisher–Yates_shuffle).
+  _.shuffle = function(obj) {
+    var set = isArrayLike(obj) ? obj : _.values(obj);
+    var length = set.length;
+    var shuffled = Array(length);
+    for (var index = 0, rand; index < length; index++) {
+      rand = _.random(0, index);
+      if (rand !== index) shuffled[index] = shuffled[rand];
+      shuffled[rand] = set[index];
+    }
+    return shuffled;
+  };
+
+  // Sample **n** random values from a collection.
+  // If **n** is not specified, returns a single random element.
+  // The internal `guard` argument allows it to work with `map`.
+  _.sample = function(obj, n, guard) {
+    if (n == null || guard) {
+      if (!isArrayLike(obj)) obj = _.values(obj);
+      return obj[_.random(obj.length - 1)];
+    }
+    return _.shuffle(obj).slice(0, Math.max(0, n));
+  };
+
+  // Sort the object's values by a criterion produced by an iteratee.
+  _.sortBy = function(obj, iteratee, context) {
+    iteratee = cb(iteratee, context);
+    return _.pluck(_.map(obj, function(value, index, list) {
+      return {
+        value: value,
+        index: index,
+        criteria: iteratee(value, index, list)
+      };
+    }).sort(function(left, right) {
+      var a = left.criteria;
+      var b = right.criteria;
+      if (a !== b) {
+        if (a > b || a === void 0) return 1;
+        if (a < b || b === void 0) return -1;
+      }
+      return left.index - right.index;
+    }), 'value');
+  };
+
+  // An internal function used for aggregate "group by" operations.
+  var group = function(behavior) {
+    return function(obj, iteratee, context) {
+      var result = {};
+      iteratee = cb(iteratee, context);
+      _.each(obj, function(value, index) {
+        var key = iteratee(value, index, obj);
+        behavior(result, value, key);
+      });
+      return result;
+    };
+  };
+
+  // Groups the object's values by a criterion. Pass either a string attribute
+  // to group by, or a function that returns the criterion.
+  _.groupBy = group(function(result, value, key) {
+    if (_.has(result, key)) result[key].push(value); else result[key] = [value];
+  });
+
+  // Indexes the object's values by a criterion, similar to `groupBy`, but for
+  // when you know that your index values will be unique.
+  _.indexBy = group(function(result, value, key) {
+    result[key] = value;
+  });
+
+  // Counts instances of an object that group by a certain criterion. Pass
+  // either a string attribute to count by, or a function that returns the
+  // criterion.
+  _.countBy = group(function(result, value, key) {
+    if (_.has(result, key)) result[key]++; else result[key] = 1;
+  });
+
+  // Safely create a real, live array from anything iterable.
+  _.toArray = function(obj) {
+    if (!obj) return [];
+    if (_.isArray(obj)) return slice.call(obj);
+    if (isArrayLike(obj)) return _.map(obj, _.identity);
+    return _.values(obj);
+  };
+
+  // Return the number of elements in an object.
+  _.size = function(obj) {
+    if (obj == null) return 0;
+    return isArrayLike(obj) ? obj.length : _.keys(obj).length;
+  };
+
+  // Split a collection into two arrays: one whose elements all satisfy the given
+  // predicate, and one whose elements all do not satisfy the predicate.
+  _.partition = function(obj, predicate, context) {
+    predicate = cb(predicate, context);
+    var pass = [], fail = [];
+    _.each(obj, function(value, key, obj) {
+      (predicate(value, key, obj) ? pass : fail).push(value);
+    });
+    return [pass, fail];
+  };
+
+  // Array Functions
+  // ---------------
+
+  // Get the first element of an array. Passing **n** will return the first N
+  // values in the array. Aliased as `head` and `take`. The **guard** check
+  // allows it to work with `_.map`.
+  _.first = _.head = _.take = function(array, n, guard) {
+    if (array == null) return void 0;
+    if (n == null || guard) return array[0];
+    return _.initial(array, array.length - n);
+  };
+
+  // Returns everything but the last entry of the array. Especially useful on
+  // the arguments object. Passing **n** will return all the values in
+  // the array, excluding the last N.
+  _.initial = function(array, n, guard) {
+    return slice.call(array, 0, Math.max(0, array.length - (n == null || guard ? 1 : n)));
+  };
+
+  // Get the last element of an array. Passing **n** will return the last N
+  // values in the array.
+  _.last = function(array, n, guard) {
+    if (array == null) return void 0;
+    if (n == null || guard) return array[array.length - 1];
+    return _.rest(array, Math.max(0, array.length - n));
+  };
+
+  // Returns everything but the first entry of the array. Aliased as `tail` and `drop`.
+  // Especially useful on the arguments object. Passing an **n** will return
+  // the rest N values in the array.
+  _.rest = _.tail = _.drop = function(array, n, guard) {
+    return slice.call(array, n == null || guard ? 1 : n);
+  };
+
+  // Trim out all falsy values from an array.
+  _.compact = function(array) {
+    return _.filter(array, _.identity);
+  };
+
+  // Internal implementation of a recursive `flatten` function.
+  var flatten = function(input, shallow, strict, startIndex) {
+    var output = [], idx = 0;
+    for (var i = startIndex || 0, length = getLength(input); i < length; i++) {
+      var value = input[i];
+      if (isArrayLike(value) && (_.isArray(value) || _.isArguments(value))) {
+        //flatten current level of array or arguments object
+        if (!shallow) value = flatten(value, shallow, strict);
+        var j = 0, len = value.length;
+        output.length += len;
+        while (j < len) {
+          output[idx++] = value[j++];
+        }
+      } else if (!strict) {
+        output[idx++] = value;
+      }
+    }
+    return output;
+  };
+
+  // Flatten out an array, either recursively (by default), or just one level.
+  _.flatten = function(array, shallow) {
+    return flatten(array, shallow, false);
+  };
+
+  // Return a version of the array that does not contain the specified value(s).
+  _.without = function(array) {
+    return _.difference(array, slice.call(arguments, 1));
+  };
+
+  // Produce a duplicate-free version of the array. If the array has already
+  // been sorted, you have the option of using a faster algorithm.
+  // Aliased as `unique`.
+  _.uniq = _.unique = function(array, isSorted, iteratee, context) {
+    if (!_.isBoolean(isSorted)) {
+      context = iteratee;
+      iteratee = isSorted;
+      isSorted = false;
+    }
+    if (iteratee != null) iteratee = cb(iteratee, context);
+    var result = [];
+    var seen = [];
+    for (var i = 0, length = getLength(array); i < length; i++) {
+      var value = array[i],
+          computed = iteratee ? iteratee(value, i, array) : value;
+      if (isSorted) {
+        if (!i || seen !== computed) result.push(value);
+        seen = computed;
+      } else if (iteratee) {
+        if (!_.contains(seen, computed)) {
+          seen.push(computed);
+          result.push(value);
+        }
+      } else if (!_.contains(result, value)) {
+        result.push(value);
+      }
+    }
+    return result;
+  };
+
+  // Produce an array that contains the union: each distinct element from all of
+  // the passed-in arrays.
+  _.union = function() {
+    return _.uniq(flatten(arguments, true, true));
+  };
+
+  // Produce an array that contains every item shared between all the
+  // passed-in arrays.
+  _.intersection = function(array) {
+    var result = [];
+    var argsLength = arguments.length;
+    for (var i = 0, length = getLength(array); i < length; i++) {
+      var item = array[i];
+      if (_.contains(result, item)) continue;
+      for (var j = 1; j < argsLength; j++) {
+        if (!_.contains(arguments[j], item)) break;
+      }
+      if (j === argsLength) result.push(item);
+    }
+    return result;
+  };
+
+  // Take the difference between one array and a number of other arrays.
+  // Only the elements present in just the first array will remain.
+  _.difference = function(array) {
+    var rest = flatten(arguments, true, true, 1);
+    return _.filter(array, function(value){
+      return !_.contains(rest, value);
+    });
+  };
+
+  // Zip together multiple lists into a single array -- elements that share
+  // an index go together.
+  _.zip = function() {
+    return _.unzip(arguments);
+  };
+
+  // Complement of _.zip. Unzip accepts an array of arrays and groups
+  // each array's elements on shared indices
+  _.unzip = function(array) {
+    var length = array && _.max(array, getLength).length || 0;
+    var result = Array(length);
+
+    for (var index = 0; index < length; index++) {
+      result[index] = _.pluck(array, index);
+    }
+    return result;
+  };
+
+  // Converts lists into objects. Pass either a single array of `[key, value]`
+  // pairs, or two parallel arrays of the same length -- one of keys, and one of
+  // the corresponding values.
+  _.object = function(list, values) {
+    var result = {};
+    for (var i = 0, length = getLength(list); i < length; i++) {
+      if (values) {
+        result[list[i]] = values[i];
+      } else {
+        result[list[i][0]] = list[i][1];
+      }
+    }
+    return result;
+  };
+
+  // Generator function to create the findIndex and findLastIndex functions
+  function createPredicateIndexFinder(dir) {
+    return function(array, predicate, context) {
+      predicate = cb(predicate, context);
+      var length = getLength(array);
+      var index = dir > 0 ? 0 : length - 1;
+      for (; index >= 0 && index < length; index += dir) {
+        if (predicate(array[index], index, array)) return index;
+      }
+      return -1;
+    };
+  }
+
+  // Returns the first index on an array-like that passes a predicate test
+  _.findIndex = createPredicateIndexFinder(1);
+  _.findLastIndex = createPredicateIndexFinder(-1);
+
+  // Use a comparator function to figure out the smallest index at which
+  // an object should be inserted so as to maintain order. Uses binary search.
+  _.sortedIndex = function(array, obj, iteratee, context) {
+    iteratee = cb(iteratee, context, 1);
+    var value = iteratee(obj);
+    var low = 0, high = getLength(array);
+    while (low < high) {
+      var mid = Math.floor((low + high) / 2);
+      if (iteratee(array[mid]) < value) low = mid + 1; else high = mid;
+    }
+    return low;
+  };
+
+  // Generator function to create the indexOf and lastIndexOf functions
+  function createIndexFinder(dir, predicateFind, sortedIndex) {
+    return function(array, item, idx) {
+      var i = 0, length = getLength(array);
+      if (typeof idx == 'number') {
+        if (dir > 0) {
+            i = idx >= 0 ? idx : Math.max(idx + length, i);
+        } else {
+            length = idx >= 0 ? Math.min(idx + 1, length) : idx + length + 1;
+        }
+      } else if (sortedIndex && idx && length) {
+        idx = sortedIndex(array, item);
+        return array[idx] === item ? idx : -1;
+      }
+      if (item !== item) {
+        idx = predicateFind(slice.call(array, i, length), _.isNaN);
+        return idx >= 0 ? idx + i : -1;
+      }
+      for (idx = dir > 0 ? i : length - 1; idx >= 0 && idx < length; idx += dir) {
+        if (array[idx] === item) return idx;
+      }
+      return -1;
+    };
+  }
+
+  // Return the position of the first occurrence of an item in an array,
+  // or -1 if the item is not included in the array.
+  // If the array is large and already in sort order, pass `true`
+  // for **isSorted** to use binary search.
+  _.indexOf = createIndexFinder(1, _.findIndex, _.sortedIndex);
+  _.lastIndexOf = createIndexFinder(-1, _.findLastIndex);
+
+  // Generate an integer Array containing an arithmetic progression. A port of
+  // the native Python `range()` function. See
+  // [the Python documentation](http://docs.python.org/library/functions.html#range).
+  _.range = function(start, stop, step) {
+    if (stop == null) {
+      stop = start || 0;
+      start = 0;
+    }
+    step = step || 1;
+
+    var length = Math.max(Math.ceil((stop - start) / step), 0);
+    var range = Array(length);
+
+    for (var idx = 0; idx < length; idx++, start += step) {
+      range[idx] = start;
+    }
+
+    return range;
+  };
+
+  // Function (ahem) Functions
+  // ------------------
+
+  // Determines whether to execute a function as a constructor
+  // or a normal function with the provided arguments
+  var executeBound = function(sourceFunc, boundFunc, context, callingContext, args) {
+    if (!(callingContext instanceof boundFunc)) return sourceFunc.apply(context, args);
+    var self = baseCreate(sourceFunc.prototype);
+    var result = sourceFunc.apply(self, args);
+    if (_.isObject(result)) return result;
+    return self;
+  };
+
+  // Create a function bound to a given object (assigning `this`, and arguments,
+  // optionally). Delegates to **ECMAScript 5**'s native `Function.bind` if
+  // available.
+  _.bind = function(func, context) {
+    if (nativeBind && func.bind === nativeBind) return nativeBind.apply(func, slice.call(arguments, 1));
+    if (!_.isFunction(func)) throw new TypeError('Bind must be called on a function');
+    var args = slice.call(arguments, 2);
+    var bound = function() {
+      return executeBound(func, bound, context, this, args.concat(slice.call(arguments)));
+    };
+    return bound;
+  };
+
+  // Partially apply a function by creating a version that has had some of its
+  // arguments pre-filled, without changing its dynamic `this` context. _ acts
+  // as a placeholder, allowing any combination of arguments to be pre-filled.
+  _.partial = function(func) {
+    var boundArgs = slice.call(arguments, 1);
+    var bound = function() {
+      var position = 0, length = boundArgs.length;
+      var args = Array(length);
+      for (var i = 0; i < length; i++) {
+        args[i] = boundArgs[i] === _ ? arguments[position++] : boundArgs[i];
+      }
+      while (position < arguments.length) args.push(arguments[position++]);
+      return executeBound(func, bound, this, this, args);
+    };
+    return bound;
+  };
+
+  // Bind a number of an object's methods to that object. Remaining arguments
+  // are the method names to be bound. Useful for ensuring that all callbacks
+  // defined on an object belong to it.
+  _.bindAll = function(obj) {
+    var i, length = arguments.length, key;
+    if (length <= 1) throw new Error('bindAll must be passed function names');
+    for (i = 1; i < length; i++) {
+      key = arguments[i];
+      obj[key] = _.bind(obj[key], obj);
+    }
+    return obj;
+  };
+
+  // Memoize an expensive function by storing its results.
+  _.memoize = function(func, hasher) {
+    var memoize = function(key) {
+      var cache = memoize.cache;
+      var address = '' + (hasher ? hasher.apply(this, arguments) : key);
+      if (!_.has(cache, address)) cache[address] = func.apply(this, arguments);
+      return cache[address];
+    };
+    memoize.cache = {};
+    return memoize;
+  };
+
+  // Delays a function for the given number of milliseconds, and then calls
+  // it with the arguments supplied.
+  _.delay = function(func, wait) {
+    var args = slice.call(arguments, 2);
+    return setTimeout(function(){
+      return func.apply(null, args);
+    }, wait);
+  };
+
+  // Defers a function, scheduling it to run after the current call stack has
+  // cleared.
+  _.defer = _.partial(_.delay, _, 1);
+
+  // Returns a function, that, when invoked, will only be triggered at most once
+  // during a given window of time. Normally, the throttled function will run
+  // as much as it can, without ever going more than once per `wait` duration;
+  // but if you'd like to disable the execution on the leading edge, pass
+  // `{leading: false}`. To disable execution on the trailing edge, ditto.
+  _.throttle = function(func, wait, options) {
+    var context, args, result;
+    var timeout = null;
+    var previous = 0;
+    if (!options) options = {};
+    var later = function() {
+      previous = options.leading === false ? 0 : _.now();
+      timeout = null;
+      result = func.apply(context, args);
+      if (!timeout) context = args = null;
+    };
+    return function() {
+      var now = _.now();
+      if (!previous && options.leading === false) previous = now;
+      var remaining = wait - (now - previous);
+      context = this;
+      args = arguments;
+      if (remaining <= 0 || remaining > wait) {
+        if (timeout) {
+          clearTimeout(timeout);
+          timeout = null;
+        }
+        previous = now;
+        result = func.apply(context, args);
+        if (!timeout) context = args = null;
+      } else if (!timeout && options.trailing !== false) {
+        timeout = setTimeout(later, remaining);
+      }
+      return result;
+    };
+  };
+
+  // Returns a function, that, as long as it continues to be invoked, will not
+  // be triggered. The function will be called after it stops being called for
+  // N milliseconds. If `immediate` is passed, trigger the function on the
+  // leading edge, instead of the trailing.
+  _.debounce = function(func, wait, immediate) {
+    var timeout, args, context, timestamp, result;
+
+    var later = function() {
+      var last = _.now() - timestamp;
+
+      if (last < wait && last >= 0) {
+        timeout = setTimeout(later, wait - last);
+      } else {
+        timeout = null;
+        if (!immediate) {
+          result = func.apply(context, args);
+          if (!timeout) context = args = null;
+        }
+      }
+    };
+
+    return function() {
+      context = this;
+      args = arguments;
+      timestamp = _.now();
+      var callNow = immediate && !timeout;
+      if (!timeout) timeout = setTimeout(later, wait);
+      if (callNow) {
+        result = func.apply(context, args);
+        context = args = null;
+      }
+
+      return result;
+    };
+  };
+
+  // Returns the first function passed as an argument to the second,
+  // allowing you to adjust arguments, run code before and after, and
+  // conditionally execute the original function.
+  _.wrap = function(func, wrapper) {
+    return _.partial(wrapper, func);
+  };
+
+  // Returns a negated version of the passed-in predicate.
+  _.negate = function(predicate) {
+    return function() {
+      return !predicate.apply(this, arguments);
+    };
+  };
+
+  // Returns a function that is the composition of a list of functions, each
+  // consuming the return value of the function that follows.
+  _.compose = function() {
+    var args = arguments;
+    var start = args.length - 1;
+    return function() {
+      var i = start;
+      var result = args[start].apply(this, arguments);
+      while (i--) result = args[i].call(this, result);
+      return result;
+    };
+  };
+
+  // Returns a function that will only be executed on and after the Nth call.
+  _.after = function(times, func) {
+    return function() {
+      if (--times < 1) {
+        return func.apply(this, arguments);
+      }
+    };
+  };
+
+  // Returns a function that will only be executed up to (but not including) the Nth call.
+  _.before = function(times, func) {
+    var memo;
+    return function() {
+      if (--times > 0) {
+        memo = func.apply(this, arguments);
+      }
+      if (times <= 1) func = null;
+      return memo;
+    };
+  };
+
+  // Returns a function that will be executed at most one time, no matter how
+  // often you call it. Useful for lazy initialization.
+  _.once = _.partial(_.before, 2);
+
+  // Object Functions
+  // ----------------
+
+  // Keys in IE < 9 that won't be iterated by `for key in ...` and thus missed.
+  var hasEnumBug = !{toString: null}.propertyIsEnumerable('toString');
+  var nonEnumerableProps = ['valueOf', 'isPrototypeOf', 'toString',
+                      'propertyIsEnumerable', 'hasOwnProperty', 'toLocaleString'];
+
+  function collectNonEnumProps(obj, keys) {
+    var nonEnumIdx = nonEnumerableProps.length;
+    var constructor = obj.constructor;
+    var proto = (_.isFunction(constructor) && constructor.prototype) || ObjProto;
+
+    // Constructor is a special case.
+    var prop = 'constructor';
+    if (_.has(obj, prop) && !_.contains(keys, prop)) keys.push(prop);
+
+    while (nonEnumIdx--) {
+      prop = nonEnumerableProps[nonEnumIdx];
+      if (prop in obj && obj[prop] !== proto[prop] && !_.contains(keys, prop)) {
+        keys.push(prop);
+      }
+    }
+  }
+
+  // Retrieve the names of an object's own properties.
+  // Delegates to **ECMAScript 5**'s native `Object.keys`
+  _.keys = function(obj) {
+    if (!_.isObject(obj)) return [];
+    if (nativeKeys) return nativeKeys(obj);
+    var keys = [];
+    for (var key in obj) if (_.has(obj, key)) keys.push(key);
+    // Ahem, IE < 9.
+    if (hasEnumBug) collectNonEnumProps(obj, keys);
+    return keys;
+  };
+
+  // Retrieve all the property names of an object.
+  _.allKeys = function(obj) {
+    if (!_.isObject(obj)) return [];
+    var keys = [];
+    for (var key in obj) keys.push(key);
+    // Ahem, IE < 9.
+    if (hasEnumBug) collectNonEnumProps(obj, keys);
+    return keys;
+  };
+
+  // Retrieve the values of an object's properties.
+  _.values = function(obj) {
+    var keys = _.keys(obj);
+    var length = keys.length;
+    var values = Array(length);
+    for (var i = 0; i < length; i++) {
+      values[i] = obj[keys[i]];
+    }
+    return values;
+  };
+
+  // Returns the results of applying the iteratee to each element of the object
+  // In contrast to _.map it returns an object
+  _.mapObject = function(obj, iteratee, context) {
+    iteratee = cb(iteratee, context);
+    var keys =  _.keys(obj),
+          length = keys.length,
+          results = {},
+          currentKey;
+      for (var index = 0; index < length; index++) {
+        currentKey = keys[index];
+        results[currentKey] = iteratee(obj[currentKey], currentKey, obj);
+      }
+      return results;
+  };
+
+  // Convert an object into a list of `[key, value]` pairs.
+  _.pairs = function(obj) {
+    var keys = _.keys(obj);
+    var length = keys.length;
+    var pairs = Array(length);
+    for (var i = 0; i < length; i++) {
+      pairs[i] = [keys[i], obj[keys[i]]];
+    }
+    return pairs;
+  };
+
+  // Invert the keys and values of an object. The values must be serializable.
+  _.invert = function(obj) {
+    var result = {};
+    var keys = _.keys(obj);
+    for (var i = 0, length = keys.length; i < length; i++) {
+      result[obj[keys[i]]] = keys[i];
+    }
+    return result;
+  };
+
+  // Return a sorted list of the function names available on the object.
+  // Aliased as `methods`
+  _.functions = _.methods = function(obj) {
+    var names = [];
+    for (var key in obj) {
+      if (_.isFunction(obj[key])) names.push(key);
+    }
+    return names.sort();
+  };
+
+  // Extend a given object with all the properties in passed-in object(s).
+  _.extend = createAssigner(_.allKeys);
+
+  // Assigns a given object with all the own properties in the passed-in object(s)
+  // (https://developer.mozilla.org/docs/Web/JavaScript/Reference/Global_Objects/Object/assign)
+  _.extendOwn = _.assign = createAssigner(_.keys);
+
+  // Returns the first key on an object that passes a predicate test
+  _.findKey = function(obj, predicate, context) {
+    predicate = cb(predicate, context);
+    var keys = _.keys(obj), key;
+    for (var i = 0, length = keys.length; i < length; i++) {
+      key = keys[i];
+      if (predicate(obj[key], key, obj)) return key;
+    }
+  };
+
+  // Return a copy of the object only containing the whitelisted properties.
+  _.pick = function(object, oiteratee, context) {
+    var result = {}, obj = object, iteratee, keys;
+    if (obj == null) return result;
+    if (_.isFunction(oiteratee)) {
+      keys = _.allKeys(obj);
+      iteratee = optimizeCb(oiteratee, context);
+    } else {
+      keys = flatten(arguments, false, false, 1);
+      iteratee = function(value, key, obj) { return key in obj; };
+      obj = Object(obj);
+    }
+    for (var i = 0, length = keys.length; i < length; i++) {
+      var key = keys[i];
+      var value = obj[key];
+      if (iteratee(value, key, obj)) result[key] = value;
+    }
+    return result;
+  };
+
+   // Return a copy of the object without the blacklisted properties.
+  _.omit = function(obj, iteratee, context) {
+    if (_.isFunction(iteratee)) {
+      iteratee = _.negate(iteratee);
+    } else {
+      var keys = _.map(flatten(arguments, false, false, 1), String);
+      iteratee = function(value, key) {
+        return !_.contains(keys, key);
+      };
+    }
+    return _.pick(obj, iteratee, context);
+  };
+
+  // Fill in a given object with default properties.
+  _.defaults = createAssigner(_.allKeys, true);
+
+  // Creates an object that inherits from the given prototype object.
+  // If additional properties are provided then they will be added to the
+  // created object.
+  _.create = function(prototype, props) {
+    var result = baseCreate(prototype);
+    if (props) _.extendOwn(result, props);
+    return result;
+  };
+
+  // Create a (shallow-cloned) duplicate of an object.
+  _.clone = function(obj) {
+    if (!_.isObject(obj)) return obj;
+    return _.isArray(obj) ? obj.slice() : _.extend({}, obj);
+  };
+
+  // Invokes interceptor with the obj, and then returns obj.
+  // The primary purpose of this method is to "tap into" a method chain, in
+  // order to perform operations on intermediate results within the chain.
+  _.tap = function(obj, interceptor) {
+    interceptor(obj);
+    return obj;
+  };
+
+  // Returns whether an object has a given set of `key:value` pairs.
+  _.isMatch = function(object, attrs) {
+    var keys = _.keys(attrs), length = keys.length;
+    if (object == null) return !length;
+    var obj = Object(object);
+    for (var i = 0; i < length; i++) {
+      var key = keys[i];
+      if (attrs[key] !== obj[key] || !(key in obj)) return false;
+    }
+    return true;
+  };
+
+
+  // Internal recursive comparison function for `isEqual`.
+  var eq = function(a, b, aStack, bStack) {
+    // Identical objects are equal. `0 === -0`, but they aren't identical.
+    // See the [Harmony `egal` proposal](http://wiki.ecmascript.org/doku.php?id=harmony:egal).
+    if (a === b) return a !== 0 || 1 / a === 1 / b;
+    // A strict comparison is necessary because `null == undefined`.
+    if (a == null || b == null) return a === b;
+    // Unwrap any wrapped objects.
+    if (a instanceof _) a = a._wrapped;
+    if (b instanceof _) b = b._wrapped;
+    // Compare `[[Class]]` names.
+    var className = toString.call(a);
+    if (className !== toString.call(b)) return false;
+    switch (className) {
+      // Strings, numbers, regular expressions, dates, and booleans are compared by value.
+      case '[object RegExp]':
+      // RegExps are coerced to strings for comparison (Note: '' + /a/i === '/a/i')
+      case '[object String]':
+        // Primitives and their corresponding object wrappers are equivalent; thus, `"5"` is
+        // equivalent to `new String("5")`.
+        return '' + a === '' + b;
+      case '[object Number]':
+        // `NaN`s are equivalent, but non-reflexive.
+        // Object(NaN) is equivalent to NaN
+        if (+a !== +a) return +b !== +b;
+        // An `egal` comparison is performed for other numeric values.
+        return +a === 0 ? 1 / +a === 1 / b : +a === +b;
+      case '[object Date]':
+      case '[object Boolean]':
+        // Coerce dates and booleans to numeric primitive values. Dates are compared by their
+        // millisecond representations. Note that invalid dates with millisecond representations
+        // of `NaN` are not equivalent.
+        return +a === +b;
+    }
+
+    var areArrays = className === '[object Array]';
+    if (!areArrays) {
+      if (typeof a != 'object' || typeof b != 'object') return false;
+
+      // Objects with different constructors are not equivalent, but `Object`s or `Array`s
+      // from different frames are.
+      var aCtor = a.constructor, bCtor = b.constructor;
+      if (aCtor !== bCtor && !(_.isFunction(aCtor) && aCtor instanceof aCtor &&
+                               _.isFunction(bCtor) && bCtor instanceof bCtor)
+                          && ('constructor' in a && 'constructor' in b)) {
+        return false;
+      }
+    }
+    // Assume equality for cyclic structures. The algorithm for detecting cyclic
+    // structures is adapted from ES 5.1 section 15.12.3, abstract operation `JO`.
+
+    // Initializing stack of traversed objects.
+    // It's done here since we only need them for objects and arrays comparison.
+    aStack = aStack || [];
+    bStack = bStack || [];
+    var length = aStack.length;
+    while (length--) {
+      // Linear search. Performance is inversely proportional to the number of
+      // unique nested structures.
+      if (aStack[length] === a) return bStack[length] === b;
+    }
+
+    // Add the first object to the stack of traversed objects.
+    aStack.push(a);
+    bStack.push(b);
+
+    // Recursively compare objects and arrays.
+    if (areArrays) {
+      // Compare array lengths to determine if a deep comparison is necessary.
+      length = a.length;
+      if (length !== b.length) return false;
+      // Deep compare the contents, ignoring non-numeric properties.
+      while (length--) {
+        if (!eq(a[length], b[length], aStack, bStack)) return false;
+      }
+    } else {
+      // Deep compare objects.
+      var keys = _.keys(a), key;
+      length = keys.length;
+      // Ensure that both objects contain the same number of properties before comparing deep equality.
+      if (_.keys(b).length !== length) return false;
+      while (length--) {
+        // Deep compare each member
+        key = keys[length];
+        if (!(_.has(b, key) && eq(a[key], b[key], aStack, bStack))) return false;
+      }
+    }
+    // Remove the first object from the stack of traversed objects.
+    aStack.pop();
+    bStack.pop();
+    return true;
+  };
+
+  // Perform a deep comparison to check if two objects are equal.
+  _.isEqual = function(a, b) {
+    return eq(a, b);
+  };
+
+  // Is a given array, string, or object empty?
+  // An "empty" object has no enumerable own-properties.
+  _.isEmpty = function(obj) {
+    if (obj == null) return true;
+    if (isArrayLike(obj) && (_.isArray(obj) || _.isString(obj) || _.isArguments(obj))) return obj.length === 0;
+    return _.keys(obj).length === 0;
+  };
+
+  // Is a given value a DOM element?
+  _.isElement = function(obj) {
+    return !!(obj && obj.nodeType === 1);
+  };
+
+  // Is a given value an array?
+  // Delegates to ECMA5's native Array.isArray
+  _.isArray = nativeIsArray || function(obj) {
+    return toString.call(obj) === '[object Array]';
+  };
+
+  // Is a given variable an object?
+  _.isObject = function(obj) {
+    var type = typeof obj;
+    return type === 'function' || type === 'object' && !!obj;
+  };
+
+  // Add some isType methods: isArguments, isFunction, isString, isNumber, isDate, isRegExp, isError.
+  _.each(['Arguments', 'Function', 'String', 'Number', 'Date', 'RegExp', 'Error'], function(name) {
+    _['is' + name] = function(obj) {
+      return toString.call(obj) === '[object ' + name + ']';
+    };
+  });
+
+  // Define a fallback version of the method in browsers (ahem, IE < 9), where
+  // there isn't any inspectable "Arguments" type.
+  if (!_.isArguments(arguments)) {
+    _.isArguments = function(obj) {
+      return _.has(obj, 'callee');
+    };
+  }
+
+  // Optimize `isFunction` if appropriate. Work around some typeof bugs in old v8,
+  // IE 11 (#1621), and in Safari 8 (#1929).
+  if (typeof /./ != 'function' && typeof Int8Array != 'object') {
+    _.isFunction = function(obj) {
+      return typeof obj == 'function' || false;
+    };
+  }
+
+  // Is a given object a finite number?
+  _.isFinite = function(obj) {
+    return isFinite(obj) && !isNaN(parseFloat(obj));
+  };
+
+  // Is the given value `NaN`? (NaN is the only number which does not equal itself).
+  _.isNaN = function(obj) {
+    return _.isNumber(obj) && obj !== +obj;
+  };
+
+  // Is a given value a boolean?
+  _.isBoolean = function(obj) {
+    return obj === true || obj === false || toString.call(obj) === '[object Boolean]';
+  };
+
+  // Is a given value equal to null?
+  _.isNull = function(obj) {
+    return obj === null;
+  };
+
+  // Is a given variable undefined?
+  _.isUndefined = function(obj) {
+    return obj === void 0;
+  };
+
+  // Shortcut function for checking if an object has a given property directly
+  // on itself (in other words, not on a prototype).
+  _.has = function(obj, key) {
+    return obj != null && hasOwnProperty.call(obj, key);
+  };
+
+  // Utility Functions
+  // -----------------
+
+  // Run Underscore.js in *noConflict* mode, returning the `_` variable to its
+  // previous owner. Returns a reference to the Underscore object.
+  _.noConflict = function() {
+    root._ = previousUnderscore;
+    return this;
+  };
+
+  // Keep the identity function around for default iteratees.
+  _.identity = function(value) {
+    return value;
+  };
+
+  // Predicate-generating functions. Often useful outside of Underscore.
+  _.constant = function(value) {
+    return function() {
+      return value;
+    };
+  };
+
+  _.noop = function(){};
+
+  _.property = property;
+
+  // Generates a function for a given object that returns a given property.
+  _.propertyOf = function(obj) {
+    return obj == null ? function(){} : function(key) {
+      return obj[key];
+    };
+  };
+
+  // Returns a predicate for checking whether an object has a given set of
+  // `key:value` pairs.
+  _.matcher = _.matches = function(attrs) {
+    attrs = _.extendOwn({}, attrs);
+    return function(obj) {
+      return _.isMatch(obj, attrs);
+    };
+  };
+
+  // Run a function **n** times.
+  _.times = function(n, iteratee, context) {
+    var accum = Array(Math.max(0, n));
+    iteratee = optimizeCb(iteratee, context, 1);
+    for (var i = 0; i < n; i++) accum[i] = iteratee(i);
+    return accum;
+  };
+
+  // Return a random integer between min and max (inclusive).
+  _.random = function(min, max) {
+    if (max == null) {
+      max = min;
+      min = 0;
+    }
+    return min + Math.floor(Math.random() * (max - min + 1));
+  };
+
+  // A (possibly faster) way to get the current timestamp as an integer.
+  _.now = Date.now || function() {
+    return new Date().getTime();
+  };
+
+   // List of HTML entities for escaping.
+  var escapeMap = {
+    '&': '&amp;',
+    '<': '&lt;',
+    '>': '&gt;',
+    '"': '&quot;',
+    "'": '&#x27;',
+    '`': '&#x60;'
+  };
+  var unescapeMap = _.invert(escapeMap);
+
+  // Functions for escaping and unescaping strings to/from HTML interpolation.
+  var createEscaper = function(map) {
+    var escaper = function(match) {
+      return map[match];
+    };
+    // Regexes for identifying a key that needs to be escaped
+    var source = '(?:' + _.keys(map).join('|') + ')';
+    var testRegexp = RegExp(source);
+    var replaceRegexp = RegExp(source, 'g');
+    return function(string) {
+      string = string == null ? '' : '' + string;
+      return testRegexp.test(string) ? string.replace(replaceRegexp, escaper) : string;
+    };
+  };
+  _.escape = createEscaper(escapeMap);
+  _.unescape = createEscaper(unescapeMap);
+
+  // If the value of the named `property` is a function then invoke it with the
+  // `object` as context; otherwise, return it.
+  _.result = function(object, property, fallback) {
+    var value = object == null ? void 0 : object[property];
+    if (value === void 0) {
+      value = fallback;
+    }
+    return _.isFunction(value) ? value.call(object) : value;
+  };
+
+  // Generate a unique integer id (unique within the entire client session).
+  // Useful for temporary DOM ids.
+  var idCounter = 0;
+  _.uniqueId = function(prefix) {
+    var id = ++idCounter + '';
+    return prefix ? prefix + id : id;
+  };
+
+  // By default, Underscore uses ERB-style template delimiters, change the
+  // following template settings to use alternative delimiters.
+  _.templateSettings = {
+    evaluate    : /<%([\s\S]+?)%>/g,
+    interpolate : /<%=([\s\S]+?)%>/g,
+    escape      : /<%-([\s\S]+?)%>/g
+  };
+
+  // When customizing `templateSettings`, if you don't want to define an
+  // interpolation, evaluation or escaping regex, we need one that is
+  // guaranteed not to match.
+  var noMatch = /(.)^/;
+
+  // Certain characters need to be escaped so that they can be put into a
+  // string literal.
+  var escapes = {
+    "'":      "'",
+    '\\':     '\\',
+    '\r':     'r',
+    '\n':     'n',
+    '\u2028': 'u2028',
+    '\u2029': 'u2029'
+  };
+
+  var escaper = /\\|'|\r|\n|\u2028|\u2029/g;
+
+  var escapeChar = function(match) {
+    return '\\' + escapes[match];
+  };
+
+  // JavaScript micro-templating, similar to John Resig's implementation.
+  // Underscore templating handles arbitrary delimiters, preserves whitespace,
+  // and correctly escapes quotes within interpolated code.
+  // NB: `oldSettings` only exists for backwards compatibility.
+  _.template = function(text, settings, oldSettings) {
+    if (!settings && oldSettings) settings = oldSettings;
+    settings = _.defaults({}, settings, _.templateSettings);
+
+    // Combine delimiters into one regular expression via alternation.
+    var matcher = RegExp([
+      (settings.escape || noMatch).source,
+      (settings.interpolate || noMatch).source,
+      (settings.evaluate || noMatch).source
+    ].join('|') + '|$', 'g');
+
+    // Compile the template source, escaping string literals appropriately.
+    var index = 0;
+    var source = "__p+='";
+    text.replace(matcher, function(match, escape, interpolate, evaluate, offset) {
+      source += text.slice(index, offset).replace(escaper, escapeChar);
+      index = offset + match.length;
+
+      if (escape) {
+        source += "'+\n((__t=(" + escape + "))==null?'':_.escape(__t))+\n'";
+      } else if (interpolate) {
+        source += "'+\n((__t=(" + interpolate + "))==null?'':__t)+\n'";
+      } else if (evaluate) {
+        source += "';\n" + evaluate + "\n__p+='";
+      }
+
+      // Adobe VMs need the match returned to produce the correct offest.
+      return match;
+    });
+    source += "';\n";
+
+    // If a variable is not specified, place data values in local scope.
+    if (!settings.variable) source = 'with(obj||{}){\n' + source + '}\n';
+
+    source = "var __t,__p='',__j=Array.prototype.join," +
+      "print=function(){__p+=__j.call(arguments,'');};\n" +
+      source + 'return __p;\n';
+
+    try {
+      var render = new Function(settings.variable || 'obj', '_', source);
+    } catch (e) {
+      e.source = source;
+      throw e;
+    }
+
+    var template = function(data) {
+      return render.call(this, data, _);
+    };
+
+    // Provide the compiled source as a convenience for precompilation.
+    var argument = settings.variable || 'obj';
+    template.source = 'function(' + argument + '){\n' + source + '}';
+
+    return template;
+  };
+
+  // Add a "chain" function. Start chaining a wrapped Underscore object.
+  _.chain = function(obj) {
+    var instance = _(obj);
+    instance._chain = true;
+    return instance;
+  };
+
+  // OOP
+  // ---------------
+  // If Underscore is called as a function, it returns a wrapped object that
+  // can be used OO-style. This wrapper holds altered versions of all the
+  // underscore functions. Wrapped objects may be chained.
+
+  // Helper function to continue chaining intermediate results.
+  var result = function(instance, obj) {
+    return instance._chain ? _(obj).chain() : obj;
+  };
+
+  // Add your own custom functions to the Underscore object.
+  _.mixin = function(obj) {
+    _.each(_.functions(obj), function(name) {
+      var func = _[name] = obj[name];
+      _.prototype[name] = function() {
+        var args = [this._wrapped];
+        push.apply(args, arguments);
+        return result(this, func.apply(_, args));
+      };
+    });
+  };
+
+  // Add all of the Underscore functions to the wrapper object.
+  _.mixin(_);
+
+  // Add all mutator Array functions to the wrapper.
+  _.each(['pop', 'push', 'reverse', 'shift', 'sort', 'splice', 'unshift'], function(name) {
+    var method = ArrayProto[name];
+    _.prototype[name] = function() {
+      var obj = this._wrapped;
+      method.apply(obj, arguments);
+      if ((name === 'shift' || name === 'splice') && obj.length === 0) delete obj[0];
+      return result(this, obj);
+    };
+  });
+
+  // Add all accessor Array functions to the wrapper.
+  _.each(['concat', 'join', 'slice'], function(name) {
+    var method = ArrayProto[name];
+    _.prototype[name] = function() {
+      return result(this, method.apply(this._wrapped, arguments));
+    };
+  });
+
+  // Extracts the result from a wrapped and chained object.
+  _.prototype.value = function() {
+    return this._wrapped;
+  };
+
+  // Provide unwrapping proxy for some methods used in engine operations
+  // such as arithmetic and JSON stringification.
+  _.prototype.valueOf = _.prototype.toJSON = _.prototype.value;
+
+  _.prototype.toString = function() {
+    return '' + this._wrapped;
+  };
+
+  // AMD registration happens at the end for compatibility with AMD loaders
+  // that may not enforce next-turn semantics on modules. Even though general
+  // practice for AMD registration is to be anonymous, underscore registers
+  // as a named module because, like jQuery, it is a base library that is
+  // popular enough to be bundled in a third party lib, but not be part of
+  // an AMD load request. Those cases could generate an error when an
+  // anonymous define() is called outside of a loader request.
+  if (typeof define === 'function' && define.amd) {
+    define('underscore', [], function() {
+      return _;
+    });
+  }
+}.call(this));
+
+},{}],26:[function(require,module,exports){
+arguments[4][19][0].apply(exports,arguments)
+},{"dup":19}],27:[function(require,module,exports){
+module.exports = function isBuffer(arg) {
+  return arg && typeof arg === 'object'
+    && typeof arg.copy === 'function'
+    && typeof arg.fill === 'function'
+    && typeof arg.readUInt8 === 'function';
+}
+},{}],28:[function(require,module,exports){
+(function (process,global){
+// Copyright Joyent, Inc. and other Node contributors.
+//
+// Permission is hereby granted, free of charge, to any person obtaining a
+// copy of this software and associated documentation files (the
+// "Software"), to deal in the Software without restriction, including
+// without limitation the rights to use, copy, modify, merge, publish,
+// distribute, sublicense, and/or sell copies of the Software, and to permit
+// persons to whom the Software is furnished to do so, subject to the
+// following conditions:
+//
+// The above copyright notice and this permission notice shall be included
+// in all copies or substantial portions of the Software.
+//
+// THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS
+// OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
+// MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN
+// NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM,
+// DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR
+// OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE
+// USE OR OTHER DEALINGS IN THE SOFTWARE.
+
+var formatRegExp = /%[sdj%]/g;
+exports.format = function(f) {
+  if (!isString(f)) {
+    var objects = [];
+    for (var i = 0; i < arguments.length; i++) {
+      objects.push(inspect(arguments[i]));
+    }
+    return objects.join(' ');
+  }
+
+  var i = 1;
+  var args = arguments;
+  var len = args.length;
+  var str = String(f).replace(formatRegExp, function(x) {
+    if (x === '%%') return '%';
+    if (i >= len) return x;
+    switch (x) {
+      case '%s': return String(args[i++]);
+      case '%d': return Number(args[i++]);
+      case '%j':
+        try {
+          return JSON.stringify(args[i++]);
+        } catch (_) {
+          return '[Circular]';
+        }
+      default:
+        return x;
+    }
+  });
+  for (var x = args[i]; i < len; x = args[++i]) {
+    if (isNull(x) || !isObject(x)) {
+      str += ' ' + x;
+    } else {
+      str += ' ' + inspect(x);
+    }
+  }
+  return str;
+};
+
+
+// Mark that a method should not be used.
+// Returns a modified function which warns once by default.
+// If --no-deprecation is set, then it is a no-op.
+exports.deprecate = function(fn, msg) {
+  // Allow for deprecating things in the process of starting up.
+  if (isUndefined(global.process)) {
+    return function() {
+      return exports.deprecate(fn, msg).apply(this, arguments);
+    };
+  }
+
+  if (process.noDeprecation === true) {
+    return fn;
+  }
+
+  var warned = false;
+  function deprecated() {
+    if (!warned) {
+      if (process.throwDeprecation) {
+        throw new Error(msg);
+      } else if (process.traceDeprecation) {
+        console.trace(msg);
+      } else {
+        console.error(msg);
+      }
+      warned = true;
+    }
+    return fn.apply(this, arguments);
+  }
+
+  return deprecated;
+};
+
+
+var debugs = {};
+var debugEnviron;
+exports.debuglog = function(set) {
+  if (isUndefined(debugEnviron))
+    debugEnviron = process.env.NODE_DEBUG || '';
+  set = set.toUpperCase();
+  if (!debugs[set]) {
+    if (new RegExp('\\b' + set + '\\b', 'i').test(debugEnviron)) {
+      var pid = process.pid;
+      debugs[set] = function() {
+        var msg = exports.format.apply(exports, arguments);
+        console.error('%s %d: %s', set, pid, msg);
+      };
+    } else {
+      debugs[set] = function() {};
+    }
+  }
+  return debugs[set];
+};
+
+
+/**
+ * Echos the value of a value. Trys to print the value out
+ * in the best way possible given the different types.
+ *
+ * @param {Object} obj The object to print out.
+ * @param {Object} opts Optional options object that alters the output.
+ */
+/* legacy: obj, showHidden, depth, colors*/
+function inspect(obj, opts) {
+  // default options
+  var ctx = {
+    seen: [],
+    stylize: stylizeNoColor
+  };
+  // legacy...
+  if (arguments.length >= 3) ctx.depth = arguments[2];
+  if (arguments.length >= 4) ctx.colors = arguments[3];
+  if (isBoolean(opts)) {
+    // legacy...
+    ctx.showHidden = opts;
+  } else if (opts) {
+    // got an "options" object
+    exports._extend(ctx, opts);
+  }
+  // set default options
+  if (isUndefined(ctx.showHidden)) ctx.showHidden = false;
+  if (isUndefined(ctx.depth)) ctx.depth = 2;
+  if (isUndefined(ctx.colors)) ctx.colors = false;
+  if (isUndefined(ctx.customInspect)) ctx.customInspect = true;
+  if (ctx.colors) ctx.stylize = stylizeWithColor;
+  return formatValue(ctx, obj, ctx.depth);
+}
+exports.inspect = inspect;
+
+
+// http://en.wikipedia.org/wiki/ANSI_escape_code#graphics
+inspect.colors = {
+  'bold' : [1, 22],
+  'italic' : [3, 23],
+  'underline' : [4, 24],
+  'inverse' : [7, 27],
+  'white' : [37, 39],
+  'grey' : [90, 39],
+  'black' : [30, 39],
+  'blue' : [34, 39],
+  'cyan' : [36, 39],
+  'green' : [32, 39],
+  'magenta' : [35, 39],
+  'red' : [31, 39],
+  'yellow' : [33, 39]
+};
+
+// Don't use 'blue' not visible on cmd.exe
+inspect.styles = {
+  'special': 'cyan',
+  'number': 'yellow',
+  'boolean': 'yellow',
+  'undefined': 'grey',
+  'null': 'bold',
+  'string': 'green',
+  'date': 'magenta',
+  // "name": intentionally not styling
+  'regexp': 'red'
+};
+
+
+function stylizeWithColor(str, styleType) {
+  var style = inspect.styles[styleType];
+
+  if (style) {
+    return '\u001b[' + inspect.colors[style][0] + 'm' + str +
+           '\u001b[' + inspect.colors[style][1] + 'm';
+  } else {
+    return str;
+  }
+}
+
+
+function stylizeNoColor(str, styleType) {
+  return str;
+}
+
+
+function arrayToHash(array) {
+  var hash = {};
+
+  array.forEach(function(val, idx) {
+    hash[val] = true;
+  });
+
+  return hash;
+}
+
+
+function formatValue(ctx, value, recurseTimes) {
+  // Provide a hook for user-specified inspect functions.
+  // Check that value is an object with an inspect function on it
+  if (ctx.customInspect &&
+      value &&
+      isFunction(value.inspect) &&
+      // Filter out the util module, it's inspect function is special
+      value.inspect !== exports.inspect &&
+      // Also filter out any prototype objects using the circular check.
+      !(value.constructor && value.constructor.prototype === value)) {
+    var ret = value.inspect(recurseTimes, ctx);
+    if (!isString(ret)) {
+      ret = formatValue(ctx, ret, recurseTimes);
+    }
+    return ret;
+  }
+
+  // Primitive types cannot have properties
+  var primitive = formatPrimitive(ctx, value);
+  if (primitive) {
+    return primitive;
+  }
+
+  // Look up the keys of the object.
+  var keys = Object.keys(value);
+  var visibleKeys = arrayToHash(keys);
+
+  if (ctx.showHidden) {
+    keys = Object.getOwnPropertyNames(value);
+  }
+
+  // IE doesn't make error fields non-enumerable
+  // http://msdn.microsoft.com/en-us/library/ie/dww52sbt(v=vs.94).aspx
+  if (isError(value)
+      && (keys.indexOf('message') >= 0 || keys.indexOf('description') >= 0)) {
+    return formatError(value);
+  }
+
+  // Some type of object without properties can be shortcutted.
+  if (keys.length === 0) {
+    if (isFunction(value)) {
+      var name = value.name ? ': ' + value.name : '';
+      return ctx.stylize('[Function' + name + ']', 'special');
+    }
+    if (isRegExp(value)) {
+      return ctx.stylize(RegExp.prototype.toString.call(value), 'regexp');
+    }
+    if (isDate(value)) {
+      return ctx.stylize(Date.prototype.toString.call(value), 'date');
+    }
+    if (isError(value)) {
+      return formatError(value);
+    }
+  }
+
+  var base = '', array = false, braces = ['{', '}'];
+
+  // Make Array say that they are Array
+  if (isArray(value)) {
+    array = true;
+    braces = ['[', ']'];
+  }
+
+  // Make functions say that they are functions
+  if (isFunction(value)) {
+    var n = value.name ? ': ' + value.name : '';
+    base = ' [Function' + n + ']';
+  }
+
+  // Make RegExps say that they are RegExps
+  if (isRegExp(value)) {
+    base = ' ' + RegExp.prototype.toString.call(value);
+  }
+
+  // Make dates with properties first say the date
+  if (isDate(value)) {
+    base = ' ' + Date.prototype.toUTCString.call(value);
+  }
+
+  // Make error with message first say the error
+  if (isError(value)) {
+    base = ' ' + formatError(value);
+  }
+
+  if (keys.length === 0 && (!array || value.length == 0)) {
+    return braces[0] + base + braces[1];
+  }
+
+  if (recurseTimes < 0) {
+    if (isRegExp(value)) {
+      return ctx.stylize(RegExp.prototype.toString.call(value), 'regexp');
+    } else {
+      return ctx.stylize('[Object]', 'special');
+    }
+  }
+
+  ctx.seen.push(value);
+
+  var output;
+  if (array) {
+    output = formatArray(ctx, value, recurseTimes, visibleKeys, keys);
+  } else {
+    output = keys.map(function(key) {
+      return formatProperty(ctx, value, recurseTimes, visibleKeys, key, array);
+    });
+  }
+
+  ctx.seen.pop();
+
+  return reduceToSingleString(output, base, braces);
+}
+
+
+function formatPrimitive(ctx, value) {
+  if (isUndefined(value))
+    return ctx.stylize('undefined', 'undefined');
+  if (isString(value)) {
+    var simple = '\'' + JSON.stringify(value).replace(/^"|"$/g, '')
+                                             .replace(/'/g, "\\'")
+                                             .replace(/\\"/g, '"') + '\'';
+    return ctx.stylize(simple, 'string');
+  }
+  if (isNumber(value))
+    return ctx.stylize('' + value, 'number');
+  if (isBoolean(value))
+    return ctx.stylize('' + value, 'boolean');
+  // For some reason typeof null is "object", so special case here.
+  if (isNull(value))
+    return ctx.stylize('null', 'null');
+}
+
+
+function formatError(value) {
+  return '[' + Error.prototype.toString.call(value) + ']';
+}
+
+
+function formatArray(ctx, value, recurseTimes, visibleKeys, keys) {
+  var output = [];
+  for (var i = 0, l = value.length; i < l; ++i) {
+    if (hasOwnProperty(value, String(i))) {
+      output.push(formatProperty(ctx, value, recurseTimes, visibleKeys,
+          String(i), true));
+    } else {
+      output.push('');
+    }
+  }
+  keys.forEach(function(key) {
+    if (!key.match(/^\d+$/)) {
+      output.push(formatProperty(ctx, value, recurseTimes, visibleKeys,
+          key, true));
+    }
+  });
+  return output;
+}
+
+
+function formatProperty(ctx, value, recurseTimes, visibleKeys, key, array) {
+  var name, str, desc;
+  desc = Object.getOwnPropertyDescriptor(value, key) || { value: value[key] };
+  if (desc.get) {
+    if (desc.set) {
+      str = ctx.stylize('[Getter/Setter]', 'special');
+    } else {
+      str = ctx.stylize('[Getter]', 'special');
+    }
+  } else {
+    if (desc.set) {
+      str = ctx.stylize('[Setter]', 'special');
+    }
+  }
+  if (!hasOwnProperty(visibleKeys, key)) {
+    name = '[' + key + ']';
+  }
+  if (!str) {
+    if (ctx.seen.indexOf(desc.value) < 0) {
+      if (isNull(recurseTimes)) {
+        str = formatValue(ctx, desc.value, null);
+      } else {
+        str = formatValue(ctx, desc.value, recurseTimes - 1);
+      }
+      if (str.indexOf('\n') > -1) {
+        if (array) {
+          str = str.split('\n').map(function(line) {
+            return '  ' + line;
+          }).join('\n').substr(2);
+        } else {
+          str = '\n' + str.split('\n').map(function(line) {
+            return '   ' + line;
+          }).join('\n');
+        }
+      }
+    } else {
+      str = ctx.stylize('[Circular]', 'special');
+    }
+  }
+  if (isUndefined(name)) {
+    if (array && key.match(/^\d+$/)) {
+      return str;
+    }
+    name = JSON.stringify('' + key);
+    if (name.match(/^"([a-zA-Z_][a-zA-Z_0-9]*)"$/)) {
+      name = name.substr(1, name.length - 2);
+      name = ctx.stylize(name, 'name');
+    } else {
+      name = name.replace(/'/g, "\\'")
+                 .replace(/\\"/g, '"')
+                 .replace(/(^"|"$)/g, "'");
+      name = ctx.stylize(name, 'string');
+    }
+  }
+
+  return name + ': ' + str;
+}
+
+
+function reduceToSingleString(output, base, braces) {
+  var numLinesEst = 0;
+  var length = output.reduce(function(prev, cur) {
+    numLinesEst++;
+    if (cur.indexOf('\n') >= 0) numLinesEst++;
+    return prev + cur.replace(/\u001b\[\d\d?m/g, '').length + 1;
+  }, 0);
+
+  if (length > 60) {
+    return braces[0] +
+           (base === '' ? '' : base + '\n ') +
+           ' ' +
+           output.join(',\n  ') +
+           ' ' +
+           braces[1];
+  }
+
+  return braces[0] + base + ' ' + output.join(', ') + ' ' + braces[1];
+}
+
+
+// NOTE: These type checking functions intentionally don't use `instanceof`
+// because it is fragile and can be easily faked with `Object.create()`.
+function isArray(ar) {
+  return Array.isArray(ar);
+}
+exports.isArray = isArray;
+
+function isBoolean(arg) {
+  return typeof arg === 'boolean';
+}
+exports.isBoolean = isBoolean;
+
+function isNull(arg) {
+  return arg === null;
+}
+exports.isNull = isNull;
+
+function isNullOrUndefined(arg) {
+  return arg == null;
+}
+exports.isNullOrUndefined = isNullOrUndefined;
+
+function isNumber(arg) {
+  return typeof arg === 'number';
+}
+exports.isNumber = isNumber;
+
+function isString(arg) {
+  return typeof arg === 'string';
+}
+exports.isString = isString;
+
+function isSymbol(arg) {
+  return typeof arg === 'symbol';
+}
+exports.isSymbol = isSymbol;
+
+function isUndefined(arg) {
+  return arg === void 0;
+}
+exports.isUndefined = isUndefined;
+
+function isRegExp(re) {
+  return isObject(re) && objectToString(re) === '[object RegExp]';
+}
+exports.isRegExp = isRegExp;
+
+function isObject(arg) {
+  return typeof arg === 'object' && arg !== null;
+}
+exports.isObject = isObject;
+
+function isDate(d) {
+  return isObject(d) && objectToString(d) === '[object Date]';
+}
+exports.isDate = isDate;
+
+function isError(e) {
+  return isObject(e) &&
+      (objectToString(e) === '[object Error]' || e instanceof Error);
+}
+exports.isError = isError;
+
+function isFunction(arg) {
+  return typeof arg === 'function';
+}
+exports.isFunction = isFunction;
+
+function isPrimitive(arg) {
+  return arg === null ||
+         typeof arg === 'boolean' ||
+         typeof arg === 'number' ||
+         typeof arg === 'string' ||
+         typeof arg === 'symbol' ||  // ES6 symbol
+         typeof arg === 'undefined';
+}
+exports.isPrimitive = isPrimitive;
+
+exports.isBuffer = require('./support/isBuffer');
+
+function objectToString(o) {
+  return Object.prototype.toString.call(o);
+}
+
+
+function pad(n) {
+  return n < 10 ? '0' + n.toString(10) : n.toString(10);
+}
+
+
+var months = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep',
+              'Oct', 'Nov', 'Dec'];
+
+// 26 Feb 16:19:34
+function timestamp() {
+  var d = new Date();
+  var time = [pad(d.getHours()),
+              pad(d.getMinutes()),
+              pad(d.getSeconds())].join(':');
+  return [d.getDate(), months[d.getMonth()], time].join(' ');
+}
+
+
+// log is just a thin wrapper to console.log that prepends a timestamp
+exports.log = function() {
+  console.log('%s - %s', timestamp(), exports.format.apply(exports, arguments));
+};
+
+
+/**
+ * Inherit the prototype methods from one constructor into another.
+ *
+ * The Function.prototype.inherits from lang.js rewritten as a standalone
+ * function (not on Function.prototype). NOTE: If this file is to be loaded
+ * during bootstrapping this function needs to be rewritten using some native
+ * functions as prototype setup using normal JavaScript does not work as
+ * expected during bootstrapping (see mirror.js in r114903).
+ *
+ * @param {function} ctor Constructor function which needs to inherit the
+ *     prototype.
+ * @param {function} superCtor Constructor function to inherit prototype from.
+ */
+exports.inherits = require('inherits');
+
+exports._extend = function(origin, add) {
+  // Don't do anything if add isn't an object
+  if (!add || !isObject(add)) return origin;
+
+  var keys = Object.keys(add);
+  var i = keys.length;
+  while (i--) {
+    origin[keys[i]] = add[keys[i]];
+  }
+  return origin;
+};
+
+function hasOwnProperty(obj, prop) {
+  return Object.prototype.hasOwnProperty.call(obj, prop);
+}
+
+}).call(this,require('_process'),typeof global !== "undefined" ? global : typeof self !== "undefined" ? self : typeof window !== "undefined" ? window : {})
+},{"./support/isBuffer":27,"_process":24,"inherits":26}],29:[function(require,module,exports){
+// Returns a wrapper function that returns a wrapped callback
+// The wrapper function should do some stuff, and return a
+// presumably different callback function.
+// This makes sure that own properties are retained, so that
+// decorations and such are not lost along the way.
+module.exports = wrappy
+function wrappy (fn, cb) {
+  if (fn && cb) return wrappy(fn)(cb)
+
+  if (typeof fn !== 'function')
+    throw new TypeError('need wrapper function')
+
+  Object.keys(fn).forEach(function (k) {
+    wrapper[k] = fn[k]
+  })
+
+  return wrapper
+
+  function wrapper() {
+    var args = new Array(arguments.length)
+    for (var i = 0; i < args.length; i++) {
+      args[i] = arguments[i]
+    }
+    var ret = fn.apply(this, args)
+    var cb = args[args.length-1]
+    if (typeof ret === 'function' && ret !== cb) {
+      Object.keys(cb).forEach(function (k) {
+        ret[k] = cb[k]
+      })
+    }
+    return ret
+  }
+}
+
+},{}]},{},[7])(7)
+});
\ No newline at end of file
diff --git a/assets/javascripts/workers/search.b8dbb3d2.min.js b/assets/javascripts/workers/search.b8dbb3d2.min.js
new file mode 100644
index 000000000..c8a1ec8d8
--- /dev/null
+++ b/assets/javascripts/workers/search.b8dbb3d2.min.js
@@ -0,0 +1,42 @@
+"use strict";(()=>{var xe=Object.create;var U=Object.defineProperty,ve=Object.defineProperties,Se=Object.getOwnPropertyDescriptor,Te=Object.getOwnPropertyDescriptors,Qe=Object.getOwnPropertyNames,Y=Object.getOwnPropertySymbols,Ee=Object.getPrototypeOf,X=Object.prototype.hasOwnProperty,be=Object.prototype.propertyIsEnumerable;var Z=Math.pow,J=(t,e,r)=>e in t?U(t,e,{enumerable:!0,configurable:!0,writable:!0,value:r}):t[e]=r,A=(t,e)=>{for(var r in e||(e={}))X.call(e,r)&&J(t,r,e[r]);if(Y)for(var r of Y(e))be.call(e,r)&&J(t,r,e[r]);return t},G=(t,e)=>ve(t,Te(e));var Le=(t,e)=>()=>(e||t((e={exports:{}}).exports,e),e.exports);var we=(t,e,r,n)=>{if(e&&typeof e=="object"||typeof e=="function")for(let i of Qe(e))!X.call(t,i)&&i!==r&&U(t,i,{get:()=>e[i],enumerable:!(n=Se(e,i))||n.enumerable});return t};var Pe=(t,e,r)=>(r=t!=null?xe(Ee(t)):{},we(e||!t||!t.__esModule?U(r,"default",{value:t,enumerable:!0}):r,t));var B=(t,e,r)=>new Promise((n,i)=>{var s=u=>{try{a(r.next(u))}catch(c){i(c)}},o=u=>{try{a(r.throw(u))}catch(c){i(c)}},a=u=>u.done?n(u.value):Promise.resolve(u.value).then(s,o);a((r=r.apply(t,e)).next())});var te=Le((K,ee)=>{/**
+ * lunr - http://lunrjs.com - A bit like Solr, but much smaller and not as bright - 2.3.9
+ * Copyright (C) 2020 Oliver Nightingale
+ * @license MIT
+ */(function(){var t=function(e){var r=new t.Builder;return r.pipeline.add(t.trimmer,t.stopWordFilter,t.stemmer),r.searchPipeline.add(t.stemmer),e.call(r,r),r.build()};t.version="2.3.9";/*!
+ * lunr.utils
+ * Copyright (C) 2020 Oliver Nightingale
+ */t.utils={},t.utils.warn=function(e){return function(r){e.console&&console.warn&&console.warn(r)}}(this),t.utils.asString=function(e){return e==null?"":e.toString()},t.utils.clone=function(e){if(e==null)return e;for(var r=Object.create(null),n=Object.keys(e),i=0;i<n.length;i++){var s=n[i],o=e[s];if(Array.isArray(o)){r[s]=o.slice();continue}if(typeof o=="string"||typeof o=="number"||typeof o=="boolean"){r[s]=o;continue}throw new TypeError("clone is not deep and does not support nested objects")}return r},t.FieldRef=function(e,r,n){this.docRef=e,this.fieldName=r,this._stringValue=n},t.FieldRef.joiner="/",t.FieldRef.fromString=function(e){var r=e.indexOf(t.FieldRef.joiner);if(r===-1)throw"malformed field ref string";var n=e.slice(0,r),i=e.slice(r+1);return new t.FieldRef(i,n,e)},t.FieldRef.prototype.toString=function(){return this._stringValue==null&&(this._stringValue=this.fieldName+t.FieldRef.joiner+this.docRef),this._stringValue};/*!
+ * lunr.Set
+ * Copyright (C) 2020 Oliver Nightingale
+ */t.Set=function(e){if(this.elements=Object.create(null),e){this.length=e.length;for(var r=0;r<this.length;r++)this.elements[e[r]]=!0}else this.length=0},t.Set.complete={intersect:function(e){return e},union:function(){return this},contains:function(){return!0}},t.Set.empty={intersect:function(){return this},union:function(e){return e},contains:function(){return!1}},t.Set.prototype.contains=function(e){return!!this.elements[e]},t.Set.prototype.intersect=function(e){var r,n,i,s=[];if(e===t.Set.complete)return this;if(e===t.Set.empty)return e;this.length<e.length?(r=this,n=e):(r=e,n=this),i=Object.keys(r.elements);for(var o=0;o<i.length;o++){var a=i[o];a in n.elements&&s.push(a)}return new t.Set(s)},t.Set.prototype.union=function(e){return e===t.Set.complete?t.Set.complete:e===t.Set.empty?this:new t.Set(Object.keys(this.elements).concat(Object.keys(e.elements)))},t.idf=function(e,r){var n=0;for(var i in e)i!="_index"&&(n+=Object.keys(e[i]).length);var s=(r-n+.5)/(n+.5);return Math.log(1+Math.abs(s))},t.Token=function(e,r){this.str=e||"",this.metadata=r||{}},t.Token.prototype.toString=function(){return this.str},t.Token.prototype.update=function(e){return this.str=e(this.str,this.metadata),this},t.Token.prototype.clone=function(e){return e=e||function(r){return r},new t.Token(e(this.str,this.metadata),this.metadata)};/*!
+ * lunr.tokenizer
+ * Copyright (C) 2020 Oliver Nightingale
+ */t.tokenizer=function(e,r){if(e==null||e==null)return[];if(Array.isArray(e))return e.map(function(g){return new t.Token(t.utils.asString(g).toLowerCase(),t.utils.clone(r))});for(var n=e.toString().toLowerCase(),i=n.length,s=[],o=0,a=0;o<=i;o++){var u=n.charAt(o),c=o-a;if(u.match(t.tokenizer.separator)||o==i){if(c>0){var f=t.utils.clone(r)||{};f.position=[a,c],f.index=s.length,s.push(new t.Token(n.slice(a,o),f))}a=o+1}}return s},t.tokenizer.separator=/[\s\-]+/;/*!
+ * lunr.Pipeline
+ * Copyright (C) 2020 Oliver Nightingale
+ */t.Pipeline=function(){this._stack=[]},t.Pipeline.registeredFunctions=Object.create(null),t.Pipeline.registerFunction=function(e,r){r in this.registeredFunctions&&t.utils.warn("Overwriting existing registered function: "+r),e.label=r,t.Pipeline.registeredFunctions[e.label]=e},t.Pipeline.warnIfFunctionNotRegistered=function(e){var r=e.label&&e.label in this.registeredFunctions;r||t.utils.warn(`Function is not registered with pipeline. This may cause problems when serialising the index.
+`,e)},t.Pipeline.load=function(e){var r=new t.Pipeline;return e.forEach(function(n){var i=t.Pipeline.registeredFunctions[n];if(i)r.add(i);else throw new Error("Cannot load unregistered function: "+n)}),r},t.Pipeline.prototype.add=function(){var e=Array.prototype.slice.call(arguments);e.forEach(function(r){t.Pipeline.warnIfFunctionNotRegistered(r),this._stack.push(r)},this)},t.Pipeline.prototype.after=function(e,r){t.Pipeline.warnIfFunctionNotRegistered(r);var n=this._stack.indexOf(e);if(n==-1)throw new Error("Cannot find existingFn");n=n+1,this._stack.splice(n,0,r)},t.Pipeline.prototype.before=function(e,r){t.Pipeline.warnIfFunctionNotRegistered(r);var n=this._stack.indexOf(e);if(n==-1)throw new Error("Cannot find existingFn");this._stack.splice(n,0,r)},t.Pipeline.prototype.remove=function(e){var r=this._stack.indexOf(e);r!=-1&&this._stack.splice(r,1)},t.Pipeline.prototype.run=function(e){for(var r=this._stack.length,n=0;n<r;n++){for(var i=this._stack[n],s=[],o=0;o<e.length;o++){var a=i(e[o],o,e);if(!(a==null||a===""))if(Array.isArray(a))for(var u=0;u<a.length;u++)s.push(a[u]);else s.push(a)}e=s}return e},t.Pipeline.prototype.runString=function(e,r){var n=new t.Token(e,r);return this.run([n]).map(function(i){return i.toString()})},t.Pipeline.prototype.reset=function(){this._stack=[]},t.Pipeline.prototype.toJSON=function(){return this._stack.map(function(e){return t.Pipeline.warnIfFunctionNotRegistered(e),e.label})};/*!
+ * lunr.Vector
+ * Copyright (C) 2020 Oliver Nightingale
+ */t.Vector=function(e){this._magnitude=0,this.elements=e||[]},t.Vector.prototype.positionForIndex=function(e){if(this.elements.length==0)return 0;for(var r=0,n=this.elements.length/2,i=n-r,s=Math.floor(i/2),o=this.elements[s*2];i>1&&(o<e&&(r=s),o>e&&(n=s),o!=e);)i=n-r,s=r+Math.floor(i/2),o=this.elements[s*2];if(o==e||o>e)return s*2;if(o<e)return(s+1)*2},t.Vector.prototype.insert=function(e,r){this.upsert(e,r,function(){throw"duplicate index"})},t.Vector.prototype.upsert=function(e,r,n){this._magnitude=0;var i=this.positionForIndex(e);this.elements[i]==e?this.elements[i+1]=n(this.elements[i+1],r):this.elements.splice(i,0,e,r)},t.Vector.prototype.magnitude=function(){if(this._magnitude)return this._magnitude;for(var e=0,r=this.elements.length,n=1;n<r;n+=2){var i=this.elements[n];e+=i*i}return this._magnitude=Math.sqrt(e)},t.Vector.prototype.dot=function(e){for(var r=0,n=this.elements,i=e.elements,s=n.length,o=i.length,a=0,u=0,c=0,f=0;c<s&&f<o;)a=n[c],u=i[f],a<u?c+=2:a>u?f+=2:a==u&&(r+=n[c+1]*i[f+1],c+=2,f+=2);return r},t.Vector.prototype.similarity=function(e){return this.dot(e)/this.magnitude()||0},t.Vector.prototype.toArray=function(){for(var e=new Array(this.elements.length/2),r=1,n=0;r<this.elements.length;r+=2,n++)e[n]=this.elements[r];return e},t.Vector.prototype.toJSON=function(){return this.elements};/*!
+ * lunr.stemmer
+ * Copyright (C) 2020 Oliver Nightingale
+ * Includes code from - http://tartarus.org/~martin/PorterStemmer/js.txt
+ */t.stemmer=function(){var e={ational:"ate",tional:"tion",enci:"ence",anci:"ance",izer:"ize",bli:"ble",alli:"al",entli:"ent",eli:"e",ousli:"ous",ization:"ize",ation:"ate",ator:"ate",alism:"al",iveness:"ive",fulness:"ful",ousness:"ous",aliti:"al",iviti:"ive",biliti:"ble",logi:"log"},r={icate:"ic",ative:"",alize:"al",iciti:"ic",ical:"ic",ful:"",ness:""},n="[^aeiou]",i="[aeiouy]",s=n+"[^aeiouy]*",o=i+"[aeiou]*",a="^("+s+")?"+o+s,u="^("+s+")?"+o+s+"("+o+")?$",c="^("+s+")?"+o+s+o+s,f="^("+s+")?"+i,g=new RegExp(a),l=new RegExp(c),m=new RegExp(u),x=new RegExp(f),v=/^(.+?)(ss|i)es$/,d=/^(.+?)([^s])s$/,y=/^(.+?)eed$/,b=/^(.+?)(ed|ing)$/,E=/.$/,w=/(at|bl|iz)$/,R=new RegExp("([^aeiouylsz])\\1$"),j=new RegExp("^"+s+i+"[^aeiouwxy]$"),_=/^(.+?[^aeiou])y$/,D=/^(.+?)(ational|tional|enci|anci|izer|bli|alli|entli|eli|ousli|ization|ation|ator|alism|iveness|fulness|ousness|aliti|iviti|biliti|logi)$/,N=/^(.+?)(icate|ative|alize|iciti|ical|ful|ness)$/,C=/^(.+?)(al|ance|ence|er|ic|able|ible|ant|ement|ment|ent|ou|ism|ate|iti|ous|ive|ize)$/,V=/^(.+?)(s|t)(ion)$/,P=/^(.+?)e$/,z=/ll$/,$=new RegExp("^"+s+i+"[^aeiouwxy]$"),M=function(h){var S,k,L,p,T,O,F;if(h.length<3)return h;if(L=h.substr(0,1),L=="y"&&(h=L.toUpperCase()+h.substr(1)),p=v,T=d,p.test(h)?h=h.replace(p,"$1$2"):T.test(h)&&(h=h.replace(T,"$1$2")),p=y,T=b,p.test(h)){var Q=p.exec(h);p=g,p.test(Q[1])&&(p=E,h=h.replace(p,""))}else if(T.test(h)){var Q=T.exec(h);S=Q[1],T=x,T.test(S)&&(h=S,T=w,O=R,F=j,T.test(h)?h=h+"e":O.test(h)?(p=E,h=h.replace(p,"")):F.test(h)&&(h=h+"e"))}if(p=_,p.test(h)){var Q=p.exec(h);S=Q[1],h=S+"i"}if(p=D,p.test(h)){var Q=p.exec(h);S=Q[1],k=Q[2],p=g,p.test(S)&&(h=S+e[k])}if(p=N,p.test(h)){var Q=p.exec(h);S=Q[1],k=Q[2],p=g,p.test(S)&&(h=S+r[k])}if(p=C,T=V,p.test(h)){var Q=p.exec(h);S=Q[1],p=l,p.test(S)&&(h=S)}else if(T.test(h)){var Q=T.exec(h);S=Q[1]+Q[2],T=l,T.test(S)&&(h=S)}if(p=P,p.test(h)){var Q=p.exec(h);S=Q[1],p=l,T=m,O=$,(p.test(S)||T.test(S)&&!O.test(S))&&(h=S)}return p=z,T=l,p.test(h)&&T.test(h)&&(p=E,h=h.replace(p,"")),L=="y"&&(h=L.toLowerCase()+h.substr(1)),h};return function(I){return I.update(M)}}(),t.Pipeline.registerFunction(t.stemmer,"stemmer");/*!
+ * lunr.stopWordFilter
+ * Copyright (C) 2020 Oliver Nightingale
+ */t.generateStopWordFilter=function(e){var r=e.reduce(function(n,i){return n[i]=i,n},{});return function(n){if(n&&r[n.toString()]!==n.toString())return n}},t.stopWordFilter=t.generateStopWordFilter(["a","able","about","across","after","all","almost","also","am","among","an","and","any","are","as","at","be","because","been","but","by","can","cannot","could","dear","did","do","does","either","else","ever","every","for","from","get","got","had","has","have","he","her","hers","him","his","how","however","i","if","in","into","is","it","its","just","least","let","like","likely","may","me","might","most","must","my","neither","no","nor","not","of","off","often","on","only","or","other","our","own","rather","said","say","says","she","should","since","so","some","than","that","the","their","them","then","there","these","they","this","tis","to","too","twas","us","wants","was","we","were","what","when","where","which","while","who","whom","why","will","with","would","yet","you","your"]),t.Pipeline.registerFunction(t.stopWordFilter,"stopWordFilter");/*!
+ * lunr.trimmer
+ * Copyright (C) 2020 Oliver Nightingale
+ */t.trimmer=function(e){return e.update(function(r){return r.replace(/^\W+/,"").replace(/\W+$/,"")})},t.Pipeline.registerFunction(t.trimmer,"trimmer");/*!
+ * lunr.TokenSet
+ * Copyright (C) 2020 Oliver Nightingale
+ */t.TokenSet=function(){this.final=!1,this.edges={},this.id=t.TokenSet._nextId,t.TokenSet._nextId+=1},t.TokenSet._nextId=1,t.TokenSet.fromArray=function(e){for(var r=new t.TokenSet.Builder,n=0,i=e.length;n<i;n++)r.insert(e[n]);return r.finish(),r.root},t.TokenSet.fromClause=function(e){return"editDistance"in e?t.TokenSet.fromFuzzyString(e.term,e.editDistance):t.TokenSet.fromString(e.term)},t.TokenSet.fromFuzzyString=function(e,r){for(var n=new t.TokenSet,i=[{node:n,editsRemaining:r,str:e}];i.length;){var s=i.pop();if(s.str.length>0){var o=s.str.charAt(0),a;o in s.node.edges?a=s.node.edges[o]:(a=new t.TokenSet,s.node.edges[o]=a),s.str.length==1&&(a.final=!0),i.push({node:a,editsRemaining:s.editsRemaining,str:s.str.slice(1)})}if(s.editsRemaining!=0){if("*"in s.node.edges)var u=s.node.edges["*"];else{var u=new t.TokenSet;s.node.edges["*"]=u}if(s.str.length==0&&(u.final=!0),i.push({node:u,editsRemaining:s.editsRemaining-1,str:s.str}),s.str.length>1&&i.push({node:s.node,editsRemaining:s.editsRemaining-1,str:s.str.slice(1)}),s.str.length==1&&(s.node.final=!0),s.str.length>=1){if("*"in s.node.edges)var c=s.node.edges["*"];else{var c=new t.TokenSet;s.node.edges["*"]=c}s.str.length==1&&(c.final=!0),i.push({node:c,editsRemaining:s.editsRemaining-1,str:s.str.slice(1)})}if(s.str.length>1){var f=s.str.charAt(0),g=s.str.charAt(1),l;g in s.node.edges?l=s.node.edges[g]:(l=new t.TokenSet,s.node.edges[g]=l),s.str.length==1&&(l.final=!0),i.push({node:l,editsRemaining:s.editsRemaining-1,str:f+s.str.slice(2)})}}}return n},t.TokenSet.fromString=function(e){for(var r=new t.TokenSet,n=r,i=0,s=e.length;i<s;i++){var o=e[i],a=i==s-1;if(o=="*")r.edges[o]=r,r.final=a;else{var u=new t.TokenSet;u.final=a,r.edges[o]=u,r=u}}return n},t.TokenSet.prototype.toArray=function(){for(var e=[],r=[{prefix:"",node:this}];r.length;){var n=r.pop(),i=Object.keys(n.node.edges),s=i.length;n.node.final&&(n.prefix.charAt(0),e.push(n.prefix));for(var o=0;o<s;o++){var a=i[o];r.push({prefix:n.prefix.concat(a),node:n.node.edges[a]})}}return e},t.TokenSet.prototype.toString=function(){if(this._str)return this._str;for(var e=this.final?"1":"0",r=Object.keys(this.edges).sort(),n=r.length,i=0;i<n;i++){var s=r[i],o=this.edges[s];e=e+s+o.id}return e},t.TokenSet.prototype.intersect=function(e){for(var r=new t.TokenSet,n=void 0,i=[{qNode:e,output:r,node:this}];i.length;){n=i.pop();for(var s=Object.keys(n.qNode.edges),o=s.length,a=Object.keys(n.node.edges),u=a.length,c=0;c<o;c++)for(var f=s[c],g=0;g<u;g++){var l=a[g];if(l==f||f=="*"){var m=n.node.edges[l],x=n.qNode.edges[f],v=m.final&&x.final,d=void 0;l in n.output.edges?(d=n.output.edges[l],d.final=d.final||v):(d=new t.TokenSet,d.final=v,n.output.edges[l]=d),i.push({qNode:x,output:d,node:m})}}}return r},t.TokenSet.Builder=function(){this.previousWord="",this.root=new t.TokenSet,this.uncheckedNodes=[],this.minimizedNodes={}},t.TokenSet.Builder.prototype.insert=function(e){var r,n=0;if(e<this.previousWord)throw new Error("Out of order word insertion");for(var i=0;i<e.length&&i<this.previousWord.length&&e[i]==this.previousWord[i];i++)n++;this.minimize(n),this.uncheckedNodes.length==0?r=this.root:r=this.uncheckedNodes[this.uncheckedNodes.length-1].child;for(var i=n;i<e.length;i++){var s=new t.TokenSet,o=e[i];r.edges[o]=s,this.uncheckedNodes.push({parent:r,char:o,child:s}),r=s}r.final=!0,this.previousWord=e},t.TokenSet.Builder.prototype.finish=function(){this.minimize(0)},t.TokenSet.Builder.prototype.minimize=function(e){for(var r=this.uncheckedNodes.length-1;r>=e;r--){var n=this.uncheckedNodes[r],i=n.child.toString();i in this.minimizedNodes?n.parent.edges[n.char]=this.minimizedNodes[i]:(n.child._str=i,this.minimizedNodes[i]=n.child),this.uncheckedNodes.pop()}};/*!
+ * lunr.Index
+ * Copyright (C) 2020 Oliver Nightingale
+ */t.Index=function(e){this.invertedIndex=e.invertedIndex,this.fieldVectors=e.fieldVectors,this.tokenSet=e.tokenSet,this.fields=e.fields,this.pipeline=e.pipeline},t.Index.prototype.search=function(e){return this.query(function(r){var n=new t.QueryParser(e,r);n.parse()})},t.Index.prototype.query=function(e){for(var r=new t.Query(this.fields),n=Object.create(null),i=Object.create(null),s=Object.create(null),o=Object.create(null),a=Object.create(null),u=0;u<this.fields.length;u++)i[this.fields[u]]=new t.Vector;e.call(r,r);for(var u=0;u<r.clauses.length;u++){var c=r.clauses[u],f=null,g=t.Set.empty;c.usePipeline?f=this.pipeline.runString(c.term,{fields:c.fields}):f=[c.term];for(var l=0;l<f.length;l++){var m=f[l];c.term=m;var x=t.TokenSet.fromClause(c),v=this.tokenSet.intersect(x).toArray();if(v.length===0&&c.presence===t.Query.presence.REQUIRED){for(var d=0;d<c.fields.length;d++){var y=c.fields[d];o[y]=t.Set.empty}break}for(var b=0;b<v.length;b++)for(var E=v[b],w=this.invertedIndex[E],R=w._index,d=0;d<c.fields.length;d++){var y=c.fields[d],j=w[y],_=Object.keys(j),D=E+"/"+y,N=new t.Set(_);if(c.presence==t.Query.presence.REQUIRED&&(g=g.union(N),o[y]===void 0&&(o[y]=t.Set.complete)),c.presence==t.Query.presence.PROHIBITED){a[y]===void 0&&(a[y]=t.Set.empty),a[y]=a[y].union(N);continue}if(i[y].upsert(R,c.boost,function(ye,me){return ye+me}),!s[D]){for(var C=0;C<_.length;C++){var V=_[C],P=new t.FieldRef(V,y),z=j[V],$;($=n[P])===void 0?n[P]=new t.MatchData(E,y,z):$.add(E,y,z)}s[D]=!0}}}if(c.presence===t.Query.presence.REQUIRED)for(var d=0;d<c.fields.length;d++){var y=c.fields[d];o[y]=o[y].intersect(g)}}for(var M=t.Set.complete,I=t.Set.empty,u=0;u<this.fields.length;u++){var y=this.fields[u];o[y]&&(M=M.intersect(o[y])),a[y]&&(I=I.union(a[y]))}var h=Object.keys(n),S=[],k=Object.create(null);if(r.isNegated()){h=Object.keys(this.fieldVectors);for(var u=0;u<h.length;u++){var P=h[u],L=t.FieldRef.fromString(P);n[P]=new t.MatchData}}for(var u=0;u<h.length;u++){var L=t.FieldRef.fromString(h[u]),p=L.docRef;if(M.contains(p)&&!I.contains(p)){var T=this.fieldVectors[L],O=i[L.fieldName].similarity(T),F;if((F=k[p])!==void 0)F.score+=O,F.matchData.combine(n[L]);else{var Q={ref:p,score:O,matchData:n[L]};k[p]=Q,S.push(Q)}}}return S.sort(function(pe,ge){return ge.score-pe.score})},t.Index.prototype.toJSON=function(){var e=Object.keys(this.invertedIndex).sort().map(function(n){return[n,this.invertedIndex[n]]},this),r=Object.keys(this.fieldVectors).map(function(n){return[n,this.fieldVectors[n].toJSON()]},this);return{version:t.version,fields:this.fields,fieldVectors:r,invertedIndex:e,pipeline:this.pipeline.toJSON()}},t.Index.load=function(e){var r={},n={},i=e.fieldVectors,s=Object.create(null),o=e.invertedIndex,a=new t.TokenSet.Builder,u=t.Pipeline.load(e.pipeline);e.version!=t.version&&t.utils.warn("Version mismatch when loading serialised index. Current version of lunr '"+t.version+"' does not match serialized index '"+e.version+"'");for(var c=0;c<i.length;c++){var f=i[c],g=f[0],l=f[1];n[g]=new t.Vector(l)}for(var c=0;c<o.length;c++){var f=o[c],m=f[0],x=f[1];a.insert(m),s[m]=x}return a.finish(),r.fields=e.fields,r.fieldVectors=n,r.invertedIndex=s,r.tokenSet=a.root,r.pipeline=u,new t.Index(r)};/*!
+ * lunr.Builder
+ * Copyright (C) 2020 Oliver Nightingale
+ */t.Builder=function(){this._ref="id",this._fields=Object.create(null),this._documents=Object.create(null),this.invertedIndex=Object.create(null),this.fieldTermFrequencies={},this.fieldLengths={},this.tokenizer=t.tokenizer,this.pipeline=new t.Pipeline,this.searchPipeline=new t.Pipeline,this.documentCount=0,this._b=.75,this._k1=1.2,this.termIndex=0,this.metadataWhitelist=[]},t.Builder.prototype.ref=function(e){this._ref=e},t.Builder.prototype.field=function(e,r){if(/\//.test(e))throw new RangeError("Field '"+e+"' contains illegal character '/'");this._fields[e]=r||{}},t.Builder.prototype.b=function(e){e<0?this._b=0:e>1?this._b=1:this._b=e},t.Builder.prototype.k1=function(e){this._k1=e},t.Builder.prototype.add=function(e,r){var n=e[this._ref],i=Object.keys(this._fields);this._documents[n]=r||{},this.documentCount+=1;for(var s=0;s<i.length;s++){var o=i[s],a=this._fields[o].extractor,u=a?a(e):e[o],c=this.tokenizer(u,{fields:[o]}),f=this.pipeline.run(c),g=new t.FieldRef(n,o),l=Object.create(null);this.fieldTermFrequencies[g]=l,this.fieldLengths[g]=0,this.fieldLengths[g]+=f.length;for(var m=0;m<f.length;m++){var x=f[m];if(l[x]==null&&(l[x]=0),l[x]+=1,this.invertedIndex[x]==null){var v=Object.create(null);v._index=this.termIndex,this.termIndex+=1;for(var d=0;d<i.length;d++)v[i[d]]=Object.create(null);this.invertedIndex[x]=v}this.invertedIndex[x][o][n]==null&&(this.invertedIndex[x][o][n]=Object.create(null));for(var y=0;y<this.metadataWhitelist.length;y++){var b=this.metadataWhitelist[y],E=x.metadata[b];this.invertedIndex[x][o][n][b]==null&&(this.invertedIndex[x][o][n][b]=[]),this.invertedIndex[x][o][n][b].push(E)}}}},t.Builder.prototype.calculateAverageFieldLengths=function(){for(var e=Object.keys(this.fieldLengths),r=e.length,n={},i={},s=0;s<r;s++){var o=t.FieldRef.fromString(e[s]),a=o.fieldName;i[a]||(i[a]=0),i[a]+=1,n[a]||(n[a]=0),n[a]+=this.fieldLengths[o]}for(var u=Object.keys(this._fields),s=0;s<u.length;s++){var c=u[s];n[c]=n[c]/i[c]}this.averageFieldLength=n},t.Builder.prototype.createFieldVectors=function(){for(var e={},r=Object.keys(this.fieldTermFrequencies),n=r.length,i=Object.create(null),s=0;s<n;s++){for(var o=t.FieldRef.fromString(r[s]),a=o.fieldName,u=this.fieldLengths[o],c=new t.Vector,f=this.fieldTermFrequencies[o],g=Object.keys(f),l=g.length,m=this._fields[a].boost||1,x=this._documents[o.docRef].boost||1,v=0;v<l;v++){var d=g[v],y=f[d],b=this.invertedIndex[d]._index,E,w,R;i[d]===void 0?(E=t.idf(this.invertedIndex[d],this.documentCount),i[d]=E):E=i[d],w=E*((this._k1+1)*y)/(this._k1*(1-this._b+this._b*(u/this.averageFieldLength[a]))+y),w*=m,w*=x,R=Math.round(w*1e3)/1e3,c.insert(b,R)}e[o]=c}this.fieldVectors=e},t.Builder.prototype.createTokenSet=function(){this.tokenSet=t.TokenSet.fromArray(Object.keys(this.invertedIndex).sort())},t.Builder.prototype.build=function(){return this.calculateAverageFieldLengths(),this.createFieldVectors(),this.createTokenSet(),new t.Index({invertedIndex:this.invertedIndex,fieldVectors:this.fieldVectors,tokenSet:this.tokenSet,fields:Object.keys(this._fields),pipeline:this.searchPipeline})},t.Builder.prototype.use=function(e){var r=Array.prototype.slice.call(arguments,1);r.unshift(this),e.apply(this,r)},t.MatchData=function(e,r,n){for(var i=Object.create(null),s=Object.keys(n||{}),o=0;o<s.length;o++){var a=s[o];i[a]=n[a].slice()}this.metadata=Object.create(null),e!==void 0&&(this.metadata[e]=Object.create(null),this.metadata[e][r]=i)},t.MatchData.prototype.combine=function(e){for(var r=Object.keys(e.metadata),n=0;n<r.length;n++){var i=r[n],s=Object.keys(e.metadata[i]);this.metadata[i]==null&&(this.metadata[i]=Object.create(null));for(var o=0;o<s.length;o++){var a=s[o],u=Object.keys(e.metadata[i][a]);this.metadata[i][a]==null&&(this.metadata[i][a]=Object.create(null));for(var c=0;c<u.length;c++){var f=u[c];this.metadata[i][a][f]==null?this.metadata[i][a][f]=e.metadata[i][a][f]:this.metadata[i][a][f]=this.metadata[i][a][f].concat(e.metadata[i][a][f])}}}},t.MatchData.prototype.add=function(e,r,n){if(!(e in this.metadata)){this.metadata[e]=Object.create(null),this.metadata[e][r]=n;return}if(!(r in this.metadata[e])){this.metadata[e][r]=n;return}for(var i=Object.keys(n),s=0;s<i.length;s++){var o=i[s];o in this.metadata[e][r]?this.metadata[e][r][o]=this.metadata[e][r][o].concat(n[o]):this.metadata[e][r][o]=n[o]}},t.Query=function(e){this.clauses=[],this.allFields=e},t.Query.wildcard=new String("*"),t.Query.wildcard.NONE=0,t.Query.wildcard.LEADING=1,t.Query.wildcard.TRAILING=2,t.Query.presence={OPTIONAL:1,REQUIRED:2,PROHIBITED:3},t.Query.prototype.clause=function(e){return"fields"in e||(e.fields=this.allFields),"boost"in e||(e.boost=1),"usePipeline"in e||(e.usePipeline=!0),"wildcard"in e||(e.wildcard=t.Query.wildcard.NONE),e.wildcard&t.Query.wildcard.LEADING&&e.term.charAt(0)!=t.Query.wildcard&&(e.term="*"+e.term),e.wildcard&t.Query.wildcard.TRAILING&&e.term.slice(-1)!=t.Query.wildcard&&(e.term=""+e.term+"*"),"presence"in e||(e.presence=t.Query.presence.OPTIONAL),this.clauses.push(e),this},t.Query.prototype.isNegated=function(){for(var e=0;e<this.clauses.length;e++)if(this.clauses[e].presence!=t.Query.presence.PROHIBITED)return!1;return!0},t.Query.prototype.term=function(e,r){if(Array.isArray(e))return e.forEach(function(i){this.term(i,t.utils.clone(r))},this),this;var n=r||{};return n.term=e.toString(),this.clause(n),this},t.QueryParseError=function(e,r,n){this.name="QueryParseError",this.message=e,this.start=r,this.end=n},t.QueryParseError.prototype=new Error,t.QueryLexer=function(e){this.lexemes=[],this.str=e,this.length=e.length,this.pos=0,this.start=0,this.escapeCharPositions=[]},t.QueryLexer.prototype.run=function(){for(var e=t.QueryLexer.lexText;e;)e=e(this)},t.QueryLexer.prototype.sliceString=function(){for(var e=[],r=this.start,n=this.pos,i=0;i<this.escapeCharPositions.length;i++)n=this.escapeCharPositions[i],e.push(this.str.slice(r,n)),r=n+1;return e.push(this.str.slice(r,this.pos)),this.escapeCharPositions.length=0,e.join("")},t.QueryLexer.prototype.emit=function(e){this.lexemes.push({type:e,str:this.sliceString(),start:this.start,end:this.pos}),this.start=this.pos},t.QueryLexer.prototype.escapeCharacter=function(){this.escapeCharPositions.push(this.pos-1),this.pos+=1},t.QueryLexer.prototype.next=function(){if(this.pos>=this.length)return t.QueryLexer.EOS;var e=this.str.charAt(this.pos);return this.pos+=1,e},t.QueryLexer.prototype.width=function(){return this.pos-this.start},t.QueryLexer.prototype.ignore=function(){this.start==this.pos&&(this.pos+=1),this.start=this.pos},t.QueryLexer.prototype.backup=function(){this.pos-=1},t.QueryLexer.prototype.acceptDigitRun=function(){var e,r;do e=this.next(),r=e.charCodeAt(0);while(r>47&&r<58);e!=t.QueryLexer.EOS&&this.backup()},t.QueryLexer.prototype.more=function(){return this.pos<this.length},t.QueryLexer.EOS="EOS",t.QueryLexer.FIELD="FIELD",t.QueryLexer.TERM="TERM",t.QueryLexer.EDIT_DISTANCE="EDIT_DISTANCE",t.QueryLexer.BOOST="BOOST",t.QueryLexer.PRESENCE="PRESENCE",t.QueryLexer.lexField=function(e){return e.backup(),e.emit(t.QueryLexer.FIELD),e.ignore(),t.QueryLexer.lexText},t.QueryLexer.lexTerm=function(e){if(e.width()>1&&(e.backup(),e.emit(t.QueryLexer.TERM)),e.ignore(),e.more())return t.QueryLexer.lexText},t.QueryLexer.lexEditDistance=function(e){return e.ignore(),e.acceptDigitRun(),e.emit(t.QueryLexer.EDIT_DISTANCE),t.QueryLexer.lexText},t.QueryLexer.lexBoost=function(e){return e.ignore(),e.acceptDigitRun(),e.emit(t.QueryLexer.BOOST),t.QueryLexer.lexText},t.QueryLexer.lexEOS=function(e){e.width()>0&&e.emit(t.QueryLexer.TERM)},t.QueryLexer.termSeparator=t.tokenizer.separator,t.QueryLexer.lexText=function(e){for(;;){var r=e.next();if(r==t.QueryLexer.EOS)return t.QueryLexer.lexEOS;if(r.charCodeAt(0)==92){e.escapeCharacter();continue}if(r==":")return t.QueryLexer.lexField;if(r=="~")return e.backup(),e.width()>0&&e.emit(t.QueryLexer.TERM),t.QueryLexer.lexEditDistance;if(r=="^")return e.backup(),e.width()>0&&e.emit(t.QueryLexer.TERM),t.QueryLexer.lexBoost;if(r=="+"&&e.width()===1||r=="-"&&e.width()===1)return e.emit(t.QueryLexer.PRESENCE),t.QueryLexer.lexText;if(r.match(t.QueryLexer.termSeparator))return t.QueryLexer.lexTerm}},t.QueryParser=function(e,r){this.lexer=new t.QueryLexer(e),this.query=r,this.currentClause={},this.lexemeIdx=0},t.QueryParser.prototype.parse=function(){this.lexer.run(),this.lexemes=this.lexer.lexemes;for(var e=t.QueryParser.parseClause;e;)e=e(this);return this.query},t.QueryParser.prototype.peekLexeme=function(){return this.lexemes[this.lexemeIdx]},t.QueryParser.prototype.consumeLexeme=function(){var e=this.peekLexeme();return this.lexemeIdx+=1,e},t.QueryParser.prototype.nextClause=function(){var e=this.currentClause;this.query.clause(e),this.currentClause={}},t.QueryParser.parseClause=function(e){var r=e.peekLexeme();if(r!=null)switch(r.type){case t.QueryLexer.PRESENCE:return t.QueryParser.parsePresence;case t.QueryLexer.FIELD:return t.QueryParser.parseField;case t.QueryLexer.TERM:return t.QueryParser.parseTerm;default:var n="expected either a field or a term, found "+r.type;throw r.str.length>=1&&(n+=" with value '"+r.str+"'"),new t.QueryParseError(n,r.start,r.end)}},t.QueryParser.parsePresence=function(e){var r=e.consumeLexeme();if(r!=null){switch(r.str){case"-":e.currentClause.presence=t.Query.presence.PROHIBITED;break;case"+":e.currentClause.presence=t.Query.presence.REQUIRED;break;default:var n="unrecognised presence operator'"+r.str+"'";throw new t.QueryParseError(n,r.start,r.end)}var i=e.peekLexeme();if(i==null){var n="expecting term or field, found nothing";throw new t.QueryParseError(n,r.start,r.end)}switch(i.type){case t.QueryLexer.FIELD:return t.QueryParser.parseField;case t.QueryLexer.TERM:return t.QueryParser.parseTerm;default:var n="expecting term or field, found '"+i.type+"'";throw new t.QueryParseError(n,i.start,i.end)}}},t.QueryParser.parseField=function(e){var r=e.consumeLexeme();if(r!=null){if(e.query.allFields.indexOf(r.str)==-1){var n=e.query.allFields.map(function(o){return"'"+o+"'"}).join(", "),i="unrecognised field '"+r.str+"', possible fields: "+n;throw new t.QueryParseError(i,r.start,r.end)}e.currentClause.fields=[r.str];var s=e.peekLexeme();if(s==null){var i="expecting term, found nothing";throw new t.QueryParseError(i,r.start,r.end)}switch(s.type){case t.QueryLexer.TERM:return t.QueryParser.parseTerm;default:var i="expecting term, found '"+s.type+"'";throw new t.QueryParseError(i,s.start,s.end)}}},t.QueryParser.parseTerm=function(e){var r=e.consumeLexeme();if(r!=null){e.currentClause.term=r.str.toLowerCase(),r.str.indexOf("*")!=-1&&(e.currentClause.usePipeline=!1);var n=e.peekLexeme();if(n==null){e.nextClause();return}switch(n.type){case t.QueryLexer.TERM:return e.nextClause(),t.QueryParser.parseTerm;case t.QueryLexer.FIELD:return e.nextClause(),t.QueryParser.parseField;case t.QueryLexer.EDIT_DISTANCE:return t.QueryParser.parseEditDistance;case t.QueryLexer.BOOST:return t.QueryParser.parseBoost;case t.QueryLexer.PRESENCE:return e.nextClause(),t.QueryParser.parsePresence;default:var i="Unexpected lexeme type '"+n.type+"'";throw new t.QueryParseError(i,n.start,n.end)}}},t.QueryParser.parseEditDistance=function(e){var r=e.consumeLexeme();if(r!=null){var n=parseInt(r.str,10);if(isNaN(n)){var i="edit distance must be numeric";throw new t.QueryParseError(i,r.start,r.end)}e.currentClause.editDistance=n;var s=e.peekLexeme();if(s==null){e.nextClause();return}switch(s.type){case t.QueryLexer.TERM:return e.nextClause(),t.QueryParser.parseTerm;case t.QueryLexer.FIELD:return e.nextClause(),t.QueryParser.parseField;case t.QueryLexer.EDIT_DISTANCE:return t.QueryParser.parseEditDistance;case t.QueryLexer.BOOST:return t.QueryParser.parseBoost;case t.QueryLexer.PRESENCE:return e.nextClause(),t.QueryParser.parsePresence;default:var i="Unexpected lexeme type '"+s.type+"'";throw new t.QueryParseError(i,s.start,s.end)}}},t.QueryParser.parseBoost=function(e){var r=e.consumeLexeme();if(r!=null){var n=parseInt(r.str,10);if(isNaN(n)){var i="boost must be numeric";throw new t.QueryParseError(i,r.start,r.end)}e.currentClause.boost=n;var s=e.peekLexeme();if(s==null){e.nextClause();return}switch(s.type){case t.QueryLexer.TERM:return e.nextClause(),t.QueryParser.parseTerm;case t.QueryLexer.FIELD:return e.nextClause(),t.QueryParser.parseField;case t.QueryLexer.EDIT_DISTANCE:return t.QueryParser.parseEditDistance;case t.QueryLexer.BOOST:return t.QueryParser.parseBoost;case t.QueryLexer.PRESENCE:return e.nextClause(),t.QueryParser.parsePresence;default:var i="Unexpected lexeme type '"+s.type+"'";throw new t.QueryParseError(i,s.start,s.end)}}},function(e,r){typeof define=="function"&&define.amd?define(r):typeof K=="object"?ee.exports=r():e.lunr=r()}(this,function(){return t})})()});var de=Pe(te());function re(t,e=document){let r=ke(t,e);if(typeof r=="undefined")throw new ReferenceError(`Missing element: expected "${t}" to be present`);return r}function ke(t,e=document){return e.querySelector(t)||void 0}Object.entries||(Object.entries=function(t){let e=[];for(let r of Object.keys(t))e.push([r,t[r]]);return e});Object.values||(Object.values=function(t){let e=[];for(let r of Object.keys(t))e.push(t[r]);return e});typeof Element!="undefined"&&(Element.prototype.scrollTo||(Element.prototype.scrollTo=function(t,e){typeof t=="object"?(this.scrollLeft=t.left,this.scrollTop=t.top):(this.scrollLeft=t,this.scrollTop=e)}),Element.prototype.replaceWith||(Element.prototype.replaceWith=function(...t){let e=this.parentNode;if(e){t.length===0&&e.removeChild(this);for(let r=t.length-1;r>=0;r--){let n=t[r];typeof n=="string"?n=document.createTextNode(n):n.parentNode&&n.parentNode.removeChild(n),r?e.insertBefore(this.previousSibling,n):e.replaceChild(n,this)}}}));function ne(t){let e=new Map;for(let r of t){let[n]=r.location.split("#"),i=e.get(n);typeof i=="undefined"?e.set(n,r):(e.set(r.location,r),r.parent=i)}return e}function W(t,e,r){var s;e=new RegExp(e,"g");let n,i=0;do{n=e.exec(t);let o=(s=n==null?void 0:n.index)!=null?s:t.length;if(i<o&&r(i,o),n){let[a]=n;i=n.index+a.length,a.length===0&&(e.lastIndex=n.index+1)}}while(n)}function ie(t,e){let r=0,n=0,i=0;for(let s=0;i<t.length;i++)t.charAt(i)==="<"&&i>n?e(r,1,n,n=i):t.charAt(i)===">"&&(t.charAt(n+1)==="/"?--s===0&&e(r++,2,n,i+1):t.charAt(i-1)!=="/"&&s++===0&&e(r,0,n,i+1),n=i+1);i>n&&e(r,1,n,i)}function se(t,e,r,n=!1){return q([t],e,r,n).pop()}function q(t,e,r,n=!1){let i=[0];for(let s=1;s<e.length;s++){let o=e[s-1],a=e[s],u=o[o.length-1]>>>2&1023,c=a[0]>>>12;i.push(+(u>c)+i[i.length-1])}return t.map((s,o)=>{let a=0,u=new Map;for(let f of r.sort((g,l)=>g-l)){let g=f&1048575,l=f>>>20;if(i[l]!==o)continue;let m=u.get(l);typeof m=="undefined"&&u.set(l,m=[]),m.push(g)}if(u.size===0)return s;let c=[];for(let[f,g]of u){let l=e[f],m=l[0]>>>12,x=l[l.length-1]>>>12,v=l[l.length-1]>>>2&1023;n&&m>a&&c.push(s.slice(a,m));let d=s.slice(m,x+v);for(let y of g.sort((b,E)=>E-b)){let b=(l[y]>>>12)-m,E=(l[y]>>>2&1023)+b;d=[d.slice(0,b),"<mark>",d.slice(b,E),"</mark>",d.slice(E)].join("")}if(a=x+v,c.push(d)===2)break}return n&&a<s.length&&c.push(s.slice(a)),c.join("")})}function oe(t){let e=[];if(typeof t=="undefined")return e;let r=Array.isArray(t)?t:[t];for(let n=0;n<r.length;n++){let i=lunr.tokenizer.table,s=i.length;ie(r[n],(o,a,u,c)=>{var f;switch(i[f=o+=s]||(i[f]=[]),a){case 0:case 2:i[o].push(u<<12|c-u<<2|a);break;case 1:let g=r[n].slice(u,c);W(g,lunr.tokenizer.separator,(l,m)=>{if(typeof lunr.segmenter!="undefined"){let x=g.slice(l,m);if(/^[MHIK]$/.test(lunr.segmenter.ctype_(x))){let v=lunr.segmenter.segment(x);for(let d=0,y=0;d<v.length;d++)i[o]||(i[o]=[]),i[o].push(u+l+y<<12|v[d].length<<2|a),e.push(new lunr.Token(v[d].toLowerCase(),{position:o<<20|i[o].length-1})),y+=v[d].length;return}}i[o].push(u+l<<12|m-l<<2|a),e.push(new lunr.Token(g.slice(l,m).toLowerCase(),{position:o<<20|i[o].length-1}))})}})}return e}function ae(t,e=r=>r){return t.trim().split(/"([^"]+)"/g).map((r,n)=>n&1?r.replace(/^\b|^(?![^\x00-\x7F]|$)|\s+/g," +"):r).join("").replace(/"|(?:^|\s+)[*+\-:^~]+(?=\s+|$)/g,"").split(/\s+/g).reduce((r,n)=>{let i=e(n);return[...r,...Array.isArray(i)?i:[i]]},[]).map(r=>/([~^]$)/.test(r)?`${r}1`:r).map(r=>/(^[+-]|[~^]\d+$)/.test(r)?r:`${r}*`).join(" ")}function ue(t){return ae(t,e=>{let r=[],n=new lunr.QueryLexer(e);n.run();for(let{type:i,str:s,start:o,end:a}of n.lexemes)switch(i){case"FIELD":["title","text","tags"].includes(s)||(e=[e.slice(0,a)," ",e.slice(a+1)].join(""));break;case"TERM":W(s,lunr.tokenizer.separator,(...u)=>{r.push([e.slice(0,o),s.slice(...u),e.slice(a)].join(""))})}return r})}function ce(t){let e=new lunr.Query(["title","text","tags"]);new lunr.QueryParser(t,e).parse();for(let n of e.clauses)n.usePipeline=!0,n.term.startsWith("*")&&(n.wildcard=lunr.Query.wildcard.LEADING,n.term=n.term.slice(1)),n.term.endsWith("*")&&(n.wildcard=lunr.Query.wildcard.TRAILING,n.term=n.term.slice(0,-1));return e.clauses}function le(t,e){var i;let r=new Set(t),n={};for(let s=0;s<e.length;s++)for(let o of r)e[s].startsWith(o.term)&&(n[o.term]=!0,r.delete(o));for(let s of r)(i=lunr.stopWordFilter)!=null&&i.call(lunr,s.term)&&(n[s.term]=!1);return n}function he(t,e){let r=new Set,n=new Uint16Array(t.length);for(let s=0;s<t.length;s++)for(let o=s+1;o<t.length;o++)t.slice(s,o)in e&&(n[s]=o-s);let i=[0];for(let s=i.length;s>0;){let o=i[--s];for(let u=1;u<n[o];u++)n[o+u]>n[o]-u&&(r.add(t.slice(o,o+u)),i[s++]=o+u);let a=o+n[o];n[a]&&a<t.length-1&&(i[s++]=a),r.add(t.slice(o,a))}return r.has("")?new Set([t]):r}function Oe(t){return e=>r=>{if(typeof r[e]=="undefined")return;let n=[r.location,e].join(":");return t.set(n,lunr.tokenizer.table=[]),r[e]}}function Re(t,e){let[r,n]=[new Set(t),new Set(e)];return[...new Set([...r].filter(i=>!n.has(i)))]}var H=class{constructor({config:e,docs:r,options:n}){let i=Oe(this.table=new Map);this.map=ne(r),this.options=n,this.index=lunr(function(){this.metadataWhitelist=["position"],this.b(0),e.lang.length===1&&e.lang[0]!=="en"?this.use(lunr[e.lang[0]]):e.lang.length>1&&this.use(lunr.multiLanguage(...e.lang)),this.tokenizer=oe,lunr.tokenizer.separator=new RegExp(e.separator),lunr.segmenter="TinySegmenter"in lunr?new lunr.TinySegmenter:void 0;let s=Re(["trimmer","stopWordFilter","stemmer"],e.pipeline);for(let o of e.lang.map(a=>a==="en"?lunr:lunr[a]))for(let a of s)this.pipeline.remove(o[a]),this.searchPipeline.remove(o[a]);this.ref("location"),this.field("title",{boost:1e3,extractor:i("title")}),this.field("text",{boost:1,extractor:i("text")}),this.field("tags",{boost:1e6,extractor:i("tags")});for(let o of r)this.add(o,{boost:o.boost})})}search(e){if(e=e.replace(new RegExp("\\p{sc=Han}+","gu"),s=>[...he(s,this.index.invertedIndex)].join("* ")),e=ue(e),!e)return{items:[]};let r=ce(e).filter(s=>s.presence!==lunr.Query.presence.PROHIBITED),n=this.index.search(e).reduce((s,{ref:o,score:a,matchData:u})=>{let c=this.map.get(o);if(typeof c!="undefined"){c=A({},c),c.tags&&(c.tags=[...c.tags]);let f=le(r,Object.keys(u.metadata));for(let l of this.index.fields){if(typeof c[l]=="undefined")continue;let m=[];for(let d of Object.values(u.metadata))typeof d[l]!="undefined"&&m.push(...d[l].position);if(!m.length)continue;let x=this.table.get([c.location,l].join(":")),v=Array.isArray(c[l])?q:se;c[l]=v(c[l],x,m,l!=="text")}let g=+!c.parent+Object.values(f).filter(l=>l).length/Object.keys(f).length;s.push(G(A({},c),{score:a*(1+Z(g,2)),terms:f}))}return s},[]).sort((s,o)=>o.score-s.score).reduce((s,o)=>{let a=this.map.get(o.location);if(typeof a!="undefined"){let u=a.parent?a.parent.location:a.location;s.set(u,[...s.get(u)||[],o])}return s},new Map);for(let[s,o]of n)if(!o.find(a=>a.location===s)){let a=this.map.get(s);o.push(G(A({},a),{score:0,terms:{}}))}let i;if(this.options.suggest){let s=this.index.query(o=>{for(let a of r)o.term(a.term,{fields:["title"],presence:lunr.Query.presence.REQUIRED,wildcard:lunr.Query.wildcard.TRAILING})});i=s.length?Object.keys(s[0].matchData.metadata):[]}return A({items:[...n.values()]},typeof i!="undefined"&&{suggest:i})}};var fe;function Ie(t){return B(this,null,function*(){let e="../lunr";if(typeof parent!="undefined"&&"IFrameWorker"in parent){let n=re("script[src]"),[i]=n.src.split("/worker");e=e.replace("..",i)}let r=[];for(let n of t.lang){switch(n){case"ja":r.push(`${e}/tinyseg.js`);break;case"hi":case"th":r.push(`${e}/wordcut.js`);break}n!=="en"&&r.push(`${e}/min/lunr.${n}.min.js`)}t.lang.length>1&&r.push(`${e}/min/lunr.multi.min.js`),r.length&&(yield importScripts(`${e}/min/lunr.stemmer.support.min.js`,...r))})}function Fe(t){return B(this,null,function*(){switch(t.type){case 0:return yield Ie(t.data.config),fe=new H(t.data),{type:1};case 2:let e=t.data;try{return{type:3,data:fe.search(e)}}catch(r){return console.warn(`Invalid query: ${e} \u2013 see https://bit.ly/2s3ChXG`),console.warn(r),{type:3,data:{items:[]}}}default:throw new TypeError("Invalid message type")}})}self.lunr=de.default;addEventListener("message",t=>B(void 0,null,function*(){postMessage(yield Fe(t.data))}));})();
+//# sourceMappingURL=search.b8dbb3d2.min.js.map
+
diff --git a/assets/javascripts/workers/search.b8dbb3d2.min.js.map b/assets/javascripts/workers/search.b8dbb3d2.min.js.map
new file mode 100644
index 000000000..7ef0846c0
--- /dev/null
+++ b/assets/javascripts/workers/search.b8dbb3d2.min.js.map
@@ -0,0 +1,7 @@
+{
+  "version": 3,
+  "sources": ["node_modules/lunr/lunr.js", "src/templates/assets/javascripts/integrations/search/worker/main/index.ts", "src/templates/assets/javascripts/browser/element/_/index.ts", "src/templates/assets/javascripts/polyfills/index.ts", "src/templates/assets/javascripts/integrations/search/config/index.ts", "src/templates/assets/javascripts/integrations/search/internal/_/index.ts", "src/templates/assets/javascripts/integrations/search/internal/extract/index.ts", "src/templates/assets/javascripts/integrations/search/internal/highlight/index.ts", "src/templates/assets/javascripts/integrations/search/internal/tokenize/index.ts", "src/templates/assets/javascripts/integrations/search/query/transform/index.ts", "src/templates/assets/javascripts/integrations/search/query/_/index.ts", "src/templates/assets/javascripts/integrations/search/query/segment/index.ts", "src/templates/assets/javascripts/integrations/search/_/index.ts"],
+  "sourcesContent": ["/**\n * lunr - http://lunrjs.com - A bit like Solr, but much smaller and not as bright - 2.3.9\n * Copyright (C) 2020 Oliver Nightingale\n * @license MIT\n */\n\n;(function(){\n\n/**\n * A convenience function for configuring and constructing\n * a new lunr Index.\n *\n * A lunr.Builder instance is created and the pipeline setup\n * with a trimmer, stop word filter and stemmer.\n *\n * This builder object is yielded to the configuration function\n * that is passed as a parameter, allowing the list of fields\n * and other builder parameters to be customised.\n *\n * All documents _must_ be added within the passed config function.\n *\n * @example\n * var idx = lunr(function () {\n *   this.field('title')\n *   this.field('body')\n *   this.ref('id')\n *\n *   documents.forEach(function (doc) {\n *     this.add(doc)\n *   }, this)\n * })\n *\n * @see {@link lunr.Builder}\n * @see {@link lunr.Pipeline}\n * @see {@link lunr.trimmer}\n * @see {@link lunr.stopWordFilter}\n * @see {@link lunr.stemmer}\n * @namespace {function} lunr\n */\nvar lunr = function (config) {\n  var builder = new lunr.Builder\n\n  builder.pipeline.add(\n    lunr.trimmer,\n    lunr.stopWordFilter,\n    lunr.stemmer\n  )\n\n  builder.searchPipeline.add(\n    lunr.stemmer\n  )\n\n  config.call(builder, builder)\n  return builder.build()\n}\n\nlunr.version = \"2.3.9\"\n/*!\n * lunr.utils\n * Copyright (C) 2020 Oliver Nightingale\n */\n\n/**\n * A namespace containing utils for the rest of the lunr library\n * @namespace lunr.utils\n */\nlunr.utils = {}\n\n/**\n * Print a warning message to the console.\n *\n * @param {String} message The message to be printed.\n * @memberOf lunr.utils\n * @function\n */\nlunr.utils.warn = (function (global) {\n  /* eslint-disable no-console */\n  return function (message) {\n    if (global.console && console.warn) {\n      console.warn(message)\n    }\n  }\n  /* eslint-enable no-console */\n})(this)\n\n/**\n * Convert an object to a string.\n *\n * In the case of `null` and `undefined` the function returns\n * the empty string, in all other cases the result of calling\n * `toString` on the passed object is returned.\n *\n * @param {Any} obj The object to convert to a string.\n * @return {String} string representation of the passed object.\n * @memberOf lunr.utils\n */\nlunr.utils.asString = function (obj) {\n  if (obj === void 0 || obj === null) {\n    return \"\"\n  } else {\n    return obj.toString()\n  }\n}\n\n/**\n * Clones an object.\n *\n * Will create a copy of an existing object such that any mutations\n * on the copy cannot affect the original.\n *\n * Only shallow objects are supported, passing a nested object to this\n * function will cause a TypeError.\n *\n * Objects with primitives, and arrays of primitives are supported.\n *\n * @param {Object} obj The object to clone.\n * @return {Object} a clone of the passed object.\n * @throws {TypeError} when a nested object is passed.\n * @memberOf Utils\n */\nlunr.utils.clone = function (obj) {\n  if (obj === null || obj === undefined) {\n    return obj\n  }\n\n  var clone = Object.create(null),\n      keys = Object.keys(obj)\n\n  for (var i = 0; i < keys.length; i++) {\n    var key = keys[i],\n        val = obj[key]\n\n    if (Array.isArray(val)) {\n      clone[key] = val.slice()\n      continue\n    }\n\n    if (typeof val === 'string' ||\n        typeof val === 'number' ||\n        typeof val === 'boolean') {\n      clone[key] = val\n      continue\n    }\n\n    throw new TypeError(\"clone is not deep and does not support nested objects\")\n  }\n\n  return clone\n}\nlunr.FieldRef = function (docRef, fieldName, stringValue) {\n  this.docRef = docRef\n  this.fieldName = fieldName\n  this._stringValue = stringValue\n}\n\nlunr.FieldRef.joiner = \"/\"\n\nlunr.FieldRef.fromString = function (s) {\n  var n = s.indexOf(lunr.FieldRef.joiner)\n\n  if (n === -1) {\n    throw \"malformed field ref string\"\n  }\n\n  var fieldRef = s.slice(0, n),\n      docRef = s.slice(n + 1)\n\n  return new lunr.FieldRef (docRef, fieldRef, s)\n}\n\nlunr.FieldRef.prototype.toString = function () {\n  if (this._stringValue == undefined) {\n    this._stringValue = this.fieldName + lunr.FieldRef.joiner + this.docRef\n  }\n\n  return this._stringValue\n}\n/*!\n * lunr.Set\n * Copyright (C) 2020 Oliver Nightingale\n */\n\n/**\n * A lunr set.\n *\n * @constructor\n */\nlunr.Set = function (elements) {\n  this.elements = Object.create(null)\n\n  if (elements) {\n    this.length = elements.length\n\n    for (var i = 0; i < this.length; i++) {\n      this.elements[elements[i]] = true\n    }\n  } else {\n    this.length = 0\n  }\n}\n\n/**\n * A complete set that contains all elements.\n *\n * @static\n * @readonly\n * @type {lunr.Set}\n */\nlunr.Set.complete = {\n  intersect: function (other) {\n    return other\n  },\n\n  union: function () {\n    return this\n  },\n\n  contains: function () {\n    return true\n  }\n}\n\n/**\n * An empty set that contains no elements.\n *\n * @static\n * @readonly\n * @type {lunr.Set}\n */\nlunr.Set.empty = {\n  intersect: function () {\n    return this\n  },\n\n  union: function (other) {\n    return other\n  },\n\n  contains: function () {\n    return false\n  }\n}\n\n/**\n * Returns true if this set contains the specified object.\n *\n * @param {object} object - Object whose presence in this set is to be tested.\n * @returns {boolean} - True if this set contains the specified object.\n */\nlunr.Set.prototype.contains = function (object) {\n  return !!this.elements[object]\n}\n\n/**\n * Returns a new set containing only the elements that are present in both\n * this set and the specified set.\n *\n * @param {lunr.Set} other - set to intersect with this set.\n * @returns {lunr.Set} a new set that is the intersection of this and the specified set.\n */\n\nlunr.Set.prototype.intersect = function (other) {\n  var a, b, elements, intersection = []\n\n  if (other === lunr.Set.complete) {\n    return this\n  }\n\n  if (other === lunr.Set.empty) {\n    return other\n  }\n\n  if (this.length < other.length) {\n    a = this\n    b = other\n  } else {\n    a = other\n    b = this\n  }\n\n  elements = Object.keys(a.elements)\n\n  for (var i = 0; i < elements.length; i++) {\n    var element = elements[i]\n    if (element in b.elements) {\n      intersection.push(element)\n    }\n  }\n\n  return new lunr.Set (intersection)\n}\n\n/**\n * Returns a new set combining the elements of this and the specified set.\n *\n * @param {lunr.Set} other - set to union with this set.\n * @return {lunr.Set} a new set that is the union of this and the specified set.\n */\n\nlunr.Set.prototype.union = function (other) {\n  if (other === lunr.Set.complete) {\n    return lunr.Set.complete\n  }\n\n  if (other === lunr.Set.empty) {\n    return this\n  }\n\n  return new lunr.Set(Object.keys(this.elements).concat(Object.keys(other.elements)))\n}\n/**\n * A function to calculate the inverse document frequency for\n * a posting. This is shared between the builder and the index\n *\n * @private\n * @param {object} posting - The posting for a given term\n * @param {number} documentCount - The total number of documents.\n */\nlunr.idf = function (posting, documentCount) {\n  var documentsWithTerm = 0\n\n  for (var fieldName in posting) {\n    if (fieldName == '_index') continue // Ignore the term index, its not a field\n    documentsWithTerm += Object.keys(posting[fieldName]).length\n  }\n\n  var x = (documentCount - documentsWithTerm + 0.5) / (documentsWithTerm + 0.5)\n\n  return Math.log(1 + Math.abs(x))\n}\n\n/**\n * A token wraps a string representation of a token\n * as it is passed through the text processing pipeline.\n *\n * @constructor\n * @param {string} [str=''] - The string token being wrapped.\n * @param {object} [metadata={}] - Metadata associated with this token.\n */\nlunr.Token = function (str, metadata) {\n  this.str = str || \"\"\n  this.metadata = metadata || {}\n}\n\n/**\n * Returns the token string that is being wrapped by this object.\n *\n * @returns {string}\n */\nlunr.Token.prototype.toString = function () {\n  return this.str\n}\n\n/**\n * A token update function is used when updating or optionally\n * when cloning a token.\n *\n * @callback lunr.Token~updateFunction\n * @param {string} str - The string representation of the token.\n * @param {Object} metadata - All metadata associated with this token.\n */\n\n/**\n * Applies the given function to the wrapped string token.\n *\n * @example\n * token.update(function (str, metadata) {\n *   return str.toUpperCase()\n * })\n *\n * @param {lunr.Token~updateFunction} fn - A function to apply to the token string.\n * @returns {lunr.Token}\n */\nlunr.Token.prototype.update = function (fn) {\n  this.str = fn(this.str, this.metadata)\n  return this\n}\n\n/**\n * Creates a clone of this token. Optionally a function can be\n * applied to the cloned token.\n *\n * @param {lunr.Token~updateFunction} [fn] - An optional function to apply to the cloned token.\n * @returns {lunr.Token}\n */\nlunr.Token.prototype.clone = function (fn) {\n  fn = fn || function (s) { return s }\n  return new lunr.Token (fn(this.str, this.metadata), this.metadata)\n}\n/*!\n * lunr.tokenizer\n * Copyright (C) 2020 Oliver Nightingale\n */\n\n/**\n * A function for splitting a string into tokens ready to be inserted into\n * the search index. Uses `lunr.tokenizer.separator` to split strings, change\n * the value of this property to change how strings are split into tokens.\n *\n * This tokenizer will convert its parameter to a string by calling `toString` and\n * then will split this string on the character in `lunr.tokenizer.separator`.\n * Arrays will have their elements converted to strings and wrapped in a lunr.Token.\n *\n * Optional metadata can be passed to the tokenizer, this metadata will be cloned and\n * added as metadata to every token that is created from the object to be tokenized.\n *\n * @static\n * @param {?(string|object|object[])} obj - The object to convert into tokens\n * @param {?object} metadata - Optional metadata to associate with every token\n * @returns {lunr.Token[]}\n * @see {@link lunr.Pipeline}\n */\nlunr.tokenizer = function (obj, metadata) {\n  if (obj == null || obj == undefined) {\n    return []\n  }\n\n  if (Array.isArray(obj)) {\n    return obj.map(function (t) {\n      return new lunr.Token(\n        lunr.utils.asString(t).toLowerCase(),\n        lunr.utils.clone(metadata)\n      )\n    })\n  }\n\n  var str = obj.toString().toLowerCase(),\n      len = str.length,\n      tokens = []\n\n  for (var sliceEnd = 0, sliceStart = 0; sliceEnd <= len; sliceEnd++) {\n    var char = str.charAt(sliceEnd),\n        sliceLength = sliceEnd - sliceStart\n\n    if ((char.match(lunr.tokenizer.separator) || sliceEnd == len)) {\n\n      if (sliceLength > 0) {\n        var tokenMetadata = lunr.utils.clone(metadata) || {}\n        tokenMetadata[\"position\"] = [sliceStart, sliceLength]\n        tokenMetadata[\"index\"] = tokens.length\n\n        tokens.push(\n          new lunr.Token (\n            str.slice(sliceStart, sliceEnd),\n            tokenMetadata\n          )\n        )\n      }\n\n      sliceStart = sliceEnd + 1\n    }\n\n  }\n\n  return tokens\n}\n\n/**\n * The separator used to split a string into tokens. Override this property to change the behaviour of\n * `lunr.tokenizer` behaviour when tokenizing strings. By default this splits on whitespace and hyphens.\n *\n * @static\n * @see lunr.tokenizer\n */\nlunr.tokenizer.separator = /[\\s\\-]+/\n/*!\n * lunr.Pipeline\n * Copyright (C) 2020 Oliver Nightingale\n */\n\n/**\n * lunr.Pipelines maintain an ordered list of functions to be applied to all\n * tokens in documents entering the search index and queries being ran against\n * the index.\n *\n * An instance of lunr.Index created with the lunr shortcut will contain a\n * pipeline with a stop word filter and an English language stemmer. Extra\n * functions can be added before or after either of these functions or these\n * default functions can be removed.\n *\n * When run the pipeline will call each function in turn, passing a token, the\n * index of that token in the original list of all tokens and finally a list of\n * all the original tokens.\n *\n * The output of functions in the pipeline will be passed to the next function\n * in the pipeline. To exclude a token from entering the index the function\n * should return undefined, the rest of the pipeline will not be called with\n * this token.\n *\n * For serialisation of pipelines to work, all functions used in an instance of\n * a pipeline should be registered with lunr.Pipeline. Registered functions can\n * then be loaded. If trying to load a serialised pipeline that uses functions\n * that are not registered an error will be thrown.\n *\n * If not planning on serialising the pipeline then registering pipeline functions\n * is not necessary.\n *\n * @constructor\n */\nlunr.Pipeline = function () {\n  this._stack = []\n}\n\nlunr.Pipeline.registeredFunctions = Object.create(null)\n\n/**\n * A pipeline function maps lunr.Token to lunr.Token. A lunr.Token contains the token\n * string as well as all known metadata. A pipeline function can mutate the token string\n * or mutate (or add) metadata for a given token.\n *\n * A pipeline function can indicate that the passed token should be discarded by returning\n * null, undefined or an empty string. This token will not be passed to any downstream pipeline\n * functions and will not be added to the index.\n *\n * Multiple tokens can be returned by returning an array of tokens. Each token will be passed\n * to any downstream pipeline functions and all will returned tokens will be added to the index.\n *\n * Any number of pipeline functions may be chained together using a lunr.Pipeline.\n *\n * @interface lunr.PipelineFunction\n * @param {lunr.Token} token - A token from the document being processed.\n * @param {number} i - The index of this token in the complete list of tokens for this document/field.\n * @param {lunr.Token[]} tokens - All tokens for this document/field.\n * @returns {(?lunr.Token|lunr.Token[])}\n */\n\n/**\n * Register a function with the pipeline.\n *\n * Functions that are used in the pipeline should be registered if the pipeline\n * needs to be serialised, or a serialised pipeline needs to be loaded.\n *\n * Registering a function does not add it to a pipeline, functions must still be\n * added to instances of the pipeline for them to be used when running a pipeline.\n *\n * @param {lunr.PipelineFunction} fn - The function to check for.\n * @param {String} label - The label to register this function with\n */\nlunr.Pipeline.registerFunction = function (fn, label) {\n  if (label in this.registeredFunctions) {\n    lunr.utils.warn('Overwriting existing registered function: ' + label)\n  }\n\n  fn.label = label\n  lunr.Pipeline.registeredFunctions[fn.label] = fn\n}\n\n/**\n * Warns if the function is not registered as a Pipeline function.\n *\n * @param {lunr.PipelineFunction} fn - The function to check for.\n * @private\n */\nlunr.Pipeline.warnIfFunctionNotRegistered = function (fn) {\n  var isRegistered = fn.label && (fn.label in this.registeredFunctions)\n\n  if (!isRegistered) {\n    lunr.utils.warn('Function is not registered with pipeline. This may cause problems when serialising the index.\\n', fn)\n  }\n}\n\n/**\n * Loads a previously serialised pipeline.\n *\n * All functions to be loaded must already be registered with lunr.Pipeline.\n * If any function from the serialised data has not been registered then an\n * error will be thrown.\n *\n * @param {Object} serialised - The serialised pipeline to load.\n * @returns {lunr.Pipeline}\n */\nlunr.Pipeline.load = function (serialised) {\n  var pipeline = new lunr.Pipeline\n\n  serialised.forEach(function (fnName) {\n    var fn = lunr.Pipeline.registeredFunctions[fnName]\n\n    if (fn) {\n      pipeline.add(fn)\n    } else {\n      throw new Error('Cannot load unregistered function: ' + fnName)\n    }\n  })\n\n  return pipeline\n}\n\n/**\n * Adds new functions to the end of the pipeline.\n *\n * Logs a warning if the function has not been registered.\n *\n * @param {lunr.PipelineFunction[]} functions - Any number of functions to add to the pipeline.\n */\nlunr.Pipeline.prototype.add = function () {\n  var fns = Array.prototype.slice.call(arguments)\n\n  fns.forEach(function (fn) {\n    lunr.Pipeline.warnIfFunctionNotRegistered(fn)\n    this._stack.push(fn)\n  }, this)\n}\n\n/**\n * Adds a single function after a function that already exists in the\n * pipeline.\n *\n * Logs a warning if the function has not been registered.\n *\n * @param {lunr.PipelineFunction} existingFn - A function that already exists in the pipeline.\n * @param {lunr.PipelineFunction} newFn - The new function to add to the pipeline.\n */\nlunr.Pipeline.prototype.after = function (existingFn, newFn) {\n  lunr.Pipeline.warnIfFunctionNotRegistered(newFn)\n\n  var pos = this._stack.indexOf(existingFn)\n  if (pos == -1) {\n    throw new Error('Cannot find existingFn')\n  }\n\n  pos = pos + 1\n  this._stack.splice(pos, 0, newFn)\n}\n\n/**\n * Adds a single function before a function that already exists in the\n * pipeline.\n *\n * Logs a warning if the function has not been registered.\n *\n * @param {lunr.PipelineFunction} existingFn - A function that already exists in the pipeline.\n * @param {lunr.PipelineFunction} newFn - The new function to add to the pipeline.\n */\nlunr.Pipeline.prototype.before = function (existingFn, newFn) {\n  lunr.Pipeline.warnIfFunctionNotRegistered(newFn)\n\n  var pos = this._stack.indexOf(existingFn)\n  if (pos == -1) {\n    throw new Error('Cannot find existingFn')\n  }\n\n  this._stack.splice(pos, 0, newFn)\n}\n\n/**\n * Removes a function from the pipeline.\n *\n * @param {lunr.PipelineFunction} fn The function to remove from the pipeline.\n */\nlunr.Pipeline.prototype.remove = function (fn) {\n  var pos = this._stack.indexOf(fn)\n  if (pos == -1) {\n    return\n  }\n\n  this._stack.splice(pos, 1)\n}\n\n/**\n * Runs the current list of functions that make up the pipeline against the\n * passed tokens.\n *\n * @param {Array} tokens The tokens to run through the pipeline.\n * @returns {Array}\n */\nlunr.Pipeline.prototype.run = function (tokens) {\n  var stackLength = this._stack.length\n\n  for (var i = 0; i < stackLength; i++) {\n    var fn = this._stack[i]\n    var memo = []\n\n    for (var j = 0; j < tokens.length; j++) {\n      var result = fn(tokens[j], j, tokens)\n\n      if (result === null || result === void 0 || result === '') continue\n\n      if (Array.isArray(result)) {\n        for (var k = 0; k < result.length; k++) {\n          memo.push(result[k])\n        }\n      } else {\n        memo.push(result)\n      }\n    }\n\n    tokens = memo\n  }\n\n  return tokens\n}\n\n/**\n * Convenience method for passing a string through a pipeline and getting\n * strings out. This method takes care of wrapping the passed string in a\n * token and mapping the resulting tokens back to strings.\n *\n * @param {string} str - The string to pass through the pipeline.\n * @param {?object} metadata - Optional metadata to associate with the token\n * passed to the pipeline.\n * @returns {string[]}\n */\nlunr.Pipeline.prototype.runString = function (str, metadata) {\n  var token = new lunr.Token (str, metadata)\n\n  return this.run([token]).map(function (t) {\n    return t.toString()\n  })\n}\n\n/**\n * Resets the pipeline by removing any existing processors.\n *\n */\nlunr.Pipeline.prototype.reset = function () {\n  this._stack = []\n}\n\n/**\n * Returns a representation of the pipeline ready for serialisation.\n *\n * Logs a warning if the function has not been registered.\n *\n * @returns {Array}\n */\nlunr.Pipeline.prototype.toJSON = function () {\n  return this._stack.map(function (fn) {\n    lunr.Pipeline.warnIfFunctionNotRegistered(fn)\n\n    return fn.label\n  })\n}\n/*!\n * lunr.Vector\n * Copyright (C) 2020 Oliver Nightingale\n */\n\n/**\n * A vector is used to construct the vector space of documents and queries. These\n * vectors support operations to determine the similarity between two documents or\n * a document and a query.\n *\n * Normally no parameters are required for initializing a vector, but in the case of\n * loading a previously dumped vector the raw elements can be provided to the constructor.\n *\n * For performance reasons vectors are implemented with a flat array, where an elements\n * index is immediately followed by its value. E.g. [index, value, index, value]. This\n * allows the underlying array to be as sparse as possible and still offer decent\n * performance when being used for vector calculations.\n *\n * @constructor\n * @param {Number[]} [elements] - The flat list of element index and element value pairs.\n */\nlunr.Vector = function (elements) {\n  this._magnitude = 0\n  this.elements = elements || []\n}\n\n\n/**\n * Calculates the position within the vector to insert a given index.\n *\n * This is used internally by insert and upsert. If there are duplicate indexes then\n * the position is returned as if the value for that index were to be updated, but it\n * is the callers responsibility to check whether there is a duplicate at that index\n *\n * @param {Number} insertIdx - The index at which the element should be inserted.\n * @returns {Number}\n */\nlunr.Vector.prototype.positionForIndex = function (index) {\n  // For an empty vector the tuple can be inserted at the beginning\n  if (this.elements.length == 0) {\n    return 0\n  }\n\n  var start = 0,\n      end = this.elements.length / 2,\n      sliceLength = end - start,\n      pivotPoint = Math.floor(sliceLength / 2),\n      pivotIndex = this.elements[pivotPoint * 2]\n\n  while (sliceLength > 1) {\n    if (pivotIndex < index) {\n      start = pivotPoint\n    }\n\n    if (pivotIndex > index) {\n      end = pivotPoint\n    }\n\n    if (pivotIndex == index) {\n      break\n    }\n\n    sliceLength = end - start\n    pivotPoint = start + Math.floor(sliceLength / 2)\n    pivotIndex = this.elements[pivotPoint * 2]\n  }\n\n  if (pivotIndex == index) {\n    return pivotPoint * 2\n  }\n\n  if (pivotIndex > index) {\n    return pivotPoint * 2\n  }\n\n  if (pivotIndex < index) {\n    return (pivotPoint + 1) * 2\n  }\n}\n\n/**\n * Inserts an element at an index within the vector.\n *\n * Does not allow duplicates, will throw an error if there is already an entry\n * for this index.\n *\n * @param {Number} insertIdx - The index at which the element should be inserted.\n * @param {Number} val - The value to be inserted into the vector.\n */\nlunr.Vector.prototype.insert = function (insertIdx, val) {\n  this.upsert(insertIdx, val, function () {\n    throw \"duplicate index\"\n  })\n}\n\n/**\n * Inserts or updates an existing index within the vector.\n *\n * @param {Number} insertIdx - The index at which the element should be inserted.\n * @param {Number} val - The value to be inserted into the vector.\n * @param {function} fn - A function that is called for updates, the existing value and the\n * requested value are passed as arguments\n */\nlunr.Vector.prototype.upsert = function (insertIdx, val, fn) {\n  this._magnitude = 0\n  var position = this.positionForIndex(insertIdx)\n\n  if (this.elements[position] == insertIdx) {\n    this.elements[position + 1] = fn(this.elements[position + 1], val)\n  } else {\n    this.elements.splice(position, 0, insertIdx, val)\n  }\n}\n\n/**\n * Calculates the magnitude of this vector.\n *\n * @returns {Number}\n */\nlunr.Vector.prototype.magnitude = function () {\n  if (this._magnitude) return this._magnitude\n\n  var sumOfSquares = 0,\n      elementsLength = this.elements.length\n\n  for (var i = 1; i < elementsLength; i += 2) {\n    var val = this.elements[i]\n    sumOfSquares += val * val\n  }\n\n  return this._magnitude = Math.sqrt(sumOfSquares)\n}\n\n/**\n * Calculates the dot product of this vector and another vector.\n *\n * @param {lunr.Vector} otherVector - The vector to compute the dot product with.\n * @returns {Number}\n */\nlunr.Vector.prototype.dot = function (otherVector) {\n  var dotProduct = 0,\n      a = this.elements, b = otherVector.elements,\n      aLen = a.length, bLen = b.length,\n      aVal = 0, bVal = 0,\n      i = 0, j = 0\n\n  while (i < aLen && j < bLen) {\n    aVal = a[i], bVal = b[j]\n    if (aVal < bVal) {\n      i += 2\n    } else if (aVal > bVal) {\n      j += 2\n    } else if (aVal == bVal) {\n      dotProduct += a[i + 1] * b[j + 1]\n      i += 2\n      j += 2\n    }\n  }\n\n  return dotProduct\n}\n\n/**\n * Calculates the similarity between this vector and another vector.\n *\n * @param {lunr.Vector} otherVector - The other vector to calculate the\n * similarity with.\n * @returns {Number}\n */\nlunr.Vector.prototype.similarity = function (otherVector) {\n  return this.dot(otherVector) / this.magnitude() || 0\n}\n\n/**\n * Converts the vector to an array of the elements within the vector.\n *\n * @returns {Number[]}\n */\nlunr.Vector.prototype.toArray = function () {\n  var output = new Array (this.elements.length / 2)\n\n  for (var i = 1, j = 0; i < this.elements.length; i += 2, j++) {\n    output[j] = this.elements[i]\n  }\n\n  return output\n}\n\n/**\n * A JSON serializable representation of the vector.\n *\n * @returns {Number[]}\n */\nlunr.Vector.prototype.toJSON = function () {\n  return this.elements\n}\n/* eslint-disable */\n/*!\n * lunr.stemmer\n * Copyright (C) 2020 Oliver Nightingale\n * Includes code from - http://tartarus.org/~martin/PorterStemmer/js.txt\n */\n\n/**\n * lunr.stemmer is an english language stemmer, this is a JavaScript\n * implementation of the PorterStemmer taken from http://tartarus.org/~martin\n *\n * @static\n * @implements {lunr.PipelineFunction}\n * @param {lunr.Token} token - The string to stem\n * @returns {lunr.Token}\n * @see {@link lunr.Pipeline}\n * @function\n */\nlunr.stemmer = (function(){\n  var step2list = {\n      \"ational\" : \"ate\",\n      \"tional\" : \"tion\",\n      \"enci\" : \"ence\",\n      \"anci\" : \"ance\",\n      \"izer\" : \"ize\",\n      \"bli\" : \"ble\",\n      \"alli\" : \"al\",\n      \"entli\" : \"ent\",\n      \"eli\" : \"e\",\n      \"ousli\" : \"ous\",\n      \"ization\" : \"ize\",\n      \"ation\" : \"ate\",\n      \"ator\" : \"ate\",\n      \"alism\" : \"al\",\n      \"iveness\" : \"ive\",\n      \"fulness\" : \"ful\",\n      \"ousness\" : \"ous\",\n      \"aliti\" : \"al\",\n      \"iviti\" : \"ive\",\n      \"biliti\" : \"ble\",\n      \"logi\" : \"log\"\n    },\n\n    step3list = {\n      \"icate\" : \"ic\",\n      \"ative\" : \"\",\n      \"alize\" : \"al\",\n      \"iciti\" : \"ic\",\n      \"ical\" : \"ic\",\n      \"ful\" : \"\",\n      \"ness\" : \"\"\n    },\n\n    c = \"[^aeiou]\",          // consonant\n    v = \"[aeiouy]\",          // vowel\n    C = c + \"[^aeiouy]*\",    // consonant sequence\n    V = v + \"[aeiou]*\",      // vowel sequence\n\n    mgr0 = \"^(\" + C + \")?\" + V + C,               // [C]VC... is m>0\n    meq1 = \"^(\" + C + \")?\" + V + C + \"(\" + V + \")?$\",  // [C]VC[V] is m=1\n    mgr1 = \"^(\" + C + \")?\" + V + C + V + C,       // [C]VCVC... is m>1\n    s_v = \"^(\" + C + \")?\" + v;                   // vowel in stem\n\n  var re_mgr0 = new RegExp(mgr0);\n  var re_mgr1 = new RegExp(mgr1);\n  var re_meq1 = new RegExp(meq1);\n  var re_s_v = new RegExp(s_v);\n\n  var re_1a = /^(.+?)(ss|i)es$/;\n  var re2_1a = /^(.+?)([^s])s$/;\n  var re_1b = /^(.+?)eed$/;\n  var re2_1b = /^(.+?)(ed|ing)$/;\n  var re_1b_2 = /.$/;\n  var re2_1b_2 = /(at|bl|iz)$/;\n  var re3_1b_2 = new RegExp(\"([^aeiouylsz])\\\\1$\");\n  var re4_1b_2 = new RegExp(\"^\" + C + v + \"[^aeiouwxy]$\");\n\n  var re_1c = /^(.+?[^aeiou])y$/;\n  var re_2 = /^(.+?)(ational|tional|enci|anci|izer|bli|alli|entli|eli|ousli|ization|ation|ator|alism|iveness|fulness|ousness|aliti|iviti|biliti|logi)$/;\n\n  var re_3 = /^(.+?)(icate|ative|alize|iciti|ical|ful|ness)$/;\n\n  var re_4 = /^(.+?)(al|ance|ence|er|ic|able|ible|ant|ement|ment|ent|ou|ism|ate|iti|ous|ive|ize)$/;\n  var re2_4 = /^(.+?)(s|t)(ion)$/;\n\n  var re_5 = /^(.+?)e$/;\n  var re_5_1 = /ll$/;\n  var re3_5 = new RegExp(\"^\" + C + v + \"[^aeiouwxy]$\");\n\n  var porterStemmer = function porterStemmer(w) {\n    var stem,\n      suffix,\n      firstch,\n      re,\n      re2,\n      re3,\n      re4;\n\n    if (w.length < 3) { return w; }\n\n    firstch = w.substr(0,1);\n    if (firstch == \"y\") {\n      w = firstch.toUpperCase() + w.substr(1);\n    }\n\n    // Step 1a\n    re = re_1a\n    re2 = re2_1a;\n\n    if (re.test(w)) { w = w.replace(re,\"$1$2\"); }\n    else if (re2.test(w)) { w = w.replace(re2,\"$1$2\"); }\n\n    // Step 1b\n    re = re_1b;\n    re2 = re2_1b;\n    if (re.test(w)) {\n      var fp = re.exec(w);\n      re = re_mgr0;\n      if (re.test(fp[1])) {\n        re = re_1b_2;\n        w = w.replace(re,\"\");\n      }\n    } else if (re2.test(w)) {\n      var fp = re2.exec(w);\n      stem = fp[1];\n      re2 = re_s_v;\n      if (re2.test(stem)) {\n        w = stem;\n        re2 = re2_1b_2;\n        re3 = re3_1b_2;\n        re4 = re4_1b_2;\n        if (re2.test(w)) { w = w + \"e\"; }\n        else if (re3.test(w)) { re = re_1b_2; w = w.replace(re,\"\"); }\n        else if (re4.test(w)) { w = w + \"e\"; }\n      }\n    }\n\n    // Step 1c - replace suffix y or Y by i if preceded by a non-vowel which is not the first letter of the word (so cry -> cri, by -> by, say -> say)\n    re = re_1c;\n    if (re.test(w)) {\n      var fp = re.exec(w);\n      stem = fp[1];\n      w = stem + \"i\";\n    }\n\n    // Step 2\n    re = re_2;\n    if (re.test(w)) {\n      var fp = re.exec(w);\n      stem = fp[1];\n      suffix = fp[2];\n      re = re_mgr0;\n      if (re.test(stem)) {\n        w = stem + step2list[suffix];\n      }\n    }\n\n    // Step 3\n    re = re_3;\n    if (re.test(w)) {\n      var fp = re.exec(w);\n      stem = fp[1];\n      suffix = fp[2];\n      re = re_mgr0;\n      if (re.test(stem)) {\n        w = stem + step3list[suffix];\n      }\n    }\n\n    // Step 4\n    re = re_4;\n    re2 = re2_4;\n    if (re.test(w)) {\n      var fp = re.exec(w);\n      stem = fp[1];\n      re = re_mgr1;\n      if (re.test(stem)) {\n        w = stem;\n      }\n    } else if (re2.test(w)) {\n      var fp = re2.exec(w);\n      stem = fp[1] + fp[2];\n      re2 = re_mgr1;\n      if (re2.test(stem)) {\n        w = stem;\n      }\n    }\n\n    // Step 5\n    re = re_5;\n    if (re.test(w)) {\n      var fp = re.exec(w);\n      stem = fp[1];\n      re = re_mgr1;\n      re2 = re_meq1;\n      re3 = re3_5;\n      if (re.test(stem) || (re2.test(stem) && !(re3.test(stem)))) {\n        w = stem;\n      }\n    }\n\n    re = re_5_1;\n    re2 = re_mgr1;\n    if (re.test(w) && re2.test(w)) {\n      re = re_1b_2;\n      w = w.replace(re,\"\");\n    }\n\n    // and turn initial Y back to y\n\n    if (firstch == \"y\") {\n      w = firstch.toLowerCase() + w.substr(1);\n    }\n\n    return w;\n  };\n\n  return function (token) {\n    return token.update(porterStemmer);\n  }\n})();\n\nlunr.Pipeline.registerFunction(lunr.stemmer, 'stemmer')\n/*!\n * lunr.stopWordFilter\n * Copyright (C) 2020 Oliver Nightingale\n */\n\n/**\n * lunr.generateStopWordFilter builds a stopWordFilter function from the provided\n * list of stop words.\n *\n * The built in lunr.stopWordFilter is built using this generator and can be used\n * to generate custom stopWordFilters for applications or non English languages.\n *\n * @function\n * @param {Array} token The token to pass through the filter\n * @returns {lunr.PipelineFunction}\n * @see lunr.Pipeline\n * @see lunr.stopWordFilter\n */\nlunr.generateStopWordFilter = function (stopWords) {\n  var words = stopWords.reduce(function (memo, stopWord) {\n    memo[stopWord] = stopWord\n    return memo\n  }, {})\n\n  return function (token) {\n    if (token && words[token.toString()] !== token.toString()) return token\n  }\n}\n\n/**\n * lunr.stopWordFilter is an English language stop word list filter, any words\n * contained in the list will not be passed through the filter.\n *\n * This is intended to be used in the Pipeline. If the token does not pass the\n * filter then undefined will be returned.\n *\n * @function\n * @implements {lunr.PipelineFunction}\n * @params {lunr.Token} token - A token to check for being a stop word.\n * @returns {lunr.Token}\n * @see {@link lunr.Pipeline}\n */\nlunr.stopWordFilter = lunr.generateStopWordFilter([\n  'a',\n  'able',\n  'about',\n  'across',\n  'after',\n  'all',\n  'almost',\n  'also',\n  'am',\n  'among',\n  'an',\n  'and',\n  'any',\n  'are',\n  'as',\n  'at',\n  'be',\n  'because',\n  'been',\n  'but',\n  'by',\n  'can',\n  'cannot',\n  'could',\n  'dear',\n  'did',\n  'do',\n  'does',\n  'either',\n  'else',\n  'ever',\n  'every',\n  'for',\n  'from',\n  'get',\n  'got',\n  'had',\n  'has',\n  'have',\n  'he',\n  'her',\n  'hers',\n  'him',\n  'his',\n  'how',\n  'however',\n  'i',\n  'if',\n  'in',\n  'into',\n  'is',\n  'it',\n  'its',\n  'just',\n  'least',\n  'let',\n  'like',\n  'likely',\n  'may',\n  'me',\n  'might',\n  'most',\n  'must',\n  'my',\n  'neither',\n  'no',\n  'nor',\n  'not',\n  'of',\n  'off',\n  'often',\n  'on',\n  'only',\n  'or',\n  'other',\n  'our',\n  'own',\n  'rather',\n  'said',\n  'say',\n  'says',\n  'she',\n  'should',\n  'since',\n  'so',\n  'some',\n  'than',\n  'that',\n  'the',\n  'their',\n  'them',\n  'then',\n  'there',\n  'these',\n  'they',\n  'this',\n  'tis',\n  'to',\n  'too',\n  'twas',\n  'us',\n  'wants',\n  'was',\n  'we',\n  'were',\n  'what',\n  'when',\n  'where',\n  'which',\n  'while',\n  'who',\n  'whom',\n  'why',\n  'will',\n  'with',\n  'would',\n  'yet',\n  'you',\n  'your'\n])\n\nlunr.Pipeline.registerFunction(lunr.stopWordFilter, 'stopWordFilter')\n/*!\n * lunr.trimmer\n * Copyright (C) 2020 Oliver Nightingale\n */\n\n/**\n * lunr.trimmer is a pipeline function for trimming non word\n * characters from the beginning and end of tokens before they\n * enter the index.\n *\n * This implementation may not work correctly for non latin\n * characters and should either be removed or adapted for use\n * with languages with non-latin characters.\n *\n * @static\n * @implements {lunr.PipelineFunction}\n * @param {lunr.Token} token The token to pass through the filter\n * @returns {lunr.Token}\n * @see lunr.Pipeline\n */\nlunr.trimmer = function (token) {\n  return token.update(function (s) {\n    return s.replace(/^\\W+/, '').replace(/\\W+$/, '')\n  })\n}\n\nlunr.Pipeline.registerFunction(lunr.trimmer, 'trimmer')\n/*!\n * lunr.TokenSet\n * Copyright (C) 2020 Oliver Nightingale\n */\n\n/**\n * A token set is used to store the unique list of all tokens\n * within an index. Token sets are also used to represent an\n * incoming query to the index, this query token set and index\n * token set are then intersected to find which tokens to look\n * up in the inverted index.\n *\n * A token set can hold multiple tokens, as in the case of the\n * index token set, or it can hold a single token as in the\n * case of a simple query token set.\n *\n * Additionally token sets are used to perform wildcard matching.\n * Leading, contained and trailing wildcards are supported, and\n * from this edit distance matching can also be provided.\n *\n * Token sets are implemented as a minimal finite state automata,\n * where both common prefixes and suffixes are shared between tokens.\n * This helps to reduce the space used for storing the token set.\n *\n * @constructor\n */\nlunr.TokenSet = function () {\n  this.final = false\n  this.edges = {}\n  this.id = lunr.TokenSet._nextId\n  lunr.TokenSet._nextId += 1\n}\n\n/**\n * Keeps track of the next, auto increment, identifier to assign\n * to a new tokenSet.\n *\n * TokenSets require a unique identifier to be correctly minimised.\n *\n * @private\n */\nlunr.TokenSet._nextId = 1\n\n/**\n * Creates a TokenSet instance from the given sorted array of words.\n *\n * @param {String[]} arr - A sorted array of strings to create the set from.\n * @returns {lunr.TokenSet}\n * @throws Will throw an error if the input array is not sorted.\n */\nlunr.TokenSet.fromArray = function (arr) {\n  var builder = new lunr.TokenSet.Builder\n\n  for (var i = 0, len = arr.length; i < len; i++) {\n    builder.insert(arr[i])\n  }\n\n  builder.finish()\n  return builder.root\n}\n\n/**\n * Creates a token set from a query clause.\n *\n * @private\n * @param {Object} clause - A single clause from lunr.Query.\n * @param {string} clause.term - The query clause term.\n * @param {number} [clause.editDistance] - The optional edit distance for the term.\n * @returns {lunr.TokenSet}\n */\nlunr.TokenSet.fromClause = function (clause) {\n  if ('editDistance' in clause) {\n    return lunr.TokenSet.fromFuzzyString(clause.term, clause.editDistance)\n  } else {\n    return lunr.TokenSet.fromString(clause.term)\n  }\n}\n\n/**\n * Creates a token set representing a single string with a specified\n * edit distance.\n *\n * Insertions, deletions, substitutions and transpositions are each\n * treated as an edit distance of 1.\n *\n * Increasing the allowed edit distance will have a dramatic impact\n * on the performance of both creating and intersecting these TokenSets.\n * It is advised to keep the edit distance less than 3.\n *\n * @param {string} str - The string to create the token set from.\n * @param {number} editDistance - The allowed edit distance to match.\n * @returns {lunr.Vector}\n */\nlunr.TokenSet.fromFuzzyString = function (str, editDistance) {\n  var root = new lunr.TokenSet\n\n  var stack = [{\n    node: root,\n    editsRemaining: editDistance,\n    str: str\n  }]\n\n  while (stack.length) {\n    var frame = stack.pop()\n\n    // no edit\n    if (frame.str.length > 0) {\n      var char = frame.str.charAt(0),\n          noEditNode\n\n      if (char in frame.node.edges) {\n        noEditNode = frame.node.edges[char]\n      } else {\n        noEditNode = new lunr.TokenSet\n        frame.node.edges[char] = noEditNode\n      }\n\n      if (frame.str.length == 1) {\n        noEditNode.final = true\n      }\n\n      stack.push({\n        node: noEditNode,\n        editsRemaining: frame.editsRemaining,\n        str: frame.str.slice(1)\n      })\n    }\n\n    if (frame.editsRemaining == 0) {\n      continue\n    }\n\n    // insertion\n    if (\"*\" in frame.node.edges) {\n      var insertionNode = frame.node.edges[\"*\"]\n    } else {\n      var insertionNode = new lunr.TokenSet\n      frame.node.edges[\"*\"] = insertionNode\n    }\n\n    if (frame.str.length == 0) {\n      insertionNode.final = true\n    }\n\n    stack.push({\n      node: insertionNode,\n      editsRemaining: frame.editsRemaining - 1,\n      str: frame.str\n    })\n\n    // deletion\n    // can only do a deletion if we have enough edits remaining\n    // and if there are characters left to delete in the string\n    if (frame.str.length > 1) {\n      stack.push({\n        node: frame.node,\n        editsRemaining: frame.editsRemaining - 1,\n        str: frame.str.slice(1)\n      })\n    }\n\n    // deletion\n    // just removing the last character from the str\n    if (frame.str.length == 1) {\n      frame.node.final = true\n    }\n\n    // substitution\n    // can only do a substitution if we have enough edits remaining\n    // and if there are characters left to substitute\n    if (frame.str.length >= 1) {\n      if (\"*\" in frame.node.edges) {\n        var substitutionNode = frame.node.edges[\"*\"]\n      } else {\n        var substitutionNode = new lunr.TokenSet\n        frame.node.edges[\"*\"] = substitutionNode\n      }\n\n      if (frame.str.length == 1) {\n        substitutionNode.final = true\n      }\n\n      stack.push({\n        node: substitutionNode,\n        editsRemaining: frame.editsRemaining - 1,\n        str: frame.str.slice(1)\n      })\n    }\n\n    // transposition\n    // can only do a transposition if there are edits remaining\n    // and there are enough characters to transpose\n    if (frame.str.length > 1) {\n      var charA = frame.str.charAt(0),\n          charB = frame.str.charAt(1),\n          transposeNode\n\n      if (charB in frame.node.edges) {\n        transposeNode = frame.node.edges[charB]\n      } else {\n        transposeNode = new lunr.TokenSet\n        frame.node.edges[charB] = transposeNode\n      }\n\n      if (frame.str.length == 1) {\n        transposeNode.final = true\n      }\n\n      stack.push({\n        node: transposeNode,\n        editsRemaining: frame.editsRemaining - 1,\n        str: charA + frame.str.slice(2)\n      })\n    }\n  }\n\n  return root\n}\n\n/**\n * Creates a TokenSet from a string.\n *\n * The string may contain one or more wildcard characters (*)\n * that will allow wildcard matching when intersecting with\n * another TokenSet.\n *\n * @param {string} str - The string to create a TokenSet from.\n * @returns {lunr.TokenSet}\n */\nlunr.TokenSet.fromString = function (str) {\n  var node = new lunr.TokenSet,\n      root = node\n\n  /*\n   * Iterates through all characters within the passed string\n   * appending a node for each character.\n   *\n   * When a wildcard character is found then a self\n   * referencing edge is introduced to continually match\n   * any number of any characters.\n   */\n  for (var i = 0, len = str.length; i < len; i++) {\n    var char = str[i],\n        final = (i == len - 1)\n\n    if (char == \"*\") {\n      node.edges[char] = node\n      node.final = final\n\n    } else {\n      var next = new lunr.TokenSet\n      next.final = final\n\n      node.edges[char] = next\n      node = next\n    }\n  }\n\n  return root\n}\n\n/**\n * Converts this TokenSet into an array of strings\n * contained within the TokenSet.\n *\n * This is not intended to be used on a TokenSet that\n * contains wildcards, in these cases the results are\n * undefined and are likely to cause an infinite loop.\n *\n * @returns {string[]}\n */\nlunr.TokenSet.prototype.toArray = function () {\n  var words = []\n\n  var stack = [{\n    prefix: \"\",\n    node: this\n  }]\n\n  while (stack.length) {\n    var frame = stack.pop(),\n        edges = Object.keys(frame.node.edges),\n        len = edges.length\n\n    if (frame.node.final) {\n      /* In Safari, at this point the prefix is sometimes corrupted, see:\n       * https://github.com/olivernn/lunr.js/issues/279 Calling any\n       * String.prototype method forces Safari to \"cast\" this string to what\n       * it's supposed to be, fixing the bug. */\n      frame.prefix.charAt(0)\n      words.push(frame.prefix)\n    }\n\n    for (var i = 0; i < len; i++) {\n      var edge = edges[i]\n\n      stack.push({\n        prefix: frame.prefix.concat(edge),\n        node: frame.node.edges[edge]\n      })\n    }\n  }\n\n  return words\n}\n\n/**\n * Generates a string representation of a TokenSet.\n *\n * This is intended to allow TokenSets to be used as keys\n * in objects, largely to aid the construction and minimisation\n * of a TokenSet. As such it is not designed to be a human\n * friendly representation of the TokenSet.\n *\n * @returns {string}\n */\nlunr.TokenSet.prototype.toString = function () {\n  // NOTE: Using Object.keys here as this.edges is very likely\n  // to enter 'hash-mode' with many keys being added\n  //\n  // avoiding a for-in loop here as it leads to the function\n  // being de-optimised (at least in V8). From some simple\n  // benchmarks the performance is comparable, but allowing\n  // V8 to optimize may mean easy performance wins in the future.\n\n  if (this._str) {\n    return this._str\n  }\n\n  var str = this.final ? '1' : '0',\n      labels = Object.keys(this.edges).sort(),\n      len = labels.length\n\n  for (var i = 0; i < len; i++) {\n    var label = labels[i],\n        node = this.edges[label]\n\n    str = str + label + node.id\n  }\n\n  return str\n}\n\n/**\n * Returns a new TokenSet that is the intersection of\n * this TokenSet and the passed TokenSet.\n *\n * This intersection will take into account any wildcards\n * contained within the TokenSet.\n *\n * @param {lunr.TokenSet} b - An other TokenSet to intersect with.\n * @returns {lunr.TokenSet}\n */\nlunr.TokenSet.prototype.intersect = function (b) {\n  var output = new lunr.TokenSet,\n      frame = undefined\n\n  var stack = [{\n    qNode: b,\n    output: output,\n    node: this\n  }]\n\n  while (stack.length) {\n    frame = stack.pop()\n\n    // NOTE: As with the #toString method, we are using\n    // Object.keys and a for loop instead of a for-in loop\n    // as both of these objects enter 'hash' mode, causing\n    // the function to be de-optimised in V8\n    var qEdges = Object.keys(frame.qNode.edges),\n        qLen = qEdges.length,\n        nEdges = Object.keys(frame.node.edges),\n        nLen = nEdges.length\n\n    for (var q = 0; q < qLen; q++) {\n      var qEdge = qEdges[q]\n\n      for (var n = 0; n < nLen; n++) {\n        var nEdge = nEdges[n]\n\n        if (nEdge == qEdge || qEdge == '*') {\n          var node = frame.node.edges[nEdge],\n              qNode = frame.qNode.edges[qEdge],\n              final = node.final && qNode.final,\n              next = undefined\n\n          if (nEdge in frame.output.edges) {\n            // an edge already exists for this character\n            // no need to create a new node, just set the finality\n            // bit unless this node is already final\n            next = frame.output.edges[nEdge]\n            next.final = next.final || final\n\n          } else {\n            // no edge exists yet, must create one\n            // set the finality bit and insert it\n            // into the output\n            next = new lunr.TokenSet\n            next.final = final\n            frame.output.edges[nEdge] = next\n          }\n\n          stack.push({\n            qNode: qNode,\n            output: next,\n            node: node\n          })\n        }\n      }\n    }\n  }\n\n  return output\n}\nlunr.TokenSet.Builder = function () {\n  this.previousWord = \"\"\n  this.root = new lunr.TokenSet\n  this.uncheckedNodes = []\n  this.minimizedNodes = {}\n}\n\nlunr.TokenSet.Builder.prototype.insert = function (word) {\n  var node,\n      commonPrefix = 0\n\n  if (word < this.previousWord) {\n    throw new Error (\"Out of order word insertion\")\n  }\n\n  for (var i = 0; i < word.length && i < this.previousWord.length; i++) {\n    if (word[i] != this.previousWord[i]) break\n    commonPrefix++\n  }\n\n  this.minimize(commonPrefix)\n\n  if (this.uncheckedNodes.length == 0) {\n    node = this.root\n  } else {\n    node = this.uncheckedNodes[this.uncheckedNodes.length - 1].child\n  }\n\n  for (var i = commonPrefix; i < word.length; i++) {\n    var nextNode = new lunr.TokenSet,\n        char = word[i]\n\n    node.edges[char] = nextNode\n\n    this.uncheckedNodes.push({\n      parent: node,\n      char: char,\n      child: nextNode\n    })\n\n    node = nextNode\n  }\n\n  node.final = true\n  this.previousWord = word\n}\n\nlunr.TokenSet.Builder.prototype.finish = function () {\n  this.minimize(0)\n}\n\nlunr.TokenSet.Builder.prototype.minimize = function (downTo) {\n  for (var i = this.uncheckedNodes.length - 1; i >= downTo; i--) {\n    var node = this.uncheckedNodes[i],\n        childKey = node.child.toString()\n\n    if (childKey in this.minimizedNodes) {\n      node.parent.edges[node.char] = this.minimizedNodes[childKey]\n    } else {\n      // Cache the key for this node since\n      // we know it can't change anymore\n      node.child._str = childKey\n\n      this.minimizedNodes[childKey] = node.child\n    }\n\n    this.uncheckedNodes.pop()\n  }\n}\n/*!\n * lunr.Index\n * Copyright (C) 2020 Oliver Nightingale\n */\n\n/**\n * An index contains the built index of all documents and provides a query interface\n * to the index.\n *\n * Usually instances of lunr.Index will not be created using this constructor, instead\n * lunr.Builder should be used to construct new indexes, or lunr.Index.load should be\n * used to load previously built and serialized indexes.\n *\n * @constructor\n * @param {Object} attrs - The attributes of the built search index.\n * @param {Object} attrs.invertedIndex - An index of term/field to document reference.\n * @param {Object<string, lunr.Vector>} attrs.fieldVectors - Field vectors\n * @param {lunr.TokenSet} attrs.tokenSet - An set of all corpus tokens.\n * @param {string[]} attrs.fields - The names of indexed document fields.\n * @param {lunr.Pipeline} attrs.pipeline - The pipeline to use for search terms.\n */\nlunr.Index = function (attrs) {\n  this.invertedIndex = attrs.invertedIndex\n  this.fieldVectors = attrs.fieldVectors\n  this.tokenSet = attrs.tokenSet\n  this.fields = attrs.fields\n  this.pipeline = attrs.pipeline\n}\n\n/**\n * A result contains details of a document matching a search query.\n * @typedef {Object} lunr.Index~Result\n * @property {string} ref - The reference of the document this result represents.\n * @property {number} score - A number between 0 and 1 representing how similar this document is to the query.\n * @property {lunr.MatchData} matchData - Contains metadata about this match including which term(s) caused the match.\n */\n\n/**\n * Although lunr provides the ability to create queries using lunr.Query, it also provides a simple\n * query language which itself is parsed into an instance of lunr.Query.\n *\n * For programmatically building queries it is advised to directly use lunr.Query, the query language\n * is best used for human entered text rather than program generated text.\n *\n * At its simplest queries can just be a single term, e.g. `hello`, multiple terms are also supported\n * and will be combined with OR, e.g `hello world` will match documents that contain either 'hello'\n * or 'world', though those that contain both will rank higher in the results.\n *\n * Wildcards can be included in terms to match one or more unspecified characters, these wildcards can\n * be inserted anywhere within the term, and more than one wildcard can exist in a single term. Adding\n * wildcards will increase the number of documents that will be found but can also have a negative\n * impact on query performance, especially with wildcards at the beginning of a term.\n *\n * Terms can be restricted to specific fields, e.g. `title:hello`, only documents with the term\n * hello in the title field will match this query. Using a field not present in the index will lead\n * to an error being thrown.\n *\n * Modifiers can also be added to terms, lunr supports edit distance and boost modifiers on terms. A term\n * boost will make documents matching that term score higher, e.g. `foo^5`. Edit distance is also supported\n * to provide fuzzy matching, e.g. 'hello~2' will match documents with hello with an edit distance of 2.\n * Avoid large values for edit distance to improve query performance.\n *\n * Each term also supports a presence modifier. By default a term's presence in document is optional, however\n * this can be changed to either required or prohibited. For a term's presence to be required in a document the\n * term should be prefixed with a '+', e.g. `+foo bar` is a search for documents that must contain 'foo' and\n * optionally contain 'bar'. Conversely a leading '-' sets the terms presence to prohibited, i.e. it must not\n * appear in a document, e.g. `-foo bar` is a search for documents that do not contain 'foo' but may contain 'bar'.\n *\n * To escape special characters the backslash character '\\' can be used, this allows searches to include\n * characters that would normally be considered modifiers, e.g. `foo\\~2` will search for a term \"foo~2\" instead\n * of attempting to apply a boost of 2 to the search term \"foo\".\n *\n * @typedef {string} lunr.Index~QueryString\n * @example <caption>Simple single term query</caption>\n * hello\n * @example <caption>Multiple term query</caption>\n * hello world\n * @example <caption>term scoped to a field</caption>\n * title:hello\n * @example <caption>term with a boost of 10</caption>\n * hello^10\n * @example <caption>term with an edit distance of 2</caption>\n * hello~2\n * @example <caption>terms with presence modifiers</caption>\n * -foo +bar baz\n */\n\n/**\n * Performs a search against the index using lunr query syntax.\n *\n * Results will be returned sorted by their score, the most relevant results\n * will be returned first.  For details on how the score is calculated, please see\n * the {@link https://lunrjs.com/guides/searching.html#scoring|guide}.\n *\n * For more programmatic querying use lunr.Index#query.\n *\n * @param {lunr.Index~QueryString} queryString - A string containing a lunr query.\n * @throws {lunr.QueryParseError} If the passed query string cannot be parsed.\n * @returns {lunr.Index~Result[]}\n */\nlunr.Index.prototype.search = function (queryString) {\n  return this.query(function (query) {\n    var parser = new lunr.QueryParser(queryString, query)\n    parser.parse()\n  })\n}\n\n/**\n * A query builder callback provides a query object to be used to express\n * the query to perform on the index.\n *\n * @callback lunr.Index~queryBuilder\n * @param {lunr.Query} query - The query object to build up.\n * @this lunr.Query\n */\n\n/**\n * Performs a query against the index using the yielded lunr.Query object.\n *\n * If performing programmatic queries against the index, this method is preferred\n * over lunr.Index#search so as to avoid the additional query parsing overhead.\n *\n * A query object is yielded to the supplied function which should be used to\n * express the query to be run against the index.\n *\n * Note that although this function takes a callback parameter it is _not_ an\n * asynchronous operation, the callback is just yielded a query object to be\n * customized.\n *\n * @param {lunr.Index~queryBuilder} fn - A function that is used to build the query.\n * @returns {lunr.Index~Result[]}\n */\nlunr.Index.prototype.query = function (fn) {\n  // for each query clause\n  // * process terms\n  // * expand terms from token set\n  // * find matching documents and metadata\n  // * get document vectors\n  // * score documents\n\n  var query = new lunr.Query(this.fields),\n      matchingFields = Object.create(null),\n      queryVectors = Object.create(null),\n      termFieldCache = Object.create(null),\n      requiredMatches = Object.create(null),\n      prohibitedMatches = Object.create(null)\n\n  /*\n   * To support field level boosts a query vector is created per\n   * field. An empty vector is eagerly created to support negated\n   * queries.\n   */\n  for (var i = 0; i < this.fields.length; i++) {\n    queryVectors[this.fields[i]] = new lunr.Vector\n  }\n\n  fn.call(query, query)\n\n  for (var i = 0; i < query.clauses.length; i++) {\n    /*\n     * Unless the pipeline has been disabled for this term, which is\n     * the case for terms with wildcards, we need to pass the clause\n     * term through the search pipeline. A pipeline returns an array\n     * of processed terms. Pipeline functions may expand the passed\n     * term, which means we may end up performing multiple index lookups\n     * for a single query term.\n     */\n    var clause = query.clauses[i],\n        terms = null,\n        clauseMatches = lunr.Set.empty\n\n    if (clause.usePipeline) {\n      terms = this.pipeline.runString(clause.term, {\n        fields: clause.fields\n      })\n    } else {\n      terms = [clause.term]\n    }\n\n    for (var m = 0; m < terms.length; m++) {\n      var term = terms[m]\n\n      /*\n       * Each term returned from the pipeline needs to use the same query\n       * clause object, e.g. the same boost and or edit distance. The\n       * simplest way to do this is to re-use the clause object but mutate\n       * its term property.\n       */\n      clause.term = term\n\n      /*\n       * From the term in the clause we create a token set which will then\n       * be used to intersect the indexes token set to get a list of terms\n       * to lookup in the inverted index\n       */\n      var termTokenSet = lunr.TokenSet.fromClause(clause),\n          expandedTerms = this.tokenSet.intersect(termTokenSet).toArray()\n\n      /*\n       * If a term marked as required does not exist in the tokenSet it is\n       * impossible for the search to return any matches. We set all the field\n       * scoped required matches set to empty and stop examining any further\n       * clauses.\n       */\n      if (expandedTerms.length === 0 && clause.presence === lunr.Query.presence.REQUIRED) {\n        for (var k = 0; k < clause.fields.length; k++) {\n          var field = clause.fields[k]\n          requiredMatches[field] = lunr.Set.empty\n        }\n\n        break\n      }\n\n      for (var j = 0; j < expandedTerms.length; j++) {\n        /*\n         * For each term get the posting and termIndex, this is required for\n         * building the query vector.\n         */\n        var expandedTerm = expandedTerms[j],\n            posting = this.invertedIndex[expandedTerm],\n            termIndex = posting._index\n\n        for (var k = 0; k < clause.fields.length; k++) {\n          /*\n           * For each field that this query term is scoped by (by default\n           * all fields are in scope) we need to get all the document refs\n           * that have this term in that field.\n           *\n           * The posting is the entry in the invertedIndex for the matching\n           * term from above.\n           */\n          var field = clause.fields[k],\n              fieldPosting = posting[field],\n              matchingDocumentRefs = Object.keys(fieldPosting),\n              termField = expandedTerm + \"/\" + field,\n              matchingDocumentsSet = new lunr.Set(matchingDocumentRefs)\n\n          /*\n           * if the presence of this term is required ensure that the matching\n           * documents are added to the set of required matches for this clause.\n           *\n           */\n          if (clause.presence == lunr.Query.presence.REQUIRED) {\n            clauseMatches = clauseMatches.union(matchingDocumentsSet)\n\n            if (requiredMatches[field] === undefined) {\n              requiredMatches[field] = lunr.Set.complete\n            }\n          }\n\n          /*\n           * if the presence of this term is prohibited ensure that the matching\n           * documents are added to the set of prohibited matches for this field,\n           * creating that set if it does not yet exist.\n           */\n          if (clause.presence == lunr.Query.presence.PROHIBITED) {\n            if (prohibitedMatches[field] === undefined) {\n              prohibitedMatches[field] = lunr.Set.empty\n            }\n\n            prohibitedMatches[field] = prohibitedMatches[field].union(matchingDocumentsSet)\n\n            /*\n             * Prohibited matches should not be part of the query vector used for\n             * similarity scoring and no metadata should be extracted so we continue\n             * to the next field\n             */\n            continue\n          }\n\n          /*\n           * The query field vector is populated using the termIndex found for\n           * the term and a unit value with the appropriate boost applied.\n           * Using upsert because there could already be an entry in the vector\n           * for the term we are working with. In that case we just add the scores\n           * together.\n           */\n          queryVectors[field].upsert(termIndex, clause.boost, function (a, b) { return a + b })\n\n          /**\n           * If we've already seen this term, field combo then we've already collected\n           * the matching documents and metadata, no need to go through all that again\n           */\n          if (termFieldCache[termField]) {\n            continue\n          }\n\n          for (var l = 0; l < matchingDocumentRefs.length; l++) {\n            /*\n             * All metadata for this term/field/document triple\n             * are then extracted and collected into an instance\n             * of lunr.MatchData ready to be returned in the query\n             * results\n             */\n            var matchingDocumentRef = matchingDocumentRefs[l],\n                matchingFieldRef = new lunr.FieldRef (matchingDocumentRef, field),\n                metadata = fieldPosting[matchingDocumentRef],\n                fieldMatch\n\n            if ((fieldMatch = matchingFields[matchingFieldRef]) === undefined) {\n              matchingFields[matchingFieldRef] = new lunr.MatchData (expandedTerm, field, metadata)\n            } else {\n              fieldMatch.add(expandedTerm, field, metadata)\n            }\n\n          }\n\n          termFieldCache[termField] = true\n        }\n      }\n    }\n\n    /**\n     * If the presence was required we need to update the requiredMatches field sets.\n     * We do this after all fields for the term have collected their matches because\n     * the clause terms presence is required in _any_ of the fields not _all_ of the\n     * fields.\n     */\n    if (clause.presence === lunr.Query.presence.REQUIRED) {\n      for (var k = 0; k < clause.fields.length; k++) {\n        var field = clause.fields[k]\n        requiredMatches[field] = requiredMatches[field].intersect(clauseMatches)\n      }\n    }\n  }\n\n  /**\n   * Need to combine the field scoped required and prohibited\n   * matching documents into a global set of required and prohibited\n   * matches\n   */\n  var allRequiredMatches = lunr.Set.complete,\n      allProhibitedMatches = lunr.Set.empty\n\n  for (var i = 0; i < this.fields.length; i++) {\n    var field = this.fields[i]\n\n    if (requiredMatches[field]) {\n      allRequiredMatches = allRequiredMatches.intersect(requiredMatches[field])\n    }\n\n    if (prohibitedMatches[field]) {\n      allProhibitedMatches = allProhibitedMatches.union(prohibitedMatches[field])\n    }\n  }\n\n  var matchingFieldRefs = Object.keys(matchingFields),\n      results = [],\n      matches = Object.create(null)\n\n  /*\n   * If the query is negated (contains only prohibited terms)\n   * we need to get _all_ fieldRefs currently existing in the\n   * index. This is only done when we know that the query is\n   * entirely prohibited terms to avoid any cost of getting all\n   * fieldRefs unnecessarily.\n   *\n   * Additionally, blank MatchData must be created to correctly\n   * populate the results.\n   */\n  if (query.isNegated()) {\n    matchingFieldRefs = Object.keys(this.fieldVectors)\n\n    for (var i = 0; i < matchingFieldRefs.length; i++) {\n      var matchingFieldRef = matchingFieldRefs[i]\n      var fieldRef = lunr.FieldRef.fromString(matchingFieldRef)\n      matchingFields[matchingFieldRef] = new lunr.MatchData\n    }\n  }\n\n  for (var i = 0; i < matchingFieldRefs.length; i++) {\n    /*\n     * Currently we have document fields that match the query, but we\n     * need to return documents. The matchData and scores are combined\n     * from multiple fields belonging to the same document.\n     *\n     * Scores are calculated by field, using the query vectors created\n     * above, and combined into a final document score using addition.\n     */\n    var fieldRef = lunr.FieldRef.fromString(matchingFieldRefs[i]),\n        docRef = fieldRef.docRef\n\n    if (!allRequiredMatches.contains(docRef)) {\n      continue\n    }\n\n    if (allProhibitedMatches.contains(docRef)) {\n      continue\n    }\n\n    var fieldVector = this.fieldVectors[fieldRef],\n        score = queryVectors[fieldRef.fieldName].similarity(fieldVector),\n        docMatch\n\n    if ((docMatch = matches[docRef]) !== undefined) {\n      docMatch.score += score\n      docMatch.matchData.combine(matchingFields[fieldRef])\n    } else {\n      var match = {\n        ref: docRef,\n        score: score,\n        matchData: matchingFields[fieldRef]\n      }\n      matches[docRef] = match\n      results.push(match)\n    }\n  }\n\n  /*\n   * Sort the results objects by score, highest first.\n   */\n  return results.sort(function (a, b) {\n    return b.score - a.score\n  })\n}\n\n/**\n * Prepares the index for JSON serialization.\n *\n * The schema for this JSON blob will be described in a\n * separate JSON schema file.\n *\n * @returns {Object}\n */\nlunr.Index.prototype.toJSON = function () {\n  var invertedIndex = Object.keys(this.invertedIndex)\n    .sort()\n    .map(function (term) {\n      return [term, this.invertedIndex[term]]\n    }, this)\n\n  var fieldVectors = Object.keys(this.fieldVectors)\n    .map(function (ref) {\n      return [ref, this.fieldVectors[ref].toJSON()]\n    }, this)\n\n  return {\n    version: lunr.version,\n    fields: this.fields,\n    fieldVectors: fieldVectors,\n    invertedIndex: invertedIndex,\n    pipeline: this.pipeline.toJSON()\n  }\n}\n\n/**\n * Loads a previously serialized lunr.Index\n *\n * @param {Object} serializedIndex - A previously serialized lunr.Index\n * @returns {lunr.Index}\n */\nlunr.Index.load = function (serializedIndex) {\n  var attrs = {},\n      fieldVectors = {},\n      serializedVectors = serializedIndex.fieldVectors,\n      invertedIndex = Object.create(null),\n      serializedInvertedIndex = serializedIndex.invertedIndex,\n      tokenSetBuilder = new lunr.TokenSet.Builder,\n      pipeline = lunr.Pipeline.load(serializedIndex.pipeline)\n\n  if (serializedIndex.version != lunr.version) {\n    lunr.utils.warn(\"Version mismatch when loading serialised index. Current version of lunr '\" + lunr.version + \"' does not match serialized index '\" + serializedIndex.version + \"'\")\n  }\n\n  for (var i = 0; i < serializedVectors.length; i++) {\n    var tuple = serializedVectors[i],\n        ref = tuple[0],\n        elements = tuple[1]\n\n    fieldVectors[ref] = new lunr.Vector(elements)\n  }\n\n  for (var i = 0; i < serializedInvertedIndex.length; i++) {\n    var tuple = serializedInvertedIndex[i],\n        term = tuple[0],\n        posting = tuple[1]\n\n    tokenSetBuilder.insert(term)\n    invertedIndex[term] = posting\n  }\n\n  tokenSetBuilder.finish()\n\n  attrs.fields = serializedIndex.fields\n\n  attrs.fieldVectors = fieldVectors\n  attrs.invertedIndex = invertedIndex\n  attrs.tokenSet = tokenSetBuilder.root\n  attrs.pipeline = pipeline\n\n  return new lunr.Index(attrs)\n}\n/*!\n * lunr.Builder\n * Copyright (C) 2020 Oliver Nightingale\n */\n\n/**\n * lunr.Builder performs indexing on a set of documents and\n * returns instances of lunr.Index ready for querying.\n *\n * All configuration of the index is done via the builder, the\n * fields to index, the document reference, the text processing\n * pipeline and document scoring parameters are all set on the\n * builder before indexing.\n *\n * @constructor\n * @property {string} _ref - Internal reference to the document reference field.\n * @property {string[]} _fields - Internal reference to the document fields to index.\n * @property {object} invertedIndex - The inverted index maps terms to document fields.\n * @property {object} documentTermFrequencies - Keeps track of document term frequencies.\n * @property {object} documentLengths - Keeps track of the length of documents added to the index.\n * @property {lunr.tokenizer} tokenizer - Function for splitting strings into tokens for indexing.\n * @property {lunr.Pipeline} pipeline - The pipeline performs text processing on tokens before indexing.\n * @property {lunr.Pipeline} searchPipeline - A pipeline for processing search terms before querying the index.\n * @property {number} documentCount - Keeps track of the total number of documents indexed.\n * @property {number} _b - A parameter to control field length normalization, setting this to 0 disabled normalization, 1 fully normalizes field lengths, the default value is 0.75.\n * @property {number} _k1 - A parameter to control how quickly an increase in term frequency results in term frequency saturation, the default value is 1.2.\n * @property {number} termIndex - A counter incremented for each unique term, used to identify a terms position in the vector space.\n * @property {array} metadataWhitelist - A list of metadata keys that have been whitelisted for entry in the index.\n */\nlunr.Builder = function () {\n  this._ref = \"id\"\n  this._fields = Object.create(null)\n  this._documents = Object.create(null)\n  this.invertedIndex = Object.create(null)\n  this.fieldTermFrequencies = {}\n  this.fieldLengths = {}\n  this.tokenizer = lunr.tokenizer\n  this.pipeline = new lunr.Pipeline\n  this.searchPipeline = new lunr.Pipeline\n  this.documentCount = 0\n  this._b = 0.75\n  this._k1 = 1.2\n  this.termIndex = 0\n  this.metadataWhitelist = []\n}\n\n/**\n * Sets the document field used as the document reference. Every document must have this field.\n * The type of this field in the document should be a string, if it is not a string it will be\n * coerced into a string by calling toString.\n *\n * The default ref is 'id'.\n *\n * The ref should _not_ be changed during indexing, it should be set before any documents are\n * added to the index. Changing it during indexing can lead to inconsistent results.\n *\n * @param {string} ref - The name of the reference field in the document.\n */\nlunr.Builder.prototype.ref = function (ref) {\n  this._ref = ref\n}\n\n/**\n * A function that is used to extract a field from a document.\n *\n * Lunr expects a field to be at the top level of a document, if however the field\n * is deeply nested within a document an extractor function can be used to extract\n * the right field for indexing.\n *\n * @callback fieldExtractor\n * @param {object} doc - The document being added to the index.\n * @returns {?(string|object|object[])} obj - The object that will be indexed for this field.\n * @example <caption>Extracting a nested field</caption>\n * function (doc) { return doc.nested.field }\n */\n\n/**\n * Adds a field to the list of document fields that will be indexed. Every document being\n * indexed should have this field. Null values for this field in indexed documents will\n * not cause errors but will limit the chance of that document being retrieved by searches.\n *\n * All fields should be added before adding documents to the index. Adding fields after\n * a document has been indexed will have no effect on already indexed documents.\n *\n * Fields can be boosted at build time. This allows terms within that field to have more\n * importance when ranking search results. Use a field boost to specify that matches within\n * one field are more important than other fields.\n *\n * @param {string} fieldName - The name of a field to index in all documents.\n * @param {object} attributes - Optional attributes associated with this field.\n * @param {number} [attributes.boost=1] - Boost applied to all terms within this field.\n * @param {fieldExtractor} [attributes.extractor] - Function to extract a field from a document.\n * @throws {RangeError} fieldName cannot contain unsupported characters '/'\n */\nlunr.Builder.prototype.field = function (fieldName, attributes) {\n  if (/\\//.test(fieldName)) {\n    throw new RangeError (\"Field '\" + fieldName + \"' contains illegal character '/'\")\n  }\n\n  this._fields[fieldName] = attributes || {}\n}\n\n/**\n * A parameter to tune the amount of field length normalisation that is applied when\n * calculating relevance scores. A value of 0 will completely disable any normalisation\n * and a value of 1 will fully normalise field lengths. The default is 0.75. Values of b\n * will be clamped to the range 0 - 1.\n *\n * @param {number} number - The value to set for this tuning parameter.\n */\nlunr.Builder.prototype.b = function (number) {\n  if (number < 0) {\n    this._b = 0\n  } else if (number > 1) {\n    this._b = 1\n  } else {\n    this._b = number\n  }\n}\n\n/**\n * A parameter that controls the speed at which a rise in term frequency results in term\n * frequency saturation. The default value is 1.2. Setting this to a higher value will give\n * slower saturation levels, a lower value will result in quicker saturation.\n *\n * @param {number} number - The value to set for this tuning parameter.\n */\nlunr.Builder.prototype.k1 = function (number) {\n  this._k1 = number\n}\n\n/**\n * Adds a document to the index.\n *\n * Before adding fields to the index the index should have been fully setup, with the document\n * ref and all fields to index already having been specified.\n *\n * The document must have a field name as specified by the ref (by default this is 'id') and\n * it should have all fields defined for indexing, though null or undefined values will not\n * cause errors.\n *\n * Entire documents can be boosted at build time. Applying a boost to a document indicates that\n * this document should rank higher in search results than other documents.\n *\n * @param {object} doc - The document to add to the index.\n * @param {object} attributes - Optional attributes associated with this document.\n * @param {number} [attributes.boost=1] - Boost applied to all terms within this document.\n */\nlunr.Builder.prototype.add = function (doc, attributes) {\n  var docRef = doc[this._ref],\n      fields = Object.keys(this._fields)\n\n  this._documents[docRef] = attributes || {}\n  this.documentCount += 1\n\n  for (var i = 0; i < fields.length; i++) {\n    var fieldName = fields[i],\n        extractor = this._fields[fieldName].extractor,\n        field = extractor ? extractor(doc) : doc[fieldName],\n        tokens = this.tokenizer(field, {\n          fields: [fieldName]\n        }),\n        terms = this.pipeline.run(tokens),\n        fieldRef = new lunr.FieldRef (docRef, fieldName),\n        fieldTerms = Object.create(null)\n\n    this.fieldTermFrequencies[fieldRef] = fieldTerms\n    this.fieldLengths[fieldRef] = 0\n\n    // store the length of this field for this document\n    this.fieldLengths[fieldRef] += terms.length\n\n    // calculate term frequencies for this field\n    for (var j = 0; j < terms.length; j++) {\n      var term = terms[j]\n\n      if (fieldTerms[term] == undefined) {\n        fieldTerms[term] = 0\n      }\n\n      fieldTerms[term] += 1\n\n      // add to inverted index\n      // create an initial posting if one doesn't exist\n      if (this.invertedIndex[term] == undefined) {\n        var posting = Object.create(null)\n        posting[\"_index\"] = this.termIndex\n        this.termIndex += 1\n\n        for (var k = 0; k < fields.length; k++) {\n          posting[fields[k]] = Object.create(null)\n        }\n\n        this.invertedIndex[term] = posting\n      }\n\n      // add an entry for this term/fieldName/docRef to the invertedIndex\n      if (this.invertedIndex[term][fieldName][docRef] == undefined) {\n        this.invertedIndex[term][fieldName][docRef] = Object.create(null)\n      }\n\n      // store all whitelisted metadata about this token in the\n      // inverted index\n      for (var l = 0; l < this.metadataWhitelist.length; l++) {\n        var metadataKey = this.metadataWhitelist[l],\n            metadata = term.metadata[metadataKey]\n\n        if (this.invertedIndex[term][fieldName][docRef][metadataKey] == undefined) {\n          this.invertedIndex[term][fieldName][docRef][metadataKey] = []\n        }\n\n        this.invertedIndex[term][fieldName][docRef][metadataKey].push(metadata)\n      }\n    }\n\n  }\n}\n\n/**\n * Calculates the average document length for this index\n *\n * @private\n */\nlunr.Builder.prototype.calculateAverageFieldLengths = function () {\n\n  var fieldRefs = Object.keys(this.fieldLengths),\n      numberOfFields = fieldRefs.length,\n      accumulator = {},\n      documentsWithField = {}\n\n  for (var i = 0; i < numberOfFields; i++) {\n    var fieldRef = lunr.FieldRef.fromString(fieldRefs[i]),\n        field = fieldRef.fieldName\n\n    documentsWithField[field] || (documentsWithField[field] = 0)\n    documentsWithField[field] += 1\n\n    accumulator[field] || (accumulator[field] = 0)\n    accumulator[field] += this.fieldLengths[fieldRef]\n  }\n\n  var fields = Object.keys(this._fields)\n\n  for (var i = 0; i < fields.length; i++) {\n    var fieldName = fields[i]\n    accumulator[fieldName] = accumulator[fieldName] / documentsWithField[fieldName]\n  }\n\n  this.averageFieldLength = accumulator\n}\n\n/**\n * Builds a vector space model of every document using lunr.Vector\n *\n * @private\n */\nlunr.Builder.prototype.createFieldVectors = function () {\n  var fieldVectors = {},\n      fieldRefs = Object.keys(this.fieldTermFrequencies),\n      fieldRefsLength = fieldRefs.length,\n      termIdfCache = Object.create(null)\n\n  for (var i = 0; i < fieldRefsLength; i++) {\n    var fieldRef = lunr.FieldRef.fromString(fieldRefs[i]),\n        fieldName = fieldRef.fieldName,\n        fieldLength = this.fieldLengths[fieldRef],\n        fieldVector = new lunr.Vector,\n        termFrequencies = this.fieldTermFrequencies[fieldRef],\n        terms = Object.keys(termFrequencies),\n        termsLength = terms.length\n\n\n    var fieldBoost = this._fields[fieldName].boost || 1,\n        docBoost = this._documents[fieldRef.docRef].boost || 1\n\n    for (var j = 0; j < termsLength; j++) {\n      var term = terms[j],\n          tf = termFrequencies[term],\n          termIndex = this.invertedIndex[term]._index,\n          idf, score, scoreWithPrecision\n\n      if (termIdfCache[term] === undefined) {\n        idf = lunr.idf(this.invertedIndex[term], this.documentCount)\n        termIdfCache[term] = idf\n      } else {\n        idf = termIdfCache[term]\n      }\n\n      score = idf * ((this._k1 + 1) * tf) / (this._k1 * (1 - this._b + this._b * (fieldLength / this.averageFieldLength[fieldName])) + tf)\n      score *= fieldBoost\n      score *= docBoost\n      scoreWithPrecision = Math.round(score * 1000) / 1000\n      // Converts 1.23456789 to 1.234.\n      // Reducing the precision so that the vectors take up less\n      // space when serialised. Doing it now so that they behave\n      // the same before and after serialisation. Also, this is\n      // the fastest approach to reducing a number's precision in\n      // JavaScript.\n\n      fieldVector.insert(termIndex, scoreWithPrecision)\n    }\n\n    fieldVectors[fieldRef] = fieldVector\n  }\n\n  this.fieldVectors = fieldVectors\n}\n\n/**\n * Creates a token set of all tokens in the index using lunr.TokenSet\n *\n * @private\n */\nlunr.Builder.prototype.createTokenSet = function () {\n  this.tokenSet = lunr.TokenSet.fromArray(\n    Object.keys(this.invertedIndex).sort()\n  )\n}\n\n/**\n * Builds the index, creating an instance of lunr.Index.\n *\n * This completes the indexing process and should only be called\n * once all documents have been added to the index.\n *\n * @returns {lunr.Index}\n */\nlunr.Builder.prototype.build = function () {\n  this.calculateAverageFieldLengths()\n  this.createFieldVectors()\n  this.createTokenSet()\n\n  return new lunr.Index({\n    invertedIndex: this.invertedIndex,\n    fieldVectors: this.fieldVectors,\n    tokenSet: this.tokenSet,\n    fields: Object.keys(this._fields),\n    pipeline: this.searchPipeline\n  })\n}\n\n/**\n * Applies a plugin to the index builder.\n *\n * A plugin is a function that is called with the index builder as its context.\n * Plugins can be used to customise or extend the behaviour of the index\n * in some way. A plugin is just a function, that encapsulated the custom\n * behaviour that should be applied when building the index.\n *\n * The plugin function will be called with the index builder as its argument, additional\n * arguments can also be passed when calling use. The function will be called\n * with the index builder as its context.\n *\n * @param {Function} plugin The plugin to apply.\n */\nlunr.Builder.prototype.use = function (fn) {\n  var args = Array.prototype.slice.call(arguments, 1)\n  args.unshift(this)\n  fn.apply(this, args)\n}\n/**\n * Contains and collects metadata about a matching document.\n * A single instance of lunr.MatchData is returned as part of every\n * lunr.Index~Result.\n *\n * @constructor\n * @param {string} term - The term this match data is associated with\n * @param {string} field - The field in which the term was found\n * @param {object} metadata - The metadata recorded about this term in this field\n * @property {object} metadata - A cloned collection of metadata associated with this document.\n * @see {@link lunr.Index~Result}\n */\nlunr.MatchData = function (term, field, metadata) {\n  var clonedMetadata = Object.create(null),\n      metadataKeys = Object.keys(metadata || {})\n\n  // Cloning the metadata to prevent the original\n  // being mutated during match data combination.\n  // Metadata is kept in an array within the inverted\n  // index so cloning the data can be done with\n  // Array#slice\n  for (var i = 0; i < metadataKeys.length; i++) {\n    var key = metadataKeys[i]\n    clonedMetadata[key] = metadata[key].slice()\n  }\n\n  this.metadata = Object.create(null)\n\n  if (term !== undefined) {\n    this.metadata[term] = Object.create(null)\n    this.metadata[term][field] = clonedMetadata\n  }\n}\n\n/**\n * An instance of lunr.MatchData will be created for every term that matches a\n * document. However only one instance is required in a lunr.Index~Result. This\n * method combines metadata from another instance of lunr.MatchData with this\n * objects metadata.\n *\n * @param {lunr.MatchData} otherMatchData - Another instance of match data to merge with this one.\n * @see {@link lunr.Index~Result}\n */\nlunr.MatchData.prototype.combine = function (otherMatchData) {\n  var terms = Object.keys(otherMatchData.metadata)\n\n  for (var i = 0; i < terms.length; i++) {\n    var term = terms[i],\n        fields = Object.keys(otherMatchData.metadata[term])\n\n    if (this.metadata[term] == undefined) {\n      this.metadata[term] = Object.create(null)\n    }\n\n    for (var j = 0; j < fields.length; j++) {\n      var field = fields[j],\n          keys = Object.keys(otherMatchData.metadata[term][field])\n\n      if (this.metadata[term][field] == undefined) {\n        this.metadata[term][field] = Object.create(null)\n      }\n\n      for (var k = 0; k < keys.length; k++) {\n        var key = keys[k]\n\n        if (this.metadata[term][field][key] == undefined) {\n          this.metadata[term][field][key] = otherMatchData.metadata[term][field][key]\n        } else {\n          this.metadata[term][field][key] = this.metadata[term][field][key].concat(otherMatchData.metadata[term][field][key])\n        }\n\n      }\n    }\n  }\n}\n\n/**\n * Add metadata for a term/field pair to this instance of match data.\n *\n * @param {string} term - The term this match data is associated with\n * @param {string} field - The field in which the term was found\n * @param {object} metadata - The metadata recorded about this term in this field\n */\nlunr.MatchData.prototype.add = function (term, field, metadata) {\n  if (!(term in this.metadata)) {\n    this.metadata[term] = Object.create(null)\n    this.metadata[term][field] = metadata\n    return\n  }\n\n  if (!(field in this.metadata[term])) {\n    this.metadata[term][field] = metadata\n    return\n  }\n\n  var metadataKeys = Object.keys(metadata)\n\n  for (var i = 0; i < metadataKeys.length; i++) {\n    var key = metadataKeys[i]\n\n    if (key in this.metadata[term][field]) {\n      this.metadata[term][field][key] = this.metadata[term][field][key].concat(metadata[key])\n    } else {\n      this.metadata[term][field][key] = metadata[key]\n    }\n  }\n}\n/**\n * A lunr.Query provides a programmatic way of defining queries to be performed\n * against a {@link lunr.Index}.\n *\n * Prefer constructing a lunr.Query using the {@link lunr.Index#query} method\n * so the query object is pre-initialized with the right index fields.\n *\n * @constructor\n * @property {lunr.Query~Clause[]} clauses - An array of query clauses.\n * @property {string[]} allFields - An array of all available fields in a lunr.Index.\n */\nlunr.Query = function (allFields) {\n  this.clauses = []\n  this.allFields = allFields\n}\n\n/**\n * Constants for indicating what kind of automatic wildcard insertion will be used when constructing a query clause.\n *\n * This allows wildcards to be added to the beginning and end of a term without having to manually do any string\n * concatenation.\n *\n * The wildcard constants can be bitwise combined to select both leading and trailing wildcards.\n *\n * @constant\n * @default\n * @property {number} wildcard.NONE - The term will have no wildcards inserted, this is the default behaviour\n * @property {number} wildcard.LEADING - Prepend the term with a wildcard, unless a leading wildcard already exists\n * @property {number} wildcard.TRAILING - Append a wildcard to the term, unless a trailing wildcard already exists\n * @see lunr.Query~Clause\n * @see lunr.Query#clause\n * @see lunr.Query#term\n * @example <caption>query term with trailing wildcard</caption>\n * query.term('foo', { wildcard: lunr.Query.wildcard.TRAILING })\n * @example <caption>query term with leading and trailing wildcard</caption>\n * query.term('foo', {\n *   wildcard: lunr.Query.wildcard.LEADING | lunr.Query.wildcard.TRAILING\n * })\n */\n\nlunr.Query.wildcard = new String (\"*\")\nlunr.Query.wildcard.NONE = 0\nlunr.Query.wildcard.LEADING = 1\nlunr.Query.wildcard.TRAILING = 2\n\n/**\n * Constants for indicating what kind of presence a term must have in matching documents.\n *\n * @constant\n * @enum {number}\n * @see lunr.Query~Clause\n * @see lunr.Query#clause\n * @see lunr.Query#term\n * @example <caption>query term with required presence</caption>\n * query.term('foo', { presence: lunr.Query.presence.REQUIRED })\n */\nlunr.Query.presence = {\n  /**\n   * Term's presence in a document is optional, this is the default value.\n   */\n  OPTIONAL: 1,\n\n  /**\n   * Term's presence in a document is required, documents that do not contain\n   * this term will not be returned.\n   */\n  REQUIRED: 2,\n\n  /**\n   * Term's presence in a document is prohibited, documents that do contain\n   * this term will not be returned.\n   */\n  PROHIBITED: 3\n}\n\n/**\n * A single clause in a {@link lunr.Query} contains a term and details on how to\n * match that term against a {@link lunr.Index}.\n *\n * @typedef {Object} lunr.Query~Clause\n * @property {string[]} fields - The fields in an index this clause should be matched against.\n * @property {number} [boost=1] - Any boost that should be applied when matching this clause.\n * @property {number} [editDistance] - Whether the term should have fuzzy matching applied, and how fuzzy the match should be.\n * @property {boolean} [usePipeline] - Whether the term should be passed through the search pipeline.\n * @property {number} [wildcard=lunr.Query.wildcard.NONE] - Whether the term should have wildcards appended or prepended.\n * @property {number} [presence=lunr.Query.presence.OPTIONAL] - The terms presence in any matching documents.\n */\n\n/**\n * Adds a {@link lunr.Query~Clause} to this query.\n *\n * Unless the clause contains the fields to be matched all fields will be matched. In addition\n * a default boost of 1 is applied to the clause.\n *\n * @param {lunr.Query~Clause} clause - The clause to add to this query.\n * @see lunr.Query~Clause\n * @returns {lunr.Query}\n */\nlunr.Query.prototype.clause = function (clause) {\n  if (!('fields' in clause)) {\n    clause.fields = this.allFields\n  }\n\n  if (!('boost' in clause)) {\n    clause.boost = 1\n  }\n\n  if (!('usePipeline' in clause)) {\n    clause.usePipeline = true\n  }\n\n  if (!('wildcard' in clause)) {\n    clause.wildcard = lunr.Query.wildcard.NONE\n  }\n\n  if ((clause.wildcard & lunr.Query.wildcard.LEADING) && (clause.term.charAt(0) != lunr.Query.wildcard)) {\n    clause.term = \"*\" + clause.term\n  }\n\n  if ((clause.wildcard & lunr.Query.wildcard.TRAILING) && (clause.term.slice(-1) != lunr.Query.wildcard)) {\n    clause.term = \"\" + clause.term + \"*\"\n  }\n\n  if (!('presence' in clause)) {\n    clause.presence = lunr.Query.presence.OPTIONAL\n  }\n\n  this.clauses.push(clause)\n\n  return this\n}\n\n/**\n * A negated query is one in which every clause has a presence of\n * prohibited. These queries require some special processing to return\n * the expected results.\n *\n * @returns boolean\n */\nlunr.Query.prototype.isNegated = function () {\n  for (var i = 0; i < this.clauses.length; i++) {\n    if (this.clauses[i].presence != lunr.Query.presence.PROHIBITED) {\n      return false\n    }\n  }\n\n  return true\n}\n\n/**\n * Adds a term to the current query, under the covers this will create a {@link lunr.Query~Clause}\n * to the list of clauses that make up this query.\n *\n * The term is used as is, i.e. no tokenization will be performed by this method. Instead conversion\n * to a token or token-like string should be done before calling this method.\n *\n * The term will be converted to a string by calling `toString`. Multiple terms can be passed as an\n * array, each term in the array will share the same options.\n *\n * @param {object|object[]} term - The term(s) to add to the query.\n * @param {object} [options] - Any additional properties to add to the query clause.\n * @returns {lunr.Query}\n * @see lunr.Query#clause\n * @see lunr.Query~Clause\n * @example <caption>adding a single term to a query</caption>\n * query.term(\"foo\")\n * @example <caption>adding a single term to a query and specifying search fields, term boost and automatic trailing wildcard</caption>\n * query.term(\"foo\", {\n *   fields: [\"title\"],\n *   boost: 10,\n *   wildcard: lunr.Query.wildcard.TRAILING\n * })\n * @example <caption>using lunr.tokenizer to convert a string to tokens before using them as terms</caption>\n * query.term(lunr.tokenizer(\"foo bar\"))\n */\nlunr.Query.prototype.term = function (term, options) {\n  if (Array.isArray(term)) {\n    term.forEach(function (t) { this.term(t, lunr.utils.clone(options)) }, this)\n    return this\n  }\n\n  var clause = options || {}\n  clause.term = term.toString()\n\n  this.clause(clause)\n\n  return this\n}\nlunr.QueryParseError = function (message, start, end) {\n  this.name = \"QueryParseError\"\n  this.message = message\n  this.start = start\n  this.end = end\n}\n\nlunr.QueryParseError.prototype = new Error\nlunr.QueryLexer = function (str) {\n  this.lexemes = []\n  this.str = str\n  this.length = str.length\n  this.pos = 0\n  this.start = 0\n  this.escapeCharPositions = []\n}\n\nlunr.QueryLexer.prototype.run = function () {\n  var state = lunr.QueryLexer.lexText\n\n  while (state) {\n    state = state(this)\n  }\n}\n\nlunr.QueryLexer.prototype.sliceString = function () {\n  var subSlices = [],\n      sliceStart = this.start,\n      sliceEnd = this.pos\n\n  for (var i = 0; i < this.escapeCharPositions.length; i++) {\n    sliceEnd = this.escapeCharPositions[i]\n    subSlices.push(this.str.slice(sliceStart, sliceEnd))\n    sliceStart = sliceEnd + 1\n  }\n\n  subSlices.push(this.str.slice(sliceStart, this.pos))\n  this.escapeCharPositions.length = 0\n\n  return subSlices.join('')\n}\n\nlunr.QueryLexer.prototype.emit = function (type) {\n  this.lexemes.push({\n    type: type,\n    str: this.sliceString(),\n    start: this.start,\n    end: this.pos\n  })\n\n  this.start = this.pos\n}\n\nlunr.QueryLexer.prototype.escapeCharacter = function () {\n  this.escapeCharPositions.push(this.pos - 1)\n  this.pos += 1\n}\n\nlunr.QueryLexer.prototype.next = function () {\n  if (this.pos >= this.length) {\n    return lunr.QueryLexer.EOS\n  }\n\n  var char = this.str.charAt(this.pos)\n  this.pos += 1\n  return char\n}\n\nlunr.QueryLexer.prototype.width = function () {\n  return this.pos - this.start\n}\n\nlunr.QueryLexer.prototype.ignore = function () {\n  if (this.start == this.pos) {\n    this.pos += 1\n  }\n\n  this.start = this.pos\n}\n\nlunr.QueryLexer.prototype.backup = function () {\n  this.pos -= 1\n}\n\nlunr.QueryLexer.prototype.acceptDigitRun = function () {\n  var char, charCode\n\n  do {\n    char = this.next()\n    charCode = char.charCodeAt(0)\n  } while (charCode > 47 && charCode < 58)\n\n  if (char != lunr.QueryLexer.EOS) {\n    this.backup()\n  }\n}\n\nlunr.QueryLexer.prototype.more = function () {\n  return this.pos < this.length\n}\n\nlunr.QueryLexer.EOS = 'EOS'\nlunr.QueryLexer.FIELD = 'FIELD'\nlunr.QueryLexer.TERM = 'TERM'\nlunr.QueryLexer.EDIT_DISTANCE = 'EDIT_DISTANCE'\nlunr.QueryLexer.BOOST = 'BOOST'\nlunr.QueryLexer.PRESENCE = 'PRESENCE'\n\nlunr.QueryLexer.lexField = function (lexer) {\n  lexer.backup()\n  lexer.emit(lunr.QueryLexer.FIELD)\n  lexer.ignore()\n  return lunr.QueryLexer.lexText\n}\n\nlunr.QueryLexer.lexTerm = function (lexer) {\n  if (lexer.width() > 1) {\n    lexer.backup()\n    lexer.emit(lunr.QueryLexer.TERM)\n  }\n\n  lexer.ignore()\n\n  if (lexer.more()) {\n    return lunr.QueryLexer.lexText\n  }\n}\n\nlunr.QueryLexer.lexEditDistance = function (lexer) {\n  lexer.ignore()\n  lexer.acceptDigitRun()\n  lexer.emit(lunr.QueryLexer.EDIT_DISTANCE)\n  return lunr.QueryLexer.lexText\n}\n\nlunr.QueryLexer.lexBoost = function (lexer) {\n  lexer.ignore()\n  lexer.acceptDigitRun()\n  lexer.emit(lunr.QueryLexer.BOOST)\n  return lunr.QueryLexer.lexText\n}\n\nlunr.QueryLexer.lexEOS = function (lexer) {\n  if (lexer.width() > 0) {\n    lexer.emit(lunr.QueryLexer.TERM)\n  }\n}\n\n// This matches the separator used when tokenising fields\n// within a document. These should match otherwise it is\n// not possible to search for some tokens within a document.\n//\n// It is possible for the user to change the separator on the\n// tokenizer so it _might_ clash with any other of the special\n// characters already used within the search string, e.g. :.\n//\n// This means that it is possible to change the separator in\n// such a way that makes some words unsearchable using a search\n// string.\nlunr.QueryLexer.termSeparator = lunr.tokenizer.separator\n\nlunr.QueryLexer.lexText = function (lexer) {\n  while (true) {\n    var char = lexer.next()\n\n    if (char == lunr.QueryLexer.EOS) {\n      return lunr.QueryLexer.lexEOS\n    }\n\n    // Escape character is '\\'\n    if (char.charCodeAt(0) == 92) {\n      lexer.escapeCharacter()\n      continue\n    }\n\n    if (char == \":\") {\n      return lunr.QueryLexer.lexField\n    }\n\n    if (char == \"~\") {\n      lexer.backup()\n      if (lexer.width() > 0) {\n        lexer.emit(lunr.QueryLexer.TERM)\n      }\n      return lunr.QueryLexer.lexEditDistance\n    }\n\n    if (char == \"^\") {\n      lexer.backup()\n      if (lexer.width() > 0) {\n        lexer.emit(lunr.QueryLexer.TERM)\n      }\n      return lunr.QueryLexer.lexBoost\n    }\n\n    // \"+\" indicates term presence is required\n    // checking for length to ensure that only\n    // leading \"+\" are considered\n    if (char == \"+\" && lexer.width() === 1) {\n      lexer.emit(lunr.QueryLexer.PRESENCE)\n      return lunr.QueryLexer.lexText\n    }\n\n    // \"-\" indicates term presence is prohibited\n    // checking for length to ensure that only\n    // leading \"-\" are considered\n    if (char == \"-\" && lexer.width() === 1) {\n      lexer.emit(lunr.QueryLexer.PRESENCE)\n      return lunr.QueryLexer.lexText\n    }\n\n    if (char.match(lunr.QueryLexer.termSeparator)) {\n      return lunr.QueryLexer.lexTerm\n    }\n  }\n}\n\nlunr.QueryParser = function (str, query) {\n  this.lexer = new lunr.QueryLexer (str)\n  this.query = query\n  this.currentClause = {}\n  this.lexemeIdx = 0\n}\n\nlunr.QueryParser.prototype.parse = function () {\n  this.lexer.run()\n  this.lexemes = this.lexer.lexemes\n\n  var state = lunr.QueryParser.parseClause\n\n  while (state) {\n    state = state(this)\n  }\n\n  return this.query\n}\n\nlunr.QueryParser.prototype.peekLexeme = function () {\n  return this.lexemes[this.lexemeIdx]\n}\n\nlunr.QueryParser.prototype.consumeLexeme = function () {\n  var lexeme = this.peekLexeme()\n  this.lexemeIdx += 1\n  return lexeme\n}\n\nlunr.QueryParser.prototype.nextClause = function () {\n  var completedClause = this.currentClause\n  this.query.clause(completedClause)\n  this.currentClause = {}\n}\n\nlunr.QueryParser.parseClause = function (parser) {\n  var lexeme = parser.peekLexeme()\n\n  if (lexeme == undefined) {\n    return\n  }\n\n  switch (lexeme.type) {\n    case lunr.QueryLexer.PRESENCE:\n      return lunr.QueryParser.parsePresence\n    case lunr.QueryLexer.FIELD:\n      return lunr.QueryParser.parseField\n    case lunr.QueryLexer.TERM:\n      return lunr.QueryParser.parseTerm\n    default:\n      var errorMessage = \"expected either a field or a term, found \" + lexeme.type\n\n      if (lexeme.str.length >= 1) {\n        errorMessage += \" with value '\" + lexeme.str + \"'\"\n      }\n\n      throw new lunr.QueryParseError (errorMessage, lexeme.start, lexeme.end)\n  }\n}\n\nlunr.QueryParser.parsePresence = function (parser) {\n  var lexeme = parser.consumeLexeme()\n\n  if (lexeme == undefined) {\n    return\n  }\n\n  switch (lexeme.str) {\n    case \"-\":\n      parser.currentClause.presence = lunr.Query.presence.PROHIBITED\n      break\n    case \"+\":\n      parser.currentClause.presence = lunr.Query.presence.REQUIRED\n      break\n    default:\n      var errorMessage = \"unrecognised presence operator'\" + lexeme.str + \"'\"\n      throw new lunr.QueryParseError (errorMessage, lexeme.start, lexeme.end)\n  }\n\n  var nextLexeme = parser.peekLexeme()\n\n  if (nextLexeme == undefined) {\n    var errorMessage = \"expecting term or field, found nothing\"\n    throw new lunr.QueryParseError (errorMessage, lexeme.start, lexeme.end)\n  }\n\n  switch (nextLexeme.type) {\n    case lunr.QueryLexer.FIELD:\n      return lunr.QueryParser.parseField\n    case lunr.QueryLexer.TERM:\n      return lunr.QueryParser.parseTerm\n    default:\n      var errorMessage = \"expecting term or field, found '\" + nextLexeme.type + \"'\"\n      throw new lunr.QueryParseError (errorMessage, nextLexeme.start, nextLexeme.end)\n  }\n}\n\nlunr.QueryParser.parseField = function (parser) {\n  var lexeme = parser.consumeLexeme()\n\n  if (lexeme == undefined) {\n    return\n  }\n\n  if (parser.query.allFields.indexOf(lexeme.str) == -1) {\n    var possibleFields = parser.query.allFields.map(function (f) { return \"'\" + f + \"'\" }).join(', '),\n        errorMessage = \"unrecognised field '\" + lexeme.str + \"', possible fields: \" + possibleFields\n\n    throw new lunr.QueryParseError (errorMessage, lexeme.start, lexeme.end)\n  }\n\n  parser.currentClause.fields = [lexeme.str]\n\n  var nextLexeme = parser.peekLexeme()\n\n  if (nextLexeme == undefined) {\n    var errorMessage = \"expecting term, found nothing\"\n    throw new lunr.QueryParseError (errorMessage, lexeme.start, lexeme.end)\n  }\n\n  switch (nextLexeme.type) {\n    case lunr.QueryLexer.TERM:\n      return lunr.QueryParser.parseTerm\n    default:\n      var errorMessage = \"expecting term, found '\" + nextLexeme.type + \"'\"\n      throw new lunr.QueryParseError (errorMessage, nextLexeme.start, nextLexeme.end)\n  }\n}\n\nlunr.QueryParser.parseTerm = function (parser) {\n  var lexeme = parser.consumeLexeme()\n\n  if (lexeme == undefined) {\n    return\n  }\n\n  parser.currentClause.term = lexeme.str.toLowerCase()\n\n  if (lexeme.str.indexOf(\"*\") != -1) {\n    parser.currentClause.usePipeline = false\n  }\n\n  var nextLexeme = parser.peekLexeme()\n\n  if (nextLexeme == undefined) {\n    parser.nextClause()\n    return\n  }\n\n  switch (nextLexeme.type) {\n    case lunr.QueryLexer.TERM:\n      parser.nextClause()\n      return lunr.QueryParser.parseTerm\n    case lunr.QueryLexer.FIELD:\n      parser.nextClause()\n      return lunr.QueryParser.parseField\n    case lunr.QueryLexer.EDIT_DISTANCE:\n      return lunr.QueryParser.parseEditDistance\n    case lunr.QueryLexer.BOOST:\n      return lunr.QueryParser.parseBoost\n    case lunr.QueryLexer.PRESENCE:\n      parser.nextClause()\n      return lunr.QueryParser.parsePresence\n    default:\n      var errorMessage = \"Unexpected lexeme type '\" + nextLexeme.type + \"'\"\n      throw new lunr.QueryParseError (errorMessage, nextLexeme.start, nextLexeme.end)\n  }\n}\n\nlunr.QueryParser.parseEditDistance = function (parser) {\n  var lexeme = parser.consumeLexeme()\n\n  if (lexeme == undefined) {\n    return\n  }\n\n  var editDistance = parseInt(lexeme.str, 10)\n\n  if (isNaN(editDistance)) {\n    var errorMessage = \"edit distance must be numeric\"\n    throw new lunr.QueryParseError (errorMessage, lexeme.start, lexeme.end)\n  }\n\n  parser.currentClause.editDistance = editDistance\n\n  var nextLexeme = parser.peekLexeme()\n\n  if (nextLexeme == undefined) {\n    parser.nextClause()\n    return\n  }\n\n  switch (nextLexeme.type) {\n    case lunr.QueryLexer.TERM:\n      parser.nextClause()\n      return lunr.QueryParser.parseTerm\n    case lunr.QueryLexer.FIELD:\n      parser.nextClause()\n      return lunr.QueryParser.parseField\n    case lunr.QueryLexer.EDIT_DISTANCE:\n      return lunr.QueryParser.parseEditDistance\n    case lunr.QueryLexer.BOOST:\n      return lunr.QueryParser.parseBoost\n    case lunr.QueryLexer.PRESENCE:\n      parser.nextClause()\n      return lunr.QueryParser.parsePresence\n    default:\n      var errorMessage = \"Unexpected lexeme type '\" + nextLexeme.type + \"'\"\n      throw new lunr.QueryParseError (errorMessage, nextLexeme.start, nextLexeme.end)\n  }\n}\n\nlunr.QueryParser.parseBoost = function (parser) {\n  var lexeme = parser.consumeLexeme()\n\n  if (lexeme == undefined) {\n    return\n  }\n\n  var boost = parseInt(lexeme.str, 10)\n\n  if (isNaN(boost)) {\n    var errorMessage = \"boost must be numeric\"\n    throw new lunr.QueryParseError (errorMessage, lexeme.start, lexeme.end)\n  }\n\n  parser.currentClause.boost = boost\n\n  var nextLexeme = parser.peekLexeme()\n\n  if (nextLexeme == undefined) {\n    parser.nextClause()\n    return\n  }\n\n  switch (nextLexeme.type) {\n    case lunr.QueryLexer.TERM:\n      parser.nextClause()\n      return lunr.QueryParser.parseTerm\n    case lunr.QueryLexer.FIELD:\n      parser.nextClause()\n      return lunr.QueryParser.parseField\n    case lunr.QueryLexer.EDIT_DISTANCE:\n      return lunr.QueryParser.parseEditDistance\n    case lunr.QueryLexer.BOOST:\n      return lunr.QueryParser.parseBoost\n    case lunr.QueryLexer.PRESENCE:\n      parser.nextClause()\n      return lunr.QueryParser.parsePresence\n    default:\n      var errorMessage = \"Unexpected lexeme type '\" + nextLexeme.type + \"'\"\n      throw new lunr.QueryParseError (errorMessage, nextLexeme.start, nextLexeme.end)\n  }\n}\n\n  /**\n   * export the module via AMD, CommonJS or as a browser global\n   * Export code from https://github.com/umdjs/umd/blob/master/returnExports.js\n   */\n  ;(function (root, factory) {\n    if (typeof define === 'function' && define.amd) {\n      // AMD. Register as an anonymous module.\n      define(factory)\n    } else if (typeof exports === 'object') {\n      /**\n       * Node. Does not work with strict CommonJS, but\n       * only CommonJS-like enviroments that support module.exports,\n       * like Node.\n       */\n      module.exports = factory()\n    } else {\n      // Browser globals (root is window)\n      root.lunr = factory()\n    }\n  }(this, function () {\n    /**\n     * Just return a value to define the module export.\n     * This example returns an object, but the module\n     * can return a function as the exported value.\n     */\n    return lunr\n  }))\n})();\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A RTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport lunr from \"lunr\"\n\nimport { getElement } from \"~/browser/element/_\"\nimport \"~/polyfills\"\n\nimport { Search } from \"../../_\"\nimport { SearchConfig } from \"../../config\"\nimport {\n  SearchMessage,\n  SearchMessageType\n} from \"../message\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Add support for `iframe-worker` shim\n *\n * While `importScripts` is synchronous when executed inside of a web worker,\n * it's not possible to provide a synchronous shim implementation. The cool\n * thing is that awaiting a non-Promise will convert it into a Promise, so\n * extending the type definition to return a `Promise` shouldn't break anything.\n *\n * @see https://bit.ly/2PjDnXi - GitHub comment\n *\n * @param urls - Scripts to load\n *\n * @returns Promise resolving with no result\n */\ndeclare global {\n  function importScripts(...urls: string[]): Promise<void> | void\n}\n\n/* ----------------------------------------------------------------------------\n * Data\n * ------------------------------------------------------------------------- */\n\n/**\n * Search index\n */\nlet index: Search\n\n/* ----------------------------------------------------------------------------\n * Helper functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Fetch (= import) multi-language support through `lunr-languages`\n *\n * This function automatically imports the stemmers necessary to process the\n * languages which are defined as part of the search configuration.\n *\n * If the worker runs inside of an `iframe` (when using `iframe-worker` as\n * a shim), the base URL for the stemmers to be loaded must be determined by\n * searching for the first `script` element with a `src` attribute, which will\n * contain the contents of this script.\n *\n * @param config - Search configuration\n *\n * @returns Promise resolving with no result\n */\nasync function setupSearchLanguages(\n  config: SearchConfig\n): Promise<void> {\n  let base = \"../lunr\"\n\n  /* Detect `iframe-worker` and fix base URL */\n  if (typeof parent !== \"undefined\" && \"IFrameWorker\" in parent) {\n    const worker = getElement<HTMLScriptElement>(\"script[src]\")!\n    const [path] = worker.src.split(\"/worker\")\n\n    /* Prefix base with path */\n    base = base.replace(\"..\", path)\n  }\n\n  /* Add scripts for languages */\n  const scripts = []\n  for (const lang of config.lang) {\n    switch (lang) {\n\n      /* Add segmenter for Japanese */\n      case \"ja\":\n        scripts.push(`${base}/tinyseg.js`)\n        break\n\n      /* Add segmenter for Hindi and Thai */\n      case \"hi\":\n      case \"th\":\n        scripts.push(`${base}/wordcut.js`)\n        break\n    }\n\n    /* Add language support */\n    if (lang !== \"en\")\n      scripts.push(`${base}/min/lunr.${lang}.min.js`)\n  }\n\n  /* Add multi-language support */\n  if (config.lang.length > 1)\n    scripts.push(`${base}/min/lunr.multi.min.js`)\n\n  /* Load scripts synchronously */\n  if (scripts.length)\n    await importScripts(\n      `${base}/min/lunr.stemmer.support.min.js`,\n      ...scripts\n    )\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Message handler\n *\n * @param message - Source message\n *\n * @returns Target message\n */\nexport async function handler(\n  message: SearchMessage\n): Promise<SearchMessage> {\n  switch (message.type) {\n\n    /* Search setup message */\n    case SearchMessageType.SETUP:\n      await setupSearchLanguages(message.data.config)\n      index = new Search(message.data)\n      return {\n        type: SearchMessageType.READY\n      }\n\n    /* Search query message */\n    case SearchMessageType.QUERY:\n      const query = message.data\n      try {\n        return {\n          type: SearchMessageType.RESULT,\n          data: index.search(query)\n        }\n\n      /* Return empty result in case of error */\n      } catch (err) {\n        console.warn(`Invalid query: ${query} \u2013 see https://bit.ly/2s3ChXG`)\n        console.warn(err)\n        return {\n          type: SearchMessageType.RESULT,\n          data: { items: [] }\n        }\n      }\n\n    /* All other messages */\n    default:\n      throw new TypeError(\"Invalid message type\")\n  }\n}\n\n/* ----------------------------------------------------------------------------\n * Worker\n * ------------------------------------------------------------------------- */\n\n/* Expose Lunr.js in global scope, or stemmers won't work */\nself.lunr = lunr\n\n/* Handle messages */\naddEventListener(\"message\", async ev => {\n  postMessage(await handler(ev.data))\n})\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Retrieve all elements matching the query selector\n *\n * @template T - Element type\n *\n * @param selector - Query selector\n * @param node - Node of reference\n *\n * @returns Elements\n */\nexport function getElements<T extends keyof HTMLElementTagNameMap>(\n  selector: T, node?: ParentNode\n): HTMLElementTagNameMap[T][]\n\nexport function getElements<T extends HTMLElement>(\n  selector: string, node?: ParentNode\n): T[]\n\nexport function getElements<T extends HTMLElement>(\n  selector: string, node: ParentNode = document\n): T[] {\n  return Array.from(node.querySelectorAll<T>(selector))\n}\n\n/**\n * Retrieve an element matching a query selector or throw a reference error\n *\n * Note that this function assumes that the element is present. If unsure if an\n * element is existent, use the `getOptionalElement` function instead.\n *\n * @template T - Element type\n *\n * @param selector - Query selector\n * @param node - Node of reference\n *\n * @returns Element\n */\nexport function getElement<T extends keyof HTMLElementTagNameMap>(\n  selector: T, node?: ParentNode\n): HTMLElementTagNameMap[T]\n\nexport function getElement<T extends HTMLElement>(\n  selector: string, node?: ParentNode\n): T\n\nexport function getElement<T extends HTMLElement>(\n  selector: string, node: ParentNode = document\n): T {\n  const el = getOptionalElement<T>(selector, node)\n  if (typeof el === \"undefined\")\n    throw new ReferenceError(\n      `Missing element: expected \"${selector}\" to be present`\n    )\n\n  /* Return element */\n  return el\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Retrieve an optional element matching the query selector\n *\n * @template T - Element type\n *\n * @param selector - Query selector\n * @param node - Node of reference\n *\n * @returns Element or nothing\n */\nexport function getOptionalElement<T extends keyof HTMLElementTagNameMap>(\n  selector: T, node?: ParentNode\n): HTMLElementTagNameMap[T] | undefined\n\nexport function getOptionalElement<T extends HTMLElement>(\n  selector: string, node?: ParentNode\n): T | undefined\n\nexport function getOptionalElement<T extends HTMLElement>(\n  selector: string, node: ParentNode = document\n): T | undefined {\n  return node.querySelector<T>(selector) || undefined\n}\n\n/**\n * Retrieve the currently active element\n *\n * @returns Element or nothing\n */\nexport function getActiveElement(): HTMLElement | undefined {\n  return (\n    document.activeElement?.shadowRoot?.activeElement as HTMLElement ??\n    document.activeElement as HTMLElement ??\n    undefined\n  )\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\n/* ----------------------------------------------------------------------------\n * Polyfills\n * ------------------------------------------------------------------------- */\n\n/* Polyfill `Object.entries` */\nif (!Object.entries)\n  Object.entries = function (obj: object) {\n    const data: [string, string][] = []\n    for (const key of Object.keys(obj))\n      // @ts-expect-error - ignore property access warning\n      data.push([key, obj[key]])\n\n    /* Return entries */\n    return data\n  }\n\n/* Polyfill `Object.values` */\nif (!Object.values)\n  Object.values = function (obj: object) {\n    const data: string[] = []\n    for (const key of Object.keys(obj))\n      // @ts-expect-error - ignore property access warning\n      data.push(obj[key])\n\n    /* Return values */\n    return data\n  }\n\n/* ------------------------------------------------------------------------- */\n\n/* Polyfills for `Element` */\nif (typeof Element !== \"undefined\") {\n\n  /* Polyfill `Element.scrollTo` */\n  if (!Element.prototype.scrollTo)\n    Element.prototype.scrollTo = function (\n      x?: ScrollToOptions | number, y?: number\n    ): void {\n      if (typeof x === \"object\") {\n        this.scrollLeft = x.left!\n        this.scrollTop = x.top!\n      } else {\n        this.scrollLeft = x!\n        this.scrollTop = y!\n      }\n    }\n\n  /* Polyfill `Element.replaceWith` */\n  if (!Element.prototype.replaceWith)\n    Element.prototype.replaceWith = function (\n      ...nodes: Array<string | Node>\n    ): void {\n      const parent = this.parentNode\n      if (parent) {\n        if (nodes.length === 0)\n          parent.removeChild(this)\n\n        /* Replace children and create text nodes */\n        for (let i = nodes.length - 1; i >= 0; i--) {\n          let node = nodes[i]\n          if (typeof node === \"string\")\n            node = document.createTextNode(node)\n          else if (node.parentNode)\n            node.parentNode.removeChild(node)\n\n          /* Replace child or insert before previous sibling */\n          if (!i)\n            parent.replaceChild(node, this)\n          else\n            parent.insertBefore(this.previousSibling!, node)\n        }\n      }\n    }\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Search configuration\n */\nexport interface SearchConfig {\n  lang: string[]                       /* Search languages */\n  separator: string                    /* Search separator */\n  pipeline: SearchPipelineFn[]         /* Search pipeline */\n}\n\n/**\n * Search document\n */\nexport interface SearchDocument {\n  location: string                     /* Document location */\n  title: string                        /* Document title */\n  text: string                         /* Document text */\n  tags?: string[]                      /* Document tags */\n  boost?: number                       /* Document boost */\n  parent?: SearchDocument              /* Document parent */\n}\n\n/**\n * Search options\n */\nexport interface SearchOptions {\n  suggest: boolean                     /* Search suggestions */\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Search index\n */\nexport interface SearchIndex {\n  config: SearchConfig                 /* Search configuration */\n  docs: SearchDocument[]               /* Search documents */\n  options: SearchOptions               /* Search options */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Search pipeline function\n */\ntype SearchPipelineFn =\n  | \"trimmer\"                          /* Trimmer */\n  | \"stopWordFilter\"                   /* Stop word filter */\n  | \"stemmer\"                          /* Stemmer */\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Create a search document map\n *\n * This function creates a mapping of URLs (including anchors) to the actual\n * articles and sections. It relies on the invariant that the search index is\n * ordered with the main article appearing before all sections with anchors.\n * If this is not the case, the logic music be changed.\n *\n * @param docs - Search documents\n *\n * @returns Search document map\n */\nexport function setupSearchDocumentMap(\n  docs: SearchDocument[]\n): Map<string, SearchDocument> {\n  const map = new Map<string, SearchDocument>()\n  for (const doc of docs) {\n    const [path] = doc.location.split(\"#\")\n\n    /* Add document article */\n    const article = map.get(path)\n    if (typeof article === \"undefined\") {\n      map.set(path, doc)\n\n      /* Add document section */\n    } else {\n      map.set(doc.location, doc)\n      doc.parent = article\n    }\n  }\n\n  /* Return search document map */\n  return map\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Visitor function\n *\n * @param start - Start offset\n * @param end - End offset\n */\ntype VisitorFn = (\n  start: number, end: number\n) => void\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Split a string using the given separator\n *\n * @param input - Input value\n * @param separator - Separator\n * @param fn - Visitor function\n */\nexport function split(\n  input: string, separator: RegExp, fn: VisitorFn\n): void {\n  separator = new RegExp(separator, \"g\")\n\n  /* Split string using separator */\n  let match: RegExpExecArray | null\n  let index = 0\n  do {\n    match = separator.exec(input)\n\n    /* Emit non-empty range */\n    const until = match?.index ?? input.length\n    if (index < until)\n      fn(index, until)\n\n    /* Update last index */\n    if (match) {\n      const [term] = match\n      index = match.index + term.length\n\n      /* Support zero-length lookaheads */\n      if (term.length === 0)\n        separator.lastIndex = match.index + 1\n    }\n  } while (match)\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Extraction type\n *\n * This type defines the possible values that are encoded into the first two\n * bits of a section that is part of the blocks of a tokenization table. There\n * are three types of interest: HTML opening and closing tags, as well as the\n * actual text content we need to extract for indexing.\n */\nexport const enum Extract {\n  TAG_OPEN  = 0,                       /* HTML opening tag */\n  TEXT      = 1,                       /* Text content */\n  TAG_CLOSE = 2                        /* HTML closing tag */\n}\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Visitor function\n *\n * @param block - Block index\n * @param type - Extraction type\n * @param start - Start offset\n * @param end - End offset\n */\ntype VisitorFn = (\n  block: number, type: Extract, start: number, end: number\n) => void\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Split a string into markup and text sections\n *\n * This function scans a string and divides it up into sections of markup and\n * text. For each section, it invokes the given visitor function with the block\n * index, extraction type, as well as start and end offsets. Using a visitor\n * function (= streaming data) is ideal for minimizing pressure on the GC.\n *\n * @param input - Input value\n * @param fn - Visitor function\n */\nexport function extract(\n  input: string, fn: VisitorFn\n): void {\n\n  let block = 0                        /* Current block */\n  let start = 0                        /* Current start offset */\n  let end = 0                          /* Current end offset */\n\n  /* Split string into sections */\n  for (let stack = 0; end < input.length; end++) {\n\n    /* Opening tag after non-empty section */\n    if (input.charAt(end) === \"<\" && end > start) {\n      fn(block, Extract.TEXT, start, start = end)\n\n    /* Closing tag */\n    } else if (input.charAt(end) === \">\") {\n      if (input.charAt(start + 1) === \"/\") {\n        if (--stack === 0)\n          fn(block++, Extract.TAG_CLOSE, start, end + 1)\n\n      /* Tag is not self-closing */\n      } else if (input.charAt(end - 1) !== \"/\") {\n        if (stack++ === 0)\n          fn(block, Extract.TAG_OPEN, start, end + 1)\n      }\n\n      /* New section */\n      start = end + 1\n    }\n  }\n\n  /* Add trailing section */\n  if (end > start)\n    fn(block, Extract.TEXT, start, end)\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Position table\n */\nexport type PositionTable = number[][]\n\n/**\n * Position\n */\nexport type Position = number\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Highlight all occurrences in a string\n *\n * This function receives a field's value (e.g. like `title` or `text`), it's\n * position table that was generated during indexing, and the positions found\n * when executing the query. It then highlights all occurrences, and returns\n * their concatenation. In case of multiple blocks, two are returned.\n *\n * @param input - Input value\n * @param table - Table for indexing\n * @param positions - Occurrences\n * @param full - Full results\n *\n * @returns Highlighted string value\n */\nexport function highlight(\n  input: string, table: PositionTable, positions: Position[], full = false\n): string {\n  return highlightAll([input], table, positions, full).pop()!\n}\n\n/**\n * Highlight all occurrences in a set of strings\n *\n * @param inputs - Input values\n * @param table - Table for indexing\n * @param positions - Occurrences\n * @param full - Full results\n *\n * @returns Highlighted string values\n */\nexport function highlightAll(\n  inputs: string[], table: PositionTable, positions: Position[], full = false\n): string[] {\n\n  /* Map blocks to input values */\n  const mapping = [0]\n  for (let t = 1; t < table.length; t++) {\n    const prev = table[t - 1]\n    const next = table[t]\n\n    /* Check if table points to new block */\n    const p = prev[prev.length - 1] >>> 2 & 0x3FF\n    const q = next[0]               >>> 12\n\n    /* Add block to mapping */\n    mapping.push(+(p > q) + mapping[mapping.length - 1])\n  }\n\n  /* Highlight strings one after another */\n  return inputs.map((input, i) => {\n    let cursor = 0\n\n    /* Map occurrences to blocks */\n    const blocks = new Map<number, number[]>()\n    for (const p of positions.sort((a, b) => a - b)) {\n      const index = p & 0xFFFFF\n      const block = p >>> 20\n      if (mapping[block] !== i)\n        continue\n\n      /* Ensure presence of block group */\n      let group = blocks.get(block)\n      if (typeof group === \"undefined\")\n        blocks.set(block, group = [])\n\n      /* Add index to group */\n      group.push(index)\n    }\n\n    /* Just return string, if no occurrences */\n    if (blocks.size === 0)\n      return input\n\n    /* Compute slices */\n    const slices: string[] = []\n    for (const [block, indexes] of blocks) {\n      const t = table[block]\n\n      /* Extract positions and length */\n      const start  = t[0]            >>> 12\n      const end    = t[t.length - 1] >>> 12\n      const length = t[t.length - 1] >>> 2 & 0x3FF\n\n      /* Add prefix, if full results are desired */\n      if (full && start > cursor)\n        slices.push(input.slice(cursor, start))\n\n      /* Extract and highlight slice */\n      let slice = input.slice(start, end + length)\n      for (const j of indexes.sort((a, b) => b - a)) {\n\n        /* Retrieve offset and length of match */\n        const p = (t[j] >>> 12) - start\n        const q = (t[j] >>> 2 & 0x3FF) + p\n\n        /* Wrap occurrence */\n        slice = [\n          slice.slice(0, p),\n          \"<mark>\",\n          slice.slice(p, q),\n          \"</mark>\",\n          slice.slice(q)\n        ].join(\"\")\n      }\n\n      /* Update cursor */\n      cursor = end + length\n\n      /* Append slice and abort if we have two */\n      if (slices.push(slice) === 2)\n        break\n    }\n\n    /* Add suffix, if full results are desired */\n    if (full && cursor < input.length)\n      slices.push(input.slice(cursor))\n\n    /* Return highlighted slices */\n    return slices.join(\"\")\n  })\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { split } from \"../_\"\nimport {\n  Extract,\n  extract\n} from \"../extract\"\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Split a string or set of strings into tokens\n *\n * This tokenizer supersedes the default tokenizer that is provided by Lunr.js,\n * as it is aware of HTML tags and allows for multi-character splitting.\n *\n * It takes the given inputs, splits each of them into markup and text sections,\n * tokenizes and segments (if necessary) each of them, and then indexes them in\n * a table by using a compact bit representation. Bitwise techniques are used\n * to write and read from the table during indexing and querying.\n *\n * @see https://bit.ly/3W3Xw4J - Search: better, faster, smaller\n *\n * @param input - Input value(s)\n *\n * @returns Tokens\n */\nexport function tokenize(\n  input?: string | string[]\n): lunr.Token[] {\n  const tokens: lunr.Token[] = []\n  if (typeof input === \"undefined\")\n    return tokens\n\n  /* Tokenize strings one after another */\n  const inputs = Array.isArray(input) ? input : [input]\n  for (let i = 0; i < inputs.length; i++) {\n    const table = lunr.tokenizer.table\n    const total = table.length\n\n    /* Split string into sections and tokenize content blocks */\n    extract(inputs[i], (block, type, start, end) => {\n      table[block += total] ||= []\n      switch (type) {\n\n        /* Handle markup */\n        case Extract.TAG_OPEN:\n        case Extract.TAG_CLOSE:\n          table[block].push(\n            start       << 12 |\n            end - start <<  2 |\n            type\n          )\n          break\n\n        /* Handle text content */\n        case Extract.TEXT:\n          const section = inputs[i].slice(start, end)\n          split(section, lunr.tokenizer.separator, (index, until) => {\n\n            /**\n             * Apply segmenter after tokenization. Note that the segmenter will\n             * also split words at word boundaries, which is not what we want,\n             * so we need to check if we can somehow mitigate this behavior.\n             */\n            if (typeof lunr.segmenter !== \"undefined\") {\n              const subsection = section.slice(index, until)\n              if (/^[MHIK]$/.test(lunr.segmenter.ctype_(subsection))) {\n                const segments = lunr.segmenter.segment(subsection)\n                for (let s = 0, l = 0; s < segments.length; s++) {\n\n                  /* Add block to section */\n                  table[block] ||= []\n                  table[block].push(\n                    start + index + l  << 12 |\n                    segments[s].length <<  2 |\n                    type\n                  )\n\n                  /* Add token with position */\n                  tokens.push(new lunr.Token(\n                    segments[s].toLowerCase(), {\n                      position: block << 20 | table[block].length - 1\n                    }\n                  ))\n\n                  /* Keep track of length */\n                  l += segments[s].length\n                }\n                return\n              }\n            }\n\n            /* Add block to section */\n            table[block].push(\n              start + index << 12 |\n              until - index <<  2 |\n              type\n            )\n\n            /* Add token with position */\n            tokens.push(new lunr.Token(\n              section.slice(index, until).toLowerCase(), {\n                position: block << 20 | table[block].length - 1\n              }\n            ))\n          })\n      }\n    })\n  }\n\n  /* Return tokens */\n  return tokens\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\n/* ----------------------------------------------------------------------------\n * Helper types\n * ------------------------------------------------------------------------- */\n\n/**\n * Visitor function\n *\n * @param value - String value\n *\n * @returns String term(s)\n */\ntype VisitorFn = (\n  value: string\n) => string | string[]\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Default transformation function\n *\n * 1. Trim excess whitespace from left and right.\n *\n * 2. Search for parts in quotation marks and prepend a `+` modifier to denote\n *    that the resulting document must contain all parts, converting the query\n *    to an `AND` query (as opposed to the default `OR` behavior). While users\n *    may expect parts enclosed in quotation marks to map to span queries, i.e.\n *    for which order is important, Lunr.js doesn't support them, so the best\n *    we can do is to convert the parts to an `AND` query.\n *\n * 3. Replace control characters which are not located at the beginning of the\n *    query or preceded by white space, or are not followed by a non-whitespace\n *    character or are at the end of the query string. Furthermore, filter\n *    unmatched quotation marks.\n *\n * 4. Split the query string at whitespace, then pass each part to the visitor\n *    function for tokenization, and append a wildcard to every resulting term\n *    that is not explicitly marked with a `+`, `-`, `~` or `^` modifier, since\n *    it ensures consistent and stable ranking when multiple terms are entered.\n *    Also, if a fuzzy or boost modifier are given, but no numeric value has\n *    been entered, default to 1 to not induce a query error.\n *\n * @param query - Query value\n * @param fn - Visitor function\n *\n * @returns Transformed query value\n */\nexport function transform(\n  query: string, fn: VisitorFn = term => term\n): string {\n  return query\n\n    /* => 1 */\n    .trim()\n\n    /* => 2 */\n    .split(/\"([^\"]+)\"/g)\n      .map((parts, index) => index & 1\n        ? parts.replace(/^\\b|^(?![^\\x00-\\x7F]|$)|\\s+/g, \" +\")\n        : parts\n      )\n      .join(\"\")\n\n    /* => 3 */\n    .replace(/\"|(?:^|\\s+)[*+\\-:^~]+(?=\\s+|$)/g, \"\")\n\n    /* => 4 */\n    .split(/\\s+/g)\n      .reduce((prev, term) => {\n        const next = fn(term)\n        return [...prev, ...Array.isArray(next) ? next : [next]]\n      }, [] as string[])\n      .map(term => /([~^]$)/.test(term) ? `${term}1` : term)\n      .map(term => /(^[+-]|[~^]\\d+$)/.test(term) ? term : `${term}*`)\n      .join(\" \")\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport { split } from \"../../internal\"\nimport { transform } from \"../transform\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Search query clause\n */\nexport interface SearchQueryClause {\n  presence: lunr.Query.presence        /* Clause presence */\n  term: string                         /* Clause term */\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Search query terms\n */\nexport type SearchQueryTerms = Record<string, boolean>\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Transform search query\n *\n * This function lexes the given search query and applies the transformation\n * function to each term, preserving markup like `+` and `-` modifiers.\n *\n * @param query - Search query\n *\n * @returns Search query\n */\nexport function transformSearchQuery(\n  query: string\n): string {\n\n  /* Split query terms with tokenizer */\n  return transform(query, part => {\n    const terms: string[] = []\n\n    /* Initialize lexer and analyze part */\n    const lexer = new lunr.QueryLexer(part)\n    lexer.run()\n\n    /* Extract and tokenize term from lexeme */\n    for (const { type, str: term, start, end } of lexer.lexemes)\n      switch (type) {\n\n        /* Hack: remove colon - see https://bit.ly/3wD3T3I */\n        case \"FIELD\":\n          if (![\"title\", \"text\", \"tags\"].includes(term))\n            part = [\n              part.slice(0, end),\n              \" \",\n              part.slice(end + 1)\n            ].join(\"\")\n          break\n\n        /* Tokenize term */\n        case \"TERM\":\n          split(term, lunr.tokenizer.separator, (...range) => {\n            terms.push([\n              part.slice(0, start),\n              term.slice(...range),\n              part.slice(end)\n            ].join(\"\"))\n          })\n      }\n\n    /* Return terms */\n    return terms\n  })\n}\n\n/* ------------------------------------------------------------------------- */\n\n/**\n * Parse a search query for analysis\n *\n * Lunr.js itself has a bug where it doesn't detect or remove wildcards for\n * query clauses, so we must do this here.\n *\n * @see https://bit.ly/3DpTGtz - GitHub issue\n *\n * @param value - Query value\n *\n * @returns Search query clauses\n */\nexport function parseSearchQuery(\n  value: string\n): SearchQueryClause[] {\n  const query  = new lunr.Query([\"title\", \"text\", \"tags\"])\n  const parser = new lunr.QueryParser(value, query)\n\n  /* Parse Search query */\n  parser.parse()\n  for (const clause of query.clauses) {\n    clause.usePipeline = true\n\n    /* Handle leading wildcard */\n    if (clause.term.startsWith(\"*\")) {\n      clause.wildcard = lunr.Query.wildcard.LEADING\n      clause.term = clause.term.slice(1)\n    }\n\n    /* Handle trailing wildcard */\n    if (clause.term.endsWith(\"*\")) {\n      clause.wildcard = lunr.Query.wildcard.TRAILING\n      clause.term = clause.term.slice(0, -1)\n    }\n  }\n\n  /* Return query clauses */\n  return query.clauses\n}\n\n/**\n * Analyze the search query clauses in regard to the search terms found\n *\n * @param query - Search query clauses\n * @param terms - Search terms\n *\n * @returns Search query terms\n */\nexport function getSearchQueryTerms(\n  query: SearchQueryClause[], terms: string[]\n): SearchQueryTerms {\n  const clauses = new Set<SearchQueryClause>(query)\n\n  /* Match query clauses against terms */\n  const result: SearchQueryTerms = {}\n  for (let t = 0; t < terms.length; t++)\n    for (const clause of clauses)\n      if (terms[t].startsWith(clause.term)) {\n        result[clause.term] = true\n        clauses.delete(clause)\n      }\n\n  /* Annotate unmatched non-stopword query clauses */\n  for (const clause of clauses)\n    if (lunr.stopWordFilter?.(clause.term))\n      result[clause.term] = false\n\n  /* Return query terms */\n  return result\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Segment a search query using the inverted index\n *\n * This function implements a clever approach to text segmentation for Asian\n * languages, as it used the information already available in the search index.\n * The idea is to greedily segment the search query based on the tokens that are\n * already part of the index, as described in the linked issue.\n *\n * @see https://bit.ly/3lwjrk7 - GitHub issue\n *\n * @param query - Query value\n * @param index - Inverted index\n *\n * @returns Segmented query value\n */\nexport function segment(\n  query: string, index: object\n): Iterable<string> {\n  const segments = new Set<string>()\n\n  /* Segment search query */\n  const wordcuts = new Uint16Array(query.length)\n  for (let i = 0; i < query.length; i++)\n    for (let j = i + 1; j < query.length; j++) {\n      const value = query.slice(i, j)\n      if (value in index)\n        wordcuts[i] = j - i\n    }\n\n  /* Compute longest matches with minimum overlap */\n  const stack = [0]\n  for (let s = stack.length; s > 0;) {\n    const p = stack[--s]\n    for (let q = 1; q < wordcuts[p]; q++)\n      if (wordcuts[p + q] > wordcuts[p] - q) {\n        segments.add(query.slice(p, p + q))\n        stack[s++] = p + q\n      }\n\n    /* Continue at end of query string */\n    const q = p + wordcuts[p]\n    if (wordcuts[q] && q < query.length - 1)\n      stack[s++] = q\n\n    /* Add current segment */\n    segments.add(query.slice(p, q))\n  }\n\n  // @todo fix this case in the code block above, this is a hotfix\n  if (segments.has(\"\"))\n    return new Set([query])\n\n  /* Return segmented query value */\n  return segments\n}\n", "/*\n * Copyright (c) 2016-2024 Martin Donath <martin.donath@squidfunk.com>\n *\n * Permission is hereby granted, free of charge, to any person obtaining a copy\n * of this software and associated documentation files (the \"Software\"), to\n * deal in the Software without restriction, including without limitation the\n * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or\n * sell copies of the Software, and to permit persons to whom the Software is\n * furnished to do so, subject to the following conditions:\n *\n * The above copyright notice and this permission notice shall be included in\n * all copies or substantial portions of the Software.\n *\n * THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL THE\n * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING\n * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS\n * IN THE SOFTWARE.\n */\n\nimport {\n  SearchDocument,\n  SearchIndex,\n  SearchOptions,\n  setupSearchDocumentMap\n} from \"../config\"\nimport {\n  Position,\n  PositionTable,\n  highlight,\n  highlightAll,\n  tokenize\n} from \"../internal\"\nimport {\n  SearchQueryTerms,\n  getSearchQueryTerms,\n  parseSearchQuery,\n  segment,\n  transformSearchQuery\n} from \"../query\"\n\n/* ----------------------------------------------------------------------------\n * Types\n * ------------------------------------------------------------------------- */\n\n/**\n * Search item\n */\nexport interface SearchItem\n  extends SearchDocument\n{\n  score: number                        /* Score (relevance) */\n  terms: SearchQueryTerms              /* Search query terms */\n}\n\n/**\n * Search result\n */\nexport interface SearchResult {\n  items: SearchItem[][]                /* Search items */\n  suggest?: string[]                   /* Search suggestions */\n}\n\n/* ----------------------------------------------------------------------------\n * Functions\n * ------------------------------------------------------------------------- */\n\n/**\n * Create field extractor factory\n *\n * @param table - Position table map\n *\n * @returns Extractor factory\n */\nfunction extractor(table: Map<string, PositionTable>) {\n  return (name: keyof SearchDocument) => {\n    return (doc: SearchDocument) => {\n      if (typeof doc[name] === \"undefined\")\n        return undefined\n\n      /* Compute identifier and initialize table */\n      const id = [doc.location, name].join(\":\")\n      table.set(id, lunr.tokenizer.table = [])\n\n      /* Return field value */\n      return doc[name]\n    }\n  }\n}\n\n/**\n * Compute the difference of two lists of strings\n *\n * @param a - 1st list of strings\n * @param b - 2nd list of strings\n *\n * @returns Difference\n */\nfunction difference(a: string[], b: string[]): string[] {\n  const [x, y] = [new Set(a), new Set(b)]\n  return [\n    ...new Set([...x].filter(value => !y.has(value)))\n  ]\n}\n\n/* ----------------------------------------------------------------------------\n * Class\n * ------------------------------------------------------------------------- */\n\n/**\n * Search index\n */\nexport class Search {\n\n  /**\n   * Search document map\n   */\n  protected map: Map<string, SearchDocument>\n\n  /**\n   * Search options\n   */\n  protected options: SearchOptions\n\n  /**\n   * The underlying Lunr.js search index\n   */\n  protected index: lunr.Index\n\n  /**\n   * Internal position table map\n   */\n  protected table: Map<string, PositionTable>\n\n  /**\n   * Create the search integration\n   *\n   * @param data - Search index\n   */\n  public constructor({ config, docs, options }: SearchIndex) {\n    const field = extractor(this.table = new Map())\n\n    /* Set up document map and options */\n    this.map = setupSearchDocumentMap(docs)\n    this.options = options\n\n    /* Set up document index */\n    this.index = lunr(function () {\n      this.metadataWhitelist = [\"position\"]\n      this.b(0)\n\n      /* Set up (multi-)language support */\n      if (config.lang.length === 1 && config.lang[0] !== \"en\") {\n        // @ts-expect-error - namespace indexing not supported\n        this.use(lunr[config.lang[0]])\n      } else if (config.lang.length > 1) {\n        this.use(lunr.multiLanguage(...config.lang))\n      }\n\n      /* Set up custom tokenizer (must be after language setup) */\n      this.tokenizer = tokenize as typeof lunr.tokenizer\n      lunr.tokenizer.separator = new RegExp(config.separator)\n\n      /* Set up custom segmenter, if loaded */\n      lunr.segmenter = \"TinySegmenter\" in lunr\n        ? new lunr.TinySegmenter()\n        : undefined\n\n      /* Compute functions to be removed from the pipeline */\n      const fns = difference([\n        \"trimmer\", \"stopWordFilter\", \"stemmer\"\n      ], config.pipeline)\n\n      /* Remove functions from the pipeline for registered languages */\n      for (const lang of config.lang.map(language => (\n        // @ts-expect-error - namespace indexing not supported\n        language === \"en\" ? lunr : lunr[language]\n      )))\n        for (const fn of fns) {\n          this.pipeline.remove(lang[fn])\n          this.searchPipeline.remove(lang[fn])\n        }\n\n      /* Set up index reference */\n      this.ref(\"location\")\n\n      /* Set up index fields */\n      this.field(\"title\", { boost: 1e3, extractor: field(\"title\") })\n      this.field(\"text\",  { boost: 1e0, extractor: field(\"text\") })\n      this.field(\"tags\",  { boost: 1e6, extractor: field(\"tags\") })\n\n      /* Add documents to index */\n      for (const doc of docs)\n        this.add(doc, { boost: doc.boost })\n    })\n  }\n\n  /**\n   * Search for matching documents\n   *\n   * @param query - Search query\n   *\n   * @returns Search result\n   */\n  public search(query: string): SearchResult {\n\n    // Experimental Chinese segmentation\n    query = query.replace(/\\p{sc=Han}+/gu, value => {\n      return [...segment(value, this.index.invertedIndex)]\n        .join(\"* \")\n    })\n\n    // @todo: move segmenter (above) into transformSearchQuery\n    query = transformSearchQuery(query)\n    if (!query)\n      return { items: [] }\n\n    /* Parse query to extract clauses for analysis */\n    const clauses = parseSearchQuery(query)\n      .filter(clause => (\n        clause.presence !== lunr.Query.presence.PROHIBITED\n      ))\n\n    /* Perform search and post-process results */\n    const groups = this.index.search(query)\n\n      /* Apply post-query boosts based on title and search query terms */\n      .reduce<SearchItem[]>((item, { ref, score, matchData }) => {\n        let doc = this.map.get(ref)\n        if (typeof doc !== \"undefined\") {\n\n          /* Shallow copy document */\n          doc = { ...doc }\n          if (doc.tags)\n            doc.tags = [...doc.tags]\n\n          /* Compute and analyze search query terms */\n          const terms = getSearchQueryTerms(\n            clauses,\n            Object.keys(matchData.metadata)\n          )\n\n          /* Highlight matches in fields */\n          for (const field of this.index.fields) {\n            if (typeof doc[field] === \"undefined\")\n              continue\n\n            /* Collect positions from matches */\n            const positions: Position[] = []\n            for (const match of Object.values(matchData.metadata))\n              if (typeof match[field] !== \"undefined\")\n                positions.push(...match[field].position)\n\n            /* Skip highlighting, if no positions were collected */\n            if (!positions.length)\n              continue\n\n            /* Load table and determine highlighting method */\n            const table = this.table.get([doc.location, field].join(\":\"))!\n            const fn = Array.isArray(doc[field])\n              ? highlightAll\n              : highlight\n\n            // @ts-expect-error - stop moaning, TypeScript!\n            doc[field] = fn(doc[field], table, positions, field !== \"text\")\n          }\n\n          /* Highlight title and text and apply post-query boosts */\n          const boost = +!doc.parent +\n            Object.values(terms)\n              .filter(t => t).length /\n            Object.keys(terms).length\n\n          /* Append item */\n          item.push({\n            ...doc,\n            score: score * (1 + boost ** 2),\n            terms\n          })\n        }\n        return item\n      }, [])\n\n      /* Sort search results again after applying boosts */\n      .sort((a, b) => b.score - a.score)\n\n      /* Group search results by article */\n      .reduce((items, result) => {\n        const doc = this.map.get(result.location)\n        if (typeof doc !== \"undefined\") {\n          const ref = doc.parent\n            ? doc.parent.location\n            : doc.location\n          items.set(ref, [...items.get(ref) || [], result])\n        }\n        return items\n      }, new Map<string, SearchItem[]>())\n\n    /* Ensure that every item set has an article */\n    for (const [ref, items] of groups)\n      if (!items.find(item => item.location === ref)) {\n        const doc = this.map.get(ref)!\n        items.push({ ...doc, score: 0, terms: {} })\n      }\n\n    /* Generate search suggestions, if desired */\n    let suggest: string[] | undefined\n    if (this.options.suggest) {\n      const titles = this.index.query(builder => {\n        for (const clause of clauses)\n          builder.term(clause.term, {\n            fields: [\"title\"],\n            presence: lunr.Query.presence.REQUIRED,\n            wildcard: lunr.Query.wildcard.TRAILING\n          })\n      })\n\n      /* Retrieve suggestions for best match */\n      suggest = titles.length\n        ? Object.keys(titles[0].matchData.metadata)\n        : []\n    }\n\n    /* Return search result */\n    return {\n      items: [...groups.values()],\n      ...typeof suggest !== \"undefined\" && { suggest }\n    }\n  }\n}\n"],
+  "mappings": "6lCAAA,IAAAA,GAAAC,GAAA,CAAAC,EAAAC,KAAA;AAAA;AAAA;AAAA;AAAA,IAME,UAAU,CAiCZ,IAAIC,EAAO,SAAUC,EAAQ,CAC3B,IAAIC,EAAU,IAAIF,EAAK,QAEvB,OAAAE,EAAQ,SAAS,IACfF,EAAK,QACLA,EAAK,eACLA,EAAK,OACP,EAEAE,EAAQ,eAAe,IACrBF,EAAK,OACP,EAEAC,EAAO,KAAKC,EAASA,CAAO,EACrBA,EAAQ,MAAM,CACvB,EAEAF,EAAK,QAAU,QACf;AAAA;AAAA;AAAA,GASAA,EAAK,MAAQ,CAAC,EASdA,EAAK,MAAM,KAAQ,SAAUG,EAAQ,CAEnC,OAAO,SAAUC,EAAS,CACpBD,EAAO,SAAW,QAAQ,MAC5B,QAAQ,KAAKC,CAAO,CAExB,CAEF,EAAG,IAAI,EAaPJ,EAAK,MAAM,SAAW,SAAUK,EAAK,CACnC,OAAsBA,GAAQ,KACrB,GAEAA,EAAI,SAAS,CAExB,EAkBAL,EAAK,MAAM,MAAQ,SAAUK,EAAK,CAChC,GAAIA,GAAQ,KACV,OAAOA,EAMT,QAHIC,EAAQ,OAAO,OAAO,IAAI,EAC1BC,EAAO,OAAO,KAAKF,CAAG,EAEjB,EAAI,EAAG,EAAIE,EAAK,OAAQ,IAAK,CACpC,IAAIC,EAAMD,EAAK,CAAC,EACZE,EAAMJ,EAAIG,CAAG,EAEjB,GAAI,MAAM,QAAQC,CAAG,EAAG,CACtBH,EAAME,CAAG,EAAIC,EAAI,MAAM,EACvB,QACF,CAEA,GAAI,OAAOA,GAAQ,UACf,OAAOA,GAAQ,UACf,OAAOA,GAAQ,UAAW,CAC5BH,EAAME,CAAG,EAAIC,EACb,QACF,CAEA,MAAM,IAAI,UAAU,uDAAuD,CAC7E,CAEA,OAAOH,CACT,EACAN,EAAK,SAAW,SAAUU,EAAQC,EAAWC,EAAa,CACxD,KAAK,OAASF,EACd,KAAK,UAAYC,EACjB,KAAK,aAAeC,CACtB,EAEAZ,EAAK,SAAS,OAAS,IAEvBA,EAAK,SAAS,WAAa,SAAUa,EAAG,CACtC,IAAIC,EAAID,EAAE,QAAQb,EAAK,SAAS,MAAM,EAEtC,GAAIc,IAAM,GACR,KAAM,6BAGR,IAAIC,EAAWF,EAAE,MAAM,EAAGC,CAAC,EACvBJ,EAASG,EAAE,MAAMC,EAAI,CAAC,EAE1B,OAAO,IAAId,EAAK,SAAUU,EAAQK,EAAUF,CAAC,CAC/C,EAEAb,EAAK,SAAS,UAAU,SAAW,UAAY,CAC7C,OAAI,KAAK,cAAgB,OACvB,KAAK,aAAe,KAAK,UAAYA,EAAK,SAAS,OAAS,KAAK,QAG5D,KAAK,YACd,EACA;AAAA;AAAA;AAAA,GAUAA,EAAK,IAAM,SAAUgB,EAAU,CAG7B,GAFA,KAAK,SAAW,OAAO,OAAO,IAAI,EAE9BA,EAAU,CACZ,KAAK,OAASA,EAAS,OAEvB,QAASC,EAAI,EAAGA,EAAI,KAAK,OAAQA,IAC/B,KAAK,SAASD,EAASC,CAAC,CAAC,EAAI,EAEjC,MACE,KAAK,OAAS,CAElB,EASAjB,EAAK,IAAI,SAAW,CAClB,UAAW,SAAUkB,EAAO,CAC1B,OAAOA,CACT,EAEA,MAAO,UAAY,CACjB,OAAO,IACT,EAEA,SAAU,UAAY,CACpB,MAAO,EACT,CACF,EASAlB,EAAK,IAAI,MAAQ,CACf,UAAW,UAAY,CACrB,OAAO,IACT,EAEA,MAAO,SAAUkB,EAAO,CACtB,OAAOA,CACT,EAEA,SAAU,UAAY,CACpB,MAAO,EACT,CACF,EAQAlB,EAAK,IAAI,UAAU,SAAW,SAAUmB,EAAQ,CAC9C,MAAO,CAAC,CAAC,KAAK,SAASA,CAAM,CAC/B,EAUAnB,EAAK,IAAI,UAAU,UAAY,SAAUkB,EAAO,CAC9C,IAAIE,EAAGC,EAAGL,EAAUM,EAAe,CAAC,EAEpC,GAAIJ,IAAUlB,EAAK,IAAI,SACrB,OAAO,KAGT,GAAIkB,IAAUlB,EAAK,IAAI,MACrB,OAAOkB,EAGL,KAAK,OAASA,EAAM,QACtBE,EAAI,KACJC,EAAIH,IAEJE,EAAIF,EACJG,EAAI,MAGNL,EAAW,OAAO,KAAKI,EAAE,QAAQ,EAEjC,QAASH,EAAI,EAAGA,EAAID,EAAS,OAAQC,IAAK,CACxC,IAAIM,EAAUP,EAASC,CAAC,EACpBM,KAAWF,EAAE,UACfC,EAAa,KAAKC,CAAO,CAE7B,CAEA,OAAO,IAAIvB,EAAK,IAAKsB,CAAY,CACnC,EASAtB,EAAK,IAAI,UAAU,MAAQ,SAAUkB,EAAO,CAC1C,OAAIA,IAAUlB,EAAK,IAAI,SACdA,EAAK,IAAI,SAGdkB,IAAUlB,EAAK,IAAI,MACd,KAGF,IAAIA,EAAK,IAAI,OAAO,KAAK,KAAK,QAAQ,EAAE,OAAO,OAAO,KAAKkB,EAAM,QAAQ,CAAC,CAAC,CACpF,EASAlB,EAAK,IAAM,SAAUwB,EAASC,EAAe,CAC3C,IAAIC,EAAoB,EAExB,QAASf,KAAaa,EAChBb,GAAa,WACjBe,GAAqB,OAAO,KAAKF,EAAQb,CAAS,CAAC,EAAE,QAGvD,IAAIgB,GAAKF,EAAgBC,EAAoB,KAAQA,EAAoB,IAEzE,OAAO,KAAK,IAAI,EAAI,KAAK,IAAIC,CAAC,CAAC,CACjC,EAUA3B,EAAK,MAAQ,SAAU4B,EAAKC,EAAU,CACpC,KAAK,IAAMD,GAAO,GAClB,KAAK,SAAWC,GAAY,CAAC,CAC/B,EAOA7B,EAAK,MAAM,UAAU,SAAW,UAAY,CAC1C,OAAO,KAAK,GACd,EAsBAA,EAAK,MAAM,UAAU,OAAS,SAAU8B,EAAI,CAC1C,YAAK,IAAMA,EAAG,KAAK,IAAK,KAAK,QAAQ,EAC9B,IACT,EASA9B,EAAK,MAAM,UAAU,MAAQ,SAAU8B,EAAI,CACzC,OAAAA,EAAKA,GAAM,SAAUjB,EAAG,CAAE,OAAOA,CAAE,EAC5B,IAAIb,EAAK,MAAO8B,EAAG,KAAK,IAAK,KAAK,QAAQ,EAAG,KAAK,QAAQ,CACnE,EACA;AAAA;AAAA;AAAA,GAuBA9B,EAAK,UAAY,SAAUK,EAAKwB,EAAU,CACxC,GAAIxB,GAAO,MAAQA,GAAO,KACxB,MAAO,CAAC,EAGV,GAAI,MAAM,QAAQA,CAAG,EACnB,OAAOA,EAAI,IAAI,SAAU0B,EAAG,CAC1B,OAAO,IAAI/B,EAAK,MACdA,EAAK,MAAM,SAAS+B,CAAC,EAAE,YAAY,EACnC/B,EAAK,MAAM,MAAM6B,CAAQ,CAC3B,CACF,CAAC,EAOH,QAJID,EAAMvB,EAAI,SAAS,EAAE,YAAY,EACjC2B,EAAMJ,EAAI,OACVK,EAAS,CAAC,EAELC,EAAW,EAAGC,EAAa,EAAGD,GAAYF,EAAKE,IAAY,CAClE,IAAIE,EAAOR,EAAI,OAAOM,CAAQ,EAC1BG,EAAcH,EAAWC,EAE7B,GAAKC,EAAK,MAAMpC,EAAK,UAAU,SAAS,GAAKkC,GAAYF,EAAM,CAE7D,GAAIK,EAAc,EAAG,CACnB,IAAIC,EAAgBtC,EAAK,MAAM,MAAM6B,CAAQ,GAAK,CAAC,EACnDS,EAAc,SAAc,CAACH,EAAYE,CAAW,EACpDC,EAAc,MAAWL,EAAO,OAEhCA,EAAO,KACL,IAAIjC,EAAK,MACP4B,EAAI,MAAMO,EAAYD,CAAQ,EAC9BI,CACF,CACF,CACF,CAEAH,EAAaD,EAAW,CAC1B,CAEF,CAEA,OAAOD,CACT,EASAjC,EAAK,UAAU,UAAY,UAC3B;AAAA;AAAA;AAAA,GAkCAA,EAAK,SAAW,UAAY,CAC1B,KAAK,OAAS,CAAC,CACjB,EAEAA,EAAK,SAAS,oBAAsB,OAAO,OAAO,IAAI,EAmCtDA,EAAK,SAAS,iBAAmB,SAAU8B,EAAIS,EAAO,CAChDA,KAAS,KAAK,qBAChBvC,EAAK,MAAM,KAAK,6CAA+CuC,CAAK,EAGtET,EAAG,MAAQS,EACXvC,EAAK,SAAS,oBAAoB8B,EAAG,KAAK,EAAIA,CAChD,EAQA9B,EAAK,SAAS,4BAA8B,SAAU8B,EAAI,CACxD,IAAIU,EAAeV,EAAG,OAAUA,EAAG,SAAS,KAAK,oBAE5CU,GACHxC,EAAK,MAAM,KAAK;AAAA,EAAmG8B,CAAE,CAEzH,EAYA9B,EAAK,SAAS,KAAO,SAAUyC,EAAY,CACzC,IAAIC,EAAW,IAAI1C,EAAK,SAExB,OAAAyC,EAAW,QAAQ,SAAUE,EAAQ,CACnC,IAAIb,EAAK9B,EAAK,SAAS,oBAAoB2C,CAAM,EAEjD,GAAIb,EACFY,EAAS,IAAIZ,CAAE,MAEf,OAAM,IAAI,MAAM,sCAAwCa,CAAM,CAElE,CAAC,EAEMD,CACT,EASA1C,EAAK,SAAS,UAAU,IAAM,UAAY,CACxC,IAAI4C,EAAM,MAAM,UAAU,MAAM,KAAK,SAAS,EAE9CA,EAAI,QAAQ,SAAUd,EAAI,CACxB9B,EAAK,SAAS,4BAA4B8B,CAAE,EAC5C,KAAK,OAAO,KAAKA,CAAE,CACrB,EAAG,IAAI,CACT,EAWA9B,EAAK,SAAS,UAAU,MAAQ,SAAU6C,EAAYC,EAAO,CAC3D9C,EAAK,SAAS,4BAA4B8C,CAAK,EAE/C,IAAIC,EAAM,KAAK,OAAO,QAAQF,CAAU,EACxC,GAAIE,GAAO,GACT,MAAM,IAAI,MAAM,wBAAwB,EAG1CA,EAAMA,EAAM,EACZ,KAAK,OAAO,OAAOA,EAAK,EAAGD,CAAK,CAClC,EAWA9C,EAAK,SAAS,UAAU,OAAS,SAAU6C,EAAYC,EAAO,CAC5D9C,EAAK,SAAS,4BAA4B8C,CAAK,EAE/C,IAAIC,EAAM,KAAK,OAAO,QAAQF,CAAU,EACxC,GAAIE,GAAO,GACT,MAAM,IAAI,MAAM,wBAAwB,EAG1C,KAAK,OAAO,OAAOA,EAAK,EAAGD,CAAK,CAClC,EAOA9C,EAAK,SAAS,UAAU,OAAS,SAAU8B,EAAI,CAC7C,IAAIiB,EAAM,KAAK,OAAO,QAAQjB,CAAE,EAC5BiB,GAAO,IAIX,KAAK,OAAO,OAAOA,EAAK,CAAC,CAC3B,EASA/C,EAAK,SAAS,UAAU,IAAM,SAAUiC,EAAQ,CAG9C,QAFIe,EAAc,KAAK,OAAO,OAErB/B,EAAI,EAAGA,EAAI+B,EAAa/B,IAAK,CAIpC,QAHIa,EAAK,KAAK,OAAOb,CAAC,EAClBgC,EAAO,CAAC,EAEHC,EAAI,EAAGA,EAAIjB,EAAO,OAAQiB,IAAK,CACtC,IAAIC,EAASrB,EAAGG,EAAOiB,CAAC,EAAGA,EAAGjB,CAAM,EAEpC,GAAI,EAAAkB,GAAW,MAA6BA,IAAW,IAEvD,GAAI,MAAM,QAAQA,CAAM,EACtB,QAASC,EAAI,EAAGA,EAAID,EAAO,OAAQC,IACjCH,EAAK,KAAKE,EAAOC,CAAC,CAAC,OAGrBH,EAAK,KAAKE,CAAM,CAEpB,CAEAlB,EAASgB,CACX,CAEA,OAAOhB,CACT,EAYAjC,EAAK,SAAS,UAAU,UAAY,SAAU4B,EAAKC,EAAU,CAC3D,IAAIwB,EAAQ,IAAIrD,EAAK,MAAO4B,EAAKC,CAAQ,EAEzC,OAAO,KAAK,IAAI,CAACwB,CAAK,CAAC,EAAE,IAAI,SAAUtB,EAAG,CACxC,OAAOA,EAAE,SAAS,CACpB,CAAC,CACH,EAMA/B,EAAK,SAAS,UAAU,MAAQ,UAAY,CAC1C,KAAK,OAAS,CAAC,CACjB,EASAA,EAAK,SAAS,UAAU,OAAS,UAAY,CAC3C,OAAO,KAAK,OAAO,IAAI,SAAU8B,EAAI,CACnC,OAAA9B,EAAK,SAAS,4BAA4B8B,CAAE,EAErCA,EAAG,KACZ,CAAC,CACH,EACA;AAAA;AAAA;AAAA,GAqBA9B,EAAK,OAAS,SAAUgB,EAAU,CAChC,KAAK,WAAa,EAClB,KAAK,SAAWA,GAAY,CAAC,CAC/B,EAaAhB,EAAK,OAAO,UAAU,iBAAmB,SAAUsD,EAAO,CAExD,GAAI,KAAK,SAAS,QAAU,EAC1B,MAAO,GAST,QANIC,EAAQ,EACRC,EAAM,KAAK,SAAS,OAAS,EAC7BnB,EAAcmB,EAAMD,EACpBE,EAAa,KAAK,MAAMpB,EAAc,CAAC,EACvCqB,EAAa,KAAK,SAASD,EAAa,CAAC,EAEtCpB,EAAc,IACfqB,EAAaJ,IACfC,EAAQE,GAGNC,EAAaJ,IACfE,EAAMC,GAGJC,GAAcJ,IAIlBjB,EAAcmB,EAAMD,EACpBE,EAAaF,EAAQ,KAAK,MAAMlB,EAAc,CAAC,EAC/CqB,EAAa,KAAK,SAASD,EAAa,CAAC,EAO3C,GAJIC,GAAcJ,GAIdI,EAAaJ,EACf,OAAOG,EAAa,EAGtB,GAAIC,EAAaJ,EACf,OAAQG,EAAa,GAAK,CAE9B,EAWAzD,EAAK,OAAO,UAAU,OAAS,SAAU2D,EAAWlD,EAAK,CACvD,KAAK,OAAOkD,EAAWlD,EAAK,UAAY,CACtC,KAAM,iBACR,CAAC,CACH,EAUAT,EAAK,OAAO,UAAU,OAAS,SAAU2D,EAAWlD,EAAKqB,EAAI,CAC3D,KAAK,WAAa,EAClB,IAAI8B,EAAW,KAAK,iBAAiBD,CAAS,EAE1C,KAAK,SAASC,CAAQ,GAAKD,EAC7B,KAAK,SAASC,EAAW,CAAC,EAAI9B,EAAG,KAAK,SAAS8B,EAAW,CAAC,EAAGnD,CAAG,EAEjE,KAAK,SAAS,OAAOmD,EAAU,EAAGD,EAAWlD,CAAG,CAEpD,EAOAT,EAAK,OAAO,UAAU,UAAY,UAAY,CAC5C,GAAI,KAAK,WAAY,OAAO,KAAK,WAKjC,QAHI6D,EAAe,EACfC,EAAiB,KAAK,SAAS,OAE1B7C,EAAI,EAAGA,EAAI6C,EAAgB7C,GAAK,EAAG,CAC1C,IAAIR,EAAM,KAAK,SAASQ,CAAC,EACzB4C,GAAgBpD,EAAMA,CACxB,CAEA,OAAO,KAAK,WAAa,KAAK,KAAKoD,CAAY,CACjD,EAQA7D,EAAK,OAAO,UAAU,IAAM,SAAU+D,EAAa,CAOjD,QANIC,EAAa,EACb5C,EAAI,KAAK,SAAUC,EAAI0C,EAAY,SACnCE,EAAO7C,EAAE,OAAQ8C,EAAO7C,EAAE,OAC1B8C,EAAO,EAAGC,EAAO,EACjBnD,EAAI,EAAGiC,EAAI,EAERjC,EAAIgD,GAAQf,EAAIgB,GACrBC,EAAO/C,EAAEH,CAAC,EAAGmD,EAAO/C,EAAE6B,CAAC,EACnBiB,EAAOC,EACTnD,GAAK,EACIkD,EAAOC,EAChBlB,GAAK,EACIiB,GAAQC,IACjBJ,GAAc5C,EAAEH,EAAI,CAAC,EAAII,EAAE6B,EAAI,CAAC,EAChCjC,GAAK,EACLiC,GAAK,GAIT,OAAOc,CACT,EASAhE,EAAK,OAAO,UAAU,WAAa,SAAU+D,EAAa,CACxD,OAAO,KAAK,IAAIA,CAAW,EAAI,KAAK,UAAU,GAAK,CACrD,EAOA/D,EAAK,OAAO,UAAU,QAAU,UAAY,CAG1C,QAFIqE,EAAS,IAAI,MAAO,KAAK,SAAS,OAAS,CAAC,EAEvCpD,EAAI,EAAGiC,EAAI,EAAGjC,EAAI,KAAK,SAAS,OAAQA,GAAK,EAAGiC,IACvDmB,EAAOnB,CAAC,EAAI,KAAK,SAASjC,CAAC,EAG7B,OAAOoD,CACT,EAOArE,EAAK,OAAO,UAAU,OAAS,UAAY,CACzC,OAAO,KAAK,QACd,EAEA;AAAA;AAAA;AAAA;AAAA,GAiBAA,EAAK,QAAW,UAAU,CACxB,IAAIsE,EAAY,CACZ,QAAY,MACZ,OAAW,OACX,KAAS,OACT,KAAS,OACT,KAAS,MACT,IAAQ,MACR,KAAS,KACT,MAAU,MACV,IAAQ,IACR,MAAU,MACV,QAAY,MACZ,MAAU,MACV,KAAS,MACT,MAAU,KACV,QAAY,MACZ,QAAY,MACZ,QAAY,MACZ,MAAU,KACV,MAAU,MACV,OAAW,MACX,KAAS,KACX,EAEAC,EAAY,CACV,MAAU,KACV,MAAU,GACV,MAAU,KACV,MAAU,KACV,KAAS,KACT,IAAQ,GACR,KAAS,EACX,EAEAC,EAAI,WACJC,EAAI,WACJC,EAAIF,EAAI,aACRG,EAAIF,EAAI,WAERG,EAAO,KAAOF,EAAI,KAAOC,EAAID,EAC7BG,EAAO,KAAOH,EAAI,KAAOC,EAAID,EAAI,IAAMC,EAAI,MAC3CG,EAAO,KAAOJ,EAAI,KAAOC,EAAID,EAAIC,EAAID,EACrCK,EAAM,KAAOL,EAAI,KAAOD,EAEtBO,EAAU,IAAI,OAAOJ,CAAI,EACzBK,EAAU,IAAI,OAAOH,CAAI,EACzBI,EAAU,IAAI,OAAOL,CAAI,EACzBM,EAAS,IAAI,OAAOJ,CAAG,EAEvBK,EAAQ,kBACRC,EAAS,iBACTC,EAAQ,aACRC,EAAS,kBACTC,EAAU,KACVC,EAAW,cACXC,EAAW,IAAI,OAAO,oBAAoB,EAC1CC,EAAW,IAAI,OAAO,IAAMjB,EAAID,EAAI,cAAc,EAElDmB,EAAQ,mBACRC,EAAO,2IAEPC,EAAO,iDAEPC,EAAO,sFACPC,EAAQ,oBAERC,EAAO,WACPC,EAAS,MACTC,EAAQ,IAAI,OAAO,IAAMzB,EAAID,EAAI,cAAc,EAE/C2B,EAAgB,SAAuBC,EAAG,CAC5C,IAAIC,EACFC,EACAC,EACAC,EACAC,EACAC,EACAC,EAEF,GAAIP,EAAE,OAAS,EAAK,OAAOA,EAiB3B,GAfAG,EAAUH,EAAE,OAAO,EAAE,CAAC,EAClBG,GAAW,MACbH,EAAIG,EAAQ,YAAY,EAAIH,EAAE,OAAO,CAAC,GAIxCI,EAAKrB,EACLsB,EAAMrB,EAEFoB,EAAG,KAAKJ,CAAC,EAAKA,EAAIA,EAAE,QAAQI,EAAG,MAAM,EAChCC,EAAI,KAAKL,CAAC,IAAKA,EAAIA,EAAE,QAAQK,EAAI,MAAM,GAGhDD,EAAKnB,EACLoB,EAAMnB,EACFkB,EAAG,KAAKJ,CAAC,EAAG,CACd,IAAIQ,EAAKJ,EAAG,KAAKJ,CAAC,EAClBI,EAAKzB,EACDyB,EAAG,KAAKI,EAAG,CAAC,CAAC,IACfJ,EAAKjB,EACLa,EAAIA,EAAE,QAAQI,EAAG,EAAE,EAEvB,SAAWC,EAAI,KAAKL,CAAC,EAAG,CACtB,IAAIQ,EAAKH,EAAI,KAAKL,CAAC,EACnBC,EAAOO,EAAG,CAAC,EACXH,EAAMvB,EACFuB,EAAI,KAAKJ,CAAI,IACfD,EAAIC,EACJI,EAAMjB,EACNkB,EAAMjB,EACNkB,EAAMjB,EACFe,EAAI,KAAKL,CAAC,EAAKA,EAAIA,EAAI,IAClBM,EAAI,KAAKN,CAAC,GAAKI,EAAKjB,EAASa,EAAIA,EAAE,QAAQI,EAAG,EAAE,GAChDG,EAAI,KAAKP,CAAC,IAAKA,EAAIA,EAAI,KAEpC,CAIA,GADAI,EAAKb,EACDa,EAAG,KAAKJ,CAAC,EAAG,CACd,IAAIQ,EAAKJ,EAAG,KAAKJ,CAAC,EAClBC,EAAOO,EAAG,CAAC,EACXR,EAAIC,EAAO,GACb,CAIA,GADAG,EAAKZ,EACDY,EAAG,KAAKJ,CAAC,EAAG,CACd,IAAIQ,EAAKJ,EAAG,KAAKJ,CAAC,EAClBC,EAAOO,EAAG,CAAC,EACXN,EAASM,EAAG,CAAC,EACbJ,EAAKzB,EACDyB,EAAG,KAAKH,CAAI,IACdD,EAAIC,EAAOhC,EAAUiC,CAAM,EAE/B,CAIA,GADAE,EAAKX,EACDW,EAAG,KAAKJ,CAAC,EAAG,CACd,IAAIQ,EAAKJ,EAAG,KAAKJ,CAAC,EAClBC,EAAOO,EAAG,CAAC,EACXN,EAASM,EAAG,CAAC,EACbJ,EAAKzB,EACDyB,EAAG,KAAKH,CAAI,IACdD,EAAIC,EAAO/B,EAAUgC,CAAM,EAE/B,CAKA,GAFAE,EAAKV,EACLW,EAAMV,EACFS,EAAG,KAAKJ,CAAC,EAAG,CACd,IAAIQ,EAAKJ,EAAG,KAAKJ,CAAC,EAClBC,EAAOO,EAAG,CAAC,EACXJ,EAAKxB,EACDwB,EAAG,KAAKH,CAAI,IACdD,EAAIC,EAER,SAAWI,EAAI,KAAKL,CAAC,EAAG,CACtB,IAAIQ,EAAKH,EAAI,KAAKL,CAAC,EACnBC,EAAOO,EAAG,CAAC,EAAIA,EAAG,CAAC,EACnBH,EAAMzB,EACFyB,EAAI,KAAKJ,CAAI,IACfD,EAAIC,EAER,CAIA,GADAG,EAAKR,EACDQ,EAAG,KAAKJ,CAAC,EAAG,CACd,IAAIQ,EAAKJ,EAAG,KAAKJ,CAAC,EAClBC,EAAOO,EAAG,CAAC,EACXJ,EAAKxB,EACLyB,EAAMxB,EACNyB,EAAMR,GACFM,EAAG,KAAKH,CAAI,GAAMI,EAAI,KAAKJ,CAAI,GAAK,CAAEK,EAAI,KAAKL,CAAI,KACrDD,EAAIC,EAER,CAEA,OAAAG,EAAKP,EACLQ,EAAMzB,EACFwB,EAAG,KAAKJ,CAAC,GAAKK,EAAI,KAAKL,CAAC,IAC1BI,EAAKjB,EACLa,EAAIA,EAAE,QAAQI,EAAG,EAAE,GAKjBD,GAAW,MACbH,EAAIG,EAAQ,YAAY,EAAIH,EAAE,OAAO,CAAC,GAGjCA,CACT,EAEA,OAAO,SAAUhD,EAAO,CACtB,OAAOA,EAAM,OAAO+C,CAAa,CACnC,CACF,EAAG,EAEHpG,EAAK,SAAS,iBAAiBA,EAAK,QAAS,SAAS,EACtD;AAAA;AAAA;AAAA,GAkBAA,EAAK,uBAAyB,SAAU8G,EAAW,CACjD,IAAIC,EAAQD,EAAU,OAAO,SAAU7D,EAAM+D,EAAU,CACrD,OAAA/D,EAAK+D,CAAQ,EAAIA,EACV/D,CACT,EAAG,CAAC,CAAC,EAEL,OAAO,SAAUI,EAAO,CACtB,GAAIA,GAAS0D,EAAM1D,EAAM,SAAS,CAAC,IAAMA,EAAM,SAAS,EAAG,OAAOA,CACpE,CACF,EAeArD,EAAK,eAAiBA,EAAK,uBAAuB,CAChD,IACA,OACA,QACA,SACA,QACA,MACA,SACA,OACA,KACA,QACA,KACA,MACA,MACA,MACA,KACA,KACA,KACA,UACA,OACA,MACA,KACA,MACA,SACA,QACA,OACA,MACA,KACA,OACA,SACA,OACA,OACA,QACA,MACA,OACA,MACA,MACA,MACA,MACA,OACA,KACA,MACA,OACA,MACA,MACA,MACA,UACA,IACA,KACA,KACA,OACA,KACA,KACA,MACA,OACA,QACA,MACA,OACA,SACA,MACA,KACA,QACA,OACA,OACA,KACA,UACA,KACA,MACA,MACA,KACA,MACA,QACA,KACA,OACA,KACA,QACA,MACA,MACA,SACA,OACA,MACA,OACA,MACA,SACA,QACA,KACA,OACA,OACA,OACA,MACA,QACA,OACA,OACA,QACA,QACA,OACA,OACA,MACA,KACA,MACA,OACA,KACA,QACA,MACA,KACA,OACA,OACA,OACA,QACA,QACA,QACA,MACA,OACA,MACA,OACA,OACA,QACA,MACA,MACA,MACF,CAAC,EAEDA,EAAK,SAAS,iBAAiBA,EAAK,eAAgB,gBAAgB,EACpE;AAAA;AAAA;AAAA,GAoBAA,EAAK,QAAU,SAAUqD,EAAO,CAC9B,OAAOA,EAAM,OAAO,SAAUxC,EAAG,CAC/B,OAAOA,EAAE,QAAQ,OAAQ,EAAE,EAAE,QAAQ,OAAQ,EAAE,CACjD,CAAC,CACH,EAEAb,EAAK,SAAS,iBAAiBA,EAAK,QAAS,SAAS,EACtD;AAAA;AAAA;AAAA,GA0BAA,EAAK,SAAW,UAAY,CAC1B,KAAK,MAAQ,GACb,KAAK,MAAQ,CAAC,EACd,KAAK,GAAKA,EAAK,SAAS,QACxBA,EAAK,SAAS,SAAW,CAC3B,EAUAA,EAAK,SAAS,QAAU,EASxBA,EAAK,SAAS,UAAY,SAAUiH,EAAK,CAGvC,QAFI/G,EAAU,IAAIF,EAAK,SAAS,QAEvBiB,EAAI,EAAGe,EAAMiF,EAAI,OAAQhG,EAAIe,EAAKf,IACzCf,EAAQ,OAAO+G,EAAIhG,CAAC,CAAC,EAGvB,OAAAf,EAAQ,OAAO,EACRA,EAAQ,IACjB,EAWAF,EAAK,SAAS,WAAa,SAAUkH,EAAQ,CAC3C,MAAI,iBAAkBA,EACblH,EAAK,SAAS,gBAAgBkH,EAAO,KAAMA,EAAO,YAAY,EAE9DlH,EAAK,SAAS,WAAWkH,EAAO,IAAI,CAE/C,EAiBAlH,EAAK,SAAS,gBAAkB,SAAU4B,EAAKuF,EAAc,CAS3D,QARIC,EAAO,IAAIpH,EAAK,SAEhBqH,EAAQ,CAAC,CACX,KAAMD,EACN,eAAgBD,EAChB,IAAKvF,CACP,CAAC,EAEMyF,EAAM,QAAQ,CACnB,IAAIC,EAAQD,EAAM,IAAI,EAGtB,GAAIC,EAAM,IAAI,OAAS,EAAG,CACxB,IAAIlF,EAAOkF,EAAM,IAAI,OAAO,CAAC,EACzBC,EAEAnF,KAAQkF,EAAM,KAAK,MACrBC,EAAaD,EAAM,KAAK,MAAMlF,CAAI,GAElCmF,EAAa,IAAIvH,EAAK,SACtBsH,EAAM,KAAK,MAAMlF,CAAI,EAAImF,GAGvBD,EAAM,IAAI,QAAU,IACtBC,EAAW,MAAQ,IAGrBF,EAAM,KAAK,CACT,KAAME,EACN,eAAgBD,EAAM,eACtB,IAAKA,EAAM,IAAI,MAAM,CAAC,CACxB,CAAC,CACH,CAEA,GAAIA,EAAM,gBAAkB,EAK5B,IAAI,MAAOA,EAAM,KAAK,MACpB,IAAIE,EAAgBF,EAAM,KAAK,MAAM,GAAG,MACnC,CACL,IAAIE,EAAgB,IAAIxH,EAAK,SAC7BsH,EAAM,KAAK,MAAM,GAAG,EAAIE,CAC1B,CAgCA,GA9BIF,EAAM,IAAI,QAAU,IACtBE,EAAc,MAAQ,IAGxBH,EAAM,KAAK,CACT,KAAMG,EACN,eAAgBF,EAAM,eAAiB,EACvC,IAAKA,EAAM,GACb,CAAC,EAKGA,EAAM,IAAI,OAAS,GACrBD,EAAM,KAAK,CACT,KAAMC,EAAM,KACZ,eAAgBA,EAAM,eAAiB,EACvC,IAAKA,EAAM,IAAI,MAAM,CAAC,CACxB,CAAC,EAKCA,EAAM,IAAI,QAAU,IACtBA,EAAM,KAAK,MAAQ,IAMjBA,EAAM,IAAI,QAAU,EAAG,CACzB,GAAI,MAAOA,EAAM,KAAK,MACpB,IAAIG,EAAmBH,EAAM,KAAK,MAAM,GAAG,MACtC,CACL,IAAIG,EAAmB,IAAIzH,EAAK,SAChCsH,EAAM,KAAK,MAAM,GAAG,EAAIG,CAC1B,CAEIH,EAAM,IAAI,QAAU,IACtBG,EAAiB,MAAQ,IAG3BJ,EAAM,KAAK,CACT,KAAMI,EACN,eAAgBH,EAAM,eAAiB,EACvC,IAAKA,EAAM,IAAI,MAAM,CAAC,CACxB,CAAC,CACH,CAKA,GAAIA,EAAM,IAAI,OAAS,EAAG,CACxB,IAAII,EAAQJ,EAAM,IAAI,OAAO,CAAC,EAC1BK,EAAQL,EAAM,IAAI,OAAO,CAAC,EAC1BM,EAEAD,KAASL,EAAM,KAAK,MACtBM,EAAgBN,EAAM,KAAK,MAAMK,CAAK,GAEtCC,EAAgB,IAAI5H,EAAK,SACzBsH,EAAM,KAAK,MAAMK,CAAK,EAAIC,GAGxBN,EAAM,IAAI,QAAU,IACtBM,EAAc,MAAQ,IAGxBP,EAAM,KAAK,CACT,KAAMO,EACN,eAAgBN,EAAM,eAAiB,EACvC,IAAKI,EAAQJ,EAAM,IAAI,MAAM,CAAC,CAChC,CAAC,CACH,EACF,CAEA,OAAOF,CACT,EAYApH,EAAK,SAAS,WAAa,SAAU4B,EAAK,CAYxC,QAXIiG,EAAO,IAAI7H,EAAK,SAChBoH,EAAOS,EAUF,EAAI,EAAG7F,EAAMJ,EAAI,OAAQ,EAAII,EAAK,IAAK,CAC9C,IAAII,EAAOR,EAAI,CAAC,EACZkG,EAAS,GAAK9F,EAAM,EAExB,GAAII,GAAQ,IACVyF,EAAK,MAAMzF,CAAI,EAAIyF,EACnBA,EAAK,MAAQC,MAER,CACL,IAAIC,EAAO,IAAI/H,EAAK,SACpB+H,EAAK,MAAQD,EAEbD,EAAK,MAAMzF,CAAI,EAAI2F,EACnBF,EAAOE,CACT,CACF,CAEA,OAAOX,CACT,EAYApH,EAAK,SAAS,UAAU,QAAU,UAAY,CAQ5C,QAPI+G,EAAQ,CAAC,EAETM,EAAQ,CAAC,CACX,OAAQ,GACR,KAAM,IACR,CAAC,EAEMA,EAAM,QAAQ,CACnB,IAAIC,EAAQD,EAAM,IAAI,EAClBW,EAAQ,OAAO,KAAKV,EAAM,KAAK,KAAK,EACpCtF,EAAMgG,EAAM,OAEZV,EAAM,KAAK,QAKbA,EAAM,OAAO,OAAO,CAAC,EACrBP,EAAM,KAAKO,EAAM,MAAM,GAGzB,QAASrG,EAAI,EAAGA,EAAIe,EAAKf,IAAK,CAC5B,IAAIgH,EAAOD,EAAM/G,CAAC,EAElBoG,EAAM,KAAK,CACT,OAAQC,EAAM,OAAO,OAAOW,CAAI,EAChC,KAAMX,EAAM,KAAK,MAAMW,CAAI,CAC7B,CAAC,CACH,CACF,CAEA,OAAOlB,CACT,EAYA/G,EAAK,SAAS,UAAU,SAAW,UAAY,CAS7C,GAAI,KAAK,KACP,OAAO,KAAK,KAOd,QAJI4B,EAAM,KAAK,MAAQ,IAAM,IACzBsG,EAAS,OAAO,KAAK,KAAK,KAAK,EAAE,KAAK,EACtClG,EAAMkG,EAAO,OAER,EAAI,EAAG,EAAIlG,EAAK,IAAK,CAC5B,IAAIO,EAAQ2F,EAAO,CAAC,EAChBL,EAAO,KAAK,MAAMtF,CAAK,EAE3BX,EAAMA,EAAMW,EAAQsF,EAAK,EAC3B,CAEA,OAAOjG,CACT,EAYA5B,EAAK,SAAS,UAAU,UAAY,SAAUqB,EAAG,CAU/C,QATIgD,EAAS,IAAIrE,EAAK,SAClBsH,EAAQ,OAERD,EAAQ,CAAC,CACX,MAAOhG,EACP,OAAQgD,EACR,KAAM,IACR,CAAC,EAEMgD,EAAM,QAAQ,CACnBC,EAAQD,EAAM,IAAI,EAWlB,QALIc,EAAS,OAAO,KAAKb,EAAM,MAAM,KAAK,EACtCc,EAAOD,EAAO,OACdE,EAAS,OAAO,KAAKf,EAAM,KAAK,KAAK,EACrCgB,EAAOD,EAAO,OAETE,EAAI,EAAGA,EAAIH,EAAMG,IAGxB,QAFIC,EAAQL,EAAOI,CAAC,EAEXzH,EAAI,EAAGA,EAAIwH,EAAMxH,IAAK,CAC7B,IAAI2H,EAAQJ,EAAOvH,CAAC,EAEpB,GAAI2H,GAASD,GAASA,GAAS,IAAK,CAClC,IAAIX,EAAOP,EAAM,KAAK,MAAMmB,CAAK,EAC7BC,EAAQpB,EAAM,MAAM,MAAMkB,CAAK,EAC/BV,EAAQD,EAAK,OAASa,EAAM,MAC5BX,EAAO,OAEPU,KAASnB,EAAM,OAAO,OAIxBS,EAAOT,EAAM,OAAO,MAAMmB,CAAK,EAC/BV,EAAK,MAAQA,EAAK,OAASD,IAM3BC,EAAO,IAAI/H,EAAK,SAChB+H,EAAK,MAAQD,EACbR,EAAM,OAAO,MAAMmB,CAAK,EAAIV,GAG9BV,EAAM,KAAK,CACT,MAAOqB,EACP,OAAQX,EACR,KAAMF,CACR,CAAC,CACH,CACF,CAEJ,CAEA,OAAOxD,CACT,EACArE,EAAK,SAAS,QAAU,UAAY,CAClC,KAAK,aAAe,GACpB,KAAK,KAAO,IAAIA,EAAK,SACrB,KAAK,eAAiB,CAAC,EACvB,KAAK,eAAiB,CAAC,CACzB,EAEAA,EAAK,SAAS,QAAQ,UAAU,OAAS,SAAU2I,EAAM,CACvD,IAAId,EACAe,EAAe,EAEnB,GAAID,EAAO,KAAK,aACd,MAAM,IAAI,MAAO,6BAA6B,EAGhD,QAAS,EAAI,EAAG,EAAIA,EAAK,QAAU,EAAI,KAAK,aAAa,QACnDA,EAAK,CAAC,GAAK,KAAK,aAAa,CAAC,EAD6B,IAE/DC,IAGF,KAAK,SAASA,CAAY,EAEtB,KAAK,eAAe,QAAU,EAChCf,EAAO,KAAK,KAEZA,EAAO,KAAK,eAAe,KAAK,eAAe,OAAS,CAAC,EAAE,MAG7D,QAAS,EAAIe,EAAc,EAAID,EAAK,OAAQ,IAAK,CAC/C,IAAIE,EAAW,IAAI7I,EAAK,SACpBoC,EAAOuG,EAAK,CAAC,EAEjBd,EAAK,MAAMzF,CAAI,EAAIyG,EAEnB,KAAK,eAAe,KAAK,CACvB,OAAQhB,EACR,KAAMzF,EACN,MAAOyG,CACT,CAAC,EAEDhB,EAAOgB,CACT,CAEAhB,EAAK,MAAQ,GACb,KAAK,aAAec,CACtB,EAEA3I,EAAK,SAAS,QAAQ,UAAU,OAAS,UAAY,CACnD,KAAK,SAAS,CAAC,CACjB,EAEAA,EAAK,SAAS,QAAQ,UAAU,SAAW,SAAU8I,EAAQ,CAC3D,QAAS7H,EAAI,KAAK,eAAe,OAAS,EAAGA,GAAK6H,EAAQ7H,IAAK,CAC7D,IAAI4G,EAAO,KAAK,eAAe5G,CAAC,EAC5B8H,EAAWlB,EAAK,MAAM,SAAS,EAE/BkB,KAAY,KAAK,eACnBlB,EAAK,OAAO,MAAMA,EAAK,IAAI,EAAI,KAAK,eAAekB,CAAQ,GAI3DlB,EAAK,MAAM,KAAOkB,EAElB,KAAK,eAAeA,CAAQ,EAAIlB,EAAK,OAGvC,KAAK,eAAe,IAAI,CAC1B,CACF,EACA;AAAA;AAAA;AAAA,GAqBA7H,EAAK,MAAQ,SAAUgJ,EAAO,CAC5B,KAAK,cAAgBA,EAAM,cAC3B,KAAK,aAAeA,EAAM,aAC1B,KAAK,SAAWA,EAAM,SACtB,KAAK,OAASA,EAAM,OACpB,KAAK,SAAWA,EAAM,QACxB,EAyEAhJ,EAAK,MAAM,UAAU,OAAS,SAAUiJ,EAAa,CACnD,OAAO,KAAK,MAAM,SAAUC,EAAO,CACjC,IAAIC,EAAS,IAAInJ,EAAK,YAAYiJ,EAAaC,CAAK,EACpDC,EAAO,MAAM,CACf,CAAC,CACH,EA2BAnJ,EAAK,MAAM,UAAU,MAAQ,SAAU8B,EAAI,CAoBzC,QAZIoH,EAAQ,IAAIlJ,EAAK,MAAM,KAAK,MAAM,EAClCoJ,EAAiB,OAAO,OAAO,IAAI,EACnCC,EAAe,OAAO,OAAO,IAAI,EACjCC,EAAiB,OAAO,OAAO,IAAI,EACnCC,EAAkB,OAAO,OAAO,IAAI,EACpCC,EAAoB,OAAO,OAAO,IAAI,EAOjCvI,EAAI,EAAGA,EAAI,KAAK,OAAO,OAAQA,IACtCoI,EAAa,KAAK,OAAOpI,CAAC,CAAC,EAAI,IAAIjB,EAAK,OAG1C8B,EAAG,KAAKoH,EAAOA,CAAK,EAEpB,QAASjI,EAAI,EAAGA,EAAIiI,EAAM,QAAQ,OAAQjI,IAAK,CAS7C,IAAIiG,EAASgC,EAAM,QAAQjI,CAAC,EACxBwI,EAAQ,KACRC,EAAgB1J,EAAK,IAAI,MAEzBkH,EAAO,YACTuC,EAAQ,KAAK,SAAS,UAAUvC,EAAO,KAAM,CAC3C,OAAQA,EAAO,MACjB,CAAC,EAEDuC,EAAQ,CAACvC,EAAO,IAAI,EAGtB,QAASyC,EAAI,EAAGA,EAAIF,EAAM,OAAQE,IAAK,CACrC,IAAIC,EAAOH,EAAME,CAAC,EAQlBzC,EAAO,KAAO0C,EAOd,IAAIC,EAAe7J,EAAK,SAAS,WAAWkH,CAAM,EAC9C4C,EAAgB,KAAK,SAAS,UAAUD,CAAY,EAAE,QAAQ,EAQlE,GAAIC,EAAc,SAAW,GAAK5C,EAAO,WAAalH,EAAK,MAAM,SAAS,SAAU,CAClF,QAASoD,EAAI,EAAGA,EAAI8D,EAAO,OAAO,OAAQ9D,IAAK,CAC7C,IAAI2G,EAAQ7C,EAAO,OAAO9D,CAAC,EAC3BmG,EAAgBQ,CAAK,EAAI/J,EAAK,IAAI,KACpC,CAEA,KACF,CAEA,QAASkD,EAAI,EAAGA,EAAI4G,EAAc,OAAQ5G,IASxC,QAJI8G,EAAeF,EAAc5G,CAAC,EAC9B1B,EAAU,KAAK,cAAcwI,CAAY,EACzCC,EAAYzI,EAAQ,OAEf4B,EAAI,EAAGA,EAAI8D,EAAO,OAAO,OAAQ9D,IAAK,CAS7C,IAAI2G,EAAQ7C,EAAO,OAAO9D,CAAC,EACvB8G,EAAe1I,EAAQuI,CAAK,EAC5BI,EAAuB,OAAO,KAAKD,CAAY,EAC/CE,EAAYJ,EAAe,IAAMD,EACjCM,EAAuB,IAAIrK,EAAK,IAAImK,CAAoB,EAoB5D,GAbIjD,EAAO,UAAYlH,EAAK,MAAM,SAAS,WACzC0J,EAAgBA,EAAc,MAAMW,CAAoB,EAEpDd,EAAgBQ,CAAK,IAAM,SAC7BR,EAAgBQ,CAAK,EAAI/J,EAAK,IAAI,WASlCkH,EAAO,UAAYlH,EAAK,MAAM,SAAS,WAAY,CACjDwJ,EAAkBO,CAAK,IAAM,SAC/BP,EAAkBO,CAAK,EAAI/J,EAAK,IAAI,OAGtCwJ,EAAkBO,CAAK,EAAIP,EAAkBO,CAAK,EAAE,MAAMM,CAAoB,EAO9E,QACF,CAeA,GANAhB,EAAaU,CAAK,EAAE,OAAOE,EAAW/C,EAAO,MAAO,SAAU9F,GAAGC,GAAG,CAAE,OAAOD,GAAIC,EAAE,CAAC,EAMhF,CAAAiI,EAAec,CAAS,EAI5B,SAASE,EAAI,EAAGA,EAAIH,EAAqB,OAAQG,IAAK,CAOpD,IAAIC,EAAsBJ,EAAqBG,CAAC,EAC5CE,EAAmB,IAAIxK,EAAK,SAAUuK,EAAqBR,CAAK,EAChElI,EAAWqI,EAAaK,CAAmB,EAC3CE,GAECA,EAAarB,EAAeoB,CAAgB,KAAO,OACtDpB,EAAeoB,CAAgB,EAAI,IAAIxK,EAAK,UAAWgK,EAAcD,EAAOlI,CAAQ,EAEpF4I,EAAW,IAAIT,EAAcD,EAAOlI,CAAQ,CAGhD,CAEAyH,EAAec,CAAS,EAAI,GAC9B,CAEJ,CAQA,GAAIlD,EAAO,WAAalH,EAAK,MAAM,SAAS,SAC1C,QAASoD,EAAI,EAAGA,EAAI8D,EAAO,OAAO,OAAQ9D,IAAK,CAC7C,IAAI2G,EAAQ7C,EAAO,OAAO9D,CAAC,EAC3BmG,EAAgBQ,CAAK,EAAIR,EAAgBQ,CAAK,EAAE,UAAUL,CAAa,CACzE,CAEJ,CAUA,QAHIgB,EAAqB1K,EAAK,IAAI,SAC9B2K,EAAuB3K,EAAK,IAAI,MAE3BiB,EAAI,EAAGA,EAAI,KAAK,OAAO,OAAQA,IAAK,CAC3C,IAAI8I,EAAQ,KAAK,OAAO9I,CAAC,EAErBsI,EAAgBQ,CAAK,IACvBW,EAAqBA,EAAmB,UAAUnB,EAAgBQ,CAAK,CAAC,GAGtEP,EAAkBO,CAAK,IACzBY,EAAuBA,EAAqB,MAAMnB,EAAkBO,CAAK,CAAC,EAE9E,CAEA,IAAIa,EAAoB,OAAO,KAAKxB,CAAc,EAC9CyB,EAAU,CAAC,EACXC,EAAU,OAAO,OAAO,IAAI,EAYhC,GAAI5B,EAAM,UAAU,EAAG,CACrB0B,EAAoB,OAAO,KAAK,KAAK,YAAY,EAEjD,QAAS3J,EAAI,EAAGA,EAAI2J,EAAkB,OAAQ3J,IAAK,CACjD,IAAIuJ,EAAmBI,EAAkB3J,CAAC,EACtCF,EAAWf,EAAK,SAAS,WAAWwK,CAAgB,EACxDpB,EAAeoB,CAAgB,EAAI,IAAIxK,EAAK,SAC9C,CACF,CAEA,QAASiB,EAAI,EAAGA,EAAI2J,EAAkB,OAAQ3J,IAAK,CASjD,IAAIF,EAAWf,EAAK,SAAS,WAAW4K,EAAkB3J,CAAC,CAAC,EACxDP,EAASK,EAAS,OAEtB,GAAK2J,EAAmB,SAAShK,CAAM,GAInC,CAAAiK,EAAqB,SAASjK,CAAM,EAIxC,KAAIqK,EAAc,KAAK,aAAahK,CAAQ,EACxCiK,EAAQ3B,EAAatI,EAAS,SAAS,EAAE,WAAWgK,CAAW,EAC/DE,EAEJ,IAAKA,EAAWH,EAAQpK,CAAM,KAAO,OACnCuK,EAAS,OAASD,EAClBC,EAAS,UAAU,QAAQ7B,EAAerI,CAAQ,CAAC,MAC9C,CACL,IAAImK,EAAQ,CACV,IAAKxK,EACL,MAAOsK,EACP,UAAW5B,EAAerI,CAAQ,CACpC,EACA+J,EAAQpK,CAAM,EAAIwK,EAClBL,EAAQ,KAAKK,CAAK,CACpB,EACF,CAKA,OAAOL,EAAQ,KAAK,SAAUzJ,GAAGC,GAAG,CAClC,OAAOA,GAAE,MAAQD,GAAE,KACrB,CAAC,CACH,EAUApB,EAAK,MAAM,UAAU,OAAS,UAAY,CACxC,IAAImL,EAAgB,OAAO,KAAK,KAAK,aAAa,EAC/C,KAAK,EACL,IAAI,SAAUvB,EAAM,CACnB,MAAO,CAACA,EAAM,KAAK,cAAcA,CAAI,CAAC,CACxC,EAAG,IAAI,EAELwB,EAAe,OAAO,KAAK,KAAK,YAAY,EAC7C,IAAI,SAAUC,EAAK,CAClB,MAAO,CAACA,EAAK,KAAK,aAAaA,CAAG,EAAE,OAAO,CAAC,CAC9C,EAAG,IAAI,EAET,MAAO,CACL,QAASrL,EAAK,QACd,OAAQ,KAAK,OACb,aAAcoL,EACd,cAAeD,EACf,SAAU,KAAK,SAAS,OAAO,CACjC,CACF,EAQAnL,EAAK,MAAM,KAAO,SAAUsL,EAAiB,CAC3C,IAAItC,EAAQ,CAAC,EACToC,EAAe,CAAC,EAChBG,EAAoBD,EAAgB,aACpCH,EAAgB,OAAO,OAAO,IAAI,EAClCK,EAA0BF,EAAgB,cAC1CG,EAAkB,IAAIzL,EAAK,SAAS,QACpC0C,EAAW1C,EAAK,SAAS,KAAKsL,EAAgB,QAAQ,EAEtDA,EAAgB,SAAWtL,EAAK,SAClCA,EAAK,MAAM,KAAK,4EAA8EA,EAAK,QAAU,sCAAwCsL,EAAgB,QAAU,GAAG,EAGpL,QAASrK,EAAI,EAAGA,EAAIsK,EAAkB,OAAQtK,IAAK,CACjD,IAAIyK,EAAQH,EAAkBtK,CAAC,EAC3BoK,EAAMK,EAAM,CAAC,EACb1K,EAAW0K,EAAM,CAAC,EAEtBN,EAAaC,CAAG,EAAI,IAAIrL,EAAK,OAAOgB,CAAQ,CAC9C,CAEA,QAASC,EAAI,EAAGA,EAAIuK,EAAwB,OAAQvK,IAAK,CACvD,IAAIyK,EAAQF,EAAwBvK,CAAC,EACjC2I,EAAO8B,EAAM,CAAC,EACdlK,EAAUkK,EAAM,CAAC,EAErBD,EAAgB,OAAO7B,CAAI,EAC3BuB,EAAcvB,CAAI,EAAIpI,CACxB,CAEA,OAAAiK,EAAgB,OAAO,EAEvBzC,EAAM,OAASsC,EAAgB,OAE/BtC,EAAM,aAAeoC,EACrBpC,EAAM,cAAgBmC,EACtBnC,EAAM,SAAWyC,EAAgB,KACjCzC,EAAM,SAAWtG,EAEV,IAAI1C,EAAK,MAAMgJ,CAAK,CAC7B,EACA;AAAA;AAAA;AAAA,GA6BAhJ,EAAK,QAAU,UAAY,CACzB,KAAK,KAAO,KACZ,KAAK,QAAU,OAAO,OAAO,IAAI,EACjC,KAAK,WAAa,OAAO,OAAO,IAAI,EACpC,KAAK,cAAgB,OAAO,OAAO,IAAI,EACvC,KAAK,qBAAuB,CAAC,EAC7B,KAAK,aAAe,CAAC,EACrB,KAAK,UAAYA,EAAK,UACtB,KAAK,SAAW,IAAIA,EAAK,SACzB,KAAK,eAAiB,IAAIA,EAAK,SAC/B,KAAK,cAAgB,EACrB,KAAK,GAAK,IACV,KAAK,IAAM,IACX,KAAK,UAAY,EACjB,KAAK,kBAAoB,CAAC,CAC5B,EAcAA,EAAK,QAAQ,UAAU,IAAM,SAAUqL,EAAK,CAC1C,KAAK,KAAOA,CACd,EAkCArL,EAAK,QAAQ,UAAU,MAAQ,SAAUW,EAAWgL,EAAY,CAC9D,GAAI,KAAK,KAAKhL,CAAS,EACrB,MAAM,IAAI,WAAY,UAAYA,EAAY,kCAAkC,EAGlF,KAAK,QAAQA,CAAS,EAAIgL,GAAc,CAAC,CAC3C,EAUA3L,EAAK,QAAQ,UAAU,EAAI,SAAU4L,EAAQ,CACvCA,EAAS,EACX,KAAK,GAAK,EACDA,EAAS,EAClB,KAAK,GAAK,EAEV,KAAK,GAAKA,CAEd,EASA5L,EAAK,QAAQ,UAAU,GAAK,SAAU4L,EAAQ,CAC5C,KAAK,IAAMA,CACb,EAmBA5L,EAAK,QAAQ,UAAU,IAAM,SAAU6L,EAAKF,EAAY,CACtD,IAAIjL,EAASmL,EAAI,KAAK,IAAI,EACtBC,EAAS,OAAO,KAAK,KAAK,OAAO,EAErC,KAAK,WAAWpL,CAAM,EAAIiL,GAAc,CAAC,EACzC,KAAK,eAAiB,EAEtB,QAAS1K,EAAI,EAAGA,EAAI6K,EAAO,OAAQ7K,IAAK,CACtC,IAAIN,EAAYmL,EAAO7K,CAAC,EACpB8K,EAAY,KAAK,QAAQpL,CAAS,EAAE,UACpCoJ,EAAQgC,EAAYA,EAAUF,CAAG,EAAIA,EAAIlL,CAAS,EAClDsB,EAAS,KAAK,UAAU8H,EAAO,CAC7B,OAAQ,CAACpJ,CAAS,CACpB,CAAC,EACD8I,EAAQ,KAAK,SAAS,IAAIxH,CAAM,EAChClB,EAAW,IAAIf,EAAK,SAAUU,EAAQC,CAAS,EAC/CqL,EAAa,OAAO,OAAO,IAAI,EAEnC,KAAK,qBAAqBjL,CAAQ,EAAIiL,EACtC,KAAK,aAAajL,CAAQ,EAAI,EAG9B,KAAK,aAAaA,CAAQ,GAAK0I,EAAM,OAGrC,QAASvG,EAAI,EAAGA,EAAIuG,EAAM,OAAQvG,IAAK,CACrC,IAAI0G,EAAOH,EAAMvG,CAAC,EAUlB,GARI8I,EAAWpC,CAAI,GAAK,OACtBoC,EAAWpC,CAAI,EAAI,GAGrBoC,EAAWpC,CAAI,GAAK,EAIhB,KAAK,cAAcA,CAAI,GAAK,KAAW,CACzC,IAAIpI,EAAU,OAAO,OAAO,IAAI,EAChCA,EAAQ,OAAY,KAAK,UACzB,KAAK,WAAa,EAElB,QAAS4B,EAAI,EAAGA,EAAI0I,EAAO,OAAQ1I,IACjC5B,EAAQsK,EAAO1I,CAAC,CAAC,EAAI,OAAO,OAAO,IAAI,EAGzC,KAAK,cAAcwG,CAAI,EAAIpI,CAC7B,CAGI,KAAK,cAAcoI,CAAI,EAAEjJ,CAAS,EAAED,CAAM,GAAK,OACjD,KAAK,cAAckJ,CAAI,EAAEjJ,CAAS,EAAED,CAAM,EAAI,OAAO,OAAO,IAAI,GAKlE,QAAS4J,EAAI,EAAGA,EAAI,KAAK,kBAAkB,OAAQA,IAAK,CACtD,IAAI2B,EAAc,KAAK,kBAAkB3B,CAAC,EACtCzI,EAAW+H,EAAK,SAASqC,CAAW,EAEpC,KAAK,cAAcrC,CAAI,EAAEjJ,CAAS,EAAED,CAAM,EAAEuL,CAAW,GAAK,OAC9D,KAAK,cAAcrC,CAAI,EAAEjJ,CAAS,EAAED,CAAM,EAAEuL,CAAW,EAAI,CAAC,GAG9D,KAAK,cAAcrC,CAAI,EAAEjJ,CAAS,EAAED,CAAM,EAAEuL,CAAW,EAAE,KAAKpK,CAAQ,CACxE,CACF,CAEF,CACF,EAOA7B,EAAK,QAAQ,UAAU,6BAA+B,UAAY,CAOhE,QALIkM,EAAY,OAAO,KAAK,KAAK,YAAY,EACzCC,EAAiBD,EAAU,OAC3BE,EAAc,CAAC,EACfC,EAAqB,CAAC,EAEjBpL,EAAI,EAAGA,EAAIkL,EAAgBlL,IAAK,CACvC,IAAIF,EAAWf,EAAK,SAAS,WAAWkM,EAAUjL,CAAC,CAAC,EAChD8I,EAAQhJ,EAAS,UAErBsL,EAAmBtC,CAAK,IAAMsC,EAAmBtC,CAAK,EAAI,GAC1DsC,EAAmBtC,CAAK,GAAK,EAE7BqC,EAAYrC,CAAK,IAAMqC,EAAYrC,CAAK,EAAI,GAC5CqC,EAAYrC,CAAK,GAAK,KAAK,aAAahJ,CAAQ,CAClD,CAIA,QAFI+K,EAAS,OAAO,KAAK,KAAK,OAAO,EAE5B7K,EAAI,EAAGA,EAAI6K,EAAO,OAAQ7K,IAAK,CACtC,IAAIN,EAAYmL,EAAO7K,CAAC,EACxBmL,EAAYzL,CAAS,EAAIyL,EAAYzL,CAAS,EAAI0L,EAAmB1L,CAAS,CAChF,CAEA,KAAK,mBAAqByL,CAC5B,EAOApM,EAAK,QAAQ,UAAU,mBAAqB,UAAY,CAMtD,QALIoL,EAAe,CAAC,EAChBc,EAAY,OAAO,KAAK,KAAK,oBAAoB,EACjDI,EAAkBJ,EAAU,OAC5BK,EAAe,OAAO,OAAO,IAAI,EAE5BtL,EAAI,EAAGA,EAAIqL,EAAiBrL,IAAK,CAaxC,QAZIF,EAAWf,EAAK,SAAS,WAAWkM,EAAUjL,CAAC,CAAC,EAChDN,EAAYI,EAAS,UACrByL,EAAc,KAAK,aAAazL,CAAQ,EACxCgK,EAAc,IAAI/K,EAAK,OACvByM,EAAkB,KAAK,qBAAqB1L,CAAQ,EACpD0I,EAAQ,OAAO,KAAKgD,CAAe,EACnCC,EAAcjD,EAAM,OAGpBkD,EAAa,KAAK,QAAQhM,CAAS,EAAE,OAAS,EAC9CiM,EAAW,KAAK,WAAW7L,EAAS,MAAM,EAAE,OAAS,EAEhDmC,EAAI,EAAGA,EAAIwJ,EAAaxJ,IAAK,CACpC,IAAI0G,EAAOH,EAAMvG,CAAC,EACd2J,EAAKJ,EAAgB7C,CAAI,EACzBK,EAAY,KAAK,cAAcL,CAAI,EAAE,OACrCkD,EAAK9B,EAAO+B,EAEZR,EAAa3C,CAAI,IAAM,QACzBkD,EAAM9M,EAAK,IAAI,KAAK,cAAc4J,CAAI,EAAG,KAAK,aAAa,EAC3D2C,EAAa3C,CAAI,EAAIkD,GAErBA,EAAMP,EAAa3C,CAAI,EAGzBoB,EAAQ8B,IAAQ,KAAK,IAAM,GAAKD,IAAO,KAAK,KAAO,EAAI,KAAK,GAAK,KAAK,IAAML,EAAc,KAAK,mBAAmB7L,CAAS,IAAMkM,GACjI7B,GAAS2B,EACT3B,GAAS4B,EACTG,EAAqB,KAAK,MAAM/B,EAAQ,GAAI,EAAI,IAQhDD,EAAY,OAAOd,EAAW8C,CAAkB,CAClD,CAEA3B,EAAarK,CAAQ,EAAIgK,CAC3B,CAEA,KAAK,aAAeK,CACtB,EAOApL,EAAK,QAAQ,UAAU,eAAiB,UAAY,CAClD,KAAK,SAAWA,EAAK,SAAS,UAC5B,OAAO,KAAK,KAAK,aAAa,EAAE,KAAK,CACvC,CACF,EAUAA,EAAK,QAAQ,UAAU,MAAQ,UAAY,CACzC,YAAK,6BAA6B,EAClC,KAAK,mBAAmB,EACxB,KAAK,eAAe,EAEb,IAAIA,EAAK,MAAM,CACpB,cAAe,KAAK,cACpB,aAAc,KAAK,aACnB,SAAU,KAAK,SACf,OAAQ,OAAO,KAAK,KAAK,OAAO,EAChC,SAAU,KAAK,cACjB,CAAC,CACH,EAgBAA,EAAK,QAAQ,UAAU,IAAM,SAAU8B,EAAI,CACzC,IAAIkL,EAAO,MAAM,UAAU,MAAM,KAAK,UAAW,CAAC,EAClDA,EAAK,QAAQ,IAAI,EACjBlL,EAAG,MAAM,KAAMkL,CAAI,CACrB,EAaAhN,EAAK,UAAY,SAAU4J,EAAMG,EAAOlI,EAAU,CAShD,QARIoL,EAAiB,OAAO,OAAO,IAAI,EACnCC,EAAe,OAAO,KAAKrL,GAAY,CAAC,CAAC,EAOpCZ,EAAI,EAAGA,EAAIiM,EAAa,OAAQjM,IAAK,CAC5C,IAAIT,EAAM0M,EAAajM,CAAC,EACxBgM,EAAezM,CAAG,EAAIqB,EAASrB,CAAG,EAAE,MAAM,CAC5C,CAEA,KAAK,SAAW,OAAO,OAAO,IAAI,EAE9BoJ,IAAS,SACX,KAAK,SAASA,CAAI,EAAI,OAAO,OAAO,IAAI,EACxC,KAAK,SAASA,CAAI,EAAEG,CAAK,EAAIkD,EAEjC,EAWAjN,EAAK,UAAU,UAAU,QAAU,SAAUmN,EAAgB,CAG3D,QAFI1D,EAAQ,OAAO,KAAK0D,EAAe,QAAQ,EAEtClM,EAAI,EAAGA,EAAIwI,EAAM,OAAQxI,IAAK,CACrC,IAAI2I,EAAOH,EAAMxI,CAAC,EACd6K,EAAS,OAAO,KAAKqB,EAAe,SAASvD,CAAI,CAAC,EAElD,KAAK,SAASA,CAAI,GAAK,OACzB,KAAK,SAASA,CAAI,EAAI,OAAO,OAAO,IAAI,GAG1C,QAAS1G,EAAI,EAAGA,EAAI4I,EAAO,OAAQ5I,IAAK,CACtC,IAAI6G,EAAQ+B,EAAO5I,CAAC,EAChB3C,EAAO,OAAO,KAAK4M,EAAe,SAASvD,CAAI,EAAEG,CAAK,CAAC,EAEvD,KAAK,SAASH,CAAI,EAAEG,CAAK,GAAK,OAChC,KAAK,SAASH,CAAI,EAAEG,CAAK,EAAI,OAAO,OAAO,IAAI,GAGjD,QAAS3G,EAAI,EAAGA,EAAI7C,EAAK,OAAQ6C,IAAK,CACpC,IAAI5C,EAAMD,EAAK6C,CAAC,EAEZ,KAAK,SAASwG,CAAI,EAAEG,CAAK,EAAEvJ,CAAG,GAAK,KACrC,KAAK,SAASoJ,CAAI,EAAEG,CAAK,EAAEvJ,CAAG,EAAI2M,EAAe,SAASvD,CAAI,EAAEG,CAAK,EAAEvJ,CAAG,EAE1E,KAAK,SAASoJ,CAAI,EAAEG,CAAK,EAAEvJ,CAAG,EAAI,KAAK,SAASoJ,CAAI,EAAEG,CAAK,EAAEvJ,CAAG,EAAE,OAAO2M,EAAe,SAASvD,CAAI,EAAEG,CAAK,EAAEvJ,CAAG,CAAC,CAGtH,CACF,CACF,CACF,EASAR,EAAK,UAAU,UAAU,IAAM,SAAU4J,EAAMG,EAAOlI,EAAU,CAC9D,GAAI,EAAE+H,KAAQ,KAAK,UAAW,CAC5B,KAAK,SAASA,CAAI,EAAI,OAAO,OAAO,IAAI,EACxC,KAAK,SAASA,CAAI,EAAEG,CAAK,EAAIlI,EAC7B,MACF,CAEA,GAAI,EAAEkI,KAAS,KAAK,SAASH,CAAI,GAAI,CACnC,KAAK,SAASA,CAAI,EAAEG,CAAK,EAAIlI,EAC7B,MACF,CAIA,QAFIqL,EAAe,OAAO,KAAKrL,CAAQ,EAE9BZ,EAAI,EAAGA,EAAIiM,EAAa,OAAQjM,IAAK,CAC5C,IAAIT,EAAM0M,EAAajM,CAAC,EAEpBT,KAAO,KAAK,SAASoJ,CAAI,EAAEG,CAAK,EAClC,KAAK,SAASH,CAAI,EAAEG,CAAK,EAAEvJ,CAAG,EAAI,KAAK,SAASoJ,CAAI,EAAEG,CAAK,EAAEvJ,CAAG,EAAE,OAAOqB,EAASrB,CAAG,CAAC,EAEtF,KAAK,SAASoJ,CAAI,EAAEG,CAAK,EAAEvJ,CAAG,EAAIqB,EAASrB,CAAG,CAElD,CACF,EAYAR,EAAK,MAAQ,SAAUoN,EAAW,CAChC,KAAK,QAAU,CAAC,EAChB,KAAK,UAAYA,CACnB,EA0BApN,EAAK,MAAM,SAAW,IAAI,OAAQ,GAAG,EACrCA,EAAK,MAAM,SAAS,KAAO,EAC3BA,EAAK,MAAM,SAAS,QAAU,EAC9BA,EAAK,MAAM,SAAS,SAAW,EAa/BA,EAAK,MAAM,SAAW,CAIpB,SAAU,EAMV,SAAU,EAMV,WAAY,CACd,EAyBAA,EAAK,MAAM,UAAU,OAAS,SAAUkH,EAAQ,CAC9C,MAAM,WAAYA,IAChBA,EAAO,OAAS,KAAK,WAGjB,UAAWA,IACfA,EAAO,MAAQ,GAGX,gBAAiBA,IACrBA,EAAO,YAAc,IAGjB,aAAcA,IAClBA,EAAO,SAAWlH,EAAK,MAAM,SAAS,MAGnCkH,EAAO,SAAWlH,EAAK,MAAM,SAAS,SAAakH,EAAO,KAAK,OAAO,CAAC,GAAKlH,EAAK,MAAM,WAC1FkH,EAAO,KAAO,IAAMA,EAAO,MAGxBA,EAAO,SAAWlH,EAAK,MAAM,SAAS,UAAckH,EAAO,KAAK,MAAM,EAAE,GAAKlH,EAAK,MAAM,WAC3FkH,EAAO,KAAO,GAAKA,EAAO,KAAO,KAG7B,aAAcA,IAClBA,EAAO,SAAWlH,EAAK,MAAM,SAAS,UAGxC,KAAK,QAAQ,KAAKkH,CAAM,EAEjB,IACT,EASAlH,EAAK,MAAM,UAAU,UAAY,UAAY,CAC3C,QAASiB,EAAI,EAAGA,EAAI,KAAK,QAAQ,OAAQA,IACvC,GAAI,KAAK,QAAQA,CAAC,EAAE,UAAYjB,EAAK,MAAM,SAAS,WAClD,MAAO,GAIX,MAAO,EACT,EA4BAA,EAAK,MAAM,UAAU,KAAO,SAAU4J,EAAMyD,EAAS,CACnD,GAAI,MAAM,QAAQzD,CAAI,EACpB,OAAAA,EAAK,QAAQ,SAAU7H,EAAG,CAAE,KAAK,KAAKA,EAAG/B,EAAK,MAAM,MAAMqN,CAAO,CAAC,CAAE,EAAG,IAAI,EACpE,KAGT,IAAInG,EAASmG,GAAW,CAAC,EACzB,OAAAnG,EAAO,KAAO0C,EAAK,SAAS,EAE5B,KAAK,OAAO1C,CAAM,EAEX,IACT,EACAlH,EAAK,gBAAkB,SAAUI,EAASmD,EAAOC,EAAK,CACpD,KAAK,KAAO,kBACZ,KAAK,QAAUpD,EACf,KAAK,MAAQmD,EACb,KAAK,IAAMC,CACb,EAEAxD,EAAK,gBAAgB,UAAY,IAAI,MACrCA,EAAK,WAAa,SAAU4B,EAAK,CAC/B,KAAK,QAAU,CAAC,EAChB,KAAK,IAAMA,EACX,KAAK,OAASA,EAAI,OAClB,KAAK,IAAM,EACX,KAAK,MAAQ,EACb,KAAK,oBAAsB,CAAC,CAC9B,EAEA5B,EAAK,WAAW,UAAU,IAAM,UAAY,CAG1C,QAFIsN,EAAQtN,EAAK,WAAW,QAErBsN,GACLA,EAAQA,EAAM,IAAI,CAEtB,EAEAtN,EAAK,WAAW,UAAU,YAAc,UAAY,CAKlD,QAJIuN,EAAY,CAAC,EACbpL,EAAa,KAAK,MAClBD,EAAW,KAAK,IAEX,EAAI,EAAG,EAAI,KAAK,oBAAoB,OAAQ,IACnDA,EAAW,KAAK,oBAAoB,CAAC,EACrCqL,EAAU,KAAK,KAAK,IAAI,MAAMpL,EAAYD,CAAQ,CAAC,EACnDC,EAAaD,EAAW,EAG1B,OAAAqL,EAAU,KAAK,KAAK,IAAI,MAAMpL,EAAY,KAAK,GAAG,CAAC,EACnD,KAAK,oBAAoB,OAAS,EAE3BoL,EAAU,KAAK,EAAE,CAC1B,EAEAvN,EAAK,WAAW,UAAU,KAAO,SAAUwN,EAAM,CAC/C,KAAK,QAAQ,KAAK,CAChB,KAAMA,EACN,IAAK,KAAK,YAAY,EACtB,MAAO,KAAK,MACZ,IAAK,KAAK,GACZ,CAAC,EAED,KAAK,MAAQ,KAAK,GACpB,EAEAxN,EAAK,WAAW,UAAU,gBAAkB,UAAY,CACtD,KAAK,oBAAoB,KAAK,KAAK,IAAM,CAAC,EAC1C,KAAK,KAAO,CACd,EAEAA,EAAK,WAAW,UAAU,KAAO,UAAY,CAC3C,GAAI,KAAK,KAAO,KAAK,OACnB,OAAOA,EAAK,WAAW,IAGzB,IAAIoC,EAAO,KAAK,IAAI,OAAO,KAAK,GAAG,EACnC,YAAK,KAAO,EACLA,CACT,EAEApC,EAAK,WAAW,UAAU,MAAQ,UAAY,CAC5C,OAAO,KAAK,IAAM,KAAK,KACzB,EAEAA,EAAK,WAAW,UAAU,OAAS,UAAY,CACzC,KAAK,OAAS,KAAK,MACrB,KAAK,KAAO,GAGd,KAAK,MAAQ,KAAK,GACpB,EAEAA,EAAK,WAAW,UAAU,OAAS,UAAY,CAC7C,KAAK,KAAO,CACd,EAEAA,EAAK,WAAW,UAAU,eAAiB,UAAY,CACrD,IAAIoC,EAAMqL,EAEV,GACErL,EAAO,KAAK,KAAK,EACjBqL,EAAWrL,EAAK,WAAW,CAAC,QACrBqL,EAAW,IAAMA,EAAW,IAEjCrL,GAAQpC,EAAK,WAAW,KAC1B,KAAK,OAAO,CAEhB,EAEAA,EAAK,WAAW,UAAU,KAAO,UAAY,CAC3C,OAAO,KAAK,IAAM,KAAK,MACzB,EAEAA,EAAK,WAAW,IAAM,MACtBA,EAAK,WAAW,MAAQ,QACxBA,EAAK,WAAW,KAAO,OACvBA,EAAK,WAAW,cAAgB,gBAChCA,EAAK,WAAW,MAAQ,QACxBA,EAAK,WAAW,SAAW,WAE3BA,EAAK,WAAW,SAAW,SAAU0N,EAAO,CAC1C,OAAAA,EAAM,OAAO,EACbA,EAAM,KAAK1N,EAAK,WAAW,KAAK,EAChC0N,EAAM,OAAO,EACN1N,EAAK,WAAW,OACzB,EAEAA,EAAK,WAAW,QAAU,SAAU0N,EAAO,CAQzC,GAPIA,EAAM,MAAM,EAAI,IAClBA,EAAM,OAAO,EACbA,EAAM,KAAK1N,EAAK,WAAW,IAAI,GAGjC0N,EAAM,OAAO,EAETA,EAAM,KAAK,EACb,OAAO1N,EAAK,WAAW,OAE3B,EAEAA,EAAK,WAAW,gBAAkB,SAAU0N,EAAO,CACjD,OAAAA,EAAM,OAAO,EACbA,EAAM,eAAe,EACrBA,EAAM,KAAK1N,EAAK,WAAW,aAAa,EACjCA,EAAK,WAAW,OACzB,EAEAA,EAAK,WAAW,SAAW,SAAU0N,EAAO,CAC1C,OAAAA,EAAM,OAAO,EACbA,EAAM,eAAe,EACrBA,EAAM,KAAK1N,EAAK,WAAW,KAAK,EACzBA,EAAK,WAAW,OACzB,EAEAA,EAAK,WAAW,OAAS,SAAU0N,EAAO,CACpCA,EAAM,MAAM,EAAI,GAClBA,EAAM,KAAK1N,EAAK,WAAW,IAAI,CAEnC,EAaAA,EAAK,WAAW,cAAgBA,EAAK,UAAU,UAE/CA,EAAK,WAAW,QAAU,SAAU0N,EAAO,CACzC,OAAa,CACX,IAAItL,EAAOsL,EAAM,KAAK,EAEtB,GAAItL,GAAQpC,EAAK,WAAW,IAC1B,OAAOA,EAAK,WAAW,OAIzB,GAAIoC,EAAK,WAAW,CAAC,GAAK,GAAI,CAC5BsL,EAAM,gBAAgB,EACtB,QACF,CAEA,GAAItL,GAAQ,IACV,OAAOpC,EAAK,WAAW,SAGzB,GAAIoC,GAAQ,IACV,OAAAsL,EAAM,OAAO,EACTA,EAAM,MAAM,EAAI,GAClBA,EAAM,KAAK1N,EAAK,WAAW,IAAI,EAE1BA,EAAK,WAAW,gBAGzB,GAAIoC,GAAQ,IACV,OAAAsL,EAAM,OAAO,EACTA,EAAM,MAAM,EAAI,GAClBA,EAAM,KAAK1N,EAAK,WAAW,IAAI,EAE1BA,EAAK,WAAW,SAczB,GARIoC,GAAQ,KAAOsL,EAAM,MAAM,IAAM,GAQjCtL,GAAQ,KAAOsL,EAAM,MAAM,IAAM,EACnC,OAAAA,EAAM,KAAK1N,EAAK,WAAW,QAAQ,EAC5BA,EAAK,WAAW,QAGzB,GAAIoC,EAAK,MAAMpC,EAAK,WAAW,aAAa,EAC1C,OAAOA,EAAK,WAAW,OAE3B,CACF,EAEAA,EAAK,YAAc,SAAU4B,EAAKsH,EAAO,CACvC,KAAK,MAAQ,IAAIlJ,EAAK,WAAY4B,CAAG,EACrC,KAAK,MAAQsH,EACb,KAAK,cAAgB,CAAC,EACtB,KAAK,UAAY,CACnB,EAEAlJ,EAAK,YAAY,UAAU,MAAQ,UAAY,CAC7C,KAAK,MAAM,IAAI,EACf,KAAK,QAAU,KAAK,MAAM,QAI1B,QAFIsN,EAAQtN,EAAK,YAAY,YAEtBsN,GACLA,EAAQA,EAAM,IAAI,EAGpB,OAAO,KAAK,KACd,EAEAtN,EAAK,YAAY,UAAU,WAAa,UAAY,CAClD,OAAO,KAAK,QAAQ,KAAK,SAAS,CACpC,EAEAA,EAAK,YAAY,UAAU,cAAgB,UAAY,CACrD,IAAI2N,EAAS,KAAK,WAAW,EAC7B,YAAK,WAAa,EACXA,CACT,EAEA3N,EAAK,YAAY,UAAU,WAAa,UAAY,CAClD,IAAI4N,EAAkB,KAAK,cAC3B,KAAK,MAAM,OAAOA,CAAe,EACjC,KAAK,cAAgB,CAAC,CACxB,EAEA5N,EAAK,YAAY,YAAc,SAAUmJ,EAAQ,CAC/C,IAAIwE,EAASxE,EAAO,WAAW,EAE/B,GAAIwE,GAAU,KAId,OAAQA,EAAO,KAAM,CACnB,KAAK3N,EAAK,WAAW,SACnB,OAAOA,EAAK,YAAY,cAC1B,KAAKA,EAAK,WAAW,MACnB,OAAOA,EAAK,YAAY,WAC1B,KAAKA,EAAK,WAAW,KACnB,OAAOA,EAAK,YAAY,UAC1B,QACE,IAAI6N,EAAe,4CAA8CF,EAAO,KAExE,MAAIA,EAAO,IAAI,QAAU,IACvBE,GAAgB,gBAAkBF,EAAO,IAAM,KAG3C,IAAI3N,EAAK,gBAAiB6N,EAAcF,EAAO,MAAOA,EAAO,GAAG,CAC1E,CACF,EAEA3N,EAAK,YAAY,cAAgB,SAAUmJ,EAAQ,CACjD,IAAIwE,EAASxE,EAAO,cAAc,EAElC,GAAIwE,GAAU,KAId,QAAQA,EAAO,IAAK,CAClB,IAAK,IACHxE,EAAO,cAAc,SAAWnJ,EAAK,MAAM,SAAS,WACpD,MACF,IAAK,IACHmJ,EAAO,cAAc,SAAWnJ,EAAK,MAAM,SAAS,SACpD,MACF,QACE,IAAI6N,EAAe,kCAAoCF,EAAO,IAAM,IACpE,MAAM,IAAI3N,EAAK,gBAAiB6N,EAAcF,EAAO,MAAOA,EAAO,GAAG,CAC1E,CAEA,IAAIG,EAAa3E,EAAO,WAAW,EAEnC,GAAI2E,GAAc,KAAW,CAC3B,IAAID,EAAe,yCACnB,MAAM,IAAI7N,EAAK,gBAAiB6N,EAAcF,EAAO,MAAOA,EAAO,GAAG,CACxE,CAEA,OAAQG,EAAW,KAAM,CACvB,KAAK9N,EAAK,WAAW,MACnB,OAAOA,EAAK,YAAY,WAC1B,KAAKA,EAAK,WAAW,KACnB,OAAOA,EAAK,YAAY,UAC1B,QACE,IAAI6N,EAAe,mCAAqCC,EAAW,KAAO,IAC1E,MAAM,IAAI9N,EAAK,gBAAiB6N,EAAcC,EAAW,MAAOA,EAAW,GAAG,CAClF,EACF,EAEA9N,EAAK,YAAY,WAAa,SAAUmJ,EAAQ,CAC9C,IAAIwE,EAASxE,EAAO,cAAc,EAElC,GAAIwE,GAAU,KAId,IAAIxE,EAAO,MAAM,UAAU,QAAQwE,EAAO,GAAG,GAAK,GAAI,CACpD,IAAII,EAAiB5E,EAAO,MAAM,UAAU,IAAI,SAAU6E,EAAG,CAAE,MAAO,IAAMA,EAAI,GAAI,CAAC,EAAE,KAAK,IAAI,EAC5FH,EAAe,uBAAyBF,EAAO,IAAM,uBAAyBI,EAElF,MAAM,IAAI/N,EAAK,gBAAiB6N,EAAcF,EAAO,MAAOA,EAAO,GAAG,CACxE,CAEAxE,EAAO,cAAc,OAAS,CAACwE,EAAO,GAAG,EAEzC,IAAIG,EAAa3E,EAAO,WAAW,EAEnC,GAAI2E,GAAc,KAAW,CAC3B,IAAID,EAAe,gCACnB,MAAM,IAAI7N,EAAK,gBAAiB6N,EAAcF,EAAO,MAAOA,EAAO,GAAG,CACxE,CAEA,OAAQG,EAAW,KAAM,CACvB,KAAK9N,EAAK,WAAW,KACnB,OAAOA,EAAK,YAAY,UAC1B,QACE,IAAI6N,EAAe,0BAA4BC,EAAW,KAAO,IACjE,MAAM,IAAI9N,EAAK,gBAAiB6N,EAAcC,EAAW,MAAOA,EAAW,GAAG,CAClF,EACF,EAEA9N,EAAK,YAAY,UAAY,SAAUmJ,EAAQ,CAC7C,IAAIwE,EAASxE,EAAO,cAAc,EAElC,GAAIwE,GAAU,KAId,CAAAxE,EAAO,cAAc,KAAOwE,EAAO,IAAI,YAAY,EAE/CA,EAAO,IAAI,QAAQ,GAAG,GAAK,KAC7BxE,EAAO,cAAc,YAAc,IAGrC,IAAI2E,EAAa3E,EAAO,WAAW,EAEnC,GAAI2E,GAAc,KAAW,CAC3B3E,EAAO,WAAW,EAClB,MACF,CAEA,OAAQ2E,EAAW,KAAM,CACvB,KAAK9N,EAAK,WAAW,KACnB,OAAAmJ,EAAO,WAAW,EACXnJ,EAAK,YAAY,UAC1B,KAAKA,EAAK,WAAW,MACnB,OAAAmJ,EAAO,WAAW,EACXnJ,EAAK,YAAY,WAC1B,KAAKA,EAAK,WAAW,cACnB,OAAOA,EAAK,YAAY,kBAC1B,KAAKA,EAAK,WAAW,MACnB,OAAOA,EAAK,YAAY,WAC1B,KAAKA,EAAK,WAAW,SACnB,OAAAmJ,EAAO,WAAW,EACXnJ,EAAK,YAAY,cAC1B,QACE,IAAI6N,EAAe,2BAA6BC,EAAW,KAAO,IAClE,MAAM,IAAI9N,EAAK,gBAAiB6N,EAAcC,EAAW,MAAOA,EAAW,GAAG,CAClF,EACF,EAEA9N,EAAK,YAAY,kBAAoB,SAAUmJ,EAAQ,CACrD,IAAIwE,EAASxE,EAAO,cAAc,EAElC,GAAIwE,GAAU,KAId,KAAIxG,EAAe,SAASwG,EAAO,IAAK,EAAE,EAE1C,GAAI,MAAMxG,CAAY,EAAG,CACvB,IAAI0G,EAAe,gCACnB,MAAM,IAAI7N,EAAK,gBAAiB6N,EAAcF,EAAO,MAAOA,EAAO,GAAG,CACxE,CAEAxE,EAAO,cAAc,aAAehC,EAEpC,IAAI2G,EAAa3E,EAAO,WAAW,EAEnC,GAAI2E,GAAc,KAAW,CAC3B3E,EAAO,WAAW,EAClB,MACF,CAEA,OAAQ2E,EAAW,KAAM,CACvB,KAAK9N,EAAK,WAAW,KACnB,OAAAmJ,EAAO,WAAW,EACXnJ,EAAK,YAAY,UAC1B,KAAKA,EAAK,WAAW,MACnB,OAAAmJ,EAAO,WAAW,EACXnJ,EAAK,YAAY,WAC1B,KAAKA,EAAK,WAAW,cACnB,OAAOA,EAAK,YAAY,kBAC1B,KAAKA,EAAK,WAAW,MACnB,OAAOA,EAAK,YAAY,WAC1B,KAAKA,EAAK,WAAW,SACnB,OAAAmJ,EAAO,WAAW,EACXnJ,EAAK,YAAY,cAC1B,QACE,IAAI6N,EAAe,2BAA6BC,EAAW,KAAO,IAClE,MAAM,IAAI9N,EAAK,gBAAiB6N,EAAcC,EAAW,MAAOA,EAAW,GAAG,CAClF,EACF,EAEA9N,EAAK,YAAY,WAAa,SAAUmJ,EAAQ,CAC9C,IAAIwE,EAASxE,EAAO,cAAc,EAElC,GAAIwE,GAAU,KAId,KAAIM,EAAQ,SAASN,EAAO,IAAK,EAAE,EAEnC,GAAI,MAAMM,CAAK,EAAG,CAChB,IAAIJ,EAAe,wBACnB,MAAM,IAAI7N,EAAK,gBAAiB6N,EAAcF,EAAO,MAAOA,EAAO,GAAG,CACxE,CAEAxE,EAAO,cAAc,MAAQ8E,EAE7B,IAAIH,EAAa3E,EAAO,WAAW,EAEnC,GAAI2E,GAAc,KAAW,CAC3B3E,EAAO,WAAW,EAClB,MACF,CAEA,OAAQ2E,EAAW,KAAM,CACvB,KAAK9N,EAAK,WAAW,KACnB,OAAAmJ,EAAO,WAAW,EACXnJ,EAAK,YAAY,UAC1B,KAAKA,EAAK,WAAW,MACnB,OAAAmJ,EAAO,WAAW,EACXnJ,EAAK,YAAY,WAC1B,KAAKA,EAAK,WAAW,cACnB,OAAOA,EAAK,YAAY,kBAC1B,KAAKA,EAAK,WAAW,MACnB,OAAOA,EAAK,YAAY,WAC1B,KAAKA,EAAK,WAAW,SACnB,OAAAmJ,EAAO,WAAW,EACXnJ,EAAK,YAAY,cAC1B,QACE,IAAI6N,EAAe,2BAA6BC,EAAW,KAAO,IAClE,MAAM,IAAI9N,EAAK,gBAAiB6N,EAAcC,EAAW,MAAOA,EAAW,GAAG,CAClF,EACF,EAMI,SAAU1G,EAAM8G,EAAS,CACrB,OAAO,QAAW,YAAc,OAAO,IAEzC,OAAOA,CAAO,EACL,OAAOpO,GAAY,SAM5BC,GAAO,QAAUmO,EAAQ,EAGzB9G,EAAK,KAAO8G,EAAQ,CAExB,EAAE,KAAM,UAAY,CAMlB,OAAOlO,CACT,CAAC,CACH,GAAG,IC53GH,IAAAmO,GAAiB,SCiDV,SAASC,GACdC,EAAkBC,EAAmB,SAClC,CACH,IAAMC,EAAKC,GAAsBH,EAAUC,CAAI,EAC/C,GAAI,OAAOC,GAAO,YAChB,MAAM,IAAI,eACR,8BAA8BF,CAAQ,iBACxC,EAGF,OAAOE,CACT,CAsBO,SAASC,GACdH,EAAkBC,EAAmB,SACtB,CACf,OAAOA,EAAK,cAAiBD,CAAQ,GAAK,MAC5C,CCjFK,OAAO,UACV,OAAO,QAAU,SAAUI,EAAa,CACtC,IAAMC,EAA2B,CAAC,EAClC,QAAWC,KAAO,OAAO,KAAKF,CAAG,EAE/BC,EAAK,KAAK,CAACC,EAAKF,EAAIE,CAAG,CAAC,CAAC,EAG3B,OAAOD,CACT,GAGG,OAAO,SACV,OAAO,OAAS,SAAUD,EAAa,CACrC,IAAMC,EAAiB,CAAC,EACxB,QAAWC,KAAO,OAAO,KAAKF,CAAG,EAE/BC,EAAK,KAAKD,EAAIE,CAAG,CAAC,EAGpB,OAAOD,CACT,GAKE,OAAO,SAAY,cAGhB,QAAQ,UAAU,WACrB,QAAQ,UAAU,SAAW,SAC3BE,EAA8BC,EACxB,CACF,OAAOD,GAAM,UACf,KAAK,WAAaA,EAAE,KACpB,KAAK,UAAYA,EAAE,MAEnB,KAAK,WAAaA,EAClB,KAAK,UAAYC,EAErB,GAGG,QAAQ,UAAU,cACrB,QAAQ,UAAU,YAAc,YAC3BC,EACG,CACN,IAAMC,EAAS,KAAK,WACpB,GAAIA,EAAQ,CACND,EAAM,SAAW,GACnBC,EAAO,YAAY,IAAI,EAGzB,QAASC,EAAIF,EAAM,OAAS,EAAGE,GAAK,EAAGA,IAAK,CAC1C,IAAIC,EAAOH,EAAME,CAAC,EACd,OAAOC,GAAS,SAClBA,EAAO,SAAS,eAAeA,CAAI,EAC5BA,EAAK,YACZA,EAAK,WAAW,YAAYA,CAAI,EAG7BD,EAGHD,EAAO,aAAa,KAAK,gBAAkBE,CAAI,EAF/CF,EAAO,aAAaE,EAAM,IAAI,CAGlC,CACF,CACF,ICDG,SAASC,GACdC,EAC6B,CAC7B,IAAMC,EAAM,IAAI,IAChB,QAAWC,KAAOF,EAAM,CACtB,GAAM,CAACG,CAAI,EAAID,EAAI,SAAS,MAAM,GAAG,EAG/BE,EAAUH,EAAI,IAAIE,CAAI,EACxB,OAAOC,GAAY,YACrBH,EAAI,IAAIE,EAAMD,CAAG,GAIjBD,EAAI,IAAIC,EAAI,SAAUA,CAAG,EACzBA,EAAI,OAASE,EAEjB,CAGA,OAAOH,CACT,CCnEO,SAASI,EACdC,EAAeC,EAAmBC,EAC5B,CAjDR,IAAAC,EAkDEF,EAAY,IAAI,OAAOA,EAAW,GAAG,EAGrC,IAAIG,EACAC,EAAQ,EACZ,EAAG,CACDD,EAAQH,EAAU,KAAKD,CAAK,EAG5B,IAAMM,GAAQH,EAAAC,GAAA,YAAAA,EAAO,QAAP,KAAAD,EAAgBH,EAAM,OAKpC,GAJIK,EAAQC,GACVJ,EAAGG,EAAOC,CAAK,EAGbF,EAAO,CACT,GAAM,CAACG,CAAI,EAAIH,EACfC,EAAQD,EAAM,MAAQG,EAAK,OAGvBA,EAAK,SAAW,IAClBN,EAAU,UAAYG,EAAM,MAAQ,EACxC,CACF,OAASA,EACX,CCFO,SAASI,GACdC,EAAeC,EACT,CAEN,IAAIC,EAAQ,EACRC,EAAQ,EACRC,EAAM,EAGV,QAASC,EAAQ,EAAGD,EAAMJ,EAAM,OAAQI,IAGlCJ,EAAM,OAAOI,CAAG,IAAM,KAAOA,EAAMD,EACrCF,EAAGC,EAAO,EAAcC,EAAOA,EAAQC,CAAG,EAGjCJ,EAAM,OAAOI,CAAG,IAAM,MAC3BJ,EAAM,OAAOG,EAAQ,CAAC,IAAM,IAC1B,EAAEE,IAAU,GACdJ,EAAGC,IAAS,EAAmBC,EAAOC,EAAM,CAAC,EAGtCJ,EAAM,OAAOI,EAAM,CAAC,IAAM,KAC/BC,MAAY,GACdJ,EAAGC,EAAO,EAAkBC,EAAOC,EAAM,CAAC,EAI9CD,EAAQC,EAAM,GAKdA,EAAMD,GACRF,EAAGC,EAAO,EAAcC,EAAOC,CAAG,CACtC,CCnDO,SAASE,GACdC,EAAeC,EAAsBC,EAAuBC,EAAO,GAC3D,CACR,OAAOC,EAAa,CAACJ,CAAK,EAAGC,EAAOC,EAAWC,CAAI,EAAE,IAAI,CAC3D,CAYO,SAASC,EACdC,EAAkBJ,EAAsBC,EAAuBC,EAAO,GAC5D,CAGV,IAAMG,EAAU,CAAC,CAAC,EAClB,QAASC,EAAI,EAAGA,EAAIN,EAAM,OAAQM,IAAK,CACrC,IAAMC,EAAOP,EAAMM,EAAI,CAAC,EAClBE,EAAOR,EAAMM,CAAC,EAGdG,EAAIF,EAAKA,EAAK,OAAS,CAAC,IAAM,EAAI,KAClCG,EAAIF,EAAK,CAAC,IAAoB,GAGpCH,EAAQ,KAAK,EAAEI,EAAIC,GAAKL,EAAQA,EAAQ,OAAS,CAAC,CAAC,CACrD,CAGA,OAAOD,EAAO,IAAI,CAACL,EAAOY,IAAM,CAC9B,IAAIC,EAAS,EAGPC,EAAS,IAAI,IACnB,QAAWJ,KAAKR,EAAU,KAAK,CAACa,EAAGC,IAAMD,EAAIC,CAAC,EAAG,CAC/C,IAAMC,EAAQP,EAAI,QACZQ,EAAQR,IAAM,GACpB,GAAIJ,EAAQY,CAAK,IAAMN,EACrB,SAGF,IAAIO,EAAQL,EAAO,IAAII,CAAK,EACxB,OAAOC,GAAU,aACnBL,EAAO,IAAII,EAAOC,EAAQ,CAAC,CAAC,EAG9BA,EAAM,KAAKF,CAAK,CAClB,CAGA,GAAIH,EAAO,OAAS,EAClB,OAAOd,EAGT,IAAMoB,EAAmB,CAAC,EAC1B,OAAW,CAACF,EAAOG,CAAO,IAAKP,EAAQ,CACrC,IAAMP,EAAIN,EAAMiB,CAAK,EAGfI,EAASf,EAAE,CAAC,IAAiB,GAC7BgB,EAAShB,EAAEA,EAAE,OAAS,CAAC,IAAM,GAC7BiB,EAASjB,EAAEA,EAAE,OAAS,CAAC,IAAM,EAAI,KAGnCJ,GAAQmB,EAAQT,GAClBO,EAAO,KAAKpB,EAAM,MAAMa,EAAQS,CAAK,CAAC,EAGxC,IAAIG,EAAQzB,EAAM,MAAMsB,EAAOC,EAAMC,CAAM,EAC3C,QAAWE,KAAKL,EAAQ,KAAK,CAACN,EAAGC,IAAMA,EAAID,CAAC,EAAG,CAG7C,IAAML,GAAKH,EAAEmB,CAAC,IAAM,IAAMJ,EACpBX,GAAKJ,EAAEmB,CAAC,IAAM,EAAI,MAAShB,EAGjCe,EAAQ,CACNA,EAAM,MAAM,EAAGf,CAAC,EAChB,SACAe,EAAM,MAAMf,EAAGC,CAAC,EAChB,UACAc,EAAM,MAAMd,CAAC,CACf,EAAE,KAAK,EAAE,CACX,CAMA,GAHAE,EAASU,EAAMC,EAGXJ,EAAO,KAAKK,CAAK,IAAM,EACzB,KACJ,CAGA,OAAItB,GAAQU,EAASb,EAAM,QACzBoB,EAAO,KAAKpB,EAAM,MAAMa,CAAM,CAAC,EAG1BO,EAAO,KAAK,EAAE,CACvB,CAAC,CACH,CChHO,SAASO,GACdC,EACc,CACd,IAAMC,EAAuB,CAAC,EAC9B,GAAI,OAAOD,GAAU,YACnB,OAAOC,EAGT,IAAMC,EAAS,MAAM,QAAQF,CAAK,EAAIA,EAAQ,CAACA,CAAK,EACpD,QAASG,EAAI,EAAGA,EAAID,EAAO,OAAQC,IAAK,CACtC,IAAMC,EAAQ,KAAK,UAAU,MACvBC,EAAQD,EAAM,OAGpBE,GAAQJ,EAAOC,CAAC,EAAG,CAACI,EAAOC,EAAMC,EAAOC,IAAQ,CA/DpD,IAAAC,EAiEM,OADAP,EAAAO,EAAMJ,GAASF,KAAfD,EAAAO,GAA0B,CAAC,GACnBH,EAAM,CAGZ,OACA,OACEJ,EAAMG,CAAK,EAAE,KACXE,GAAe,GACfC,EAAMD,GAAU,EAChBD,CACF,EACA,MAGF,OACE,IAAMI,EAAUV,EAAOC,CAAC,EAAE,MAAMM,EAAOC,CAAG,EAC1CG,EAAMD,EAAS,KAAK,UAAU,UAAW,CAACE,EAAOC,IAAU,CAOzD,GAAI,OAAO,KAAK,WAAc,YAAa,CACzC,IAAMC,EAAaJ,EAAQ,MAAME,EAAOC,CAAK,EAC7C,GAAI,WAAW,KAAK,KAAK,UAAU,OAAOC,CAAU,CAAC,EAAG,CACtD,IAAMC,EAAW,KAAK,UAAU,QAAQD,CAAU,EAClD,QAASE,EAAI,EAAGC,EAAI,EAAGD,EAAID,EAAS,OAAQC,IAG1Cd,EAAAG,KAAAH,EAAAG,GAAiB,CAAC,GAClBH,EAAMG,CAAK,EAAE,KACXE,EAAQK,EAAQK,GAAM,GACtBF,EAASC,CAAC,EAAE,QAAW,EACvBV,CACF,EAGAP,EAAO,KAAK,IAAI,KAAK,MACnBgB,EAASC,CAAC,EAAE,YAAY,EAAG,CACzB,SAAUX,GAAS,GAAKH,EAAMG,CAAK,EAAE,OAAS,CAChD,CACF,CAAC,EAGDY,GAAKF,EAASC,CAAC,EAAE,OAEnB,MACF,CACF,CAGAd,EAAMG,CAAK,EAAE,KACXE,EAAQK,GAAS,GACjBC,EAAQD,GAAU,EAClBN,CACF,EAGAP,EAAO,KAAK,IAAI,KAAK,MACnBW,EAAQ,MAAME,EAAOC,CAAK,EAAE,YAAY,EAAG,CACzC,SAAUR,GAAS,GAAKH,EAAMG,CAAK,EAAE,OAAS,CAChD,CACF,CAAC,CACH,CAAC,CACL,CACF,CAAC,CACH,CAGA,OAAON,CACT,CCjEO,SAASmB,GACdC,EAAeC,EAAgBC,GAAQA,EAC/B,CACR,OAAOF,EAGJ,KAAK,EAGL,MAAM,YAAY,EAChB,IAAI,CAACG,EAAOC,IAAUA,EAAQ,EAC3BD,EAAM,QAAQ,+BAAgC,IAAI,EAClDA,CACJ,EACC,KAAK,EAAE,EAGT,QAAQ,kCAAmC,EAAE,EAG7C,MAAM,MAAM,EACV,OAAO,CAACE,EAAMH,IAAS,CACtB,IAAMI,EAAOL,EAAGC,CAAI,EACpB,MAAO,CAAC,GAAGG,EAAM,GAAG,MAAM,QAAQC,CAAI,EAAIA,EAAO,CAACA,CAAI,CAAC,CACzD,EAAG,CAAC,CAAa,EAChB,IAAIJ,GAAQ,UAAU,KAAKA,CAAI,EAAI,GAAGA,CAAI,IAAMA,CAAI,EACpD,IAAIA,GAAQ,mBAAmB,KAAKA,CAAI,EAAIA,EAAO,GAAGA,CAAI,GAAG,EAC7D,KAAK,GAAG,CACf,CCxCO,SAASK,GACdC,EACQ,CAGR,OAAOC,GAAUD,EAAOE,GAAQ,CAC9B,IAAMC,EAAkB,CAAC,EAGnBC,EAAQ,IAAI,KAAK,WAAWF,CAAI,EACtCE,EAAM,IAAI,EAGV,OAAW,CAAE,KAAAC,EAAM,IAAKC,EAAM,MAAAC,EAAO,IAAAC,CAAI,IAAKJ,EAAM,QAClD,OAAQC,EAAM,CAGZ,IAAK,QACE,CAAC,QAAS,OAAQ,MAAM,EAAE,SAASC,CAAI,IAC1CJ,EAAO,CACLA,EAAK,MAAM,EAAGM,CAAG,EACjB,IACAN,EAAK,MAAMM,EAAM,CAAC,CACpB,EAAE,KAAK,EAAE,GACX,MAGF,IAAK,OACHC,EAAMH,EAAM,KAAK,UAAU,UAAW,IAAII,IAAU,CAClDP,EAAM,KAAK,CACTD,EAAK,MAAM,EAAGK,CAAK,EACnBD,EAAK,MAAM,GAAGI,CAAK,EACnBR,EAAK,MAAMM,CAAG,CAChB,EAAE,KAAK,EAAE,CAAC,CACZ,CAAC,CACL,CAGF,OAAOL,CACT,CAAC,CACH,CAgBO,SAASQ,GACdC,EACqB,CACrB,IAAMZ,EAAS,IAAI,KAAK,MAAM,CAAC,QAAS,OAAQ,MAAM,CAAC,EACxC,IAAI,KAAK,YAAYY,EAAOZ,CAAK,EAGzC,MAAM,EACb,QAAWa,KAAUb,EAAM,QACzBa,EAAO,YAAc,GAGjBA,EAAO,KAAK,WAAW,GAAG,IAC5BA,EAAO,SAAW,KAAK,MAAM,SAAS,QACtCA,EAAO,KAAOA,EAAO,KAAK,MAAM,CAAC,GAI/BA,EAAO,KAAK,SAAS,GAAG,IAC1BA,EAAO,SAAW,KAAK,MAAM,SAAS,SACtCA,EAAO,KAAOA,EAAO,KAAK,MAAM,EAAG,EAAE,GAKzC,OAAOb,EAAM,OACf,CAUO,SAASc,GACdd,EAA4BG,EACV,CAxJpB,IAAAY,EAyJE,IAAMC,EAAU,IAAI,IAAuBhB,CAAK,EAG1CiB,EAA2B,CAAC,EAClC,QAASC,EAAI,EAAGA,EAAIf,EAAM,OAAQe,IAChC,QAAWL,KAAUG,EACfb,EAAMe,CAAC,EAAE,WAAWL,EAAO,IAAI,IACjCI,EAAOJ,EAAO,IAAI,EAAI,GACtBG,EAAQ,OAAOH,CAAM,GAI3B,QAAWA,KAAUG,GACfD,EAAA,KAAK,iBAAL,MAAAA,EAAA,UAAsBF,EAAO,QAC/BI,EAAOJ,EAAO,IAAI,EAAI,IAG1B,OAAOI,CACT,CClIO,SAASE,GACdC,EAAeC,EACG,CAClB,IAAMC,EAAW,IAAI,IAGfC,EAAW,IAAI,YAAYH,EAAM,MAAM,EAC7C,QAASI,EAAI,EAAGA,EAAIJ,EAAM,OAAQI,IAChC,QAASC,EAAID,EAAI,EAAGC,EAAIL,EAAM,OAAQK,IACtBL,EAAM,MAAMI,EAAGC,CAAC,IACjBJ,IACXE,EAASC,CAAC,EAAIC,EAAID,GAIxB,IAAME,EAAQ,CAAC,CAAC,EAChB,QAAS,EAAIA,EAAM,OAAQ,EAAI,GAAI,CACjC,IAAMC,EAAID,EAAM,EAAE,CAAC,EACnB,QAASE,EAAI,EAAGA,EAAIL,EAASI,CAAC,EAAGC,IAC3BL,EAASI,EAAIC,CAAC,EAAIL,EAASI,CAAC,EAAIC,IAClCN,EAAS,IAAIF,EAAM,MAAMO,EAAGA,EAAIC,CAAC,CAAC,EAClCF,EAAM,GAAG,EAAIC,EAAIC,GAIrB,IAAMA,EAAID,EAAIJ,EAASI,CAAC,EACpBJ,EAASK,CAAC,GAAKA,EAAIR,EAAM,OAAS,IACpCM,EAAM,GAAG,EAAIE,GAGfN,EAAS,IAAIF,EAAM,MAAMO,EAAGC,CAAC,CAAC,CAChC,CAGA,OAAIN,EAAS,IAAI,EAAE,EACV,IAAI,IAAI,CAACF,CAAK,CAAC,EAGjBE,CACT,CCJA,SAASO,GAAUC,EAAmC,CACpD,OAAQC,GACEC,GAAwB,CAC9B,GAAI,OAAOA,EAAID,CAAI,GAAM,YACvB,OAGF,IAAME,EAAK,CAACD,EAAI,SAAUD,CAAI,EAAE,KAAK,GAAG,EACxC,OAAAD,EAAM,IAAIG,EAAI,KAAK,UAAU,MAAQ,CAAC,CAAC,EAGhCD,EAAID,CAAI,CACjB,CAEJ,CAUA,SAASG,GAAWC,EAAaC,EAAuB,CACtD,GAAM,CAACC,EAAGC,CAAC,EAAI,CAAC,IAAI,IAAIH,CAAC,EAAG,IAAI,IAAIC,CAAC,CAAC,EACtC,MAAO,CACL,GAAG,IAAI,IAAI,CAAC,GAAGC,CAAC,EAAE,OAAOE,GAAS,CAACD,EAAE,IAAIC,CAAK,CAAC,CAAC,CAClD,CACF,CASO,IAAMC,EAAN,KAAa,CA2BX,YAAY,CAAE,OAAAC,EAAQ,KAAAC,EAAM,QAAAC,CAAQ,EAAgB,CACzD,IAAMC,EAAQf,GAAU,KAAK,MAAQ,IAAI,GAAK,EAG9C,KAAK,IAAMgB,GAAuBH,CAAI,EACtC,KAAK,QAAUC,EAGf,KAAK,MAAQ,KAAK,UAAY,CAC5B,KAAK,kBAAoB,CAAC,UAAU,EACpC,KAAK,EAAE,CAAC,EAGJF,EAAO,KAAK,SAAW,GAAKA,EAAO,KAAK,CAAC,IAAM,KAEjD,KAAK,IAAI,KAAKA,EAAO,KAAK,CAAC,CAAC,CAAC,EACpBA,EAAO,KAAK,OAAS,GAC9B,KAAK,IAAI,KAAK,cAAc,GAAGA,EAAO,IAAI,CAAC,EAI7C,KAAK,UAAYK,GACjB,KAAK,UAAU,UAAY,IAAI,OAAOL,EAAO,SAAS,EAGtD,KAAK,UAAY,kBAAmB,KAChC,IAAI,KAAK,cACT,OAGJ,IAAMM,EAAMb,GAAW,CACrB,UAAW,iBAAkB,SAC/B,EAAGO,EAAO,QAAQ,EAGlB,QAAWO,KAAQP,EAAO,KAAK,IAAIQ,GAEjCA,IAAa,KAAO,KAAO,KAAKA,CAAQ,CACzC,EACC,QAAWC,KAAMH,EACf,KAAK,SAAS,OAAOC,EAAKE,CAAE,CAAC,EAC7B,KAAK,eAAe,OAAOF,EAAKE,CAAE,CAAC,EAIvC,KAAK,IAAI,UAAU,EAGnB,KAAK,MAAM,QAAS,CAAE,MAAO,IAAK,UAAWN,EAAM,OAAO,CAAE,CAAC,EAC7D,KAAK,MAAM,OAAS,CAAE,MAAO,EAAK,UAAWA,EAAM,MAAM,CAAE,CAAC,EAC5D,KAAK,MAAM,OAAS,CAAE,MAAO,IAAK,UAAWA,EAAM,MAAM,CAAE,CAAC,EAG5D,QAAWZ,KAAOU,EAChB,KAAK,IAAIV,EAAK,CAAE,MAAOA,EAAI,KAAM,CAAC,CACtC,CAAC,CACH,CASO,OAAOmB,EAA6B,CAUzC,GAPAA,EAAQA,EAAM,QAAQ,WAAC,eAAY,IAAE,EAAEZ,GAC9B,CAAC,GAAGa,GAAQb,EAAO,KAAK,MAAM,aAAa,CAAC,EAChD,KAAK,IAAI,CACb,EAGDY,EAAQE,GAAqBF,CAAK,EAC9B,CAACA,EACH,MAAO,CAAE,MAAO,CAAC,CAAE,EAGrB,IAAMG,EAAUC,GAAiBJ,CAAK,EACnC,OAAOK,GACNA,EAAO,WAAa,KAAK,MAAM,SAAS,UACzC,EAGGC,EAAS,KAAK,MAAM,OAAON,CAAK,EAGnC,OAAqB,CAACO,EAAM,CAAE,IAAAC,EAAK,MAAAC,EAAO,UAAAC,CAAU,IAAM,CACzD,IAAI7B,EAAM,KAAK,IAAI,IAAI2B,CAAG,EAC1B,GAAI,OAAO3B,GAAQ,YAAa,CAG9BA,EAAM8B,EAAA,GAAK9B,GACPA,EAAI,OACNA,EAAI,KAAO,CAAC,GAAGA,EAAI,IAAI,GAGzB,IAAM+B,EAAQC,GACZV,EACA,OAAO,KAAKO,EAAU,QAAQ,CAChC,EAGA,QAAWjB,KAAS,KAAK,MAAM,OAAQ,CACrC,GAAI,OAAOZ,EAAIY,CAAK,GAAM,YACxB,SAGF,IAAMqB,EAAwB,CAAC,EAC/B,QAAWC,KAAS,OAAO,OAAOL,EAAU,QAAQ,EAC9C,OAAOK,EAAMtB,CAAK,GAAM,aAC1BqB,EAAU,KAAK,GAAGC,EAAMtB,CAAK,EAAE,QAAQ,EAG3C,GAAI,CAACqB,EAAU,OACb,SAGF,IAAMnC,EAAQ,KAAK,MAAM,IAAI,CAACE,EAAI,SAAUY,CAAK,EAAE,KAAK,GAAG,CAAC,EACtDM,EAAK,MAAM,QAAQlB,EAAIY,CAAK,CAAC,EAC/BuB,EACAC,GAGJpC,EAAIY,CAAK,EAAIM,EAAGlB,EAAIY,CAAK,EAAGd,EAAOmC,EAAWrB,IAAU,MAAM,CAChE,CAGA,IAAMyB,EAAQ,CAAC,CAACrC,EAAI,OAClB,OAAO,OAAO+B,CAAK,EAChB,OAAOO,GAAKA,CAAC,EAAE,OAClB,OAAO,KAAKP,CAAK,EAAE,OAGrBL,EAAK,KAAKa,EAAAT,EAAA,GACL9B,GADK,CAER,MAAO4B,GAAS,EAAIY,EAAAH,EAAS,IAC7B,MAAAN,CACF,EAAC,CACH,CACA,OAAOL,CACT,EAAG,CAAC,CAAC,EAGJ,KAAK,CAACvB,EAAGC,IAAMA,EAAE,MAAQD,EAAE,KAAK,EAGhC,OAAO,CAACsC,EAAOC,IAAW,CACzB,IAAM1C,EAAM,KAAK,IAAI,IAAI0C,EAAO,QAAQ,EACxC,GAAI,OAAO1C,GAAQ,YAAa,CAC9B,IAAM2B,EAAM3B,EAAI,OACZA,EAAI,OAAO,SACXA,EAAI,SACRyC,EAAM,IAAId,EAAK,CAAC,GAAGc,EAAM,IAAId,CAAG,GAAK,CAAC,EAAGe,CAAM,CAAC,CAClD,CACA,OAAOD,CACT,EAAG,IAAI,GAA2B,EAGpC,OAAW,CAACd,EAAKc,CAAK,IAAKhB,EACzB,GAAI,CAACgB,EAAM,KAAKf,GAAQA,EAAK,WAAaC,CAAG,EAAG,CAC9C,IAAM3B,EAAM,KAAK,IAAI,IAAI2B,CAAG,EAC5Bc,EAAM,KAAKF,EAAAT,EAAA,GAAK9B,GAAL,CAAU,MAAO,EAAG,MAAO,CAAC,CAAE,EAAC,CAC5C,CAGF,IAAI2C,EACJ,GAAI,KAAK,QAAQ,QAAS,CACxB,IAAMC,EAAS,KAAK,MAAM,MAAMC,GAAW,CACzC,QAAWrB,KAAUF,EACnBuB,EAAQ,KAAKrB,EAAO,KAAM,CACxB,OAAQ,CAAC,OAAO,EAChB,SAAU,KAAK,MAAM,SAAS,SAC9B,SAAU,KAAK,MAAM,SAAS,QAChC,CAAC,CACL,CAAC,EAGDmB,EAAUC,EAAO,OACb,OAAO,KAAKA,EAAO,CAAC,EAAE,UAAU,QAAQ,EACxC,CAAC,CACP,CAGA,OAAOd,EAAA,CACL,MAAO,CAAC,GAAGL,EAAO,OAAO,CAAC,GACvB,OAAOkB,GAAY,aAAe,CAAE,QAAAA,CAAQ,EAEnD,CACF,EX5QA,IAAIG,GAqBJ,SAAeC,GACbC,EACe,QAAAC,EAAA,sBACf,IAAIC,EAAO,UAGX,GAAI,OAAO,QAAW,aAAe,iBAAkB,OAAQ,CAC7D,IAAMC,EAASC,GAA8B,aAAa,EACpD,CAACC,CAAI,EAAIF,EAAO,IAAI,MAAM,SAAS,EAGzCD,EAAOA,EAAK,QAAQ,KAAMG,CAAI,CAChC,CAGA,IAAMC,EAAU,CAAC,EACjB,QAAWC,KAAQP,EAAO,KAAM,CAC9B,OAAQO,EAAM,CAGZ,IAAK,KACHD,EAAQ,KAAK,GAAGJ,CAAI,aAAa,EACjC,MAGF,IAAK,KACL,IAAK,KACHI,EAAQ,KAAK,GAAGJ,CAAI,aAAa,EACjC,KACJ,CAGIK,IAAS,MACXD,EAAQ,KAAK,GAAGJ,CAAI,aAAaK,CAAI,SAAS,CAClD,CAGIP,EAAO,KAAK,OAAS,GACvBM,EAAQ,KAAK,GAAGJ,CAAI,wBAAwB,EAG1CI,EAAQ,SACV,MAAM,cACJ,GAAGJ,CAAI,mCACP,GAAGI,CACL,EACJ,GAaA,SAAsBE,GACpBC,EACwB,QAAAR,EAAA,sBACxB,OAAQQ,EAAQ,KAAM,CAGpB,OACE,aAAMV,GAAqBU,EAAQ,KAAK,MAAM,EAC9CX,GAAQ,IAAIY,EAAOD,EAAQ,IAAI,EACxB,CACL,MACF,EAGF,OACE,IAAME,EAAQF,EAAQ,KACtB,GAAI,CACF,MAAO,CACL,OACA,KAAMX,GAAM,OAAOa,CAAK,CAC1B,CAGF,OAASC,EAAK,CACZ,eAAQ,KAAK,kBAAkBD,CAAK,oCAA+B,EACnE,QAAQ,KAAKC,CAAG,EACT,CACL,OACA,KAAM,CAAE,MAAO,CAAC,CAAE,CACpB,CACF,CAGF,QACE,MAAM,IAAI,UAAU,sBAAsB,CAC9C,CACF,GAOA,KAAK,KAAO,GAAAC,QAGZ,iBAAiB,UAAiBC,GAAMb,EAAA,wBACtC,YAAY,MAAMO,GAAQM,EAAG,IAAI,CAAC,CACpC,EAAC",
+  "names": ["require_lunr", "__commonJSMin", "exports", "module", "lunr", "config", "builder", "global", "message", "obj", "clone", "keys", "key", "val", "docRef", "fieldName", "stringValue", "s", "n", "fieldRef", "elements", "i", "other", "object", "a", "b", "intersection", "element", "posting", "documentCount", "documentsWithTerm", "x", "str", "metadata", "fn", "t", "len", "tokens", "sliceEnd", "sliceStart", "char", "sliceLength", "tokenMetadata", "label", "isRegistered", "serialised", "pipeline", "fnName", "fns", "existingFn", "newFn", "pos", "stackLength", "memo", "j", "result", "k", "token", "index", "start", "end", "pivotPoint", "pivotIndex", "insertIdx", "position", "sumOfSquares", "elementsLength", "otherVector", "dotProduct", "aLen", "bLen", "aVal", "bVal", "output", "step2list", "step3list", "c", "v", "C", "V", "mgr0", "meq1", "mgr1", "s_v", "re_mgr0", "re_mgr1", "re_meq1", "re_s_v", "re_1a", "re2_1a", "re_1b", "re2_1b", "re_1b_2", "re2_1b_2", "re3_1b_2", "re4_1b_2", "re_1c", "re_2", "re_3", "re_4", "re2_4", "re_5", "re_5_1", "re3_5", "porterStemmer", "w", "stem", "suffix", "firstch", "re", "re2", "re3", "re4", "fp", "stopWords", "words", "stopWord", "arr", "clause", "editDistance", "root", "stack", "frame", "noEditNode", "insertionNode", "substitutionNode", "charA", "charB", "transposeNode", "node", "final", "next", "edges", "edge", "labels", "qEdges", "qLen", "nEdges", "nLen", "q", "qEdge", "nEdge", "qNode", "word", "commonPrefix", "nextNode", "downTo", "childKey", "attrs", "queryString", "query", "parser", "matchingFields", "queryVectors", "termFieldCache", "requiredMatches", "prohibitedMatches", "terms", "clauseMatches", "m", "term", "termTokenSet", "expandedTerms", "field", "expandedTerm", "termIndex", "fieldPosting", "matchingDocumentRefs", "termField", "matchingDocumentsSet", "l", "matchingDocumentRef", "matchingFieldRef", "fieldMatch", "allRequiredMatches", "allProhibitedMatches", "matchingFieldRefs", "results", "matches", "fieldVector", "score", "docMatch", "match", "invertedIndex", "fieldVectors", "ref", "serializedIndex", "serializedVectors", "serializedInvertedIndex", "tokenSetBuilder", "tuple", "attributes", "number", "doc", "fields", "extractor", "fieldTerms", "metadataKey", "fieldRefs", "numberOfFields", "accumulator", "documentsWithField", "fieldRefsLength", "termIdfCache", "fieldLength", "termFrequencies", "termsLength", "fieldBoost", "docBoost", "tf", "idf", "scoreWithPrecision", "args", "clonedMetadata", "metadataKeys", "otherMatchData", "allFields", "options", "state", "subSlices", "type", "charCode", "lexer", "lexeme", "completedClause", "errorMessage", "nextLexeme", "possibleFields", "f", "boost", "factory", "import_lunr", "getElement", "selector", "node", "el", "getOptionalElement", "obj", "data", "key", "x", "y", "nodes", "parent", "i", "node", "setupSearchDocumentMap", "docs", "map", "doc", "path", "article", "split", "input", "separator", "fn", "_a", "match", "index", "until", "term", "extract", "input", "fn", "block", "start", "end", "stack", "highlight", "input", "table", "positions", "full", "highlightAll", "inputs", "mapping", "t", "prev", "next", "p", "q", "i", "cursor", "blocks", "a", "b", "index", "block", "group", "slices", "indexes", "start", "end", "length", "slice", "j", "tokenize", "input", "tokens", "inputs", "i", "table", "total", "extract", "block", "type", "start", "end", "_a", "section", "split", "index", "until", "subsection", "segments", "s", "l", "transform", "query", "fn", "term", "parts", "index", "prev", "next", "transformSearchQuery", "query", "transform", "part", "terms", "lexer", "type", "term", "start", "end", "split", "range", "parseSearchQuery", "value", "clause", "getSearchQueryTerms", "_a", "clauses", "result", "t", "segment", "query", "index", "segments", "wordcuts", "i", "j", "stack", "p", "q", "extractor", "table", "name", "doc", "id", "difference", "a", "b", "x", "y", "value", "Search", "config", "docs", "options", "field", "setupSearchDocumentMap", "tokenize", "fns", "lang", "language", "fn", "query", "segment", "transformSearchQuery", "clauses", "parseSearchQuery", "clause", "groups", "item", "ref", "score", "matchData", "__spreadValues", "terms", "getSearchQueryTerms", "positions", "match", "highlightAll", "highlight", "boost", "t", "__spreadProps", "__pow", "items", "result", "suggest", "titles", "builder", "index", "setupSearchLanguages", "config", "__async", "base", "worker", "getElement", "path", "scripts", "lang", "handler", "message", "Search", "query", "err", "lunr", "ev"]
+}
diff --git a/assets/stylesheets/main.6543a935.min.css b/assets/stylesheets/main.6543a935.min.css
new file mode 100644
index 000000000..f9f772d1c
--- /dev/null
+++ b/assets/stylesheets/main.6543a935.min.css
@@ -0,0 +1 @@
+@charset "UTF-8";html{-webkit-text-size-adjust:none;-moz-text-size-adjust:none;text-size-adjust:none;box-sizing:border-box}*,:after,:before{box-sizing:inherit}@media (prefers-reduced-motion){*,:after,:before{transition:none!important}}body{margin:0}a,button,input,label{-webkit-tap-highlight-color:transparent}a{color:inherit;text-decoration:none}hr{border:0;box-sizing:initial;display:block;height:.05rem;overflow:visible;padding:0}small{font-size:80%}sub,sup{line-height:1em}img{border-style:none}table{border-collapse:initial;border-spacing:0}td,th{font-weight:400;vertical-align:top}button{background:#0000;border:0;font-family:inherit;font-size:inherit;margin:0;padding:0}input{border:0;outline:none}:root{--md-primary-fg-color:#4051b5;--md-primary-fg-color--light:#5d6cc0;--md-primary-fg-color--dark:#303fa1;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3;--md-accent-fg-color:#526cfe;--md-accent-fg-color--transparent:#526cfe1a;--md-accent-bg-color:#fff;--md-accent-bg-color--light:#ffffffb3}[data-md-color-scheme=default]{color-scheme:light}[data-md-color-scheme=default] img[src$="#gh-dark-mode-only"],[data-md-color-scheme=default] img[src$="#only-dark"]{display:none}:root,[data-md-color-scheme=default]{--md-hue:225deg;--md-default-fg-color:#000000de;--md-default-fg-color--light:#0000008a;--md-default-fg-color--lighter:#00000052;--md-default-fg-color--lightest:#00000012;--md-default-bg-color:#fff;--md-default-bg-color--light:#ffffffb3;--md-default-bg-color--lighter:#ffffff4d;--md-default-bg-color--lightest:#ffffff1f;--md-code-fg-color:#36464e;--md-code-bg-color:#f5f5f5;--md-code-hl-color:#4287ff;--md-code-hl-color--light:#4287ff1a;--md-code-hl-number-color:#d52a2a;--md-code-hl-special-color:#db1457;--md-code-hl-function-color:#a846b9;--md-code-hl-constant-color:#6e59d9;--md-code-hl-keyword-color:#3f6ec6;--md-code-hl-string-color:#1c7d4d;--md-code-hl-name-color:var(--md-code-fg-color);--md-code-hl-operator-color:var(--md-default-fg-color--light);--md-code-hl-punctuation-color:var(--md-default-fg-color--light);--md-code-hl-comment-color:var(--md-default-fg-color--light);--md-code-hl-generic-color:var(--md-default-fg-color--light);--md-code-hl-variable-color:var(--md-default-fg-color--light);--md-typeset-color:var(--md-default-fg-color);--md-typeset-a-color:var(--md-primary-fg-color);--md-typeset-del-color:#f5503d26;--md-typeset-ins-color:#0bd57026;--md-typeset-kbd-color:#fafafa;--md-typeset-kbd-accent-color:#fff;--md-typeset-kbd-border-color:#b8b8b8;--md-typeset-mark-color:#ffff0080;--md-typeset-table-color:#0000001f;--md-typeset-table-color--light:rgba(0,0,0,.035);--md-admonition-fg-color:var(--md-default-fg-color);--md-admonition-bg-color:var(--md-default-bg-color);--md-warning-fg-color:#000000de;--md-warning-bg-color:#ff9;--md-footer-fg-color:#fff;--md-footer-fg-color--light:#ffffffb3;--md-footer-fg-color--lighter:#ffffff73;--md-footer-bg-color:#000000de;--md-footer-bg-color--dark:#00000052;--md-shadow-z1:0 0.2rem 0.5rem #0000000d,0 0 0.05rem #0000001a;--md-shadow-z2:0 0.2rem 0.5rem #0000001a,0 0 0.05rem #00000040;--md-shadow-z3:0 0.2rem 0.5rem #0003,0 0 0.05rem #00000059}.md-icon svg{fill:currentcolor;display:block;height:1.2rem;width:1.2rem}body{-webkit-font-smoothing:antialiased;-moz-osx-font-smoothing:grayscale;--md-text-font-family:var(--md-text-font,_),-apple-system,BlinkMacSystemFont,Helvetica,Arial,sans-serif;--md-code-font-family:var(--md-code-font,_),SFMono-Regular,Consolas,Menlo,monospace}aside,body,input{font-feature-settings:"kern","liga";color:var(--md-typeset-color);font-family:var(--md-text-font-family)}code,kbd,pre{font-feature-settings:"kern";font-family:var(--md-code-font-family)}:root{--md-typeset-table-sort-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="m18 21-4-4h3V7h-3l4-4 4 4h-3v10h3M2 19v-2h10v2M2 13v-2h7v2M2 7V5h4v2H2Z"/></svg>');--md-typeset-table-sort-icon--asc:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 17h3l-4 4-4-4h3V3h2M2 17h10v2H2M6 5v2H2V5m0 6h7v2H2v-2Z"/></svg>');--md-typeset-table-sort-icon--desc:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 7h3l-4-4-4 4h3v14h2M2 17h10v2H2M6 5v2H2V5m0 6h7v2H2v-2Z"/></svg>')}.md-typeset{-webkit-print-color-adjust:exact;color-adjust:exact;font-size:.8rem;line-height:1.6}@media print{.md-typeset{font-size:.68rem}}.md-typeset blockquote,.md-typeset dl,.md-typeset figure,.md-typeset ol,.md-typeset pre,.md-typeset ul{margin-bottom:1em;margin-top:1em}.md-typeset h1{color:var(--md-default-fg-color--light);font-size:2em;line-height:1.3;margin:0 0 1.25em}.md-typeset h1,.md-typeset h2{font-weight:300;letter-spacing:-.01em}.md-typeset h2{font-size:1.5625em;line-height:1.4;margin:1.6em 0 .64em}.md-typeset h3{font-size:1.25em;font-weight:400;letter-spacing:-.01em;line-height:1.5;margin:1.6em 0 .8em}.md-typeset h2+h3{margin-top:.8em}.md-typeset h4{font-weight:700;letter-spacing:-.01em;margin:1em 0}.md-typeset h5,.md-typeset h6{color:var(--md-default-fg-color--light);font-size:.8em;font-weight:700;letter-spacing:-.01em;margin:1.25em 0}.md-typeset h5{text-transform:uppercase}.md-typeset hr{border-bottom:.05rem solid var(--md-default-fg-color--lightest);display:flow-root;margin:1.5em 0}.md-typeset a{color:var(--md-typeset-a-color);word-break:break-word}.md-typeset a,.md-typeset a:before{transition:color 125ms}.md-typeset a:focus,.md-typeset a:hover{color:var(--md-accent-fg-color)}.md-typeset a:focus code,.md-typeset a:hover code{background-color:var(--md-accent-fg-color--transparent)}.md-typeset a code{color:currentcolor;transition:background-color 125ms}.md-typeset a.focus-visible{outline-color:var(--md-accent-fg-color);outline-offset:.2rem}.md-typeset code,.md-typeset kbd,.md-typeset pre{color:var(--md-code-fg-color);direction:ltr;font-variant-ligatures:none}@media print{.md-typeset code,.md-typeset kbd,.md-typeset pre{white-space:pre-wrap}}.md-typeset code{background-color:var(--md-code-bg-color);border-radius:.1rem;-webkit-box-decoration-break:clone;box-decoration-break:clone;font-size:.85em;padding:0 .2941176471em;word-break:break-word}.md-typeset code:not(.focus-visible){-webkit-tap-highlight-color:transparent;outline:none}.md-typeset pre{display:flow-root;line-height:1.4;position:relative}.md-typeset pre>code{-webkit-box-decoration-break:slice;box-decoration-break:slice;box-shadow:none;display:block;margin:0;outline-color:var(--md-accent-fg-color);overflow:auto;padding:.7720588235em 1.1764705882em;scrollbar-color:var(--md-default-fg-color--lighter) #0000;scrollbar-width:thin;touch-action:auto;word-break:normal}.md-typeset pre>code:hover{scrollbar-color:var(--md-accent-fg-color) #0000}.md-typeset pre>code::-webkit-scrollbar{height:.2rem;width:.2rem}.md-typeset pre>code::-webkit-scrollbar-thumb{background-color:var(--md-default-fg-color--lighter)}.md-typeset pre>code::-webkit-scrollbar-thumb:hover{background-color:var(--md-accent-fg-color)}.md-typeset kbd{background-color:var(--md-typeset-kbd-color);border-radius:.1rem;box-shadow:0 .1rem 0 .05rem var(--md-typeset-kbd-border-color),0 .1rem 0 var(--md-typeset-kbd-border-color),0 -.1rem .2rem var(--md-typeset-kbd-accent-color) inset;color:var(--md-default-fg-color);display:inline-block;font-size:.75em;padding:0 .6666666667em;vertical-align:text-top;word-break:break-word}.md-typeset mark{background-color:var(--md-typeset-mark-color);-webkit-box-decoration-break:clone;box-decoration-break:clone;color:inherit;word-break:break-word}.md-typeset abbr{border-bottom:.05rem dotted var(--md-default-fg-color--light);cursor:help;text-decoration:none}.md-typeset small{opacity:.75}[dir=ltr] .md-typeset sub,[dir=ltr] .md-typeset sup{margin-left:.078125em}[dir=rtl] .md-typeset sub,[dir=rtl] .md-typeset sup{margin-right:.078125em}[dir=ltr] .md-typeset blockquote{padding-left:.6rem}[dir=rtl] .md-typeset blockquote{padding-right:.6rem}[dir=ltr] .md-typeset blockquote{border-left:.2rem solid var(--md-default-fg-color--lighter)}[dir=rtl] .md-typeset blockquote{border-right:.2rem solid var(--md-default-fg-color--lighter)}.md-typeset blockquote{color:var(--md-default-fg-color--light);margin-left:0;margin-right:0}.md-typeset ul{list-style-type:disc}[dir=ltr] .md-typeset ol,[dir=ltr] .md-typeset ul{margin-left:.625em}[dir=rtl] .md-typeset ol,[dir=rtl] .md-typeset ul{margin-right:.625em}.md-typeset ol,.md-typeset ul{padding:0}.md-typeset ol:not([hidden]),.md-typeset ul:not([hidden]){display:flow-root}.md-typeset ol ol,.md-typeset ul ol{list-style-type:lower-alpha}.md-typeset ol ol ol,.md-typeset ul ol ol{list-style-type:lower-roman}[dir=ltr] .md-typeset ol li,[dir=ltr] .md-typeset ul li{margin-left:1.25em}[dir=rtl] .md-typeset ol li,[dir=rtl] .md-typeset ul li{margin-right:1.25em}.md-typeset ol li,.md-typeset ul li{margin-bottom:.5em}.md-typeset ol li blockquote,.md-typeset ol li p,.md-typeset ul li blockquote,.md-typeset ul li p{margin:.5em 0}.md-typeset ol li:last-child,.md-typeset ul li:last-child{margin-bottom:0}[dir=ltr] .md-typeset ol li ol,[dir=ltr] .md-typeset ol li ul,[dir=ltr] .md-typeset ul li ol,[dir=ltr] .md-typeset ul li ul{margin-left:.625em}[dir=rtl] .md-typeset ol li ol,[dir=rtl] .md-typeset ol li ul,[dir=rtl] .md-typeset ul li ol,[dir=rtl] .md-typeset ul li ul{margin-right:.625em}.md-typeset ol li ol,.md-typeset ol li ul,.md-typeset ul li ol,.md-typeset ul li ul{margin-bottom:.5em;margin-top:.5em}[dir=ltr] .md-typeset dd{margin-left:1.875em}[dir=rtl] .md-typeset dd{margin-right:1.875em}.md-typeset dd{margin-bottom:1.5em;margin-top:1em}.md-typeset img,.md-typeset svg,.md-typeset video{height:auto;max-width:100%}.md-typeset img[align=left]{margin:1em 1em 1em 0}.md-typeset img[align=right]{margin:1em 0 1em 1em}.md-typeset img[align]:only-child{margin-top:0}.md-typeset figure{display:flow-root;margin:1em auto;max-width:100%;text-align:center;width:-moz-fit-content;width:fit-content}.md-typeset figure img{display:block;margin:0 auto}.md-typeset figcaption{font-style:italic;margin:1em auto;max-width:24rem}.md-typeset iframe{max-width:100%}.md-typeset table:not([class]){background-color:var(--md-default-bg-color);border:.05rem solid var(--md-typeset-table-color);border-radius:.1rem;display:inline-block;font-size:.64rem;max-width:100%;overflow:auto;touch-action:auto}@media print{.md-typeset table:not([class]){display:table}}.md-typeset table:not([class])+*{margin-top:1.5em}.md-typeset table:not([class]) td>:first-child,.md-typeset table:not([class]) th>:first-child{margin-top:0}.md-typeset table:not([class]) td>:last-child,.md-typeset table:not([class]) th>:last-child{margin-bottom:0}.md-typeset table:not([class]) td:not([align]),.md-typeset table:not([class]) th:not([align]){text-align:left}[dir=rtl] .md-typeset table:not([class]) td:not([align]),[dir=rtl] .md-typeset table:not([class]) th:not([align]){text-align:right}.md-typeset table:not([class]) th{font-weight:700;min-width:5rem;padding:.9375em 1.25em;vertical-align:top}.md-typeset table:not([class]) td{border-top:.05rem solid var(--md-typeset-table-color);padding:.9375em 1.25em;vertical-align:top}.md-typeset table:not([class]) tbody tr{transition:background-color 125ms}.md-typeset table:not([class]) tbody tr:hover{background-color:var(--md-typeset-table-color--light);box-shadow:0 .05rem 0 var(--md-default-bg-color) inset}.md-typeset table:not([class]) a{word-break:normal}.md-typeset table th[role=columnheader]{cursor:pointer}[dir=ltr] .md-typeset table th[role=columnheader]:after{margin-left:.5em}[dir=rtl] .md-typeset table th[role=columnheader]:after{margin-right:.5em}.md-typeset table th[role=columnheader]:after{content:"";display:inline-block;height:1.2em;-webkit-mask-image:var(--md-typeset-table-sort-icon);mask-image:var(--md-typeset-table-sort-icon);-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;transition:background-color 125ms;vertical-align:text-bottom;width:1.2em}.md-typeset table th[role=columnheader]:hover:after{background-color:var(--md-default-fg-color--lighter)}.md-typeset table th[role=columnheader][aria-sort=ascending]:after{background-color:var(--md-default-fg-color--light);-webkit-mask-image:var(--md-typeset-table-sort-icon--asc);mask-image:var(--md-typeset-table-sort-icon--asc)}.md-typeset table th[role=columnheader][aria-sort=descending]:after{background-color:var(--md-default-fg-color--light);-webkit-mask-image:var(--md-typeset-table-sort-icon--desc);mask-image:var(--md-typeset-table-sort-icon--desc)}.md-typeset__scrollwrap{margin:1em -.8rem;overflow-x:auto;touch-action:auto}.md-typeset__table{display:inline-block;margin-bottom:.5em;padding:0 .8rem}@media print{.md-typeset__table{display:block}}html .md-typeset__table table{display:table;margin:0;overflow:hidden;width:100%}@media screen and (max-width:44.984375em){.md-content__inner>pre{margin:1em -.8rem}.md-content__inner>pre code{border-radius:0}}.md-typeset .md-author{border-radius:100%;display:block;flex-shrink:0;height:1.6rem;overflow:hidden;position:relative;transition:color 125ms,transform 125ms;width:1.6rem}.md-typeset .md-author img{display:block}.md-typeset .md-author--more{background:var(--md-default-fg-color--lightest);color:var(--md-default-fg-color--lighter);font-size:.6rem;font-weight:700;line-height:1.6rem;text-align:center}.md-typeset .md-author--long{height:2.4rem;width:2.4rem}.md-typeset a.md-author{transform:scale(1)}.md-typeset a.md-author img{border-radius:100%;filter:grayscale(100%) opacity(75%);transition:filter 125ms}.md-typeset a.md-author:focus,.md-typeset a.md-author:hover{transform:scale(1.1);z-index:1}.md-typeset a.md-author:focus img,.md-typeset a.md-author:hover img{filter:grayscale(0)}.md-banner{background-color:var(--md-footer-bg-color);color:var(--md-footer-fg-color);overflow:auto}@media print{.md-banner{display:none}}.md-banner--warning{background-color:var(--md-warning-bg-color);color:var(--md-warning-fg-color)}.md-banner__inner{font-size:.7rem;margin:.6rem auto;padding:0 .8rem}[dir=ltr] .md-banner__button{float:right}[dir=rtl] .md-banner__button{float:left}.md-banner__button{color:inherit;cursor:pointer;transition:opacity .25s}.no-js .md-banner__button{display:none}.md-banner__button:hover{opacity:.7}html{font-size:125%;height:100%;overflow-x:hidden}@media screen and (min-width:100em){html{font-size:137.5%}}@media screen and (min-width:125em){html{font-size:150%}}body{background-color:var(--md-default-bg-color);display:flex;flex-direction:column;font-size:.5rem;min-height:100%;position:relative;width:100%}@media print{body{display:block}}@media screen and (max-width:59.984375em){body[data-md-scrolllock]{position:fixed}}.md-grid{margin-left:auto;margin-right:auto;max-width:61rem}.md-container{display:flex;flex-direction:column;flex-grow:1}@media print{.md-container{display:block}}.md-main{flex-grow:1}.md-main__inner{display:flex;height:100%;margin-top:1.5rem}.md-ellipsis{overflow:hidden;text-overflow:ellipsis}.md-toggle{display:none}.md-option{height:0;opacity:0;position:absolute;width:0}.md-option:checked+label:not([hidden]){display:block}.md-option.focus-visible+label{outline-color:var(--md-accent-fg-color);outline-style:auto}.md-skip{background-color:var(--md-default-fg-color);border-radius:.1rem;color:var(--md-default-bg-color);font-size:.64rem;margin:.5rem;opacity:0;outline-color:var(--md-accent-fg-color);padding:.3rem .5rem;position:fixed;transform:translateY(.4rem);z-index:-1}.md-skip:focus{opacity:1;transform:translateY(0);transition:transform .25s cubic-bezier(.4,0,.2,1),opacity 175ms 75ms;z-index:10}@page{margin:25mm}:root{--md-clipboard-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 21H8V7h11m0-2H8a2 2 0 0 0-2 2v14a2 2 0 0 0 2 2h11a2 2 0 0 0 2-2V7a2 2 0 0 0-2-2m-3-4H4a2 2 0 0 0-2 2v14h2V3h12V1Z"/></svg>')}.md-clipboard{border-radius:.1rem;color:var(--md-default-fg-color--lightest);cursor:pointer;height:1.5em;outline-color:var(--md-accent-fg-color);outline-offset:.1rem;position:absolute;right:.5em;top:.5em;transition:color .25s;width:1.5em;z-index:1}@media print{.md-clipboard{display:none}}.md-clipboard:not(.focus-visible){-webkit-tap-highlight-color:transparent;outline:none}:hover>.md-clipboard{color:var(--md-default-fg-color--light)}.md-clipboard:focus,.md-clipboard:hover{color:var(--md-accent-fg-color)}.md-clipboard:after{background-color:currentcolor;content:"";display:block;height:1.125em;margin:0 auto;-webkit-mask-image:var(--md-clipboard-icon);mask-image:var(--md-clipboard-icon);-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;width:1.125em}.md-clipboard--inline{cursor:pointer}.md-clipboard--inline code{transition:color .25s,background-color .25s}.md-clipboard--inline:focus code,.md-clipboard--inline:hover code{background-color:var(--md-accent-fg-color--transparent);color:var(--md-accent-fg-color)}.md-typeset .md-code__content{display:grid}@keyframes consent{0%{opacity:0;transform:translateY(100%)}to{opacity:1;transform:translateY(0)}}@keyframes overlay{0%{opacity:0}to{opacity:1}}.md-consent__overlay{animation:overlay .25s both;-webkit-backdrop-filter:blur(.1rem);backdrop-filter:blur(.1rem);background-color:#0000008a;height:100%;opacity:1;position:fixed;top:0;width:100%;z-index:5}.md-consent__inner{animation:consent .5s cubic-bezier(.1,.7,.1,1) both;background-color:var(--md-default-bg-color);border:0;border-radius:.1rem;bottom:0;box-shadow:0 0 .2rem #0000001a,0 .2rem .4rem #0003;max-height:100%;overflow:auto;padding:0;position:fixed;width:100%;z-index:5}.md-consent__form{padding:.8rem}.md-consent__settings{display:none;margin:1em 0}input:checked+.md-consent__settings{display:block}.md-consent__controls{margin-bottom:.8rem}.md-typeset .md-consent__controls .md-button{display:inline}@media screen and (max-width:44.984375em){.md-typeset .md-consent__controls .md-button{display:block;margin-top:.4rem;text-align:center;width:100%}}.md-consent label{cursor:pointer}.md-content{flex-grow:1;min-width:0}.md-content__inner{margin:0 .8rem 1.2rem;padding-top:.6rem}@media screen and (min-width:76.25em){[dir=ltr] .md-sidebar--primary:not([hidden])~.md-content>.md-content__inner{margin-left:1.2rem}[dir=ltr] .md-sidebar--secondary:not([hidden])~.md-content>.md-content__inner,[dir=rtl] .md-sidebar--primary:not([hidden])~.md-content>.md-content__inner{margin-right:1.2rem}[dir=rtl] .md-sidebar--secondary:not([hidden])~.md-content>.md-content__inner{margin-left:1.2rem}}.md-content__inner:before{content:"";display:block;height:.4rem}.md-content__inner>:last-child{margin-bottom:0}[dir=ltr] .md-content__button{float:right}[dir=rtl] .md-content__button{float:left}[dir=ltr] .md-content__button{margin-left:.4rem}[dir=rtl] .md-content__button{margin-right:.4rem}.md-content__button{margin:.4rem 0;padding:0}@media print{.md-content__button{display:none}}.md-typeset .md-content__button{color:var(--md-default-fg-color--lighter)}.md-content__button svg{display:inline;vertical-align:top}[dir=rtl] .md-content__button svg{transform:scaleX(-1)}[dir=ltr] .md-dialog{right:.8rem}[dir=rtl] .md-dialog{left:.8rem}.md-dialog{background-color:var(--md-default-fg-color);border-radius:.1rem;bottom:.8rem;box-shadow:var(--md-shadow-z3);min-width:11.1rem;opacity:0;padding:.4rem .6rem;pointer-events:none;position:fixed;transform:translateY(100%);transition:transform 0ms .4s,opacity .4s;z-index:4}@media print{.md-dialog{display:none}}.md-dialog--active{opacity:1;pointer-events:auto;transform:translateY(0);transition:transform .4s cubic-bezier(.075,.85,.175,1),opacity .4s}.md-dialog__inner{color:var(--md-default-bg-color);font-size:.7rem}.md-feedback{margin:2em 0 1em;text-align:center}.md-feedback fieldset{border:none;margin:0;padding:0}.md-feedback__title{font-weight:700;margin:1em auto}.md-feedback__inner{position:relative}.md-feedback__list{display:flex;flex-wrap:wrap;place-content:baseline center;position:relative}.md-feedback__list:hover .md-icon:not(:disabled){color:var(--md-default-fg-color--lighter)}:disabled .md-feedback__list{min-height:1.8rem}.md-feedback__icon{color:var(--md-default-fg-color--light);cursor:pointer;flex-shrink:0;margin:0 .1rem;transition:color 125ms}.md-feedback__icon:not(:disabled).md-icon:hover{color:var(--md-accent-fg-color)}.md-feedback__icon:disabled{color:var(--md-default-fg-color--lightest);pointer-events:none}.md-feedback__note{opacity:0;position:relative;transform:translateY(.4rem);transition:transform .4s cubic-bezier(.1,.7,.1,1),opacity .15s}.md-feedback__note>*{margin:0 auto;max-width:16rem}:disabled .md-feedback__note{opacity:1;transform:translateY(0)}.md-footer{background-color:var(--md-footer-bg-color);color:var(--md-footer-fg-color)}@media print{.md-footer{display:none}}.md-footer__inner{justify-content:space-between;overflow:auto;padding:.2rem}.md-footer__inner:not([hidden]){display:flex}.md-footer__link{align-items:end;display:flex;flex-grow:0.01;margin-bottom:.4rem;margin-top:1rem;max-width:100%;outline-color:var(--md-accent-fg-color);overflow:hidden;transition:opacity .25s}.md-footer__link:focus,.md-footer__link:hover{opacity:.7}[dir=rtl] .md-footer__link svg{transform:scaleX(-1)}@media screen and (max-width:44.984375em){.md-footer__link--prev{flex-shrink:0}.md-footer__link--prev .md-footer__title{display:none}}[dir=ltr] .md-footer__link--next{margin-left:auto}[dir=rtl] .md-footer__link--next{margin-right:auto}.md-footer__link--next{text-align:right}[dir=rtl] .md-footer__link--next{text-align:left}.md-footer__title{flex-grow:1;font-size:.9rem;margin-bottom:.7rem;max-width:calc(100% - 2.4rem);padding:0 1rem;white-space:nowrap}.md-footer__button{margin:.2rem;padding:.4rem}.md-footer__direction{font-size:.64rem;opacity:.7}.md-footer-meta{background-color:var(--md-footer-bg-color--dark)}.md-footer-meta__inner{display:flex;flex-wrap:wrap;justify-content:space-between;padding:.2rem}html .md-footer-meta.md-typeset a{color:var(--md-footer-fg-color--light)}html .md-footer-meta.md-typeset a:focus,html .md-footer-meta.md-typeset a:hover{color:var(--md-footer-fg-color)}.md-copyright{color:var(--md-footer-fg-color--lighter);font-size:.64rem;margin:auto .6rem;padding:.4rem 0;width:100%}@media screen and (min-width:45em){.md-copyright{width:auto}}.md-copyright__highlight{color:var(--md-footer-fg-color--light)}.md-social{display:inline-flex;gap:.2rem;margin:0 .4rem;padding:.2rem 0 .6rem}@media screen and (min-width:45em){.md-social{padding:.6rem 0}}.md-social__link{display:inline-block;height:1.6rem;text-align:center;width:1.6rem}.md-social__link:before{line-height:1.9}.md-social__link svg{fill:currentcolor;max-height:.8rem;vertical-align:-25%}.md-typeset .md-button{border:.1rem solid;border-radius:.1rem;color:var(--md-primary-fg-color);cursor:pointer;display:inline-block;font-weight:700;padding:.625em 2em;transition:color 125ms,background-color 125ms,border-color 125ms}.md-typeset .md-button--primary{background-color:var(--md-primary-fg-color);border-color:var(--md-primary-fg-color);color:var(--md-primary-bg-color)}.md-typeset .md-button:focus,.md-typeset .md-button:hover{background-color:var(--md-accent-fg-color);border-color:var(--md-accent-fg-color);color:var(--md-accent-bg-color)}[dir=ltr] .md-typeset .md-input{border-top-left-radius:.1rem}[dir=ltr] .md-typeset .md-input,[dir=rtl] .md-typeset .md-input{border-top-right-radius:.1rem}[dir=rtl] .md-typeset .md-input{border-top-left-radius:.1rem}.md-typeset .md-input{border-bottom:.1rem solid var(--md-default-fg-color--lighter);box-shadow:var(--md-shadow-z1);font-size:.8rem;height:1.8rem;padding:0 .6rem;transition:border .25s,box-shadow .25s}.md-typeset .md-input:focus,.md-typeset .md-input:hover{border-bottom-color:var(--md-accent-fg-color);box-shadow:var(--md-shadow-z2)}.md-typeset .md-input--stretch{width:100%}.md-header{background-color:var(--md-primary-fg-color);box-shadow:0 0 .2rem #0000,0 .2rem .4rem #0000;color:var(--md-primary-bg-color);display:block;left:0;position:sticky;right:0;top:0;z-index:4}@media print{.md-header{display:none}}.md-header[hidden]{transform:translateY(-100%);transition:transform .25s cubic-bezier(.8,0,.6,1),box-shadow .25s}.md-header--shadow{box-shadow:0 0 .2rem #0000001a,0 .2rem .4rem #0003;transition:transform .25s cubic-bezier(.1,.7,.1,1),box-shadow .25s}.md-header__inner{align-items:center;display:flex;padding:0 .2rem}.md-header__button{color:currentcolor;cursor:pointer;margin:.2rem;outline-color:var(--md-accent-fg-color);padding:.4rem;position:relative;transition:opacity .25s;vertical-align:middle;z-index:1}.md-header__button:hover{opacity:.7}.md-header__button:not([hidden]){display:inline-block}.md-header__button:not(.focus-visible){-webkit-tap-highlight-color:transparent;outline:none}.md-header__button.md-logo{margin:.2rem;padding:.4rem}@media screen and (max-width:76.234375em){.md-header__button.md-logo{display:none}}.md-header__button.md-logo img,.md-header__button.md-logo svg{fill:currentcolor;display:block;height:1.2rem;width:auto}@media screen and (min-width:60em){.md-header__button[for=__search]{display:none}}.no-js .md-header__button[for=__search]{display:none}[dir=rtl] .md-header__button[for=__search] svg{transform:scaleX(-1)}@media screen and (min-width:76.25em){.md-header__button[for=__drawer]{display:none}}.md-header__topic{display:flex;max-width:100%;position:absolute;transition:transform .4s cubic-bezier(.1,.7,.1,1),opacity .15s;white-space:nowrap}.md-header__topic+.md-header__topic{opacity:0;pointer-events:none;transform:translateX(1.25rem);transition:transform .4s cubic-bezier(1,.7,.1,.1),opacity .15s;z-index:-1}[dir=rtl] .md-header__topic+.md-header__topic{transform:translateX(-1.25rem)}.md-header__topic:first-child{font-weight:700}[dir=ltr] .md-header__title{margin-left:1rem;margin-right:.4rem}[dir=rtl] .md-header__title{margin-left:.4rem;margin-right:1rem}.md-header__title{flex-grow:1;font-size:.9rem;height:2.4rem;line-height:2.4rem}.md-header__title--active .md-header__topic{opacity:0;pointer-events:none;transform:translateX(-1.25rem);transition:transform .4s cubic-bezier(1,.7,.1,.1),opacity .15s;z-index:-1}[dir=rtl] .md-header__title--active .md-header__topic{transform:translateX(1.25rem)}.md-header__title--active .md-header__topic+.md-header__topic{opacity:1;pointer-events:auto;transform:translateX(0);transition:transform .4s cubic-bezier(.1,.7,.1,1),opacity .15s;z-index:0}.md-header__title>.md-header__ellipsis{height:100%;position:relative;width:100%}.md-header__option{display:flex;flex-shrink:0;max-width:100%;transition:max-width 0ms .25s,opacity .25s .25s;white-space:nowrap}[data-md-toggle=search]:checked~.md-header .md-header__option{max-width:0;opacity:0;transition:max-width 0ms,opacity 0ms}.md-header__option>input{bottom:0}.md-header__source{display:none}@media screen and (min-width:60em){[dir=ltr] .md-header__source{margin-left:1rem}[dir=rtl] .md-header__source{margin-right:1rem}.md-header__source{display:block;max-width:11.7rem;width:11.7rem}}@media screen and (min-width:76.25em){[dir=ltr] .md-header__source{margin-left:1.4rem}[dir=rtl] .md-header__source{margin-right:1.4rem}}.md-meta{color:var(--md-default-fg-color--light);font-size:.7rem;line-height:1.3}.md-meta__list{display:inline-flex;flex-wrap:wrap;list-style:none;margin:0;padding:0}.md-meta__item:not(:last-child):after{content:"·";margin-left:.2rem;margin-right:.2rem}.md-meta__link{color:var(--md-typeset-a-color)}.md-meta__link:focus,.md-meta__link:hover{color:var(--md-accent-fg-color)}.md-draft{background-color:#ff1744;border-radius:.125em;color:#fff;display:inline-block;font-weight:700;padding-left:.5714285714em;padding-right:.5714285714em}:root{--md-nav-icon--prev:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>');--md-nav-icon--next:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M8.59 16.58 13.17 12 8.59 7.41 10 6l6 6-6 6-1.41-1.42Z"/></svg>');--md-toc-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 9h14V7H3v2m0 4h14v-2H3v2m0 4h14v-2H3v2m16 0h2v-2h-2v2m0-10v2h2V7h-2m0 6h2v-2h-2v2Z"/></svg>')}.md-nav{font-size:.7rem;line-height:1.3}.md-nav__title{color:var(--md-default-fg-color--light);display:block;font-weight:700;overflow:hidden;padding:0 .6rem;text-overflow:ellipsis}.md-nav__title .md-nav__button{display:none}.md-nav__title .md-nav__button img{height:100%;width:auto}.md-nav__title .md-nav__button.md-logo img,.md-nav__title .md-nav__button.md-logo svg{fill:currentcolor;display:block;height:2.4rem;max-width:100%;object-fit:contain;width:auto}.md-nav__list{list-style:none;margin:0;padding:0}.md-nav__link{align-items:flex-start;display:flex;gap:.4rem;margin-top:.625em;scroll-snap-align:start;transition:color 125ms}.md-nav__link--passed{color:var(--md-default-fg-color--light)}.md-nav__item .md-nav__link--active,.md-nav__item .md-nav__link--active code{color:var(--md-typeset-a-color)}.md-nav__link .md-ellipsis{position:relative}[dir=ltr] .md-nav__link .md-icon:last-child{margin-left:auto}[dir=rtl] .md-nav__link .md-icon:last-child{margin-right:auto}.md-nav__link svg{fill:currentcolor;flex-shrink:0;height:1.3em}.md-nav__link[for]:focus,.md-nav__link[for]:hover,.md-nav__link[href]:focus,.md-nav__link[href]:hover{color:var(--md-accent-fg-color);cursor:pointer}.md-nav__link.focus-visible{outline-color:var(--md-accent-fg-color);outline-offset:.2rem}.md-nav--primary .md-nav__link[for=__toc]{display:none}.md-nav--primary .md-nav__link[for=__toc] .md-icon:after{background-color:currentcolor;display:block;height:100%;-webkit-mask-image:var(--md-toc-icon);mask-image:var(--md-toc-icon);width:100%}.md-nav--primary .md-nav__link[for=__toc]~.md-nav{display:none}.md-nav__container>.md-nav__link{margin-top:0}.md-nav__container>.md-nav__link:first-child{flex-grow:1;min-width:0}.md-nav__icon{flex-shrink:0}.md-nav__source{display:none}@media screen and (max-width:76.234375em){.md-nav--primary,.md-nav--primary .md-nav{background-color:var(--md-default-bg-color);display:flex;flex-direction:column;height:100%;left:0;position:absolute;right:0;top:0;z-index:1}.md-nav--primary .md-nav__item,.md-nav--primary .md-nav__title{font-size:.8rem;line-height:1.5}.md-nav--primary .md-nav__title{background-color:var(--md-default-fg-color--lightest);color:var(--md-default-fg-color--light);cursor:pointer;height:5.6rem;line-height:2.4rem;padding:3rem .8rem .2rem;position:relative;white-space:nowrap}[dir=ltr] .md-nav--primary .md-nav__title .md-nav__icon{left:.4rem}[dir=rtl] .md-nav--primary .md-nav__title .md-nav__icon{right:.4rem}.md-nav--primary .md-nav__title .md-nav__icon{display:block;height:1.2rem;margin:.2rem;position:absolute;top:.4rem;width:1.2rem}.md-nav--primary .md-nav__title .md-nav__icon:after{background-color:currentcolor;content:"";display:block;height:100%;-webkit-mask-image:var(--md-nav-icon--prev);mask-image:var(--md-nav-icon--prev);-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;width:100%}.md-nav--primary .md-nav__title~.md-nav__list{background-color:var(--md-default-bg-color);box-shadow:0 .05rem 0 var(--md-default-fg-color--lightest) inset;overflow-y:auto;scroll-snap-type:y mandatory;touch-action:pan-y}.md-nav--primary .md-nav__title~.md-nav__list>:first-child{border-top:0}.md-nav--primary .md-nav__title[for=__drawer]{background-color:var(--md-primary-fg-color);color:var(--md-primary-bg-color);font-weight:700}.md-nav--primary .md-nav__title .md-logo{display:block;left:.2rem;margin:.2rem;padding:.4rem;position:absolute;right:.2rem;top:.2rem}.md-nav--primary .md-nav__list{flex:1}.md-nav--primary .md-nav__item{border-top:.05rem solid var(--md-default-fg-color--lightest)}.md-nav--primary .md-nav__item--active>.md-nav__link{color:var(--md-typeset-a-color)}.md-nav--primary .md-nav__item--active>.md-nav__link:focus,.md-nav--primary .md-nav__item--active>.md-nav__link:hover{color:var(--md-accent-fg-color)}.md-nav--primary .md-nav__link{margin-top:0;padding:.6rem .8rem}.md-nav--primary .md-nav__link svg{margin-top:.1em}.md-nav--primary .md-nav__link>.md-nav__link{padding:0}[dir=ltr] .md-nav--primary .md-nav__link .md-nav__icon{margin-right:-.2rem}[dir=rtl] .md-nav--primary .md-nav__link .md-nav__icon{margin-left:-.2rem}.md-nav--primary .md-nav__link .md-nav__icon{font-size:1.2rem;height:1.2rem;width:1.2rem}.md-nav--primary .md-nav__link .md-nav__icon:after{background-color:currentcolor;content:"";display:block;height:100%;-webkit-mask-image:var(--md-nav-icon--next);mask-image:var(--md-nav-icon--next);-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;width:100%}[dir=rtl] .md-nav--primary .md-nav__icon:after{transform:scale(-1)}.md-nav--primary .md-nav--secondary .md-nav{background-color:initial;position:static}[dir=ltr] .md-nav--primary .md-nav--secondary .md-nav .md-nav__link{padding-left:1.4rem}[dir=rtl] .md-nav--primary .md-nav--secondary .md-nav .md-nav__link{padding-right:1.4rem}[dir=ltr] .md-nav--primary .md-nav--secondary .md-nav .md-nav .md-nav__link{padding-left:2rem}[dir=rtl] .md-nav--primary .md-nav--secondary .md-nav .md-nav .md-nav__link{padding-right:2rem}[dir=ltr] .md-nav--primary .md-nav--secondary .md-nav .md-nav .md-nav .md-nav__link{padding-left:2.6rem}[dir=rtl] .md-nav--primary .md-nav--secondary .md-nav .md-nav .md-nav .md-nav__link{padding-right:2.6rem}[dir=ltr] .md-nav--primary .md-nav--secondary .md-nav .md-nav .md-nav .md-nav .md-nav__link{padding-left:3.2rem}[dir=rtl] .md-nav--primary .md-nav--secondary .md-nav .md-nav .md-nav .md-nav .md-nav__link{padding-right:3.2rem}.md-nav--secondary{background-color:initial}.md-nav__toggle~.md-nav{display:flex;opacity:0;transform:translateX(100%);transition:transform .25s cubic-bezier(.8,0,.6,1),opacity 125ms 50ms}[dir=rtl] .md-nav__toggle~.md-nav{transform:translateX(-100%)}.md-nav__toggle:checked~.md-nav{opacity:1;transform:translateX(0);transition:transform .25s cubic-bezier(.4,0,.2,1),opacity 125ms 125ms}.md-nav__toggle:checked~.md-nav>.md-nav__list{-webkit-backface-visibility:hidden;backface-visibility:hidden}}@media screen and (max-width:59.984375em){.md-nav--primary .md-nav__link[for=__toc]{display:flex}.md-nav--primary .md-nav__link[for=__toc] .md-icon:after{content:""}.md-nav--primary .md-nav__link[for=__toc]+.md-nav__link{display:none}.md-nav--primary .md-nav__link[for=__toc]~.md-nav{display:flex}.md-nav__source{background-color:var(--md-primary-fg-color--dark);color:var(--md-primary-bg-color);display:block;padding:0 .2rem}}@media screen and (min-width:60em) and (max-width:76.234375em){.md-nav--integrated .md-nav__link[for=__toc]{display:flex}.md-nav--integrated .md-nav__link[for=__toc] .md-icon:after{content:""}.md-nav--integrated .md-nav__link[for=__toc]+.md-nav__link{display:none}.md-nav--integrated .md-nav__link[for=__toc]~.md-nav{display:flex}}@media screen and (min-width:60em){.md-nav{margin-bottom:-.4rem}.md-nav--secondary .md-nav__title{background:var(--md-default-bg-color);box-shadow:0 0 .4rem .4rem var(--md-default-bg-color);position:sticky;top:0;z-index:1}.md-nav--secondary .md-nav__title[for=__toc]{scroll-snap-align:start}.md-nav--secondary .md-nav__title .md-nav__icon{display:none}[dir=ltr] .md-nav--secondary .md-nav__list{padding-left:.6rem}[dir=rtl] .md-nav--secondary .md-nav__list{padding-right:.6rem}.md-nav--secondary .md-nav__list{padding-bottom:.4rem}[dir=ltr] .md-nav--secondary .md-nav__item>.md-nav__link{margin-right:.4rem}[dir=rtl] .md-nav--secondary .md-nav__item>.md-nav__link{margin-left:.4rem}}@media screen and (min-width:76.25em){.md-nav{margin-bottom:-.4rem;transition:max-height .25s cubic-bezier(.86,0,.07,1)}.md-nav--primary .md-nav__title{background:var(--md-default-bg-color);box-shadow:0 0 .4rem .4rem var(--md-default-bg-color);position:sticky;top:0;z-index:1}.md-nav--primary .md-nav__title[for=__drawer]{scroll-snap-align:start}.md-nav--primary .md-nav__title .md-nav__icon{display:none}[dir=ltr] .md-nav--primary .md-nav__list{padding-left:.6rem}[dir=rtl] .md-nav--primary .md-nav__list{padding-right:.6rem}.md-nav--primary .md-nav__list{padding-bottom:.4rem}[dir=ltr] .md-nav--primary .md-nav__item>.md-nav__link{margin-right:.4rem}[dir=rtl] .md-nav--primary .md-nav__item>.md-nav__link{margin-left:.4rem}.md-nav__toggle~.md-nav{display:grid;grid-template-rows:0fr;opacity:0;transition:grid-template-rows .25s cubic-bezier(.86,0,.07,1),opacity .25s,visibility 0ms .25s;visibility:collapse}.md-nav__toggle~.md-nav>.md-nav__list{overflow:hidden}.md-nav__toggle.md-toggle--indeterminate~.md-nav,.md-nav__toggle:checked~.md-nav{grid-template-rows:1fr;opacity:1;transition:grid-template-rows .25s cubic-bezier(.86,0,.07,1),opacity .15s .1s,visibility 0ms;visibility:visible}.md-nav__toggle.md-toggle--indeterminate~.md-nav{transition:none}.md-nav__item--nested>.md-nav>.md-nav__title{display:none}.md-nav__item--section{display:block;margin:1.25em 0}.md-nav__item--section:last-child{margin-bottom:0}.md-nav__item--section>.md-nav__link{font-weight:700}.md-nav__item--section>.md-nav__link[for]{color:var(--md-default-fg-color--light)}.md-nav__item--section>.md-nav__link:not(.md-nav__container){pointer-events:none}.md-nav__item--section>.md-nav__link .md-icon,.md-nav__item--section>.md-nav__link>[for]{display:none}[dir=ltr] .md-nav__item--section>.md-nav{margin-left:-.6rem}[dir=rtl] .md-nav__item--section>.md-nav{margin-right:-.6rem}.md-nav__item--section>.md-nav{display:block;opacity:1;visibility:visible}.md-nav__item--section>.md-nav>.md-nav__list>.md-nav__item{padding:0}.md-nav__icon{border-radius:100%;height:.9rem;transition:background-color .25s;width:.9rem}.md-nav__icon:hover{background-color:var(--md-accent-fg-color--transparent)}.md-nav__icon:after{background-color:currentcolor;border-radius:100%;content:"";display:inline-block;height:100%;-webkit-mask-image:var(--md-nav-icon--next);mask-image:var(--md-nav-icon--next);-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;transition:transform .25s;vertical-align:-.1rem;width:100%}[dir=rtl] .md-nav__icon:after{transform:rotate(180deg)}.md-nav__item--nested .md-nav__toggle:checked~.md-nav__link .md-nav__icon:after,.md-nav__item--nested .md-toggle--indeterminate~.md-nav__link .md-nav__icon:after{transform:rotate(90deg)}.md-nav--lifted>.md-nav__list>.md-nav__item,.md-nav--lifted>.md-nav__title{display:none}.md-nav--lifted>.md-nav__list>.md-nav__item--active{display:block}.md-nav--lifted>.md-nav__list>.md-nav__item--active>.md-nav__link{background:var(--md-default-bg-color);box-shadow:0 0 .4rem .4rem var(--md-default-bg-color);margin-top:0;position:sticky;top:0;z-index:1}.md-nav--lifted>.md-nav__list>.md-nav__item--active>.md-nav__link:not(.md-nav__container){pointer-events:none}.md-nav--lifted>.md-nav__list>.md-nav__item--active.md-nav__item--section{margin:0}[dir=ltr] .md-nav--lifted>.md-nav__list>.md-nav__item>.md-nav:not(.md-nav--secondary){margin-left:-.6rem}[dir=rtl] .md-nav--lifted>.md-nav__list>.md-nav__item>.md-nav:not(.md-nav--secondary){margin-right:-.6rem}.md-nav--lifted>.md-nav__list>.md-nav__item>[for]{color:var(--md-default-fg-color--light)}.md-nav--lifted .md-nav[data-md-level="1"]{grid-template-rows:1fr;opacity:1;visibility:visible}[dir=ltr] .md-nav--integrated>.md-nav__list>.md-nav__item--active .md-nav--secondary{border-left:.05rem solid var(--md-primary-fg-color)}[dir=rtl] .md-nav--integrated>.md-nav__list>.md-nav__item--active .md-nav--secondary{border-right:.05rem solid var(--md-primary-fg-color)}.md-nav--integrated>.md-nav__list>.md-nav__item--active .md-nav--secondary{display:block;margin-bottom:1.25em;opacity:1;visibility:visible}.md-nav--integrated>.md-nav__list>.md-nav__item--active .md-nav--secondary>.md-nav__list{overflow:visible;padding-bottom:0}.md-nav--integrated>.md-nav__list>.md-nav__item--active .md-nav--secondary>.md-nav__title{display:none}}.md-pagination{font-size:.8rem;font-weight:700;gap:.4rem}.md-pagination,.md-pagination>*{align-items:center;display:flex;justify-content:center}.md-pagination>*{border-radius:.2rem;height:1.8rem;min-width:1.8rem;text-align:center}.md-pagination__current{background-color:var(--md-default-fg-color--lightest);color:var(--md-default-fg-color--light)}.md-pagination__link{transition:color 125ms,background-color 125ms}.md-pagination__link:focus,.md-pagination__link:hover{background-color:var(--md-accent-fg-color--transparent);color:var(--md-accent-fg-color)}.md-pagination__link:focus svg,.md-pagination__link:hover svg{color:var(--md-accent-fg-color)}.md-pagination__link.focus-visible{outline-color:var(--md-accent-fg-color);outline-offset:.2rem}.md-pagination__link svg{fill:currentcolor;color:var(--md-default-fg-color--lighter);display:block;max-height:100%;width:1.2rem}.md-post__back{border-bottom:.05rem solid var(--md-default-fg-color--lightest);margin-bottom:1.2rem;padding-bottom:1.2rem}@media screen and (max-width:76.234375em){.md-post__back{display:none}}[dir=rtl] .md-post__back svg{transform:scaleX(-1)}.md-post__authors{display:flex;flex-direction:column;gap:.6rem;margin:0 .6rem 1.2rem}.md-post .md-post__meta a{transition:color 125ms}.md-post .md-post__meta a:focus,.md-post .md-post__meta a:hover{color:var(--md-accent-fg-color)}.md-post__title{color:var(--md-default-fg-color--light);font-weight:700}.md-post--excerpt{margin-bottom:3.2rem}.md-post--excerpt .md-post__header{align-items:center;display:flex;gap:.6rem;min-height:1.6rem}.md-post--excerpt .md-post__authors{align-items:center;display:inline-flex;flex-direction:row;gap:.2rem;margin:0;min-height:2.4rem}[dir=ltr] .md-post--excerpt .md-post__meta .md-meta__list{margin-right:.4rem}[dir=rtl] .md-post--excerpt .md-post__meta .md-meta__list{margin-left:.4rem}.md-post--excerpt .md-post__content>:first-child{--md-scroll-margin:6rem;margin-top:0}.md-post>.md-nav--secondary{margin:1em 0}.md-profile{align-items:center;display:flex;font-size:.7rem;gap:.6rem;line-height:1.4;width:100%}.md-profile__description{flex-grow:1}.md-content--post{display:flex}@media screen and (max-width:76.234375em){.md-content--post{flex-flow:column-reverse}}.md-content--post>.md-content__inner{min-width:0}@media screen and (min-width:76.25em){[dir=ltr] .md-content--post>.md-content__inner{margin-left:1.2rem}[dir=rtl] .md-content--post>.md-content__inner{margin-right:1.2rem}}@media screen and (max-width:76.234375em){.md-sidebar.md-sidebar--post{padding:0;position:static;width:100%}.md-sidebar.md-sidebar--post .md-sidebar__scrollwrap{overflow:visible}.md-sidebar.md-sidebar--post .md-sidebar__inner{padding:0}.md-sidebar.md-sidebar--post .md-post__meta{margin-left:.6rem;margin-right:.6rem}.md-sidebar.md-sidebar--post .md-nav__item{border:none;display:inline}.md-sidebar.md-sidebar--post .md-nav__list{display:inline-flex;flex-wrap:wrap;gap:.6rem;padding-bottom:.6rem;padding-top:.6rem}.md-sidebar.md-sidebar--post .md-nav__link{padding:0}.md-sidebar.md-sidebar--post .md-nav{height:auto;margin-bottom:0;position:static}}:root{--md-progress-value:0;--md-progress-delay:400ms}.md-progress{background:var(--md-primary-bg-color);height:.075rem;opacity:min(clamp(0,var(--md-progress-value),1),clamp(0,100 - var(--md-progress-value),1));position:fixed;top:0;transform:scaleX(calc(var(--md-progress-value)*1%));transform-origin:left;transition:transform .5s cubic-bezier(.19,1,.22,1),opacity .25s var(--md-progress-delay);width:100%;z-index:4}:root{--md-search-result-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M14 2H6a2 2 0 0 0-2 2v16a2 2 0 0 0 2 2h7c-.41-.25-.8-.56-1.14-.9-.33-.33-.61-.7-.86-1.1H6V4h7v5h5v1.18c.71.16 1.39.43 2 .82V8l-6-6m6.31 16.9c1.33-2.11.69-4.9-1.4-6.22-2.11-1.33-4.91-.68-6.22 1.4-1.34 2.11-.69 4.89 1.4 6.22 1.46.93 3.32.93 4.79.02L22 23.39 23.39 22l-3.08-3.1m-3.81.1a2.5 2.5 0 0 1-2.5-2.5 2.5 2.5 0 0 1 2.5-2.5 2.5 2.5 0 0 1 2.5 2.5 2.5 2.5 0 0 1-2.5 2.5Z"/></svg>')}.md-search{position:relative}@media screen and (min-width:60em){.md-search{padding:.2rem 0}}.no-js .md-search{display:none}.md-search__overlay{opacity:0;z-index:1}@media screen and (max-width:59.984375em){[dir=ltr] .md-search__overlay{left:-2.2rem}[dir=rtl] .md-search__overlay{right:-2.2rem}.md-search__overlay{background-color:var(--md-default-bg-color);border-radius:1rem;height:2rem;overflow:hidden;pointer-events:none;position:absolute;top:-1rem;transform-origin:center;transition:transform .3s .1s,opacity .2s .2s;width:2rem}[data-md-toggle=search]:checked~.md-header .md-search__overlay{opacity:1;transition:transform .4s,opacity .1s}}@media screen and (min-width:60em){[dir=ltr] .md-search__overlay{left:0}[dir=rtl] .md-search__overlay{right:0}.md-search__overlay{background-color:#0000008a;cursor:pointer;height:0;position:fixed;top:0;transition:width 0ms .25s,height 0ms .25s,opacity .25s;width:0}[data-md-toggle=search]:checked~.md-header .md-search__overlay{height:200vh;opacity:1;transition:width 0ms,height 0ms,opacity .25s;width:100%}}@media screen and (max-width:29.984375em){[data-md-toggle=search]:checked~.md-header .md-search__overlay{transform:scale(45)}}@media screen and (min-width:30em) and (max-width:44.984375em){[data-md-toggle=search]:checked~.md-header .md-search__overlay{transform:scale(60)}}@media screen and (min-width:45em) and (max-width:59.984375em){[data-md-toggle=search]:checked~.md-header .md-search__overlay{transform:scale(75)}}.md-search__inner{-webkit-backface-visibility:hidden;backface-visibility:hidden}@media screen and (max-width:59.984375em){[dir=ltr] .md-search__inner{left:0}[dir=rtl] .md-search__inner{right:0}.md-search__inner{height:0;opacity:0;overflow:hidden;position:fixed;top:0;transform:translateX(5%);transition:width 0ms .3s,height 0ms .3s,transform .15s cubic-bezier(.4,0,.2,1) .15s,opacity .15s .15s;width:0;z-index:2}[dir=rtl] .md-search__inner{transform:translateX(-5%)}[data-md-toggle=search]:checked~.md-header .md-search__inner{height:100%;opacity:1;transform:translateX(0);transition:width 0ms 0ms,height 0ms 0ms,transform .15s cubic-bezier(.1,.7,.1,1) .15s,opacity .15s .15s;width:100%}}@media screen and (min-width:60em){[dir=ltr] .md-search__inner{float:right}[dir=rtl] .md-search__inner{float:left}.md-search__inner{padding:.1rem 0;position:relative;transition:width .25s cubic-bezier(.1,.7,.1,1);width:11.7rem}}@media screen and (min-width:60em) and (max-width:76.234375em){[data-md-toggle=search]:checked~.md-header .md-search__inner{width:23.4rem}}@media screen and (min-width:76.25em){[data-md-toggle=search]:checked~.md-header .md-search__inner{width:34.4rem}}.md-search__form{background-color:var(--md-default-bg-color);box-shadow:0 0 .6rem #0000;height:2.4rem;position:relative;transition:color .25s,background-color .25s;z-index:2}@media screen and (min-width:60em){.md-search__form{background-color:#00000042;border-radius:.1rem;height:1.8rem}.md-search__form:hover{background-color:#ffffff1f}}[data-md-toggle=search]:checked~.md-header .md-search__form{background-color:var(--md-default-bg-color);border-radius:.1rem .1rem 0 0;box-shadow:0 0 .6rem #00000012;color:var(--md-default-fg-color)}[dir=ltr] .md-search__input{padding-left:3.6rem;padding-right:2.2rem}[dir=rtl] .md-search__input{padding-left:2.2rem;padding-right:3.6rem}.md-search__input{background:#0000;font-size:.9rem;height:100%;position:relative;text-overflow:ellipsis;width:100%;z-index:2}.md-search__input::placeholder{transition:color .25s}.md-search__input::placeholder,.md-search__input~.md-search__icon{color:var(--md-default-fg-color--light)}.md-search__input::-ms-clear{display:none}@media screen and (max-width:59.984375em){.md-search__input{font-size:.9rem;height:2.4rem;width:100%}}@media screen and (min-width:60em){[dir=ltr] .md-search__input{padding-left:2.2rem}[dir=rtl] .md-search__input{padding-right:2.2rem}.md-search__input{color:inherit;font-size:.8rem}.md-search__input::placeholder{color:var(--md-primary-bg-color--light)}.md-search__input+.md-search__icon{color:var(--md-primary-bg-color)}[data-md-toggle=search]:checked~.md-header .md-search__input{text-overflow:clip}[data-md-toggle=search]:checked~.md-header .md-search__input+.md-search__icon{color:var(--md-default-fg-color--light)}[data-md-toggle=search]:checked~.md-header .md-search__input::placeholder{color:#0000}}.md-search__icon{cursor:pointer;display:inline-block;height:1.2rem;transition:color .25s,opacity .25s;width:1.2rem}.md-search__icon:hover{opacity:.7}[dir=ltr] .md-search__icon[for=__search]{left:.5rem}[dir=rtl] .md-search__icon[for=__search]{right:.5rem}.md-search__icon[for=__search]{position:absolute;top:.3rem;z-index:2}[dir=rtl] .md-search__icon[for=__search] svg{transform:scaleX(-1)}@media screen and (max-width:59.984375em){[dir=ltr] .md-search__icon[for=__search]{left:.8rem}[dir=rtl] .md-search__icon[for=__search]{right:.8rem}.md-search__icon[for=__search]{top:.6rem}.md-search__icon[for=__search] svg:first-child{display:none}}@media screen and (min-width:60em){.md-search__icon[for=__search]{pointer-events:none}.md-search__icon[for=__search] svg:last-child{display:none}}[dir=ltr] .md-search__options{right:.5rem}[dir=rtl] .md-search__options{left:.5rem}.md-search__options{pointer-events:none;position:absolute;top:.3rem;z-index:2}@media screen and (max-width:59.984375em){[dir=ltr] .md-search__options{right:.8rem}[dir=rtl] .md-search__options{left:.8rem}.md-search__options{top:.6rem}}[dir=ltr] .md-search__options>.md-icon{margin-left:.2rem}[dir=rtl] .md-search__options>.md-icon{margin-right:.2rem}.md-search__options>.md-icon{color:var(--md-default-fg-color--light);opacity:0;transform:scale(.75);transition:transform .15s cubic-bezier(.1,.7,.1,1),opacity .15s}.md-search__options>.md-icon:not(.focus-visible){-webkit-tap-highlight-color:transparent;outline:none}[data-md-toggle=search]:checked~.md-header .md-search__input:valid~.md-search__options>.md-icon{opacity:1;pointer-events:auto;transform:scale(1)}[data-md-toggle=search]:checked~.md-header .md-search__input:valid~.md-search__options>.md-icon:hover{opacity:.7}[dir=ltr] .md-search__suggest{padding-left:3.6rem;padding-right:2.2rem}[dir=rtl] .md-search__suggest{padding-left:2.2rem;padding-right:3.6rem}.md-search__suggest{align-items:center;color:var(--md-default-fg-color--lighter);display:flex;font-size:.9rem;height:100%;opacity:0;position:absolute;top:0;transition:opacity 50ms;white-space:nowrap;width:100%}@media screen and (min-width:60em){[dir=ltr] .md-search__suggest{padding-left:2.2rem}[dir=rtl] .md-search__suggest{padding-right:2.2rem}.md-search__suggest{font-size:.8rem}}[data-md-toggle=search]:checked~.md-header .md-search__suggest{opacity:1;transition:opacity .3s .1s}[dir=ltr] .md-search__output{border-bottom-left-radius:.1rem}[dir=ltr] .md-search__output,[dir=rtl] .md-search__output{border-bottom-right-radius:.1rem}[dir=rtl] .md-search__output{border-bottom-left-radius:.1rem}.md-search__output{overflow:hidden;position:absolute;width:100%;z-index:1}@media screen and (max-width:59.984375em){.md-search__output{bottom:0;top:2.4rem}}@media screen and (min-width:60em){.md-search__output{opacity:0;top:1.9rem;transition:opacity .4s}[data-md-toggle=search]:checked~.md-header .md-search__output{box-shadow:var(--md-shadow-z3);opacity:1}}.md-search__scrollwrap{-webkit-backface-visibility:hidden;backface-visibility:hidden;background-color:var(--md-default-bg-color);height:100%;overflow-y:auto;touch-action:pan-y}@media (-webkit-max-device-pixel-ratio:1),(max-resolution:1dppx){.md-search__scrollwrap{transform:translateZ(0)}}@media screen and (min-width:60em) and (max-width:76.234375em){.md-search__scrollwrap{width:23.4rem}}@media screen and (min-width:76.25em){.md-search__scrollwrap{width:34.4rem}}@media screen and (min-width:60em){.md-search__scrollwrap{max-height:0;scrollbar-color:var(--md-default-fg-color--lighter) #0000;scrollbar-width:thin}[data-md-toggle=search]:checked~.md-header .md-search__scrollwrap{max-height:75vh}.md-search__scrollwrap:hover{scrollbar-color:var(--md-accent-fg-color) #0000}.md-search__scrollwrap::-webkit-scrollbar{height:.2rem;width:.2rem}.md-search__scrollwrap::-webkit-scrollbar-thumb{background-color:var(--md-default-fg-color--lighter)}.md-search__scrollwrap::-webkit-scrollbar-thumb:hover{background-color:var(--md-accent-fg-color)}}.md-search-result{color:var(--md-default-fg-color);word-break:break-word}.md-search-result__meta{background-color:var(--md-default-fg-color--lightest);color:var(--md-default-fg-color--light);font-size:.64rem;line-height:1.8rem;padding:0 .8rem;scroll-snap-align:start}@media screen and (min-width:60em){[dir=ltr] .md-search-result__meta{padding-left:2.2rem}[dir=rtl] .md-search-result__meta{padding-right:2.2rem}}.md-search-result__list{list-style:none;margin:0;padding:0;-webkit-user-select:none;user-select:none}.md-search-result__item{box-shadow:0 -.05rem var(--md-default-fg-color--lightest)}.md-search-result__item:first-child{box-shadow:none}.md-search-result__link{display:block;outline:none;scroll-snap-align:start;transition:background-color .25s}.md-search-result__link:focus,.md-search-result__link:hover{background-color:var(--md-accent-fg-color--transparent)}.md-search-result__link:last-child p:last-child{margin-bottom:.6rem}.md-search-result__more>summary{cursor:pointer;display:block;outline:none;position:sticky;scroll-snap-align:start;top:0;z-index:1}.md-search-result__more>summary::marker{display:none}.md-search-result__more>summary::-webkit-details-marker{display:none}.md-search-result__more>summary>div{color:var(--md-typeset-a-color);font-size:.64rem;padding:.75em .8rem;transition:color .25s,background-color .25s}@media screen and (min-width:60em){[dir=ltr] .md-search-result__more>summary>div{padding-left:2.2rem}[dir=rtl] .md-search-result__more>summary>div{padding-right:2.2rem}}.md-search-result__more>summary:focus>div,.md-search-result__more>summary:hover>div{background-color:var(--md-accent-fg-color--transparent);color:var(--md-accent-fg-color)}.md-search-result__more[open]>summary{background-color:var(--md-default-bg-color)}.md-search-result__article{overflow:hidden;padding:0 .8rem;position:relative}@media screen and (min-width:60em){[dir=ltr] .md-search-result__article{padding-left:2.2rem}[dir=rtl] .md-search-result__article{padding-right:2.2rem}}[dir=ltr] .md-search-result__icon{left:0}[dir=rtl] .md-search-result__icon{right:0}.md-search-result__icon{color:var(--md-default-fg-color--light);height:1.2rem;margin:.5rem;position:absolute;width:1.2rem}@media screen and (max-width:59.984375em){.md-search-result__icon{display:none}}.md-search-result__icon:after{background-color:currentcolor;content:"";display:inline-block;height:100%;-webkit-mask-image:var(--md-search-result-icon);mask-image:var(--md-search-result-icon);-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;width:100%}[dir=rtl] .md-search-result__icon:after{transform:scaleX(-1)}.md-search-result .md-typeset{color:var(--md-default-fg-color--light);font-size:.64rem;line-height:1.6}.md-search-result .md-typeset h1{color:var(--md-default-fg-color);font-size:.8rem;font-weight:400;line-height:1.4;margin:.55rem 0}.md-search-result .md-typeset h1 mark{text-decoration:none}.md-search-result .md-typeset h2{color:var(--md-default-fg-color);font-size:.64rem;font-weight:700;line-height:1.6;margin:.5em 0}.md-search-result .md-typeset h2 mark{text-decoration:none}.md-search-result__terms{color:var(--md-default-fg-color);display:block;font-size:.64rem;font-style:italic;margin:.5em 0}.md-search-result mark{background-color:initial;color:var(--md-accent-fg-color);text-decoration:underline}.md-select{position:relative;z-index:1}.md-select__inner{background-color:var(--md-default-bg-color);border-radius:.1rem;box-shadow:var(--md-shadow-z2);color:var(--md-default-fg-color);left:50%;margin-top:.2rem;max-height:0;opacity:0;position:absolute;top:calc(100% - .2rem);transform:translate3d(-50%,.3rem,0);transition:transform .25s 375ms,opacity .25s .25s,max-height 0ms .5s}.md-select:focus-within .md-select__inner,.md-select:hover .md-select__inner{max-height:10rem;opacity:1;transform:translate3d(-50%,0,0);transition:transform .25s cubic-bezier(.1,.7,.1,1),opacity .25s,max-height 0ms}.md-select__inner:after{border-bottom:.2rem solid #0000;border-bottom-color:var(--md-default-bg-color);border-left:.2rem solid #0000;border-right:.2rem solid #0000;border-top:0;content:"";height:0;left:50%;margin-left:-.2rem;margin-top:-.2rem;position:absolute;top:0;width:0}.md-select__list{border-radius:.1rem;font-size:.8rem;list-style-type:none;margin:0;max-height:inherit;overflow:auto;padding:0}.md-select__item{line-height:1.8rem}[dir=ltr] .md-select__link{padding-left:.6rem;padding-right:1.2rem}[dir=rtl] .md-select__link{padding-left:1.2rem;padding-right:.6rem}.md-select__link{cursor:pointer;display:block;outline:none;scroll-snap-align:start;transition:background-color .25s,color .25s;width:100%}.md-select__link:focus,.md-select__link:hover{color:var(--md-accent-fg-color)}.md-select__link:focus{background-color:var(--md-default-fg-color--lightest)}.md-sidebar{align-self:flex-start;flex-shrink:0;padding:1.2rem 0;position:sticky;top:2.4rem;width:12.1rem}@media print{.md-sidebar{display:none}}@media screen and (max-width:76.234375em){[dir=ltr] .md-sidebar--primary{left:-12.1rem}[dir=rtl] .md-sidebar--primary{right:-12.1rem}.md-sidebar--primary{background-color:var(--md-default-bg-color);display:block;height:100%;position:fixed;top:0;transform:translateX(0);transition:transform .25s cubic-bezier(.4,0,.2,1),box-shadow .25s;width:12.1rem;z-index:5}[data-md-toggle=drawer]:checked~.md-container .md-sidebar--primary{box-shadow:var(--md-shadow-z3);transform:translateX(12.1rem)}[dir=rtl] [data-md-toggle=drawer]:checked~.md-container .md-sidebar--primary{transform:translateX(-12.1rem)}.md-sidebar--primary .md-sidebar__scrollwrap{bottom:0;left:0;margin:0;overflow:hidden;position:absolute;right:0;scroll-snap-type:none;top:0}}@media screen and (min-width:76.25em){.md-sidebar{height:0}.no-js .md-sidebar{height:auto}.md-header--lifted~.md-container .md-sidebar{top:4.8rem}}.md-sidebar--secondary{display:none;order:2}@media screen and (min-width:60em){.md-sidebar--secondary{height:0}.no-js .md-sidebar--secondary{height:auto}.md-sidebar--secondary:not([hidden]){display:block}.md-sidebar--secondary .md-sidebar__scrollwrap{touch-action:pan-y}}.md-sidebar__scrollwrap{scrollbar-gutter:stable;-webkit-backface-visibility:hidden;backface-visibility:hidden;margin:0 .2rem;overflow-y:auto;scrollbar-color:var(--md-default-fg-color--lighter) #0000;scrollbar-width:thin}.md-sidebar__scrollwrap::-webkit-scrollbar{height:.2rem;width:.2rem}.md-sidebar__scrollwrap:focus-within,.md-sidebar__scrollwrap:hover{scrollbar-color:var(--md-accent-fg-color) #0000}.md-sidebar__scrollwrap:focus-within::-webkit-scrollbar-thumb,.md-sidebar__scrollwrap:hover::-webkit-scrollbar-thumb{background-color:var(--md-default-fg-color--lighter)}.md-sidebar__scrollwrap:focus-within::-webkit-scrollbar-thumb:hover,.md-sidebar__scrollwrap:hover::-webkit-scrollbar-thumb:hover{background-color:var(--md-accent-fg-color)}@supports selector(::-webkit-scrollbar){.md-sidebar__scrollwrap{scrollbar-gutter:auto}[dir=ltr] .md-sidebar__inner{padding-right:calc(100% - 11.5rem)}[dir=rtl] .md-sidebar__inner{padding-left:calc(100% - 11.5rem)}}@media screen and (max-width:76.234375em){.md-overlay{background-color:#0000008a;height:0;opacity:0;position:fixed;top:0;transition:width 0ms .25s,height 0ms .25s,opacity .25s;width:0;z-index:5}[data-md-toggle=drawer]:checked~.md-overlay{height:100%;opacity:1;transition:width 0ms,height 0ms,opacity .25s;width:100%}}@keyframes facts{0%{height:0}to{height:.65rem}}@keyframes fact{0%{opacity:0;transform:translateY(100%)}50%{opacity:0}to{opacity:1;transform:translateY(0)}}:root{--md-source-forks-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 16 16"><path d="M5 5.372v.878c0 .414.336.75.75.75h4.5a.75.75 0 0 0 .75-.75v-.878a2.25 2.25 0 1 1 1.5 0v.878a2.25 2.25 0 0 1-2.25 2.25h-1.5v2.128a2.251 2.251 0 1 1-1.5 0V8.5h-1.5A2.25 2.25 0 0 1 3.5 6.25v-.878a2.25 2.25 0 1 1 1.5 0ZM5 3.25a.75.75 0 1 0-1.5 0 .75.75 0 0 0 1.5 0Zm6.75.75a.75.75 0 1 0 0-1.5.75.75 0 0 0 0 1.5Zm-3 8.75a.75.75 0 1 0-1.5 0 .75.75 0 0 0 1.5 0Z"/></svg>');--md-source-repositories-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 16 16"><path d="M2 2.5A2.5 2.5 0 0 1 4.5 0h8.75a.75.75 0 0 1 .75.75v12.5a.75.75 0 0 1-.75.75h-2.5a.75.75 0 0 1 0-1.5h1.75v-2h-8a1 1 0 0 0-.714 1.7.75.75 0 1 1-1.072 1.05A2.495 2.495 0 0 1 2 11.5Zm10.5-1h-8a1 1 0 0 0-1 1v6.708A2.486 2.486 0 0 1 4.5 9h8ZM5 12.25a.25.25 0 0 1 .25-.25h3.5a.25.25 0 0 1 .25.25v3.25a.25.25 0 0 1-.4.2l-1.45-1.087a.249.249 0 0 0-.3 0L5.4 15.7a.25.25 0 0 1-.4-.2Z"/></svg>');--md-source-stars-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 16 16"><path d="M8 .25a.75.75 0 0 1 .673.418l1.882 3.815 4.21.612a.75.75 0 0 1 .416 1.279l-3.046 2.97.719 4.192a.751.751 0 0 1-1.088.791L8 12.347l-3.766 1.98a.75.75 0 0 1-1.088-.79l.72-4.194L.818 6.374a.75.75 0 0 1 .416-1.28l4.21-.611L7.327.668A.75.75 0 0 1 8 .25Zm0 2.445L6.615 5.5a.75.75 0 0 1-.564.41l-3.097.45 2.24 2.184a.75.75 0 0 1 .216.664l-.528 3.084 2.769-1.456a.75.75 0 0 1 .698 0l2.77 1.456-.53-3.084a.75.75 0 0 1 .216-.664l2.24-2.183-3.096-.45a.75.75 0 0 1-.564-.41L8 2.694Z"/></svg>');--md-source-version-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 16 16"><path d="M1 7.775V2.75C1 1.784 1.784 1 2.75 1h5.025c.464 0 .91.184 1.238.513l6.25 6.25a1.75 1.75 0 0 1 0 2.474l-5.026 5.026a1.75 1.75 0 0 1-2.474 0l-6.25-6.25A1.752 1.752 0 0 1 1 7.775Zm1.5 0c0 .066.026.13.073.177l6.25 6.25a.25.25 0 0 0 .354 0l5.025-5.025a.25.25 0 0 0 0-.354l-6.25-6.25a.25.25 0 0 0-.177-.073H2.75a.25.25 0 0 0-.25.25ZM6 5a1 1 0 1 1 0 2 1 1 0 0 1 0-2Z"/></svg>')}.md-source{-webkit-backface-visibility:hidden;backface-visibility:hidden;display:block;font-size:.65rem;line-height:1.2;outline-color:var(--md-accent-fg-color);transition:opacity .25s;white-space:nowrap}.md-source:hover{opacity:.7}.md-source__icon{display:inline-block;height:2.4rem;vertical-align:middle;width:2rem}[dir=ltr] .md-source__icon svg{margin-left:.6rem}[dir=rtl] .md-source__icon svg{margin-right:.6rem}.md-source__icon svg{margin-top:.6rem}[dir=ltr] .md-source__icon+.md-source__repository{padding-left:2rem}[dir=rtl] .md-source__icon+.md-source__repository{padding-right:2rem}[dir=ltr] .md-source__icon+.md-source__repository{margin-left:-2rem}[dir=rtl] .md-source__icon+.md-source__repository{margin-right:-2rem}[dir=ltr] .md-source__repository{margin-left:.6rem}[dir=rtl] .md-source__repository{margin-right:.6rem}.md-source__repository{display:inline-block;max-width:calc(100% - 1.2rem);overflow:hidden;text-overflow:ellipsis;vertical-align:middle}.md-source__facts{display:flex;font-size:.55rem;gap:.4rem;list-style-type:none;margin:.1rem 0 0;opacity:.75;overflow:hidden;padding:0;width:100%}.md-source__repository--active .md-source__facts{animation:facts .25s ease-in}.md-source__fact{overflow:hidden;text-overflow:ellipsis}.md-source__repository--active .md-source__fact{animation:fact .4s ease-out}[dir=ltr] .md-source__fact:before{margin-right:.1rem}[dir=rtl] .md-source__fact:before{margin-left:.1rem}.md-source__fact:before{background-color:currentcolor;content:"";display:inline-block;height:.6rem;-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;vertical-align:text-top;width:.6rem}.md-source__fact:nth-child(1n+2){flex-shrink:0}.md-source__fact--version:before{-webkit-mask-image:var(--md-source-version-icon);mask-image:var(--md-source-version-icon)}.md-source__fact--stars:before{-webkit-mask-image:var(--md-source-stars-icon);mask-image:var(--md-source-stars-icon)}.md-source__fact--forks:before{-webkit-mask-image:var(--md-source-forks-icon);mask-image:var(--md-source-forks-icon)}.md-source__fact--repositories:before{-webkit-mask-image:var(--md-source-repositories-icon);mask-image:var(--md-source-repositories-icon)}.md-source-file{margin:1em 0}[dir=ltr] .md-source-file__fact{margin-right:.6rem}[dir=rtl] .md-source-file__fact{margin-left:.6rem}.md-source-file__fact{align-items:center;color:var(--md-default-fg-color--light);display:inline-flex;font-size:.68rem;gap:.3rem}.md-source-file__fact .md-icon{flex-shrink:0;margin-bottom:.05rem}[dir=ltr] .md-source-file__fact .md-author{float:left}[dir=rtl] .md-source-file__fact .md-author{float:right}.md-source-file__fact .md-author{margin-right:.2rem}.md-source-file__fact svg{width:.9rem}:root{--md-status:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M11 9h2V7h-2m1 13c-4.41 0-8-3.59-8-8s3.59-8 8-8 8 3.59 8 8-3.59 8-8 8m0-18A10 10 0 0 0 2 12a10 10 0 0 0 10 10 10 10 0 0 0 10-10A10 10 0 0 0 12 2m-1 15h2v-6h-2v6Z"/></svg>');--md-status--new:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="m23 12-2.44-2.78.34-3.68-3.61-.82-1.89-3.18L12 3 8.6 1.54 6.71 4.72l-3.61.81.34 3.68L1 12l2.44 2.78-.34 3.69 3.61.82 1.89 3.18L12 21l3.4 1.46 1.89-3.18 3.61-.82-.34-3.68L23 12m-10 5h-2v-2h2v2m0-4h-2V7h2v6Z"/></svg>');--md-status--deprecated:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9 3v1H4v2h1v13a2 2 0 0 0 2 2h10a2 2 0 0 0 2-2V6h1V4h-5V3H9m0 5h2v9H9V8m4 0h2v9h-2V8Z"/></svg>');--md-status--encrypted:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 1 3 5v6c0 5.55 3.84 10.74 9 12 5.16-1.26 9-6.45 9-12V5l-9-4m0 6c1.4 0 2.8 1.1 2.8 2.5V11c.6 0 1.2.6 1.2 1.3v3.5c0 .6-.6 1.2-1.3 1.2H9.2c-.6 0-1.2-.6-1.2-1.3v-3.5c0-.6.6-1.2 1.2-1.2V9.5C9.2 8.1 10.6 7 12 7m0 1.2c-.8 0-1.5.5-1.5 1.3V11h3V9.5c0-.8-.7-1.3-1.5-1.3Z"/></svg>')}.md-status:after{background-color:var(--md-default-fg-color--light);content:"";display:inline-block;height:1.125em;-webkit-mask-image:var(--md-status);mask-image:var(--md-status);-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;vertical-align:text-bottom;width:1.125em}.md-status:hover:after{background-color:currentcolor}.md-status--new:after{-webkit-mask-image:var(--md-status--new);mask-image:var(--md-status--new)}.md-status--deprecated:after{-webkit-mask-image:var(--md-status--deprecated);mask-image:var(--md-status--deprecated)}.md-status--encrypted:after{-webkit-mask-image:var(--md-status--encrypted);mask-image:var(--md-status--encrypted)}.md-tabs{background-color:var(--md-primary-fg-color);color:var(--md-primary-bg-color);display:block;line-height:1.3;overflow:auto;width:100%;z-index:3}@media print{.md-tabs{display:none}}@media screen and (max-width:76.234375em){.md-tabs{display:none}}.md-tabs[hidden]{pointer-events:none}[dir=ltr] .md-tabs__list{margin-left:.2rem}[dir=rtl] .md-tabs__list{margin-right:.2rem}.md-tabs__list{contain:content;display:flex;list-style:none;margin:0;overflow:auto;padding:0;scrollbar-width:none;white-space:nowrap}.md-tabs__list::-webkit-scrollbar{display:none}.md-tabs__item{height:2.4rem;padding-left:.6rem;padding-right:.6rem}.md-tabs__item--active .md-tabs__link{color:inherit;opacity:1}.md-tabs__link{-webkit-backface-visibility:hidden;backface-visibility:hidden;display:flex;font-size:.7rem;margin-top:.8rem;opacity:.7;outline-color:var(--md-accent-fg-color);outline-offset:.2rem;transition:transform .4s cubic-bezier(.1,.7,.1,1),opacity .25s}.md-tabs__link:focus,.md-tabs__link:hover{color:inherit;opacity:1}[dir=ltr] .md-tabs__link svg{margin-right:.4rem}[dir=rtl] .md-tabs__link svg{margin-left:.4rem}.md-tabs__link svg{fill:currentcolor;height:1.3em}.md-tabs__item:nth-child(2) .md-tabs__link{transition-delay:20ms}.md-tabs__item:nth-child(3) .md-tabs__link{transition-delay:40ms}.md-tabs__item:nth-child(4) .md-tabs__link{transition-delay:60ms}.md-tabs__item:nth-child(5) .md-tabs__link{transition-delay:80ms}.md-tabs__item:nth-child(6) .md-tabs__link{transition-delay:.1s}.md-tabs__item:nth-child(7) .md-tabs__link{transition-delay:.12s}.md-tabs__item:nth-child(8) .md-tabs__link{transition-delay:.14s}.md-tabs__item:nth-child(9) .md-tabs__link{transition-delay:.16s}.md-tabs__item:nth-child(10) .md-tabs__link{transition-delay:.18s}.md-tabs__item:nth-child(11) .md-tabs__link{transition-delay:.2s}.md-tabs__item:nth-child(12) .md-tabs__link{transition-delay:.22s}.md-tabs__item:nth-child(13) .md-tabs__link{transition-delay:.24s}.md-tabs__item:nth-child(14) .md-tabs__link{transition-delay:.26s}.md-tabs__item:nth-child(15) .md-tabs__link{transition-delay:.28s}.md-tabs__item:nth-child(16) .md-tabs__link{transition-delay:.3s}.md-tabs[hidden] .md-tabs__link{opacity:0;transform:translateY(50%);transition:transform 0ms .1s,opacity .1s}:root{--md-tag-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="m5.41 21 .71-4h-4l.35-2h4l1.06-6h-4l.35-2h4l.71-4h2l-.71 4h6l.71-4h2l-.71 4h4l-.35 2h-4l-1.06 6h4l-.35 2h-4l-.71 4h-2l.71-4h-6l-.71 4h-2M9.53 9l-1.06 6h6l1.06-6h-6Z"/></svg>')}.md-typeset .md-tags:not([hidden]){display:inline-flex;flex-wrap:wrap;gap:.5em;margin-bottom:.75em;margin-top:-.125em}.md-typeset .md-tag{align-items:center;background:var(--md-default-fg-color--lightest);border-radius:2.4rem;display:inline-flex;font-size:.64rem;font-size:min(.8em,.64rem);font-weight:700;gap:.5em;letter-spacing:normal;line-height:1.6;padding:.3125em .78125em}.md-typeset .md-tag[href]{-webkit-tap-highlight-color:transparent;color:inherit;outline:none;transition:color 125ms,background-color 125ms}.md-typeset .md-tag[href]:focus,.md-typeset .md-tag[href]:hover{background-color:var(--md-accent-fg-color);color:var(--md-accent-bg-color)}[id]>.md-typeset .md-tag{vertical-align:text-top}.md-typeset .md-tag-icon:before{background-color:var(--md-default-fg-color--lighter);content:"";display:inline-block;height:1.2em;-webkit-mask-image:var(--md-tag-icon);mask-image:var(--md-tag-icon);-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;transition:background-color 125ms;vertical-align:text-bottom;width:1.2em}.md-typeset .md-tag-icon[href]:focus:before,.md-typeset .md-tag-icon[href]:hover:before{background-color:var(--md-accent-bg-color)}@keyframes pulse{0%{transform:scale(.95)}75%{transform:scale(1)}to{transform:scale(.95)}}:root{--md-annotation-bg-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 2A10 10 0 0 0 2 12a10 10 0 0 0 10 10 10 10 0 0 0 10-10A10 10 0 0 0 12 2Z"/></svg>');--md-annotation-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M17 13h-4v4h-2v-4H7v-2h4V7h2v4h4m-5-9A10 10 0 0 0 2 12a10 10 0 0 0 10 10 10 10 0 0 0 10-10A10 10 0 0 0 12 2Z"/></svg>')}.md-tooltip{-webkit-backface-visibility:hidden;backface-visibility:hidden;background-color:var(--md-default-bg-color);border-radius:.1rem;box-shadow:var(--md-shadow-z2);color:var(--md-default-fg-color);font-family:var(--md-text-font-family);left:clamp(var(--md-tooltip-0,0rem) + .8rem,var(--md-tooltip-x),100vw + var(--md-tooltip-0,0rem) + .8rem - var(--md-tooltip-width) - 2 * .8rem);max-width:calc(100vw - 1.6rem);opacity:0;position:absolute;top:var(--md-tooltip-y);transform:translateY(-.4rem);transition:transform 0ms .25s,opacity .25s,z-index .25s;width:var(--md-tooltip-width);z-index:0}.md-tooltip--active{opacity:1;transform:translateY(0);transition:transform .25s cubic-bezier(.1,.7,.1,1),opacity .25s,z-index 0ms;z-index:2}.md-tooltip--inline{font-weight:700;-webkit-user-select:none;user-select:none;width:auto}.md-tooltip--inline:not(.md-tooltip--active){transform:translateY(.2rem) scale(.9)}.md-tooltip--inline .md-tooltip__inner{font-size:.5rem;padding:.2rem .4rem}[hidden]+.md-tooltip--inline{display:none}.focus-visible>.md-tooltip,.md-tooltip:target{outline:var(--md-accent-fg-color) auto}.md-tooltip__inner{font-size:.64rem;padding:.8rem}.md-tooltip__inner.md-typeset>:first-child{margin-top:0}.md-tooltip__inner.md-typeset>:last-child{margin-bottom:0}.md-annotation{font-weight:400;outline:none;vertical-align:text-bottom;white-space:normal}[dir=rtl] .md-annotation{direction:rtl}code .md-annotation{font-family:var(--md-code-font-family);font-size:inherit}.md-annotation:not([hidden]){display:inline-block;line-height:1.25}.md-annotation__index{border-radius:.01px;cursor:pointer;display:inline-block;margin-left:.4ch;margin-right:.4ch;outline:none;overflow:hidden;position:relative;-webkit-user-select:none;user-select:none;vertical-align:text-top;z-index:0}.md-annotation .md-annotation__index{transition:z-index .25s}@media screen{.md-annotation__index{width:2.2ch}[data-md-visible]>.md-annotation__index{animation:pulse 2s infinite}.md-annotation__index:before{background:var(--md-default-bg-color);-webkit-mask-image:var(--md-annotation-bg-icon);mask-image:var(--md-annotation-bg-icon)}.md-annotation__index:after,.md-annotation__index:before{content:"";height:2.2ch;-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;position:absolute;top:-.1ch;width:2.2ch;z-index:-1}.md-annotation__index:after{background-color:var(--md-default-fg-color--lighter);-webkit-mask-image:var(--md-annotation-icon);mask-image:var(--md-annotation-icon);transform:scale(1.0001);transition:background-color .25s,transform .25s}.md-tooltip--active+.md-annotation__index:after{transform:rotate(45deg)}.md-tooltip--active+.md-annotation__index:after,:hover>.md-annotation__index:after{background-color:var(--md-accent-fg-color)}}.md-tooltip--active+.md-annotation__index{animation-play-state:paused;transition-duration:0ms;z-index:2}.md-annotation__index [data-md-annotation-id]{display:inline-block}@media print{.md-annotation__index [data-md-annotation-id]{background:var(--md-default-fg-color--lighter);border-radius:2ch;color:var(--md-default-bg-color);font-weight:700;padding:0 .6ch;white-space:nowrap}.md-annotation__index [data-md-annotation-id]:after{content:attr(data-md-annotation-id)}}.md-typeset .md-annotation-list{counter-reset:xxx;list-style:none}.md-typeset .md-annotation-list li{position:relative}[dir=ltr] .md-typeset .md-annotation-list li:before{left:-2.125em}[dir=rtl] .md-typeset .md-annotation-list li:before{right:-2.125em}.md-typeset .md-annotation-list li:before{background:var(--md-default-fg-color--lighter);border-radius:2ch;color:var(--md-default-bg-color);content:counter(xxx);counter-increment:xxx;font-size:.8875em;font-weight:700;height:2ch;line-height:1.25;min-width:2ch;padding:0 .6ch;position:absolute;text-align:center;top:.25em}:root{--md-tooltip-width:20rem;--md-tooltip-tail:0.3rem}.md-tooltip2{-webkit-backface-visibility:hidden;backface-visibility:hidden;color:var(--md-default-fg-color);font-family:var(--md-text-font-family);opacity:0;pointer-events:none;position:absolute;top:calc(var(--md-tooltip-host-y) + var(--md-tooltip-y));transform:translateY(-.4rem);transform-origin:calc(var(--md-tooltip-host-x) + var(--md-tooltip-x)) 0;transition:transform 0ms .25s,opacity .25s,z-index .25s;width:100%;z-index:0}.md-tooltip2:before{border-left:var(--md-tooltip-tail) solid #0000;border-right:var(--md-tooltip-tail) solid #0000;content:"";display:block;left:clamp(1.5 * .8rem,var(--md-tooltip-host-x) + var(--md-tooltip-x) - var(--md-tooltip-tail),100vw - 2 * var(--md-tooltip-tail) - 1.5 * .8rem);position:absolute;z-index:1}.md-tooltip2--top:before{border-top:var(--md-tooltip-tail) solid var(--md-default-bg-color);bottom:calc(var(--md-tooltip-tail)*-1 + .025rem);filter:drop-shadow(0 1px 0 hsla(0,0%,0%,.05))}.md-tooltip2--bottom:before{border-bottom:var(--md-tooltip-tail) solid var(--md-default-bg-color);filter:drop-shadow(0 -1px 0 hsla(0,0%,0%,.05));top:calc(var(--md-tooltip-tail)*-1 + .025rem)}.md-tooltip2--active{opacity:1;transform:translateY(0);transition:transform .4s cubic-bezier(0,1,.5,1),opacity .25s,z-index 0ms;z-index:2}.md-tooltip2__inner{scrollbar-gutter:stable;background-color:var(--md-default-bg-color);border-radius:.1rem;box-shadow:var(--md-shadow-z2);left:clamp(.8rem,var(--md-tooltip-host-x) - .8rem,100vw - var(--md-tooltip-width) - .8rem);max-height:40vh;max-width:calc(100vw - 1.6rem);position:relative;scrollbar-width:thin}.md-tooltip2__inner::-webkit-scrollbar{height:.2rem;width:.2rem}.md-tooltip2__inner::-webkit-scrollbar-thumb{background-color:var(--md-default-fg-color--lighter)}.md-tooltip2__inner::-webkit-scrollbar-thumb:hover{background-color:var(--md-accent-fg-color)}[role=tooltip]>.md-tooltip2__inner{font-size:.5rem;font-weight:700;left:clamp(.8rem,var(--md-tooltip-host-x) + var(--md-tooltip-x) - var(--md-tooltip-width)/2,100vw - var(--md-tooltip-width) - .8rem);max-width:min(100vw - 2 * .8rem,400px);padding:.2rem .4rem;-webkit-user-select:none;user-select:none;width:-moz-fit-content;width:fit-content}.md-tooltip2__inner.md-typeset>:first-child{margin-top:0}.md-tooltip2__inner.md-typeset>:last-child{margin-bottom:0}[dir=ltr] .md-top{margin-left:50%}[dir=rtl] .md-top{margin-right:50%}.md-top{background-color:var(--md-default-bg-color);border-radius:1.6rem;box-shadow:var(--md-shadow-z2);color:var(--md-default-fg-color--light);cursor:pointer;display:block;font-size:.7rem;outline:none;padding:.4rem .8rem;position:fixed;top:3.2rem;transform:translate(-50%);transition:color 125ms,background-color 125ms,transform 125ms cubic-bezier(.4,0,.2,1),opacity 125ms;z-index:2}@media print{.md-top{display:none}}[dir=rtl] .md-top{transform:translate(50%)}.md-top[hidden]{opacity:0;pointer-events:none;transform:translate(-50%,.2rem);transition-duration:0ms}[dir=rtl] .md-top[hidden]{transform:translate(50%,.2rem)}.md-top:focus,.md-top:hover{background-color:var(--md-accent-fg-color);color:var(--md-accent-bg-color)}.md-top svg{display:inline-block;vertical-align:-.5em}@keyframes hoverfix{0%{pointer-events:none}}:root{--md-version-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 320 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M137.4 374.6c12.5 12.5 32.8 12.5 45.3 0l128-128c9.2-9.2 11.9-22.9 6.9-34.9S301 191.9 288 191.9L32 192c-12.9 0-24.6 7.8-29.6 19.8s-2.2 25.7 6.9 34.9l128 128z"/></svg>')}.md-version{flex-shrink:0;font-size:.8rem;height:2.4rem}[dir=ltr] .md-version__current{margin-left:1.4rem;margin-right:.4rem}[dir=rtl] .md-version__current{margin-left:.4rem;margin-right:1.4rem}.md-version__current{color:inherit;cursor:pointer;outline:none;position:relative;top:.05rem}[dir=ltr] .md-version__current:after{margin-left:.4rem}[dir=rtl] .md-version__current:after{margin-right:.4rem}.md-version__current:after{background-color:currentcolor;content:"";display:inline-block;height:.6rem;-webkit-mask-image:var(--md-version-icon);mask-image:var(--md-version-icon);-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;width:.4rem}.md-version__alias{margin-left:.3rem;opacity:.7}.md-version__list{background-color:var(--md-default-bg-color);border-radius:.1rem;box-shadow:var(--md-shadow-z2);color:var(--md-default-fg-color);list-style-type:none;margin:.2rem .8rem;max-height:0;opacity:0;overflow:auto;padding:0;position:absolute;scroll-snap-type:y mandatory;top:.15rem;transition:max-height 0ms .5s,opacity .25s .25s;z-index:3}.md-version:focus-within .md-version__list,.md-version:hover .md-version__list{max-height:10rem;opacity:1;transition:max-height 0ms,opacity .25s}@media (hover:none),(pointer:coarse){.md-version:hover .md-version__list{animation:hoverfix .25s forwards}.md-version:focus-within .md-version__list{animation:none}}.md-version__item{line-height:1.8rem}[dir=ltr] .md-version__link{padding-left:.6rem;padding-right:1.2rem}[dir=rtl] .md-version__link{padding-left:1.2rem;padding-right:.6rem}.md-version__link{cursor:pointer;display:block;outline:none;scroll-snap-align:start;transition:color .25s,background-color .25s;white-space:nowrap;width:100%}.md-version__link:focus,.md-version__link:hover{color:var(--md-accent-fg-color)}.md-version__link:focus{background-color:var(--md-default-fg-color--lightest)}:root{--md-admonition-icon--note:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 2C6.47 2 2 6.47 2 12s4.47 10 10 10 10-4.47 10-10S17.53 2 12 2m3.1 5.07c.14 0 .28.05.4.16l1.27 1.27c.23.22.23.57 0 .78l-1 1-2.05-2.05 1-1c.1-.11.24-.16.38-.16m-1.97 1.74 2.06 2.06-6.06 6.06H7.07v-2.06l6.06-6.06Z"/></svg>');--md-admonition-icon--abstract:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M17 9H7V7h10m0 6H7v-2h10m-3 6H7v-2h7M12 3a1 1 0 0 1 1 1 1 1 0 0 1-1 1 1 1 0 0 1-1-1 1 1 0 0 1 1-1m7 0h-4.18C14.4 1.84 13.3 1 12 1c-1.3 0-2.4.84-2.82 2H5a2 2 0 0 0-2 2v14a2 2 0 0 0 2 2h14a2 2 0 0 0 2-2V5a2 2 0 0 0-2-2Z"/></svg>');--md-admonition-icon--info:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M13 9h-2V7h2m0 10h-2v-6h2m-1-9A10 10 0 0 0 2 12a10 10 0 0 0 10 10 10 10 0 0 0 10-10A10 10 0 0 0 12 2Z"/></svg>');--md-admonition-icon--tip:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M17.66 11.2c-.23-.3-.51-.56-.77-.82-.67-.6-1.43-1.03-2.07-1.66C13.33 7.26 13 4.85 13.95 3c-.95.23-1.78.75-2.49 1.32-2.59 2.08-3.61 5.75-2.39 8.9.04.1.08.2.08.33 0 .22-.15.42-.35.5-.23.1-.47.04-.66-.12a.58.58 0 0 1-.14-.17c-1.13-1.43-1.31-3.48-.55-5.12C5.78 10 4.87 12.3 5 14.47c.06.5.12 1 .29 1.5.14.6.41 1.2.71 1.73 1.08 1.73 2.95 2.97 4.96 3.22 2.14.27 4.43-.12 6.07-1.6 1.83-1.66 2.47-4.32 1.53-6.6l-.13-.26c-.21-.46-.77-1.26-.77-1.26m-3.16 6.3c-.28.24-.74.5-1.1.6-1.12.4-2.24-.16-2.9-.82 1.19-.28 1.9-1.16 2.11-2.05.17-.8-.15-1.46-.28-2.23-.12-.74-.1-1.37.17-2.06.19.38.39.76.63 1.06.77 1 1.98 1.44 2.24 2.8.04.14.06.28.06.43.03.82-.33 1.72-.93 2.27Z"/></svg>');--md-admonition-icon--success:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M21 7 9 19l-5.5-5.5 1.41-1.41L9 16.17 19.59 5.59 21 7Z"/></svg>');--md-admonition-icon--question:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="m15.07 11.25-.9.92C13.45 12.89 13 13.5 13 15h-2v-.5c0-1.11.45-2.11 1.17-2.83l1.24-1.26c.37-.36.59-.86.59-1.41a2 2 0 0 0-2-2 2 2 0 0 0-2 2H8a4 4 0 0 1 4-4 4 4 0 0 1 4 4 3.2 3.2 0 0 1-.93 2.25M13 19h-2v-2h2M12 2A10 10 0 0 0 2 12a10 10 0 0 0 10 10 10 10 0 0 0 10-10c0-5.53-4.5-10-10-10Z"/></svg>');--md-admonition-icon--warning:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M13 14h-2V9h2m0 9h-2v-2h2M1 21h22L12 2 1 21Z"/></svg>');--md-admonition-icon--failure:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>');--md-admonition-icon--danger:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="m11.5 20 4.86-9.73H13V4l-5 9.73h3.5V20M12 2c2.75 0 5.1 1 7.05 2.95C21 6.9 22 9.25 22 12s-1 5.1-2.95 7.05C17.1 21 14.75 22 12 22s-5.1-1-7.05-2.95C3 17.1 2 14.75 2 12s1-5.1 2.95-7.05C6.9 3 9.25 2 12 2Z"/></svg>');--md-admonition-icon--bug:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M11 13h2v1h-2v-1m10-8v6c0 5.5-3.8 10.7-9 12-5.2-1.3-9-6.5-9-12V5l9-4 9 4m-4 5h-2.2c-.2-.6-.6-1.1-1.1-1.5l1.2-1.2-.7-.7L12.8 8H12c-.2 0-.5 0-.7.1L9.9 6.6l-.8.8 1.2 1.2c-.5.3-.9.8-1.1 1.4H7v1h2v1H7v1h2v1H7v1h2.2c.4 1.2 1.5 2 2.8 2s2.4-.8 2.8-2H17v-1h-2v-1h2v-1h-2v-1h2v-1m-6 2h2v-1h-2v1Z"/></svg>');--md-admonition-icon--example:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M7 2v2h1v14a4 4 0 0 0 4 4 4 4 0 0 0 4-4V4h1V2H7m4 14c-.6 0-1-.4-1-1s.4-1 1-1 1 .4 1 1-.4 1-1 1m2-4c-.6 0-1-.4-1-1s.4-1 1-1 1 .4 1 1-.4 1-1 1m1-5h-4V4h4v3Z"/></svg>');--md-admonition-icon--quote:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M14 17h3l2-4V7h-6v6h3M6 17h3l2-4V7H5v6h3l-2 4Z"/></svg>')}.md-typeset .admonition,.md-typeset details{background-color:var(--md-admonition-bg-color);border:.075rem solid #448aff;border-radius:.2rem;box-shadow:var(--md-shadow-z1);color:var(--md-admonition-fg-color);display:flow-root;font-size:.64rem;margin:1.5625em 0;padding:0 .6rem;page-break-inside:avoid;transition:box-shadow 125ms}@media print{.md-typeset .admonition,.md-typeset details{box-shadow:none}}.md-typeset .admonition:focus-within,.md-typeset details:focus-within{box-shadow:0 0 0 .2rem #448aff1a}.md-typeset .admonition>*,.md-typeset details>*{box-sizing:border-box}.md-typeset .admonition .admonition,.md-typeset .admonition details,.md-typeset details .admonition,.md-typeset details details{margin-bottom:1em;margin-top:1em}.md-typeset .admonition .md-typeset__scrollwrap,.md-typeset details .md-typeset__scrollwrap{margin:1em -.6rem}.md-typeset .admonition .md-typeset__table,.md-typeset details .md-typeset__table{padding:0 .6rem}.md-typeset .admonition>.tabbed-set:only-child,.md-typeset details>.tabbed-set:only-child{margin-top:0}html .md-typeset .admonition>:last-child,html .md-typeset details>:last-child{margin-bottom:.6rem}[dir=ltr] .md-typeset .admonition-title,[dir=ltr] .md-typeset summary{padding-left:2rem;padding-right:.6rem}[dir=rtl] .md-typeset .admonition-title,[dir=rtl] .md-typeset summary{padding-left:.6rem;padding-right:2rem}[dir=ltr] .md-typeset .admonition-title,[dir=ltr] .md-typeset summary{border-left-width:.2rem}[dir=rtl] .md-typeset .admonition-title,[dir=rtl] .md-typeset summary{border-right-width:.2rem}[dir=ltr] .md-typeset .admonition-title,[dir=ltr] .md-typeset summary{border-top-left-radius:.1rem}[dir=ltr] .md-typeset .admonition-title,[dir=ltr] .md-typeset summary,[dir=rtl] .md-typeset .admonition-title,[dir=rtl] .md-typeset summary{border-top-right-radius:.1rem}[dir=rtl] .md-typeset .admonition-title,[dir=rtl] .md-typeset summary{border-top-left-radius:.1rem}.md-typeset .admonition-title,.md-typeset summary{background-color:#448aff1a;border:none;font-weight:700;margin:0 -.6rem;padding-bottom:.4rem;padding-top:.4rem;position:relative}html .md-typeset .admonition-title:last-child,html .md-typeset summary:last-child{margin-bottom:0}[dir=ltr] .md-typeset .admonition-title:before,[dir=ltr] .md-typeset summary:before{left:.6rem}[dir=rtl] .md-typeset .admonition-title:before,[dir=rtl] .md-typeset summary:before{right:.6rem}.md-typeset .admonition-title:before,.md-typeset summary:before{background-color:#448aff;content:"";height:1rem;-webkit-mask-image:var(--md-admonition-icon--note);mask-image:var(--md-admonition-icon--note);-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;position:absolute;top:.625em;width:1rem}.md-typeset .admonition-title code,.md-typeset summary code{box-shadow:0 0 0 .05rem var(--md-default-fg-color--lightest)}.md-typeset .admonition.note,.md-typeset details.note{border-color:#448aff}.md-typeset .admonition.note:focus-within,.md-typeset details.note:focus-within{box-shadow:0 0 0 .2rem #448aff1a}.md-typeset .note>.admonition-title,.md-typeset .note>summary{background-color:#448aff1a}.md-typeset .note>.admonition-title:before,.md-typeset .note>summary:before{background-color:#448aff;-webkit-mask-image:var(--md-admonition-icon--note);mask-image:var(--md-admonition-icon--note)}.md-typeset .note>.admonition-title:after,.md-typeset .note>summary:after{color:#448aff}.md-typeset .admonition.abstract,.md-typeset details.abstract{border-color:#00b0ff}.md-typeset .admonition.abstract:focus-within,.md-typeset details.abstract:focus-within{box-shadow:0 0 0 .2rem #00b0ff1a}.md-typeset .abstract>.admonition-title,.md-typeset .abstract>summary{background-color:#00b0ff1a}.md-typeset .abstract>.admonition-title:before,.md-typeset .abstract>summary:before{background-color:#00b0ff;-webkit-mask-image:var(--md-admonition-icon--abstract);mask-image:var(--md-admonition-icon--abstract)}.md-typeset .abstract>.admonition-title:after,.md-typeset .abstract>summary:after{color:#00b0ff}.md-typeset .admonition.info,.md-typeset details.info{border-color:#00b8d4}.md-typeset .admonition.info:focus-within,.md-typeset details.info:focus-within{box-shadow:0 0 0 .2rem #00b8d41a}.md-typeset .info>.admonition-title,.md-typeset .info>summary{background-color:#00b8d41a}.md-typeset .info>.admonition-title:before,.md-typeset .info>summary:before{background-color:#00b8d4;-webkit-mask-image:var(--md-admonition-icon--info);mask-image:var(--md-admonition-icon--info)}.md-typeset .info>.admonition-title:after,.md-typeset .info>summary:after{color:#00b8d4}.md-typeset .admonition.tip,.md-typeset details.tip{border-color:#00bfa5}.md-typeset .admonition.tip:focus-within,.md-typeset details.tip:focus-within{box-shadow:0 0 0 .2rem #00bfa51a}.md-typeset .tip>.admonition-title,.md-typeset .tip>summary{background-color:#00bfa51a}.md-typeset .tip>.admonition-title:before,.md-typeset .tip>summary:before{background-color:#00bfa5;-webkit-mask-image:var(--md-admonition-icon--tip);mask-image:var(--md-admonition-icon--tip)}.md-typeset .tip>.admonition-title:after,.md-typeset .tip>summary:after{color:#00bfa5}.md-typeset .admonition.success,.md-typeset details.success{border-color:#00c853}.md-typeset .admonition.success:focus-within,.md-typeset details.success:focus-within{box-shadow:0 0 0 .2rem #00c8531a}.md-typeset .success>.admonition-title,.md-typeset .success>summary{background-color:#00c8531a}.md-typeset .success>.admonition-title:before,.md-typeset .success>summary:before{background-color:#00c853;-webkit-mask-image:var(--md-admonition-icon--success);mask-image:var(--md-admonition-icon--success)}.md-typeset .success>.admonition-title:after,.md-typeset .success>summary:after{color:#00c853}.md-typeset .admonition.question,.md-typeset details.question{border-color:#64dd17}.md-typeset .admonition.question:focus-within,.md-typeset details.question:focus-within{box-shadow:0 0 0 .2rem #64dd171a}.md-typeset .question>.admonition-title,.md-typeset .question>summary{background-color:#64dd171a}.md-typeset .question>.admonition-title:before,.md-typeset .question>summary:before{background-color:#64dd17;-webkit-mask-image:var(--md-admonition-icon--question);mask-image:var(--md-admonition-icon--question)}.md-typeset .question>.admonition-title:after,.md-typeset .question>summary:after{color:#64dd17}.md-typeset .admonition.warning,.md-typeset details.warning{border-color:#ff9100}.md-typeset .admonition.warning:focus-within,.md-typeset details.warning:focus-within{box-shadow:0 0 0 .2rem #ff91001a}.md-typeset .warning>.admonition-title,.md-typeset .warning>summary{background-color:#ff91001a}.md-typeset .warning>.admonition-title:before,.md-typeset .warning>summary:before{background-color:#ff9100;-webkit-mask-image:var(--md-admonition-icon--warning);mask-image:var(--md-admonition-icon--warning)}.md-typeset .warning>.admonition-title:after,.md-typeset .warning>summary:after{color:#ff9100}.md-typeset .admonition.failure,.md-typeset details.failure{border-color:#ff5252}.md-typeset .admonition.failure:focus-within,.md-typeset details.failure:focus-within{box-shadow:0 0 0 .2rem #ff52521a}.md-typeset .failure>.admonition-title,.md-typeset .failure>summary{background-color:#ff52521a}.md-typeset .failure>.admonition-title:before,.md-typeset .failure>summary:before{background-color:#ff5252;-webkit-mask-image:var(--md-admonition-icon--failure);mask-image:var(--md-admonition-icon--failure)}.md-typeset .failure>.admonition-title:after,.md-typeset .failure>summary:after{color:#ff5252}.md-typeset .admonition.danger,.md-typeset details.danger{border-color:#ff1744}.md-typeset .admonition.danger:focus-within,.md-typeset details.danger:focus-within{box-shadow:0 0 0 .2rem #ff17441a}.md-typeset .danger>.admonition-title,.md-typeset .danger>summary{background-color:#ff17441a}.md-typeset .danger>.admonition-title:before,.md-typeset .danger>summary:before{background-color:#ff1744;-webkit-mask-image:var(--md-admonition-icon--danger);mask-image:var(--md-admonition-icon--danger)}.md-typeset .danger>.admonition-title:after,.md-typeset .danger>summary:after{color:#ff1744}.md-typeset .admonition.bug,.md-typeset details.bug{border-color:#f50057}.md-typeset .admonition.bug:focus-within,.md-typeset details.bug:focus-within{box-shadow:0 0 0 .2rem #f500571a}.md-typeset .bug>.admonition-title,.md-typeset .bug>summary{background-color:#f500571a}.md-typeset .bug>.admonition-title:before,.md-typeset .bug>summary:before{background-color:#f50057;-webkit-mask-image:var(--md-admonition-icon--bug);mask-image:var(--md-admonition-icon--bug)}.md-typeset .bug>.admonition-title:after,.md-typeset .bug>summary:after{color:#f50057}.md-typeset .admonition.example,.md-typeset details.example{border-color:#7c4dff}.md-typeset .admonition.example:focus-within,.md-typeset details.example:focus-within{box-shadow:0 0 0 .2rem #7c4dff1a}.md-typeset .example>.admonition-title,.md-typeset .example>summary{background-color:#7c4dff1a}.md-typeset .example>.admonition-title:before,.md-typeset .example>summary:before{background-color:#7c4dff;-webkit-mask-image:var(--md-admonition-icon--example);mask-image:var(--md-admonition-icon--example)}.md-typeset .example>.admonition-title:after,.md-typeset .example>summary:after{color:#7c4dff}.md-typeset .admonition.quote,.md-typeset details.quote{border-color:#9e9e9e}.md-typeset .admonition.quote:focus-within,.md-typeset details.quote:focus-within{box-shadow:0 0 0 .2rem #9e9e9e1a}.md-typeset .quote>.admonition-title,.md-typeset .quote>summary{background-color:#9e9e9e1a}.md-typeset .quote>.admonition-title:before,.md-typeset .quote>summary:before{background-color:#9e9e9e;-webkit-mask-image:var(--md-admonition-icon--quote);mask-image:var(--md-admonition-icon--quote)}.md-typeset .quote>.admonition-title:after,.md-typeset .quote>summary:after{color:#9e9e9e}:root{--md-footnotes-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 7v4H5.83l3.58-3.59L8 6l-6 6 6 6 1.41-1.42L5.83 13H21V7h-2Z"/></svg>')}.md-typeset .footnote{color:var(--md-default-fg-color--light);font-size:.64rem}[dir=ltr] .md-typeset .footnote>ol{margin-left:0}[dir=rtl] .md-typeset .footnote>ol{margin-right:0}.md-typeset .footnote>ol>li{transition:color 125ms}.md-typeset .footnote>ol>li:target{color:var(--md-default-fg-color)}.md-typeset .footnote>ol>li:focus-within .footnote-backref{opacity:1;transform:translateX(0);transition:none}.md-typeset .footnote>ol>li:hover .footnote-backref,.md-typeset .footnote>ol>li:target .footnote-backref{opacity:1;transform:translateX(0)}.md-typeset .footnote>ol>li>:first-child{margin-top:0}.md-typeset .footnote-ref{font-size:.75em;font-weight:700}html .md-typeset .footnote-ref{outline-offset:.1rem}.md-typeset [id^="fnref:"]:target>.footnote-ref{outline:auto}.md-typeset .footnote-backref{color:var(--md-typeset-a-color);display:inline-block;font-size:0;opacity:0;transform:translateX(.25rem);transition:color .25s,transform .25s .25s,opacity 125ms .25s;vertical-align:text-bottom}@media print{.md-typeset .footnote-backref{color:var(--md-typeset-a-color);opacity:1;transform:translateX(0)}}[dir=rtl] .md-typeset .footnote-backref{transform:translateX(-.25rem)}.md-typeset .footnote-backref:hover{color:var(--md-accent-fg-color)}.md-typeset .footnote-backref:before{background-color:currentcolor;content:"";display:inline-block;height:.8rem;-webkit-mask-image:var(--md-footnotes-icon);mask-image:var(--md-footnotes-icon);-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;width:.8rem}[dir=rtl] .md-typeset .footnote-backref:before svg{transform:scaleX(-1)}[dir=ltr] .md-typeset .headerlink{margin-left:.5rem}[dir=rtl] .md-typeset .headerlink{margin-right:.5rem}.md-typeset .headerlink{color:var(--md-default-fg-color--lighter);display:inline-block;opacity:0;transition:color .25s,opacity 125ms}@media print{.md-typeset .headerlink{display:none}}.md-typeset .headerlink:focus,.md-typeset :hover>.headerlink,.md-typeset :target>.headerlink{opacity:1;transition:color .25s,opacity 125ms}.md-typeset .headerlink:focus,.md-typeset .headerlink:hover,.md-typeset :target>.headerlink{color:var(--md-accent-fg-color)}.md-typeset :target{--md-scroll-margin:3.6rem;--md-scroll-offset:0rem;scroll-margin-top:calc(var(--md-scroll-margin) - var(--md-scroll-offset))}@media screen and (min-width:76.25em){.md-header--lifted~.md-container .md-typeset :target{--md-scroll-margin:6rem}}.md-typeset h1:target,.md-typeset h2:target,.md-typeset h3:target{--md-scroll-offset:0.2rem}.md-typeset h4:target{--md-scroll-offset:0.15rem}.md-typeset div.arithmatex{overflow:auto}@media screen and (max-width:44.984375em){.md-typeset div.arithmatex{margin:0 -.8rem}.md-typeset div.arithmatex>*{width:min-content}}.md-typeset div.arithmatex>*{margin-left:auto!important;margin-right:auto!important;padding:0 .8rem;touch-action:auto}.md-typeset div.arithmatex>* mjx-container{margin:0!important}.md-typeset div.arithmatex mjx-assistive-mml{height:0}.md-typeset del.critic{background-color:var(--md-typeset-del-color)}.md-typeset del.critic,.md-typeset ins.critic{-webkit-box-decoration-break:clone;box-decoration-break:clone}.md-typeset ins.critic{background-color:var(--md-typeset-ins-color)}.md-typeset .critic.comment{-webkit-box-decoration-break:clone;box-decoration-break:clone;color:var(--md-code-hl-comment-color)}.md-typeset .critic.comment:before{content:"/* "}.md-typeset .critic.comment:after{content:" */"}.md-typeset .critic.block{box-shadow:none;display:block;margin:1em 0;overflow:auto;padding-left:.8rem;padding-right:.8rem}.md-typeset .critic.block>:first-child{margin-top:.5em}.md-typeset .critic.block>:last-child{margin-bottom:.5em}:root{--md-details-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M8.59 16.58 13.17 12 8.59 7.41 10 6l6 6-6 6-1.41-1.42Z"/></svg>')}.md-typeset details{display:flow-root;overflow:visible;padding-top:0}.md-typeset details[open]>summary:after{transform:rotate(90deg)}.md-typeset details:not([open]){box-shadow:none;padding-bottom:0}.md-typeset details:not([open])>summary{border-radius:.1rem}[dir=ltr] .md-typeset summary{padding-right:1.8rem}[dir=rtl] .md-typeset summary{padding-left:1.8rem}[dir=ltr] .md-typeset summary{border-top-left-radius:.1rem}[dir=ltr] .md-typeset summary,[dir=rtl] .md-typeset summary{border-top-right-radius:.1rem}[dir=rtl] .md-typeset summary{border-top-left-radius:.1rem}.md-typeset summary{cursor:pointer;display:block;min-height:1rem;overflow:hidden}.md-typeset summary.focus-visible{outline-color:var(--md-accent-fg-color);outline-offset:.2rem}.md-typeset summary:not(.focus-visible){-webkit-tap-highlight-color:transparent;outline:none}[dir=ltr] .md-typeset summary:after{right:.4rem}[dir=rtl] .md-typeset summary:after{left:.4rem}.md-typeset summary:after{background-color:currentcolor;content:"";height:1rem;-webkit-mask-image:var(--md-details-icon);mask-image:var(--md-details-icon);-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;position:absolute;top:.625em;transform:rotate(0deg);transition:transform .25s;width:1rem}[dir=rtl] .md-typeset summary:after{transform:rotate(180deg)}.md-typeset summary::marker{display:none}.md-typeset summary::-webkit-details-marker{display:none}.md-typeset .emojione,.md-typeset .gemoji,.md-typeset .twemoji{--md-icon-size:1.125em;display:inline-flex;height:var(--md-icon-size);vertical-align:text-top}.md-typeset .emojione svg,.md-typeset .gemoji svg,.md-typeset .twemoji svg{fill:currentcolor;max-height:100%;width:var(--md-icon-size)}.md-typeset .lg,.md-typeset .xl,.md-typeset .xxl,.md-typeset .xxxl{vertical-align:text-bottom}.md-typeset .middle{vertical-align:middle}.md-typeset .lg{--md-icon-size:1.5em}.md-typeset .xl{--md-icon-size:2.25em}.md-typeset .xxl{--md-icon-size:3em}.md-typeset .xxxl{--md-icon-size:4em}.highlight .o,.highlight .ow{color:var(--md-code-hl-operator-color)}.highlight .p{color:var(--md-code-hl-punctuation-color)}.highlight .cpf,.highlight .l,.highlight .s,.highlight .s1,.highlight .s2,.highlight .sb,.highlight .sc,.highlight .si,.highlight .ss{color:var(--md-code-hl-string-color)}.highlight .cp,.highlight .se,.highlight .sh,.highlight .sr,.highlight .sx{color:var(--md-code-hl-special-color)}.highlight .il,.highlight .m,.highlight .mb,.highlight .mf,.highlight .mh,.highlight .mi,.highlight .mo{color:var(--md-code-hl-number-color)}.highlight .k,.highlight .kd,.highlight .kn,.highlight .kp,.highlight .kr,.highlight .kt{color:var(--md-code-hl-keyword-color)}.highlight .kc,.highlight .n{color:var(--md-code-hl-name-color)}.highlight .bp,.highlight .nb,.highlight .no{color:var(--md-code-hl-constant-color)}.highlight .nc,.highlight .ne,.highlight .nf,.highlight .nn{color:var(--md-code-hl-function-color)}.highlight .nd,.highlight .ni,.highlight .nl,.highlight .nt{color:var(--md-code-hl-keyword-color)}.highlight .c,.highlight .c1,.highlight .ch,.highlight .cm,.highlight .cs,.highlight .sd{color:var(--md-code-hl-comment-color)}.highlight .na,.highlight .nv,.highlight .vc,.highlight .vg,.highlight .vi{color:var(--md-code-hl-variable-color)}.highlight .ge,.highlight .gh,.highlight .go,.highlight .gp,.highlight .gr,.highlight .gs,.highlight .gt,.highlight .gu{color:var(--md-code-hl-generic-color)}.highlight .gd,.highlight .gi{border-radius:.1rem;margin:0 -.125em;padding:0 .125em}.highlight .gd{background-color:var(--md-typeset-del-color)}.highlight .gi{background-color:var(--md-typeset-ins-color)}.highlight .hll{background-color:var(--md-code-hl-color--light);box-shadow:2px 0 0 0 var(--md-code-hl-color) inset;display:block;margin:0 -1.1764705882em;padding:0 1.1764705882em}.highlight span.filename{background-color:var(--md-code-bg-color);border-bottom:.05rem solid var(--md-default-fg-color--lightest);border-top-left-radius:.1rem;border-top-right-radius:.1rem;display:flow-root;font-size:.85em;font-weight:700;margin-top:1em;padding:.6617647059em 1.1764705882em;position:relative}.highlight span.filename+pre{margin-top:0}.highlight span.filename+pre>code{border-top-left-radius:0;border-top-right-radius:0}.highlight [data-linenos]:before{background-color:var(--md-code-bg-color);box-shadow:-.05rem 0 var(--md-default-fg-color--lightest) inset;color:var(--md-default-fg-color--light);content:attr(data-linenos);float:left;left:-1.1764705882em;margin-left:-1.1764705882em;margin-right:1.1764705882em;padding-left:1.1764705882em;position:sticky;-webkit-user-select:none;user-select:none;z-index:3}.highlight code a[id]{position:absolute;visibility:hidden}.highlight code[data-md-copying]{display:initial}.highlight code[data-md-copying] .hll{display:contents}.highlight code[data-md-copying] .md-annotation{display:none}.highlighttable{display:flow-root}.highlighttable tbody,.highlighttable td{display:block;padding:0}.highlighttable tr{display:flex}.highlighttable pre{margin:0}.highlighttable th.filename{flex-grow:1;padding:0;text-align:left}.highlighttable th.filename span.filename{margin-top:0}.highlighttable .linenos{background-color:var(--md-code-bg-color);border-bottom-left-radius:.1rem;border-top-left-radius:.1rem;font-size:.85em;padding:.7720588235em 0 .7720588235em 1.1764705882em;-webkit-user-select:none;user-select:none}.highlighttable .linenodiv{box-shadow:-.05rem 0 var(--md-default-fg-color--lightest) inset;padding-right:.5882352941em}.highlighttable .linenodiv pre{color:var(--md-default-fg-color--light);text-align:right}.highlighttable .code{flex:1;min-width:0}.linenodiv a{color:inherit}.md-typeset .highlighttable{direction:ltr;margin:1em 0}.md-typeset .highlighttable>tbody>tr>.code>div>pre>code{border-bottom-left-radius:0;border-top-left-radius:0}.md-typeset .highlight+.result{border:.05rem solid var(--md-code-bg-color);border-bottom-left-radius:.1rem;border-bottom-right-radius:.1rem;border-top-width:.1rem;margin-top:-1.125em;overflow:visible;padding:0 1em}.md-typeset .highlight+.result:after{clear:both;content:"";display:block}@media screen and (max-width:44.984375em){.md-content__inner>.highlight{margin:1em -.8rem}.md-content__inner>.highlight>.filename,.md-content__inner>.highlight>.highlighttable>tbody>tr>.code>div>pre>code,.md-content__inner>.highlight>.highlighttable>tbody>tr>.filename span.filename,.md-content__inner>.highlight>.highlighttable>tbody>tr>.linenos,.md-content__inner>.highlight>pre>code{border-radius:0}.md-content__inner>.highlight+.result{border-left-width:0;border-radius:0;border-right-width:0;margin-left:-.8rem;margin-right:-.8rem}}.md-typeset .keys kbd:after,.md-typeset .keys kbd:before{-moz-osx-font-smoothing:initial;-webkit-font-smoothing:initial;color:inherit;margin:0;position:relative}.md-typeset .keys span{color:var(--md-default-fg-color--light);padding:0 .2em}.md-typeset .keys .key-alt:before,.md-typeset .keys .key-left-alt:before,.md-typeset .keys .key-right-alt:before{content:"⎇";padding-right:.4em}.md-typeset .keys .key-command:before,.md-typeset .keys .key-left-command:before,.md-typeset .keys .key-right-command:before{content:"⌘";padding-right:.4em}.md-typeset .keys .key-control:before,.md-typeset .keys .key-left-control:before,.md-typeset .keys .key-right-control:before{content:"⌃";padding-right:.4em}.md-typeset .keys .key-left-meta:before,.md-typeset .keys .key-meta:before,.md-typeset .keys .key-right-meta:before{content:"◆";padding-right:.4em}.md-typeset .keys .key-left-option:before,.md-typeset .keys .key-option:before,.md-typeset .keys .key-right-option:before{content:"⌥";padding-right:.4em}.md-typeset .keys .key-left-shift:before,.md-typeset .keys .key-right-shift:before,.md-typeset .keys .key-shift:before{content:"⇧";padding-right:.4em}.md-typeset .keys .key-left-super:before,.md-typeset .keys .key-right-super:before,.md-typeset .keys .key-super:before{content:"❖";padding-right:.4em}.md-typeset .keys .key-left-windows:before,.md-typeset .keys .key-right-windows:before,.md-typeset .keys .key-windows:before{content:"⊞";padding-right:.4em}.md-typeset .keys .key-arrow-down:before{content:"↓";padding-right:.4em}.md-typeset .keys .key-arrow-left:before{content:"←";padding-right:.4em}.md-typeset .keys .key-arrow-right:before{content:"→";padding-right:.4em}.md-typeset .keys .key-arrow-up:before{content:"↑";padding-right:.4em}.md-typeset .keys .key-backspace:before{content:"⌫";padding-right:.4em}.md-typeset .keys .key-backtab:before{content:"⇤";padding-right:.4em}.md-typeset .keys .key-caps-lock:before{content:"⇪";padding-right:.4em}.md-typeset .keys .key-clear:before{content:"⌧";padding-right:.4em}.md-typeset .keys .key-context-menu:before{content:"☰";padding-right:.4em}.md-typeset .keys .key-delete:before{content:"⌦";padding-right:.4em}.md-typeset .keys .key-eject:before{content:"⏏";padding-right:.4em}.md-typeset .keys .key-end:before{content:"⤓";padding-right:.4em}.md-typeset .keys .key-escape:before{content:"⎋";padding-right:.4em}.md-typeset .keys .key-home:before{content:"⤒";padding-right:.4em}.md-typeset .keys .key-insert:before{content:"⎀";padding-right:.4em}.md-typeset .keys .key-page-down:before{content:"⇟";padding-right:.4em}.md-typeset .keys .key-page-up:before{content:"⇞";padding-right:.4em}.md-typeset .keys .key-print-screen:before{content:"⎙";padding-right:.4em}.md-typeset .keys .key-tab:after{content:"⇥";padding-left:.4em}.md-typeset .keys .key-num-enter:after{content:"⌤";padding-left:.4em}.md-typeset .keys .key-enter:after{content:"⏎";padding-left:.4em}:root{--md-tabbed-icon--prev:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M15.41 16.58 10.83 12l4.58-4.59L14 6l-6 6 6 6 1.41-1.42Z"/></svg>');--md-tabbed-icon--next:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M8.59 16.58 13.17 12 8.59 7.41 10 6l6 6-6 6-1.41-1.42Z"/></svg>')}.md-typeset .tabbed-set{border-radius:.1rem;display:flex;flex-flow:column wrap;margin:1em 0;position:relative}.md-typeset .tabbed-set>input{height:0;opacity:0;position:absolute;width:0}.md-typeset .tabbed-set>input:target{--md-scroll-offset:0.625em}.md-typeset .tabbed-set>input.focus-visible~.tabbed-labels:before{background-color:var(--md-accent-fg-color)}.md-typeset .tabbed-labels{-ms-overflow-style:none;box-shadow:0 -.05rem var(--md-default-fg-color--lightest) inset;display:flex;max-width:100%;overflow:auto;scrollbar-width:none}@media print{.md-typeset .tabbed-labels{display:contents}}@media screen{.js .md-typeset .tabbed-labels{position:relative}.js .md-typeset .tabbed-labels:before{background:var(--md-default-fg-color);bottom:0;content:"";display:block;height:2px;left:0;position:absolute;transform:translateX(var(--md-indicator-x));transition:width 225ms,background-color .25s,transform .25s;transition-timing-function:cubic-bezier(.4,0,.2,1);width:var(--md-indicator-width)}}.md-typeset .tabbed-labels::-webkit-scrollbar{display:none}.md-typeset .tabbed-labels>label{border-bottom:.1rem solid #0000;border-radius:.1rem .1rem 0 0;color:var(--md-default-fg-color--light);cursor:pointer;flex-shrink:0;font-size:.64rem;font-weight:700;padding:.78125em 1.25em .625em;scroll-margin-inline-start:1rem;transition:background-color .25s,color .25s;white-space:nowrap;width:auto}@media print{.md-typeset .tabbed-labels>label:first-child{order:1}.md-typeset .tabbed-labels>label:nth-child(2){order:2}.md-typeset .tabbed-labels>label:nth-child(3){order:3}.md-typeset .tabbed-labels>label:nth-child(4){order:4}.md-typeset .tabbed-labels>label:nth-child(5){order:5}.md-typeset .tabbed-labels>label:nth-child(6){order:6}.md-typeset .tabbed-labels>label:nth-child(7){order:7}.md-typeset .tabbed-labels>label:nth-child(8){order:8}.md-typeset .tabbed-labels>label:nth-child(9){order:9}.md-typeset .tabbed-labels>label:nth-child(10){order:10}.md-typeset .tabbed-labels>label:nth-child(11){order:11}.md-typeset .tabbed-labels>label:nth-child(12){order:12}.md-typeset .tabbed-labels>label:nth-child(13){order:13}.md-typeset .tabbed-labels>label:nth-child(14){order:14}.md-typeset .tabbed-labels>label:nth-child(15){order:15}.md-typeset .tabbed-labels>label:nth-child(16){order:16}.md-typeset .tabbed-labels>label:nth-child(17){order:17}.md-typeset .tabbed-labels>label:nth-child(18){order:18}.md-typeset .tabbed-labels>label:nth-child(19){order:19}.md-typeset .tabbed-labels>label:nth-child(20){order:20}}.md-typeset .tabbed-labels>label:hover{color:var(--md-default-fg-color)}.md-typeset .tabbed-labels>label>[href]:first-child{color:inherit}.md-typeset .tabbed-labels--linked>label{padding:0}.md-typeset .tabbed-labels--linked>label>a{display:block;padding:.78125em 1.25em .625em}.md-typeset .tabbed-content{width:100%}@media print{.md-typeset .tabbed-content{display:contents}}.md-typeset .tabbed-block{display:none}@media print{.md-typeset .tabbed-block{display:block}.md-typeset .tabbed-block:first-child{order:1}.md-typeset .tabbed-block:nth-child(2){order:2}.md-typeset .tabbed-block:nth-child(3){order:3}.md-typeset .tabbed-block:nth-child(4){order:4}.md-typeset .tabbed-block:nth-child(5){order:5}.md-typeset .tabbed-block:nth-child(6){order:6}.md-typeset .tabbed-block:nth-child(7){order:7}.md-typeset .tabbed-block:nth-child(8){order:8}.md-typeset .tabbed-block:nth-child(9){order:9}.md-typeset .tabbed-block:nth-child(10){order:10}.md-typeset .tabbed-block:nth-child(11){order:11}.md-typeset .tabbed-block:nth-child(12){order:12}.md-typeset .tabbed-block:nth-child(13){order:13}.md-typeset .tabbed-block:nth-child(14){order:14}.md-typeset .tabbed-block:nth-child(15){order:15}.md-typeset .tabbed-block:nth-child(16){order:16}.md-typeset .tabbed-block:nth-child(17){order:17}.md-typeset .tabbed-block:nth-child(18){order:18}.md-typeset .tabbed-block:nth-child(19){order:19}.md-typeset .tabbed-block:nth-child(20){order:20}}.md-typeset .tabbed-block>.highlight:first-child>pre,.md-typeset .tabbed-block>pre:first-child{margin:0}.md-typeset .tabbed-block>.highlight:first-child>pre>code,.md-typeset .tabbed-block>pre:first-child>code{border-top-left-radius:0;border-top-right-radius:0}.md-typeset .tabbed-block>.highlight:first-child>.filename{border-top-left-radius:0;border-top-right-radius:0;margin:0}.md-typeset .tabbed-block>.highlight:first-child>.highlighttable{margin:0}.md-typeset .tabbed-block>.highlight:first-child>.highlighttable>tbody>tr>.filename span.filename,.md-typeset .tabbed-block>.highlight:first-child>.highlighttable>tbody>tr>.linenos{border-top-left-radius:0;border-top-right-radius:0;margin:0}.md-typeset .tabbed-block>.highlight:first-child>.highlighttable>tbody>tr>.code>div>pre>code{border-top-left-radius:0;border-top-right-radius:0}.md-typeset .tabbed-block>.highlight:first-child+.result{margin-top:-.125em}.md-typeset .tabbed-block>.tabbed-set{margin:0}.md-typeset .tabbed-button{align-self:center;border-radius:100%;color:var(--md-default-fg-color--light);cursor:pointer;display:block;height:.9rem;margin-top:.1rem;pointer-events:auto;transition:background-color .25s;width:.9rem}.md-typeset .tabbed-button:hover{background-color:var(--md-accent-fg-color--transparent);color:var(--md-accent-fg-color)}.md-typeset .tabbed-button:after{background-color:currentcolor;content:"";display:block;height:100%;-webkit-mask-image:var(--md-tabbed-icon--prev);mask-image:var(--md-tabbed-icon--prev);-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;transition:background-color .25s,transform .25s;width:100%}.md-typeset .tabbed-control{background:linear-gradient(to right,var(--md-default-bg-color) 60%,#0000);display:flex;height:1.9rem;justify-content:start;pointer-events:none;position:absolute;transition:opacity 125ms;width:1.2rem}[dir=rtl] .md-typeset .tabbed-control{transform:rotate(180deg)}.md-typeset .tabbed-control[hidden]{opacity:0}.md-typeset .tabbed-control--next{background:linear-gradient(to left,var(--md-default-bg-color) 60%,#0000);justify-content:end;right:0}.md-typeset .tabbed-control--next .tabbed-button:after{-webkit-mask-image:var(--md-tabbed-icon--next);mask-image:var(--md-tabbed-icon--next)}@media screen and (max-width:44.984375em){[dir=ltr] .md-content__inner>.tabbed-set .tabbed-labels{padding-left:.8rem}[dir=rtl] .md-content__inner>.tabbed-set .tabbed-labels{padding-right:.8rem}.md-content__inner>.tabbed-set .tabbed-labels{margin:0 -.8rem;max-width:100vw;scroll-padding-inline-start:.8rem}[dir=ltr] .md-content__inner>.tabbed-set .tabbed-labels:after{padding-right:.8rem}[dir=rtl] .md-content__inner>.tabbed-set .tabbed-labels:after{padding-left:.8rem}.md-content__inner>.tabbed-set .tabbed-labels:after{content:""}[dir=ltr] .md-content__inner>.tabbed-set .tabbed-labels~.tabbed-control--prev{padding-left:.8rem}[dir=rtl] .md-content__inner>.tabbed-set .tabbed-labels~.tabbed-control--prev{padding-right:.8rem}[dir=ltr] .md-content__inner>.tabbed-set .tabbed-labels~.tabbed-control--prev{margin-left:-.8rem}[dir=rtl] .md-content__inner>.tabbed-set .tabbed-labels~.tabbed-control--prev{margin-right:-.8rem}.md-content__inner>.tabbed-set .tabbed-labels~.tabbed-control--prev{width:2rem}[dir=ltr] .md-content__inner>.tabbed-set .tabbed-labels~.tabbed-control--next{padding-right:.8rem}[dir=rtl] .md-content__inner>.tabbed-set .tabbed-labels~.tabbed-control--next{padding-left:.8rem}[dir=ltr] .md-content__inner>.tabbed-set .tabbed-labels~.tabbed-control--next{margin-right:-.8rem}[dir=rtl] .md-content__inner>.tabbed-set .tabbed-labels~.tabbed-control--next{margin-left:-.8rem}.md-content__inner>.tabbed-set .tabbed-labels~.tabbed-control--next{width:2rem}}@media screen{.md-typeset .tabbed-set>input:first-child:checked~.tabbed-labels>:first-child,.md-typeset .tabbed-set>input:nth-child(10):checked~.tabbed-labels>:nth-child(10),.md-typeset .tabbed-set>input:nth-child(11):checked~.tabbed-labels>:nth-child(11),.md-typeset .tabbed-set>input:nth-child(12):checked~.tabbed-labels>:nth-child(12),.md-typeset .tabbed-set>input:nth-child(13):checked~.tabbed-labels>:nth-child(13),.md-typeset .tabbed-set>input:nth-child(14):checked~.tabbed-labels>:nth-child(14),.md-typeset .tabbed-set>input:nth-child(15):checked~.tabbed-labels>:nth-child(15),.md-typeset .tabbed-set>input:nth-child(16):checked~.tabbed-labels>:nth-child(16),.md-typeset .tabbed-set>input:nth-child(17):checked~.tabbed-labels>:nth-child(17),.md-typeset .tabbed-set>input:nth-child(18):checked~.tabbed-labels>:nth-child(18),.md-typeset .tabbed-set>input:nth-child(19):checked~.tabbed-labels>:nth-child(19),.md-typeset .tabbed-set>input:nth-child(2):checked~.tabbed-labels>:nth-child(2),.md-typeset .tabbed-set>input:nth-child(20):checked~.tabbed-labels>:nth-child(20),.md-typeset .tabbed-set>input:nth-child(3):checked~.tabbed-labels>:nth-child(3),.md-typeset .tabbed-set>input:nth-child(4):checked~.tabbed-labels>:nth-child(4),.md-typeset .tabbed-set>input:nth-child(5):checked~.tabbed-labels>:nth-child(5),.md-typeset .tabbed-set>input:nth-child(6):checked~.tabbed-labels>:nth-child(6),.md-typeset .tabbed-set>input:nth-child(7):checked~.tabbed-labels>:nth-child(7),.md-typeset .tabbed-set>input:nth-child(8):checked~.tabbed-labels>:nth-child(8),.md-typeset .tabbed-set>input:nth-child(9):checked~.tabbed-labels>:nth-child(9){color:var(--md-default-fg-color)}.md-typeset .no-js .tabbed-set>input:first-child:checked~.tabbed-labels>:first-child,.md-typeset .no-js .tabbed-set>input:nth-child(10):checked~.tabbed-labels>:nth-child(10),.md-typeset .no-js .tabbed-set>input:nth-child(11):checked~.tabbed-labels>:nth-child(11),.md-typeset .no-js .tabbed-set>input:nth-child(12):checked~.tabbed-labels>:nth-child(12),.md-typeset .no-js .tabbed-set>input:nth-child(13):checked~.tabbed-labels>:nth-child(13),.md-typeset .no-js .tabbed-set>input:nth-child(14):checked~.tabbed-labels>:nth-child(14),.md-typeset .no-js .tabbed-set>input:nth-child(15):checked~.tabbed-labels>:nth-child(15),.md-typeset .no-js .tabbed-set>input:nth-child(16):checked~.tabbed-labels>:nth-child(16),.md-typeset .no-js .tabbed-set>input:nth-child(17):checked~.tabbed-labels>:nth-child(17),.md-typeset .no-js .tabbed-set>input:nth-child(18):checked~.tabbed-labels>:nth-child(18),.md-typeset .no-js .tabbed-set>input:nth-child(19):checked~.tabbed-labels>:nth-child(19),.md-typeset .no-js .tabbed-set>input:nth-child(2):checked~.tabbed-labels>:nth-child(2),.md-typeset .no-js .tabbed-set>input:nth-child(20):checked~.tabbed-labels>:nth-child(20),.md-typeset .no-js .tabbed-set>input:nth-child(3):checked~.tabbed-labels>:nth-child(3),.md-typeset .no-js .tabbed-set>input:nth-child(4):checked~.tabbed-labels>:nth-child(4),.md-typeset .no-js .tabbed-set>input:nth-child(5):checked~.tabbed-labels>:nth-child(5),.md-typeset .no-js .tabbed-set>input:nth-child(6):checked~.tabbed-labels>:nth-child(6),.md-typeset .no-js .tabbed-set>input:nth-child(7):checked~.tabbed-labels>:nth-child(7),.md-typeset .no-js .tabbed-set>input:nth-child(8):checked~.tabbed-labels>:nth-child(8),.md-typeset .no-js .tabbed-set>input:nth-child(9):checked~.tabbed-labels>:nth-child(9),.no-js .md-typeset .tabbed-set>input:first-child:checked~.tabbed-labels>:first-child,.no-js .md-typeset .tabbed-set>input:nth-child(10):checked~.tabbed-labels>:nth-child(10),.no-js .md-typeset .tabbed-set>input:nth-child(11):checked~.tabbed-labels>:nth-child(11),.no-js .md-typeset .tabbed-set>input:nth-child(12):checked~.tabbed-labels>:nth-child(12),.no-js .md-typeset .tabbed-set>input:nth-child(13):checked~.tabbed-labels>:nth-child(13),.no-js .md-typeset .tabbed-set>input:nth-child(14):checked~.tabbed-labels>:nth-child(14),.no-js .md-typeset .tabbed-set>input:nth-child(15):checked~.tabbed-labels>:nth-child(15),.no-js .md-typeset .tabbed-set>input:nth-child(16):checked~.tabbed-labels>:nth-child(16),.no-js .md-typeset .tabbed-set>input:nth-child(17):checked~.tabbed-labels>:nth-child(17),.no-js .md-typeset .tabbed-set>input:nth-child(18):checked~.tabbed-labels>:nth-child(18),.no-js .md-typeset .tabbed-set>input:nth-child(19):checked~.tabbed-labels>:nth-child(19),.no-js .md-typeset .tabbed-set>input:nth-child(2):checked~.tabbed-labels>:nth-child(2),.no-js .md-typeset .tabbed-set>input:nth-child(20):checked~.tabbed-labels>:nth-child(20),.no-js .md-typeset .tabbed-set>input:nth-child(3):checked~.tabbed-labels>:nth-child(3),.no-js .md-typeset .tabbed-set>input:nth-child(4):checked~.tabbed-labels>:nth-child(4),.no-js .md-typeset .tabbed-set>input:nth-child(5):checked~.tabbed-labels>:nth-child(5),.no-js .md-typeset .tabbed-set>input:nth-child(6):checked~.tabbed-labels>:nth-child(6),.no-js .md-typeset .tabbed-set>input:nth-child(7):checked~.tabbed-labels>:nth-child(7),.no-js .md-typeset .tabbed-set>input:nth-child(8):checked~.tabbed-labels>:nth-child(8),.no-js .md-typeset .tabbed-set>input:nth-child(9):checked~.tabbed-labels>:nth-child(9){border-color:var(--md-default-fg-color)}}.md-typeset .tabbed-set>input:first-child.focus-visible~.tabbed-labels>:first-child,.md-typeset .tabbed-set>input:nth-child(10).focus-visible~.tabbed-labels>:nth-child(10),.md-typeset .tabbed-set>input:nth-child(11).focus-visible~.tabbed-labels>:nth-child(11),.md-typeset .tabbed-set>input:nth-child(12).focus-visible~.tabbed-labels>:nth-child(12),.md-typeset .tabbed-set>input:nth-child(13).focus-visible~.tabbed-labels>:nth-child(13),.md-typeset .tabbed-set>input:nth-child(14).focus-visible~.tabbed-labels>:nth-child(14),.md-typeset .tabbed-set>input:nth-child(15).focus-visible~.tabbed-labels>:nth-child(15),.md-typeset .tabbed-set>input:nth-child(16).focus-visible~.tabbed-labels>:nth-child(16),.md-typeset .tabbed-set>input:nth-child(17).focus-visible~.tabbed-labels>:nth-child(17),.md-typeset .tabbed-set>input:nth-child(18).focus-visible~.tabbed-labels>:nth-child(18),.md-typeset .tabbed-set>input:nth-child(19).focus-visible~.tabbed-labels>:nth-child(19),.md-typeset .tabbed-set>input:nth-child(2).focus-visible~.tabbed-labels>:nth-child(2),.md-typeset .tabbed-set>input:nth-child(20).focus-visible~.tabbed-labels>:nth-child(20),.md-typeset .tabbed-set>input:nth-child(3).focus-visible~.tabbed-labels>:nth-child(3),.md-typeset .tabbed-set>input:nth-child(4).focus-visible~.tabbed-labels>:nth-child(4),.md-typeset .tabbed-set>input:nth-child(5).focus-visible~.tabbed-labels>:nth-child(5),.md-typeset .tabbed-set>input:nth-child(6).focus-visible~.tabbed-labels>:nth-child(6),.md-typeset .tabbed-set>input:nth-child(7).focus-visible~.tabbed-labels>:nth-child(7),.md-typeset .tabbed-set>input:nth-child(8).focus-visible~.tabbed-labels>:nth-child(8),.md-typeset .tabbed-set>input:nth-child(9).focus-visible~.tabbed-labels>:nth-child(9){color:var(--md-accent-fg-color)}.md-typeset .tabbed-set>input:first-child:checked~.tabbed-content>:first-child,.md-typeset .tabbed-set>input:nth-child(10):checked~.tabbed-content>:nth-child(10),.md-typeset .tabbed-set>input:nth-child(11):checked~.tabbed-content>:nth-child(11),.md-typeset .tabbed-set>input:nth-child(12):checked~.tabbed-content>:nth-child(12),.md-typeset .tabbed-set>input:nth-child(13):checked~.tabbed-content>:nth-child(13),.md-typeset .tabbed-set>input:nth-child(14):checked~.tabbed-content>:nth-child(14),.md-typeset .tabbed-set>input:nth-child(15):checked~.tabbed-content>:nth-child(15),.md-typeset .tabbed-set>input:nth-child(16):checked~.tabbed-content>:nth-child(16),.md-typeset .tabbed-set>input:nth-child(17):checked~.tabbed-content>:nth-child(17),.md-typeset .tabbed-set>input:nth-child(18):checked~.tabbed-content>:nth-child(18),.md-typeset .tabbed-set>input:nth-child(19):checked~.tabbed-content>:nth-child(19),.md-typeset .tabbed-set>input:nth-child(2):checked~.tabbed-content>:nth-child(2),.md-typeset .tabbed-set>input:nth-child(20):checked~.tabbed-content>:nth-child(20),.md-typeset .tabbed-set>input:nth-child(3):checked~.tabbed-content>:nth-child(3),.md-typeset .tabbed-set>input:nth-child(4):checked~.tabbed-content>:nth-child(4),.md-typeset .tabbed-set>input:nth-child(5):checked~.tabbed-content>:nth-child(5),.md-typeset .tabbed-set>input:nth-child(6):checked~.tabbed-content>:nth-child(6),.md-typeset .tabbed-set>input:nth-child(7):checked~.tabbed-content>:nth-child(7),.md-typeset .tabbed-set>input:nth-child(8):checked~.tabbed-content>:nth-child(8),.md-typeset .tabbed-set>input:nth-child(9):checked~.tabbed-content>:nth-child(9){display:block}:root{--md-tasklist-icon:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M1 12C1 5.925 5.925 1 12 1s11 4.925 11 11-4.925 11-11 11S1 18.075 1 12Zm16.28-2.72a.751.751 0 0 0-.018-1.042.751.751 0 0 0-1.042-.018l-5.97 5.97-2.47-2.47a.751.751 0 0 0-1.042.018.751.751 0 0 0-.018 1.042l3 3a.75.75 0 0 0 1.06 0Z"/></svg>');--md-tasklist-icon--checked:url('data:image/svg+xml;charset=utf-8,<svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M1 12C1 5.925 5.925 1 12 1s11 4.925 11 11-4.925 11-11 11S1 18.075 1 12Zm16.28-2.72a.751.751 0 0 0-.018-1.042.751.751 0 0 0-1.042-.018l-5.97 5.97-2.47-2.47a.751.751 0 0 0-1.042.018.751.751 0 0 0-.018 1.042l3 3a.75.75 0 0 0 1.06 0Z"/></svg>')}.md-typeset .task-list-item{list-style-type:none;position:relative}[dir=ltr] .md-typeset .task-list-item [type=checkbox]{left:-2em}[dir=rtl] .md-typeset .task-list-item [type=checkbox]{right:-2em}.md-typeset .task-list-item [type=checkbox]{position:absolute;top:.45em}.md-typeset .task-list-control [type=checkbox]{opacity:0;z-index:-1}[dir=ltr] .md-typeset .task-list-indicator:before{left:-1.5em}[dir=rtl] .md-typeset .task-list-indicator:before{right:-1.5em}.md-typeset .task-list-indicator:before{background-color:var(--md-default-fg-color--lightest);content:"";height:1.25em;-webkit-mask-image:var(--md-tasklist-icon);mask-image:var(--md-tasklist-icon);-webkit-mask-position:center;mask-position:center;-webkit-mask-repeat:no-repeat;mask-repeat:no-repeat;-webkit-mask-size:contain;mask-size:contain;position:absolute;top:.15em;width:1.25em}.md-typeset [type=checkbox]:checked+.task-list-indicator:before{background-color:#00e676;-webkit-mask-image:var(--md-tasklist-icon--checked);mask-image:var(--md-tasklist-icon--checked)}:root>*{--md-mermaid-font-family:var(--md-text-font-family),sans-serif;--md-mermaid-edge-color:var(--md-code-fg-color);--md-mermaid-node-bg-color:var(--md-accent-fg-color--transparent);--md-mermaid-node-fg-color:var(--md-accent-fg-color);--md-mermaid-label-bg-color:var(--md-default-bg-color);--md-mermaid-label-fg-color:var(--md-code-fg-color);--md-mermaid-sequence-actor-bg-color:var(--md-mermaid-label-bg-color);--md-mermaid-sequence-actor-fg-color:var(--md-mermaid-label-fg-color);--md-mermaid-sequence-actor-border-color:var(--md-mermaid-node-fg-color);--md-mermaid-sequence-actor-line-color:var(--md-default-fg-color--lighter);--md-mermaid-sequence-actorman-bg-color:var(--md-mermaid-label-bg-color);--md-mermaid-sequence-actorman-line-color:var(--md-mermaid-node-fg-color);--md-mermaid-sequence-box-bg-color:var(--md-mermaid-node-bg-color);--md-mermaid-sequence-box-fg-color:var(--md-mermaid-edge-color);--md-mermaid-sequence-label-bg-color:var(--md-mermaid-node-bg-color);--md-mermaid-sequence-label-fg-color:var(--md-mermaid-node-fg-color);--md-mermaid-sequence-loop-bg-color:var(--md-mermaid-node-bg-color);--md-mermaid-sequence-loop-fg-color:var(--md-mermaid-edge-color);--md-mermaid-sequence-loop-border-color:var(--md-mermaid-node-fg-color);--md-mermaid-sequence-message-fg-color:var(--md-mermaid-edge-color);--md-mermaid-sequence-message-line-color:var(--md-mermaid-edge-color);--md-mermaid-sequence-note-bg-color:var(--md-mermaid-label-bg-color);--md-mermaid-sequence-note-fg-color:var(--md-mermaid-edge-color);--md-mermaid-sequence-note-border-color:var(--md-mermaid-label-fg-color);--md-mermaid-sequence-number-bg-color:var(--md-mermaid-node-fg-color);--md-mermaid-sequence-number-fg-color:var(--md-accent-bg-color)}.mermaid{line-height:normal;margin:1em 0}.md-typeset .grid{grid-gap:.4rem;display:grid;grid-template-columns:repeat(auto-fit,minmax(min(100%,16rem),1fr));margin:1em 0}.md-typeset .grid.cards>ol,.md-typeset .grid.cards>ul{display:contents}.md-typeset .grid.cards>ol>li,.md-typeset .grid.cards>ul>li,.md-typeset .grid>.card{border:.05rem solid var(--md-default-fg-color--lightest);border-radius:.1rem;display:block;margin:0;padding:.8rem;transition:border .25s,box-shadow .25s}.md-typeset .grid.cards>ol>li:focus-within,.md-typeset .grid.cards>ol>li:hover,.md-typeset .grid.cards>ul>li:focus-within,.md-typeset .grid.cards>ul>li:hover,.md-typeset .grid>.card:focus-within,.md-typeset .grid>.card:hover{border-color:#0000;box-shadow:var(--md-shadow-z2)}.md-typeset .grid.cards>ol>li>hr,.md-typeset .grid.cards>ul>li>hr,.md-typeset .grid>.card>hr{margin-bottom:1em;margin-top:1em}.md-typeset .grid.cards>ol>li>:first-child,.md-typeset .grid.cards>ul>li>:first-child,.md-typeset .grid>.card>:first-child{margin-top:0}.md-typeset .grid.cards>ol>li>:last-child,.md-typeset .grid.cards>ul>li>:last-child,.md-typeset .grid>.card>:last-child{margin-bottom:0}.md-typeset .grid>*,.md-typeset .grid>.admonition,.md-typeset .grid>.highlight>*,.md-typeset .grid>.highlighttable,.md-typeset .grid>.md-typeset details,.md-typeset .grid>details,.md-typeset .grid>pre{margin-bottom:0;margin-top:0}.md-typeset .grid>.highlight>pre:only-child,.md-typeset .grid>.highlight>pre>code,.md-typeset .grid>.highlighttable,.md-typeset .grid>.highlighttable>tbody,.md-typeset .grid>.highlighttable>tbody>tr,.md-typeset .grid>.highlighttable>tbody>tr>.code,.md-typeset .grid>.highlighttable>tbody>tr>.code>.highlight,.md-typeset .grid>.highlighttable>tbody>tr>.code>.highlight>pre,.md-typeset .grid>.highlighttable>tbody>tr>.code>.highlight>pre>code{height:100%}.md-typeset .grid>.tabbed-set{margin-bottom:0;margin-top:0}@media screen and (min-width:45em){[dir=ltr] .md-typeset .inline{float:left}[dir=rtl] .md-typeset .inline{float:right}[dir=ltr] .md-typeset .inline{margin-right:.8rem}[dir=rtl] .md-typeset .inline{margin-left:.8rem}.md-typeset .inline{margin-bottom:.8rem;margin-top:0;width:11.7rem}[dir=ltr] .md-typeset .inline.end{float:right}[dir=rtl] .md-typeset .inline.end{float:left}[dir=ltr] .md-typeset .inline.end{margin-left:.8rem;margin-right:0}[dir=rtl] .md-typeset .inline.end{margin-left:0;margin-right:.8rem}}
\ No newline at end of file
diff --git a/assets/stylesheets/main.6543a935.min.css.map b/assets/stylesheets/main.6543a935.min.css.map
new file mode 100644
index 000000000..dcac2d579
--- /dev/null
+++ b/assets/stylesheets/main.6543a935.min.css.map
@@ -0,0 +1 @@
+{"version":3,"sources":["src/templates/assets/stylesheets/main/components/_meta.scss","../../../../src/templates/assets/stylesheets/main.scss","src/templates/assets/stylesheets/main/_resets.scss","src/templates/assets/stylesheets/main/_colors.scss","src/templates/assets/stylesheets/main/_icons.scss","src/templates/assets/stylesheets/main/_typeset.scss","src/templates/assets/stylesheets/utilities/_break.scss","src/templates/assets/stylesheets/main/components/_author.scss","src/templates/assets/stylesheets/main/components/_banner.scss","src/templates/assets/stylesheets/main/components/_base.scss","src/templates/assets/stylesheets/main/components/_clipboard.scss","src/templates/assets/stylesheets/main/components/_code.scss","src/templates/assets/stylesheets/main/components/_consent.scss","src/templates/assets/stylesheets/main/components/_content.scss","src/templates/assets/stylesheets/main/components/_dialog.scss","src/templates/assets/stylesheets/main/components/_feedback.scss","src/templates/assets/stylesheets/main/components/_footer.scss","src/templates/assets/stylesheets/main/components/_form.scss","src/templates/assets/stylesheets/main/components/_header.scss","node_modules/material-design-color/material-color.scss","src/templates/assets/stylesheets/main/components/_nav.scss","src/templates/assets/stylesheets/main/components/_pagination.scss","src/templates/assets/stylesheets/main/components/_post.scss","src/templates/assets/stylesheets/main/components/_progress.scss","src/templates/assets/stylesheets/main/components/_search.scss","src/templates/assets/stylesheets/main/components/_select.scss","src/templates/assets/stylesheets/main/components/_sidebar.scss","src/templates/assets/stylesheets/main/components/_source.scss","src/templates/assets/stylesheets/main/components/_status.scss","src/templates/assets/stylesheets/main/components/_tabs.scss","src/templates/assets/stylesheets/main/components/_tag.scss","src/templates/assets/stylesheets/main/components/_tooltip.scss","src/templates/assets/stylesheets/main/components/_tooltip2.scss","src/templates/assets/stylesheets/main/components/_top.scss","src/templates/assets/stylesheets/main/components/_version.scss","src/templates/assets/stylesheets/main/extensions/markdown/_admonition.scss","src/templates/assets/stylesheets/main/extensions/markdown/_footnotes.scss","src/templates/assets/stylesheets/main/extensions/markdown/_toc.scss","src/templates/assets/stylesheets/main/extensions/pymdownx/_arithmatex.scss","src/templates/assets/stylesheets/main/extensions/pymdownx/_critic.scss","src/templates/assets/stylesheets/main/extensions/pymdownx/_details.scss","src/templates/assets/stylesheets/main/extensions/pymdownx/_emoji.scss","src/templates/assets/stylesheets/main/extensions/pymdownx/_highlight.scss","src/templates/assets/stylesheets/main/extensions/pymdownx/_keys.scss","src/templates/assets/stylesheets/main/extensions/pymdownx/_tabbed.scss","src/templates/assets/stylesheets/main/extensions/pymdownx/_tasklist.scss","src/templates/assets/stylesheets/main/integrations/_mermaid.scss","src/templates/assets/stylesheets/main/modifiers/_grid.scss","src/templates/assets/stylesheets/main/modifiers/_inline.scss"],"names":[],"mappings":"AA0CE,gBCqxCF,CCnyCA,KAEE,6BAAA,CAAA,0BAAA,CAAA,qBAAA,CADA,qBDzBF,CC8BA,iBAGE,kBD3BF,CC8BE,gCANF,iBAOI,yBDzBF,CACF,CC6BA,KACE,QD1BF,CC8BA,qBAIE,uCD3BF,CC+BA,EACE,aAAA,CACA,oBD5BF,CCgCA,GAME,QAAA,CALA,kBAAA,CACA,aAAA,CACA,aAAA,CAEA,gBAAA,CADA,SD3BF,CCiCA,MACE,aD9BF,CCkCA,QAEE,eD/BF,CCmCA,IACE,iBDhCF,CCoCA,MAEE,uBAAA,CADA,gBDhCF,CCqCA,MAEE,eAAA,CACA,kBDlCF,CCsCA,OAKE,gBAAA,CACA,QAAA,CAHA,mBAAA,CACA,iBAAA,CAFA,QAAA,CADA,SD9BF,CCuCA,MACE,QAAA,CACA,YDpCF,CErDA,MAIE,6BAAA,CACA,oCAAA,CACA,mCAAA,CACA,0BAAA,CACA,sCAAA,CAGA,4BAAA,CACA,2CAAA,CACA,yBAAA,CACA,qCFmDF,CE7CA,+BAIE,kBF6CF,CE1CE,oHAEE,YF4CJ,CEnCA,qCAIE,eAAA,CAGA,+BAAA,CACA,sCAAA,CACA,wCAAA,CACA,yCAAA,CACA,0BAAA,CACA,sCAAA,CACA,wCAAA,CACA,yCAAA,CAGA,0BAAA,CACA,0BAAA,CAGA,0BAAA,CACA,mCAAA,CAGA,iCAAA,CACA,kCAAA,CACA,mCAAA,CACA,mCAAA,CACA,kCAAA,CACA,iCAAA,CACA,+CAAA,CACA,6DAAA,CACA,gEAAA,CACA,4DAAA,CACA,4DAAA,CACA,6DAAA,CAGA,6CAAA,CAGA,+CAAA,CAGA,gCAAA,CACA,gCAAA,CAGA,8BAAA,CACA,kCAAA,CACA,qCAAA,CAGA,iCAAA,CAGA,kCAAA,CACA,gDAAA,CAGA,mDAAA,CACA,mDAAA,CAGA,+BAAA,CACA,0BAAA,CAGA,yBAAA,CACA,qCAAA,CACA,uCAAA,CACA,8BAAA,CACA,oCAAA,CAGA,8DAAA,CAKA,8DAAA,CAKA,0DFKF,CG9HE,aAIE,iBAAA,CAHA,aAAA,CAEA,aAAA,CADA,YHmIJ,CIxIA,KACE,kCAAA,CACA,iCAAA,CAGA,uGAAA,CAKA,mFJyIF,CInIA,iBAIE,mCAAA,CACA,6BAAA,CAFA,sCJwIF,CIlIA,aAIE,4BAAA,CADA,sCJsIF,CI7HA,MACE,0NAAA,CACA,mNAAA,CACA,oNJgIF,CIzHA,YAGE,gCAAA,CAAA,kBAAA,CAFA,eAAA,CACA,eJ6HF,CIxHE,aAPF,YAQI,gBJ2HF,CACF,CIxHE,uGAME,iBAAA,CAAA,cJ0HJ,CItHE,eAKE,uCAAA,CAHA,aAAA,CAEA,eAAA,CAHA,iBJ6HJ,CIpHE,8BAPE,eAAA,CAGA,qBJ+HJ,CI3HE,eAEE,kBAAA,CAEA,eAAA,CAHA,oBJ0HJ,CIlHE,eAEE,gBAAA,CACA,eAAA,CAEA,qBAAA,CADA,eAAA,CAHA,mBJwHJ,CIhHE,kBACE,eJkHJ,CI9GE,eAEE,eAAA,CACA,qBAAA,CAFA,YJkHJ,CI5GE,8BAKE,uCAAA,CAFA,cAAA,CACA,eAAA,CAEA,qBAAA,CAJA,eJkHJ,CI1GE,eACE,wBJ4GJ,CIxGE,eAGE,+DAAA,CAFA,iBAAA,CACA,cJ2GJ,CItGE,cACE,+BAAA,CACA,qBJwGJ,CIrGI,mCAEE,sBJsGN,CIlGI,wCACE,+BJoGN,CIjGM,kDACE,uDJmGR,CI9FI,mBACE,kBAAA,CACA,iCJgGN,CI5FI,4BACE,uCAAA,CACA,oBJ8FN,CIzFE,iDAIE,6BAAA,CACA,aAAA,CAFA,2BJ6FJ,CIxFI,aARF,iDASI,oBJ6FJ,CACF,CIzFE,iBAIE,wCAAA,CACA,mBAAA,CACA,kCAAA,CAAA,0BAAA,CAJA,eAAA,CADA,uBAAA,CAEA,qBJ8FJ,CIxFI,qCAEE,uCAAA,CADA,YJ2FN,CIrFE,gBAEE,iBAAA,CACA,eAAA,CAFA,iBJyFJ,CIpFI,qBASE,kCAAA,CAAA,0BAAA,CADA,eAAA,CAPA,aAAA,CAEA,QAAA,CAIA,uCAAA,CAHA,aAAA,CAFA,oCAAA,CASA,yDAAA,CADA,oBAAA,CAJA,iBAAA,CADA,iBJ4FN,CInFM,2BACE,+CJqFR,CIjFM,wCAEE,YAAA,CADA,WJoFR,CI/EM,8CACE,oDJiFR,CI9EQ,oDACE,0CJgFV,CIzEE,gBAOE,4CAAA,CACA,mBAAA,CACA,mKACE,CANF,gCAAA,CAHA,oBAAA,CAEA,eAAA,CADA,uBAAA,CAIA,uBAAA,CADA,qBJ+EJ,CIpEE,iBAGE,6CAAA,CACA,kCAAA,CAAA,0BAAA,CAHA,aAAA,CACA,qBJwEJ,CIlEE,iBAGE,6DAAA,CADA,WAAA,CADA,oBJsEJ,CIhEE,kBACE,WJkEJ,CI9DE,oDAEE,qBJgEJ,CIlEE,oDAEE,sBJgEJ,CI5DE,iCACE,kBJiEJ,CIlEE,iCACE,mBJiEJ,CIlEE,iCAIE,2DJ8DJ,CIlEE,iCAIE,4DJ8DJ,CIlEE,uBAGE,uCAAA,CADA,aAAA,CAAA,cJgEJ,CI1DE,eACE,oBJ4DJ,CIxDE,kDAGE,kBJ0DJ,CI7DE,kDAGE,mBJ0DJ,CI7DE,8BAEE,SJ2DJ,CIvDI,0DACE,iBJ0DN,CItDI,oCACE,2BJyDN,CItDM,0CACE,2BJyDR,CIpDI,wDACE,kBJwDN,CIzDI,wDACE,mBJwDN,CIzDI,oCAEE,kBJuDN,CIpDM,kGAEE,aJwDR,CIpDM,0DACE,eJuDR,CInDM,4HAEE,kBJsDR,CIxDM,4HAEE,mBJsDR,CIxDM,oFACE,kBAAA,CAAA,eJuDR,CIhDE,yBAEE,mBJkDJ,CIpDE,yBAEE,oBJkDJ,CIpDE,eACE,mBAAA,CAAA,cJmDJ,CI9CE,kDAIE,WAAA,CADA,cJiDJ,CIzCI,4BAEE,oBJ2CN,CIvCI,6BAEE,oBJyCN,CIrCI,kCACE,YJuCN,CIlCE,mBACE,iBAAA,CAGA,eAAA,CADA,cAAA,CAEA,iBAAA,CAHA,sBAAA,CAAA,iBJuCJ,CIjCI,uBACE,aAAA,CACA,aJmCN,CI9BE,uBAGE,iBAAA,CADA,eAAA,CADA,eJkCJ,CI5BE,mBACE,cJ8BJ,CI1BE,+BAME,2CAAA,CACA,iDAAA,CACA,mBAAA,CAPA,oBAAA,CAGA,gBAAA,CAFA,cAAA,CACA,aAAA,CAEA,iBJ+BJ,CIzBI,aAXF,+BAYI,aJ4BJ,CACF,CIvBI,iCACE,gBJyBN,CIlBM,8FACE,YJoBR,CIhBM,4FACE,eJkBR,CIbI,8FACE,eJeN,CIZM,kHACE,gBJcR,CITI,kCAGE,eAAA,CAFA,cAAA,CACA,sBAAA,CAEA,kBJWN,CIPI,kCAGE,qDAAA,CAFA,sBAAA,CACA,kBJUN,CILI,wCACE,iCJON,CIJM,8CACE,qDAAA,CACA,sDJMR,CIDI,iCACE,iBJGN,CIEE,wCACE,cJAJ,CIGI,wDAIE,gBJKN,CITI,wDAIE,iBJKN,CITI,8CAME,UAAA,CALA,oBAAA,CAEA,YAAA,CAKA,oDAAA,CAAA,4CAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CAHA,iCAAA,CAFA,0BAAA,CAHA,WJON,CIKI,oDACE,oDJHN,CIOI,mEACE,kDAAA,CACA,yDAAA,CAAA,iDJLN,CISI,oEACE,kDAAA,CACA,0DAAA,CAAA,kDJPN,CIYE,wBACE,iBAAA,CACA,eAAA,CACA,iBJVJ,CIcE,mBACE,oBAAA,CAEA,kBAAA,CADA,eJXJ,CIeI,aANF,mBAOI,aJZJ,CACF,CIeI,8BACE,aAAA,CAEA,QAAA,CACA,eAAA,CAFA,UJXN,CKnVI,0CD6WF,uBACE,iBJtBF,CIyBE,4BACE,eJvBJ,CACF,CMlhBE,uBAOE,kBAAA,CALA,aAAA,CACA,aAAA,CAEA,aAAA,CACA,eAAA,CALA,iBAAA,CAOA,sCACE,CALF,YNwhBJ,CM/gBI,2BACE,aNihBN,CM7gBI,6BAME,+CAAA,CAFA,yCAAA,CAHA,eAAA,CACA,eAAA,CACA,kBAAA,CAEA,iBNghBN,CM3gBI,6BAEE,aAAA,CADA,YN8gBN,CMxgBE,wBACE,kBN0gBJ,CMvgBI,4BAIE,kBAAA,CAHA,mCAAA,CAIA,uBNugBN,CMngBI,4DAEE,oBAAA,CADA,SNsgBN,CMlgBM,oEACE,mBNogBR,CO7jBA,WAGE,0CAAA,CADA,+BAAA,CADA,aPkkBF,CO7jBE,aANF,WAOI,YPgkBF,CACF,CO7jBE,oBAEE,2CAAA,CADA,gCPgkBJ,CO3jBE,kBAGE,eAAA,CADA,iBAAA,CADA,eP+jBJ,COzjBE,6BACE,WP8jBJ,CO/jBE,6BACE,UP8jBJ,CO/jBE,mBAEE,aAAA,CACA,cAAA,CACA,uBP2jBJ,COxjBI,0BACE,YP0jBN,COtjBI,yBACE,UPwjBN,CQ7lBA,KASE,cAAA,CARA,WAAA,CACA,iBRimBF,CK7bI,oCGtKJ,KAaI,gBR0lBF,CACF,CKlcI,oCGtKJ,KAkBI,cR0lBF,CACF,CQrlBA,KASE,2CAAA,CAPA,YAAA,CACA,qBAAA,CAKA,eAAA,CAHA,eAAA,CAJA,iBAAA,CAGA,UR2lBF,CQnlBE,aAZF,KAaI,aRslBF,CACF,CKncI,0CGhJF,yBAII,cRmlBJ,CACF,CQ1kBA,SAEE,gBAAA,CAAA,iBAAA,CADA,eR8kBF,CQzkBA,cACE,YAAA,CACA,qBAAA,CACA,WR4kBF,CQzkBE,aANF,cAOI,aR4kBF,CACF,CQxkBA,SACE,WR2kBF,CQxkBE,gBACE,YAAA,CACA,WAAA,CACA,iBR0kBJ,CQrkBA,aACE,eAAA,CACA,sBRwkBF,CQ/jBA,WACE,YRkkBF,CQ7jBA,WAGE,QAAA,CACA,SAAA,CAHA,iBAAA,CACA,ORkkBF,CQ7jBE,uCACE,aR+jBJ,CQ3jBE,+BAEE,uCAAA,CADA,kBR8jBJ,CQxjBA,SASE,2CAAA,CACA,mBAAA,CAFA,gCAAA,CADA,gBAAA,CADA,YAAA,CAMA,SAAA,CADA,uCAAA,CANA,mBAAA,CAJA,cAAA,CAYA,2BAAA,CATA,URkkBF,CQtjBE,eAEE,SAAA,CAIA,uBAAA,CAHA,oEACE,CAHF,UR2jBJ,CQ7iBA,MACE,WRgjBF,CSzsBA,MACE,+PT2sBF,CSrsBA,cASE,mBAAA,CAFA,0CAAA,CACA,cAAA,CAFA,YAAA,CAIA,uCAAA,CACA,oBAAA,CAVA,iBAAA,CAEA,UAAA,CADA,QAAA,CAUA,qBAAA,CAPA,WAAA,CADA,STgtBF,CSrsBE,aAfF,cAgBI,YTwsBF,CACF,CSrsBE,kCAEE,uCAAA,CADA,YTwsBJ,CSnsBE,qBACE,uCTqsBJ,CSjsBE,wCACE,+BTmsBJ,CS9rBE,oBAME,6BAAA,CADA,UAAA,CAJA,aAAA,CAEA,cAAA,CACA,aAAA,CAGA,2CAAA,CAAA,mCAAA,CACA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CARA,aTwsBJ,CS5rBE,sBACE,cT8rBJ,CS3rBI,2BACE,2CT6rBN,CSvrBI,kEAEE,uDAAA,CADA,+BT0rBN,CU5vBE,8BACE,YV+vBJ,CWpwBA,mBACE,GACE,SAAA,CACA,0BXuwBF,CWpwBA,GACE,SAAA,CACA,uBXswBF,CACF,CWlwBA,mBACE,GACE,SXowBF,CWjwBA,GACE,SXmwBF,CACF,CWxvBE,qBASE,2BAAA,CADA,mCAAA,CAAA,2BAAA,CAFA,0BAAA,CADA,WAAA,CAEA,SAAA,CANA,cAAA,CACA,KAAA,CAEA,UAAA,CADA,SXgwBJ,CWtvBE,mBAcE,mDAAA,CANA,2CAAA,CACA,QAAA,CACA,mBAAA,CARA,QAAA,CASA,kDACE,CAPF,eAAA,CAEA,aAAA,CADA,SAAA,CALA,cAAA,CAGA,UAAA,CADA,SXiwBJ,CWlvBE,kBACE,aXovBJ,CWhvBE,sBACE,YAAA,CACA,YXkvBJ,CW/uBI,oCACE,aXivBN,CW5uBE,sBACE,mBX8uBJ,CW3uBI,6CACE,cX6uBN,CKvoBI,0CMvGA,6CAKI,aAAA,CAEA,gBAAA,CACA,iBAAA,CAFA,UX+uBN,CACF,CWxuBE,kBACE,cX0uBJ,CY30BA,YACE,WAAA,CAIA,WZ20BF,CYx0BE,mBAEE,qBAAA,CADA,iBZ20BJ,CK9qBI,sCOtJE,4EACE,kBZu0BN,CYn0BI,0JACE,mBZq0BN,CYt0BI,8EACE,kBZq0BN,CACF,CYh0BI,0BAGE,UAAA,CAFA,aAAA,CACA,YZm0BN,CY9zBI,+BACE,eZg0BN,CY1zBE,8BACE,WZ+zBJ,CYh0BE,8BACE,UZ+zBJ,CYh0BE,8BAIE,iBZ4zBJ,CYh0BE,8BAIE,kBZ4zBJ,CYh0BE,oBAGE,cAAA,CADA,SZ8zBJ,CYzzBI,aAPF,oBAQI,YZ4zBJ,CACF,CYzzBI,gCACE,yCZ2zBN,CYvzBI,wBACE,cAAA,CACA,kBZyzBN,CYtzBM,kCACE,oBZwzBR,Caz3BA,qBAeE,Wb03BF,Caz4BA,qBAeE,Ub03BF,Caz4BA,WAOE,2CAAA,CACA,mBAAA,CANA,YAAA,CAOA,8BAAA,CALA,iBAAA,CAMA,SAAA,CALA,mBAAA,CACA,mBAAA,CALA,cAAA,CAaA,0BAAA,CAHA,wCACE,CATF,Sbs4BF,Cav3BE,aAlBF,WAmBI,Yb03BF,CACF,Cav3BE,mBAEE,SAAA,CADA,mBAAA,CAKA,uBAAA,CAHA,kEb03BJ,Can3BE,kBAEE,gCAAA,CADA,ebs3BJ,Ccx5BA,aACE,gBAAA,CACA,iBd25BF,Ccx5BE,sBAGE,WAAA,CADA,QAAA,CADA,Sd45BJ,Cct5BE,oBAEE,eAAA,CADA,edy5BJ,Ccp5BE,oBACE,iBds5BJ,Ccl5BE,mBAEE,YAAA,CACA,cAAA,CACA,6BAAA,CAHA,iBdu5BJ,Ccj5BI,iDACE,yCdm5BN,Cc/4BI,6BACE,iBdi5BN,Cc54BE,mBAGE,uCAAA,CACA,cAAA,CAHA,aAAA,CACA,cAAA,CAGA,sBd84BJ,Cc34BI,gDACE,+Bd64BN,Ccz4BI,4BACE,0CAAA,CACA,mBd24BN,Cct4BE,mBAEE,SAAA,CADA,iBAAA,CAKA,2BAAA,CAHA,8Ddy4BJ,Ccn4BI,qBAEE,aAAA,CADA,eds4BN,Ccj4BI,6BACE,SAAA,CACA,uBdm4BN,Cej9BA,WAEE,0CAAA,CADA,+Bfq9BF,Cej9BE,aALF,WAMI,Yfo9BF,CACF,Cej9BE,kBACE,6BAAA,CAEA,aAAA,CADA,afo9BJ,Ceh9BI,gCACE,Yfk9BN,Ce78BE,iBAOE,eAAA,CANA,YAAA,CAKA,cAAA,CAGA,mBAAA,CAAA,eAAA,CADA,cAAA,CAGA,uCAAA,CADA,eAAA,CAEA,uBf28BJ,Cex8BI,8CACE,Uf08BN,Cet8BI,+BACE,oBfw8BN,CK1zBI,0CUvIE,uBACE,afo8BN,Cej8BM,yCACE,Yfm8BR,CACF,Ce97BI,iCACE,gBfi8BN,Cel8BI,iCACE,iBfi8BN,Cel8BI,uBAEE,gBfg8BN,Ce77BM,iCACE,ef+7BR,Cez7BE,kBACE,WAAA,CAIA,eAAA,CADA,mBAAA,CAFA,6BAAA,CACA,cAAA,CAGA,kBf27BJ,Cev7BE,mBAEE,YAAA,CADA,af07BJ,Cer7BE,sBACE,gBAAA,CACA,Ufu7BJ,Cel7BA,gBACE,gDfq7BF,Cel7BE,uBACE,YAAA,CACA,cAAA,CACA,6BAAA,CACA,afo7BJ,Ceh7BE,kCACE,sCfk7BJ,Ce/6BI,gFACE,+Bfi7BN,Cez6BA,cAKE,wCAAA,CADA,gBAAA,CADA,iBAAA,CADA,eAAA,CADA,Ufg7BF,CKp4BI,mCU7CJ,cASI,Uf46BF,CACF,Cex6BE,yBACE,sCf06BJ,Cen6BA,WACE,mBAAA,CACA,SAAA,CAEA,cAAA,CADA,qBfu6BF,CKn5BI,mCUvBJ,WAQI,efs6BF,CACF,Cen6BE,iBACE,oBAAA,CAEA,aAAA,CACA,iBAAA,CAFA,Yfu6BJ,Cel6BI,wBACE,efo6BN,Ceh6BI,qBAGE,iBAAA,CAFA,gBAAA,CACA,mBfm6BN,CgBzkCE,uBAME,kBAAA,CACA,mBAAA,CAHA,gCAAA,CACA,cAAA,CAJA,oBAAA,CAEA,eAAA,CADA,kBAAA,CAMA,gEhB4kCJ,CgBtkCI,gCAEE,2CAAA,CACA,uCAAA,CAFA,gChB0kCN,CgBpkCI,0DAEE,0CAAA,CACA,sCAAA,CAFA,+BhBwkCN,CgBjkCE,gCAKE,4BhBskCJ,CgB3kCE,gEAME,6BhBqkCJ,CgB3kCE,gCAME,4BhBqkCJ,CgB3kCE,sBAIE,6DAAA,CAGA,8BAAA,CAJA,eAAA,CAFA,aAAA,CACA,eAAA,CAMA,sChBmkCJ,CgB9jCI,wDACE,6CAAA,CACA,8BhBgkCN,CgB5jCI,+BACE,UhB8jCN,CiBjnCA,WAOE,2CAAA,CAGA,8CACE,CALF,gCAAA,CADA,aAAA,CAHA,MAAA,CADA,eAAA,CACA,OAAA,CACA,KAAA,CACA,SjBwnCF,CiB7mCE,aAfF,WAgBI,YjBgnCF,CACF,CiB7mCE,mBAIE,2BAAA,CAHA,iEjBgnCJ,CiBzmCE,mBACE,kDACE,CAEF,kEjBymCJ,CiBnmCE,kBAEE,kBAAA,CADA,YAAA,CAEA,ejBqmCJ,CiBjmCE,mBAKE,kBAAA,CAEA,cAAA,CAHA,YAAA,CAIA,uCAAA,CALA,aAAA,CAFA,iBAAA,CAQA,uBAAA,CAHA,qBAAA,CAJA,SjB0mCJ,CiBhmCI,yBACE,UjBkmCN,CiB9lCI,iCACE,oBjBgmCN,CiB5lCI,uCAEE,uCAAA,CADA,YjB+lCN,CiB1lCI,2BAEE,YAAA,CADA,ajB6lCN,CK/+BI,0CY/GA,2BAMI,YjB4lCN,CACF,CiBzlCM,8DAIE,iBAAA,CAHA,aAAA,CAEA,aAAA,CADA,UjB6lCR,CK7gCI,mCYzEA,iCAII,YjBslCN,CACF,CiBnlCM,wCACE,YjBqlCR,CiBjlCM,+CACE,oBjBmlCR,CKxhCI,sCYtDA,iCAII,YjB8kCN,CACF,CiBzkCE,kBAEE,YAAA,CACA,cAAA,CAFA,iBAAA,CAIA,8DACE,CAFF,kBjB4kCJ,CiBtkCI,oCAGE,SAAA,CADA,mBAAA,CAKA,6BAAA,CAHA,8DACE,CAJF,UjB4kCN,CiBnkCM,8CACE,8BjBqkCR,CiBhkCI,8BACE,ejBkkCN,CiB7jCE,4BAGE,gBAAA,CAAA,kBjBikCJ,CiBpkCE,4BAGE,iBAAA,CAAA,iBjBikCJ,CiBpkCE,kBACE,WAAA,CAGA,eAAA,CAFA,aAAA,CAGA,kBjB+jCJ,CiB5jCI,4CAGE,SAAA,CADA,mBAAA,CAKA,8BAAA,CAHA,8DACE,CAJF,UjBkkCN,CiBzjCM,sDACE,6BjB2jCR,CiBvjCM,8DAGE,SAAA,CADA,mBAAA,CAKA,uBAAA,CAHA,8DACE,CAJF,SjB6jCR,CiBljCI,uCAGE,WAAA,CAFA,iBAAA,CACA,UjBqjCN,CiB/iCE,mBACE,YAAA,CACA,aAAA,CACA,cAAA,CAEA,+CACE,CAFF,kBjBkjCJ,CiB5iCI,8DACE,WAAA,CACA,SAAA,CACA,oCjB8iCN,CiBriCI,yBACE,QjBuiCN,CiBliCE,mBACE,YjBoiCJ,CKhmCI,mCY2DF,6BAQI,gBjBoiCJ,CiB5iCA,6BAQI,iBjBoiCJ,CiB5iCA,mBAKI,aAAA,CAEA,iBAAA,CADA,ajBsiCJ,CACF,CKxmCI,sCY2DF,6BAaI,kBjBoiCJ,CiBjjCA,6BAaI,mBjBoiCJ,CACF,CDnxCA,SAGE,uCAAA,CAFA,eAAA,CACA,eCuxCF,CDnxCE,eACE,mBAAA,CACA,cAAA,CAGA,eAAA,CADA,QAAA,CADA,SCuxCJ,CDjxCE,sCAEE,WAAA,CADA,iBAAA,CAAA,kBCoxCJ,CD/wCE,eACE,+BCixCJ,CD9wCI,0CACE,+BCgxCN,CD1wCA,UAKE,wBmBaa,CnBZb,oBAAA,CAFA,UAAA,CAHA,oBAAA,CAEA,eAAA,CADA,0BAAA,CAAA,2BCixCF,CmBnzCA,MACE,0MAAA,CACA,gMAAA,CACA,yNnBszCF,CmBhzCA,QACE,eAAA,CACA,enBmzCF,CmBhzCE,eAKE,uCAAA,CAJA,aAAA,CAGA,eAAA,CADA,eAAA,CADA,eAAA,CAIA,sBnBkzCJ,CmB/yCI,+BACE,YnBizCN,CmB9yCM,mCAEE,WAAA,CADA,UnBizCR,CmBzyCQ,sFAME,iBAAA,CALA,aAAA,CAGA,aAAA,CADA,cAAA,CAEA,kBAAA,CAHA,UnB+yCV,CmBpyCE,cAGE,eAAA,CADA,QAAA,CADA,SnBwyCJ,CmBlyCE,cAGE,sBAAA,CAFA,YAAA,CACA,SAAA,CAEA,iBAAA,CAEA,uBAAA,CADA,sBnBqyCJ,CmBjyCI,sBACE,uCnBmyCN,CmB5xCM,6EAEE,+BnB8xCR,CmBzxCI,2BAIE,iBnBwxCN,CmBpxCI,4CACE,gBnBsxCN,CmBvxCI,4CACE,iBnBsxCN,CmBlxCI,kBAGE,iBAAA,CAFA,aAAA,CACA,YnBqxCN,CmBhxCI,sGACE,+BAAA,CACA,cnBkxCN,CmB9wCI,4BACE,uCAAA,CACA,oBnBgxCN,CmB5wCI,0CACE,YnB8wCN,CmB3wCM,yDAKE,6BAAA,CAJA,aAAA,CAEA,WAAA,CACA,qCAAA,CAAA,6BAAA,CAFA,UnBgxCR,CmBzwCM,kDACE,YnB2wCR,CmBrwCE,iCACE,YnBuwCJ,CmBpwCI,6CACE,WAAA,CAGA,WnBowCN,CmB/vCE,cACE,anBiwCJ,CmB7vCE,gBACE,YnB+vCJ,CK7tCI,0Cc3BA,0CASE,2CAAA,CAHA,YAAA,CACA,qBAAA,CACA,WAAA,CALA,MAAA,CADA,iBAAA,CACA,OAAA,CACA,KAAA,CACA,SnB8vCJ,CmBnvCI,+DACE,eAAA,CACA,enBqvCN,CmBjvCI,gCAQE,qDAAA,CAHA,uCAAA,CAEA,cAAA,CALA,aAAA,CAEA,kBAAA,CADA,wBAAA,CAFA,iBAAA,CAKA,kBnBqvCN,CmBhvCM,wDAGE,UnBsvCR,CmBzvCM,wDAGE,WnBsvCR,CmBzvCM,8CAIE,aAAA,CAEA,aAAA,CACA,YAAA,CANA,iBAAA,CACA,SAAA,CAGA,YnBovCR,CmB/uCQ,oDAKE,6BAAA,CADA,UAAA,CAHA,aAAA,CAEA,WAAA,CAGA,2CAAA,CAAA,mCAAA,CACA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CAPA,UnBwvCV,CmB5uCM,8CAGE,2CAAA,CACA,gEACE,CAJF,eAAA,CAKA,4BAAA,CAJA,kBnBivCR,CmB1uCQ,2DACE,YnB4uCV,CmBvuCM,8CAGE,2CAAA,CADA,gCAAA,CADA,enB2uCR,CmBruCM,yCAIE,aAAA,CAFA,UAAA,CAIA,YAAA,CADA,aAAA,CAJA,iBAAA,CACA,WAAA,CACA,SnB0uCR,CmBluCI,+BACE,MnBouCN,CmBhuCI,+BACE,4DnBkuCN,CmB/tCM,qDACE,+BnBiuCR,CmB9tCQ,sHACE,+BnBguCV,CmB1tCI,+BAEE,YAAA,CADA,mBnB6tCN,CmBztCM,mCACE,enB2tCR,CmBvtCM,6CACE,SnBytCR,CmBrtCM,uDAGE,mBnBwtCR,CmB3tCM,uDAGE,kBnBwtCR,CmB3tCM,6CAIE,gBAAA,CAFA,aAAA,CADA,YnB0tCR,CmBptCQ,mDAKE,6BAAA,CADA,UAAA,CAHA,aAAA,CAEA,WAAA,CAGA,2CAAA,CAAA,mCAAA,CACA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CAPA,UnB6tCV,CmB7sCM,+CACE,mBnB+sCR,CmBvsCM,4CAEE,wBAAA,CADA,enB0sCR,CmBtsCQ,oEACE,mBnBwsCV,CmBzsCQ,oEACE,oBnBwsCV,CmBpsCQ,4EACE,iBnBssCV,CmBvsCQ,4EACE,kBnBssCV,CmBlsCQ,oFACE,mBnBosCV,CmBrsCQ,oFACE,oBnBosCV,CmBhsCQ,4FACE,mBnBksCV,CmBnsCQ,4FACE,oBnBksCV,CmB3rCE,mBACE,wBnB6rCJ,CmBzrCE,wBACE,YAAA,CACA,SAAA,CAIA,0BAAA,CAHA,oEnB4rCJ,CmBtrCI,kCACE,2BnBwrCN,CmBnrCE,gCACE,SAAA,CAIA,uBAAA,CAHA,qEnBsrCJ,CmBhrCI,8CAEE,kCAAA,CAAA,0BnBirCN,CACF,CKh3CI,0CcuMA,0CACE,YnB4qCJ,CmBzqCI,yDACE,UnB2qCN,CmBvqCI,wDACE,YnByqCN,CmBrqCI,kDACE,YnBuqCN,CmBlqCE,gBAIE,iDAAA,CADA,gCAAA,CAFA,aAAA,CACA,enBsqCJ,CACF,CK76CM,+DcgRF,6CACE,YnBgqCJ,CmB7pCI,4DACE,UnB+pCN,CmB3pCI,2DACE,YnB6pCN,CmBzpCI,qDACE,YnB2pCN,CACF,CKr6CI,mCc7JJ,QA6aI,oBnBypCF,CmBnpCI,kCAME,qCAAA,CACA,qDAAA,CANA,eAAA,CACA,KAAA,CAGA,SnBqpCN,CmBhpCM,6CACE,uBnBkpCR,CmB9oCM,gDACE,YnBgpCR,CmB3oCI,2CACE,kBnB8oCN,CmB/oCI,2CACE,mBnB8oCN,CmB/oCI,iCAEE,oBnB6oCN,CmBtoCI,yDACE,kBnBwoCN,CmBzoCI,yDACE,iBnBwoCN,CACF,CK97CI,sCc7JJ,QAydI,oBAAA,CACA,oDnBsoCF,CmBhoCI,gCAME,qCAAA,CACA,qDAAA,CANA,eAAA,CACA,KAAA,CAGA,SnBkoCN,CmB7nCM,8CACE,uBnB+nCR,CmB3nCM,8CACE,YnB6nCR,CmBxnCI,yCACE,kBnB2nCN,CmB5nCI,yCACE,mBnB2nCN,CmB5nCI,+BAEE,oBnB0nCN,CmBnnCI,uDACE,kBnBqnCN,CmBtnCI,uDACE,iBnBqnCN,CmBhnCE,wBACE,YAAA,CACA,sBAAA,CAEA,SAAA,CACA,6FACE,CAHF,mBnBonCJ,CmB5mCI,sCACE,enB8mCN,CmBzmCE,iFACE,sBAAA,CAEA,SAAA,CACA,4FACE,CAHF,kBnB6mCJ,CmBpmCE,iDACE,enBsmCJ,CmBlmCE,6CACE,YnBomCJ,CmBhmCE,uBACE,aAAA,CACA,enBkmCJ,CmB/lCI,kCACE,enBimCN,CmB7lCI,qCACE,enB+lCN,CmB5lCM,0CACE,uCnB8lCR,CmB1lCM,6DACE,mBnB4lCR,CmBxlCM,yFAEE,YnB0lCR,CmBrlCI,yCAEE,kBnBylCN,CmB3lCI,yCAEE,mBnBylCN,CmB3lCI,+BACE,aAAA,CAGA,SAAA,CADA,kBnBwlCN,CmBplCM,2DACE,SnBslCR,CmBhlCE,cAGE,kBAAA,CADA,YAAA,CAEA,gCAAA,CAHA,WnBqlCJ,CmB/kCI,oBACE,uDnBilCN,CmB7kCI,oBAME,6BAAA,CACA,kBAAA,CAFA,UAAA,CAJA,oBAAA,CAEA,WAAA,CAMA,2CAAA,CAAA,mCAAA,CACA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CAJA,yBAAA,CAJA,qBAAA,CAFA,UnBylCN,CmB5kCM,8BACE,wBnB8kCR,CmB1kCM,kKAEE,uBnB2kCR,CmB7jCI,2EACE,YnBkkCN,CmB/jCM,oDACE,anBikCR,CmB9jCQ,kEAKE,qCAAA,CACA,qDAAA,CAFA,YAAA,CAHA,eAAA,CACA,KAAA,CACA,SnBmkCV,CmB7jCU,0FACE,mBnB+jCZ,CmB1jCQ,0EACE,QnB4jCV,CmBvjCM,sFACE,kBnByjCR,CmB1jCM,sFACE,mBnByjCR,CmBrjCM,kDACE,uCnBujCR,CmBjjCI,2CACE,sBAAA,CAEA,SAAA,CADA,kBnBojCN,CmB3iCI,qFAIE,mDnB8iCN,CmBljCI,qFAIE,oDnB8iCN,CmBljCI,2EACE,aAAA,CACA,oBAAA,CAGA,SAAA,CAFA,kBnB+iCN,CmB1iCM,yFAEE,gBAAA,CADA,gBnB6iCR,CmBxiCM,0FACE,YnB0iCR,CACF,CoB9vDA,eAKE,eAAA,CACA,eAAA,CAJA,SpBqwDF,CoB9vDE,gCANA,kBAAA,CAFA,YAAA,CAGA,sBpB4wDF,CoBvwDE,iBAOE,mBAAA,CAFA,aAAA,CADA,gBAAA,CAEA,iBpBiwDJ,CoB5vDE,wBAEE,qDAAA,CADA,uCpB+vDJ,CoB1vDE,qBACE,6CpB4vDJ,CoBvvDI,sDAEE,uDAAA,CADA,+BpB0vDN,CoBtvDM,8DACE,+BpBwvDR,CoBnvDI,mCACE,uCAAA,CACA,oBpBqvDN,CoBjvDI,yBAKE,iBAAA,CADA,yCAAA,CAHA,aAAA,CAEA,eAAA,CADA,YpBsvDN,CqBtyDE,eAGE,+DAAA,CADA,oBAAA,CADA,qBrB2yDJ,CKtnDI,0CgBtLF,eAOI,YrByyDJ,CACF,CqBnyDM,6BACE,oBrBqyDR,CqB/xDE,kBACE,YAAA,CACA,qBAAA,CACA,SAAA,CACA,qBrBiyDJ,CqB1xDI,0BACE,sBrB4xDN,CqBzxDM,gEACE,+BrB2xDR,CqBrxDE,gBAEE,uCAAA,CADA,erBwxDJ,CqBnxDE,kBACE,oBrBqxDJ,CqBlxDI,mCAGE,kBAAA,CAFA,YAAA,CACA,SAAA,CAEA,iBrBoxDN,CqBhxDI,oCAIE,kBAAA,CAHA,mBAAA,CACA,kBAAA,CACA,SAAA,CAGA,QAAA,CADA,iBrBmxDN,CqB9wDI,0DACE,kBrBgxDN,CqBjxDI,0DACE,iBrBgxDN,CqB5wDI,iDACE,uBAAA,CAEA,YrB6wDN,CqBxwDE,4BACE,YrB0wDJ,CqBnwDA,YAGE,kBAAA,CAFA,YAAA,CAIA,eAAA,CAHA,SAAA,CAIA,eAAA,CAFA,UrBwwDF,CqBnwDE,yBACE,WrBqwDJ,CqB9vDA,kBACE,YrBiwDF,CKzrDI,0CgBzEJ,kBAKI,wBrBiwDF,CACF,CqB9vDE,qCACE,WrBgwDJ,CKptDI,sCgB7CF,+CAKI,kBrBgwDJ,CqBrwDA,+CAKI,mBrBgwDJ,CACF,CKtsDI,0CgBrDJ,6BAMI,SAAA,CAFA,eAAA,CACA,UrB6vDF,CqB1vDE,qDACE,gBrB4vDJ,CqBzvDE,gDACE,SrB2vDJ,CqBxvDE,4CACE,iBAAA,CAAA,kBrB0vDJ,CqBvvDE,2CAEE,WAAA,CADA,crB0vDJ,CqBtvDE,2CACE,mBAAA,CACA,cAAA,CACA,SAAA,CACA,oBAAA,CAAA,iBrBwvDJ,CqBrvDE,2CACE,SrBuvDJ,CqBpvDE,qCAEE,WAAA,CACA,eAAA,CAFA,erBwvDJ,CACF,CsBl6DA,MACE,qBAAA,CACA,yBtBq6DF,CsB/5DA,aAME,qCAAA,CADA,cAAA,CAEA,0FACE,CAPF,cAAA,CACA,KAAA,CAaA,mDAAA,CACA,qBAAA,CAJA,wFACE,CATF,UAAA,CADA,StBy6DF,CuBp7DA,MACE,igBvBu7DF,CuBj7DA,WACE,iBvBo7DF,CKtxDI,mCkB/JJ,WAKI,evBo7DF,CACF,CuBj7DE,kBACE,YvBm7DJ,CuB/6DE,oBAEE,SAAA,CADA,SvBk7DJ,CK/wDI,0CkBpKF,8BAkBI,YvB+6DJ,CuBj8DA,8BAkBI,avB+6DJ,CuBj8DA,oBAYI,2CAAA,CACA,kBAAA,CAJA,WAAA,CACA,eAAA,CACA,mBAAA,CALA,iBAAA,CACA,SAAA,CAUA,uBAAA,CAHA,4CACE,CAPF,UvBy7DJ,CuB56DI,+DACE,SAAA,CACA,oCvB86DN,CACF,CKrzDI,mCkBjJF,8BAyCI,MvBw6DJ,CuBj9DA,8BAyCI,OvBw6DJ,CuBj9DA,oBAoCI,0BAAA,CADA,cAAA,CADA,QAAA,CAHA,cAAA,CACA,KAAA,CAKA,sDACE,CALF,OvBg7DJ,CuBr6DI,+DAME,YAAA,CACA,SAAA,CACA,4CACE,CARF,UvB06DN,CACF,CKpzDI,0CkBxGA,+DAII,mBvB45DN,CACF,CKl2DM,+DkB/DF,+DASI,mBvB45DN,CACF,CKv2DM,+DkB/DF,+DAcI,mBvB45DN,CACF,CuBv5DE,kBAEE,kCAAA,CAAA,0BvBw5DJ,CKt0DI,0CkBpFF,4BAmBI,MvBo5DJ,CuBv6DA,4BAmBI,OvBo5DJ,CuBv6DA,kBAUI,QAAA,CAEA,SAAA,CADA,eAAA,CALA,cAAA,CACA,KAAA,CAWA,wBAAA,CALA,qGACE,CALF,OAAA,CADA,SvB+5DJ,CuBj5DI,4BACE,yBvBm5DN,CuB/4DI,6DAEE,WAAA,CACA,SAAA,CAMA,uBAAA,CALA,sGACE,CAJF,UvBq5DN,CACF,CKj3DI,mCkBjEF,4BA2CI,WvB+4DJ,CuB17DA,4BA2CI,UvB+4DJ,CuB17DA,kBA6CI,eAAA,CAHA,iBAAA,CAIA,8CAAA,CAFA,avB84DJ,CACF,CKh5DM,+DkBOF,6DAII,avBy4DN,CACF,CK/3DI,sCkBfA,6DASI,avBy4DN,CACF,CuBp4DE,iBAIE,2CAAA,CACA,0BAAA,CAFA,aAAA,CAFA,iBAAA,CAKA,2CACE,CALF,SvB04DJ,CK54DI,mCkBAF,iBAaI,0BAAA,CACA,mBAAA,CAFA,avBs4DJ,CuBj4DI,uBACE,0BvBm4DN,CACF,CuB/3DI,4DAEE,2CAAA,CACA,6BAAA,CACA,8BAAA,CAHA,gCvBo4DN,CuB53DE,4BAKE,mBAAA,CAAA,oBvBi4DJ,CuBt4DE,4BAKE,mBAAA,CAAA,oBvBi4DJ,CuBt4DE,kBAQE,gBAAA,CAFA,eAAA,CAFA,WAAA,CAHA,iBAAA,CAMA,sBAAA,CAJA,UAAA,CADA,SvBo4DJ,CuB33DI,+BACE,qBvB63DN,CuBz3DI,kEAEE,uCvB03DN,CuBt3DI,6BACE,YvBw3DN,CK55DI,0CkBaF,kBA8BI,eAAA,CADA,aAAA,CADA,UvBy3DJ,CACF,CKt7DI,mCkBgCF,4BAmCI,mBvBy3DJ,CuB55DA,4BAmCI,oBvBy3DJ,CuB55DA,kBAqCI,aAAA,CADA,evBw3DJ,CuBp3DI,+BACE,uCvBs3DN,CuBl3DI,mCACE,gCvBo3DN,CuBh3DI,6DACE,kBvBk3DN,CuB/2DM,8EACE,uCvBi3DR,CuB72DM,0EACE,WvB+2DR,CACF,CuBz2DE,iBAIE,cAAA,CAHA,oBAAA,CAEA,aAAA,CAEA,kCACE,CAJF,YvB82DJ,CuBt2DI,uBACE,UvBw2DN,CuBp2DI,yCAGE,UvBu2DN,CuB12DI,yCAGE,WvBu2DN,CuB12DI,+BACE,iBAAA,CACA,SAAA,CAEA,SvBs2DN,CuBn2DM,6CACE,oBvBq2DR,CK58DI,0CkB+FA,yCAcI,UvBo2DN,CuBl3DE,yCAcI,WvBo2DN,CuBl3DE,+BAaI,SvBq2DN,CuBj2DM,+CACE,YvBm2DR,CACF,CKx+DI,mCkBkHA,+BAwBI,mBvBk2DN,CuB/1DM,8CACE,YvBi2DR,CACF,CuB31DE,8BAGE,WvB+1DJ,CuBl2DE,8BAGE,UvB+1DJ,CuBl2DE,oBAKE,mBAAA,CAJA,iBAAA,CACA,SAAA,CAEA,SvB81DJ,CKp+DI,0CkBkIF,8BAUI,WvB61DJ,CuBv2DA,8BAUI,UvB61DJ,CuBv2DA,oBASI,SvB81DJ,CACF,CuB11DI,uCACE,iBvBg2DN,CuBj2DI,uCACE,kBvBg2DN,CuBj2DI,6BAEE,uCAAA,CACA,SAAA,CAIA,oBAAA,CAHA,+DvB61DN,CuBv1DM,iDAEE,uCAAA,CADA,YvB01DR,CuBr1DM,gGAGE,SAAA,CADA,mBAAA,CAEA,kBvBs1DR,CuBn1DQ,sGACE,UvBq1DV,CuB90DE,8BAOE,mBAAA,CAAA,oBvBq1DJ,CuB51DE,8BAOE,mBAAA,CAAA,oBvBq1DJ,CuB51DE,oBAIE,kBAAA,CAKA,yCAAA,CANA,YAAA,CAKA,eAAA,CAFA,WAAA,CAKA,SAAA,CAVA,iBAAA,CACA,KAAA,CAUA,uBAAA,CAFA,kBAAA,CALA,UvBu1DJ,CK9hEI,mCkBkMF,8BAgBI,mBvBi1DJ,CuBj2DA,8BAgBI,oBvBi1DJ,CuBj2DA,oBAiBI,evBg1DJ,CACF,CuB70DI,+DACE,SAAA,CACA,0BvB+0DN,CuB10DE,6BAKE,+BvB60DJ,CuBl1DE,0DAME,gCvB40DJ,CuBl1DE,6BAME,+BvB40DJ,CuBl1DE,mBAIE,eAAA,CAHA,iBAAA,CAEA,UAAA,CADA,SvBg1DJ,CK7hEI,0CkB2MF,mBAWI,QAAA,CADA,UvB60DJ,CACF,CKtjEI,mCkB8NF,mBAiBI,SAAA,CADA,UAAA,CAEA,sBvB40DJ,CuBz0DI,8DACE,8BAAA,CACA,SvB20DN,CACF,CuBt0DE,uBASE,kCAAA,CAAA,0BAAA,CAFA,2CAAA,CANA,WAAA,CACA,eAAA,CAIA,kBvBu0DJ,CuBj0DI,iEAZF,uBAaI,uBvBo0DJ,CACF,CKnmEM,+DkBiRJ,uBAkBI,avBo0DJ,CACF,CKllEI,sCkB2PF,uBAuBI,avBo0DJ,CACF,CKvlEI,mCkB2PF,uBA4BI,YAAA,CAEA,yDAAA,CADA,oBvBq0DJ,CuBj0DI,kEACE,evBm0DN,CuB/zDI,6BACE,+CvBi0DN,CuB7zDI,0CAEE,YAAA,CADA,WvBg0DN,CuB3zDI,gDACE,oDvB6zDN,CuB1zDM,sDACE,0CvB4zDR,CACF,CuBrzDA,kBACE,gCAAA,CACA,qBvBwzDF,CuBrzDE,wBAKE,qDAAA,CADA,uCAAA,CAFA,gBAAA,CACA,kBAAA,CAFA,eAAA,CAKA,uBvBuzDJ,CK3nEI,mCkB8TF,kCAUI,mBvBuzDJ,CuBj0DA,kCAUI,oBvBuzDJ,CACF,CuBnzDE,wBAGE,eAAA,CADA,QAAA,CADA,SAAA,CAIA,wBAAA,CAAA,gBvBozDJ,CuBhzDE,wBACE,yDvBkzDJ,CuB/yDI,oCACE,evBizDN,CuB5yDE,wBACE,aAAA,CACA,YAAA,CAEA,uBAAA,CADA,gCvB+yDJ,CuB3yDI,4DACE,uDvB6yDN,CuBzyDI,gDACE,mBvB2yDN,CuBtyDE,gCAKE,cAAA,CADA,aAAA,CAEA,YAAA,CALA,eAAA,CAMA,uBAAA,CALA,KAAA,CACA,SvB4yDJ,CuBryDI,wCACE,YvBuyDN,CuBlyDI,wDACE,YvBoyDN,CuBhyDI,oCAGE,+BAAA,CADA,gBAAA,CADA,mBAAA,CAGA,2CvBkyDN,CK7qEI,mCkBuYA,8CAUI,mBvBgyDN,CuB1yDE,8CAUI,oBvBgyDN,CACF,CuB5xDI,oFAEE,uDAAA,CADA,+BvB+xDN,CuBzxDE,sCACE,2CvB2xDJ,CuBtxDE,2BAGE,eAAA,CADA,eAAA,CADA,iBvB0xDJ,CK9rEI,mCkBmaF,qCAOI,mBvBwxDJ,CuB/xDA,qCAOI,oBvBwxDJ,CACF,CuBpxDE,kCAEE,MvB0xDJ,CuB5xDE,kCAEE,OvB0xDJ,CuB5xDE,wBAME,uCAAA,CAFA,aAAA,CACA,YAAA,CAJA,iBAAA,CAEA,YvByxDJ,CKxrEI,0CkB4ZF,wBAUI,YvBsxDJ,CACF,CuBnxDI,8BAKE,6BAAA,CADA,UAAA,CAHA,oBAAA,CAEA,WAAA,CAGA,+CAAA,CAAA,uCAAA,CACA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CAPA,UvB4xDN,CuBlxDM,wCACE,oBvBoxDR,CuB9wDE,8BAGE,uCAAA,CAFA,gBAAA,CACA,evBixDJ,CuB7wDI,iCAKE,gCAAA,CAHA,eAAA,CACA,eAAA,CACA,eAAA,CAHA,evBmxDN,CuB5wDM,sCACE,oBvB8wDR,CuBzwDI,iCAKE,gCAAA,CAHA,gBAAA,CACA,eAAA,CACA,eAAA,CAHA,avB+wDN,CuBxwDM,sCACE,oBvB0wDR,CuBpwDE,yBAKE,gCAAA,CAJA,aAAA,CAEA,gBAAA,CACA,iBAAA,CAFA,avBywDJ,CuBlwDE,uBAGE,wBAAA,CAFA,+BAAA,CACA,yBvBqwDJ,CwBz6EA,WACE,iBAAA,CACA,SxB46EF,CwBz6EE,kBAOE,2CAAA,CACA,mBAAA,CACA,8BAAA,CAHA,gCAAA,CAHA,QAAA,CAEA,gBAAA,CADA,YAAA,CAMA,SAAA,CATA,iBAAA,CACA,sBAAA,CAaA,mCAAA,CAJA,oExB46EJ,CwBr6EI,6EACE,gBAAA,CACA,SAAA,CAKA,+BAAA,CAJA,8ExBw6EN,CwBh6EI,wBAWE,+BAAA,CAAA,8CAAA,CAFA,6BAAA,CAAA,8BAAA,CACA,YAAA,CAFA,UAAA,CAHA,QAAA,CAFA,QAAA,CAIA,kBAAA,CADA,iBAAA,CALA,iBAAA,CACA,KAAA,CAEA,OxBy6EN,CwB75EE,iBAOE,mBAAA,CAFA,eAAA,CACA,oBAAA,CAHA,QAAA,CAFA,kBAAA,CAGA,aAAA,CAFA,SxBo6EJ,CwB35EE,iBACE,kBxB65EJ,CwBz5EE,2BAGE,kBAAA,CAAA,oBxB+5EJ,CwBl6EE,2BAGE,mBAAA,CAAA,mBxB+5EJ,CwBl6EE,iBAIE,cAAA,CAHA,aAAA,CAIA,YAAA,CAIA,uBAAA,CAHA,2CACE,CALF,UxBg6EJ,CwBt5EI,8CACE,+BxBw5EN,CwBp5EI,uBACE,qDxBs5EN,CyB1+EA,YAIE,qBAAA,CADA,aAAA,CAGA,gBAAA,CALA,eAAA,CACA,UAAA,CAGA,azB8+EF,CyB1+EE,aATF,YAUI,YzB6+EF,CACF,CK/zEI,0CoB3KF,+BAeI,azBw+EJ,CyBv/EA,+BAeI,czBw+EJ,CyBv/EA,qBAUI,2CAAA,CAHA,aAAA,CAEA,WAAA,CALA,cAAA,CACA,KAAA,CASA,uBAAA,CAHA,iEACE,CAJF,aAAA,CAFA,SzBi/EJ,CyBr+EI,mEACE,8BAAA,CACA,6BzBu+EN,CyBp+EM,6EACE,8BzBs+ER,CyBj+EI,6CAEE,QAAA,CAAA,MAAA,CACA,QAAA,CAEA,eAAA,CAJA,iBAAA,CACA,OAAA,CAEA,qBAAA,CAFA,KzBs+EN,CACF,CK92EI,sCoBtKJ,YAuDI,QzBi+EF,CyB99EE,mBACE,WzBg+EJ,CyB59EE,6CACE,UzB89EJ,CACF,CyB19EE,uBACE,YAAA,CACA,OzB49EJ,CK73EI,mCoBjGF,uBAMI,QzB49EJ,CyBz9EI,8BACE,WzB29EN,CyBv9EI,qCACE,azBy9EN,CyBr9EI,+CACE,kBzBu9EN,CACF,CyBl9EE,wBAUE,uBAAA,CANA,kCAAA,CAAA,0BAAA,CAHA,cAAA,CACA,eAAA,CASA,yDAAA,CAFA,oBzBi9EJ,CyB58EI,2CAEE,YAAA,CADA,WzB+8EN,CyB18EI,mEACE,+CzB48EN,CyBz8EM,qHACE,oDzB28ER,CyBx8EQ,iIACE,0CzB08EV,CyB37EE,wCAGE,wBACE,qBzB27EJ,CyBv7EE,6BACE,kCzBy7EJ,CyB17EE,6BACE,iCzBy7EJ,CACF,CKr5EI,0CoB5BF,YAME,0BAAA,CADA,QAAA,CAEA,SAAA,CANA,cAAA,CACA,KAAA,CAMA,sDACE,CALF,OAAA,CADA,SzB07EF,CyB/6EE,4CAEE,WAAA,CACA,SAAA,CACA,4CACE,CAJF,UzBo7EJ,CACF,C0BjmFA,iBACE,GACE,Q1BmmFF,C0BhmFA,GACE,a1BkmFF,CACF,C0B9lFA,gBACE,GACE,SAAA,CACA,0B1BgmFF,C0B7lFA,IACE,S1B+lFF,C0B5lFA,GACE,SAAA,CACA,uB1B8lFF,CACF,C0BtlFA,MACE,+eAAA,CACA,ygBAAA,CACA,mmBAAA,CACA,sf1BwlFF,C0BllFA,WAOE,kCAAA,CAAA,0BAAA,CANA,aAAA,CACA,gBAAA,CACA,eAAA,CAEA,uCAAA,CAGA,uBAAA,CAJA,kB1BwlFF,C0BjlFE,iBACE,U1BmlFJ,C0B/kFE,iBACE,oBAAA,CAEA,aAAA,CACA,qBAAA,CAFA,U1BmlFJ,C0B9kFI,+BACE,iB1BilFN,C0BllFI,+BACE,kB1BilFN,C0BllFI,qBAEE,gB1BglFN,C0B5kFI,kDACE,iB1B+kFN,C0BhlFI,kDACE,kB1B+kFN,C0BhlFI,kDAEE,iB1B8kFN,C0BhlFI,kDAEE,kB1B8kFN,C0BzkFE,iCAGE,iB1B8kFJ,C0BjlFE,iCAGE,kB1B8kFJ,C0BjlFE,uBACE,oBAAA,CACA,6BAAA,CAEA,eAAA,CACA,sBAAA,CACA,qB1B2kFJ,C0BvkFE,kBACE,YAAA,CAMA,gBAAA,CALA,SAAA,CAMA,oBAAA,CAHA,gBAAA,CAIA,WAAA,CAHA,eAAA,CAFA,SAAA,CADA,U1B+kFJ,C0BtkFI,iDACE,4B1BwkFN,C0BnkFE,iBACE,eAAA,CACA,sB1BqkFJ,C0BlkFI,gDACE,2B1BokFN,C0BhkFI,kCAIE,kB1BwkFN,C0B5kFI,kCAIE,iB1BwkFN,C0B5kFI,wBAOE,6BAAA,CADA,UAAA,CALA,oBAAA,CAEA,YAAA,CAKA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CALA,uBAAA,CAHA,W1B0kFN,C0B9jFI,iCACE,a1BgkFN,C0B5jFI,iCACE,gDAAA,CAAA,wC1B8jFN,C0B1jFI,+BACE,8CAAA,CAAA,sC1B4jFN,C0BxjFI,+BACE,8CAAA,CAAA,sC1B0jFN,C0BtjFI,sCACE,qDAAA,CAAA,6C1BwjFN,C0BljFA,gBACE,Y1BqjFF,C0BljFE,gCAIE,kB1BsjFJ,C0B1jFE,gCAIE,iB1BsjFJ,C0B1jFE,sBAGE,kBAAA,CAGA,uCAAA,CALA,mBAAA,CAIA,gBAAA,CAHA,S1BwjFJ,C0BjjFI,+BACE,aAAA,CACA,oB1BmjFN,C0B/iFI,2CACE,U1BkjFN,C0BnjFI,2CACE,W1BkjFN,C0BnjFI,iCAEE,kB1BijFN,C0B7iFI,0BACE,W1B+iFN,C2BtuFA,MACE,mSAAA,CACA,oVAAA,CACA,mOAAA,CACA,qZ3ByuFF,C2BhuFE,iBAME,kDAAA,CADA,UAAA,CAJA,oBAAA,CAEA,cAAA,CAIA,mCAAA,CAAA,2BAAA,CACA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CANA,0BAAA,CAFA,a3B2uFJ,C2B/tFE,uBACE,6B3BiuFJ,C2B7tFE,sBACE,wCAAA,CAAA,gC3B+tFJ,C2B3tFE,6BACE,+CAAA,CAAA,uC3B6tFJ,C2BztFE,4BACE,8CAAA,CAAA,sC3B2tFJ,C4BtwFA,SASE,2CAAA,CADA,gCAAA,CAJA,aAAA,CAGA,eAAA,CADA,aAAA,CADA,UAAA,CAFA,S5B6wFF,C4BpwFE,aAZF,SAaI,Y5BuwFF,CACF,CK5lFI,0CuBzLJ,SAkBI,Y5BuwFF,CACF,C4BpwFE,iBACE,mB5BswFJ,C4BlwFE,yBAIE,iB5BywFJ,C4B7wFE,yBAIE,kB5BywFJ,C4B7wFE,eAQE,eAAA,CAPA,YAAA,CAMA,eAAA,CAJA,QAAA,CAEA,aAAA,CAHA,SAAA,CAWA,oBAAA,CAPA,kB5BuwFJ,C4B7vFI,kCACE,Y5B+vFN,C4B1vFE,eACE,aAAA,CACA,kBAAA,CAAA,mB5B4vFJ,C4BzvFI,sCACE,aAAA,CACA,S5B2vFN,C4BrvFE,eAOE,kCAAA,CAAA,0BAAA,CANA,YAAA,CAEA,eAAA,CADA,gBAAA,CAMA,UAAA,CAJA,uCAAA,CACA,oBAAA,CAIA,8D5BsvFJ,C4BjvFI,0CACE,aAAA,CACA,S5BmvFN,C4B/uFI,6BAEE,kB5BkvFN,C4BpvFI,6BAEE,iB5BkvFN,C4BpvFI,mBAGE,iBAAA,CAFA,Y5BmvFN,C4B5uFM,2CACE,qB5B8uFR,C4B/uFM,2CACE,qB5BivFR,C4BlvFM,2CACE,qB5BovFR,C4BrvFM,2CACE,qB5BuvFR,C4BxvFM,2CACE,oB5B0vFR,C4B3vFM,2CACE,qB5B6vFR,C4B9vFM,2CACE,qB5BgwFR,C4BjwFM,2CACE,qB5BmwFR,C4BpwFM,4CACE,qB5BswFR,C4BvwFM,4CACE,oB5BywFR,C4B1wFM,4CACE,qB5B4wFR,C4B7wFM,4CACE,qB5B+wFR,C4BhxFM,4CACE,qB5BkxFR,C4BnxFM,4CACE,qB5BqxFR,C4BtxFM,4CACE,oB5BwxFR,C4BlxFI,gCACE,SAAA,CAIA,yBAAA,CAHA,wC5BqxFN,C6Bx3FA,MACE,wS7B23FF,C6Bl3FE,mCACE,mBAAA,CACA,cAAA,CACA,QAAA,CAEA,mBAAA,CADA,kB7Bs3FJ,C6Bj3FE,oBAGE,kBAAA,CAOA,+CAAA,CACA,oBAAA,CAVA,mBAAA,CAIA,gBAAA,CACA,0BAAA,CACA,eAAA,CALA,QAAA,CAOA,qBAAA,CADA,eAAA,CAJA,wB7B03FJ,C6Bh3FI,0BAGE,uCAAA,CAFA,aAAA,CACA,YAAA,CAEA,6C7Bk3FN,C6B72FM,gEAEE,0CAAA,CADA,+B7Bg3FR,C6B12FI,yBACE,uB7B42FN,C6Bp2FI,gCAME,oDAAA,CADA,UAAA,CAJA,oBAAA,CAEA,YAAA,CAKA,qCAAA,CAAA,6BAAA,CACA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CAJA,iCAAA,CAHA,0BAAA,CAFA,W7B+2FN,C6Bl2FI,wFACE,0C7Bo2FN,C8B96FA,iBACE,GACE,oB9Bi7FF,C8B96FA,IACE,kB9Bg7FF,C8B76FA,GACE,oB9B+6FF,CACF,C8Bv6FA,MACE,0NAAA,CACA,uP9B06FF,C8Bn6FA,YA6BE,kCAAA,CAAA,0BAAA,CAVA,2CAAA,CACA,mBAAA,CACA,8BAAA,CAHA,gCAAA,CADA,sCAAA,CAdA,+IACE,CAYF,8BAAA,CAMA,SAAA,CArBA,iBAAA,CACA,uBAAA,CAyBA,4BAAA,CAJA,uDACE,CATF,6BAAA,CADA,S9Bu6FF,C8Br5FE,oBAEE,SAAA,CAKA,uBAAA,CAJA,2EACE,CAHF,S9B05FJ,C8Bh5FE,oBAEE,eAAA,CACA,wBAAA,CAAA,gBAAA,CAFA,U9Bo5FJ,C8B/4FI,6CACE,qC9Bi5FN,C8B74FI,uCAEE,eAAA,CADA,mB9Bg5FN,C8B14FI,6BACE,Y9B44FN,C8Bv4FE,8CACE,sC9By4FJ,C8Br4FE,mBAEE,gBAAA,CADA,a9Bw4FJ,C8Bp4FI,2CACE,Y9Bs4FN,C8Bl4FI,0CACE,e9Bo4FN,C8B53FA,eACE,eAAA,CAGA,YAAA,CADA,0BAAA,CADA,kB9Bi4FF,C8B53FE,yBACE,a9B83FJ,C8B13FE,oBACE,sCAAA,CACA,iB9B43FJ,C8Bx3FE,6BACE,oBAAA,CAGA,gB9Bw3FJ,C8Bp3FE,sBAmBE,mBAAA,CAbA,cAAA,CAHA,oBAAA,CACA,gBAAA,CAAA,iBAAA,CAIA,YAAA,CAUA,eAAA,CAjBA,iBAAA,CAMA,wBAAA,CAAA,gBAAA,CAFA,uBAAA,CAHA,S9B83FJ,C8Bp3FI,qCACE,uB9Bs3FN,C8B72FI,cAtBF,sBAuBI,W9Bg3FJ,C8B72FI,wCACE,2B9B+2FN,C8B32FI,6BAOE,qCAAA,CACA,+CAAA,CAAA,uC9Bg3FN,C8Bt2FI,yDAZE,UAAA,CADA,YAAA,CAIA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CAVA,iBAAA,CACA,SAAA,CAEA,WAAA,CADA,U9Bo4FN,C8Br3FI,4BAOE,oDAAA,CAMA,4CAAA,CAAA,oCAAA,CADA,uBAAA,CAJA,+C9B62FN,C8Bl2FM,gDACE,uB9Bo2FR,C8Bh2FM,mFACE,0C9Bk2FR,CACF,C8B71FI,0CAGE,2BAAA,CADA,uBAAA,CADA,S9Bi2FN,C8B31FI,8CACE,oB9B61FN,C8B11FM,aAJF,8CASI,8CAAA,CACA,iBAAA,CAHA,gCAAA,CADA,eAAA,CADA,cAAA,CAGA,kB9B+1FN,C8B11FM,oDACE,mC9B41FR,CACF,C8Bh1FE,gCAEE,iBAAA,CADA,e9Bo1FJ,C8Bh1FI,mCACE,iB9Bk1FN,C8B/0FM,oDAGE,a9B61FR,C8Bh2FM,oDAGE,c9B61FR,C8Bh2FM,0CAcE,8CAAA,CACA,iBAAA,CALA,gCAAA,CAEA,oBAAA,CACA,qBAAA,CANA,iBAAA,CACA,eAAA,CAHA,UAAA,CAIA,gBAAA,CALA,aAAA,CAEA,cAAA,CALA,iBAAA,CAUA,iBAAA,CATA,S9B81FR,C+B5mGA,MACE,wBAAA,CACA,wB/B+mGF,C+BzmGA,aA+BE,kCAAA,CAAA,0BAAA,CAjBA,gCAAA,CADA,sCAAA,CAGA,SAAA,CADA,mBAAA,CAdA,iBAAA,CAGA,wDACE,CAgBF,4BAAA,CAGA,uEACE,CARF,uDACE,CATF,UAAA,CAGA,S/B4mGF,C+BtlGE,oBAuBE,8CAAA,CAAA,+CAAA,CADA,UAAA,CADA,aAAA,CAfA,gJACE,CANF,iBAAA,CAmBA,S/B0kGJ,C+BnkGE,yBAGE,kEAAA,CAFA,gDAAA,CACA,6C/BskGJ,C+BjkGE,4BAGE,qEAAA,CADA,8CAAA,CADA,6C/BqkGJ,C+B/jGE,qBAEE,SAAA,CAKA,uBAAA,CAJA,wEACE,CAHF,S/BokGJ,C+B1jGE,oBAyBE,uBAAA,CAJA,2CAAA,CACA,mBAAA,CACA,8BAAA,CAjBA,0FACE,CAaF,eAAA,CADA,8BAAA,CAlBA,iBAAA,CAuBA,oB/B6iGJ,C+BziGI,uCAEE,YAAA,CADA,W/B4iGN,C+BviGI,6CACE,oD/ByiGN,C+BtiGM,mDACE,0C/BwiGR,C+BhiGI,mCAwBE,eAAA,CACA,eAAA,CAxBA,oIACE,CAgBF,sCACE,CAIF,mBAAA,CAKA,wBAAA,CAAA,gBAAA,CAbA,sBAAA,CAAA,iB/B0hGN,C+BzgGI,4CACE,Y/B2gGN,C+BvgGI,2CACE,e/BygGN,CgC5rGA,kBAME,ehCwsGF,CgC9sGA,kBAME,gBhCwsGF,CgC9sGA,QAUE,2CAAA,CACA,oBAAA,CAEA,8BAAA,CALA,uCAAA,CACA,cAAA,CALA,aAAA,CAGA,eAAA,CAKA,YAAA,CAPA,mBAAA,CAJA,cAAA,CACA,UAAA,CAiBA,yBAAA,CALA,mGACE,CAZF,ShC2sGF,CgCxrGE,aAtBF,QAuBI,YhC2rGF,CACF,CgCxrGE,kBACE,wBhC0rGJ,CgCtrGE,gBAEE,SAAA,CADA,mBAAA,CAGA,+BAAA,CADA,uBhCyrGJ,CgCrrGI,0BACE,8BhCurGN,CgClrGE,4BAEE,0CAAA,CADA,+BhCqrGJ,CgChrGE,YACE,oBAAA,CACA,oBhCkrGJ,CiCvuGA,oBACE,GACE,mBjC0uGF,CACF,CiCluGA,MACE,wfjCouGF,CiC9tGA,YACE,aAAA,CAEA,eAAA,CADA,ajCkuGF,CiC9tGE,+BAOE,kBAAA,CAAA,kBjC+tGJ,CiCtuGE,+BAOE,iBAAA,CAAA,mBjC+tGJ,CiCtuGE,qBAQE,aAAA,CACA,cAAA,CACA,YAAA,CATA,iBAAA,CAKA,UjCguGJ,CiCztGI,qCAIE,iBjCiuGN,CiCruGI,qCAIE,kBjCiuGN,CiCruGI,2BAME,6BAAA,CADA,UAAA,CAJA,oBAAA,CAEA,YAAA,CAIA,yCAAA,CAAA,iCAAA,CACA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CARA,WjCmuGN,CiCttGE,mBACE,iBAAA,CACA,UjCwtGJ,CiCptGE,kBAUE,2CAAA,CACA,mBAAA,CACA,8BAAA,CAJA,gCAAA,CACA,oBAAA,CAHA,kBAAA,CAFA,YAAA,CASA,SAAA,CANA,aAAA,CAFA,SAAA,CAJA,iBAAA,CAgBA,4BAAA,CAfA,UAAA,CAYA,+CACE,CAZF,SjCkuGJ,CiCjtGI,+EACE,gBAAA,CACA,SAAA,CACA,sCjCmtGN,CiC7sGI,qCAEE,oCACE,gCjC8sGN,CiC1sGI,2CACE,cjC4sGN,CACF,CiCvsGE,kBACE,kBjCysGJ,CiCrsGE,4BAGE,kBAAA,CAAA,oBjC4sGJ,CiC/sGE,4BAGE,mBAAA,CAAA,mBjC4sGJ,CiC/sGE,kBAKE,cAAA,CAJA,aAAA,CAKA,YAAA,CAIA,uBAAA,CAHA,2CACE,CAJF,kBAAA,CAFA,UjC6sGJ,CiClsGI,gDACE,+BjCosGN,CiChsGI,wBACE,qDjCksGN,CkCxyGA,MAEI,uWAAA,CAAA,8WAAA,CAAA,sPAAA,CAAA,8xBAAA,CAAA,0MAAA,CAAA,gbAAA,CAAA,gMAAA,CAAA,iQAAA,CAAA,0VAAA,CAAA,6aAAA,CAAA,8SAAA,CAAA,gMlCi0GJ,CkCrzGE,4CAME,8CAAA,CACA,4BAAA,CACA,mBAAA,CACA,8BAAA,CAJA,mCAAA,CAJA,iBAAA,CAGA,gBAAA,CADA,iBAAA,CADA,eAAA,CASA,uBAAA,CADA,2BlCyzGJ,CkCrzGI,aAdF,4CAeI,elCwzGJ,CACF,CkCrzGI,sEACE,gClCuzGN,CkClzGI,gDACE,qBlCozGN,CkChzGI,gIAEE,iBAAA,CADA,clCmzGN,CkC9yGI,4FACE,iBlCgzGN,CkC5yGI,kFACE,elC8yGN,CkC1yGI,0FACE,YlC4yGN,CkCxyGI,8EACE,mBlC0yGN,CkCryGE,sEAGE,iBAAA,CAAA,mBlC+yGJ,CkClzGE,sEAGE,kBAAA,CAAA,kBlC+yGJ,CkClzGE,sEASE,uBlCyyGJ,CkClzGE,sEASE,wBlCyyGJ,CkClzGE,sEAUE,4BlCwyGJ,CkClzGE,4IAWE,6BlCuyGJ,CkClzGE,sEAWE,4BlCuyGJ,CkClzGE,kDAOE,0BAAA,CACA,WAAA,CAFA,eAAA,CADA,eAAA,CAHA,oBAAA,CAAA,iBAAA,CADA,iBlCizGJ,CkCpyGI,kFACE,elCsyGN,CkClyGI,oFAOE,UlCwyGN,CkC/yGI,oFAOE,WlCwyGN,CkC/yGI,gEAME,wBhBkIU,CgBnIV,UAAA,CADA,WAAA,CAIA,kDAAA,CAAA,0CAAA,CACA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CAVA,iBAAA,CACA,UAAA,CACA,UlC4yGN,CkChyGI,4DACE,4DlCkyGN,CkCpxGE,sDACE,oBlCuxGJ,CkCpxGI,gFACE,gClCsxGN,CkCjxGE,8DACE,0BlCoxGJ,CkCjxGI,4EACE,wBAlBG,CAmBH,kDAAA,CAAA,0ClCmxGN,CkC/wGI,0EACE,alCixGN,CkCtyGE,8DACE,oBlCyyGJ,CkCtyGI,wFACE,gClCwyGN,CkCnyGE,sEACE,0BlCsyGJ,CkCnyGI,oFACE,wBAlBG,CAmBH,sDAAA,CAAA,8ClCqyGN,CkCjyGI,kFACE,alCmyGN,CkCxzGE,sDACE,oBlC2zGJ,CkCxzGI,gFACE,gClC0zGN,CkCrzGE,8DACE,0BlCwzGJ,CkCrzGI,4EACE,wBAlBG,CAmBH,kDAAA,CAAA,0ClCuzGN,CkCnzGI,0EACE,alCqzGN,CkC10GE,oDACE,oBlC60GJ,CkC10GI,8EACE,gClC40GN,CkCv0GE,4DACE,0BlC00GJ,CkCv0GI,0EACE,wBAlBG,CAmBH,iDAAA,CAAA,yClCy0GN,CkCr0GI,wEACE,alCu0GN,CkC51GE,4DACE,oBlC+1GJ,CkC51GI,sFACE,gClC81GN,CkCz1GE,oEACE,0BlC41GJ,CkCz1GI,kFACE,wBAlBG,CAmBH,qDAAA,CAAA,6ClC21GN,CkCv1GI,gFACE,alCy1GN,CkC92GE,8DACE,oBlCi3GJ,CkC92GI,wFACE,gClCg3GN,CkC32GE,sEACE,0BlC82GJ,CkC32GI,oFACE,wBAlBG,CAmBH,sDAAA,CAAA,8ClC62GN,CkCz2GI,kFACE,alC22GN,CkCh4GE,4DACE,oBlCm4GJ,CkCh4GI,sFACE,gClCk4GN,CkC73GE,oEACE,0BlCg4GJ,CkC73GI,kFACE,wBAlBG,CAmBH,qDAAA,CAAA,6ClC+3GN,CkC33GI,gFACE,alC63GN,CkCl5GE,4DACE,oBlCq5GJ,CkCl5GI,sFACE,gClCo5GN,CkC/4GE,oEACE,0BlCk5GJ,CkC/4GI,kFACE,wBAlBG,CAmBH,qDAAA,CAAA,6ClCi5GN,CkC74GI,gFACE,alC+4GN,CkCp6GE,0DACE,oBlCu6GJ,CkCp6GI,oFACE,gClCs6GN,CkCj6GE,kEACE,0BlCo6GJ,CkCj6GI,gFACE,wBAlBG,CAmBH,oDAAA,CAAA,4ClCm6GN,CkC/5GI,8EACE,alCi6GN,CkCt7GE,oDACE,oBlCy7GJ,CkCt7GI,8EACE,gClCw7GN,CkCn7GE,4DACE,0BlCs7GJ,CkCn7GI,0EACE,wBAlBG,CAmBH,iDAAA,CAAA,yClCq7GN,CkCj7GI,wEACE,alCm7GN,CkCx8GE,4DACE,oBlC28GJ,CkCx8GI,sFACE,gClC08GN,CkCr8GE,oEACE,0BlCw8GJ,CkCr8GI,kFACE,wBAlBG,CAmBH,qDAAA,CAAA,6ClCu8GN,CkCn8GI,gFACE,alCq8GN,CkC19GE,wDACE,oBlC69GJ,CkC19GI,kFACE,gClC49GN,CkCv9GE,gEACE,0BlC09GJ,CkCv9GI,8EACE,wBAlBG,CAmBH,mDAAA,CAAA,2ClCy9GN,CkCr9GI,4EACE,alCu9GN,CmC3nHA,MACE,wMnC8nHF,CmCrnHE,sBAEE,uCAAA,CADA,gBnCynHJ,CmCrnHI,mCACE,anCunHN,CmCxnHI,mCACE,cnCunHN,CmCnnHM,4BACE,sBnCqnHR,CmClnHQ,mCACE,gCnConHV,CmChnHQ,2DACE,SAAA,CAEA,uBAAA,CADA,enCmnHV,CmC9mHQ,yGACE,SAAA,CACA,uBnCgnHV,CmC5mHQ,yCACE,YnC8mHV,CmCvmHE,0BACE,eAAA,CACA,enCymHJ,CmCtmHI,+BACE,oBnCwmHN,CmCnmHE,gDACE,YnCqmHJ,CmCjmHE,8BAIE,+BAAA,CAHA,oBAAA,CAEA,WAAA,CAGA,SAAA,CAKA,4BAAA,CAJA,4DACE,CAHF,0BnCqmHJ,CmC5lHI,aAdF,8BAeI,+BAAA,CACA,SAAA,CACA,uBnC+lHJ,CACF,CmC5lHI,wCACE,6BnC8lHN,CmC1lHI,oCACE,+BnC4lHN,CmCxlHI,qCAKE,6BAAA,CADA,UAAA,CAHA,oBAAA,CAEA,YAAA,CAGA,2CAAA,CAAA,mCAAA,CACA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CAPA,WnCimHN,CmCplHQ,mDACE,oBnCslHV,CoCpsHE,kCAEE,iBpC0sHJ,CoC5sHE,kCAEE,kBpC0sHJ,CoC5sHE,wBAGE,yCAAA,CAFA,oBAAA,CAGA,SAAA,CACA,mCpCusHJ,CoClsHI,aAVF,wBAWI,YpCqsHJ,CACF,CoCjsHE,6FAEE,SAAA,CACA,mCpCmsHJ,CoC7rHE,4FAEE,+BpC+rHJ,CoC3rHE,oBACE,yBAAA,CACA,uBAAA,CAGA,yEpC2rHJ,CK5jHI,sC+BrHE,qDACE,uBpCorHN,CACF,CoC/qHE,kEACE,yBpCirHJ,CoC7qHE,sBACE,0BpC+qHJ,CqC1uHE,2BACE,arC6uHJ,CKxjHI,0CgCtLF,2BAKI,erC6uHJ,CqC1uHI,6BACE,iBrC4uHN,CACF,CqCxuHI,6BAEE,0BAAA,CAAA,2BAAA,CADA,eAAA,CAEA,iBrC0uHN,CqCvuHM,2CACE,kBrCyuHR,CqCnuHI,6CACE,QrCquHN,CsCjwHE,uBACE,4CtCqwHJ,CsChwHE,8CAJE,kCAAA,CAAA,0BtCwwHJ,CsCpwHE,uBACE,4CtCmwHJ,CsC9vHE,4BAEE,kCAAA,CAAA,0BAAA,CADA,qCtCiwHJ,CsC7vHI,mCACE,atC+vHN,CsC3vHI,kCACE,atC6vHN,CsCxvHE,0BAKE,eAAA,CAJA,aAAA,CAEA,YAAA,CACA,aAAA,CAFA,kBAAA,CAAA,mBtC6vHJ,CsCvvHI,uCACE,etCyvHN,CsCrvHI,sCACE,kBtCuvHN,CuCpyHA,MACE,8LvCuyHF,CuC9xHE,oBAGE,iBAAA,CAEA,gBAAA,CADA,avCgyHJ,CuC5xHI,wCACE,uBvC8xHN,CuC1xHI,gCAEE,eAAA,CADA,gBvC6xHN,CuCtxHM,wCACE,mBvCwxHR,CuClxHE,8BAKE,oBvCsxHJ,CuC3xHE,8BAKE,mBvCsxHJ,CuC3xHE,8BAUE,4BvCixHJ,CuC3xHE,4DAWE,6BvCgxHJ,CuC3xHE,8BAWE,4BvCgxHJ,CuC3xHE,oBASE,cAAA,CANA,aAAA,CACA,eAAA,CAIA,evCmxHJ,CuC7wHI,kCACE,uCAAA,CACA,oBvC+wHN,CuC3wHI,wCAEE,uCAAA,CADA,YvC8wHN,CuCzwHI,oCASE,WvC+wHN,CuCxxHI,oCASE,UvC+wHN,CuCxxHI,0BAME,6BAAA,CADA,UAAA,CADA,WAAA,CAMA,yCAAA,CAAA,iCAAA,CACA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CAZA,iBAAA,CACA,UAAA,CAMA,sBAAA,CADA,yBAAA,CAJA,UvCqxHN,CuCxwHM,oCACE,wBvC0wHR,CuCrwHI,4BACE,YvCuwHN,CuClwHI,4CACE,YvCowHN,CwC91HE,+DACE,sBAAA,CAEA,mBAAA,CACA,0BAAA,CACA,uBxCg2HJ,CwC71HI,2EAGE,iBAAA,CADA,eAAA,CADA,yBxCi2HN,CwC11HE,mEACE,0BxC41HJ,CwCx1HE,oBACE,qBxC01HJ,CwCt1HE,gBACE,oBxCw1HJ,CwCp1HE,gBACE,qBxCs1HJ,CwCl1HE,iBACE,kBxCo1HJ,CwCh1HE,kBACE,kBxCk1HJ,CyC33HE,6BACE,sCzC83HJ,CyC33HE,cACE,yCzC63HJ,CyCj3HE,sIACE,oCzCm3HJ,CyC32HE,2EACE,qCzC62HJ,CyCn2HE,wGACE,oCzCq2HJ,CyC51HE,yFACE,qCzC81HJ,CyCz1HE,6BACE,kCzC21HJ,CyCr1HE,6CACE,sCzCu1HJ,CyCh1HE,4DACE,sCzCk1HJ,CyC30HE,4DACE,qCzC60HJ,CyCp0HE,yFACE,qCzCs0HJ,CyC9zHE,2EACE,sCzCg0HJ,CyCrzHE,wHACE,qCzCuzHJ,CyClzHE,8BAGE,mBAAA,CADA,gBAAA,CADA,gBzCszHJ,CyCjzHE,eACE,4CzCmzHJ,CyChzHE,eACE,4CzCkzHJ,CyC9yHE,gBAIE,+CAAA,CACA,kDAAA,CAJA,aAAA,CAEA,wBAAA,CADA,wBzCmzHJ,CyC5yHE,yBAOE,wCAAA,CACA,+DAAA,CACA,4BAAA,CACA,6BAAA,CARA,iBAAA,CAGA,eAAA,CACA,eAAA,CAFA,cAAA,CADA,oCAAA,CAFA,iBzCuzHJ,CyC3yHI,6BACE,YzC6yHN,CyC1yHM,kCACE,wBAAA,CACA,yBzC4yHR,CyCtyHE,iCAaE,wCAAA,CACA,+DAAA,CAJA,uCAAA,CACA,0BAAA,CALA,UAAA,CAJA,oBAAA,CAOA,2BAAA,CADA,2BAAA,CADA,2BAAA,CANA,eAAA,CAWA,wBAAA,CAAA,gBAAA,CAPA,SzC+yHJ,CyC7xHE,sBACE,iBAAA,CACA,iBzC+xHJ,CyC1xHE,iCAKE,ezCwxHJ,CyCrxHI,sCACE,gBzCuxHN,CyCnxHI,gDACE,YzCqxHN,CyC3wHA,gBACE,iBzC8wHF,CyC1wHE,yCACE,aAAA,CACA,SzC4wHJ,CyCvwHE,mBACE,YzCywHJ,CyCpwHE,oBACE,QzCswHJ,CyClwHE,4BACE,WAAA,CACA,SAAA,CACA,ezCowHJ,CyCjwHI,0CACE,YzCmwHN,CyC7vHE,yBAKE,wCAAA,CAEA,+BAAA,CADA,4BAAA,CAHA,eAAA,CADA,oDAAA,CAEA,wBAAA,CAAA,gBzCkwHJ,CyC3vHE,2BAEE,+DAAA,CADA,2BzC8vHJ,CyC1vHI,+BACE,uCAAA,CACA,gBzC4vHN,CyCvvHE,sBACE,MAAA,CACA,WzCyvHJ,CyCpvHA,aACE,azCuvHF,CyC7uHE,4BAEE,aAAA,CADA,YzCivHJ,CyC7uHI,wDAEE,2BAAA,CADA,wBzCgvHN,CyC1uHE,+BAKE,2CAAA,CAEA,+BAAA,CADA,gCAAA,CADA,sBAAA,CAHA,mBAAA,CACA,gBAAA,CAFA,azCkvHJ,CyCzuHI,qCAEE,UAAA,CACA,UAAA,CAFA,azC6uHN,CKp3HI,0CoCsJF,8BACE,iBzCkuHF,CyCxtHE,wSAGE,ezC8tHJ,CyC1tHE,sCAEE,mBAAA,CACA,eAAA,CADA,oBAAA,CADA,kBAAA,CAAA,mBzC8tHJ,CACF,C0C3jII,yDAIE,+BAAA,CACA,8BAAA,CAFA,aAAA,CADA,QAAA,CADA,iB1CikIN,C0CzjII,uBAEE,uCAAA,CADA,c1C4jIN,C0CvgIM,iHAEE,WAlDkB,CAiDlB,kB1CkhIR,C0CnhIM,6HAEE,WAlDkB,CAiDlB,kB1C8hIR,C0C/hIM,6HAEE,WAlDkB,CAiDlB,kB1C0iIR,C0C3iIM,oHAEE,WAlDkB,CAiDlB,kB1CsjIR,C0CvjIM,0HAEE,WAlDkB,CAiDlB,kB1CkkIR,C0CnkIM,uHAEE,WAlDkB,CAiDlB,kB1C8kIR,C0C/kIM,uHAEE,WAlDkB,CAiDlB,kB1C0lIR,C0C3lIM,6HAEE,WAlDkB,CAiDlB,kB1CsmIR,C0CvmIM,yCAEE,WAlDkB,CAiDlB,kB1C0mIR,C0C3mIM,yCAEE,WAlDkB,CAiDlB,kB1C8mIR,C0C/mIM,0CAEE,WAlDkB,CAiDlB,kB1CknIR,C0CnnIM,uCAEE,WAlDkB,CAiDlB,kB1CsnIR,C0CvnIM,wCAEE,WAlDkB,CAiDlB,kB1C0nIR,C0C3nIM,sCAEE,WAlDkB,CAiDlB,kB1C8nIR,C0C/nIM,wCAEE,WAlDkB,CAiDlB,kB1CkoIR,C0CnoIM,oCAEE,WAlDkB,CAiDlB,kB1CsoIR,C0CvoIM,2CAEE,WAlDkB,CAiDlB,kB1C0oIR,C0C3oIM,qCAEE,WAlDkB,CAiDlB,kB1C8oIR,C0C/oIM,oCAEE,WAlDkB,CAiDlB,kB1CkpIR,C0CnpIM,kCAEE,WAlDkB,CAiDlB,kB1CspIR,C0CvpIM,qCAEE,WAlDkB,CAiDlB,kB1C0pIR,C0C3pIM,mCAEE,WAlDkB,CAiDlB,kB1C8pIR,C0C/pIM,qCAEE,WAlDkB,CAiDlB,kB1CkqIR,C0CnqIM,wCAEE,WAlDkB,CAiDlB,kB1CsqIR,C0CvqIM,sCAEE,WAlDkB,CAiDlB,kB1C0qIR,C0C3qIM,2CAEE,WAlDkB,CAiDlB,kB1C8qIR,C0CnqIM,iCAEE,WAPkB,CAMlB,iB1CsqIR,C0CvqIM,uCAEE,WAPkB,CAMlB,iB1C0qIR,C0C3qIM,mCAEE,WAPkB,CAMlB,iB1C8qIR,C2ChwIA,MACE,qMAAA,CACA,mM3CmwIF,C2C1vIE,wBAKE,mBAAA,CAHA,YAAA,CACA,qBAAA,CACA,YAAA,CAHA,iB3CiwIJ,C2CvvII,8BAGE,QAAA,CACA,SAAA,CAHA,iBAAA,CACA,O3C2vIN,C2CtvIM,qCACE,0B3CwvIR,C2C3tIM,kEACE,0C3C6tIR,C2CvtIE,2BAKE,uBAAA,CADA,+DAAA,CAHA,YAAA,CACA,cAAA,CACA,aAAA,CAGA,oB3CytIJ,C2CttII,aATF,2BAUI,gB3CytIJ,CACF,C2CttII,cAGE,+BACE,iB3CstIN,C2CntIM,sCAQE,qCAAA,CANA,QAAA,CAKA,UAAA,CAHA,aAAA,CAEA,UAAA,CAHA,MAAA,CAFA,iBAAA,CAaA,2CAAA,CALA,2DACE,CAGF,kDAAA,CARA,+B3C2tIR,CACF,C2C7sII,8CACE,Y3C+sIN,C2C3sII,iCASE,+BAAA,CACA,6BAAA,CAJA,uCAAA,CAEA,cAAA,CAPA,aAAA,CAGA,gBAAA,CACA,eAAA,CAFA,8BAAA,CAWA,+BAAA,CAHA,2CACE,CALF,kBAAA,CALA,U3CutIN,C2CxsIM,aAII,6CACE,O3CusIV,C2CxsIQ,8CACE,O3C0sIV,C2C3sIQ,8CACE,O3C6sIV,C2C9sIQ,8CACE,O3CgtIV,C2CjtIQ,8CACE,O3CmtIV,C2CptIQ,8CACE,O3CstIV,C2CvtIQ,8CACE,O3CytIV,C2C1tIQ,8CACE,O3C4tIV,C2C7tIQ,8CACE,O3C+tIV,C2ChuIQ,+CACE,Q3CkuIV,C2CnuIQ,+CACE,Q3CquIV,C2CtuIQ,+CACE,Q3CwuIV,C2CzuIQ,+CACE,Q3C2uIV,C2C5uIQ,+CACE,Q3C8uIV,C2C/uIQ,+CACE,Q3CivIV,C2ClvIQ,+CACE,Q3CovIV,C2CrvIQ,+CACE,Q3CuvIV,C2CxvIQ,+CACE,Q3C0vIV,C2C3vIQ,+CACE,Q3C6vIV,C2C9vIQ,+CACE,Q3CgwIV,CACF,C2C3vIM,uCACE,gC3C6vIR,C2CzvIM,oDACE,a3C2vIR,C2CtvII,yCACE,S3CwvIN,C2CpvIM,2CACE,aAAA,CACA,8B3CsvIR,C2ChvIE,4BACE,U3CkvIJ,C2C/uII,aAJF,4BAKI,gB3CkvIJ,CACF,C2C9uIE,0BACE,Y3CgvIJ,C2C7uII,aAJF,0BAKI,a3CgvIJ,C2C5uIM,sCACE,O3C8uIR,C2C/uIM,uCACE,O3CivIR,C2ClvIM,uCACE,O3CovIR,C2CrvIM,uCACE,O3CuvIR,C2CxvIM,uCACE,O3C0vIR,C2C3vIM,uCACE,O3C6vIR,C2C9vIM,uCACE,O3CgwIR,C2CjwIM,uCACE,O3CmwIR,C2CpwIM,uCACE,O3CswIR,C2CvwIM,wCACE,Q3CywIR,C2C1wIM,wCACE,Q3C4wIR,C2C7wIM,wCACE,Q3C+wIR,C2ChxIM,wCACE,Q3CkxIR,C2CnxIM,wCACE,Q3CqxIR,C2CtxIM,wCACE,Q3CwxIR,C2CzxIM,wCACE,Q3C2xIR,C2C5xIM,wCACE,Q3C8xIR,C2C/xIM,wCACE,Q3CiyIR,C2ClyIM,wCACE,Q3CoyIR,C2CryIM,wCACE,Q3CuyIR,CACF,C2CjyII,+FAEE,Q3CmyIN,C2ChyIM,yGACE,wBAAA,CACA,yB3CmyIR,C2C1xIM,2DAEE,wBAAA,CACA,yBAAA,CAFA,Q3C8xIR,C2CvxIM,iEACE,Q3CyxIR,C2CtxIQ,qLAGE,wBAAA,CACA,yBAAA,CAFA,Q3C0xIV,C2CpxIQ,6FACE,wBAAA,CACA,yB3CsxIV,C2CjxIM,yDACE,kB3CmxIR,C2C9wII,sCACE,Q3CgxIN,C2C3wIE,2BAEE,iBAAA,CAOA,kBAAA,CAHA,uCAAA,CAEA,cAAA,CAPA,aAAA,CAGA,YAAA,CACA,gBAAA,CAEA,mBAAA,CAGA,gCAAA,CAPA,W3CoxIJ,C2C1wII,iCAEE,uDAAA,CADA,+B3C6wIN,C2CxwII,iCAKE,6BAAA,CADA,UAAA,CAHA,aAAA,CAEA,WAAA,CAMA,8CAAA,CAAA,sCAAA,CACA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CANA,+CACE,CALF,U3CkxIN,C2CnwIE,4BAOE,yEACE,CANF,YAAA,CAGA,aAAA,CAFA,qBAAA,CAGA,mBAAA,CALA,iBAAA,CAYA,wBAAA,CATA,Y3CywIJ,C2C7vII,sCACE,wB3C+vIN,C2C3vII,oCACE,S3C6vIN,C2CzvII,kCAGE,wEACE,CAFF,mBAAA,CADA,O3C6vIN,C2CnvIM,uDACE,8CAAA,CAAA,sC3CqvIR,CK53II,0CsCqJF,wDAEE,kB3C6uIF,C2C/uIA,wDAEE,mB3C6uIF,C2C/uIA,8CAGE,eAAA,CAFA,eAAA,CAGA,iC3C2uIF,C2CvuIE,8DACE,mB3C0uIJ,C2C3uIE,8DACE,kB3C0uIJ,C2C3uIE,oDAEE,U3CyuIJ,C2CruIE,8EAEE,kB3CwuIJ,C2C1uIE,8EAEE,mB3CwuIJ,C2C1uIE,8EAGE,kB3CuuIJ,C2C1uIE,8EAGE,mB3CuuIJ,C2C1uIE,oEACE,U3CyuIJ,C2CnuIE,8EAEE,mB3CsuIJ,C2CxuIE,8EAEE,kB3CsuIJ,C2CxuIE,8EAGE,mB3CquIJ,C2CxuIE,8EAGE,kB3CquIJ,C2CxuIE,oEACE,U3CuuIJ,CACF,C2CztIE,cAHF,olDAII,gC3C4tIF,C2CztIE,g8GACE,uC3C2tIJ,CACF,C2CttIA,4sDACE,+B3CytIF,C2CrtIA,wmDACE,a3CwtIF,C4C5lJA,MACE,8WAAA,CACA,uX5C+lJF,C4CtlJE,4BAEE,oBAAA,CADA,iB5C0lJJ,C4CrlJI,sDAGE,S5CulJN,C4C1lJI,sDAGE,U5CulJN,C4C1lJI,4CACE,iBAAA,CACA,S5CwlJN,C4CllJE,+CAEE,SAAA,CADA,U5CqlJJ,C4ChlJE,kDAOE,W5CslJJ,C4C7lJE,kDAOE,Y5CslJJ,C4C7lJE,wCAME,qDAAA,CADA,UAAA,CADA,aAAA,CAIA,0CAAA,CAAA,kCAAA,CACA,4BAAA,CAAA,oBAAA,CACA,6BAAA,CAAA,qBAAA,CACA,yBAAA,CAAA,iBAAA,CAVA,iBAAA,CACA,SAAA,CACA,Y5C0lJJ,C4C9kJE,gEACE,wB1B2Wa,C0B1Wb,mDAAA,CAAA,2C5CglJJ,C6ChoJA,QACE,8DAAA,CAGA,+CAAA,CACA,iEAAA,CACA,oDAAA,CACA,sDAAA,CACA,mDAAA,CAGA,qEAAA,CACA,qEAAA,CACA,wEAAA,CACA,0EAAA,CACA,wEAAA,CACA,yEAAA,CACA,kEAAA,CACA,+DAAA,CACA,oEAAA,CACA,oEAAA,CACA,mEAAA,CACA,gEAAA,CACA,uEAAA,CACA,mEAAA,CACA,qEAAA,CACA,oEAAA,CACA,gEAAA,CACA,wEAAA,CACA,qEAAA,CACA,+D7C+nJF,C6CznJA,SAEE,kBAAA,CADA,Y7C6nJF,C8C/pJE,kBAUE,cAAA,CATA,YAAA,CACA,kEACE,CAQF,Y9C2pJJ,C8CvpJI,sDACE,gB9CypJN,C8CnpJI,oFAKE,wDAAA,CACA,mBAAA,CAJA,aAAA,CAEA,QAAA,CADA,aAAA,CAIA,sC9CqpJN,C8ChpJM,iOACE,kBAAA,CACA,8B9CmpJR,C8C/oJM,6FACE,iBAAA,CAAA,c9CkpJR,C8C9oJM,2HACE,Y9CipJR,C8C7oJM,wHACE,e9CgpJR,C8CjoJI,yMAGE,eAAA,CAAA,Y9CyoJN,C8C3nJI,ybAOE,W9CioJN,C8C7nJI,8BACE,eAAA,CAAA,Y9C+nJN,CK3jJI,mC0ChKA,8BACE,U/CmuJJ,C+CpuJE,8BACE,W/CmuJJ,C+CpuJE,8BAGE,kB/CiuJJ,C+CpuJE,8BAGE,iB/CiuJJ,C+CpuJE,oBAKE,mBAAA,CADA,YAAA,CAFA,a/CkuJJ,C+C5tJI,kCACE,W/C+tJN,C+ChuJI,kCACE,U/C+tJN,C+ChuJI,kCAEE,iBAAA,CAAA,c/C8tJN,C+ChuJI,kCAEE,aAAA,CAAA,kB/C8tJN,CACF","file":"main.css"}
\ No newline at end of file
diff --git a/assets/stylesheets/palette.06af60db.min.css b/assets/stylesheets/palette.06af60db.min.css
new file mode 100644
index 000000000..a640d38ab
--- /dev/null
+++ b/assets/stylesheets/palette.06af60db.min.css
@@ -0,0 +1 @@
+@media screen{[data-md-color-scheme=slate]{--md-default-fg-color:hsla(var(--md-hue),15%,90%,0.82);--md-default-fg-color--light:hsla(var(--md-hue),15%,90%,0.56);--md-default-fg-color--lighter:hsla(var(--md-hue),15%,90%,0.32);--md-default-fg-color--lightest:hsla(var(--md-hue),15%,90%,0.12);--md-default-bg-color:hsla(var(--md-hue),15%,14%,1);--md-default-bg-color--light:hsla(var(--md-hue),15%,14%,0.54);--md-default-bg-color--lighter:hsla(var(--md-hue),15%,14%,0.26);--md-default-bg-color--lightest:hsla(var(--md-hue),15%,14%,0.07);--md-code-fg-color:hsla(var(--md-hue),18%,86%,0.82);--md-code-bg-color:hsla(var(--md-hue),15%,18%,1);--md-code-hl-color:#2977ff;--md-code-hl-color--light:#2977ff1a;--md-code-hl-number-color:#e6695b;--md-code-hl-special-color:#f06090;--md-code-hl-function-color:#c973d9;--md-code-hl-constant-color:#9383e2;--md-code-hl-keyword-color:#6791e0;--md-code-hl-string-color:#2fb170;--md-code-hl-name-color:var(--md-code-fg-color);--md-code-hl-operator-color:var(--md-default-fg-color--light);--md-code-hl-punctuation-color:var(--md-default-fg-color--light);--md-code-hl-comment-color:var(--md-default-fg-color--light);--md-code-hl-generic-color:var(--md-default-fg-color--light);--md-code-hl-variable-color:var(--md-default-fg-color--light);--md-typeset-color:var(--md-default-fg-color);--md-typeset-a-color:var(--md-primary-fg-color);--md-typeset-kbd-color:hsla(var(--md-hue),15%,90%,0.12);--md-typeset-kbd-accent-color:hsla(var(--md-hue),15%,90%,0.2);--md-typeset-kbd-border-color:hsla(var(--md-hue),15%,14%,1);--md-typeset-mark-color:#4287ff4d;--md-typeset-table-color:hsla(var(--md-hue),15%,95%,0.12);--md-typeset-table-color--light:hsla(var(--md-hue),15%,95%,0.035);--md-admonition-fg-color:var(--md-default-fg-color);--md-admonition-bg-color:var(--md-default-bg-color);--md-footer-bg-color:hsla(var(--md-hue),15%,10%,0.87);--md-footer-bg-color--dark:hsla(var(--md-hue),15%,8%,1);--md-shadow-z1:0 0.2rem 0.5rem #0000000d,0 0 0.05rem #0000001a;--md-shadow-z2:0 0.2rem 0.5rem #00000040,0 0 0.05rem #00000040;--md-shadow-z3:0 0.2rem 0.5rem #0006,0 0 0.05rem #00000059;color-scheme:dark}[data-md-color-scheme=slate] img[src$="#gh-light-mode-only"],[data-md-color-scheme=slate] img[src$="#only-light"]{display:none}[data-md-color-scheme=slate][data-md-color-primary=pink]{--md-typeset-a-color:#ed5487}[data-md-color-scheme=slate][data-md-color-primary=purple]{--md-typeset-a-color:#c46fd3}[data-md-color-scheme=slate][data-md-color-primary=deep-purple]{--md-typeset-a-color:#a47bea}[data-md-color-scheme=slate][data-md-color-primary=indigo]{--md-typeset-a-color:#5488e8}[data-md-color-scheme=slate][data-md-color-primary=teal]{--md-typeset-a-color:#00ccb8}[data-md-color-scheme=slate][data-md-color-primary=green]{--md-typeset-a-color:#71c174}[data-md-color-scheme=slate][data-md-color-primary=deep-orange]{--md-typeset-a-color:#ff764d}[data-md-color-scheme=slate][data-md-color-primary=brown]{--md-typeset-a-color:#c1775c}[data-md-color-scheme=slate][data-md-color-primary=black],[data-md-color-scheme=slate][data-md-color-primary=blue-grey],[data-md-color-scheme=slate][data-md-color-primary=grey],[data-md-color-scheme=slate][data-md-color-primary=white]{--md-typeset-a-color:#5e8bde}[data-md-color-switching] *,[data-md-color-switching] :after,[data-md-color-switching] :before{transition-duration:0ms!important}}[data-md-color-accent=red]{--md-accent-fg-color:#ff1947;--md-accent-fg-color--transparent:#ff19471a;--md-accent-bg-color:#fff;--md-accent-bg-color--light:#ffffffb3}[data-md-color-accent=pink]{--md-accent-fg-color:#f50056;--md-accent-fg-color--transparent:#f500561a;--md-accent-bg-color:#fff;--md-accent-bg-color--light:#ffffffb3}[data-md-color-accent=purple]{--md-accent-fg-color:#df41fb;--md-accent-fg-color--transparent:#df41fb1a;--md-accent-bg-color:#fff;--md-accent-bg-color--light:#ffffffb3}[data-md-color-accent=deep-purple]{--md-accent-fg-color:#7c4dff;--md-accent-fg-color--transparent:#7c4dff1a;--md-accent-bg-color:#fff;--md-accent-bg-color--light:#ffffffb3}[data-md-color-accent=indigo]{--md-accent-fg-color:#526cfe;--md-accent-fg-color--transparent:#526cfe1a;--md-accent-bg-color:#fff;--md-accent-bg-color--light:#ffffffb3}[data-md-color-accent=blue]{--md-accent-fg-color:#4287ff;--md-accent-fg-color--transparent:#4287ff1a;--md-accent-bg-color:#fff;--md-accent-bg-color--light:#ffffffb3}[data-md-color-accent=light-blue]{--md-accent-fg-color:#0091eb;--md-accent-fg-color--transparent:#0091eb1a;--md-accent-bg-color:#fff;--md-accent-bg-color--light:#ffffffb3}[data-md-color-accent=cyan]{--md-accent-fg-color:#00bad6;--md-accent-fg-color--transparent:#00bad61a;--md-accent-bg-color:#fff;--md-accent-bg-color--light:#ffffffb3}[data-md-color-accent=teal]{--md-accent-fg-color:#00bda4;--md-accent-fg-color--transparent:#00bda41a;--md-accent-bg-color:#fff;--md-accent-bg-color--light:#ffffffb3}[data-md-color-accent=green]{--md-accent-fg-color:#00c753;--md-accent-fg-color--transparent:#00c7531a;--md-accent-bg-color:#fff;--md-accent-bg-color--light:#ffffffb3}[data-md-color-accent=light-green]{--md-accent-fg-color:#63de17;--md-accent-fg-color--transparent:#63de171a;--md-accent-bg-color:#fff;--md-accent-bg-color--light:#ffffffb3}[data-md-color-accent=lime]{--md-accent-fg-color:#b0eb00;--md-accent-fg-color--transparent:#b0eb001a;--md-accent-bg-color:#000000de;--md-accent-bg-color--light:#0000008a}[data-md-color-accent=yellow]{--md-accent-fg-color:#ffd500;--md-accent-fg-color--transparent:#ffd5001a;--md-accent-bg-color:#000000de;--md-accent-bg-color--light:#0000008a}[data-md-color-accent=amber]{--md-accent-fg-color:#fa0;--md-accent-fg-color--transparent:#ffaa001a;--md-accent-bg-color:#000000de;--md-accent-bg-color--light:#0000008a}[data-md-color-accent=orange]{--md-accent-fg-color:#ff9100;--md-accent-fg-color--transparent:#ff91001a;--md-accent-bg-color:#000000de;--md-accent-bg-color--light:#0000008a}[data-md-color-accent=deep-orange]{--md-accent-fg-color:#ff6e42;--md-accent-fg-color--transparent:#ff6e421a;--md-accent-bg-color:#fff;--md-accent-bg-color--light:#ffffffb3}[data-md-color-primary=red]{--md-primary-fg-color:#ef5552;--md-primary-fg-color--light:#e57171;--md-primary-fg-color--dark:#e53734;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3}[data-md-color-primary=pink]{--md-primary-fg-color:#e92063;--md-primary-fg-color--light:#ec417a;--md-primary-fg-color--dark:#c3185d;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3}[data-md-color-primary=purple]{--md-primary-fg-color:#ab47bd;--md-primary-fg-color--light:#bb69c9;--md-primary-fg-color--dark:#8c24a8;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3}[data-md-color-primary=deep-purple]{--md-primary-fg-color:#7e56c2;--md-primary-fg-color--light:#9574cd;--md-primary-fg-color--dark:#673ab6;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3}[data-md-color-primary=indigo]{--md-primary-fg-color:#4051b5;--md-primary-fg-color--light:#5d6cc0;--md-primary-fg-color--dark:#303fa1;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3}[data-md-color-primary=blue]{--md-primary-fg-color:#2094f3;--md-primary-fg-color--light:#42a5f5;--md-primary-fg-color--dark:#1975d2;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3}[data-md-color-primary=light-blue]{--md-primary-fg-color:#02a6f2;--md-primary-fg-color--light:#28b5f6;--md-primary-fg-color--dark:#0287cf;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3}[data-md-color-primary=cyan]{--md-primary-fg-color:#00bdd6;--md-primary-fg-color--light:#25c5da;--md-primary-fg-color--dark:#0097a8;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3}[data-md-color-primary=teal]{--md-primary-fg-color:#009485;--md-primary-fg-color--light:#26a699;--md-primary-fg-color--dark:#007a6c;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3}[data-md-color-primary=green]{--md-primary-fg-color:#4cae4f;--md-primary-fg-color--light:#68bb6c;--md-primary-fg-color--dark:#398e3d;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3}[data-md-color-primary=light-green]{--md-primary-fg-color:#8bc34b;--md-primary-fg-color--light:#9ccc66;--md-primary-fg-color--dark:#689f38;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3}[data-md-color-primary=lime]{--md-primary-fg-color:#cbdc38;--md-primary-fg-color--light:#d3e156;--md-primary-fg-color--dark:#b0b52c;--md-primary-bg-color:#000000de;--md-primary-bg-color--light:#0000008a}[data-md-color-primary=yellow]{--md-primary-fg-color:#ffec3d;--md-primary-fg-color--light:#ffee57;--md-primary-fg-color--dark:#fbc02d;--md-primary-bg-color:#000000de;--md-primary-bg-color--light:#0000008a}[data-md-color-primary=amber]{--md-primary-fg-color:#ffc105;--md-primary-fg-color--light:#ffc929;--md-primary-fg-color--dark:#ffa200;--md-primary-bg-color:#000000de;--md-primary-bg-color--light:#0000008a}[data-md-color-primary=orange]{--md-primary-fg-color:#ffa724;--md-primary-fg-color--light:#ffa724;--md-primary-fg-color--dark:#fa8900;--md-primary-bg-color:#000000de;--md-primary-bg-color--light:#0000008a}[data-md-color-primary=deep-orange]{--md-primary-fg-color:#ff6e42;--md-primary-fg-color--light:#ff8a66;--md-primary-fg-color--dark:#f4511f;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3}[data-md-color-primary=brown]{--md-primary-fg-color:#795649;--md-primary-fg-color--light:#8d6e62;--md-primary-fg-color--dark:#5d4037;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3}[data-md-color-primary=grey]{--md-primary-fg-color:#757575;--md-primary-fg-color--light:#9e9e9e;--md-primary-fg-color--dark:#616161;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3;--md-typeset-a-color:#4051b5}[data-md-color-primary=blue-grey]{--md-primary-fg-color:#546d78;--md-primary-fg-color--light:#607c8a;--md-primary-fg-color--dark:#455a63;--md-primary-bg-color:#fff;--md-primary-bg-color--light:#ffffffb3;--md-typeset-a-color:#4051b5}[data-md-color-primary=light-green]:not([data-md-color-scheme=slate]){--md-typeset-a-color:#72ad2e}[data-md-color-primary=lime]:not([data-md-color-scheme=slate]){--md-typeset-a-color:#8b990a}[data-md-color-primary=yellow]:not([data-md-color-scheme=slate]){--md-typeset-a-color:#b8a500}[data-md-color-primary=amber]:not([data-md-color-scheme=slate]){--md-typeset-a-color:#d19d00}[data-md-color-primary=orange]:not([data-md-color-scheme=slate]){--md-typeset-a-color:#e68a00}[data-md-color-primary=white]{--md-primary-fg-color:hsla(var(--md-hue),0%,100%,1);--md-primary-fg-color--light:hsla(var(--md-hue),0%,100%,0.7);--md-primary-fg-color--dark:hsla(var(--md-hue),0%,0%,0.07);--md-primary-bg-color:hsla(var(--md-hue),0%,0%,0.87);--md-primary-bg-color--light:hsla(var(--md-hue),0%,0%,0.54);--md-typeset-a-color:#4051b5}[data-md-color-primary=white] .md-button{color:var(--md-typeset-a-color)}[data-md-color-primary=white] .md-button--primary{background-color:var(--md-typeset-a-color);border-color:var(--md-typeset-a-color);color:hsla(var(--md-hue),0%,100%,1)}@media screen and (min-width:60em){[data-md-color-primary=white] .md-search__form{background-color:hsla(var(--md-hue),0%,0%,.07)}[data-md-color-primary=white] .md-search__form:hover{background-color:hsla(var(--md-hue),0%,0%,.32)}[data-md-color-primary=white] .md-search__input+.md-search__icon{color:hsla(var(--md-hue),0%,0%,.87)}}@media screen and (min-width:76.25em){[data-md-color-primary=white] .md-tabs{border-bottom:.05rem solid #00000012}}[data-md-color-primary=black]{--md-primary-fg-color:hsla(var(--md-hue),15%,9%,1);--md-primary-fg-color--light:hsla(var(--md-hue),15%,9%,0.54);--md-primary-fg-color--dark:hsla(var(--md-hue),15%,9%,1);--md-primary-bg-color:hsla(var(--md-hue),15%,100%,1);--md-primary-bg-color--light:hsla(var(--md-hue),15%,100%,0.7);--md-typeset-a-color:#4051b5}[data-md-color-primary=black] .md-button{color:var(--md-typeset-a-color)}[data-md-color-primary=black] .md-button--primary{background-color:var(--md-typeset-a-color);border-color:var(--md-typeset-a-color);color:hsla(var(--md-hue),0%,100%,1)}[data-md-color-primary=black] .md-header{background-color:hsla(var(--md-hue),15%,9%,1)}@media screen and (max-width:59.984375em){[data-md-color-primary=black] .md-nav__source{background-color:hsla(var(--md-hue),15%,11%,.87)}}@media screen and (max-width:76.234375em){html [data-md-color-primary=black] .md-nav--primary .md-nav__title[for=__drawer]{background-color:hsla(var(--md-hue),15%,9%,1)}}@media screen and (min-width:76.25em){[data-md-color-primary=black] .md-tabs{background-color:hsla(var(--md-hue),15%,9%,1)}}
\ No newline at end of file
diff --git a/assets/stylesheets/palette.06af60db.min.css.map b/assets/stylesheets/palette.06af60db.min.css.map
new file mode 100644
index 000000000..efb568c52
--- /dev/null
+++ b/assets/stylesheets/palette.06af60db.min.css.map
@@ -0,0 +1 @@
+{"version":3,"sources":["src/templates/assets/stylesheets/palette/_scheme.scss","../../../../src/templates/assets/stylesheets/palette.scss","src/templates/assets/stylesheets/palette/_accent.scss","src/templates/assets/stylesheets/palette/_primary.scss","src/templates/assets/stylesheets/utilities/_break.scss"],"names":[],"mappings":"AA2BA,cAGE,6BAME,sDAAA,CACA,6DAAA,CACA,+DAAA,CACA,gEAAA,CACA,mDAAA,CACA,6DAAA,CACA,+DAAA,CACA,gEAAA,CAGA,mDAAA,CACA,gDAAA,CAGA,0BAAA,CACA,mCAAA,CAGA,iCAAA,CACA,kCAAA,CACA,mCAAA,CACA,mCAAA,CACA,kCAAA,CACA,iCAAA,CACA,+CAAA,CACA,6DAAA,CACA,gEAAA,CACA,4DAAA,CACA,4DAAA,CACA,6DAAA,CAGA,6CAAA,CAGA,+CAAA,CAGA,uDAAA,CACA,6DAAA,CACA,2DAAA,CAGA,iCAAA,CAGA,yDAAA,CACA,iEAAA,CAGA,mDAAA,CACA,mDAAA,CAGA,qDAAA,CACA,uDAAA,CAGA,8DAAA,CAKA,8DAAA,CAKA,0DAAA,CAvEA,iBCeF,CD6DE,kHAEE,YC3DJ,CDkFE,yDACE,4BChFJ,CD+EE,2DACE,4BC7EJ,CD4EE,gEACE,4BC1EJ,CDyEE,2DACE,4BCvEJ,CDsEE,yDACE,4BCpEJ,CDmEE,0DACE,4BCjEJ,CDgEE,gEACE,4BC9DJ,CD6DE,0DACE,4BC3DJ,CD0DE,2OACE,4BC/CJ,CDsDA,+FAGE,iCCpDF,CACF,CC/CE,2BACE,4BAAA,CACA,2CAAA,CAOE,yBAAA,CACA,qCD2CN,CCrDE,4BACE,4BAAA,CACA,2CAAA,CAOE,yBAAA,CACA,qCDkDN,CC5DE,8BACE,4BAAA,CACA,2CAAA,CAOE,yBAAA,CACA,qCDyDN,CCnEE,mCACE,4BAAA,CACA,2CAAA,CAOE,yBAAA,CACA,qCDgEN,CC1EE,8BACE,4BAAA,CACA,2CAAA,CAOE,yBAAA,CACA,qCDuEN,CCjFE,4BACE,4BAAA,CACA,2CAAA,CAOE,yBAAA,CACA,qCD8EN,CCxFE,kCACE,4BAAA,CACA,2CAAA,CAOE,yBAAA,CACA,qCDqFN,CC/FE,4BACE,4BAAA,CACA,2CAAA,CAOE,yBAAA,CACA,qCD4FN,CCtGE,4BACE,4BAAA,CACA,2CAAA,CAOE,yBAAA,CACA,qCDmGN,CC7GE,6BACE,4BAAA,CACA,2CAAA,CAOE,yBAAA,CACA,qCD0GN,CCpHE,mCACE,4BAAA,CACA,2CAAA,CAOE,yBAAA,CACA,qCDiHN,CC3HE,4BACE,4BAAA,CACA,2CAAA,CAIE,8BAAA,CACA,qCD2HN,CClIE,8BACE,4BAAA,CACA,2CAAA,CAIE,8BAAA,CACA,qCDkIN,CCzIE,6BACE,yBAAA,CACA,2CAAA,CAIE,8BAAA,CACA,qCDyIN,CChJE,8BACE,4BAAA,CACA,2CAAA,CAIE,8BAAA,CACA,qCDgJN,CCvJE,mCACE,4BAAA,CACA,2CAAA,CAOE,yBAAA,CACA,qCDoJN,CEzJE,4BACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCFsJN,CEjKE,6BACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCF8JN,CEzKE,+BACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCFsKN,CEjLE,oCACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCF8KN,CEzLE,+BACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCFsLN,CEjME,6BACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCF8LN,CEzME,mCACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCFsMN,CEjNE,6BACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCF8MN,CEzNE,6BACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCFsNN,CEjOE,8BACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCF8NN,CEzOE,oCACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCFsON,CEjPE,6BACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAIE,+BAAA,CACA,sCFiPN,CEzPE,+BACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAIE,+BAAA,CACA,sCFyPN,CEjQE,8BACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAIE,+BAAA,CACA,sCFiQN,CEzQE,+BACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAIE,+BAAA,CACA,sCFyQN,CEjRE,oCACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCF8QN,CEzRE,8BACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCFsRN,CEjSE,6BACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCAAA,CAKA,4BF0RN,CE1SE,kCACE,6BAAA,CACA,oCAAA,CACA,mCAAA,CAOE,0BAAA,CACA,sCAAA,CAKA,4BFmSN,CEpRE,sEACE,4BFuRJ,CExRE,+DACE,4BF2RJ,CE5RE,iEACE,4BF+RJ,CEhSE,gEACE,4BFmSJ,CEpSE,iEACE,4BFuSJ,CE9RA,8BACE,mDAAA,CACA,4DAAA,CACA,0DAAA,CACA,oDAAA,CACA,2DAAA,CAGA,4BF+RF,CE5RE,yCACE,+BF8RJ,CE3RI,kDAEE,0CAAA,CACA,sCAAA,CAFA,mCF+RN,CG3MI,mCD1EA,+CACE,8CFwRJ,CErRI,qDACE,8CFuRN,CElRE,iEACE,mCFoRJ,CACF,CGtNI,sCDvDA,uCACE,oCFgRJ,CACF,CEvQA,8BACE,kDAAA,CACA,4DAAA,CACA,wDAAA,CACA,oDAAA,CACA,6DAAA,CAGA,4BFwQF,CErQE,yCACE,+BFuQJ,CEpQI,kDAEE,0CAAA,CACA,sCAAA,CAFA,mCFwQN,CEjQE,yCACE,6CFmQJ,CG5NI,0CDhCA,8CACE,gDF+PJ,CACF,CGjOI,0CDvBA,iFACE,6CF2PJ,CACF,CGzPI,sCDKA,uCACE,6CFuPJ,CACF","file":"palette.css"}
\ No newline at end of file
diff --git a/generated-cli-cli/index.html b/generated-cli-cli/index.html
new file mode 100644
index 000000000..0311008ed
--- /dev/null
+++ b/generated-cli-cli/index.html
@@ -0,0 +1,6024 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+      
+        <link rel="next" href="../generated-data_preprocessing-_processor/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Cli - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#clicli" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Cli
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.cli.cli" class="md-nav__link">
+    <span class="md-ellipsis">
+      cli
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.cli.cli" class="md-nav__link">
+    <span class="md-ellipsis">
+      cli
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="clicli">cli.cli</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.cli.cli"></a>
+    <div class="doc doc-contents first">
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-data_preprocessing-_processor/index.html b/generated-data_preprocessing-_processor/index.html
new file mode 100644
index 000000000..806238f45
--- /dev/null
+++ b/generated-data_preprocessing-_processor/index.html
@@ -0,0 +1,6042 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-cli-cli/">
+      
+      
+        <link rel="next" href="../generated-etils-auto_tx/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Processor - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#data_preprocessing_processor" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Processor
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.data_preprocessing._processor" class="md-nav__link">
+    <span class="md-ellipsis">
+      _processor
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.data_preprocessing._processor" class="md-nav__link">
+    <span class="md-ellipsis">
+      _processor
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="data_preprocessing_processor">data_preprocessing._processor</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.data_preprocessing._processor"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-etils-auto_tx/index.html b/generated-etils-auto_tx/index.html
new file mode 100644
index 000000000..7f7b700ad
--- /dev/null
+++ b/generated-etils-auto_tx/index.html
@@ -0,0 +1,6602 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-data_preprocessing-_processor/">
+      
+      
+        <link rel="next" href="../generated-etils-configs/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Auto Tx - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#etilsauto_tx" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Auto Tx
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.auto_tx" class="md-nav__link">
+    <span class="md-ellipsis">
+      auto_tx
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.auto_tx.get_optimizer_and_scheduler" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_optimizer_and_scheduler
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.auto_tx" class="md-nav__link">
+    <span class="md-ellipsis">
+      auto_tx
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.auto_tx.get_optimizer_and_scheduler" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_optimizer_and_scheduler
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="etilsauto_tx">etils.auto_tx</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.etils.auto_tx"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.etils.auto_tx.get_optimizer_and_scheduler" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_optimizer_and_scheduler</span><span class="p">(</span><span class="n">optimizer</span><span class="p">,</span> <span class="n">scheduler</span><span class="p">,</span> <span class="n">steps</span><span class="p">,</span> <span class="n">learning_rate</span><span class="o">=</span><span class="mf">1e-05</span><span class="p">,</span> <span class="n">learning_rate_end</span><span class="o">=</span><span class="mf">1e-05</span><span class="p">,</span> <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">extra_optimizer_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">weight_decay</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span> <span class="n">warmup_steps</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_optimizer_and_scheduler function is a helper function that returns an optimizer and scheduler
+    based on the parameters passed to it.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>optimizer</code></td>
+            <td>
+                  <code><span title="src.python.easydel.etils.etils.AVAILABLE_OPTIMIZERS">AVAILABLE_OPTIMIZERS</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>AVAILABLE_OPTIMIZERS: Choose the optimizer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scheduler</code></td>
+            <td>
+                  <code><span title="src.python.easydel.etils.etils.AVAILABLE_SCHEDULERS">AVAILABLE_SCHEDULERS</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>AVAILABLE_SCHEDULERS: Determine the learning rate
+scheduler</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>steps</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Specify the number of steps in the training process</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>learning_rate</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the learning rate for the optimizer</p>
+              </div>
+            </td>
+            <td>
+                  <code>1e-05</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>learning_rate_end</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the final learning rate</p>
+              </div>
+            </td>
+            <td>
+                  <code>1e-05</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_accumulation_steps</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Accumulate the gradients
+before updating the weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_optimizer_kwargs</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict | None: Pass extra arguments to the
+optimizer</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>weight_decay</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the weight decay for adamw optimizer</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.02</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>warmup_steps</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Specify the number of steps to warm up the
+learning rate</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two objects: (Optimizer and scheduler)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/auto_tx.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_optimizer_and_scheduler</span><span class="p">(</span>
+        <span class="n">optimizer</span><span class="p">:</span> <span class="n">AVAILABLE_OPTIMIZERS</span><span class="p">,</span>
+        <span class="n">scheduler</span><span class="p">:</span> <span class="n">AVAILABLE_SCHEDULERS</span><span class="p">,</span>
+        <span class="n">steps</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+        <span class="n">learning_rate</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1e-5</span><span class="p">,</span>
+        <span class="n">learning_rate_end</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1e-5</span><span class="p">,</span>
+        <span class="n">gradient_accumulation_steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">extra_optimizer_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">weight_decay</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.02</span><span class="p">,</span>
+        <span class="n">warmup_steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_optimizer_and_scheduler function is a helper function that returns an optimizer and scheduler</span>
+<span class="sd">        based on the parameters passed to it.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        optimizer: AVAILABLE_OPTIMIZERS: Choose the optimizer</span>
+<span class="sd">        scheduler: AVAILABLE_SCHEDULERS: Determine the learning rate</span>
+<span class="sd">            scheduler</span>
+<span class="sd">        steps: int: Specify the number of steps in the training process</span>
+<span class="sd">        learning_rate: float: Set the learning rate for the optimizer</span>
+<span class="sd">        learning_rate_end: float: Set the final learning rate</span>
+<span class="sd">        gradient_accumulation_steps: int: Accumulate the gradients</span>
+<span class="sd">            before updating the weights</span>
+<span class="sd">        extra_optimizer_kwargs: dict | None: Pass extra arguments to the</span>
+<span class="sd">            optimizer</span>
+<span class="sd">        weight_decay: float: Set the weight decay for adamw optimizer</span>
+<span class="sd">        warmup_steps: int: Specify the number of steps to warm up the</span>
+<span class="sd">            learning rate</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two objects: (Optimizer and scheduler)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">extra_optimizer_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">extra_optimizer_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">optimizer</span> <span class="o">==</span> <span class="n">EasyDeLOptimizers</span><span class="o">.</span><span class="n">ADAFACTOR</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">LINEAR</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_adafactor_with_linear_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate_start</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">learning_rate_end</span><span class="o">=</span><span class="n">learning_rate_end</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">COSINE</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_adafactor_with_cosine_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">NONE</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_adafactor_with_linear_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate_start</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">learning_rate_end</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">WARM_UP_COSINE</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_adafactor_with_warm_up_cosine_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="n">weight_decay</span><span class="o">=</span><span class="n">weight_decay</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">WARM_UP_LINEAR</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_adafactor_with_warmup_linear_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate_start</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="n">learning_rate_end</span><span class="o">=</span><span class="n">learning_rate_end</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="n">warmup_steps</span><span class="o">=</span><span class="n">warmup_steps</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+
+            <span class="p">)</span>
+
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;seems like you have choose wrong type or unavailable scheduler&quot;</span>
+            <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">optimizer</span> <span class="o">==</span> <span class="n">EasyDeLOptimizers</span><span class="o">.</span><span class="n">LION</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">LINEAR</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_lion_with_linear_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate_start</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">learning_rate_end</span><span class="o">=</span><span class="n">learning_rate_end</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">COSINE</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_lion_with_cosine_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">NONE</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_lion_with_linear_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate_start</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">learning_rate_end</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">WARM_UP_COSINE</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_lion_with_warm_up_cosine_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+            <span class="p">)</span>
+
+        <span class="k">elif</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">WARM_UP_LINEAR</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_lion_with_with_warmup_linear_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate_start</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="n">learning_rate_end</span><span class="o">=</span><span class="n">learning_rate_end</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="n">warmup_steps</span><span class="o">=</span><span class="n">warmup_steps</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;seems like you have choose wrong type or unavailable scheduler&quot;</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="n">optimizer</span> <span class="o">==</span> <span class="n">EasyDeLOptimizers</span><span class="o">.</span><span class="n">ADAMW</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">LINEAR</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_adamw_with_linear_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate_start</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">learning_rate_end</span><span class="o">=</span><span class="n">learning_rate_end</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">COSINE</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_adamw_with_cosine_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="n">weight_decay</span><span class="o">=</span><span class="n">weight_decay</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">NONE</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_adamw_with_linear_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate_start</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">learning_rate_end</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">WARM_UP_COSINE</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_adamw_with_warm_up_cosine_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="n">weight_decay</span><span class="o">=</span><span class="n">weight_decay</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="n">scheduler</span> <span class="o">==</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">WARM_UP_LINEAR</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">optimizers</span><span class="o">.</span><span class="n">get_adamw_with_warmup_linear_scheduler</span><span class="p">(</span>
+                <span class="n">learning_rate_start</span><span class="o">=</span><span class="n">learning_rate</span><span class="p">,</span>
+                <span class="n">steps</span><span class="o">=</span><span class="n">steps</span><span class="p">,</span>
+                <span class="n">weight_decay</span><span class="o">=</span><span class="n">weight_decay</span><span class="p">,</span>
+                <span class="n">learning_rate_end</span><span class="o">=</span><span class="n">learning_rate_end</span><span class="p">,</span>
+                <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+                <span class="n">warmup_steps</span><span class="o">=</span><span class="n">warmup_steps</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">extra_optimizer_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;seems like you have choose wrong type or unavailable scheduler&quot;</span>
+            <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;seems like you have choose wrong type or unavailable optimizer </span><span class="si">{</span><span class="n">optimizer</span><span class="si">}</span><span class="s2"> and scheduler </span><span class="si">{</span><span class="n">scheduler</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+    <span class="k">return</span> <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-etils-configs/index.html b/generated-etils-configs/index.html
new file mode 100644
index 000000000..59c5aad06
--- /dev/null
+++ b/generated-etils-configs/index.html
@@ -0,0 +1,6193 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-etils-auto_tx/">
+      
+      
+        <link rel="next" href="../generated-etils-easystate/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Configs - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#etilsconfigs" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Configs
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.configs" class="md-nav__link">
+    <span class="md-ellipsis">
+      configs
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.configs.get_config" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_config
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.configs" class="md-nav__link">
+    <span class="md-ellipsis">
+      configs
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.configs.get_config" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_config
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="etilsconfigs">etils.configs</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.etils.configs"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.etils.configs.get_config" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_config</span><span class="p">(</span><span class="n">model_type</span><span class="p">,</span> <span class="n">struct</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_config function takes in a model_type and struct, and returns the corresponding config.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>model_type</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Determine which model to use</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>struct</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Specify the structure of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of hyperparameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/configs.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_config</span><span class="p">(</span><span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">struct</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_config function takes in a model_type and struct, and returns the corresponding config.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        model_type: str: Determine which model to use</span>
+<span class="sd">        struct: str: Specify the structure of the model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of hyperparameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;llama&quot;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">llama_configs</span><span class="p">[</span><span class="n">struct</span><span class="p">]</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;llama2&quot;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">llama_2_configs</span><span class="p">[</span><span class="n">struct</span><span class="p">]</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;opt&quot;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">opt_configs</span><span class="p">[</span><span class="n">struct</span><span class="p">]</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;gptj&quot;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">gptj_configs</span><span class="p">[</span><span class="n">struct</span><span class="p">]</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;falcon&quot;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">falcon_configs</span><span class="p">[</span><span class="n">struct</span><span class="p">]</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;mpt&quot;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">mpt_configs</span><span class="p">[</span><span class="n">struct</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Unknown ModelType : </span><span class="si">{</span><span class="n">model_type</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-etils-easystate/index.html b/generated-etils-easystate/index.html
new file mode 100644
index 000000000..6760550e8
--- /dev/null
+++ b/generated-etils-easystate/index.html
@@ -0,0 +1,10665 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-etils-configs/">
+      
+      
+        <link rel="next" href="../generated-etils-errors/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Easystate - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#etilseasystate" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Easystate
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate" class="md-nav__link">
+    <span class="md-ellipsis">
+      easystate
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLState
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="EasyDeLState">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.apply_gradients" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_gradients
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.create" class="md-nav__link">
+    <span class="md-ellipsis">
+      create
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.create_hyperparameters" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_hyperparameters
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.free_opt_state" class="md-nav__link">
+    <span class="md-ellipsis">
+      free_opt_state
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.from_pretrained" class="md-nav__link">
+    <span class="md-ellipsis">
+      from_pretrained
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.init_opt_state" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_opt_state
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.load" class="md-nav__link">
+    <span class="md-ellipsis">
+      load
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.load_state" class="md-nav__link">
+    <span class="md-ellipsis">
+      load_state
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.save_state" class="md-nav__link">
+    <span class="md-ellipsis">
+      save_state
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate" class="md-nav__link">
+    <span class="md-ellipsis">
+      easystate
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLState
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="EasyDeLState">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.apply_gradients" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_gradients
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.create" class="md-nav__link">
+    <span class="md-ellipsis">
+      create
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.create_hyperparameters" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_hyperparameters
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.free_opt_state" class="md-nav__link">
+    <span class="md-ellipsis">
+      free_opt_state
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.from_pretrained" class="md-nav__link">
+    <span class="md-ellipsis">
+      from_pretrained
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.init_opt_state" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_opt_state
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.load" class="md-nav__link">
+    <span class="md-ellipsis">
+      load
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.load_state" class="md-nav__link">
+    <span class="md-ellipsis">
+      load_state
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.easystate.EasyDeLState.save_state" class="md-nav__link">
+    <span class="md-ellipsis">
+      save_state
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="etilseasystate">etils.easystate</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.etils.easystate"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.etils.easystate.EasyDeLState" class="doc doc-heading">
+            <code>EasyDeLState</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="flax.struct.PyTreeNode">PyTreeNode</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/etils/easystate.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">EasyDeLState</span><span class="p">(</span><span class="n">struct</span><span class="o">.</span><span class="n">PyTreeNode</span><span class="p">):</span>
+    <span class="n">step</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="n">module</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="s2">&quot;EasyDeLFlaxPretrainedModel&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">struct</span><span class="o">.</span><span class="n">field</span><span class="p">(</span><span class="n">pytree_node</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>  <span class="c1"># type:ignore</span>
+    <span class="n">module_config</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="s2">&quot;EasyDeLPretrainedConfig&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">struct</span><span class="o">.</span><span class="n">field</span><span class="p">(</span><span class="n">pytree_node</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>  <span class="c1"># type:ignore</span>
+    <span class="n">module_config_args</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="n">struct</span><span class="o">.</span><span class="n">field</span><span class="p">(</span><span class="n">pytree_node</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="n">apply_fn</span><span class="p">:</span> <span class="n">Callable</span> <span class="o">=</span> <span class="n">struct</span><span class="o">.</span><span class="n">field</span><span class="p">(</span><span class="n">pytree_node</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+    <span class="n">params</span><span class="p">:</span> <span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]</span> <span class="o">=</span> <span class="n">struct</span><span class="o">.</span><span class="n">field</span><span class="p">(</span><span class="n">pytree_node</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="n">tx</span><span class="p">:</span> <span class="n">optax</span><span class="o">.</span><span class="n">GradientTransformation</span> <span class="o">=</span> <span class="n">struct</span><span class="o">.</span><span class="n">field</span><span class="p">(</span><span class="n">pytree_node</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+    <span class="n">opt_state</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">optax</span><span class="o">.</span><span class="n">OptState</span><span class="p">]</span> <span class="o">=</span> <span class="n">struct</span><span class="o">.</span><span class="n">field</span><span class="p">(</span><span class="n">pytree_node</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="n">tx_init</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="n">struct</span><span class="o">.</span><span class="n">field</span><span class="p">(</span><span class="n">pytree_node</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="n">hyperparameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="n">struct</span><span class="o">.</span><span class="n">field</span><span class="p">(</span><span class="n">pytree_node</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">apply_gradients</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">grads</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The apply_gradients function is the core of the optimizer. It takes in a dictionary of gradients,</span>
+<span class="sd">        and returns an updated version of itself with new parameters and state. The function also updates</span>
+<span class="sd">        the step count.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the current instance of the class</span>
+<span class="sd">            : Unpack the grads dictionary into positional arguments</span>
+<span class="sd">            grads: Pass in the gradients of the loss function with</span>
+<span class="sd">                respect to each parameter</span>
+<span class="sd">            **kwargs: Pass in additional arguments to the function</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A new State with the updated parameters and params</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">OVERWRITE_WITH_GRADIENT</span> <span class="ow">in</span> <span class="n">grads</span><span class="p">:</span>
+            <span class="n">grads_with_opt</span> <span class="o">=</span> <span class="n">grads</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span>
+            <span class="n">params_with_opt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">grads_with_opt</span> <span class="o">=</span> <span class="n">grads</span>
+            <span class="n">params_with_opt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="n">updates</span><span class="p">,</span> <span class="n">new_opt_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx</span><span class="o">.</span><span class="n">update</span><span class="p">(</span>
+            <span class="n">grads_with_opt</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">opt_state</span><span class="p">,</span> <span class="n">params_with_opt</span>
+        <span class="p">)</span>
+        <span class="n">new_params_with_opt</span> <span class="o">=</span> <span class="n">optax</span><span class="o">.</span><span class="n">apply_updates</span><span class="p">(</span><span class="n">params_with_opt</span><span class="p">,</span> <span class="n">updates</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">OVERWRITE_WITH_GRADIENT</span> <span class="ow">in</span> <span class="n">grads</span><span class="p">:</span>
+            <span class="n">new_params</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="s1">&#39;params&#39;</span><span class="p">:</span> <span class="n">new_params_with_opt</span><span class="p">,</span>
+                <span class="n">OVERWRITE_WITH_GRADIENT</span><span class="p">:</span> <span class="n">grads</span><span class="p">[</span><span class="n">OVERWRITE_WITH_GRADIENT</span><span class="p">]</span>
+            <span class="p">}</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">new_params</span> <span class="o">=</span> <span class="n">new_params_with_opt</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+            <span class="n">step</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">step</span> <span class="o">+</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">new_params</span><span class="p">,</span>
+            <span class="n">opt_state</span><span class="o">=</span><span class="n">new_opt_state</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">create</span><span class="p">(</span>
+            <span class="bp">cls</span><span class="p">,</span>
+            <span class="o">*</span><span class="p">,</span>
+            <span class="n">apply_fn</span><span class="p">:</span> <span class="n">Callable</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">],</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]],</span>
+            <span class="n">tx</span><span class="p">:</span> <span class="n">optax</span><span class="o">.</span><span class="n">GradientTransformation</span><span class="p">,</span>
+            <span class="n">tx_init</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">hyperparameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">module</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="s2">&quot;EasyDeLFlaxPretrainedModel&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+            <span class="n">module_config</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="s2">&quot;EasyDeLPretrainedConfig&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+            <span class="n">module_config_args</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The create function is used to create a new instance of the class.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            cls: Create a new instance of the class</span>
+<span class="sd">            : Pass a list of parameters to the function</span>
+<span class="sd">            apply_fn: Callable: Apply the model to a batch of data</span>
+<span class="sd">            params: core.FrozenDict[str,Any] | Mapping[str,Any]: Pass in</span>
+<span class="sd">                the parameters of the model</span>
+<span class="sd">            tx: optax.GradientTransformation: Initialize the optimizer</span>
+<span class="sd">            tx_init: Optional[dict]: Initialize the optimizer</span>
+<span class="sd">            hyperparameters: Optional[dict]: Pass hyperparameters to the</span>
+<span class="sd">                state for init</span>
+<span class="sd">            module: Optional[EasyDeLFlaxPretrainedModel]: Pass the</span>
+<span class="sd">                module to be used int state</span>
+<span class="sd">            module_config: Optional[EasyDeLPretrainedConfig]: Pass in</span>
+<span class="sd">                the module config</span>
+<span class="sd">            module_config_args: Optional[dict]: Store the config args of</span>
+<span class="sd">                the model</span>
+<span class="sd">            **kwargs: Pass in additional parameters to the</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A EasyDeLState object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">hyperparameters</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">hyperparameters</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">params_with_opt</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">params</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="k">if</span> <span class="n">OVERWRITE_WITH_GRADIENT</span> <span class="ow">in</span> <span class="n">params</span> <span class="k">else</span> <span class="n">params</span>
+        <span class="p">)</span>
+        <span class="n">opt_state</span> <span class="o">=</span> <span class="n">tx</span><span class="o">.</span><span class="n">init</span><span class="p">(</span><span class="n">params_with_opt</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">module_config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">module_config</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">module_config</span><span class="p">)</span>
+            <span class="bp">cls</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">module_config</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span>
+            <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="n">apply_fn</span><span class="o">=</span><span class="n">apply_fn</span><span class="p">,</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">module</span><span class="p">,</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+            <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+            <span class="n">opt_state</span><span class="o">=</span><span class="n">opt_state</span><span class="p">,</span>
+            <span class="n">tx_init</span><span class="o">=</span><span class="bp">cls</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">tx_init</span><span class="p">),</span>
+            <span class="n">hyperparameters</span><span class="o">=</span><span class="n">hyperparameters</span><span class="p">,</span>
+            <span class="n">module_config</span><span class="o">=</span><span class="n">module_config</span><span class="p">,</span>
+            <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">load</span><span class="p">(</span>
+            <span class="bp">cls</span><span class="p">,</span>
+            <span class="o">*</span><span class="p">,</span>
+            <span class="n">apply_fn</span><span class="p">:</span> <span class="n">Callable</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">],</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]],</span>
+            <span class="n">step</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">opt_state</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">optax</span><span class="o">.</span><span class="n">OptState</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">tx_init</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">hyperparameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">module</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="s2">&quot;EasyDeLFlaxPretrainedModel&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+            <span class="n">module_config</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="s2">&quot;EasyDeLPretrainedConfig&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+            <span class="n">module_config_args</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The load function is used to load a saved state of the Model and optimizer or Model Only.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            cls: Make the function a class method</span>
+<span class="sd">            : Pass in a variable number of arguments</span>
+<span class="sd">            step: int: Keep track of the number of steps that have been</span>
+<span class="sd">                taken</span>
+<span class="sd">            apply_fn: Callable: Apply the optimizer to the model</span>
+<span class="sd">            params: core.FrozenDict[str,Any] | Mapping[str,Any]: Pass in</span>
+<span class="sd">                the parameters of the model</span>
+<span class="sd">            opt_state: Optional[optax.OptState]: optimizer state</span>
+<span class="sd">            tx_init: Optional[dict]: Pass the hyperparameters to the</span>
+<span class="sd">                optimizer</span>
+<span class="sd">            hyperparameters: Optional[dict]: Load hyperparameters from</span>
+<span class="sd">                the state dict</span>
+<span class="sd">            module: Optional[EasyDeLFlaxPretrainedModel]: Pass in the</span>
+<span class="sd">                module</span>
+<span class="sd">            module_config: Optional[EasyDeLPretrainedConfig]: Pass the</span>
+<span class="sd">                module config</span>
+<span class="sd">            module_config_args: Optional[dict]: Pass the config_args to</span>
+<span class="sd">                the model</span>
+<span class="sd">            **kwargs: Pass in any additional parameters that may be</span>
+<span class="sd">                needed for the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A new instance of the class</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">module_config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">module_config</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">module_config</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">tx_init</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">tx_init</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">tx_init</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">tx_init</span><span class="p">)</span>
+        <span class="n">tx_init</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">unsafe_dict</span><span class="p">(</span><span class="n">tx_init</span><span class="p">)</span>
+
+        <span class="n">tx_init</span><span class="p">[</span><span class="s2">&quot;optimizer&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="s2">&quot;optimizer&quot;</span><span class="p">,</span> <span class="n">tx_init</span><span class="p">,</span> <span class="s2">&quot;adamw&quot;</span><span class="p">)</span>
+        <span class="n">tx_init</span><span class="p">[</span><span class="s2">&quot;scheduler&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="s2">&quot;scheduler&quot;</span><span class="p">,</span> <span class="n">tx_init</span><span class="p">,</span> <span class="s2">&quot;none&quot;</span><span class="p">)</span>
+        <span class="n">tx_init</span><span class="p">[</span><span class="s2">&quot;steps&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="s2">&quot;steps&quot;</span><span class="p">,</span> <span class="n">tx_init</span><span class="p">,</span> <span class="mf">1e6</span><span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">fix_dict_types</span><span class="p">(</span><span class="n">input_dict</span><span class="p">):</span>
+            <span class="n">fixed_dict</span> <span class="o">=</span> <span class="n">input_dict</span><span class="o">.</span><span class="n">copy</span><span class="p">()</span>
+
+            <span class="c1"># Fix extra_optimizer_kwargs</span>
+            <span class="k">if</span> <span class="s1">&#39;extra_optimizer_kwargs&#39;</span> <span class="ow">in</span> <span class="n">fixed_dict</span><span class="p">:</span>
+                <span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;extra_optimizer_kwargs&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">eval</span><span class="p">(</span><span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;extra_optimizer_kwargs&#39;</span><span class="p">])</span>
+
+            <span class="c1"># Fix gradient_accumulation_steps</span>
+            <span class="k">if</span> <span class="s1">&#39;gradient_accumulation_steps&#39;</span> <span class="ow">in</span> <span class="n">fixed_dict</span><span class="p">:</span>
+                <span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;gradient_accumulation_steps&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;gradient_accumulation_steps&#39;</span><span class="p">])</span>
+
+            <span class="c1"># Fix steps</span>
+            <span class="k">if</span> <span class="s1">&#39;steps&#39;</span> <span class="ow">in</span> <span class="n">fixed_dict</span><span class="p">:</span>
+                <span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;steps&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;steps&#39;</span><span class="p">])</span>
+
+            <span class="c1"># Fix warmup_steps</span>
+            <span class="k">if</span> <span class="s1">&#39;warmup_steps&#39;</span> <span class="ow">in</span> <span class="n">fixed_dict</span><span class="p">:</span>
+                <span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;warmup_steps&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;warmup_steps&#39;</span><span class="p">])</span>
+
+            <span class="k">return</span> <span class="n">fixed_dict</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">get_optimizer_and_scheduler</span><span class="p">(</span>
+                <span class="o">**</span><span class="n">tx_init</span>
+            <span class="p">)</span>
+        <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+            <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">get_optimizer_and_scheduler</span><span class="p">(</span>
+                <span class="o">**</span><span class="n">fix_dict_types</span><span class="p">(</span><span class="n">tx_init</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="n">hyperparameters</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">hyperparameters</span> <span class="o">=</span> <span class="p">{}</span>
+
+        <span class="k">if</span> <span class="n">module_config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">hyperparameters</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="n">module_config</span><span class="o">.</span><span class="n">model_type</span><span class="p">)</span>
+            <span class="bp">cls</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">module_config</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span>
+            <span class="n">step</span><span class="o">=</span><span class="n">step</span><span class="p">,</span>
+            <span class="n">apply_fn</span><span class="o">=</span><span class="n">apply_fn</span><span class="p">,</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+            <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+            <span class="n">opt_state</span><span class="o">=</span><span class="n">opt_state</span><span class="p">,</span>
+            <span class="n">tx_init</span><span class="o">=</span><span class="bp">cls</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">tx_init</span><span class="p">),</span>
+            <span class="n">hyperparameters</span><span class="o">=</span><span class="n">hyperparameters</span><span class="p">,</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">module</span><span class="p">,</span>
+            <span class="n">module_config</span><span class="o">=</span><span class="n">module_config</span><span class="p">,</span>
+            <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">load_state</span><span class="p">(</span>
+            <span class="bp">cls</span><span class="p">,</span>
+            <span class="n">checkpoint_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">os</span><span class="o">.</span><span class="n">PathLike</span><span class="p">],</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">init_optimizer_state</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">state_shard_fns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">config_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The load_state function is a class method that loads the state of an EasyDeLModel from a checkpoint.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            cls: Create an instance of the class</span>
+<span class="sd">            checkpoint_path: str | os.PathLike: Specify the path to the</span>
+<span class="sd">                checkpoint file</span>
+<span class="sd">            dtype: jnp.dtype: The dtype of the model</span>
+<span class="sd">            param_dtype: jnp.dtype: The dtype of the model parameters</span>
+<span class="sd">            precision: Optional[Union[str, jax.lax.Precision]]:</span>
+<span class="sd">                precision of the model</span>
+<span class="sd">            init_optimizer_state: bool: Initialize the optimizer if it&#39;s</span>
+<span class="sd">                not Initialized yet (if it Initialized the option</span>
+<span class="sd">            state_shard_fns: Optional[Mapping[str,Callable]]: Specify</span>
+<span class="sd">                the function that will be used</span>
+<span class="sd">            verbose: bool: Print out the progress of loading</span>
+<span class="sd">            input_shape: Tuple: input_shape to init module</span>
+<span class="sd">            config_kwargs: Optional[dict] : config kwargs to be passed</span>
+<span class="sd">                to model config</span>
+<span class="sd">        will be ignored )</span>
+<span class="sd">        to shard the loaded state</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A state object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="kn">from</span> <span class="nn">..modules.auto_easydel_model</span> <span class="kn">import</span> <span class="n">get_modules_by_type</span>
+
+        <span class="n">checkpoint</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">CheckpointManager</span><span class="o">.</span><span class="n">load_checkpoint</span><span class="p">(</span>
+            <span class="n">path</span><span class="o">=</span><span class="n">checkpoint_path</span><span class="p">,</span>
+            <span class="n">shard_fns</span><span class="o">=</span><span class="n">state_shard_fns</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="o">=</span><span class="n">verbose</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">hyperparameters</span> <span class="o">=</span> <span class="n">checkpoint</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;hyperparameters&quot;</span><span class="p">)</span>
+        <span class="n">cfg</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">convertor</span> <span class="o">=</span> <span class="n">get_modules_by_type</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="bp">cls</span><span class="o">.</span><span class="n">get_model_type</span><span class="p">(</span><span class="n">hyperparameters</span><span class="p">))</span>
+        <span class="n">checkpoint</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;module_config&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">checkpoint</span><span class="p">[</span><span class="s2">&quot;module_config_args&quot;</span><span class="p">]</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">cfg_behave</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">unsafe_dict</span><span class="p">(</span><span class="n">checkpoint</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;module_config_args&quot;</span><span class="p">,</span> <span class="p">{}))</span>
+            <span class="n">cfg_behave</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;id2label&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">cfg_behave</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;label2id&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">cfg_behave</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;torch_dtype&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">cfg_behave</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">cfg_behave</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">k</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="n">v</span> <span class="o">==</span> <span class="s2">&quot;None&quot;</span><span class="p">:</span>
+                    <span class="n">cfg_behave</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+                <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+                    <span class="k">if</span> <span class="n">v</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;{&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">v</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;(&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">v</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;PartitionSpec&quot;</span><span class="p">):</span>
+                        <span class="n">cfg_behave</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="nb">eval</span><span class="p">(</span><span class="n">v</span><span class="p">)</span>
+            <span class="n">module_config</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">from_dict</span><span class="p">(</span><span class="n">cfg_behave</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">config_kwargs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">config_kwargs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                    <span class="nb">setattr</span><span class="p">(</span><span class="n">module_config</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span>
+            <span class="n">module_in</span> <span class="o">=</span> <span class="n">module</span><span class="p">(</span>
+                <span class="n">config</span><span class="o">=</span><span class="n">module_config</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+                <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">TypeError</span><span class="p">(</span>
+                <span class="s2">&quot;Om seems like i couldn&#39;t read model correctly ;(&quot;</span>
+            <span class="p">)</span>
+        <span class="n">state</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+            <span class="n">apply_fn</span><span class="o">=</span><span class="n">module_in</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">module_in</span><span class="p">,</span>
+            <span class="n">module_config</span><span class="o">=</span><span class="n">module_config</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">checkpoint</span>
+        <span class="p">)</span>
+        <span class="n">state</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+            <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>  <span class="c1"># removing because it&#39;s not needed anymore</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">init_optimizer_state</span><span class="p">:</span>
+            <span class="n">state</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">init_opt_state</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">state</span>
+
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">get_model_type</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">dictionary</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">cls</span><span class="o">.</span><span class="n">find_key</span><span class="p">(</span><span class="s2">&quot;model_type&quot;</span><span class="p">,</span> <span class="n">dictionary</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">save_state</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">filename</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">os</span><span class="o">.</span><span class="n">PathLike</span><span class="p">],</span>
+            <span class="n">save_optimizer</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">checkpoint_dir</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">os</span><span class="o">.</span><span class="n">PathLike</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">gather_fns</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="n">Callable</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">float_dtype</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The save_state function saves the state of a model to disk.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Pass the object itself to the function</span>
+<span class="sd">            filename: str | os.PathLike: Specify the name of the file to</span>
+<span class="sd">                save</span>
+<span class="sd">            save_optimizer: bool: Determine whether to save the</span>
+<span class="sd">                optimizer state or not</span>
+<span class="sd">            checkpoint_dir: Optional[str | os.PathLike]: Specify the</span>
+<span class="sd">                directory where the checkpoint is saved</span>
+<span class="sd">            verbose: bool: Print out the path of the saved file</span>
+<span class="sd">            gather_fns: dict[Callable]: Specify a dictionary of</span>
+<span class="sd">                functions that can be used to gather</span>
+<span class="sd">            float_dtype: str | jax.numpy.dtype: Specify the precision of</span>
+<span class="sd">                the saved model</span>
+<span class="sd">        :param : Save the optimizer state</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            None</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">state</span> <span class="o">=</span> <span class="bp">self</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">save_optimizer</span><span class="p">:</span>
+            <span class="n">state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                <span class="n">opt_state</span><span class="o">=</span><span class="kc">None</span>
+            <span class="p">)</span>
+        <span class="n">state</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+            <span class="n">module_config_args</span><span class="o">=</span><span class="p">{</span>
+                <span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span>
+                <span class="nb">isinstance</span><span class="p">(</span>
+                    <span class="n">v</span><span class="p">,</span> <span class="p">(</span><span class="nb">int</span><span class="p">,</span> <span class="nb">bool</span><span class="p">,</span> <span class="nb">float</span><span class="p">)</span>
+                <span class="p">)</span>
+            <span class="p">}</span>
+        <span class="p">)</span>
+        <span class="n">fjformer</span><span class="o">.</span><span class="n">CheckpointManager</span><span class="o">.</span><span class="n">save_state_to_file</span><span class="p">(</span>
+            <span class="n">state</span><span class="o">=</span><span class="n">state</span><span class="p">,</span>
+            <span class="n">path</span><span class="o">=</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">checkpoint_dir</span><span class="p">,</span> <span class="n">filename</span><span class="p">)</span> <span class="k">if</span> <span class="n">checkpoint_dir</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">filename</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="o">=</span><span class="n">verbose</span><span class="p">,</span>
+            <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+            <span class="n">float_dtype</span><span class="o">=</span><span class="n">float_dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">free_opt_state</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;EasyDeLState&quot;</span><span class="p">:</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The free_opt_state function is used to free the memory allocated by a previous call to setopt.</span>
+<span class="sd">        It should be called after all the options have been set, and before you perform any of the transfers.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A new state with the opt_state field set to none</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+            <span class="n">opt_state</span><span class="o">=</span><span class="kc">None</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_opt_state</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;EasyDeLState&quot;</span><span class="p">:</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_opt_state function initializes the optimizer state.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Make the object callable, and params is used to pass</span>
+<span class="sd">                in a dictionary of parameters</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A new instance of the class with opt_state initialized</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">opt_state</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">params_with_opt</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="k">if</span> <span class="n">OVERWRITE_WITH_GRADIENT</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+            <span class="p">)</span>
+            <span class="n">opt_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx</span><span class="o">.</span><span class="n">init</span><span class="p">(</span><span class="n">params_with_opt</span><span class="p">)</span>
+
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                <span class="n">opt_state</span><span class="o">=</span><span class="n">opt_state</span>
+            <span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span>
+
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">from_pretrained</span><span class="p">(</span>
+            <span class="bp">cls</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">filename</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">optimizer</span><span class="p">:</span> <span class="n">AVAILABLE_OPTIMIZERS</span> <span class="o">=</span> <span class="s2">&quot;adamw&quot;</span><span class="p">,</span>
+            <span class="n">scheduler</span><span class="p">:</span> <span class="n">AVAILABLE_SCHEDULERS</span> <span class="o">=</span> <span class="s2">&quot;none&quot;</span><span class="p">,</span>
+            <span class="n">tx_init</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">device</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="s1">&#39;cpu&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">],</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">),</span>
+            <span class="n">sharding_axis_dims</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">sharding_axis_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span>
+            <span class="n">query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">key_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">value_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">shard_attention_computation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">backend</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">init_optimizer_state</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">free_optimizer_state</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">state_shard_fns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">config_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;EasyDeLState&quot;</span><span class="p">:</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The from_pretrained function is a helper function to quickly load a pretrained model and its associated configuration.</span>
+<span class="sd">        This method takes care of returning the correct model class instance based on the `model_type` property in the</span>
+<span class="sd">        config object, or when it&#39;s missing, falling back to using pattern matching on the</span>
+<span class="sd">         `pretrained_model_name_or_path` string:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            cls: Refer to the class that is being defined</span>
+<span class="sd">            pretrained_model_name_or_path: str: Load the pretrained</span>
+<span class="sd">                model</span>
+<span class="sd">            filename: Optional[str]: Specify the name of the file to</span>
+<span class="sd">                download from huggingface hub</span>
+<span class="sd">            optimizer: AVAILABLE_OPTIMIZERS: Specify the optimizer used</span>
+<span class="sd">                for training</span>
+<span class="sd">            scheduler: AVAILABLE_SCHEDULERS: Specify the name of the</span>
+<span class="sd">                scheduler to use</span>
+<span class="sd">            tx_init: Optional[dict]: Pass the hyperparameters of the</span>
+<span class="sd">                optimizer</span>
+<span class="sd">            device: Specify the device on which to run the model</span>
+<span class="sd">            dtype: jax.numpy.dtype: Specify the dtype of the model</span>
+<span class="sd">                parameters</span>
+<span class="sd">            param_dtype: jax.numpy.dtype: Specify the data type of the</span>
+<span class="sd">                parameters</span>
+<span class="sd">            precision: jax.lax.Precision: Control the precision of the</span>
+<span class="sd">                calculation</span>
+<span class="sd">            sharding_axis_dims: Sequence[int]: Specify the dimension of</span>
+<span class="sd">                each axis</span>
+<span class="sd">            sharding_axis_names: Sequence[str]: Specify the names of the</span>
+<span class="sd">                axes in each shard</span>
+<span class="sd">            query_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">                partitioning of the query matrix</span>
+<span class="sd">            generation_query_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">                partitioning of the query tensor in</span>
+<span class="sd">            value_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">                partitioning of the value tensor</span>
+<span class="sd">            bias_partition_spec: PartitionSpec: Specify the partitioning</span>
+<span class="sd">                of the bias</span>
+<span class="sd">            attention_partition_spec: PartitionSpec: Partition the</span>
+<span class="sd">                attention weights</span>
+<span class="sd">            shard_attention_computation: bool: Determine whether to use</span>
+<span class="sd">                shard_map or not</span>
+<span class="sd">            input_shape: Sequence[int]: Specify the shape of the input</span>
+<span class="sd">                to be used for training</span>
+<span class="sd">            backend: Optional[str]: Specify the backend used for the</span>
+<span class="sd">                model</span>
+<span class="sd">            init_optimizer_state: bool: Initialize the optimizer state</span>
+<span class="sd">            free_optimizer_state: bool: Free the optimizer state from</span>
+<span class="sd">                memory</span>
+<span class="sd">            verbose: bool: Print the progress of loading the model</span>
+<span class="sd">            state_shard_fns: Optional[Mapping[str,Callable]]: Specify</span>
+<span class="sd">                the function to use for sharding the state</span>
+<span class="sd">            **kwargs: Pass keyword arguments to the function</span>
+<span class="sd">            config_kwargs: Optional[Mapping[str, Any]]: Config kwargs to</span>
+<span class="sd">                be added to config before creating module</span>
+<span class="sd">        generation process:param key_partition_spec: PartitionSpec: Specify the partitioning of the key matrix</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            An `EasyDeLState` object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">free_optimizer_state</span> <span class="ow">and</span> <span class="n">init_optimizer_state</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="n">EasyDeLRuntimeError</span><span class="p">(</span>
+                <span class="s2">&quot;You can&#39;t use `free_optimizer_state` and `init_optimizer_state` True at same Time&quot;</span>
+            <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">filename</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="kn">from</span> <span class="nn">..modules.auto_easydel_model</span> <span class="kn">import</span> <span class="n">AutoEasyDeLModelForCausalLM</span>
+
+            <span class="n">model</span><span class="p">,</span> <span class="n">params</span> <span class="o">=</span> <span class="n">AutoEasyDeLModelForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+                <span class="n">sharding_axis_dims</span><span class="o">=</span><span class="n">sharding_axis_dims</span><span class="p">,</span>
+                <span class="n">sharding_axis_names</span><span class="o">=</span><span class="n">sharding_axis_names</span><span class="p">,</span>
+                <span class="n">query_partition_spec</span><span class="o">=</span><span class="n">query_partition_spec</span><span class="p">,</span>
+                <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+                <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+                <span class="n">key_partition_spec</span><span class="o">=</span><span class="n">key_partition_spec</span><span class="p">,</span>
+                <span class="n">value_partition_spec</span><span class="o">=</span><span class="n">value_partition_spec</span><span class="p">,</span>
+                <span class="n">bias_partition_spec</span><span class="o">=</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+                <span class="n">attention_partition_spec</span><span class="o">=</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+                <span class="n">shard_attention_computation</span><span class="o">=</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+                <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+                <span class="n">backend</span><span class="o">=</span><span class="n">backend</span><span class="p">,</span>
+                <span class="n">config_kwargs</span><span class="o">=</span><span class="n">config_kwargs</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">kwargs</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="n">tx_init</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">tx_init</span> <span class="o">=</span> <span class="p">{}</span>
+
+            <span class="n">tx_init</span><span class="p">[</span><span class="s2">&quot;optimizer&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">optimizer</span>
+            <span class="n">tx_init</span><span class="p">[</span><span class="s2">&quot;scheduler&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">scheduler</span>
+
+            <span class="n">state</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">FrozenDict</span><span class="p">({</span><span class="s1">&#39;params&#39;</span><span class="p">:</span> <span class="n">params</span><span class="p">}),</span>
+                <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                <span class="n">opt_state</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="n">tx_init</span><span class="o">=</span><span class="n">tx_init</span><span class="p">,</span>
+                <span class="n">hyperparameters</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="n">module</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+                <span class="n">module_config</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">module_config_args</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">to_dict</span><span class="p">()</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="n">device</span><span class="p">):</span>
+                <span class="kn">from</span> <span class="nn">huggingface_hub</span> <span class="kn">import</span> <span class="n">hf_hub_download</span>
+                <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="n">hf_hub_download</span><span class="p">(</span>
+                    <span class="n">repo_id</span><span class="o">=</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                    <span class="n">filename</span><span class="o">=</span><span class="n">filename</span><span class="p">,</span>
+                <span class="p">)</span>
+                <span class="n">state</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">load_state</span><span class="p">(</span>
+                    <span class="n">checkpoint_path</span><span class="o">=</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                    <span class="n">init_optimizer_state</span><span class="o">=</span><span class="n">init_optimizer_state</span><span class="p">,</span>
+                    <span class="n">verbose</span><span class="o">=</span><span class="n">verbose</span><span class="p">,</span>
+                    <span class="n">state_shard_fns</span><span class="o">=</span><span class="n">state_shard_fns</span><span class="p">,</span>
+                    <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+                    <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+                    <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+                    <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span>
+                <span class="p">)</span>
+        <span class="k">if</span> <span class="n">init_optimizer_state</span><span class="p">:</span>
+            <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="n">device</span><span class="p">):</span>
+                <span class="n">state</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">init_opt_state</span><span class="p">()</span>
+        <span class="k">if</span> <span class="n">free_optimizer_state</span><span class="p">:</span>
+            <span class="n">state</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">free_opt_state</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">state</span>
+
+    <span class="k">def</span> <span class="nf">shard_params</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">shard_fns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;bf16&quot;</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mesh</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">rules</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Sequence</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">]]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+        <span class="n">dtype</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">get_dtype</span><span class="p">(</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">shard_fns</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_config</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">rules</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="n">EasyDeLRuntimeError</span><span class="p">(</span>
+                <span class="s2">&quot;the model doesn&#39;t carrying `module_config` you should pass `shard_fns` or `rules`&quot;</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="n">shard_fns</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">rules</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="kn">from</span> <span class="nn">fjformer</span> <span class="kn">import</span> <span class="n">match_partition_rules</span><span class="p">,</span> <span class="n">make_shard_and_gather_fns</span>
+            <span class="n">rules</span> <span class="o">=</span> <span class="n">rules</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="p">)</span>
+            <span class="n">partition_specs</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span>
+                <span class="n">rules</span><span class="o">=</span><span class="n">rules</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+            <span class="p">)</span>
+            <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span>
+                <span class="n">partition_specs</span><span class="o">=</span><span class="n">partition_specs</span><span class="p">,</span>
+                <span class="n">dtype_specs</span><span class="o">=</span><span class="n">dtype</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="n">mesh</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">mesh</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">()</span>
+        <span class="k">with</span> <span class="n">mesh</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                    <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">p</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">p</span><span class="p">),</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">create_hyperparameters</span><span class="p">(</span><span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;it&#39;s the only way we can dump xla compiler&quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="n">STRING_REP</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+                <span class="nb">type</span><span class="o">=</span><span class="s2">&quot;str&quot;</span><span class="p">,</span>
+                <span class="n">key</span><span class="o">=</span><span class="s2">&quot;model_type&quot;</span><span class="p">,</span>
+                <span class="n">value</span><span class="o">=</span><span class="n">model_type</span>
+            <span class="p">):</span> <span class="n">DEFAULT_ES_VAL</span>
+        <span class="p">}</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">safe_dict</span><span class="p">(</span><span class="n">dictionary</span><span class="p">:</span> <span class="nb">dict</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">dictionary</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+            <span class="n">val</span> <span class="o">=</span> <span class="n">dictionary</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">k</span><span class="p">)</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="p">(</span><span class="nb">int</span><span class="p">,</span> <span class="nb">bool</span><span class="p">)):</span>
+                <span class="n">val</span> <span class="o">=</span> <span class="n">dictionary</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">k</span><span class="p">)</span>
+                <span class="n">string_value_format</span> <span class="o">=</span> <span class="n">STRING_REP</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+                    <span class="nb">type</span><span class="o">=</span><span class="nb">type</span><span class="p">(</span><span class="n">val</span><span class="p">)</span><span class="o">.</span><span class="vm">__name__</span><span class="p">,</span>
+                    <span class="n">key</span><span class="o">=</span><span class="n">k</span><span class="p">,</span>
+                    <span class="n">value</span><span class="o">=</span><span class="n">val</span>
+                <span class="p">)</span>
+                <span class="n">dictionary</span><span class="p">[</span><span class="n">string_value_format</span><span class="p">]</span> <span class="o">=</span> <span class="n">DEFAULT_ES_VAL</span>
+        <span class="k">return</span> <span class="n">dictionary</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">unsafe_dict</span><span class="p">(</span><span class="n">dictionary</span><span class="p">:</span> <span class="nb">dict</span><span class="p">):</span>
+        <span class="n">result</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">dictionary</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+            <span class="k">if</span> <span class="n">VALUE_SEP</span> <span class="ow">in</span> <span class="n">k</span> <span class="ow">and</span> <span class="n">TYPE_SEP</span> <span class="ow">in</span> <span class="n">k</span><span class="p">:</span>
+                <span class="n">v</span> <span class="o">=</span> <span class="n">dictionary</span><span class="p">[</span><span class="n">k</span><span class="p">]</span>
+                <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="n">break_format</span><span class="p">(</span><span class="n">key</span><span class="o">=</span><span class="n">k</span><span class="p">,</span> <span class="n">value</span><span class="o">=</span><span class="n">v</span><span class="p">)</span>
+                <span class="n">result</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">result</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">dictionary</span><span class="p">[</span><span class="n">k</span><span class="p">]</span>
+        <span class="k">return</span> <span class="n">result</span>
+
+    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __str__ function is called when you call str(object) or print(object).</span>
+<span class="sd">        The __repr__ function is called when you type the object name in the interpreter.</span>
+<span class="sd">        If no __str__ method exists, Python will use __repr__ as a fallback.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            string</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">params_size</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="nb">getattr</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="s2">&quot;size&quot;</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span> <span class="k">for</span> <span class="n">n</span> <span class="ow">in</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_flatten</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">)[</span><span class="mi">0</span><span class="p">])</span>
+        <span class="n">opt_state_size</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="nb">getattr</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="s2">&quot;size&quot;</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span> <span class="k">for</span> <span class="n">n</span> <span class="ow">in</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_flatten</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">opt_state</span><span class="p">)[</span><span class="mi">0</span><span class="p">])</span>
+
+        <span class="k">def</span> <span class="nf">make_depth</span><span class="p">(</span><span class="n">mdl</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">mdl</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="k">return</span> <span class="n">mdl</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                        <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span>
+                        <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+                        <span class="s2">&quot;&quot;</span>
+                    <span class="p">)</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">mdl</span><span class="p">,</span> <span class="s2">&quot;__str__&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span>
+                <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                    <span class="o">...</span>
+            <span class="k">return</span> <span class="n">mdl</span>
+
+        <span class="n">optimizer</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx_init</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;optimizer&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="n">scheduler</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx_init</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;scheduler&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">optimizer</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">optimizer</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find_key</span><span class="p">(</span>
+                <span class="s2">&quot;optimizer&quot;</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">tx_init</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="n">scheduler</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">scheduler</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find_key</span><span class="p">(</span>
+                <span class="s2">&quot;scheduler&quot;</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">tx_init</span>
+            <span class="p">)</span>
+
+        <span class="n">string</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">step = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">step</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">module = </span><span class="si">{</span><span class="n">make_depth</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">module_config = </span><span class="si">{</span><span class="n">make_depth</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">module_config</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">apply_fn: Callable = </span><span class="si">{</span><span class="n">make_depth</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">params : </span><span class="si">{</span><span class="n">params_size</span><span class="si">}</span><span class="s2"> Parameters&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">tx = </span><span class="si">{</span><span class="n">optimizer</span><span class="si">}</span><span class="s2"> Optimizer with </span><span class="si">{</span><span class="n">scheduler</span><span class="si">}</span><span class="s2"> Scheduler&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">opt_state : </span><span class="si">{</span><span class="n">opt_state_size</span><span class="si">}</span><span class="s2"> Parameters&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">hyperparameters : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">hyperparameters</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">)&quot;</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">string</span>
+
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">search</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">dictionary</span><span class="p">:</span> <span class="nb">dict</span><span class="p">,</span> <span class="n">default</span><span class="p">:</span> <span class="n">Any</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+        <span class="n">req</span> <span class="o">=</span> <span class="n">dictionary</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">req</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">req</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">find_key</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="n">dictionary</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">req</span> <span class="ow">or</span> <span class="n">default</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">find_key</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="n">dictionary</span><span class="p">:</span> <span class="nb">dict</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="kc">None</span><span class="p">]:</span>
+        <span class="n">result</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">dictionary</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">k_</span><span class="p">,</span> <span class="n">v_</span> <span class="o">=</span> <span class="n">break_format</span><span class="p">(</span><span class="n">key</span><span class="o">=</span><span class="n">k</span><span class="p">,</span> <span class="n">value</span><span class="o">=</span><span class="n">v</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">k_</span> <span class="o">==</span> <span class="n">key</span><span class="p">:</span>
+                <span class="n">result</span> <span class="o">=</span> <span class="n">v_</span>
+                <span class="k">break</span>
+        <span class="k">return</span> <span class="n">result</span>
+
+    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __repr__ function is the &amp;quot;official&amp;quot; string representation of an object.</span>
+<span class="sd">        It&#39;s what you get when you type the object name at the Python prompt, or pass it to str().</span>
+<span class="sd">        The goal of __repr__ is to be unambiguous: if eval(repr(x)) == x, then __repr__ should return a string that</span>
+<span class="sd">        looks like a valid Python expression that could be used to recreate an object with the same value (</span>
+<span class="sd">        given an appropriate environment). If this is not possible, a string formatted using %s</span>
+<span class="sd">        formatting is also acceptable.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A string that is a valid python expression</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.etils.easystate.EasyDeLState.__repr__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__repr__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>repr</strong> function is the &quot;official&quot; string representation of an object.
+It's what you get when you type the object name at the Python prompt, or pass it to str().
+The goal of <strong>repr</strong> is to be unambiguous: if eval(repr(x)) == x, then <strong>repr</strong> should return a string that
+looks like a valid Python expression that could be used to recreate an object with the same value (
+given an appropriate environment). If this is not possible, a string formatted using %s
+formatting is also acceptable.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A string that is a valid python expression</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/easystate.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __repr__ function is the &amp;quot;official&amp;quot; string representation of an object.</span>
+<span class="sd">    It&#39;s what you get when you type the object name at the Python prompt, or pass it to str().</span>
+<span class="sd">    The goal of __repr__ is to be unambiguous: if eval(repr(x)) == x, then __repr__ should return a string that</span>
+<span class="sd">    looks like a valid Python expression that could be used to recreate an object with the same value (</span>
+<span class="sd">    given an appropriate environment). If this is not possible, a string formatted using %s</span>
+<span class="sd">    formatting is also acceptable.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A string that is a valid python expression</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.etils.easystate.EasyDeLState.__str__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__str__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>str</strong> function is called when you call str(object) or print(object).
+The <strong>repr</strong> function is called when you type the object name in the interpreter.
+If no <strong>str</strong> method exists, Python will use <strong>repr</strong> as a fallback.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>string</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/easystate.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __str__ function is called when you call str(object) or print(object).</span>
+<span class="sd">    The __repr__ function is called when you type the object name in the interpreter.</span>
+<span class="sd">    If no __str__ method exists, Python will use __repr__ as a fallback.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        string</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">params_size</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="nb">getattr</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="s2">&quot;size&quot;</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span> <span class="k">for</span> <span class="n">n</span> <span class="ow">in</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_flatten</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">)[</span><span class="mi">0</span><span class="p">])</span>
+    <span class="n">opt_state_size</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="nb">getattr</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="s2">&quot;size&quot;</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span> <span class="k">for</span> <span class="n">n</span> <span class="ow">in</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_flatten</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">opt_state</span><span class="p">)[</span><span class="mi">0</span><span class="p">])</span>
+
+    <span class="k">def</span> <span class="nf">make_depth</span><span class="p">(</span><span class="n">mdl</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="k">if</span> <span class="n">mdl</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">mdl</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                    <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+                    <span class="s2">&quot;&quot;</span>
+                <span class="p">)</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">mdl</span><span class="p">,</span> <span class="s2">&quot;__str__&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span>
+            <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                <span class="o">...</span>
+        <span class="k">return</span> <span class="n">mdl</span>
+
+    <span class="n">optimizer</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx_init</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;optimizer&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="n">scheduler</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx_init</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;scheduler&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">optimizer</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">optimizer</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find_key</span><span class="p">(</span>
+            <span class="s2">&quot;optimizer&quot;</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tx_init</span>
+        <span class="p">)</span>
+    <span class="k">if</span> <span class="n">scheduler</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">scheduler</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">find_key</span><span class="p">(</span>
+            <span class="s2">&quot;scheduler&quot;</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tx_init</span>
+        <span class="p">)</span>
+
+    <span class="n">string</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">step = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">step</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">module = </span><span class="si">{</span><span class="n">make_depth</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">module_config = </span><span class="si">{</span><span class="n">make_depth</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">module_config</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">apply_fn: Callable = </span><span class="si">{</span><span class="n">make_depth</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">params : </span><span class="si">{</span><span class="n">params_size</span><span class="si">}</span><span class="s2"> Parameters&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">tx = </span><span class="si">{</span><span class="n">optimizer</span><span class="si">}</span><span class="s2"> Optimizer with </span><span class="si">{</span><span class="n">scheduler</span><span class="si">}</span><span class="s2"> Scheduler&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">opt_state : </span><span class="si">{</span><span class="n">opt_state_size</span><span class="si">}</span><span class="s2"> Parameters&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">hyperparameters : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">hyperparameters</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">)&quot;</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">string</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.etils.easystate.EasyDeLState.apply_gradients" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_gradients</span><span class="p">(</span><span class="o">*</span><span class="p">,</span> <span class="n">grads</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_gradients function is the core of the optimizer. It takes in a dictionary of gradients,
+and returns an updated version of itself with new parameters and state. The function also updates
+the step count.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the current instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code></code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Unpack the grads dictionary into positional arguments</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>grads</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the gradients of the loss function with
+respect to each parameter</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in additional arguments to the function</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A new State with the updated parameters and params</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/easystate.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_gradients</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">grads</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_gradients function is the core of the optimizer. It takes in a dictionary of gradients,</span>
+<span class="sd">    and returns an updated version of itself with new parameters and state. The function also updates</span>
+<span class="sd">    the step count.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the current instance of the class</span>
+<span class="sd">        : Unpack the grads dictionary into positional arguments</span>
+<span class="sd">        grads: Pass in the gradients of the loss function with</span>
+<span class="sd">            respect to each parameter</span>
+<span class="sd">        **kwargs: Pass in additional arguments to the function</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A new State with the updated parameters and params</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">OVERWRITE_WITH_GRADIENT</span> <span class="ow">in</span> <span class="n">grads</span><span class="p">:</span>
+        <span class="n">grads_with_opt</span> <span class="o">=</span> <span class="n">grads</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span>
+        <span class="n">params_with_opt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">grads_with_opt</span> <span class="o">=</span> <span class="n">grads</span>
+        <span class="n">params_with_opt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="n">updates</span><span class="p">,</span> <span class="n">new_opt_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx</span><span class="o">.</span><span class="n">update</span><span class="p">(</span>
+        <span class="n">grads_with_opt</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">opt_state</span><span class="p">,</span> <span class="n">params_with_opt</span>
+    <span class="p">)</span>
+    <span class="n">new_params_with_opt</span> <span class="o">=</span> <span class="n">optax</span><span class="o">.</span><span class="n">apply_updates</span><span class="p">(</span><span class="n">params_with_opt</span><span class="p">,</span> <span class="n">updates</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">OVERWRITE_WITH_GRADIENT</span> <span class="ow">in</span> <span class="n">grads</span><span class="p">:</span>
+        <span class="n">new_params</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s1">&#39;params&#39;</span><span class="p">:</span> <span class="n">new_params_with_opt</span><span class="p">,</span>
+            <span class="n">OVERWRITE_WITH_GRADIENT</span><span class="p">:</span> <span class="n">grads</span><span class="p">[</span><span class="n">OVERWRITE_WITH_GRADIENT</span><span class="p">]</span>
+        <span class="p">}</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">new_params</span> <span class="o">=</span> <span class="n">new_params_with_opt</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+        <span class="n">step</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">step</span> <span class="o">+</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">params</span><span class="o">=</span><span class="n">new_params</span><span class="p">,</span>
+        <span class="n">opt_state</span><span class="o">=</span><span class="n">new_opt_state</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.etils.easystate.EasyDeLState.create" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create</span><span class="p">(</span><span class="o">*</span><span class="p">,</span> <span class="n">apply_fn</span><span class="p">,</span> <span class="n">params</span><span class="p">,</span> <span class="n">tx</span><span class="p">,</span> <span class="n">tx_init</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">hyperparameters</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">module</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">module_config</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-classmethod"><code>classmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The create function is used to create a new instance of the class.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>cls</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Create a new instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code></code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass a list of parameters to the function</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>apply_fn</code></td>
+            <td>
+                  <code><span title="typing.Callable">Callable</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Callable: Apply the model to a batch of data</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="flax.core.FrozenDict">FrozenDict</span>[str, <span title="typing.Any">Any</span>], <span title="typing.Mapping">Mapping</span>[str, <span title="typing.Any">Any</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>core.FrozenDict[str,Any] | Mapping[str,Any]: Pass in
+the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tx</code></td>
+            <td>
+                  <code><span title="optax.GradientTransformation">GradientTransformation</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>optax.GradientTransformation: Initialize the optimizer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tx_init</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict]: Initialize the optimizer</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hyperparameters</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict]: Pass hyperparameters to the
+state for init</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>module</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[EasyDeLFlaxPretrainedModel]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[EasyDeLFlaxPretrainedModel]: Pass the
+module to be used int state</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>module_config</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[EasyDeLPretrainedConfig]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[EasyDeLPretrainedConfig]: Pass in
+the module config</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>module_config_args</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict]: Store the config args of
+the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in additional parameters to the</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A EasyDeLState object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/easystate.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@classmethod</span>
+<span class="k">def</span> <span class="nf">create</span><span class="p">(</span>
+        <span class="bp">cls</span><span class="p">,</span>
+        <span class="o">*</span><span class="p">,</span>
+        <span class="n">apply_fn</span><span class="p">:</span> <span class="n">Callable</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">],</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]],</span>
+        <span class="n">tx</span><span class="p">:</span> <span class="n">optax</span><span class="o">.</span><span class="n">GradientTransformation</span><span class="p">,</span>
+        <span class="n">tx_init</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">hyperparameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">module</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="s2">&quot;EasyDeLFlaxPretrainedModel&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+        <span class="n">module_config</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="s2">&quot;EasyDeLPretrainedConfig&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+        <span class="n">module_config_args</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The create function is used to create a new instance of the class.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        cls: Create a new instance of the class</span>
+<span class="sd">        : Pass a list of parameters to the function</span>
+<span class="sd">        apply_fn: Callable: Apply the model to a batch of data</span>
+<span class="sd">        params: core.FrozenDict[str,Any] | Mapping[str,Any]: Pass in</span>
+<span class="sd">            the parameters of the model</span>
+<span class="sd">        tx: optax.GradientTransformation: Initialize the optimizer</span>
+<span class="sd">        tx_init: Optional[dict]: Initialize the optimizer</span>
+<span class="sd">        hyperparameters: Optional[dict]: Pass hyperparameters to the</span>
+<span class="sd">            state for init</span>
+<span class="sd">        module: Optional[EasyDeLFlaxPretrainedModel]: Pass the</span>
+<span class="sd">            module to be used int state</span>
+<span class="sd">        module_config: Optional[EasyDeLPretrainedConfig]: Pass in</span>
+<span class="sd">            the module config</span>
+<span class="sd">        module_config_args: Optional[dict]: Store the config args of</span>
+<span class="sd">            the model</span>
+<span class="sd">        **kwargs: Pass in additional parameters to the</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A EasyDeLState object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">hyperparameters</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">hyperparameters</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="n">params_with_opt</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">params</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="k">if</span> <span class="n">OVERWRITE_WITH_GRADIENT</span> <span class="ow">in</span> <span class="n">params</span> <span class="k">else</span> <span class="n">params</span>
+    <span class="p">)</span>
+    <span class="n">opt_state</span> <span class="o">=</span> <span class="n">tx</span><span class="o">.</span><span class="n">init</span><span class="p">(</span><span class="n">params_with_opt</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">module_config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">module_config</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">module_config</span><span class="p">)</span>
+        <span class="bp">cls</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">module_config</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">)</span>
+    <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span>
+        <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+        <span class="n">apply_fn</span><span class="o">=</span><span class="n">apply_fn</span><span class="p">,</span>
+        <span class="n">module</span><span class="o">=</span><span class="n">module</span><span class="p">,</span>
+        <span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+        <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+        <span class="n">opt_state</span><span class="o">=</span><span class="n">opt_state</span><span class="p">,</span>
+        <span class="n">tx_init</span><span class="o">=</span><span class="bp">cls</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">tx_init</span><span class="p">),</span>
+        <span class="n">hyperparameters</span><span class="o">=</span><span class="n">hyperparameters</span><span class="p">,</span>
+        <span class="n">module_config</span><span class="o">=</span><span class="n">module_config</span><span class="p">,</span>
+        <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.etils.easystate.EasyDeLState.create_hyperparameters" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_hyperparameters</span><span class="p">(</span><span class="n">model_type</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-staticmethod"><code>staticmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>it's the only way we can dump xla compiler</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/easystate.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@staticmethod</span>
+<span class="k">def</span> <span class="nf">create_hyperparameters</span><span class="p">(</span><span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;it&#39;s the only way we can dump xla compiler&quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="n">STRING_REP</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+            <span class="nb">type</span><span class="o">=</span><span class="s2">&quot;str&quot;</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="s2">&quot;model_type&quot;</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">model_type</span>
+        <span class="p">):</span> <span class="n">DEFAULT_ES_VAL</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.etils.easystate.EasyDeLState.free_opt_state" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">free_opt_state</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The free_opt_state function is used to free the memory allocated by a previous call to setopt.
+It should be called after all the options have been set, and before you perform any of the transfers.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.etils.easystate.EasyDeLState" href="#src.python.easydel.etils.easystate.EasyDeLState">EasyDeLState</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A new state with the opt_state field set to none</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/easystate.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">free_opt_state</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;EasyDeLState&quot;</span><span class="p">:</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The free_opt_state function is used to free the memory allocated by a previous call to setopt.</span>
+<span class="sd">    It should be called after all the options have been set, and before you perform any of the transfers.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A new state with the opt_state field set to none</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+        <span class="n">opt_state</span><span class="o">=</span><span class="kc">None</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.etils.easystate.EasyDeLState.from_pretrained" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="n">filename</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">optimizer</span><span class="o">=</span><span class="s1">&#39;adamw&#39;</span><span class="p">,</span> <span class="n">scheduler</span><span class="o">=</span><span class="s1">&#39;none&#39;</span><span class="p">,</span> <span class="n">tx_init</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="s1">&#39;cpu&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">param_dtype</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">precision</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s1">&#39;fastest&#39;</span><span class="p">),</span> <span class="n">sharding_axis_dims</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">sharding_axis_names</span><span class="o">=</span><span class="p">(</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="s1">&#39;sp&#39;</span><span class="p">),</span> <span class="n">query_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">key_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">value_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">bias_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">attention_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">shard_attention_computation</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">backend</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">init_optimizer_state</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">free_optimizer_state</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">verbose</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">state_shard_fns</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">config_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-classmethod"><code>classmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The from_pretrained function is a helper function to quickly load a pretrained model and its associated configuration.
+This method takes care of returning the correct model class instance based on the <code>model_type</code> property in the
+config object, or when it's missing, falling back to using pattern matching on the
+ <code>pretrained_model_name_or_path</code> string:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>cls</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the class that is being defined</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>pretrained_model_name_or_path</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Load the pretrained
+model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>filename</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[str]: Specify the name of the file to
+download from huggingface hub</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>optimizer</code></td>
+            <td>
+                  <code><span title="src.python.easydel.etils.AVAILABLE_OPTIMIZERS">AVAILABLE_OPTIMIZERS</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>AVAILABLE_OPTIMIZERS: Specify the optimizer used
+for training</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;adamw&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scheduler</code></td>
+            <td>
+                  <code><span title="src.python.easydel.etils.AVAILABLE_SCHEDULERS">AVAILABLE_SCHEDULERS</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>AVAILABLE_SCHEDULERS: Specify the name of the
+scheduler to use</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;none&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tx_init</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict]: Pass the hyperparameters of the
+optimizer</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>device</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the device on which to run the model</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.devices">devices</span>(&#39;cpu&#39;)[0]</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.numpy.dtype: Specify the dtype of the model
+parameters</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.float32">float32</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>param_dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.numpy.dtype: Specify the data type of the
+parameters</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.float32">float32</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>precision</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="jax.lax.Precision">Precision</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.lax.Precision: Control the precision of the
+calculation</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.lax.Precision">Precision</span>(&#39;fastest&#39;)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sharding_axis_dims</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[int]: Specify the dimension of
+each axis</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, -1, 1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sharding_axis_names</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[str]: Specify the names of the
+axes in each shard</p>
+              </div>
+            </td>
+            <td>
+                  <code>(&#39;dp&#39;, &#39;fsdp&#39;, &#39;tp&#39;, &#39;sp&#39;)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the
+partitioning of the query matrix</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>generation_query_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the
+partitioning of the query tensor in</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;tp&#39;, None, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the
+partitioning of the value tensor</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bias_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the partitioning
+of the bias</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), None, None, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Partition the
+attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>shard_attention_computation</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use
+shard_map or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[int]: Specify the shape of the input
+to be used for training</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>backend</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[str]: Specify the backend used for the
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_optimizer_state</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the optimizer state</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>free_optimizer_state</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Free the optimizer state from
+memory</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>verbose</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Print the progress of loading the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>state_shard_fns</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Mapping">Mapping</span>[str, <span title="typing.Callable">Callable</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Mapping[str,Callable]]: Specify
+the function to use for sharding the state</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass keyword arguments to the function</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>config_kwargs</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Mapping">Mapping</span>[str, <span title="typing.Any">Any</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Mapping[str, Any]]: Config kwargs to
+be added to config before creating module</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>generation process:param key_partition_spec: PartitionSpec: Specify the partitioning of the key matrix</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.etils.easystate.EasyDeLState" href="#src.python.easydel.etils.easystate.EasyDeLState">EasyDeLState</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>An <code>EasyDeLState</code> object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/easystate.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@classmethod</span>
+<span class="k">def</span> <span class="nf">from_pretrained</span><span class="p">(</span>
+        <span class="bp">cls</span><span class="p">,</span>
+        <span class="n">pretrained_model_name_or_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+        <span class="n">filename</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">optimizer</span><span class="p">:</span> <span class="n">AVAILABLE_OPTIMIZERS</span> <span class="o">=</span> <span class="s2">&quot;adamw&quot;</span><span class="p">,</span>
+        <span class="n">scheduler</span><span class="p">:</span> <span class="n">AVAILABLE_SCHEDULERS</span> <span class="o">=</span> <span class="s2">&quot;none&quot;</span><span class="p">,</span>
+        <span class="n">tx_init</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">device</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="s1">&#39;cpu&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">],</span>
+        <span class="n">dtype</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+        <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+        <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">),</span>
+        <span class="n">sharding_axis_dims</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">sharding_axis_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span>
+        <span class="n">query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">key_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">value_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">shard_attention_computation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">backend</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">init_optimizer_state</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">free_optimizer_state</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">state_shard_fns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">config_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;EasyDeLState&quot;</span><span class="p">:</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The from_pretrained function is a helper function to quickly load a pretrained model and its associated configuration.</span>
+<span class="sd">    This method takes care of returning the correct model class instance based on the `model_type` property in the</span>
+<span class="sd">    config object, or when it&#39;s missing, falling back to using pattern matching on the</span>
+<span class="sd">     `pretrained_model_name_or_path` string:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        cls: Refer to the class that is being defined</span>
+<span class="sd">        pretrained_model_name_or_path: str: Load the pretrained</span>
+<span class="sd">            model</span>
+<span class="sd">        filename: Optional[str]: Specify the name of the file to</span>
+<span class="sd">            download from huggingface hub</span>
+<span class="sd">        optimizer: AVAILABLE_OPTIMIZERS: Specify the optimizer used</span>
+<span class="sd">            for training</span>
+<span class="sd">        scheduler: AVAILABLE_SCHEDULERS: Specify the name of the</span>
+<span class="sd">            scheduler to use</span>
+<span class="sd">        tx_init: Optional[dict]: Pass the hyperparameters of the</span>
+<span class="sd">            optimizer</span>
+<span class="sd">        device: Specify the device on which to run the model</span>
+<span class="sd">        dtype: jax.numpy.dtype: Specify the dtype of the model</span>
+<span class="sd">            parameters</span>
+<span class="sd">        param_dtype: jax.numpy.dtype: Specify the data type of the</span>
+<span class="sd">            parameters</span>
+<span class="sd">        precision: jax.lax.Precision: Control the precision of the</span>
+<span class="sd">            calculation</span>
+<span class="sd">        sharding_axis_dims: Sequence[int]: Specify the dimension of</span>
+<span class="sd">            each axis</span>
+<span class="sd">        sharding_axis_names: Sequence[str]: Specify the names of the</span>
+<span class="sd">            axes in each shard</span>
+<span class="sd">        query_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">            partitioning of the query matrix</span>
+<span class="sd">        generation_query_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">            partitioning of the query tensor in</span>
+<span class="sd">        value_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">            partitioning of the value tensor</span>
+<span class="sd">        bias_partition_spec: PartitionSpec: Specify the partitioning</span>
+<span class="sd">            of the bias</span>
+<span class="sd">        attention_partition_spec: PartitionSpec: Partition the</span>
+<span class="sd">            attention weights</span>
+<span class="sd">        shard_attention_computation: bool: Determine whether to use</span>
+<span class="sd">            shard_map or not</span>
+<span class="sd">        input_shape: Sequence[int]: Specify the shape of the input</span>
+<span class="sd">            to be used for training</span>
+<span class="sd">        backend: Optional[str]: Specify the backend used for the</span>
+<span class="sd">            model</span>
+<span class="sd">        init_optimizer_state: bool: Initialize the optimizer state</span>
+<span class="sd">        free_optimizer_state: bool: Free the optimizer state from</span>
+<span class="sd">            memory</span>
+<span class="sd">        verbose: bool: Print the progress of loading the model</span>
+<span class="sd">        state_shard_fns: Optional[Mapping[str,Callable]]: Specify</span>
+<span class="sd">            the function to use for sharding the state</span>
+<span class="sd">        **kwargs: Pass keyword arguments to the function</span>
+<span class="sd">        config_kwargs: Optional[Mapping[str, Any]]: Config kwargs to</span>
+<span class="sd">            be added to config before creating module</span>
+<span class="sd">    generation process:param key_partition_spec: PartitionSpec: Specify the partitioning of the key matrix</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        An `EasyDeLState` object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">free_optimizer_state</span> <span class="ow">and</span> <span class="n">init_optimizer_state</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="n">EasyDeLRuntimeError</span><span class="p">(</span>
+            <span class="s2">&quot;You can&#39;t use `free_optimizer_state` and `init_optimizer_state` True at same Time&quot;</span>
+        <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">filename</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">..modules.auto_easydel_model</span> <span class="kn">import</span> <span class="n">AutoEasyDeLModelForCausalLM</span>
+
+        <span class="n">model</span><span class="p">,</span> <span class="n">params</span> <span class="o">=</span> <span class="n">AutoEasyDeLModelForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+            <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">sharding_axis_dims</span><span class="o">=</span><span class="n">sharding_axis_dims</span><span class="p">,</span>
+            <span class="n">sharding_axis_names</span><span class="o">=</span><span class="n">sharding_axis_names</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+            <span class="n">backend</span><span class="o">=</span><span class="n">backend</span><span class="p">,</span>
+            <span class="n">config_kwargs</span><span class="o">=</span><span class="n">config_kwargs</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">tx_init</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">tx_init</span> <span class="o">=</span> <span class="p">{}</span>
+
+        <span class="n">tx_init</span><span class="p">[</span><span class="s2">&quot;optimizer&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">optimizer</span>
+        <span class="n">tx_init</span><span class="p">[</span><span class="s2">&quot;scheduler&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">scheduler</span>
+
+        <span class="n">state</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+            <span class="n">apply_fn</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">FrozenDict</span><span class="p">({</span><span class="s1">&#39;params&#39;</span><span class="p">:</span> <span class="n">params</span><span class="p">}),</span>
+            <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="n">opt_state</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">tx_init</span><span class="o">=</span><span class="n">tx_init</span><span class="p">,</span>
+            <span class="n">hyperparameters</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+            <span class="n">module_config</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">module_config_args</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">to_dict</span><span class="p">()</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="n">device</span><span class="p">):</span>
+            <span class="kn">from</span> <span class="nn">huggingface_hub</span> <span class="kn">import</span> <span class="n">hf_hub_download</span>
+            <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="n">hf_hub_download</span><span class="p">(</span>
+                <span class="n">repo_id</span><span class="o">=</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                <span class="n">filename</span><span class="o">=</span><span class="n">filename</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">state</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">load_state</span><span class="p">(</span>
+                <span class="n">checkpoint_path</span><span class="o">=</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                <span class="n">init_optimizer_state</span><span class="o">=</span><span class="n">init_optimizer_state</span><span class="p">,</span>
+                <span class="n">verbose</span><span class="o">=</span><span class="n">verbose</span><span class="p">,</span>
+                <span class="n">state_shard_fns</span><span class="o">=</span><span class="n">state_shard_fns</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+                <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span>
+            <span class="p">)</span>
+    <span class="k">if</span> <span class="n">init_optimizer_state</span><span class="p">:</span>
+        <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="n">device</span><span class="p">):</span>
+            <span class="n">state</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">init_opt_state</span><span class="p">()</span>
+    <span class="k">if</span> <span class="n">free_optimizer_state</span><span class="p">:</span>
+        <span class="n">state</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">free_opt_state</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">state</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.etils.easystate.EasyDeLState.init_opt_state" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_opt_state</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_opt_state function initializes the optimizer state.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Make the object callable, and params is used to pass
+in a dictionary of parameters</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.etils.easystate.EasyDeLState" href="#src.python.easydel.etils.easystate.EasyDeLState">EasyDeLState</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A new instance of the class with opt_state initialized</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/easystate.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_opt_state</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;EasyDeLState&quot;</span><span class="p">:</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_opt_state function initializes the optimizer state.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Make the object callable, and params is used to pass</span>
+<span class="sd">            in a dictionary of parameters</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A new instance of the class with opt_state initialized</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">opt_state</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">params_with_opt</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="k">if</span> <span class="n">OVERWRITE_WITH_GRADIENT</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+        <span class="p">)</span>
+        <span class="n">opt_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx</span><span class="o">.</span><span class="n">init</span><span class="p">(</span><span class="n">params_with_opt</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+            <span class="n">opt_state</span><span class="o">=</span><span class="n">opt_state</span>
+        <span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.etils.easystate.EasyDeLState.load" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">load</span><span class="p">(</span><span class="o">*</span><span class="p">,</span> <span class="n">apply_fn</span><span class="p">,</span> <span class="n">params</span><span class="p">,</span> <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">opt_state</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tx_init</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">hyperparameters</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">module</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">module_config</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-classmethod"><code>classmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The load function is used to load a saved state of the Model and optimizer or Model Only.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>cls</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Make the function a class method</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code></code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in a variable number of arguments</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>step</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Keep track of the number of steps that have been
+taken</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>apply_fn</code></td>
+            <td>
+                  <code><span title="typing.Callable">Callable</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Callable: Apply the optimizer to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="flax.core.FrozenDict">FrozenDict</span>[str, <span title="typing.Any">Any</span>], <span title="typing.Mapping">Mapping</span>[str, <span title="typing.Any">Any</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>core.FrozenDict[str,Any] | Mapping[str,Any]: Pass in
+the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>opt_state</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="optax.OptState">OptState</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[optax.OptState]: optimizer state</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tx_init</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict]: Pass the hyperparameters to the
+optimizer</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hyperparameters</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict]: Load hyperparameters from
+the state dict</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>module</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[EasyDeLFlaxPretrainedModel]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[EasyDeLFlaxPretrainedModel]: Pass in the
+module</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>module_config</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[EasyDeLPretrainedConfig]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[EasyDeLPretrainedConfig]: Pass the
+module config</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>module_config_args</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict]: Pass the config_args to
+the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in any additional parameters that may be
+needed for the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A new instance of the class</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/easystate.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@classmethod</span>
+<span class="k">def</span> <span class="nf">load</span><span class="p">(</span>
+        <span class="bp">cls</span><span class="p">,</span>
+        <span class="o">*</span><span class="p">,</span>
+        <span class="n">apply_fn</span><span class="p">:</span> <span class="n">Callable</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">],</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]],</span>
+        <span class="n">step</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">opt_state</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">optax</span><span class="o">.</span><span class="n">OptState</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">tx_init</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">hyperparameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">module</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="s2">&quot;EasyDeLFlaxPretrainedModel&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+        <span class="n">module_config</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="s2">&quot;EasyDeLPretrainedConfig&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+        <span class="n">module_config_args</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The load function is used to load a saved state of the Model and optimizer or Model Only.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        cls: Make the function a class method</span>
+<span class="sd">        : Pass in a variable number of arguments</span>
+<span class="sd">        step: int: Keep track of the number of steps that have been</span>
+<span class="sd">            taken</span>
+<span class="sd">        apply_fn: Callable: Apply the optimizer to the model</span>
+<span class="sd">        params: core.FrozenDict[str,Any] | Mapping[str,Any]: Pass in</span>
+<span class="sd">            the parameters of the model</span>
+<span class="sd">        opt_state: Optional[optax.OptState]: optimizer state</span>
+<span class="sd">        tx_init: Optional[dict]: Pass the hyperparameters to the</span>
+<span class="sd">            optimizer</span>
+<span class="sd">        hyperparameters: Optional[dict]: Load hyperparameters from</span>
+<span class="sd">            the state dict</span>
+<span class="sd">        module: Optional[EasyDeLFlaxPretrainedModel]: Pass in the</span>
+<span class="sd">            module</span>
+<span class="sd">        module_config: Optional[EasyDeLPretrainedConfig]: Pass the</span>
+<span class="sd">            module config</span>
+<span class="sd">        module_config_args: Optional[dict]: Pass the config_args to</span>
+<span class="sd">            the model</span>
+<span class="sd">        **kwargs: Pass in any additional parameters that may be</span>
+<span class="sd">            needed for the model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A new instance of the class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">module_config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">module_config</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">module_config</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">tx_init</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">tx_init</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="n">tx_init</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">tx_init</span><span class="p">)</span>
+    <span class="n">tx_init</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">unsafe_dict</span><span class="p">(</span><span class="n">tx_init</span><span class="p">)</span>
+
+    <span class="n">tx_init</span><span class="p">[</span><span class="s2">&quot;optimizer&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="s2">&quot;optimizer&quot;</span><span class="p">,</span> <span class="n">tx_init</span><span class="p">,</span> <span class="s2">&quot;adamw&quot;</span><span class="p">)</span>
+    <span class="n">tx_init</span><span class="p">[</span><span class="s2">&quot;scheduler&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="s2">&quot;scheduler&quot;</span><span class="p">,</span> <span class="n">tx_init</span><span class="p">,</span> <span class="s2">&quot;none&quot;</span><span class="p">)</span>
+    <span class="n">tx_init</span><span class="p">[</span><span class="s2">&quot;steps&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="s2">&quot;steps&quot;</span><span class="p">,</span> <span class="n">tx_init</span><span class="p">,</span> <span class="mf">1e6</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">fix_dict_types</span><span class="p">(</span><span class="n">input_dict</span><span class="p">):</span>
+        <span class="n">fixed_dict</span> <span class="o">=</span> <span class="n">input_dict</span><span class="o">.</span><span class="n">copy</span><span class="p">()</span>
+
+        <span class="c1"># Fix extra_optimizer_kwargs</span>
+        <span class="k">if</span> <span class="s1">&#39;extra_optimizer_kwargs&#39;</span> <span class="ow">in</span> <span class="n">fixed_dict</span><span class="p">:</span>
+            <span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;extra_optimizer_kwargs&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">eval</span><span class="p">(</span><span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;extra_optimizer_kwargs&#39;</span><span class="p">])</span>
+
+        <span class="c1"># Fix gradient_accumulation_steps</span>
+        <span class="k">if</span> <span class="s1">&#39;gradient_accumulation_steps&#39;</span> <span class="ow">in</span> <span class="n">fixed_dict</span><span class="p">:</span>
+            <span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;gradient_accumulation_steps&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;gradient_accumulation_steps&#39;</span><span class="p">])</span>
+
+        <span class="c1"># Fix steps</span>
+        <span class="k">if</span> <span class="s1">&#39;steps&#39;</span> <span class="ow">in</span> <span class="n">fixed_dict</span><span class="p">:</span>
+            <span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;steps&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;steps&#39;</span><span class="p">])</span>
+
+        <span class="c1"># Fix warmup_steps</span>
+        <span class="k">if</span> <span class="s1">&#39;warmup_steps&#39;</span> <span class="ow">in</span> <span class="n">fixed_dict</span><span class="p">:</span>
+            <span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;warmup_steps&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">fixed_dict</span><span class="p">[</span><span class="s1">&#39;warmup_steps&#39;</span><span class="p">])</span>
+
+        <span class="k">return</span> <span class="n">fixed_dict</span>
+
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">get_optimizer_and_scheduler</span><span class="p">(</span>
+            <span class="o">**</span><span class="n">tx_init</span>
+        <span class="p">)</span>
+    <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+        <span class="n">tx</span><span class="p">,</span> <span class="n">sc</span> <span class="o">=</span> <span class="n">get_optimizer_and_scheduler</span><span class="p">(</span>
+            <span class="o">**</span><span class="n">fix_dict_types</span><span class="p">(</span><span class="n">tx_init</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">if</span> <span class="n">hyperparameters</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">hyperparameters</span> <span class="o">=</span> <span class="p">{}</span>
+
+    <span class="k">if</span> <span class="n">module_config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">hyperparameters</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="n">module_config</span><span class="o">.</span><span class="n">model_type</span><span class="p">)</span>
+        <span class="bp">cls</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">module_config</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">)</span>
+    <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span>
+        <span class="n">step</span><span class="o">=</span><span class="n">step</span><span class="p">,</span>
+        <span class="n">apply_fn</span><span class="o">=</span><span class="n">apply_fn</span><span class="p">,</span>
+        <span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+        <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+        <span class="n">opt_state</span><span class="o">=</span><span class="n">opt_state</span><span class="p">,</span>
+        <span class="n">tx_init</span><span class="o">=</span><span class="bp">cls</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">tx_init</span><span class="p">),</span>
+        <span class="n">hyperparameters</span><span class="o">=</span><span class="n">hyperparameters</span><span class="p">,</span>
+        <span class="n">module</span><span class="o">=</span><span class="n">module</span><span class="p">,</span>
+        <span class="n">module_config</span><span class="o">=</span><span class="n">module_config</span><span class="p">,</span>
+        <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.etils.easystate.EasyDeLState.load_state" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">load_state</span><span class="p">(</span><span class="n">checkpoint_path</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">param_dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">precision</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">init_optimizer_state</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">state_shard_fns</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">verbose</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">config_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-classmethod"><code>classmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The load_state function is a class method that loads the state of an EasyDeLModel from a checkpoint.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>cls</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Create an instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>checkpoint_path</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[str, <span title="os.PathLike">PathLike</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str | os.PathLike: Specify the path to the
+checkpoint file</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.dtype: The dtype of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.float32">float32</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>param_dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.dtype: The dtype of the model parameters</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.float32">float32</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>precision</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[str, <span title="jax.lax.Precision">Precision</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[str, jax.lax.Precision]]:
+precision of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_optimizer_state</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the optimizer if it's
+not Initialized yet (if it Initialized the option</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>state_shard_fns</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Mapping">Mapping</span>[str, <span title="typing.Callable">Callable</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Mapping[str,Callable]]: Specify
+the function that will be used</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>verbose</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Print out the progress of loading</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: input_shape to init module</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>config_kwargs</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict] : config kwargs to be passed
+to model config</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>will be ignored )
+to shard the loaded state</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A state object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/easystate.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@classmethod</span>
+<span class="k">def</span> <span class="nf">load_state</span><span class="p">(</span>
+        <span class="bp">cls</span><span class="p">,</span>
+        <span class="n">checkpoint_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">os</span><span class="o">.</span><span class="n">PathLike</span><span class="p">],</span>
+        <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+        <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+        <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">init_optimizer_state</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">state_shard_fns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">config_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The load_state function is a class method that loads the state of an EasyDeLModel from a checkpoint.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        cls: Create an instance of the class</span>
+<span class="sd">        checkpoint_path: str | os.PathLike: Specify the path to the</span>
+<span class="sd">            checkpoint file</span>
+<span class="sd">        dtype: jnp.dtype: The dtype of the model</span>
+<span class="sd">        param_dtype: jnp.dtype: The dtype of the model parameters</span>
+<span class="sd">        precision: Optional[Union[str, jax.lax.Precision]]:</span>
+<span class="sd">            precision of the model</span>
+<span class="sd">        init_optimizer_state: bool: Initialize the optimizer if it&#39;s</span>
+<span class="sd">            not Initialized yet (if it Initialized the option</span>
+<span class="sd">        state_shard_fns: Optional[Mapping[str,Callable]]: Specify</span>
+<span class="sd">            the function that will be used</span>
+<span class="sd">        verbose: bool: Print out the progress of loading</span>
+<span class="sd">        input_shape: Tuple: input_shape to init module</span>
+<span class="sd">        config_kwargs: Optional[dict] : config kwargs to be passed</span>
+<span class="sd">            to model config</span>
+<span class="sd">    will be ignored )</span>
+<span class="sd">    to shard the loaded state</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A state object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="kn">from</span> <span class="nn">..modules.auto_easydel_model</span> <span class="kn">import</span> <span class="n">get_modules_by_type</span>
+
+    <span class="n">checkpoint</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">CheckpointManager</span><span class="o">.</span><span class="n">load_checkpoint</span><span class="p">(</span>
+        <span class="n">path</span><span class="o">=</span><span class="n">checkpoint_path</span><span class="p">,</span>
+        <span class="n">shard_fns</span><span class="o">=</span><span class="n">state_shard_fns</span><span class="p">,</span>
+        <span class="n">verbose</span><span class="o">=</span><span class="n">verbose</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">hyperparameters</span> <span class="o">=</span> <span class="n">checkpoint</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;hyperparameters&quot;</span><span class="p">)</span>
+    <span class="n">cfg</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">convertor</span> <span class="o">=</span> <span class="n">get_modules_by_type</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="bp">cls</span><span class="o">.</span><span class="n">get_model_type</span><span class="p">(</span><span class="n">hyperparameters</span><span class="p">))</span>
+    <span class="n">checkpoint</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;module_config&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">checkpoint</span><span class="p">[</span><span class="s2">&quot;module_config_args&quot;</span><span class="p">]</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">cfg_behave</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">unsafe_dict</span><span class="p">(</span><span class="n">checkpoint</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;module_config_args&quot;</span><span class="p">,</span> <span class="p">{}))</span>
+        <span class="n">cfg_behave</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;id2label&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="n">cfg_behave</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;label2id&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="n">cfg_behave</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;torch_dtype&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">cfg_behave</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">cfg_behave</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">k</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="n">v</span> <span class="o">==</span> <span class="s2">&quot;None&quot;</span><span class="p">:</span>
+                <span class="n">cfg_behave</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+                <span class="k">if</span> <span class="n">v</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;{&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">v</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;(&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">v</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;PartitionSpec&quot;</span><span class="p">):</span>
+                    <span class="n">cfg_behave</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="nb">eval</span><span class="p">(</span><span class="n">v</span><span class="p">)</span>
+        <span class="n">module_config</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">from_dict</span><span class="p">(</span><span class="n">cfg_behave</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">config_kwargs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">config_kwargs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                <span class="nb">setattr</span><span class="p">(</span><span class="n">module_config</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span>
+        <span class="n">module_in</span> <span class="o">=</span> <span class="n">module</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">module_config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">TypeError</span><span class="p">(</span>
+            <span class="s2">&quot;Om seems like i couldn&#39;t read model correctly ;(&quot;</span>
+        <span class="p">)</span>
+    <span class="n">state</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+        <span class="n">apply_fn</span><span class="o">=</span><span class="n">module_in</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+        <span class="n">module</span><span class="o">=</span><span class="n">module_in</span><span class="p">,</span>
+        <span class="n">module_config</span><span class="o">=</span><span class="n">module_config</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">checkpoint</span>
+    <span class="p">)</span>
+    <span class="n">state</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+        <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>  <span class="c1"># removing because it&#39;s not needed anymore</span>
+    <span class="p">)</span>
+    <span class="k">if</span> <span class="n">init_optimizer_state</span><span class="p">:</span>
+        <span class="n">state</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">init_opt_state</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">state</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.etils.easystate.EasyDeLState.save_state" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">save_state</span><span class="p">(</span><span class="n">filename</span><span class="p">,</span> <span class="n">save_optimizer</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">checkpoint_dir</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">verbose</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">gather_fns</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">float_dtype</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The save_state function saves the state of a model to disk.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the object itself to the function</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>filename</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[str, <span title="os.PathLike">PathLike</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str | os.PathLike: Specify the name of the file to
+save</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>save_optimizer</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to save the
+optimizer state or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>checkpoint_dir</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[str, <span title="os.PathLike">PathLike</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[str | os.PathLike]: Specify the
+directory where the checkpoint is saved</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>verbose</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Print out the path of the saved file</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gather_fns</code></td>
+            <td>
+                  <code>dict[<span title="typing.Callable">Callable</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict[Callable]: Specify a dictionary of
+functions that can be used to gather</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>float_dtype</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[str, <span title="jax.numpy.dtype">dtype</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str | jax.numpy.dtype: Specify the precision of
+the saved model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Save the optimizer state</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>None</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/easystate.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">save_state</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">filename</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">os</span><span class="o">.</span><span class="n">PathLike</span><span class="p">],</span>
+        <span class="n">save_optimizer</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">checkpoint_dir</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">os</span><span class="o">.</span><span class="n">PathLike</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">gather_fns</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="n">Callable</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">float_dtype</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The save_state function saves the state of a model to disk.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Pass the object itself to the function</span>
+<span class="sd">        filename: str | os.PathLike: Specify the name of the file to</span>
+<span class="sd">            save</span>
+<span class="sd">        save_optimizer: bool: Determine whether to save the</span>
+<span class="sd">            optimizer state or not</span>
+<span class="sd">        checkpoint_dir: Optional[str | os.PathLike]: Specify the</span>
+<span class="sd">            directory where the checkpoint is saved</span>
+<span class="sd">        verbose: bool: Print out the path of the saved file</span>
+<span class="sd">        gather_fns: dict[Callable]: Specify a dictionary of</span>
+<span class="sd">            functions that can be used to gather</span>
+<span class="sd">        float_dtype: str | jax.numpy.dtype: Specify the precision of</span>
+<span class="sd">            the saved model</span>
+<span class="sd">    :param : Save the optimizer state</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        None</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">state</span> <span class="o">=</span> <span class="bp">self</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">save_optimizer</span><span class="p">:</span>
+        <span class="n">state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+            <span class="n">opt_state</span><span class="o">=</span><span class="kc">None</span>
+        <span class="p">)</span>
+    <span class="n">state</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+        <span class="n">module_config_args</span><span class="o">=</span><span class="p">{</span>
+            <span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span>
+            <span class="nb">isinstance</span><span class="p">(</span>
+                <span class="n">v</span><span class="p">,</span> <span class="p">(</span><span class="nb">int</span><span class="p">,</span> <span class="nb">bool</span><span class="p">,</span> <span class="nb">float</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="p">}</span>
+    <span class="p">)</span>
+    <span class="n">fjformer</span><span class="o">.</span><span class="n">CheckpointManager</span><span class="o">.</span><span class="n">save_state_to_file</span><span class="p">(</span>
+        <span class="n">state</span><span class="o">=</span><span class="n">state</span><span class="p">,</span>
+        <span class="n">path</span><span class="o">=</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">checkpoint_dir</span><span class="p">,</span> <span class="n">filename</span><span class="p">)</span> <span class="k">if</span> <span class="n">checkpoint_dir</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">filename</span><span class="p">,</span>
+        <span class="n">verbose</span><span class="o">=</span><span class="n">verbose</span><span class="p">,</span>
+        <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+        <span class="n">float_dtype</span><span class="o">=</span><span class="n">float_dtype</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-etils-errors/index.html b/generated-etils-errors/index.html
new file mode 100644
index 000000000..f88a8902a
--- /dev/null
+++ b/generated-etils-errors/index.html
@@ -0,0 +1,6042 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-etils-easystate/">
+      
+      
+        <link rel="next" href="../generated-etils-etils/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Errors - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#etilserrors" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Errors
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.errors" class="md-nav__link">
+    <span class="md-ellipsis">
+      errors
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.errors" class="md-nav__link">
+    <span class="md-ellipsis">
+      errors
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="etilserrors">etils.errors</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.etils.errors"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-etils-etils/index.html b/generated-etils-etils/index.html
new file mode 100644
index 000000000..8c8f51440
--- /dev/null
+++ b/generated-etils-etils/index.html
@@ -0,0 +1,6757 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-etils-errors/">
+      
+      
+        <link rel="next" href="../generated-eval-lm_eval/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Etils - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#etilsetils" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Etils
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils" class="md-nav__link">
+    <span class="md-ellipsis">
+      etils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils.EasyDeLGradientCheckPointers" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLGradientCheckPointers
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils.EasyDeLOptimizers" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLOptimizers
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils.EasyDeLSchedulers" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLSchedulers
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils.StoreTupleAction" class="md-nav__link">
+    <span class="md-ellipsis">
+      StoreTupleAction
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils.define_flags_with_default" class="md-nav__link">
+    <span class="md-ellipsis">
+      define_flags_with_default
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils.get_logger" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_logger
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils.set_loggers_level" class="md-nav__link">
+    <span class="md-ellipsis">
+      set_loggers_level
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils" class="md-nav__link">
+    <span class="md-ellipsis">
+      etils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils.EasyDeLGradientCheckPointers" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLGradientCheckPointers
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils.EasyDeLOptimizers" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLOptimizers
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils.EasyDeLSchedulers" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLSchedulers
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils.StoreTupleAction" class="md-nav__link">
+    <span class="md-ellipsis">
+      StoreTupleAction
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils.define_flags_with_default" class="md-nav__link">
+    <span class="md-ellipsis">
+      define_flags_with_default
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils.get_logger" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_logger
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.etils.etils.set_loggers_level" class="md-nav__link">
+    <span class="md-ellipsis">
+      set_loggers_level
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="etilsetils">etils.etils</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.etils.etils"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.etils.etils.EasyDeLGradientCheckPointers" class="doc doc-heading">
+            <code>EasyDeLGradientCheckPointers</code>
+
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-dataclass"><code>dataclass</code></small>
+  </span>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+      <p>The code snippet is defining a data class called <code>EasyDeLGradientCheckPointers</code> using the <code>@dataclass</code>
+decorator. A data class is a class that is primarily used to store data, and it automatically
+generates special methods such as <code>__init__</code>, <code>__repr__</code>, and <code>__eq__</code> based on the class
+attributes.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/etils/etils.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@dataclass</span>
+<span class="k">class</span> <span class="nc">EasyDeLGradientCheckPointers</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The code snippet is defining a data class called `EasyDeLGradientCheckPointers` using the `@dataclass`</span>
+<span class="sd">    decorator. A data class is a class that is primarily used to store data, and it automatically</span>
+<span class="sd">    generates special methods such as `__init__`, `__repr__`, and `__eq__` based on the class</span>
+<span class="sd">    attributes.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">EVERYTHING_SAVEABLE</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;everything_saveable&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;everything_saveable&quot;</span>  <span class="c1"># Fix Pycharm Debugging Issue</span>
+    <span class="n">NOTHING_SAVEABLE</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;nothing_saveable&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span>  <span class="c1"># Fix Pycharm Debugging Issue</span>
+    <span class="n">CHECKPOINT_DOTS</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;checkpoint_dots&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;checkpoint_dots&quot;</span>  <span class="c1"># Fix Pycharm Debugging Issue</span>
+    <span class="n">CHECKPOINT_DOTS_WITH_NO_BATCH_DMIS</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;checkpoint_dots_with_no_batch_dims&quot;</span><span class="p">]</span> <span class="o">=</span> \
+        <span class="s2">&quot;checkpoint_dots_with_no_batch_dims&quot;</span>  <span class="c1"># Fix Pycharm Debugging Issue</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.etils.etils.EasyDeLOptimizers" class="doc doc-heading">
+            <code>EasyDeLOptimizers</code>
+
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-dataclass"><code>dataclass</code></small>
+  </span>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+      <p>The code snippet is defining a data class called <code>EasyDeLOptimizers</code> using the <code>@dataclass</code>
+decorator. A data class is a class that is primarily used to store data, and it automatically
+generates special methods such as <code>__init__</code>, <code>__repr__</code>, and <code>__eq__</code> based on the class
+attributes.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/etils/etils.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 8</span>
+<span class="normal"> 9</span>
+<span class="normal">10</span>
+<span class="normal">11</span>
+<span class="normal">12</span>
+<span class="normal">13</span>
+<span class="normal">14</span>
+<span class="normal">15</span>
+<span class="normal">16</span>
+<span class="normal">17</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@dataclass</span>
+<span class="k">class</span> <span class="nc">EasyDeLOptimizers</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The code snippet is defining a data class called `EasyDeLOptimizers` using the `@dataclass`</span>
+<span class="sd">    decorator. A data class is a class that is primarily used to store data, and it automatically</span>
+<span class="sd">    generates special methods such as `__init__`, `__repr__`, and `__eq__` based on the class</span>
+<span class="sd">    attributes.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">ADAFACTOR</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;adafactor&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;adafactor&quot;</span>  <span class="c1"># Fix Pycharm Debugging Issue</span>
+    <span class="n">LION</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;lion&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;lion&quot;</span>  <span class="c1"># Fix Pycharm Debugging Issue</span>
+    <span class="n">ADAMW</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;adamw&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s1">&#39;adamw&#39;</span>  <span class="c1"># Fix Pycharm Debugging Issue</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.etils.etils.EasyDeLSchedulers" class="doc doc-heading">
+            <code>EasyDeLSchedulers</code>
+
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-dataclass"><code>dataclass</code></small>
+  </span>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+      <p>The code snippet is defining a data class called <code>EasyDeLSchedulers</code> using the <code>@dataclass</code>
+decorator. A data class is a class that is primarily used to store data, and it automatically
+generates special methods such as <code>__init__</code>, <code>__repr__</code>, and <code>__eq__</code> based on the class
+attributes.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/etils/etils.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@dataclass</span>
+<span class="k">class</span> <span class="nc">EasyDeLSchedulers</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The code snippet is defining a data class called `EasyDeLSchedulers` using the `@dataclass`</span>
+<span class="sd">    decorator. A data class is a class that is primarily used to store data, and it automatically</span>
+<span class="sd">    generates special methods such as `__init__`, `__repr__`, and `__eq__` based on the class</span>
+<span class="sd">    attributes.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">LINEAR</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;linear&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;linear&quot;</span>  <span class="c1"># Fix Pycharm Debugging Issue</span>
+    <span class="n">COSINE</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;cosine&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;cosine&quot;</span>  <span class="c1"># Fix Pycharm Debugging Issue</span>
+    <span class="n">NONE</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;none&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;none&quot;</span>  <span class="c1"># Fix Pycharm Debugging Issue</span>
+    <span class="n">WARM_UP_COSINE</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;warm_up_cosine&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;warm_up_cosine&quot;</span>  <span class="c1"># Fix Pycharm Debugging Issue</span>
+    <span class="n">WARM_UP_LINEAR</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;warm_up_linear&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;warm_up_linear&quot;</span>  <span class="c1"># Fix Pycharm Debugging Issue</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.etils.etils.StoreTupleAction" class="doc doc-heading">
+            <code>StoreTupleAction</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="argparse.Action">Action</span></code></p>
+
+
+      <p>Custom action to store a comma-separated string as a tuple of ints.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/etils/etils.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">StoreTupleAction</span><span class="p">(</span><span class="n">argparse</span><span class="o">.</span><span class="n">Action</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Custom action to store a comma-separated string as a tuple of ints.&quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">parser</span><span class="p">,</span> <span class="n">namespace</span><span class="p">,</span> <span class="n">values</span><span class="p">,</span> <span class="n">option_string</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="nb">setattr</span><span class="p">(</span><span class="n">namespace</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">dest</span><span class="p">,</span> <span class="nb">tuple</span><span class="p">(</span><span class="nb">int</span><span class="p">(</span><span class="n">v</span><span class="p">)</span> <span class="k">for</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">values</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s2">&quot;,&quot;</span><span class="p">)))</span>
+        <span class="k">except</span> <span class="ne">ValueError</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="n">argparse</span><span class="o">.</span><span class="n">ArgumentTypeError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;Invalid value for </span><span class="si">{</span><span class="n">option_string</span><span class="si">}</span><span class="s2">: </span><span class="si">{</span><span class="n">values</span><span class="si">}</span><span class="s2"> &quot;</span>
+                <span class="sa">f</span><span class="s2">&quot;(should be comma-separated integers)&quot;</span>
+            <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.etils.etils.define_flags_with_default" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">define_flags_with_default</span><span class="p">(</span><span class="n">_required_fields</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Defines flags with default values using argparse.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>_required_fields</code></td>
+            <td>
+                  <code><span title="typing.List">List</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with required flag names</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Keyword arguments representing flag names and default values.</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="argparse.Namespace">Namespace</span>, <span title="typing.Dict">Dict</span>[str, <span title="typing.Any">Any</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple containing:
+- An argparse.Namespace object containing parsed arguments.
+- A dictionary mapping flag names to default values.</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/etils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">define_flags_with_default</span><span class="p">(</span>
+        <span class="n">_required_fields</span><span class="p">:</span> <span class="n">List</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">argparse</span><span class="o">.</span><span class="n">Namespace</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Defines flags with default values using argparse.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        _required_fields: A dictionary with required flag names</span>
+<span class="sd">        **kwargs: Keyword arguments representing flag names and default values.</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple containing:</span>
+<span class="sd">            - An argparse.Namespace object containing parsed arguments.</span>
+<span class="sd">            - A dictionary mapping flag names to default values.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">_required_fields</span> <span class="o">=</span> <span class="n">_required_fields</span> <span class="k">if</span> <span class="n">_required_fields</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">[]</span>
+    <span class="n">parser</span> <span class="o">=</span> <span class="n">argparse</span><span class="o">.</span><span class="n">ArgumentParser</span><span class="p">()</span>
+
+    <span class="n">default_values</span> <span class="o">=</span> <span class="p">{}</span>
+
+    <span class="k">for</span> <span class="n">name</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="n">default_values</span><span class="p">[</span><span class="n">name</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+
+        <span class="c1"># Custom type handling:</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="nb">tuple</span><span class="p">):</span>
+            <span class="c1"># For tuples, use a custom action to convert the string to a tuple of ints</span>
+            <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;--</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+                <span class="nb">type</span><span class="o">=</span><span class="nb">str</span><span class="p">,</span>  <span class="c1"># Read as string</span>
+                <span class="n">default</span><span class="o">=</span><span class="nb">str</span><span class="p">(</span><span class="n">value</span><span class="p">),</span>  <span class="c1"># Store default as string</span>
+                <span class="n">help</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;Value for </span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2"> (comma-separated integers)&quot;</span><span class="p">,</span>
+                <span class="n">action</span><span class="o">=</span><span class="n">StoreTupleAction</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="c1"># For other types, infer type from default value</span>
+            <span class="n">parser</span><span class="o">.</span><span class="n">add_argument</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;--</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+                <span class="nb">type</span><span class="o">=</span><span class="nb">type</span><span class="p">(</span><span class="n">value</span><span class="p">),</span>
+                <span class="n">default</span><span class="o">=</span><span class="n">value</span><span class="p">,</span>
+                <span class="n">help</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;Value for </span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="p">)</span>
+
+    <span class="n">args</span> <span class="o">=</span> <span class="n">parser</span><span class="o">.</span><span class="n">parse_args</span><span class="p">()</span>
+    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">_required_fields</span><span class="p">:</span>
+        <span class="k">if</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">args</span><span class="p">,</span> <span class="n">key</span><span class="p">)</span> <span class="o">==</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Required field </span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s2"> for argument parser.&quot;</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">args</span><span class="p">,</span> <span class="n">default_values</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.etils.etils.get_logger" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_logger</span><span class="p">(</span><span class="n">name</span><span class="p">,</span> <span class="n">level</span><span class="o">=</span><span class="n">logging</span><span class="o">.</span><span class="n">INFO</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Function to create and configure a logger.
+:param name: str: The name of the logger.
+:param level: int: The logging level. Defaults to logging.INFO.
+:return logging.Logger: The configured logger instance.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/etils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span>
+<span class="normal">80</span>
+<span class="normal">81</span>
+<span class="normal">82</span>
+<span class="normal">83</span>
+<span class="normal">84</span>
+<span class="normal">85</span>
+<span class="normal">86</span>
+<span class="normal">87</span>
+<span class="normal">88</span>
+<span class="normal">89</span>
+<span class="normal">90</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_logger</span><span class="p">(</span><span class="n">name</span><span class="p">,</span> <span class="n">level</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">logging</span><span class="o">.</span><span class="n">INFO</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">logging</span><span class="o">.</span><span class="n">Logger</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Function to create and configure a logger.</span>
+<span class="sd">    :param name: str: The name of the logger.</span>
+<span class="sd">    :param level: int: The logging level. Defaults to logging.INFO.</span>
+<span class="sd">    :return logging.Logger: The configured logger instance.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">logger</span> <span class="o">=</span> <span class="n">logging</span><span class="o">.</span><span class="n">getLogger</span><span class="p">(</span><span class="n">name</span><span class="p">)</span>
+    <span class="n">logger</span><span class="o">.</span><span class="n">propagate</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="c1"># Set the logging level</span>
+    <span class="n">logger</span><span class="o">.</span><span class="n">setLevel</span><span class="p">(</span><span class="n">level</span><span class="p">)</span>
+
+    <span class="c1"># Create a console handler</span>
+    <span class="n">console_handler</span> <span class="o">=</span> <span class="n">logging</span><span class="o">.</span><span class="n">StreamHandler</span><span class="p">()</span>
+    <span class="n">console_handler</span><span class="o">.</span><span class="n">setLevel</span><span class="p">(</span><span class="n">level</span><span class="p">)</span>
+
+    <span class="n">formatter</span> <span class="o">=</span> <span class="n">logging</span><span class="o">.</span><span class="n">Formatter</span><span class="p">(</span><span class="s2">&quot;</span><span class="si">%(asctime)s</span><span class="s2"> </span><span class="si">%(levelname)-8s</span><span class="s2"> [</span><span class="si">%(name)s</span><span class="s2">] </span><span class="si">%(message)s</span><span class="s2">&quot;</span><span class="p">)</span>
+    <span class="n">console_handler</span><span class="o">.</span><span class="n">setFormatter</span><span class="p">(</span><span class="n">formatter</span><span class="p">)</span>
+    <span class="n">logger</span><span class="o">.</span><span class="n">addHandler</span><span class="p">(</span><span class="n">console_handler</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">logger</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.etils.etils.set_loggers_level" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">set_loggers_level</span><span class="p">(</span><span class="n">level</span><span class="o">=</span><span class="n">logging</span><span class="o">.</span><span class="n">WARNING</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Function to set the logging level of all loggers to the specified level.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>level</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: The logging level to set. Defaults to
+logging.WARNING.</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="logging.WARNING">WARNING</span></code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/etils/etils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">set_loggers_level</span><span class="p">(</span><span class="n">level</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="n">logging</span><span class="o">.</span><span class="n">WARNING</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Function to set the logging level of all loggers to the specified level.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        level: int: The logging level to set. Defaults to</span>
+<span class="sd">            logging.WARNING.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">logging</span><span class="o">.</span><span class="n">root</span><span class="o">.</span><span class="n">setLevel</span><span class="p">(</span><span class="n">level</span><span class="p">)</span>
+    <span class="k">for</span> <span class="n">handler</span> <span class="ow">in</span> <span class="n">logging</span><span class="o">.</span><span class="n">root</span><span class="o">.</span><span class="n">handlers</span><span class="p">:</span>
+        <span class="n">handler</span><span class="o">.</span><span class="n">setLevel</span><span class="p">(</span><span class="n">level</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-eval-lm_eval/index.html b/generated-eval-lm_eval/index.html
new file mode 100644
index 000000000..860f80df7
--- /dev/null
+++ b/generated-eval-lm_eval/index.html
@@ -0,0 +1,6139 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-etils-etils/">
+      
+      
+        <link rel="next" href="../generated-modules-arctic-arctic_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Lm Eval - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#evallm_eval" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Lm Eval
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.eval.lm_eval" class="md-nav__link">
+    <span class="md-ellipsis">
+      lm_eval
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.eval.lm_eval.evaluate" class="md-nav__link">
+    <span class="md-ellipsis">
+      evaluate
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.eval.lm_eval" class="md-nav__link">
+    <span class="md-ellipsis">
+      lm_eval
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.eval.lm_eval.evaluate" class="md-nav__link">
+    <span class="md-ellipsis">
+      evaluate
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="evallm_eval">eval.lm_eval</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.eval.lm_eval"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.eval.lm_eval.evaluate" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">evaluate</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">task_list</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">write_out</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">limit</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">shots</span><span class="o">=</span><span class="mi">5</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The evaluate function takes a model and evaluates it on the tasks specified in task_list.
+The results are printed to stdout, and optionally written out to a file.</p>
+<p>:param model: Specify the model to be evaluated
+:param task_list: Optional[List[str]]: Specify which tasks to evaluate on
+:param write_out: bool: Write the output to a file
+:param limit: int: Limit the number of examples that are evaluated
+:param shots: int: Specify how many times to run the model on a given task
+:return: A dictionary with the following keys</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/eval/lm_eval.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 8</span>
+<span class="normal"> 9</span>
+<span class="normal">10</span>
+<span class="normal">11</span>
+<span class="normal">12</span>
+<span class="normal">13</span>
+<span class="normal">14</span>
+<span class="normal">15</span>
+<span class="normal">16</span>
+<span class="normal">17</span>
+<span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">evaluate</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">task_list</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="n">write_out</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span> <span class="n">limit</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span> <span class="n">shots</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">5</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The evaluate function takes a model and evaluates it on the tasks specified in task_list.</span>
+<span class="sd">    The results are printed to stdout, and optionally written out to a file.</span>
+
+
+<span class="sd">    :param model: Specify the model to be evaluated</span>
+<span class="sd">    :param task_list: Optional[List[str]]: Specify which tasks to evaluate on</span>
+<span class="sd">    :param write_out: bool: Write the output to a file</span>
+<span class="sd">    :param limit: int: Limit the number of examples that are evaluated</span>
+<span class="sd">    :param shots: int: Specify how many times to run the model on a given task</span>
+<span class="sd">    :return: A dictionary with the following keys</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">task_list</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">task_list</span> <span class="o">=</span> <span class="p">[</span><span class="s1">&#39;wsc&#39;</span><span class="p">,</span> <span class="s2">&quot;piqa&quot;</span><span class="p">]</span>
+
+    <span class="k">for</span> <span class="n">task</span> <span class="ow">in</span> <span class="n">task_list</span><span class="p">:</span>
+        <span class="k">assert</span> <span class="n">task</span> <span class="ow">in</span> <span class="n">AVAILABLE_TASKS</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;UnKnown Task </span><span class="si">{</span><span class="n">tasks</span><span class="si">}</span><span class="s1"> available tasks are </span><span class="si">{</span><span class="n">AVAILABLE_TASKS</span><span class="si">}</span><span class="s1">&#39;</span>
+    <span class="n">results</span> <span class="o">=</span> <span class="n">evaluator</span><span class="o">.</span><span class="n">evaluate</span><span class="p">(</span>
+        <span class="n">model</span><span class="p">,</span> <span class="n">tasks</span><span class="o">.</span><span class="n">get_task_dict</span><span class="p">(</span><span class="n">task_list</span><span class="p">),</span> <span class="kc">False</span><span class="p">,</span> <span class="n">shots</span><span class="p">,</span>
+        <span class="n">limit</span><span class="o">=</span><span class="kc">None</span> <span class="k">if</span> <span class="n">limit</span> <span class="o">&lt;=</span> <span class="mi">0</span> <span class="k">else</span> <span class="n">limit</span><span class="p">,</span>
+        <span class="n">write_out</span><span class="o">=</span><span class="n">write_out</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">pprint</span><span class="o">.</span><span class="n">pprint</span><span class="p">(</span><span class="n">results</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">results</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-_attentions-blockwise_attn/index.html b/generated-modules-_attentions-blockwise_attn/index.html
new file mode 100644
index 000000000..980b66c96
--- /dev/null
+++ b/generated-modules-_attentions-blockwise_attn/index.html
@@ -0,0 +1,6048 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-attention_module/">
+      
+      
+        <link rel="next" href="../generated-modules-_attentions-flash/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Blockwise Attn - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modules_attentionsblockwise_attn" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Blockwise Attn
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules._attentions.blockwise_attn" class="md-nav__link">
+    <span class="md-ellipsis">
+      blockwise_attn
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules._attentions.blockwise_attn" class="md-nav__link">
+    <span class="md-ellipsis">
+      blockwise_attn
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modules_attentionsblockwise_attn">modules._attentions.blockwise_attn</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules._attentions.blockwise_attn"></a>
+    <div class="doc doc-contents first">
+
+      <p>An implementation of Blockwise parallel transformer https://arxiv.org/abs/2305.19370
+Also include a reference implementation of memory-efficient transformer https://arxiv.org/abs/2112.05682
+from EasyLM https://github.com/young-geng/EasyLM/blob/main/EasyLM/bpt.py</p>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-_attentions-flash/index.html b/generated-modules-_attentions-flash/index.html
new file mode 100644
index 000000000..65dd4e3bd
--- /dev/null
+++ b/generated-modules-_attentions-flash/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-_attentions-blockwise_attn/">
+      
+      
+        <link rel="next" href="../generated-modules-_attentions-ring/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Flash - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modules_attentionsflash" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Flash
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules._attentions.flash" class="md-nav__link">
+    <span class="md-ellipsis">
+      flash
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules._attentions.flash" class="md-nav__link">
+    <span class="md-ellipsis">
+      flash
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modules_attentionsflash">modules._attentions.flash</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules._attentions.flash"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-_attentions-ring/index.html b/generated-modules-_attentions-ring/index.html
new file mode 100644
index 000000000..838614e22
--- /dev/null
+++ b/generated-modules-_attentions-ring/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-_attentions-flash/">
+      
+      
+        <link rel="next" href="../generated-modules-_attentions-vanilla/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Ring - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modules_attentionsring" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Ring
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules._attentions.ring" class="md-nav__link">
+    <span class="md-ellipsis">
+      ring
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules._attentions.ring" class="md-nav__link">
+    <span class="md-ellipsis">
+      ring
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modules_attentionsring">modules._attentions.ring</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules._attentions.ring"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-_attentions-vanilla/index.html b/generated-modules-_attentions-vanilla/index.html
new file mode 100644
index 000000000..356cf7420
--- /dev/null
+++ b/generated-modules-_attentions-vanilla/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-_attentions-ring/">
+      
+      
+        <link rel="next" href="../generated-modules-auto_easydel_model/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Vanilla - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modules_attentionsvanilla" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Vanilla
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules._attentions.vanilla" class="md-nav__link">
+    <span class="md-ellipsis">
+      vanilla
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules._attentions.vanilla" class="md-nav__link">
+    <span class="md-ellipsis">
+      vanilla
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modules_attentionsvanilla">modules._attentions.vanilla</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules._attentions.vanilla"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-arctic-arctic_configuration/index.html b/generated-modules-arctic-arctic_configuration/index.html
new file mode 100644
index 000000000..81b126e93
--- /dev/null
+++ b/generated-modules-arctic-arctic_configuration/index.html
@@ -0,0 +1,6696 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-eval-lm_eval/">
+      
+      
+        <link rel="next" href="../generated-modules-arctic-modelling_arctic_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Arctic Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesarcticarctic_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Arctic Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.arctic_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      arctic_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.arctic_configuration.ArcticConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      ArcticConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="ArcticConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.arctic_configuration.ArcticConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.arctic_configuration.ArcticConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.arctic_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      arctic_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.arctic_configuration.ArcticConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      ArcticConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="ArcticConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.arctic_configuration.ArcticConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.arctic_configuration.ArcticConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesarcticarctic_configuration">modules.arctic.arctic_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.arctic.arctic_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.arctic.arctic_configuration.ArcticConfig" class="doc doc-heading">
+            <code>ArcticConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/arctic/arctic_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">ArcticConfig</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;arctic&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">32000</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">14336</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">hidden_act</span><span class="o">=</span><span class="s2">&quot;silu&quot;</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-5</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="o">=</span><span class="mf">1e6</span><span class="p">,</span>
+            <span class="n">sliding_window</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">num_experts_per_tok</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">num_local_experts</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span>
+            <span class="n">router_aux_loss_coef</span><span class="o">=</span><span class="mf">0.001</span><span class="p">,</span>
+            <span class="n">moe_layer_frequency</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+            <span class="n">parallel_attn_mlp_res</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">moe_train_capacity_factor</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">moe_eval_capacity_factor</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">enable_expert_tensor_parallelism</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">moe_min_capacity</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="n">moe_token_dropping</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">quantization</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sliding_window</span> <span class="o">=</span> <span class="n">sliding_window</span>
+
+        <span class="c1"># for backward compatibility</span>
+        <span class="k">if</span> <span class="n">num_key_value_heads</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_experts_per_tok</span> <span class="o">=</span> <span class="n">num_experts_per_tok</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_local_experts</span> <span class="o">=</span> <span class="n">num_local_experts</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">router_aux_loss_coef</span> <span class="o">=</span> <span class="n">router_aux_loss_coef</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">moe_layer_frequency</span> <span class="o">=</span> <span class="n">moe_layer_frequency</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">moe_train_capacity_factor</span> <span class="o">=</span> <span class="n">moe_train_capacity_factor</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">moe_eval_capacity_factor</span> <span class="o">=</span> <span class="n">moe_eval_capacity_factor</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">enable_expert_tensor_parallelism</span> <span class="o">=</span> <span class="n">enable_expert_tensor_parallelism</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">moe_min_capacity</span> <span class="o">=</span> <span class="n">moe_min_capacity</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">moe_token_dropping</span> <span class="o">=</span> <span class="n">moe_token_dropping</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">parallel_attn_mlp_res</span> <span class="o">=</span> <span class="n">parallel_attn_mlp_res</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">quantization</span> <span class="o">=</span> <span class="n">quantization</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="n">pad_token_id</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">          1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">          2) A PartitionScheme object that defines how those parameters should be partitioned.</span>
+
+<span class="sd">        :param fully_sharded_data_parallel: bool: Determine whether to use the fully_sharded_data_parallel partitioning</span>
+<span class="sd">         scheme or not</span>
+<span class="sd">        :return: A list of tuples</span>
+
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;w3/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;w3/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The add_jax_args function adds the following arguments to the model:</span>
+
+<span class="sd">        :param self: Bind the attributes and methods of a class to an instance of that class</span>
+<span class="sd">        :param gradient_checkpointing: str: Determine whether to use gradient checkpointing</span>
+<span class="sd">        :param use_scan_mlp: bool: Determine whether to use the scan_mlp function or not</span>
+<span class="sd">        :param scan_mlp_chunk_size: int: Chunk the input to the mlp</span>
+<span class="sd">        :param bits: Optional[int]: Specify the number of bits to use for quantization</span>
+<span class="sd">         variable will turn them off.</span>
+<span class="sd">        :param rope_scaling: Dict[str, Union[str, float]]: rope_scaling for rope</span>
+<span class="sd">        :return: A tuple of the following:</span>
+
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_weight_decay_exclusions</span><span class="p">():</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">rng_keys</span><span class="p">():</span>
+        <span class="k">return</span> <span class="s1">&#39;params&#39;</span><span class="p">,</span> <span class="s1">&#39;dropout&#39;</span><span class="p">,</span> <span class="s1">&#39;fcm&#39;</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.arctic.arctic_configuration.ArcticConfig.add_jax_args" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_jax_args</span><span class="p">(</span><span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">use_scan_mlp</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="mi">1024</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rope_scaling</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The add_jax_args function adds the following arguments to the model:</p>
+<p>:param self: Bind the attributes and methods of a class to an instance of that class
+:param gradient_checkpointing: str: Determine whether to use gradient checkpointing
+:param use_scan_mlp: bool: Determine whether to use the scan_mlp function or not
+:param scan_mlp_chunk_size: int: Chunk the input to the mlp
+:param bits: Optional[int]: Specify the number of bits to use for quantization
+ variable will turn them off.
+:param rope_scaling: Dict[str, Union[str, float]]: rope_scaling for rope
+:return: A tuple of the following:</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/arctic/arctic_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The add_jax_args function adds the following arguments to the model:</span>
+
+<span class="sd">    :param self: Bind the attributes and methods of a class to an instance of that class</span>
+<span class="sd">    :param gradient_checkpointing: str: Determine whether to use gradient checkpointing</span>
+<span class="sd">    :param use_scan_mlp: bool: Determine whether to use the scan_mlp function or not</span>
+<span class="sd">    :param scan_mlp_chunk_size: int: Chunk the input to the mlp</span>
+<span class="sd">    :param bits: Optional[int]: Specify the number of bits to use for quantization</span>
+<span class="sd">     variable will turn them off.</span>
+<span class="sd">    :param rope_scaling: Dict[str, Union[str, float]]: rope_scaling for rope</span>
+<span class="sd">    :return: A tuple of the following:</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.arctic.arctic_configuration.ArcticConfig.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+  1) A regex string that matches the name of one or more parameters in the model.
+  2) A PartitionScheme object that defines how those parameters should be partitioned.</p>
+<p>:param fully_sharded_data_parallel: bool: Determine whether to use the fully_sharded_data_parallel partitioning
+ scheme or not
+:return: A list of tuples</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/arctic/arctic_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">      1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">      2) A PartitionScheme object that defines how those parameters should be partitioned.</span>
+
+<span class="sd">    :param fully_sharded_data_parallel: bool: Determine whether to use the fully_sharded_data_parallel partitioning</span>
+<span class="sd">     scheme or not</span>
+<span class="sd">    :return: A list of tuples</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;w3/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;w3/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-arctic-modelling_arctic_flax/index.html b/generated-modules-arctic-modelling_arctic_flax/index.html
new file mode 100644
index 000000000..b6c44ba1a
--- /dev/null
+++ b/generated-modules-arctic-modelling_arctic_flax/index.html
@@ -0,0 +1,10291 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-arctic-arctic_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-attention_module/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Arctic Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesarcticmodelling_arctic_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Arctic Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_arctic_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.ArcticPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      ArcticPreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="ArcticPreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.ArcticPreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.ArcticPreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxArcticAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxArcticAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayer" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxArcticDecoderLayer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxArcticDecoderLayer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayer.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayerCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxArcticDecoderLayerCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxArcticDecoderLayerCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayerCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxArcticForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxArcticForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticSparseMoeBlock" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxArcticSparseMoeBlock
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_arctic_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.ArcticPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      ArcticPreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="ArcticPreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.ArcticPreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.ArcticPreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxArcticAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxArcticAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayer" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxArcticDecoderLayer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxArcticDecoderLayer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayer.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayerCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxArcticDecoderLayerCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxArcticDecoderLayerCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayerCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxArcticForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxArcticForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticSparseMoeBlock" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxArcticSparseMoeBlock
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesarcticmodelling_arctic_flax">modules.arctic.modelling_arctic_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.arctic.modelling_arctic_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.arctic.modelling_arctic_flax.ArcticPreTrainedModel" class="doc doc-heading">
+            <code>ArcticPreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 808</span>
+<span class="normal"> 809</span>
+<span class="normal"> 810</span>
+<span class="normal"> 811</span>
+<span class="normal"> 812</span>
+<span class="normal"> 813</span>
+<span class="normal"> 814</span>
+<span class="normal"> 815</span>
+<span class="normal"> 816</span>
+<span class="normal"> 817</span>
+<span class="normal"> 818</span>
+<span class="normal"> 819</span>
+<span class="normal"> 820</span>
+<span class="normal"> 821</span>
+<span class="normal"> 822</span>
+<span class="normal"> 823</span>
+<span class="normal"> 824</span>
+<span class="normal"> 825</span>
+<span class="normal"> 826</span>
+<span class="normal"> 827</span>
+<span class="normal"> 828</span>
+<span class="normal"> 829</span>
+<span class="normal"> 830</span>
+<span class="normal"> 831</span>
+<span class="normal"> 832</span>
+<span class="normal"> 833</span>
+<span class="normal"> 834</span>
+<span class="normal"> 835</span>
+<span class="normal"> 836</span>
+<span class="normal"> 837</span>
+<span class="normal"> 838</span>
+<span class="normal"> 839</span>
+<span class="normal"> 840</span>
+<span class="normal"> 841</span>
+<span class="normal"> 842</span>
+<span class="normal"> 843</span>
+<span class="normal"> 844</span>
+<span class="normal"> 845</span>
+<span class="normal"> 846</span>
+<span class="normal"> 847</span>
+<span class="normal"> 848</span>
+<span class="normal"> 849</span>
+<span class="normal"> 850</span>
+<span class="normal"> 851</span>
+<span class="normal"> 852</span>
+<span class="normal"> 853</span>
+<span class="normal"> 854</span>
+<span class="normal"> 855</span>
+<span class="normal"> 856</span>
+<span class="normal"> 857</span>
+<span class="normal"> 858</span>
+<span class="normal"> 859</span>
+<span class="normal"> 860</span>
+<span class="normal"> 861</span>
+<span class="normal"> 862</span>
+<span class="normal"> 863</span>
+<span class="normal"> 864</span>
+<span class="normal"> 865</span>
+<span class="normal"> 866</span>
+<span class="normal"> 867</span>
+<span class="normal"> 868</span>
+<span class="normal"> 869</span>
+<span class="normal"> 870</span>
+<span class="normal"> 871</span>
+<span class="normal"> 872</span>
+<span class="normal"> 873</span>
+<span class="normal"> 874</span>
+<span class="normal"> 875</span>
+<span class="normal"> 876</span>
+<span class="normal"> 877</span>
+<span class="normal"> 878</span>
+<span class="normal"> 879</span>
+<span class="normal"> 880</span>
+<span class="normal"> 881</span>
+<span class="normal"> 882</span>
+<span class="normal"> 883</span>
+<span class="normal"> 884</span>
+<span class="normal"> 885</span>
+<span class="normal"> 886</span>
+<span class="normal"> 887</span>
+<span class="normal"> 888</span>
+<span class="normal"> 889</span>
+<span class="normal"> 890</span>
+<span class="normal"> 891</span>
+<span class="normal"> 892</span>
+<span class="normal"> 893</span>
+<span class="normal"> 894</span>
+<span class="normal"> 895</span>
+<span class="normal"> 896</span>
+<span class="normal"> 897</span>
+<span class="normal"> 898</span>
+<span class="normal"> 899</span>
+<span class="normal"> 900</span>
+<span class="normal"> 901</span>
+<span class="normal"> 902</span>
+<span class="normal"> 903</span>
+<span class="normal"> 904</span>
+<span class="normal"> 905</span>
+<span class="normal"> 906</span>
+<span class="normal"> 907</span>
+<span class="normal"> 908</span>
+<span class="normal"> 909</span>
+<span class="normal"> 910</span>
+<span class="normal"> 911</span>
+<span class="normal"> 912</span>
+<span class="normal"> 913</span>
+<span class="normal"> 914</span>
+<span class="normal"> 915</span>
+<span class="normal"> 916</span>
+<span class="normal"> 917</span>
+<span class="normal"> 918</span>
+<span class="normal"> 919</span>
+<span class="normal"> 920</span>
+<span class="normal"> 921</span>
+<span class="normal"> 922</span>
+<span class="normal"> 923</span>
+<span class="normal"> 924</span>
+<span class="normal"> 925</span>
+<span class="normal"> 926</span>
+<span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">ArcticPreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span><span class="p">:</span> <span class="n">ArcticConfig</span> <span class="o">=</span> <span class="n">ArcticConfig</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;model&quot;</span>
+
+    <span class="c1"># main_input_name = &quot;input_ids&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">ArcticConfig</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">),</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">,</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">module</span><span class="p">,</span> <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+            <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+<span class="sd">        It takes in a rng, which is a random number generator key that can be used to generate random numbers.</span>
+<span class="sd">        The input_shape parameter specifies the shape of the inputs that will be fed into this model.</span>
+<span class="sd">        The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Initialize the input_ids, attention_mask</span>
+<span class="sd">                and position_ids</span>
+<span class="sd">            params: flax.core.FrozenDict: Pass in the parameters of a</span>
+<span class="sd">                pre-trained model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">True</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">input_shape</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+            <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+                <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+            <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">encoder_hidden_states</span><span class="p">,</span>
+                <span class="n">encoder_attention_mask</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It takes as input:</span>
+<span class="sd">        - The parameters of the model (self.params)</span>
+<span class="sd">        - The inputs to the model (input_ids, attention_mask, position_ids)</span>
+<span class="sd">        - Whether we are training (train=True/False) and whether we want to return all hidden states and</span>
+<span class="sd">        attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: Pass the input sequence to the model</span>
+<span class="sd">            attention_mask: Mask out the padding tokens</span>
+<span class="sd">            position_ids: Specify the position of each token in the</span>
+<span class="sd">                sequence</span>
+<span class="sd">            params: dict: Pass in the parameters of the model</span>
+<span class="sd">            past_key_values: dict: Pass the past key values to the model</span>
+<span class="sd">            dropout_rng: jax.random.PRNGKey: Pass in a random number</span>
+<span class="sd">                generator key to the model</span>
+<span class="sd">            train: bool: Determine whether to use dropout or not</span>
+<span class="sd">            output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the attention weights</span>
+<span class="sd">            output_hidden_states: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the hidden states of all layers</span>
+<span class="sd">            return_dict: Optional[bool]: Return a dictionary of the</span>
+<span class="sd">                outputs</span>
+<span class="sd">            add_params_field: bool: Add a params field to the inputs</span>
+<span class="sd">                dictionary</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (last_hidden_state, past_key_values)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rng_s</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rng_s</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>  <span class="c1"># input_ids: chex.Array</span>
+            <span class="c1"># attention_mask: Optional[chex.Array] = None</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="c1"># position_ids: Optional[chex.Array] = None</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="kc">None</span><span class="p">,</span>  <span class="c1"># inputs_embeds: Optional[chex.Array] = None</span>
+            <span class="n">output_attentions</span><span class="p">,</span>  <span class="c1"># output_attentions: Optional[bool] = None</span>
+            <span class="c1"># output_hidden_states: Optional[bool] = None</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>  <span class="c1"># init_cache: bool = False</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>  <span class="c1"># deterministic: bool = True</span>
+            <span class="n">return_dict</span><span class="p">,</span>  <span class="c1"># return_dict: bool = True</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rng_s</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                      <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.arctic.modelling_arctic_flax.ArcticPreTrainedModel.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">past_key_values</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dropout_rng</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It takes as input:
+- The parameters of the model (self.params)
+- The inputs to the model (input_ids, attention_mask, position_ids)
+- Whether we are training (train=True/False) and whether we want to return all hidden states and
+attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the input sequence to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>past_key_values</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass the past key values to the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dropout_rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Pass in a random number
+generator key to the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>train</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the hidden states of all layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Return a dictionary of the
+outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add a params field to the inputs
+dictionary</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of (last_hidden_state, past_key_values)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 918</span>
+<span class="normal"> 919</span>
+<span class="normal"> 920</span>
+<span class="normal"> 921</span>
+<span class="normal"> 922</span>
+<span class="normal"> 923</span>
+<span class="normal"> 924</span>
+<span class="normal"> 925</span>
+<span class="normal"> 926</span>
+<span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It takes as input:</span>
+<span class="sd">    - The parameters of the model (self.params)</span>
+<span class="sd">    - The inputs to the model (input_ids, attention_mask, position_ids)</span>
+<span class="sd">    - Whether we are training (train=True/False) and whether we want to return all hidden states and</span>
+<span class="sd">    attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: Pass the input sequence to the model</span>
+<span class="sd">        attention_mask: Mask out the padding tokens</span>
+<span class="sd">        position_ids: Specify the position of each token in the</span>
+<span class="sd">            sequence</span>
+<span class="sd">        params: dict: Pass in the parameters of the model</span>
+<span class="sd">        past_key_values: dict: Pass the past key values to the model</span>
+<span class="sd">        dropout_rng: jax.random.PRNGKey: Pass in a random number</span>
+<span class="sd">            generator key to the model</span>
+<span class="sd">        train: bool: Determine whether to use dropout or not</span>
+<span class="sd">        output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the attention weights</span>
+<span class="sd">        output_hidden_states: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the hidden states of all layers</span>
+<span class="sd">        return_dict: Optional[bool]: Return a dictionary of the</span>
+<span class="sd">            outputs</span>
+<span class="sd">        add_params_field: bool: Add a params field to the inputs</span>
+<span class="sd">            dictionary</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of (last_hidden_state, past_key_values)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+    <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+    <span class="p">)</span>
+    <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rng_s</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+    <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rng_s</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+        <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+        <span class="n">inputs</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>  <span class="c1"># input_ids: chex.Array</span>
+        <span class="c1"># attention_mask: Optional[chex.Array] = None</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="c1"># position_ids: Optional[chex.Array] = None</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="kc">None</span><span class="p">,</span>  <span class="c1"># inputs_embeds: Optional[chex.Array] = None</span>
+        <span class="n">output_attentions</span><span class="p">,</span>  <span class="c1"># output_attentions: Optional[bool] = None</span>
+        <span class="c1"># output_hidden_states: Optional[bool] = None</span>
+        <span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="kc">False</span><span class="p">,</span>  <span class="c1"># init_cache: bool = False</span>
+        <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>  <span class="c1"># deterministic: bool = True</span>
+        <span class="n">return_dict</span><span class="p">,</span>  <span class="c1"># return_dict: bool = True</span>
+        <span class="n">rngs</span><span class="o">=</span><span class="n">rng_s</span><span class="p">,</span>
+        <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+    <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                  <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.arctic.modelling_arctic_flax.ArcticPreTrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.
+It takes in a rng, which is a random number generator key that can be used to generate random numbers.
+The input_shape parameter specifies the shape of the inputs that will be fed into this model.
+The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Initialize the input_ids, attention_mask
+and position_ids</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="flax.core.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>flax.core.FrozenDict: Pass in the parameters of a
+pre-trained model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+<span class="sd">    It takes in a rng, which is a random number generator key that can be used to generate random numbers.</span>
+<span class="sd">    The input_shape parameter specifies the shape of the inputs that will be fed into this model.</span>
+<span class="sd">    The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Initialize the input_ids, attention_mask</span>
+<span class="sd">            and position_ids</span>
+<span class="sd">        params: flax.core.FrozenDict: Pass in the parameters of a</span>
+<span class="sd">            pre-trained model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">input_shape</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+        <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+            <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+        <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+    <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticAttention" class="doc doc-heading">
+            <code>FlaxArcticAttention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxArcticAttention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">ArcticConfig</span>
+    <span class="n">layer_index</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span>
+
+        <span class="n">dense</span> <span class="o">=</span> <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+            <span class="n">Linear</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;attention_bias&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(),</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span> <span class="o">=</span> <span class="n">dense</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span> <span class="o">=</span> <span class="n">dense</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span> <span class="o">=</span> <span class="n">dense</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span> <span class="o">=</span> <span class="n">dense</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span> <span class="o">=</span> <span class="n">FlaxArcticRotaryEmbedding</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">use_sharding_constraint</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span><span class="p">,</span>
+            <span class="n">backward_pass_impl</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">flash_attention_backward_pass_impl</span>
+        <span class="p">)</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+        <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span>
+                              <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span>
+                          <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span>
+                              <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It defines how the module behaves when called as a function, and it&#39;s what you&#39;ll use to call your model in practice.</span>
+<span class="sd">        The __call__ method takes an input tensor (x) and returns an output tensor (y).</span>
+<span class="sd">        In this case, we&#39;re defining our model to be a simple linear layer with no activation: y = x @ w + b.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            hidden_states: chex.Array: Pass in the hidden state of the</span>
+<span class="sd">                model</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Create the</span>
+<span class="sd">                apply_rotary variable</span>
+<span class="sd">            attention_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">            causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in a sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (out, attn_output)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+        <span class="p">)</span>
+
+        <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                     <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+        <span class="c1"># if self.config.use_sharding_constraint:</span>
+        <span class="c1">#     query_states = with_sharding_constraint(</span>
+        <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     key_states = with_sharding_constraint(</span>
+        <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     value_states = with_sharding_constraint(</span>
+        <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticAttention.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It defines how the module behaves when called as a function, and it's what you'll use to call your model in practice.
+The <strong>call</strong> method takes an input tensor (x) and returns an output tensor (y).
+In this case, we're defining our model to be a simple linear layer with no activation: y = x @ w + b.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the hidden state of the
+model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Create the
+apply_rotary variable</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of (out, attn_output)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It defines how the module behaves when called as a function, and it&#39;s what you&#39;ll use to call your model in practice.</span>
+<span class="sd">    The __call__ method takes an input tensor (x) and returns an output tensor (y).</span>
+<span class="sd">    In this case, we&#39;re defining our model to be a simple linear layer with no activation: y = x @ w + b.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        hidden_states: chex.Array: Pass in the hidden state of the</span>
+<span class="sd">            model</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Create the</span>
+<span class="sd">            apply_rotary variable</span>
+<span class="sd">        attention_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">        causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in a sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of (out, attn_output)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+        <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+    <span class="p">)</span>
+
+    <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">)</span>
+
+    <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+        <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+        <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                 <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+        <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+    <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+        <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+        <span class="p">)</span>
+    <span class="c1"># if self.config.use_sharding_constraint:</span>
+    <span class="c1">#     query_states = with_sharding_constraint(</span>
+    <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     key_states = with_sharding_constraint(</span>
+    <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     value_states = with_sharding_constraint(</span>
+    <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+        <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+        <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+        <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+    <span class="p">)</span>
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                <span class="s2">&quot;tp&quot;</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayer" class="doc doc-heading">
+            <code>FlaxArcticDecoderLayer</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="flax.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxArcticDecoderLayer</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">ArcticConfig</span>
+    <span class="n">layer_index</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="c1"># hidden_states: chex.Array</span>
+        <span class="c1"># freq_cis: Tuple[chex.Array, chex.Array],</span>
+        <span class="c1"># attention_mask: chex.Array</span>
+        <span class="c1"># causal_mask: chex.Array</span>
+        <span class="c1"># position_ids: chex.Array</span>
+        <span class="c1"># deterministic: bool = True</span>
+        <span class="c1"># init_cache: bool = False</span>
+        <span class="c1"># output_attentions: bool = True</span>
+
+        <span class="n">attn_block</span> <span class="o">=</span> <span class="n">FlaxArcticAttention</span>
+        <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">FlaxArcticSparseMoeBlock</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">attn_block</span> <span class="o">=</span> <span class="n">re_mat</span><span class="p">(</span>
+                <span class="n">attn_block</span><span class="p">,</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="p">),</span>
+                <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span>
+                    <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">6</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">8</span><span class="p">,</span> <span class="mi">9</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">re_mat</span><span class="p">(</span>
+                <span class="n">mlp_block</span><span class="p">,</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="p">),</span>
+                <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span>
+                    <span class="mi">1</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span> <span class="o">=</span> <span class="n">attn_block</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">layer_index</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">layer_index</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_sparse_moe</span> <span class="o">=</span> <span class="n">mlp_block</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span> <span class="o">=</span> <span class="n">ArcticRMSNorm</span><span class="p">(</span>
+            <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span> <span class="o">=</span> <span class="n">ArcticRMSNorm</span><span class="p">(</span>
+            <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">parallel_attn_mlp_res</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">parallel_attn_mlp_res</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_sparse_moe</span><span class="o">.</span><span class="n">is_moe_layer</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">parallel_attn_mlp_res</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">residual_layernorm</span> <span class="o">=</span> <span class="n">ArcticRMSNorm</span><span class="p">(</span>
+                <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+                <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">residual_mlp</span> <span class="o">=</span> <span class="n">ArcticMLP</span><span class="p">(</span>
+                <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+                <span class="n">is_residual_mlp</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">        It takes in the following arguments:</span>
+<span class="sd">            hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed</span>
+<span class="sd">            by all sublayers.</span>
+<span class="sd">            freq_cis (chex.Array): A tensor containing frequency-domain representations of each token&#39;s context vector,</span>
+<span class="sd">             used for computing self-attention weights and biases in a more efficient manner than using position</span>
+<span class="sd">             embeddings or sinusoidal positional encoding vectors would allow</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            hidden_states: chex.Array: Represent the input to the</span>
+<span class="sd">                encoder layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency</span>
+<span class="sd">                information to the attention layer</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for certain positions</span>
+<span class="sd">            causal_mask: chex.Array: Mask the future tokens</span>
+<span class="sd">            position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">                token in the sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the self-</span>
+<span class="sd">                attention layer</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of hidden_states and attention_output</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">residual_input</span> <span class="o">=</span> <span class="n">hidden_states</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="c1"># hidden_states: chex.Array</span>
+        <span class="c1"># freq_cis: Tuple[chex.Array, chex.Array],</span>
+        <span class="c1"># attention_mask: chex.Array</span>
+        <span class="c1"># causal_mask: chex.Array</span>
+        <span class="c1"># position_ids: chex.Array</span>
+        <span class="c1"># segment_ids: Optional[chex.Array] = None</span>
+        <span class="c1"># deterministic: bool = True</span>
+        <span class="c1"># init_cache: bool = False</span>
+        <span class="c1"># output_attentions: bool = True</span>
+
+        <span class="n">hidden_states</span><span class="p">,</span> <span class="n">self_attn_weights</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">residual_input</span> <span class="o">+</span> <span class="n">hidden_states</span>
+
+        <span class="n">residual_attn</span> <span class="o">=</span> <span class="n">hidden_states</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">parallel_attn_mlp_res</span><span class="p">:</span>
+
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">residual_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">residual_mlp</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+            <span class="n">residual_residual</span> <span class="o">=</span> <span class="n">residual_attn</span> <span class="o">+</span> <span class="n">hidden_states</span>
+            <span class="c1"># parallel mlp moe part</span>
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span><span class="p">(</span><span class="n">residual_input</span><span class="p">)</span>
+            <span class="n">hidden_states</span><span class="p">,</span> <span class="n">gate_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_sparse_moe</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">residual_residual</span> <span class="o">+</span> <span class="n">hidden_states</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+            <span class="n">hidden_states</span><span class="p">,</span> <span class="n">gate_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_sparse_moe</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">residual_attn</span> <span class="o">+</span> <span class="n">hidden_states</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">self_attn_weights</span><span class="p">,)</span>
+
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">gate_loss</span><span class="p">,)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayer.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a TransformerEncoderLayer.
+It takes in the following arguments:
+    hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed
+    by all sublayers.
+    freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector,
+     used for computing self-attention weights and biases in a more efficient manner than using position
+     embeddings or sinusoidal positional encoding vectors would allow</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Represent the input to the
+encoder layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass the frequency
+information to the attention layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for certain positions</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the future tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Indicate the position of each
+token in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the self-
+attention layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of hidden_states and attention_output</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">    It takes in the following arguments:</span>
+<span class="sd">        hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed</span>
+<span class="sd">        by all sublayers.</span>
+<span class="sd">        freq_cis (chex.Array): A tensor containing frequency-domain representations of each token&#39;s context vector,</span>
+<span class="sd">         used for computing self-attention weights and biases in a more efficient manner than using position</span>
+<span class="sd">         embeddings or sinusoidal positional encoding vectors would allow</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        hidden_states: chex.Array: Represent the input to the</span>
+<span class="sd">            encoder layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency</span>
+<span class="sd">            information to the attention layer</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for certain positions</span>
+<span class="sd">        causal_mask: chex.Array: Mask the future tokens</span>
+<span class="sd">        position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">            token in the sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the self-</span>
+<span class="sd">            attention layer</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of hidden_states and attention_output</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">residual_input</span> <span class="o">=</span> <span class="n">hidden_states</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="c1"># hidden_states: chex.Array</span>
+    <span class="c1"># freq_cis: Tuple[chex.Array, chex.Array],</span>
+    <span class="c1"># attention_mask: chex.Array</span>
+    <span class="c1"># causal_mask: chex.Array</span>
+    <span class="c1"># position_ids: chex.Array</span>
+    <span class="c1"># segment_ids: Optional[chex.Array] = None</span>
+    <span class="c1"># deterministic: bool = True</span>
+    <span class="c1"># init_cache: bool = False</span>
+    <span class="c1"># output_attentions: bool = True</span>
+
+    <span class="n">hidden_states</span><span class="p">,</span> <span class="n">self_attn_weights</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">residual_input</span> <span class="o">+</span> <span class="n">hidden_states</span>
+
+    <span class="n">residual_attn</span> <span class="o">=</span> <span class="n">hidden_states</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">parallel_attn_mlp_res</span><span class="p">:</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">residual_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">residual_mlp</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">residual_residual</span> <span class="o">=</span> <span class="n">residual_attn</span> <span class="o">+</span> <span class="n">hidden_states</span>
+        <span class="c1"># parallel mlp moe part</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span><span class="p">(</span><span class="n">residual_input</span><span class="p">)</span>
+        <span class="n">hidden_states</span><span class="p">,</span> <span class="n">gate_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_sparse_moe</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">residual_residual</span> <span class="o">+</span> <span class="n">hidden_states</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">hidden_states</span><span class="p">,</span> <span class="n">gate_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_sparse_moe</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">residual_attn</span> <span class="o">+</span> <span class="n">hidden_states</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+    <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">self_attn_weights</span><span class="p">,)</span>
+
+    <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">gate_loss</span><span class="p">,)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayerCollection" class="doc doc-heading">
+            <code>FlaxArcticDecoderLayerCollection</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="flax.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxArcticDecoderLayerCollection</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">ArcticConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">FlaxArcticDecoderLayer</span><span class="p">(</span>
+                <span class="n">layer_index</span><span class="o">=</span><span class="n">layer_index</span><span class="p">,</span>
+                <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+                <span class="n">name</span><span class="o">=</span><span class="nb">str</span><span class="p">(</span><span class="n">layer_index</span><span class="p">)</span>
+            <span class="p">)</span>
+
+            <span class="k">for</span> <span class="n">layer_index</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_hidden_layers</span><span class="p">)</span>
+        <span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">        It takes in the following arguments:</span>
+<span class="sd">            hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed</span>
+<span class="sd">             by all sublayers.</span>
+<span class="sd">            freq_cis (chex.Array): A tensor containing frequency-domain representations of each token&#39;s context vector</span>
+<span class="sd">            , used for computing self-attention weights and biases in a more efficient manner than using position</span>
+<span class="sd">            embeddings or sinusoidal positional encoding vectors would allow for [2].</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            hidden_states: chex.Array: Represent the input to the</span>
+<span class="sd">                encoder layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency</span>
+<span class="sd">                information to the attention layer</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for certain positions</span>
+<span class="sd">            causal_mask: chex.Array: Mask the future tokens</span>
+<span class="sd">            position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">                token in the sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the self-</span>
+<span class="sd">                attention layer</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of hidden_states, attention_output,</span>
+<span class="sd">            all_hidden_states and all_router_losses</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="n">all_self_attns</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="n">all_router_losses</span> <span class="o">=</span> <span class="p">()</span>
+        <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+                <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+            <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+                <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+                <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+                <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+                <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+            <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+                <span class="n">all_self_attns</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],)</span>
+
+            <span class="n">all_router_losses</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_self_attns</span><span class="p">,)</span>
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_hidden_states</span><span class="p">,)</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_router_losses</span><span class="p">,)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayerCollection.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a TransformerEncoderLayer.
+It takes in the following arguments:
+    hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed
+     by all sublayers.
+    freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector
+    , used for computing self-attention weights and biases in a more efficient manner than using position
+    embeddings or sinusoidal positional encoding vectors would allow for [2].</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Represent the input to the
+encoder layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass the frequency
+information to the attention layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for certain positions</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the future tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Indicate the position of each
+token in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the self-
+attention layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of hidden_states, attention_output,</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>all_hidden_states and all_router_losses</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">    It takes in the following arguments:</span>
+<span class="sd">        hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed</span>
+<span class="sd">         by all sublayers.</span>
+<span class="sd">        freq_cis (chex.Array): A tensor containing frequency-domain representations of each token&#39;s context vector</span>
+<span class="sd">        , used for computing self-attention weights and biases in a more efficient manner than using position</span>
+<span class="sd">        embeddings or sinusoidal positional encoding vectors would allow for [2].</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        hidden_states: chex.Array: Represent the input to the</span>
+<span class="sd">            encoder layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency</span>
+<span class="sd">            information to the attention layer</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for certain positions</span>
+<span class="sd">        causal_mask: chex.Array: Mask the future tokens</span>
+<span class="sd">        position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">            token in the sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the self-</span>
+<span class="sd">            attention layer</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of hidden_states, attention_output,</span>
+<span class="sd">        all_hidden_states and all_router_losses</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="n">all_self_attns</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="n">all_router_losses</span> <span class="o">=</span> <span class="p">()</span>
+    <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">all_self_attns</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],)</span>
+
+        <span class="n">all_router_losses</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+    <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_self_attns</span><span class="p">,)</span>
+    <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_hidden_states</span><span class="p">,)</span>
+    <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_router_losses</span><span class="p">,)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticForCausalLM" class="doc doc-heading">
+            <code>FlaxArcticForCausalLM</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.arctic.modelling_arctic_flax.ArcticPreTrainedModel" href="#src.python.easydel.modules.arctic.modelling_arctic_flax.ArcticPreTrainedModel">ArcticPreTrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span>
+<span class="normal">1230</span>
+<span class="normal">1231</span>
+<span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span>
+<span class="normal">1241</span>
+<span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span>
+<span class="normal">1281</span>
+<span class="normal">1282</span>
+<span class="normal">1283</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxArcticForCausalLM</span><span class="p">(</span><span class="n">ArcticPreTrainedModel</span><span class="p">):</span>
+    <span class="n">module_class</span> <span class="o">=</span> <span class="n">FlaxArcticForCausalLMModule</span>
+
+    <span class="k">def</span> <span class="nf">set_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">embed_tokens</span> <span class="o">=</span> <span class="n">value</span>
+
+    <span class="k">def</span> <span class="nf">get_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">embed_tokens</span>
+
+    <span class="k">def</span> <span class="nf">set_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">decoder</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">decoder</span>
+
+    <span class="k">def</span> <span class="nf">get_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span>
+
+    <span class="k">def</span> <span class="nf">get_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">lm_head</span>
+
+    <span class="k">def</span> <span class="nf">set_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">new_embeddings</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">lm_head</span> <span class="o">=</span> <span class="n">new_embeddings</span>
+
+    <span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            input_ids: Pass in the input tokens</span>
+<span class="sd">            max_length: Set the length of the sequence to be generated</span>
+<span class="sd">            attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">                weights</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">            position ids</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+            <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+                <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+            <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+            <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">update_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_outputs</span><span class="p">,</span> <span class="n">model_kwargs</span><span class="p">):</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">past_key_values</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">][:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">:]</span> <span class="o">+</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="n">model_kwargs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticForCausalLM.prepare_inputs_for_generation" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">prepare_inputs_for_generation</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the length of the sequence to be generated</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[chex.Array]: Mask the attention
+weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of the past_key_values, attention_mask and</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>position ids</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        input_ids: Pass in the input tokens</span>
+<span class="sd">        max_length: Set the length of the sequence to be generated</span>
+<span class="sd">        attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">            weights</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">        position ids</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+    <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+        <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+            <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+        <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+        <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticSparseMoeBlock" class="doc doc-heading">
+            <code>FlaxArcticSparseMoeBlock</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="flax.linen.Module">Module</span></code></p>
+
+
+      <p>This implementation is
+strictly equivalent to standard MoE with full capacity (no
+dropped tokens). It's faster since it formulates MoE operations
+in terms of block-sparse operations to accomodate imbalanced
+assignments of tokens to experts, whereas standard MoE either
+(1) drop tokens at the cost of reduced performance or (2) set
+capacity factor to number of experts and thus waste computation
+and memory on padding.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxArcticSparseMoeBlock</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;This implementation is</span>
+<span class="sd">    strictly equivalent to standard MoE with full capacity (no</span>
+<span class="sd">    dropped tokens). It&#39;s faster since it formulates MoE operations</span>
+<span class="sd">    in terms of block-sparse operations to accomodate imbalanced</span>
+<span class="sd">    assignments of tokens to experts, whereas standard MoE either</span>
+<span class="sd">    (1) drop tokens at the cost of reduced performance or (2) set</span>
+<span class="sd">    capacity factor to number of experts and thus waste computation</span>
+<span class="sd">    and memory on padding.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">ArcticConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span>
+        <span class="n">Union</span><span class="p">[</span><span class="kc">None</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span>
+    <span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_local_experts</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(),</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">experts</span> <span class="o">=</span> <span class="n">FlaxArcticBlocKSparesMLPCollection</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">e</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>  <span class="c1"># Ignored</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]:</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">hidden_dim</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">router_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">gate</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span>  <span class="c1"># no reshaping is needed</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">promote_types</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">routing_weights</span><span class="p">,</span> <span class="n">selected_experts</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">top_k</span><span class="p">(</span>
+            <span class="n">router_logits</span><span class="p">,</span>
+            <span class="n">k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_experts_per_tok</span>
+        <span class="p">)</span>
+        <span class="n">routing_weights</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span>
+            <span class="n">routing_weights</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">promote_types</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+            <span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">experts</span><span class="p">(</span>
+            <span class="n">selected_experts</span><span class="o">=</span><span class="n">selected_experts</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span><span class="p">,</span>
+            <span class="n">hidden_dim</span><span class="o">=</span><span class="n">hidden_dim</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">routing_weights</span><span class="o">=</span><span class="n">routing_weights</span>
+        <span class="p">),</span> <span class="n">router_logits</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-attention_module/index.html b/generated-modules-attention_module/index.html
new file mode 100644
index 000000000..b91ebe8c2
--- /dev/null
+++ b/generated-modules-attention_module/index.html
@@ -0,0 +1,9008 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-arctic-modelling_arctic_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-_attentions-blockwise_attn/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Attention Module - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesattention_module" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Attention Module
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.attention_module" class="md-nav__link">
+    <span class="md-ellipsis">
+      attention_module
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.attention_module.AttentionModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      AttentionModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="AttentionModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.attention_module.AttentionModule.cuddn_flash_attention" class="md-nav__link">
+    <span class="md-ellipsis">
+      cuddn_flash_attention
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.attention_module.AttentionModule.test_attentions" class="md-nav__link">
+    <span class="md-ellipsis">
+      test_attentions
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.attention_module.get_flash_attention" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_flash_attention
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.attention_module" class="md-nav__link">
+    <span class="md-ellipsis">
+      attention_module
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.attention_module.AttentionModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      AttentionModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="AttentionModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.attention_module.AttentionModule.cuddn_flash_attention" class="md-nav__link">
+    <span class="md-ellipsis">
+      cuddn_flash_attention
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.attention_module.AttentionModule.test_attentions" class="md-nav__link">
+    <span class="md-ellipsis">
+      test_attentions
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.attention_module.get_flash_attention" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_flash_attention
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesattention_module">modules.attention_module</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.attention_module"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.attention_module.AttentionModule" class="doc doc-heading">
+            <code>AttentionModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/attention_module.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 137</span>
+<span class="normal"> 138</span>
+<span class="normal"> 139</span>
+<span class="normal"> 140</span>
+<span class="normal"> 141</span>
+<span class="normal"> 142</span>
+<span class="normal"> 143</span>
+<span class="normal"> 144</span>
+<span class="normal"> 145</span>
+<span class="normal"> 146</span>
+<span class="normal"> 147</span>
+<span class="normal"> 148</span>
+<span class="normal"> 149</span>
+<span class="normal"> 150</span>
+<span class="normal"> 151</span>
+<span class="normal"> 152</span>
+<span class="normal"> 153</span>
+<span class="normal"> 154</span>
+<span class="normal"> 155</span>
+<span class="normal"> 156</span>
+<span class="normal"> 157</span>
+<span class="normal"> 158</span>
+<span class="normal"> 159</span>
+<span class="normal"> 160</span>
+<span class="normal"> 161</span>
+<span class="normal"> 162</span>
+<span class="normal"> 163</span>
+<span class="normal"> 164</span>
+<span class="normal"> 165</span>
+<span class="normal"> 166</span>
+<span class="normal"> 167</span>
+<span class="normal"> 168</span>
+<span class="normal"> 169</span>
+<span class="normal"> 170</span>
+<span class="normal"> 171</span>
+<span class="normal"> 172</span>
+<span class="normal"> 173</span>
+<span class="normal"> 174</span>
+<span class="normal"> 175</span>
+<span class="normal"> 176</span>
+<span class="normal"> 177</span>
+<span class="normal"> 178</span>
+<span class="normal"> 179</span>
+<span class="normal"> 180</span>
+<span class="normal"> 181</span>
+<span class="normal"> 182</span>
+<span class="normal"> 183</span>
+<span class="normal"> 184</span>
+<span class="normal"> 185</span>
+<span class="normal"> 186</span>
+<span class="normal"> 187</span>
+<span class="normal"> 188</span>
+<span class="normal"> 189</span>
+<span class="normal"> 190</span>
+<span class="normal"> 191</span>
+<span class="normal"> 192</span>
+<span class="normal"> 193</span>
+<span class="normal"> 194</span>
+<span class="normal"> 195</span>
+<span class="normal"> 196</span>
+<span class="normal"> 197</span>
+<span class="normal"> 198</span>
+<span class="normal"> 199</span>
+<span class="normal"> 200</span>
+<span class="normal"> 201</span>
+<span class="normal"> 202</span>
+<span class="normal"> 203</span>
+<span class="normal"> 204</span>
+<span class="normal"> 205</span>
+<span class="normal"> 206</span>
+<span class="normal"> 207</span>
+<span class="normal"> 208</span>
+<span class="normal"> 209</span>
+<span class="normal"> 210</span>
+<span class="normal"> 211</span>
+<span class="normal"> 212</span>
+<span class="normal"> 213</span>
+<span class="normal"> 214</span>
+<span class="normal"> 215</span>
+<span class="normal"> 216</span>
+<span class="normal"> 217</span>
+<span class="normal"> 218</span>
+<span class="normal"> 219</span>
+<span class="normal"> 220</span>
+<span class="normal"> 221</span>
+<span class="normal"> 222</span>
+<span class="normal"> 223</span>
+<span class="normal"> 224</span>
+<span class="normal"> 225</span>
+<span class="normal"> 226</span>
+<span class="normal"> 227</span>
+<span class="normal"> 228</span>
+<span class="normal"> 229</span>
+<span class="normal"> 230</span>
+<span class="normal"> 231</span>
+<span class="normal"> 232</span>
+<span class="normal"> 233</span>
+<span class="normal"> 234</span>
+<span class="normal"> 235</span>
+<span class="normal"> 236</span>
+<span class="normal"> 237</span>
+<span class="normal"> 238</span>
+<span class="normal"> 239</span>
+<span class="normal"> 240</span>
+<span class="normal"> 241</span>
+<span class="normal"> 242</span>
+<span class="normal"> 243</span>
+<span class="normal"> 244</span>
+<span class="normal"> 245</span>
+<span class="normal"> 246</span>
+<span class="normal"> 247</span>
+<span class="normal"> 248</span>
+<span class="normal"> 249</span>
+<span class="normal"> 250</span>
+<span class="normal"> 251</span>
+<span class="normal"> 252</span>
+<span class="normal"> 253</span>
+<span class="normal"> 254</span>
+<span class="normal"> 255</span>
+<span class="normal"> 256</span>
+<span class="normal"> 257</span>
+<span class="normal"> 258</span>
+<span class="normal"> 259</span>
+<span class="normal"> 260</span>
+<span class="normal"> 261</span>
+<span class="normal"> 262</span>
+<span class="normal"> 263</span>
+<span class="normal"> 264</span>
+<span class="normal"> 265</span>
+<span class="normal"> 266</span>
+<span class="normal"> 267</span>
+<span class="normal"> 268</span>
+<span class="normal"> 269</span>
+<span class="normal"> 270</span>
+<span class="normal"> 271</span>
+<span class="normal"> 272</span>
+<span class="normal"> 273</span>
+<span class="normal"> 274</span>
+<span class="normal"> 275</span>
+<span class="normal"> 276</span>
+<span class="normal"> 277</span>
+<span class="normal"> 278</span>
+<span class="normal"> 279</span>
+<span class="normal"> 280</span>
+<span class="normal"> 281</span>
+<span class="normal"> 282</span>
+<span class="normal"> 283</span>
+<span class="normal"> 284</span>
+<span class="normal"> 285</span>
+<span class="normal"> 286</span>
+<span class="normal"> 287</span>
+<span class="normal"> 288</span>
+<span class="normal"> 289</span>
+<span class="normal"> 290</span>
+<span class="normal"> 291</span>
+<span class="normal"> 292</span>
+<span class="normal"> 293</span>
+<span class="normal"> 294</span>
+<span class="normal"> 295</span>
+<span class="normal"> 296</span>
+<span class="normal"> 297</span>
+<span class="normal"> 298</span>
+<span class="normal"> 299</span>
+<span class="normal"> 300</span>
+<span class="normal"> 301</span>
+<span class="normal"> 302</span>
+<span class="normal"> 303</span>
+<span class="normal"> 304</span>
+<span class="normal"> 305</span>
+<span class="normal"> 306</span>
+<span class="normal"> 307</span>
+<span class="normal"> 308</span>
+<span class="normal"> 309</span>
+<span class="normal"> 310</span>
+<span class="normal"> 311</span>
+<span class="normal"> 312</span>
+<span class="normal"> 313</span>
+<span class="normal"> 314</span>
+<span class="normal"> 315</span>
+<span class="normal"> 316</span>
+<span class="normal"> 317</span>
+<span class="normal"> 318</span>
+<span class="normal"> 319</span>
+<span class="normal"> 320</span>
+<span class="normal"> 321</span>
+<span class="normal"> 322</span>
+<span class="normal"> 323</span>
+<span class="normal"> 324</span>
+<span class="normal"> 325</span>
+<span class="normal"> 326</span>
+<span class="normal"> 327</span>
+<span class="normal"> 328</span>
+<span class="normal"> 329</span>
+<span class="normal"> 330</span>
+<span class="normal"> 331</span>
+<span class="normal"> 332</span>
+<span class="normal"> 333</span>
+<span class="normal"> 334</span>
+<span class="normal"> 335</span>
+<span class="normal"> 336</span>
+<span class="normal"> 337</span>
+<span class="normal"> 338</span>
+<span class="normal"> 339</span>
+<span class="normal"> 340</span>
+<span class="normal"> 341</span>
+<span class="normal"> 342</span>
+<span class="normal"> 343</span>
+<span class="normal"> 344</span>
+<span class="normal"> 345</span>
+<span class="normal"> 346</span>
+<span class="normal"> 347</span>
+<span class="normal"> 348</span>
+<span class="normal"> 349</span>
+<span class="normal"> 350</span>
+<span class="normal"> 351</span>
+<span class="normal"> 352</span>
+<span class="normal"> 353</span>
+<span class="normal"> 354</span>
+<span class="normal"> 355</span>
+<span class="normal"> 356</span>
+<span class="normal"> 357</span>
+<span class="normal"> 358</span>
+<span class="normal"> 359</span>
+<span class="normal"> 360</span>
+<span class="normal"> 361</span>
+<span class="normal"> 362</span>
+<span class="normal"> 363</span>
+<span class="normal"> 364</span>
+<span class="normal"> 365</span>
+<span class="normal"> 366</span>
+<span class="normal"> 367</span>
+<span class="normal"> 368</span>
+<span class="normal"> 369</span>
+<span class="normal"> 370</span>
+<span class="normal"> 371</span>
+<span class="normal"> 372</span>
+<span class="normal"> 373</span>
+<span class="normal"> 374</span>
+<span class="normal"> 375</span>
+<span class="normal"> 376</span>
+<span class="normal"> 377</span>
+<span class="normal"> 378</span>
+<span class="normal"> 379</span>
+<span class="normal"> 380</span>
+<span class="normal"> 381</span>
+<span class="normal"> 382</span>
+<span class="normal"> 383</span>
+<span class="normal"> 384</span>
+<span class="normal"> 385</span>
+<span class="normal"> 386</span>
+<span class="normal"> 387</span>
+<span class="normal"> 388</span>
+<span class="normal"> 389</span>
+<span class="normal"> 390</span>
+<span class="normal"> 391</span>
+<span class="normal"> 392</span>
+<span class="normal"> 393</span>
+<span class="normal"> 394</span>
+<span class="normal"> 395</span>
+<span class="normal"> 396</span>
+<span class="normal"> 397</span>
+<span class="normal"> 398</span>
+<span class="normal"> 399</span>
+<span class="normal"> 400</span>
+<span class="normal"> 401</span>
+<span class="normal"> 402</span>
+<span class="normal"> 403</span>
+<span class="normal"> 404</span>
+<span class="normal"> 405</span>
+<span class="normal"> 406</span>
+<span class="normal"> 407</span>
+<span class="normal"> 408</span>
+<span class="normal"> 409</span>
+<span class="normal"> 410</span>
+<span class="normal"> 411</span>
+<span class="normal"> 412</span>
+<span class="normal"> 413</span>
+<span class="normal"> 414</span>
+<span class="normal"> 415</span>
+<span class="normal"> 416</span>
+<span class="normal"> 417</span>
+<span class="normal"> 418</span>
+<span class="normal"> 419</span>
+<span class="normal"> 420</span>
+<span class="normal"> 421</span>
+<span class="normal"> 422</span>
+<span class="normal"> 423</span>
+<span class="normal"> 424</span>
+<span class="normal"> 425</span>
+<span class="normal"> 426</span>
+<span class="normal"> 427</span>
+<span class="normal"> 428</span>
+<span class="normal"> 429</span>
+<span class="normal"> 430</span>
+<span class="normal"> 431</span>
+<span class="normal"> 432</span>
+<span class="normal"> 433</span>
+<span class="normal"> 434</span>
+<span class="normal"> 435</span>
+<span class="normal"> 436</span>
+<span class="normal"> 437</span>
+<span class="normal"> 438</span>
+<span class="normal"> 439</span>
+<span class="normal"> 440</span>
+<span class="normal"> 441</span>
+<span class="normal"> 442</span>
+<span class="normal"> 443</span>
+<span class="normal"> 444</span>
+<span class="normal"> 445</span>
+<span class="normal"> 446</span>
+<span class="normal"> 447</span>
+<span class="normal"> 448</span>
+<span class="normal"> 449</span>
+<span class="normal"> 450</span>
+<span class="normal"> 451</span>
+<span class="normal"> 452</span>
+<span class="normal"> 453</span>
+<span class="normal"> 454</span>
+<span class="normal"> 455</span>
+<span class="normal"> 456</span>
+<span class="normal"> 457</span>
+<span class="normal"> 458</span>
+<span class="normal"> 459</span>
+<span class="normal"> 460</span>
+<span class="normal"> 461</span>
+<span class="normal"> 462</span>
+<span class="normal"> 463</span>
+<span class="normal"> 464</span>
+<span class="normal"> 465</span>
+<span class="normal"> 466</span>
+<span class="normal"> 467</span>
+<span class="normal"> 468</span>
+<span class="normal"> 469</span>
+<span class="normal"> 470</span>
+<span class="normal"> 471</span>
+<span class="normal"> 472</span>
+<span class="normal"> 473</span>
+<span class="normal"> 474</span>
+<span class="normal"> 475</span>
+<span class="normal"> 476</span>
+<span class="normal"> 477</span>
+<span class="normal"> 478</span>
+<span class="normal"> 479</span>
+<span class="normal"> 480</span>
+<span class="normal"> 481</span>
+<span class="normal"> 482</span>
+<span class="normal"> 483</span>
+<span class="normal"> 484</span>
+<span class="normal"> 485</span>
+<span class="normal"> 486</span>
+<span class="normal"> 487</span>
+<span class="normal"> 488</span>
+<span class="normal"> 489</span>
+<span class="normal"> 490</span>
+<span class="normal"> 491</span>
+<span class="normal"> 492</span>
+<span class="normal"> 493</span>
+<span class="normal"> 494</span>
+<span class="normal"> 495</span>
+<span class="normal"> 496</span>
+<span class="normal"> 497</span>
+<span class="normal"> 498</span>
+<span class="normal"> 499</span>
+<span class="normal"> 500</span>
+<span class="normal"> 501</span>
+<span class="normal"> 502</span>
+<span class="normal"> 503</span>
+<span class="normal"> 504</span>
+<span class="normal"> 505</span>
+<span class="normal"> 506</span>
+<span class="normal"> 507</span>
+<span class="normal"> 508</span>
+<span class="normal"> 509</span>
+<span class="normal"> 510</span>
+<span class="normal"> 511</span>
+<span class="normal"> 512</span>
+<span class="normal"> 513</span>
+<span class="normal"> 514</span>
+<span class="normal"> 515</span>
+<span class="normal"> 516</span>
+<span class="normal"> 517</span>
+<span class="normal"> 518</span>
+<span class="normal"> 519</span>
+<span class="normal"> 520</span>
+<span class="normal"> 521</span>
+<span class="normal"> 522</span>
+<span class="normal"> 523</span>
+<span class="normal"> 524</span>
+<span class="normal"> 525</span>
+<span class="normal"> 526</span>
+<span class="normal"> 527</span>
+<span class="normal"> 528</span>
+<span class="normal"> 529</span>
+<span class="normal"> 530</span>
+<span class="normal"> 531</span>
+<span class="normal"> 532</span>
+<span class="normal"> 533</span>
+<span class="normal"> 534</span>
+<span class="normal"> 535</span>
+<span class="normal"> 536</span>
+<span class="normal"> 537</span>
+<span class="normal"> 538</span>
+<span class="normal"> 539</span>
+<span class="normal"> 540</span>
+<span class="normal"> 541</span>
+<span class="normal"> 542</span>
+<span class="normal"> 543</span>
+<span class="normal"> 544</span>
+<span class="normal"> 545</span>
+<span class="normal"> 546</span>
+<span class="normal"> 547</span>
+<span class="normal"> 548</span>
+<span class="normal"> 549</span>
+<span class="normal"> 550</span>
+<span class="normal"> 551</span>
+<span class="normal"> 552</span>
+<span class="normal"> 553</span>
+<span class="normal"> 554</span>
+<span class="normal"> 555</span>
+<span class="normal"> 556</span>
+<span class="normal"> 557</span>
+<span class="normal"> 558</span>
+<span class="normal"> 559</span>
+<span class="normal"> 560</span>
+<span class="normal"> 561</span>
+<span class="normal"> 562</span>
+<span class="normal"> 563</span>
+<span class="normal"> 564</span>
+<span class="normal"> 565</span>
+<span class="normal"> 566</span>
+<span class="normal"> 567</span>
+<span class="normal"> 568</span>
+<span class="normal"> 569</span>
+<span class="normal"> 570</span>
+<span class="normal"> 571</span>
+<span class="normal"> 572</span>
+<span class="normal"> 573</span>
+<span class="normal"> 574</span>
+<span class="normal"> 575</span>
+<span class="normal"> 576</span>
+<span class="normal"> 577</span>
+<span class="normal"> 578</span>
+<span class="normal"> 579</span>
+<span class="normal"> 580</span>
+<span class="normal"> 581</span>
+<span class="normal"> 582</span>
+<span class="normal"> 583</span>
+<span class="normal"> 584</span>
+<span class="normal"> 585</span>
+<span class="normal"> 586</span>
+<span class="normal"> 587</span>
+<span class="normal"> 588</span>
+<span class="normal"> 589</span>
+<span class="normal"> 590</span>
+<span class="normal"> 591</span>
+<span class="normal"> 592</span>
+<span class="normal"> 593</span>
+<span class="normal"> 594</span>
+<span class="normal"> 595</span>
+<span class="normal"> 596</span>
+<span class="normal"> 597</span>
+<span class="normal"> 598</span>
+<span class="normal"> 599</span>
+<span class="normal"> 600</span>
+<span class="normal"> 601</span>
+<span class="normal"> 602</span>
+<span class="normal"> 603</span>
+<span class="normal"> 604</span>
+<span class="normal"> 605</span>
+<span class="normal"> 606</span>
+<span class="normal"> 607</span>
+<span class="normal"> 608</span>
+<span class="normal"> 609</span>
+<span class="normal"> 610</span>
+<span class="normal"> 611</span>
+<span class="normal"> 612</span>
+<span class="normal"> 613</span>
+<span class="normal"> 614</span>
+<span class="normal"> 615</span>
+<span class="normal"> 616</span>
+<span class="normal"> 617</span>
+<span class="normal"> 618</span>
+<span class="normal"> 619</span>
+<span class="normal"> 620</span>
+<span class="normal"> 621</span>
+<span class="normal"> 622</span>
+<span class="normal"> 623</span>
+<span class="normal"> 624</span>
+<span class="normal"> 625</span>
+<span class="normal"> 626</span>
+<span class="normal"> 627</span>
+<span class="normal"> 628</span>
+<span class="normal"> 629</span>
+<span class="normal"> 630</span>
+<span class="normal"> 631</span>
+<span class="normal"> 632</span>
+<span class="normal"> 633</span>
+<span class="normal"> 634</span>
+<span class="normal"> 635</span>
+<span class="normal"> 636</span>
+<span class="normal"> 637</span>
+<span class="normal"> 638</span>
+<span class="normal"> 639</span>
+<span class="normal"> 640</span>
+<span class="normal"> 641</span>
+<span class="normal"> 642</span>
+<span class="normal"> 643</span>
+<span class="normal"> 644</span>
+<span class="normal"> 645</span>
+<span class="normal"> 646</span>
+<span class="normal"> 647</span>
+<span class="normal"> 648</span>
+<span class="normal"> 649</span>
+<span class="normal"> 650</span>
+<span class="normal"> 651</span>
+<span class="normal"> 652</span>
+<span class="normal"> 653</span>
+<span class="normal"> 654</span>
+<span class="normal"> 655</span>
+<span class="normal"> 656</span>
+<span class="normal"> 657</span>
+<span class="normal"> 658</span>
+<span class="normal"> 659</span>
+<span class="normal"> 660</span>
+<span class="normal"> 661</span>
+<span class="normal"> 662</span>
+<span class="normal"> 663</span>
+<span class="normal"> 664</span>
+<span class="normal"> 665</span>
+<span class="normal"> 666</span>
+<span class="normal"> 667</span>
+<span class="normal"> 668</span>
+<span class="normal"> 669</span>
+<span class="normal"> 670</span>
+<span class="normal"> 671</span>
+<span class="normal"> 672</span>
+<span class="normal"> 673</span>
+<span class="normal"> 674</span>
+<span class="normal"> 675</span>
+<span class="normal"> 676</span>
+<span class="normal"> 677</span>
+<span class="normal"> 678</span>
+<span class="normal"> 679</span>
+<span class="normal"> 680</span>
+<span class="normal"> 681</span>
+<span class="normal"> 682</span>
+<span class="normal"> 683</span>
+<span class="normal"> 684</span>
+<span class="normal"> 685</span>
+<span class="normal"> 686</span>
+<span class="normal"> 687</span>
+<span class="normal"> 688</span>
+<span class="normal"> 689</span>
+<span class="normal"> 690</span>
+<span class="normal"> 691</span>
+<span class="normal"> 692</span>
+<span class="normal"> 693</span>
+<span class="normal"> 694</span>
+<span class="normal"> 695</span>
+<span class="normal"> 696</span>
+<span class="normal"> 697</span>
+<span class="normal"> 698</span>
+<span class="normal"> 699</span>
+<span class="normal"> 700</span>
+<span class="normal"> 701</span>
+<span class="normal"> 702</span>
+<span class="normal"> 703</span>
+<span class="normal"> 704</span>
+<span class="normal"> 705</span>
+<span class="normal"> 706</span>
+<span class="normal"> 707</span>
+<span class="normal"> 708</span>
+<span class="normal"> 709</span>
+<span class="normal"> 710</span>
+<span class="normal"> 711</span>
+<span class="normal"> 712</span>
+<span class="normal"> 713</span>
+<span class="normal"> 714</span>
+<span class="normal"> 715</span>
+<span class="normal"> 716</span>
+<span class="normal"> 717</span>
+<span class="normal"> 718</span>
+<span class="normal"> 719</span>
+<span class="normal"> 720</span>
+<span class="normal"> 721</span>
+<span class="normal"> 722</span>
+<span class="normal"> 723</span>
+<span class="normal"> 724</span>
+<span class="normal"> 725</span>
+<span class="normal"> 726</span>
+<span class="normal"> 727</span>
+<span class="normal"> 728</span>
+<span class="normal"> 729</span>
+<span class="normal"> 730</span>
+<span class="normal"> 731</span>
+<span class="normal"> 732</span>
+<span class="normal"> 733</span>
+<span class="normal"> 734</span>
+<span class="normal"> 735</span>
+<span class="normal"> 736</span>
+<span class="normal"> 737</span>
+<span class="normal"> 738</span>
+<span class="normal"> 739</span>
+<span class="normal"> 740</span>
+<span class="normal"> 741</span>
+<span class="normal"> 742</span>
+<span class="normal"> 743</span>
+<span class="normal"> 744</span>
+<span class="normal"> 745</span>
+<span class="normal"> 746</span>
+<span class="normal"> 747</span>
+<span class="normal"> 748</span>
+<span class="normal"> 749</span>
+<span class="normal"> 750</span>
+<span class="normal"> 751</span>
+<span class="normal"> 752</span>
+<span class="normal"> 753</span>
+<span class="normal"> 754</span>
+<span class="normal"> 755</span>
+<span class="normal"> 756</span>
+<span class="normal"> 757</span>
+<span class="normal"> 758</span>
+<span class="normal"> 759</span>
+<span class="normal"> 760</span>
+<span class="normal"> 761</span>
+<span class="normal"> 762</span>
+<span class="normal"> 763</span>
+<span class="normal"> 764</span>
+<span class="normal"> 765</span>
+<span class="normal"> 766</span>
+<span class="normal"> 767</span>
+<span class="normal"> 768</span>
+<span class="normal"> 769</span>
+<span class="normal"> 770</span>
+<span class="normal"> 771</span>
+<span class="normal"> 772</span>
+<span class="normal"> 773</span>
+<span class="normal"> 774</span>
+<span class="normal"> 775</span>
+<span class="normal"> 776</span>
+<span class="normal"> 777</span>
+<span class="normal"> 778</span>
+<span class="normal"> 779</span>
+<span class="normal"> 780</span>
+<span class="normal"> 781</span>
+<span class="normal"> 782</span>
+<span class="normal"> 783</span>
+<span class="normal"> 784</span>
+<span class="normal"> 785</span>
+<span class="normal"> 786</span>
+<span class="normal"> 787</span>
+<span class="normal"> 788</span>
+<span class="normal"> 789</span>
+<span class="normal"> 790</span>
+<span class="normal"> 791</span>
+<span class="normal"> 792</span>
+<span class="normal"> 793</span>
+<span class="normal"> 794</span>
+<span class="normal"> 795</span>
+<span class="normal"> 796</span>
+<span class="normal"> 797</span>
+<span class="normal"> 798</span>
+<span class="normal"> 799</span>
+<span class="normal"> 800</span>
+<span class="normal"> 801</span>
+<span class="normal"> 802</span>
+<span class="normal"> 803</span>
+<span class="normal"> 804</span>
+<span class="normal"> 805</span>
+<span class="normal"> 806</span>
+<span class="normal"> 807</span>
+<span class="normal"> 808</span>
+<span class="normal"> 809</span>
+<span class="normal"> 810</span>
+<span class="normal"> 811</span>
+<span class="normal"> 812</span>
+<span class="normal"> 813</span>
+<span class="normal"> 814</span>
+<span class="normal"> 815</span>
+<span class="normal"> 816</span>
+<span class="normal"> 817</span>
+<span class="normal"> 818</span>
+<span class="normal"> 819</span>
+<span class="normal"> 820</span>
+<span class="normal"> 821</span>
+<span class="normal"> 822</span>
+<span class="normal"> 823</span>
+<span class="normal"> 824</span>
+<span class="normal"> 825</span>
+<span class="normal"> 826</span>
+<span class="normal"> 827</span>
+<span class="normal"> 828</span>
+<span class="normal"> 829</span>
+<span class="normal"> 830</span>
+<span class="normal"> 831</span>
+<span class="normal"> 832</span>
+<span class="normal"> 833</span>
+<span class="normal"> 834</span>
+<span class="normal"> 835</span>
+<span class="normal"> 836</span>
+<span class="normal"> 837</span>
+<span class="normal"> 838</span>
+<span class="normal"> 839</span>
+<span class="normal"> 840</span>
+<span class="normal"> 841</span>
+<span class="normal"> 842</span>
+<span class="normal"> 843</span>
+<span class="normal"> 844</span>
+<span class="normal"> 845</span>
+<span class="normal"> 846</span>
+<span class="normal"> 847</span>
+<span class="normal"> 848</span>
+<span class="normal"> 849</span>
+<span class="normal"> 850</span>
+<span class="normal"> 851</span>
+<span class="normal"> 852</span>
+<span class="normal"> 853</span>
+<span class="normal"> 854</span>
+<span class="normal"> 855</span>
+<span class="normal"> 856</span>
+<span class="normal"> 857</span>
+<span class="normal"> 858</span>
+<span class="normal"> 859</span>
+<span class="normal"> 860</span>
+<span class="normal"> 861</span>
+<span class="normal"> 862</span>
+<span class="normal"> 863</span>
+<span class="normal"> 864</span>
+<span class="normal"> 865</span>
+<span class="normal"> 866</span>
+<span class="normal"> 867</span>
+<span class="normal"> 868</span>
+<span class="normal"> 869</span>
+<span class="normal"> 870</span>
+<span class="normal"> 871</span>
+<span class="normal"> 872</span>
+<span class="normal"> 873</span>
+<span class="normal"> 874</span>
+<span class="normal"> 875</span>
+<span class="normal"> 876</span>
+<span class="normal"> 877</span>
+<span class="normal"> 878</span>
+<span class="normal"> 879</span>
+<span class="normal"> 880</span>
+<span class="normal"> 881</span>
+<span class="normal"> 882</span>
+<span class="normal"> 883</span>
+<span class="normal"> 884</span>
+<span class="normal"> 885</span>
+<span class="normal"> 886</span>
+<span class="normal"> 887</span>
+<span class="normal"> 888</span>
+<span class="normal"> 889</span>
+<span class="normal"> 890</span>
+<span class="normal"> 891</span>
+<span class="normal"> 892</span>
+<span class="normal"> 893</span>
+<span class="normal"> 894</span>
+<span class="normal"> 895</span>
+<span class="normal"> 896</span>
+<span class="normal"> 897</span>
+<span class="normal"> 898</span>
+<span class="normal"> 899</span>
+<span class="normal"> 900</span>
+<span class="normal"> 901</span>
+<span class="normal"> 902</span>
+<span class="normal"> 903</span>
+<span class="normal"> 904</span>
+<span class="normal"> 905</span>
+<span class="normal"> 906</span>
+<span class="normal"> 907</span>
+<span class="normal"> 908</span>
+<span class="normal"> 909</span>
+<span class="normal"> 910</span>
+<span class="normal"> 911</span>
+<span class="normal"> 912</span>
+<span class="normal"> 913</span>
+<span class="normal"> 914</span>
+<span class="normal"> 915</span>
+<span class="normal"> 916</span>
+<span class="normal"> 917</span>
+<span class="normal"> 918</span>
+<span class="normal"> 919</span>
+<span class="normal"> 920</span>
+<span class="normal"> 921</span>
+<span class="normal"> 922</span>
+<span class="normal"> 923</span>
+<span class="normal"> 924</span>
+<span class="normal"> 925</span>
+<span class="normal"> 926</span>
+<span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span>
+<span class="normal">1054</span>
+<span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span>
+<span class="normal">1065</span>
+<span class="normal">1066</span>
+<span class="normal">1067</span>
+<span class="normal">1068</span>
+<span class="normal">1069</span>
+<span class="normal">1070</span>
+<span class="normal">1071</span>
+<span class="normal">1072</span>
+<span class="normal">1073</span>
+<span class="normal">1074</span>
+<span class="normal">1075</span>
+<span class="normal">1076</span>
+<span class="normal">1077</span>
+<span class="normal">1078</span>
+<span class="normal">1079</span>
+<span class="normal">1080</span>
+<span class="normal">1081</span>
+<span class="normal">1082</span>
+<span class="normal">1083</span>
+<span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span>
+<span class="normal">1119</span>
+<span class="normal">1120</span>
+<span class="normal">1121</span>
+<span class="normal">1122</span>
+<span class="normal">1123</span>
+<span class="normal">1124</span>
+<span class="normal">1125</span>
+<span class="normal">1126</span>
+<span class="normal">1127</span>
+<span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span>
+<span class="normal">1149</span>
+<span class="normal">1150</span>
+<span class="normal">1151</span>
+<span class="normal">1152</span>
+<span class="normal">1153</span>
+<span class="normal">1154</span>
+<span class="normal">1155</span>
+<span class="normal">1156</span>
+<span class="normal">1157</span>
+<span class="normal">1158</span>
+<span class="normal">1159</span>
+<span class="normal">1160</span>
+<span class="normal">1161</span>
+<span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span>
+<span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span>
+<span class="normal">1204</span>
+<span class="normal">1205</span>
+<span class="normal">1206</span>
+<span class="normal">1207</span>
+<span class="normal">1208</span>
+<span class="normal">1209</span>
+<span class="normal">1210</span>
+<span class="normal">1211</span>
+<span class="normal">1212</span>
+<span class="normal">1213</span>
+<span class="normal">1214</span>
+<span class="normal">1215</span>
+<span class="normal">1216</span>
+<span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span>
+<span class="normal">1220</span>
+<span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span>
+<span class="normal">1230</span>
+<span class="normal">1231</span>
+<span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span>
+<span class="normal">1241</span>
+<span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span>
+<span class="normal">1281</span>
+<span class="normal">1282</span>
+<span class="normal">1283</span>
+<span class="normal">1284</span>
+<span class="normal">1285</span>
+<span class="normal">1286</span>
+<span class="normal">1287</span>
+<span class="normal">1288</span>
+<span class="normal">1289</span>
+<span class="normal">1290</span>
+<span class="normal">1291</span>
+<span class="normal">1292</span>
+<span class="normal">1293</span>
+<span class="normal">1294</span>
+<span class="normal">1295</span>
+<span class="normal">1296</span>
+<span class="normal">1297</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">AttentionModule</span><span class="p">:</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="p">:</span> <span class="n">Mesh</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span>
+                <span class="s2">&quot;vanilla&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;flash&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;splash&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;ring&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;cudnn&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;local_ring&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;sharded_vanilla&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;wise_ring&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;blockwise&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;pallas_flash&quot;</span>
+            <span class="p">],</span>
+            <span class="n">sm_scale</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">scan_attention_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">lax</span><span class="o">.</span><span class="n">Precision</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">use_sharding_constraint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">axis_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">backward_pass_impl</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;triton&quot;</span><span class="p">,</span> <span class="s2">&quot;xla&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;triton&quot;</span><span class="p">,</span>
+            <span class="n">base_module_class</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">_do_check</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="p">):</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_b</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">:</span> <span class="n">lax</span><span class="o">.</span><span class="n">Precision</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">force_float32_tpu</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">axis_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="o">...</span>
+
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;use_sharding_constraint&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">,</span> <span class="n">use_sharding_constraint</span><span class="p">,</span> <span class="n">base_module_class</span><span class="p">)</span>
+
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_major&quot;</span><span class="p">,</span> <span class="n">DEFAULT_K_BLOCK</span><span class="p">,</span> <span class="n">block_k_major</span><span class="p">,</span> <span class="n">base_module_class</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_b&quot;</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">block_b</span><span class="p">,</span> <span class="n">base_module_class</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_q&quot;</span><span class="p">,</span> <span class="n">DEFAULT_Q_BLOCK</span><span class="p">,</span> <span class="n">block_q</span><span class="p">,</span> <span class="n">base_module_class</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k&quot;</span><span class="p">,</span> <span class="n">DEFAULT_K_BLOCK</span><span class="p">,</span> <span class="n">block_k</span><span class="p">,</span> <span class="n">base_module_class</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_q_major_dkv&quot;</span><span class="p">,</span> <span class="n">DEFAULT_Q_BLOCK</span><span class="p">,</span> <span class="n">block_q_major_dkv</span><span class="p">,</span> <span class="n">base_module_class</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_major_dkv&quot;</span><span class="p">,</span> <span class="n">DEFAULT_K_BLOCK</span><span class="p">,</span> <span class="n">block_k_major_dkv</span><span class="p">,</span> <span class="n">base_module_class</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_major_dq&quot;</span><span class="p">,</span> <span class="n">DEFAULT_K_BLOCK</span><span class="p">,</span> <span class="n">block_k_major_dq</span><span class="p">,</span> <span class="n">base_module_class</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_dkv&quot;</span><span class="p">,</span> <span class="n">DEFAULT_K_BLOCK</span><span class="p">,</span> <span class="n">block_k_dkv</span><span class="p">,</span> <span class="n">base_module_class</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_q_dkv&quot;</span><span class="p">,</span> <span class="n">DEFAULT_Q_BLOCK</span><span class="p">,</span> <span class="n">block_q_dkv</span><span class="p">,</span> <span class="n">base_module_class</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_q_dq&quot;</span><span class="p">,</span> <span class="n">DEFAULT_Q_BLOCK</span><span class="p">,</span> <span class="n">block_q_dq</span><span class="p">,</span> <span class="n">base_module_class</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_dq&quot;</span><span class="p">,</span> <span class="n">DEFAULT_K_BLOCK</span><span class="p">,</span> <span class="n">block_k_dq</span><span class="p">,</span> <span class="n">base_module_class</span><span class="p">)</span>
+
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;shard_attention_computation&quot;</span><span class="p">,</span>
+            <span class="kc">True</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">base_module_class</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;scan_ring_attention&quot;</span><span class="p">,</span>
+            <span class="kc">True</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">base_module_class</span>
+        <span class="p">)</span>
+
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;query_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">DEFAULT_QPS</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">base_module_class</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;key_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">DEFAULT_KPS</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">base_module_class</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;value_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">DEFAULT_VPS</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">base_module_class</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;bias_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">DEFAULT_BPS</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">base_module_class</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;attention_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">DEFAULT_APS</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">base_module_class</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;generation_query_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">DEFAULT_G_QPS</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">base_module_class</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;generation_bias_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">DEFAULT_G_BPS</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">base_module_class</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;generation_attention_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">DEFAULT_G_APS</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">base_module_class</span>
+        <span class="p">)</span>
+
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;precision&quot;</span><span class="p">,</span> <span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">),</span> <span class="n">precision</span><span class="p">)</span>  <span class="c1"># DON&#39;T READ FROM CONFIG</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;force_float32_tpu&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">,</span> <span class="n">force_float32_tpu</span><span class="p">)</span>  <span class="c1"># DON&#39;T READ FROM CONFIG</span>
+        <span class="n">set_attrs_smartly_with_prp</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;axis_name&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="n">axis_name</span><span class="p">)</span>  <span class="c1"># DON&#39;T READ FROM CONFIG</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="n">mesh</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attn_mechanism</span> <span class="o">=</span> <span class="n">attn_mechanism</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">platform</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lib</span><span class="o">.</span><span class="n">xla_bridge</span><span class="o">.</span><span class="n">get_backend</span><span class="p">()</span><span class="o">.</span><span class="n">platform</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sm_scale</span> <span class="o">=</span> <span class="n">sm_scale</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dims</span> <span class="o">=</span> <span class="n">head_dims</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_attention_layers</span> <span class="o">=</span> <span class="n">scan_attention_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">dtype</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">backward_pass_impl</span> <span class="o">=</span> <span class="n">backward_pass_impl</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_do_check</span> <span class="o">=</span> <span class="n">_do_check</span>
+        <span class="k">if</span> <span class="n">attn_mechanism</span> <span class="o">==</span> <span class="s2">&quot;splash&quot;</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">platform</span> <span class="o">!=</span> <span class="s2">&quot;tpu&quot;</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">OSError</span><span class="p">(</span><span class="s2">&quot;splash attention is only supported on TPU.&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attn_mechanism</span> <span class="o">==</span> <span class="s2">&quot;flash&quot;</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">platform</span> <span class="o">!=</span> <span class="s2">&quot;tpu&quot;</span><span class="p">:</span>
+            <span class="n">error_msg</span> <span class="o">=</span> <span class="s2">&quot;flash attention is only supported on TPU&quot;</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">platform</span> <span class="o">==</span> <span class="s2">&quot;gpu&quot;</span><span class="p">:</span>
+                <span class="n">error_msg</span> <span class="o">+=</span> <span class="s2">&quot;, for GPUs flash attention you can use `cudnn`.&quot;</span>
+            <span class="k">raise</span> <span class="ne">OSError</span><span class="p">(</span><span class="n">error_msg</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attn_mechanism</span> <span class="o">==</span> <span class="s2">&quot;cudnn&quot;</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">platform</span> <span class="o">!=</span> <span class="s2">&quot;gpu&quot;</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">OSError</span><span class="p">(</span><span class="s2">&quot;flash attention is only supported on GPU.&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_block_size_splash_attn</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">q_seq</span><span class="p">,</span> <span class="n">k_seq</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">BlockSizesSplashAttn</span><span class="p">(</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span> <span class="n">q_seq</span><span class="p">),</span>
+            <span class="n">block_kv_compute</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span> <span class="n">k_seq</span><span class="p">),</span>
+            <span class="n">block_kv</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span> <span class="n">k_seq</span><span class="p">),</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span> <span class="n">q_seq</span><span class="p">),</span>
+            <span class="n">block_kv_dkv</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span> <span class="n">k_seq</span><span class="p">),</span>
+            <span class="n">block_kv_dkv_compute</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span> <span class="n">k_seq</span><span class="p">),</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span> <span class="n">q_seq</span><span class="p">),</span>
+            <span class="n">block_kv_dq</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span> <span class="n">k_seq</span><span class="p">),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_block_size_flash_attn</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">q_seq</span><span class="p">,</span> <span class="n">k_seq</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">BlockSizesFlashAttn</span><span class="p">(</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span> <span class="n">q_seq</span><span class="p">),</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span> <span class="n">k_seq</span><span class="p">),</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span> <span class="n">q_seq</span><span class="p">),</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span> <span class="n">k_seq</span><span class="p">),</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span> <span class="n">k_seq</span><span class="p">),</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span> <span class="n">q_seq</span><span class="p">),</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span> <span class="n">k_seq</span><span class="p">),</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span> <span class="n">k_seq</span><span class="p">),</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span> <span class="n">k_seq</span><span class="p">),</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span> <span class="n">q_seq</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_specs</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">qs</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span>
+        <span class="n">PartitionSpec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">,</span> <span class="nb">bool</span>
+    <span class="p">]:</span>
+        <span class="n">is_generating</span> <span class="o">=</span> <span class="n">qs</span> <span class="o">==</span> <span class="mi">1</span>
+        <span class="n">query_sequence_partition</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">generation_query_partition_spec</span> <span class="k">if</span> <span class="n">is_generating</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">query_partition_spec</span>
+        <span class="n">bias_partition_spec</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span> <span class="k">if</span> <span class="n">is_generating</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">bias_partition_spec</span>
+        <span class="n">attention_partition_spec</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span> <span class="k">if</span> <span class="n">is_generating</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_partition_spec</span>
+
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">query_sequence_partition</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">is_generating</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_check_states</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="k">assert</span> <span class="n">batch_size</span> <span class="o">==</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">==</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="s2">&quot;Batch Size for q,k,v wont match&quot;</span>
+        <span class="n">k_v_req_shape</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dims</span>
+        <span class="p">)</span>
+        <span class="n">q_shape</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dims</span>
+        <span class="p">)</span>
+
+        <span class="n">assertion_mkv_err</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&quot;&quot;</span>
+<span class="s2">        query_states, key_states, value_states and bias shapes must be like</span>
+<span class="s2">        query_states Shape : [batch_size, q_seq_len , </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">=}</span><span class="s2">, </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dims</span><span class="si">=}</span><span class="s2">]</span>
+<span class="s2">        key_states   Shape : [batch_size, kv_seq_len, </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">=}</span><span class="s2">, </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dims</span><span class="si">=}</span><span class="s2">]</span>
+<span class="s2">        value_states Shape : [batch_size, kv_seq_len, </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">=}</span><span class="s2">, </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dims</span><span class="si">=}</span><span class="s2">]</span>
+<span class="s2">        bias         Shape : [batch_size, </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">=}</span><span class="s2">, q_seq_len , kv_seq_len]</span>
+<span class="s2">            &quot;&quot;&quot;</span>
+
+        <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span> <span class="o">==</span> <span class="n">q_shape</span><span class="p">,</span> <span class="n">assertion_mkv_err</span> <span class="o">+</span> <span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">Miss Match </span><span class="si">{</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s2"> and &quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;required Shape </span><span class="si">{</span><span class="n">q_shape</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+        <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span> <span class="o">==</span> <span class="n">k_v_req_shape</span><span class="p">,</span> <span class="n">assertion_mkv_err</span> <span class="o">+</span> <span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">Miss Match </span><span class="si">{</span><span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s2"> and &quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;required Shape </span><span class="si">{</span><span class="n">k_v_req_shape</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+        <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span> <span class="o">==</span> <span class="n">k_v_req_shape</span><span class="p">,</span> <span class="n">assertion_mkv_err</span> <span class="o">+</span> <span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">Miss Match </span><span class="si">{</span><span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="si">}</span><span class="s2"> and &quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;required Shape </span><span class="si">{</span><span class="n">k_v_req_shape</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">bias</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">causal</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="p">):</span>
+        <span class="k">if</span> <span class="n">query_sequence_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">query_sequence_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="k">if</span> <span class="n">key_value_sequence_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">key_value_sequence_length</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">_do_check</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">_check_states</span><span class="p">(</span>
+                    <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+                    <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+                    <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+                    <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">,</span>
+                    <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_value_sequence_length</span>
+                <span class="p">)</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn_mechanism</span> <span class="o">==</span> <span class="s2">&quot;flash&quot;</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">segment_ids</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                        <span class="s2">&quot;Flash attention don&#39;t support `segment_ids` this argument will be ignored&quot;</span><span class="p">,</span>
+                        <span class="ne">UserWarning</span>
+                    <span class="p">)</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">!=</span> <span class="mf">0.0</span><span class="p">:</span>
+                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                        <span class="s2">&quot;Flash attention don&#39;t support `attention_dropout` this argument will be ignored&quot;</span><span class="p">,</span>
+                        <span class="ne">UserWarning</span>
+                    <span class="p">)</span>
+
+                <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">flash_attention</span><span class="p">(</span>
+                    <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+                    <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+                    <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+                    <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">,</span>
+                    <span class="n">causal</span><span class="o">=</span><span class="n">causal</span><span class="p">,</span>
+                    <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">,</span>
+                    <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_value_sequence_length</span>
+                <span class="p">)</span>
+
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn_mechanism</span> <span class="o">==</span> <span class="s2">&quot;vanilla&quot;</span><span class="p">:</span>
+
+                <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">vanilla_attention</span><span class="p">(</span>
+                    <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+                    <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+                    <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+                    <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">,</span>
+                    <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+                    <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+                    <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">,</span>
+                    <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_value_sequence_length</span>
+                <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn_mechanism</span> <span class="o">==</span> <span class="s2">&quot;sharded_vanilla&quot;</span><span class="p">:</span>
+                <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_vanilla_attention</span><span class="p">(</span>
+                    <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+                    <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+                    <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+                    <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">,</span>
+                    <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+                    <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+                    <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">,</span>
+                    <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_value_sequence_length</span>
+                <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn_mechanism</span> <span class="o">==</span> <span class="s2">&quot;ring&quot;</span><span class="p">:</span>
+                <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">ring_attention</span><span class="p">(</span>
+                    <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+                    <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+                    <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+                    <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">,</span>
+                    <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+                    <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+                    <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+                    <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                    <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">,</span>
+                    <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_value_sequence_length</span>
+                <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn_mechanism</span> <span class="o">==</span> <span class="s2">&quot;pallas_flash&quot;</span><span class="p">:</span>
+                <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">pallas_flash_attention</span><span class="p">(</span>
+                    <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+                    <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+                    <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+                    <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">,</span>
+                    <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn_mechanism</span> <span class="o">==</span> <span class="s2">&quot;splash&quot;</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">segment_ids</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                        <span class="s2">&quot;Splash attention don&#39;t support `segment_ids` this argument will be ignored&quot;</span><span class="p">,</span>
+                        <span class="ne">UserWarning</span>
+                    <span class="p">)</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">!=</span> <span class="mf">0.0</span><span class="p">:</span>
+                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                        <span class="s2">&quot;Splash attention don&#39;t support `attention_dropout` this argument will be ignored&quot;</span><span class="p">,</span>
+                        <span class="ne">UserWarning</span>
+                    <span class="p">)</span>
+                <span class="k">if</span> <span class="n">bias</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                        <span class="s2">&quot;Splash attention don&#39;t support `bias` this argument will be ignored&quot;</span><span class="p">,</span>
+                        <span class="ne">UserWarning</span>
+                    <span class="p">)</span>
+
+                <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">splash_attention</span><span class="p">(</span>
+                    <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+                    <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+                    <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+                    <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">,</span>
+                    <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_value_sequence_length</span><span class="p">,</span>
+                    <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span>
+                <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn_mechanism</span> <span class="o">==</span> <span class="s2">&quot;blockwise&quot;</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">segment_ids</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                        <span class="s2">&quot;BlockWise Attention don&#39;t support `segment_ids` this argument will be ignored&quot;</span><span class="p">,</span>
+                        <span class="ne">UserWarning</span>
+                    <span class="p">)</span>
+                <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">blockwise_attention</span><span class="p">(</span>
+                    <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+                    <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+                    <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+                    <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">,</span>
+                    <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+                    <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+                    <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">,</span>
+                    <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_value_sequence_length</span>
+                <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn_mechanism</span> <span class="o">==</span> <span class="s2">&quot;cudnn&quot;</span><span class="p">:</span>
+                <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">cuddn_flash_attention</span><span class="p">(</span>
+                    <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+                    <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+                    <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+                    <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">,</span>
+                    <span class="n">causal</span><span class="o">=</span><span class="n">causal</span><span class="p">,</span>
+                    <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+                    <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">,</span>
+                    <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_value_sequence_length</span>
+                <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn_mechanism</span> <span class="o">==</span> <span class="s2">&quot;local_ring&quot;</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">segment_ids</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                        <span class="s2">&quot;LocalRing Attention don&#39;t support `segment_ids` this argument will be ignored&quot;</span><span class="p">,</span>
+                        <span class="ne">UserWarning</span>
+                    <span class="p">)</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">!=</span> <span class="mf">0.0</span><span class="p">:</span>
+                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                        <span class="s2">&quot;LocalRing Attention don&#39;t support `attention_dropout` this argument will be ignored&quot;</span><span class="p">,</span>
+                        <span class="ne">UserWarning</span>
+                    <span class="p">)</span>
+
+                <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">local_ring_attention</span><span class="p">(</span>
+                    <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+                    <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+                    <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+                    <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">,</span>
+                    <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">,</span>
+                    <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_value_sequence_length</span>
+                <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn_mechanism</span> <span class="o">==</span> <span class="s2">&quot;wise_ring&quot;</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">segment_ids</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                        <span class="s2">&quot;WiseRing Attention don&#39;t support `segment_ids` this argument will be ignored&quot;</span><span class="p">,</span>
+                        <span class="ne">UserWarning</span>
+                    <span class="p">)</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">!=</span> <span class="mf">0.0</span><span class="p">:</span>
+                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                        <span class="s2">&quot;WiseRing Attention don&#39;t support `attention_dropout` this argument will be ignored&quot;</span><span class="p">,</span>
+                        <span class="ne">UserWarning</span>
+                    <span class="p">)</span>
+
+                <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">wise_ring_attention</span><span class="p">(</span>
+                    <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+                    <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">,</span>
+                    <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+                    <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+                    <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+                    <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">,</span>
+                    <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_value_sequence_length</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Unknown Attention mechanism of </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">local_ring_attention</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="o">*</span><span class="p">,</span>  <span class="c1"># it&#39;s Kwarg Only</span>
+            <span class="n">query_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">bias</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="n">qps</span><span class="p">,</span> <span class="n">kps</span><span class="p">,</span> <span class="n">vps</span><span class="p">,</span> <span class="n">bps</span><span class="p">,</span> <span class="n">aps</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_partition_specs</span><span class="p">(</span><span class="n">query_sequence_length</span><span class="p">)</span>
+        <span class="n">attention_outputs</span> <span class="o">=</span> <span class="n">shard_map</span><span class="p">(</span>
+            <span class="n">partial</span><span class="p">(</span>
+                <span class="n">ring_attention_standard</span><span class="p">,</span>
+                <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">axis_name</span><span class="p">,</span>
+                <span class="n">scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="bp">self</span><span class="o">.</span><span class="n">sm_scale</span><span class="p">,</span>
+                <span class="n">float32_logits</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="p">),</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">,</span>
+            <span class="n">in_specs</span><span class="o">=</span><span class="p">(</span><span class="n">qps</span><span class="p">,</span> <span class="n">kps</span><span class="p">,</span> <span class="n">vps</span><span class="p">,</span> <span class="n">bps</span><span class="p">,),</span>
+            <span class="n">out_specs</span><span class="o">=</span><span class="n">aps</span><span class="p">,</span>
+            <span class="n">check_rep</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)(</span>
+            <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">bias</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">AttentionOutput</span><span class="p">(</span>
+            <span class="n">attention_weights</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_outputs</span><span class="o">=</span><span class="n">attention_outputs</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">ring_attention</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="o">*</span><span class="p">,</span>  <span class="c1"># it&#39;s Kwarg Only</span>
+            <span class="n">query_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">bias</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="k">if</span> <span class="n">segment_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">segment_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">((</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">query_sequence_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">scan_ring_attention</span> <span class="ow">and</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">&gt;</span> <span class="nb">max</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span>
+        <span class="p">):</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">platform</span> <span class="o">==</span> <span class="s2">&quot;tpu&quot;</span><span class="p">:</span>
+                <span class="n">ring_attention_fn</span> <span class="o">=</span> <span class="n">ring_flash_attention_tpu</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">ring_attention_fn</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">pallas_operations</span><span class="o">.</span><span class="n">ring_attention</span>
+            <span class="n">ring_attention_sharded</span> <span class="o">=</span> <span class="n">shard_map</span><span class="p">(</span>
+                <span class="n">partial</span><span class="p">(</span>
+                    <span class="n">ring_attention_fn</span><span class="p">,</span>
+                    <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">axis_name</span><span class="p">,</span>
+                    <span class="n">float32_logits</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                    <span class="n">blockwise_kwargs</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+                        <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+                        <span class="n">attn_pdrop</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+                        <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                        <span class="n">query_chunk_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+                        <span class="n">key_chunk_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+                        <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                        <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span><span class="s2">&quot;nothing_saveable&quot;</span><span class="p">),</span>
+                        <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+                        <span class="n">prevent_cse</span><span class="o">=</span><span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">scan_attention_layers</span><span class="p">,</span>
+                    <span class="p">)</span>
+                <span class="p">),</span>
+                <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">,</span>
+                <span class="n">in_specs</span><span class="o">=</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+                    <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">),</span>
+                <span class="p">),</span>
+                <span class="n">out_specs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+                <span class="n">check_rep</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">ring_attention_sharded</span><span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">bias</span><span class="p">,</span> <span class="n">segment_ids</span><span class="p">)</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">platform</span> <span class="o">!=</span> <span class="s2">&quot;tpu&quot;</span><span class="p">:</span>
+                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                    <span class="s2">&quot;Using Ring attention on CPUs or GPUs are not recommended due to miss computations at the moment. &quot;</span>
+                    <span class="s2">&quot;please refer to other types of attention mechanism.your are bing fell back on &quot;</span>
+                    <span class="s2">&quot;`ring_attention_sharded`&quot;</span>
+                    <span class="sa">f</span><span class="s2">&quot; Usage conditions was</span><span class="se">\n</span><span class="s2">scan_ring_attention = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="si">}</span><span class="s2"> [MUST BE TRUE]&quot;</span>
+                    <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">query_states.shape[1](</span><span class="si">{</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s2">) &gt; max(</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="si">}</span><span class="s2">,</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="si">}</span><span class="s2">)&quot;</span>
+                    <span class="sa">f</span><span class="s2">&quot;(</span><span class="si">{</span><span class="nb">max</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span><span class="w"> </span><span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">)</span><span class="si">}</span><span class="s2">)&quot;</span>
+                <span class="p">)</span>
+            <span class="n">query_sequence_partition</span> <span class="o">=</span> <span class="kc">None</span> <span class="k">if</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="mi">1</span> <span class="k">else</span> <span class="s2">&quot;sp&quot;</span>
+            <span class="n">ring_attention_sharded</span> <span class="o">=</span> <span class="n">shard_map</span><span class="p">(</span>
+                <span class="n">partial</span><span class="p">(</span>
+                    <span class="n">ring_attention_standard</span><span class="p">,</span>
+                    <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">axis_name</span><span class="p">,</span>
+                    <span class="n">scale</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">sm_scale</span>
+                <span class="p">),</span>
+                <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">,</span>
+                <span class="n">in_specs</span><span class="o">=</span><span class="p">(</span>
+                    <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="n">query_sequence_partition</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+                    <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+                    <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+                    <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="n">query_sequence_partition</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+                <span class="p">),</span>
+                <span class="n">out_specs</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="n">query_sequence_partition</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+                <span class="n">check_rep</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">ring_attention_sharded</span><span class="p">(</span>
+                <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span>
+            <span class="p">)</span>
+        <span class="k">return</span> <span class="n">AttentionOutput</span><span class="p">(</span>
+            <span class="n">attention_weights</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_outputs</span><span class="o">=</span><span class="n">attn_output</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">wise_ring_attention</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="o">*</span><span class="p">,</span>  <span class="c1"># it&#39;s Kwarg Only</span>
+            <span class="n">query_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">bias</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+        <span class="k">if</span> <span class="n">segment_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">segment_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">((</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">query_sequence_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">scan_ring_attention</span> <span class="ow">and</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">&gt;</span> <span class="nb">max</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">):</span>
+            <span class="n">ring_attention_sharded</span> <span class="o">=</span> <span class="n">shard_map</span><span class="p">(</span>
+                <span class="n">partial</span><span class="p">(</span>
+                    <span class="n">wise_ring_attention</span><span class="p">,</span>
+                    <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">axis_name</span><span class="p">,</span>
+                    <span class="n">float32_logits</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                    <span class="n">block_wise_kwargs</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+                        <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+                        <span class="n">attn_pdrop</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+                        <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                        <span class="n">query_chunk_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+                        <span class="n">key_chunk_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+                        <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                        <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span><span class="s2">&quot;nothing_saveable&quot;</span><span class="p">),</span>
+                        <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+                        <span class="n">prevent_cse</span><span class="o">=</span><span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">scan_attention_layers</span><span class="p">,</span>
+                    <span class="p">)</span>
+                <span class="p">),</span>
+                <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">,</span>
+                <span class="n">in_specs</span><span class="o">=</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+                    <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span>
+                <span class="p">),</span>
+                <span class="n">out_specs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+                <span class="n">check_rep</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">ring_attention_sharded</span><span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">bias</span><span class="p">,</span> <span class="n">segment_ids</span><span class="p">)</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">AttentionOutput</span><span class="p">(</span>
+                <span class="n">attention_weights</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="n">attention_outputs</span><span class="o">=</span><span class="n">attn_output</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">seq_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">chunk</span> <span class="o">=</span> <span class="n">seq_length</span> <span class="o">&gt;</span> <span class="nb">max</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">)</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;generation process detected, switching to local ring attention&quot;</span>
+                <span class="sa">f</span><span class="s2">&quot; [CHUNK : </span><span class="si">{</span><span class="n">chunk</span><span class="si">}</span><span class="s2">, SCAN : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="si">}</span><span class="s2">, </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="si">=}</span><span class="s2">, </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="si">=}</span><span class="s2">, </span><span class="si">{</span><span class="n">seq_length</span><span class="si">=}</span><span class="s2">]&quot;</span>
+            <span class="p">)</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">local_ring_attention</span><span class="p">(</span>
+                <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+                <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+                <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">,</span>
+                <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">,</span>
+                <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_value_sequence_length</span>
+            <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">vanilla_attention</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="o">*</span><span class="p">,</span>  <span class="c1"># it&#39;s Kwarg Only</span>
+            <span class="n">query_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">bias</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">AttentionOutput</span><span class="p">:</span>
+        <span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">promote_types</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="n">o</span><span class="p">,</span> <span class="n">w</span> <span class="o">=</span> <span class="n">vanilla_attention</span><span class="p">(</span>
+                <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+                <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+                <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+                <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+                <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="k">return</span> <span class="n">AttentionOutput</span><span class="p">(</span>
+                <span class="n">attention_weights</span><span class="o">=</span><span class="n">w</span><span class="p">,</span>
+                <span class="n">attention_outputs</span><span class="o">=</span><span class="n">o</span>
+            <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">blockwise_attention</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="o">*</span><span class="p">,</span>  <span class="c1"># it&#39;s Kwarg Only</span>
+            <span class="n">query_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">bias</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">AttentionOutput</span><span class="p">:</span>
+        <span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">promote_types</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+        <span class="n">qps</span><span class="p">,</span> <span class="n">kps</span><span class="p">,</span> <span class="n">vps</span><span class="p">,</span> <span class="n">bps</span><span class="p">,</span> <span class="n">aps</span><span class="p">,</span> <span class="n">is_gen</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_partition_specs</span><span class="p">(</span><span class="n">qs</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">)</span>
+        <span class="n">block_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_block_size_flash_attn</span><span class="p">(</span><span class="n">query_sequence_length</span><span class="p">,</span> <span class="n">key_value_sequence_length</span><span class="p">)</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="n">query_states</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="n">qps</span><span class="p">)</span>
+            <span class="n">key_states</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">key_states</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">)</span>
+            <span class="n">value_states</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">value_states</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">)</span>
+            <span class="n">bias</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">bias</span><span class="p">,</span> <span class="n">bps</span><span class="p">)</span>
+            <span class="n">o</span> <span class="o">=</span> <span class="n">blockwise_attn</span><span class="p">(</span>
+                <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+                <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+                <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+                <span class="n">attn_pdrop</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+                <span class="n">key_chunk_size</span><span class="o">=</span><span class="n">block_size</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+                <span class="n">query_chunk_size</span><span class="o">=</span><span class="n">block_size</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+                <span class="n">prevent_cse</span><span class="o">=</span><span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">scan_attention_layers</span><span class="p">,</span>
+                <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">float32_logits</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+
+            <span class="n">o</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">o</span><span class="p">,</span> <span class="n">aps</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">AttentionOutput</span><span class="p">(</span>
+                <span class="n">attention_weights</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="n">attention_outputs</span><span class="o">=</span><span class="n">o</span>
+            <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">sharded_vanilla_attention</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="o">*</span><span class="p">,</span>  <span class="c1"># it&#39;s Kwarg Only</span>
+            <span class="n">query_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">bias</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">AttentionOutput</span><span class="p">:</span>
+        <span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">promote_types</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+
+        <span class="n">qps</span><span class="p">,</span> <span class="n">kps</span><span class="p">,</span> <span class="n">vps</span><span class="p">,</span> <span class="n">bps</span><span class="p">,</span> <span class="n">aps</span><span class="p">,</span> <span class="n">is_gen</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_partition_specs</span><span class="p">(</span><span class="n">qs</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">)</span>
+
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="n">query_states</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="n">qps</span><span class="p">)</span>
+            <span class="n">key_states</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">key_states</span><span class="p">,</span> <span class="n">kps</span><span class="p">)</span>
+            <span class="n">value_states</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">value_states</span><span class="p">,</span> <span class="n">vps</span><span class="p">)</span>
+
+            <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="n">promote_dtype</span><span class="p">(</span>
+                <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span>
+            <span class="p">)</span>
+
+            <span class="n">depth</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span> <span class="o">/</span> <span class="n">jnp</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="n">depth</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">dtype</span><span class="p">)</span>
+            <span class="n">attention_weight</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">einsum</span><span class="p">(</span><span class="s2">&quot;...qhd,...khd-&gt;...hqk&quot;</span><span class="p">,</span> <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">bias</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">bias</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">bias</span><span class="p">,</span> <span class="n">bps</span><span class="p">)</span>
+                <span class="n">attention_weight</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">attention_weight</span><span class="p">,</span> <span class="n">bias</span><span class="p">)</span>
+
+            <span class="n">attention_weight</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span>
+                <span class="n">attention_weight</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">dtype</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+                <span class="n">keep_prob</span> <span class="o">=</span> <span class="mf">1.0</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span>
+                <span class="n">dropout_shape</span> <span class="o">=</span> <span class="nb">tuple</span><span class="p">([</span><span class="mi">1</span><span class="p">]</span> <span class="o">*</span> <span class="p">(</span><span class="n">key_states</span><span class="o">.</span><span class="n">ndim</span> <span class="o">-</span> <span class="mi">2</span><span class="p">))</span> <span class="o">+</span> <span class="n">attention_weight</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]</span>
+                <span class="n">keep</span> <span class="o">=</span> <span class="n">random</span><span class="o">.</span><span class="n">bernoulli</span><span class="p">(</span><span class="n">dropout_rng</span><span class="p">,</span> <span class="n">keep_prob</span><span class="p">,</span> <span class="n">dropout_shape</span><span class="p">)</span>  <span class="c1"># type: ignore</span>
+
+                <span class="n">multiplier</span> <span class="o">=</span> <span class="n">keep</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">dtype</span><span class="p">)</span> <span class="o">/</span> <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">keep_prob</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">)</span>
+                <span class="n">attention_weight</span> <span class="o">=</span> <span class="n">attention_weight</span> <span class="o">*</span> <span class="n">multiplier</span>
+
+            <span class="n">attention</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">einsum</span><span class="p">(</span>
+                <span class="s2">&quot;...hqk,...khd-&gt;...qhd&quot;</span><span class="p">,</span>
+                <span class="n">attention_weight</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+            <span class="p">)</span>
+            <span class="n">attention</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">attention</span><span class="p">,</span> <span class="n">aps</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">AttentionOutput</span><span class="p">(</span>
+                <span class="n">attention_weights</span><span class="o">=</span><span class="n">attention_weight</span><span class="p">,</span>
+                <span class="n">attention_outputs</span><span class="o">=</span><span class="n">attention</span>
+            <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">flash_attention</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="o">*</span><span class="p">,</span>  <span class="c1"># it&#39;s Kwarg Only</span>
+            <span class="n">query_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">bias</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">causal</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">AttentionOutput</span><span class="p">:</span>
+
+        <span class="n">qps</span><span class="p">,</span> <span class="n">kps</span><span class="p">,</span> <span class="n">vps</span><span class="p">,</span> <span class="n">bps</span><span class="p">,</span> <span class="n">aps</span><span class="p">,</span> <span class="n">is_gen</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_partition_specs</span><span class="p">(</span><span class="n">qs</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">)</span>
+        <span class="n">block_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_block_size_flash_attn</span><span class="p">(</span><span class="n">query_sequence_length</span><span class="p">,</span> <span class="n">key_value_sequence_length</span><span class="p">)</span>
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">query_sequence_length</span><span class="p">,</span> <span class="n">head_dims</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span>
+        <span class="k">if</span> <span class="n">bias</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">bias</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="n">num_attention_heads</span><span class="p">:</span>
+                <span class="n">bias</span> <span class="o">=</span> <span class="n">bias</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="p">)</span>
+
+        <span class="n">flash_func</span><span class="p">,</span> <span class="n">float32_logits</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">get_flash_attention</span><span class="p">()</span>
+        <span class="k">if</span> <span class="n">float32_logits</span><span class="p">:</span>
+            <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="nb">map</span><span class="p">(</span>
+                <span class="k">lambda</span> <span class="n">s</span><span class="p">:</span> <span class="n">s</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">),</span>
+                <span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">)</span>
+            <span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">sm_scale</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">sm_scale</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="n">query_states</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">])</span>
+        <span class="n">attention_o</span> <span class="o">=</span> <span class="n">shard_map</span><span class="p">(</span>
+            <span class="n">partial</span><span class="p">(</span>
+                <span class="n">flash_func</span><span class="p">,</span>
+                <span class="n">causal</span><span class="o">=</span><span class="n">causal</span><span class="p">,</span>
+                <span class="n">sm_scale</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">sm_scale</span><span class="p">,</span>
+                <span class="n">block_sizes</span><span class="o">=</span><span class="n">block_size</span><span class="p">,</span>
+                <span class="n">debug</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">),</span>
+            <span class="n">in_specs</span><span class="o">=</span><span class="p">(</span><span class="n">qps</span><span class="p">,</span> <span class="n">kps</span><span class="p">,</span> <span class="n">vps</span><span class="p">,</span> <span class="n">bps</span><span class="p">),</span>
+            <span class="n">out_specs</span><span class="o">=</span><span class="n">aps</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">,</span>
+            <span class="n">check_rep</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)(</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">attention_o</span> <span class="o">=</span> <span class="n">attention_o</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">AttentionOutput</span><span class="p">(</span>
+            <span class="n">attention_outputs</span><span class="o">=</span><span class="n">attention_o</span><span class="p">,</span>
+            <span class="n">attention_weights</span><span class="o">=</span><span class="kc">None</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">splash_attention</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Array</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">AttentionOutput</span><span class="p">:</span>
+
+        <span class="n">qps</span><span class="p">,</span> <span class="n">kps</span><span class="p">,</span> <span class="n">vps</span><span class="p">,</span> <span class="n">bps</span><span class="p">,</span> <span class="n">aps</span><span class="p">,</span> <span class="n">is_gen</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_partition_specs</span><span class="p">(</span><span class="n">qs</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">)</span>
+
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="nb">map</span><span class="p">(</span>
+            <span class="k">lambda</span> <span class="n">s</span><span class="p">:</span> <span class="n">s</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">),</span>
+            <span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">4</span><span class="p">:</span>
+                <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">SegmentIds</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;`attention_mask` is not passed to SplashAttention. (except miss computation problem)&quot;</span><span class="p">)</span>
+
+        <span class="nd">@partial</span><span class="p">(</span>
+            <span class="n">shard_map</span><span class="p">,</span>
+            <span class="n">in_specs</span><span class="o">=</span><span class="p">(</span><span class="n">qps</span><span class="p">,</span> <span class="n">kps</span><span class="p">,</span> <span class="n">vps</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="n">qps</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">qps</span><span class="p">[</span><span class="mi">2</span><span class="p">])),</span>  <span class="c1"># make it easier</span>
+            <span class="n">out_specs</span><span class="o">=</span><span class="n">qps</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">,</span>
+            <span class="n">check_rep</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">def</span> <span class="nf">splash_attention_call</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">am</span><span class="p">):</span>
+            <span class="n">block_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_block_size_splash_attn</span><span class="p">(</span><span class="n">query_sequence_length</span><span class="p">,</span> <span class="n">key_value_sequence_length</span><span class="p">)</span>
+            <span class="n">masks</span> <span class="o">=</span> <span class="p">[</span><span class="n">CausalMask</span><span class="p">(</span><span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">q</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">2</span><span class="p">],</span> <span class="n">k</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">2</span><span class="p">]))</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">q</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">])]</span>
+            <span class="n">multi_head_mask</span> <span class="o">=</span> <span class="n">MultiHeadMask</span><span class="p">(</span><span class="n">masks</span><span class="o">=</span><span class="n">masks</span><span class="p">)</span>
+            <span class="n">splash_kernel</span> <span class="o">=</span> <span class="n">make_splash_mha</span><span class="p">(</span>
+                <span class="n">mask</span><span class="o">=</span><span class="n">multi_head_mask</span><span class="p">,</span>
+                <span class="n">head_shards</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                <span class="n">q_seq_shards</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                <span class="n">block_sizes</span><span class="o">=</span><span class="n">block_size</span>
+            <span class="p">)</span>
+
+            <span class="k">return</span> <span class="n">jax</span><span class="o">.</span><span class="n">vmap</span><span class="p">(</span><span class="n">splash_kernel</span><span class="p">)(</span><span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="n">am</span><span class="p">)</span>
+
+        <span class="n">attention_o</span> <span class="o">=</span> <span class="n">splash_attention_call</span><span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">)</span>
+
+        <span class="n">attention_o</span> <span class="o">=</span> <span class="n">attention_o</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">AttentionOutput</span><span class="p">(</span>
+            <span class="n">attention_outputs</span><span class="o">=</span><span class="n">attention_o</span><span class="p">,</span>
+            <span class="n">attention_weights</span><span class="o">=</span><span class="kc">None</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">pallas_flash_attention</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="o">*</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">bias</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">AttentionOutput</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">query_sequence_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">query_sequence_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">qps</span><span class="p">,</span> <span class="n">kps</span><span class="p">,</span> <span class="n">vps</span><span class="p">,</span> <span class="n">bps</span><span class="p">,</span> <span class="n">aps</span><span class="p">,</span> <span class="n">is_gen</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_partition_specs</span><span class="p">(</span><span class="n">qs</span><span class="o">=</span><span class="n">query_sequence_length</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="nb">map</span><span class="p">(</span>
+            <span class="k">lambda</span> <span class="n">s</span><span class="p">:</span> <span class="n">s</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">),</span>
+            <span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="c1"># query_states = with_sharding_constraint(query_states, qps)</span>
+        <span class="c1"># key_states = with_sharding_constraint(key_states, kps)</span>
+        <span class="c1"># value_states = with_sharding_constraint(value_states, vps)</span>
+        <span class="c1"># bias = with_sharding_constraint(bias, bps)</span>
+        <span class="n">wrapped_fn</span> <span class="o">=</span> <span class="n">partial</span><span class="p">(</span>
+            <span class="n">flash_attention</span><span class="p">,</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">sm_scale</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">interpret</span><span class="o">=</span><span class="kc">True</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">platform</span> <span class="o">==</span> <span class="s2">&quot;cpu&quot;</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># auto-decide</span>
+            <span class="n">backward_pass_impl</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">backward_pass_impl</span><span class="p">,</span>
+            <span class="n">debug</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+        <span class="n">attention_outputs</span> <span class="o">=</span> <span class="n">shard_map</span><span class="p">(</span>
+            <span class="n">f</span><span class="o">=</span><span class="n">wrapped_fn</span><span class="p">,</span>
+            <span class="n">in_specs</span><span class="o">=</span><span class="p">(</span><span class="n">qps</span><span class="p">,</span> <span class="n">kps</span><span class="p">,</span> <span class="n">vps</span><span class="p">,</span> <span class="n">bps</span><span class="p">),</span>
+            <span class="n">out_specs</span><span class="o">=</span><span class="n">aps</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">,</span>
+            <span class="n">check_rep</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)(</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">attention_outputs</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">attention_outputs</span><span class="p">,</span> <span class="n">aps</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">AttentionOutput</span><span class="p">(</span>
+            <span class="n">attention_weights</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_outputs</span><span class="o">=</span><span class="n">attention_outputs</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">cuddn_flash_attention</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="o">*</span><span class="p">,</span>  <span class="c1"># it&#39;s Kwarg Only</span>
+            <span class="n">query_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">bias</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">causal</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">AttentionOutput</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;CUDNN Flash Attention with Transformer Engine.&quot;&quot;&quot;</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="kn">import</span> <span class="nn">transformer_engine.jax.fused_attn</span> <span class="k">as</span> <span class="nn">fused_attn</span>
+            <span class="kn">from</span> <span class="nn">transformer_engine.jax.fused_attn</span> <span class="kn">import</span> <span class="n">AttnBiasType</span><span class="p">,</span> <span class="n">AttnMaskType</span><span class="p">,</span> <span class="n">QKVLayout</span>
+            <span class="kn">from</span> <span class="nn">transformer_engine.jax.fused_attn</span> <span class="kn">import</span> <span class="n">is_fused_attn_kernel_available</span>
+        <span class="k">except</span> <span class="p">(</span><span class="ne">ModuleNotFoundError</span><span class="p">,</span> <span class="ne">ImportError</span><span class="p">)</span> <span class="k">as</span> <span class="n">err</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">RuntimeError</span><span class="p">(</span>
+                <span class="s2">&quot;Please install transformer_engine first. you can install that by running &quot;</span>
+                <span class="sa">f</span><span class="s2">&quot;`pip install git+https://github.com/NVIDIA/TransformerEngine`&quot;</span>
+                <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">here&#39;s extra information on error</span><span class="se">\n</span><span class="si">{</span><span class="n">err</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="p">)</span>
+        <span class="n">batch</span><span class="p">,</span> <span class="n">query_sequence_length</span><span class="p">,</span> <span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">head_dim</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">qkv_layout</span> <span class="o">=</span> <span class="n">QKVLayout</span><span class="o">.</span><span class="n">BS3HD</span>
+        <span class="n">attn_mask_type</span> <span class="o">=</span> <span class="n">AttnMaskType</span><span class="o">.</span><span class="n">CAUSAL_MASK</span>
+        <span class="n">attn_bias_type</span> <span class="o">=</span> <span class="n">AttnBiasType</span><span class="o">.</span><span class="n">NO_BIAS</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">sm_scale</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">sm_scale</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">has_fused_attn_kernel</span> <span class="o">=</span> <span class="n">is_fused_attn_kernel_available</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">qkv_layout</span><span class="p">,</span>
+            <span class="n">attn_bias_type</span><span class="p">,</span>
+            <span class="n">attn_mask_type</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">2</span><span class="p">],</span>
+            <span class="n">query_sequence_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="p">,</span>
+            <span class="n">head_dim</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">has_fused_attn_kernel</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;Flash attention kernel is not supported for current requested arrays&quot;</span>
+                <span class="s2">&quot; for details check this repo https://github.com/NVIDIA/TransformerEngine/&quot;</span>
+            <span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">AttentionOutput</span><span class="p">(</span>
+            <span class="n">attention_weights</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_outputs</span><span class="o">=</span><span class="n">fused_attn</span><span class="o">.</span><span class="n">self_fused_attn</span><span class="p">(</span>
+                <span class="n">qkv</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                    <span class="p">(</span>
+                        <span class="n">jnp</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="p">(</span><span class="o">*</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">],</span> <span class="mi">1</span><span class="p">,</span> <span class="o">*</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:])),</span>
+                        <span class="n">jnp</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">key_states</span><span class="p">,</span> <span class="p">(</span><span class="o">*</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">],</span> <span class="mi">1</span><span class="p">,</span> <span class="o">*</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:])),</span>
+                        <span class="n">jnp</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">value_states</span><span class="p">,</span> <span class="p">(</span><span class="o">*</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">],</span> <span class="mi">1</span><span class="p">,</span> <span class="o">*</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]))</span>
+                    <span class="p">),</span>
+                    <span class="n">axis</span><span class="o">=</span><span class="mi">2</span>
+                <span class="p">),</span>
+                <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">,</span>
+                <span class="n">mask</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">((</span><span class="n">batch</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_sequence_length</span><span class="p">,</span> <span class="n">key_value_sequence_length</span><span class="p">))</span> <span class="k">if</span> <span class="n">causal</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                <span class="n">seed</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="n">attn_bias_type</span><span class="o">=</span><span class="n">attn_bias_type</span><span class="p">,</span>
+                <span class="n">attn_mask_type</span><span class="o">=</span><span class="n">attn_mask_type</span><span class="p">,</span>
+                <span class="n">scaling_factor</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">sm_scale</span><span class="p">,</span>
+                <span class="n">dropout_probability</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+                <span class="n">is_training</span><span class="o">=</span><span class="n">deterministic</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">test_attentions</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="mi">128</span> <span class="o">*</span> <span class="mi">8</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">chunk_size</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span>
+            <span class="n">axis_dims</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;creates a test for attention module to help you find the best attention mechanism you can use.&quot;&quot;&quot;</span>
+        <span class="kn">import</span> <span class="nn">flax</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="kn">import</span> <span class="nn">pandas</span>
+        <span class="k">except</span> <span class="p">(</span><span class="ne">ModuleNotFoundError</span><span class="p">,</span> <span class="ne">ImportError</span><span class="p">):</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;couldn&#39;t import pandas ... please install pandas&quot;</span><span class="p">)</span>
+            <span class="n">pandas</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="kn">from</span> <span class="nn">..modules.mistral</span> <span class="kn">import</span> <span class="n">MistralConfig</span>
+        <span class="kn">from</span> <span class="nn">fjformer</span> <span class="kn">import</span> <span class="n">GenerateRNG</span>
+        <span class="n">head_dim</span> <span class="o">=</span> <span class="mi">128</span>
+        <span class="n">rng</span> <span class="o">=</span> <span class="n">GenerateRNG</span><span class="p">()</span>
+
+        <span class="n">config</span> <span class="o">=</span> <span class="n">MistralConfig</span><span class="p">(</span>
+            <span class="n">axis_dims</span><span class="o">=</span><span class="n">axis_dims</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="n">chunk_size</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="n">chunk_size</span>
+        <span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">value_and_grad_wrapper</span><span class="p">(</span><span class="n">fn</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+            <span class="nd">@partial</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">value_and_grad</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+            <span class="k">def</span> <span class="nf">inner</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+                <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">fn</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">))</span>
+
+            <span class="k">return</span> <span class="n">inner</span>
+
+        <span class="k">def</span> <span class="nf">diff</span><span class="p">(</span><span class="n">t1</span><span class="p">,</span> <span class="n">t2</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">max</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">t1</span> <span class="o">-</span> <span class="n">t2</span><span class="p">))</span>
+
+        <span class="nd">@value_and_grad_wrapper</span>
+        <span class="k">def</span> <span class="nf">call_dot_product</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="p">):</span>
+            <span class="n">attention_pred</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">dot_product_attention</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="p">)</span>
+            <span class="k">return</span> <span class="n">attention_pred</span>
+
+        <span class="nd">@value_and_grad_wrapper</span>
+        <span class="k">def</span> <span class="nf">call_attention_module</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">a</span><span class="p">,</span> <span class="n">attn_mechanism</span><span class="p">):</span>
+            <span class="n">attention_pred</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+                <span class="n">attn_mechanism</span><span class="o">=</span><span class="n">attn_mechanism</span><span class="p">,</span>
+                <span class="n">axis_name</span><span class="o">=</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+                <span class="n">mesh</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+                <span class="n">head_dims</span><span class="o">=</span><span class="n">q</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+                <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="n">q</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span>
+                <span class="n">num_attention_heads</span><span class="o">=</span><span class="n">q</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">],</span>
+                <span class="n">block_q</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+                <span class="n">block_k</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+                <span class="n">base_module_class</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="p">)(</span>
+                <span class="n">query_states</span><span class="o">=</span><span class="n">q</span><span class="p">,</span>
+                <span class="n">key_states</span><span class="o">=</span><span class="n">k</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="o">=</span><span class="n">v</span><span class="p">,</span>
+                <span class="n">bias</span><span class="o">=</span><span class="n">b</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">a</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">attention_outputs</span>
+            <span class="k">return</span> <span class="n">attention_pred</span>
+
+        <span class="k">def</span> <span class="nf">make_inputs</span><span class="p">():</span>
+            <span class="n">q</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">rng</span><span class="o">.</span><span class="n">rng</span><span class="p">,</span>
+                <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">head_dim</span><span class="p">),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;float32&quot;</span>
+            <span class="p">)</span>
+            <span class="n">k</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">rng</span><span class="o">.</span><span class="n">rng</span><span class="p">,</span>
+                <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">num_key_value_heads</span><span class="p">,</span> <span class="n">head_dim</span><span class="p">),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;float32&quot;</span>
+            <span class="p">)</span>
+            <span class="n">v</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">rng</span><span class="o">.</span><span class="n">rng</span><span class="p">,</span>
+                <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">num_key_value_heads</span><span class="p">,</span> <span class="n">head_dim</span><span class="p">),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;float32&quot;</span>
+            <span class="p">)</span>
+            <span class="n">c</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">attention</span><span class="o">.</span><span class="n">make_causal_mask</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">)))</span>
+            <span class="n">a</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+            <span class="n">a</span> <span class="o">=</span> <span class="n">a</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="n">sequence_length</span> <span class="o">//</span> <span class="mi">2</span><span class="p">:]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+            <span class="n">b</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">attention</span><span class="o">.</span><span class="n">combine_masks</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">a</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="mi">1</span><span class="p">),</span> <span class="n">c</span><span class="p">),</span> <span class="mi">0</span><span class="p">,</span> <span class="o">-</span><span class="n">jnp</span><span class="o">.</span><span class="n">inf</span><span class="p">)</span>
+
+            <span class="k">return</span> <span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">a</span>
+
+        <span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">a</span> <span class="o">=</span> <span class="n">make_inputs</span><span class="p">()</span>
+        <span class="n">excepted_output</span><span class="p">,</span> <span class="n">excepted_grads</span> <span class="o">=</span> <span class="n">call_dot_product</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">b</span><span class="p">)</span>
+        <span class="n">test_attentions</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="s2">&quot;local_ring&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;blockwise&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;vanilla&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;wise_ring&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;sharded_vanilla&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;flash&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;splash&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;cudnn&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;pallas_flash&quot;</span>
+        <span class="p">]</span>
+        <span class="n">fns</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="n">k</span><span class="p">:</span> <span class="n">partial</span><span class="p">(</span><span class="n">call_attention_module</span><span class="p">,</span> <span class="n">attn_mechanism</span><span class="o">=</span><span class="n">k</span><span class="p">)</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">test_attentions</span>
+        <span class="p">}</span>
+        <span class="n">outs_and_grads</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">nm</span><span class="p">,</span> <span class="n">fn</span> <span class="ow">in</span> <span class="n">fns</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                <span class="n">out</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">block_until_ready</span><span class="p">(</span><span class="n">fn</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">a</span><span class="p">))</span>
+                <span class="n">end</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">start</span>
+                <span class="n">outs_and_grads</span><span class="p">[</span><span class="n">nm</span><span class="p">]</span> <span class="o">=</span> <span class="n">out</span> <span class="o">+</span> <span class="p">(</span><span class="n">end</span><span class="p">,)</span>
+            <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+                <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">nm</span><span class="si">}</span><span class="s2"> is Failed :</span><span class="se">\n\n</span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+                <span class="n">outs_and_grads</span><span class="p">[</span><span class="n">nm</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="n">frame_out</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="n">out</span><span class="p">,</span> <span class="n">grad</span><span class="p">,</span> <span class="n">time_took</span><span class="p">)</span> <span class="ow">in</span> <span class="n">outs_and_grads</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+
+            <span class="k">if</span> <span class="n">out</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">grad</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">frame_out</span><span class="p">[</span><span class="n">key</span><span class="o">.</span><span class="n">upper</span><span class="p">()]</span> <span class="o">=</span> <span class="p">{</span>
+                    <span class="s2">&quot;OUT DIFF&quot;</span><span class="p">:</span> <span class="s2">&quot;NA&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;GRADIENT DIFF SUM&quot;</span><span class="p">:</span> <span class="s2">&quot;NA&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;TEST PASSED&quot;</span><span class="p">:</span> <span class="s2">&quot;NA&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;COMP TIME&quot;</span><span class="p">:</span> <span class="s2">&quot;NA&quot;</span>
+                <span class="p">}</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">output_diff</span> <span class="o">=</span> <span class="n">diff</span><span class="p">(</span><span class="n">excepted_output</span><span class="p">,</span> <span class="n">out</span><span class="p">)</span>
+                <span class="n">g_diff</span> <span class="o">=</span> <span class="p">[</span><span class="n">diff</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">)</span> <span class="k">for</span> <span class="n">args</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">excepted_grads</span><span class="p">,</span> <span class="n">grad</span><span class="p">)]</span>
+                <span class="n">sum_g</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="n">g_diff</span><span class="p">)</span>
+                <span class="c1"># TODO : Fix this</span>
+                <span class="c1"># XlaRuntimeError: FAILED_PRECONDITION: The program continuator has halted unexpectedly.</span>
+                <span class="c1"># sum_g = jax.device_get(sum_g)</span>
+                <span class="c1"># output_diff = jax.device_get(output_diff)</span>
+                <span class="n">frame_out</span><span class="p">[</span><span class="n">key</span><span class="o">.</span><span class="n">upper</span><span class="p">()]</span> <span class="o">=</span> <span class="p">{</span>
+                    <span class="s2">&quot;OUT DIFF&quot;</span><span class="p">:</span> <span class="n">output_diff</span><span class="p">,</span>
+                    <span class="s2">&quot;GRADIENT DIFF SUM&quot;</span><span class="p">:</span> <span class="n">sum_g</span><span class="p">,</span>
+                    <span class="s2">&quot;TEST PASSED&quot;</span><span class="p">:</span> <span class="n">sum_g</span> <span class="o">&lt;</span> <span class="mi">1</span> <span class="ow">and</span> <span class="n">output_diff</span> <span class="o">&lt;</span> <span class="mf">1e-2</span><span class="p">,</span>
+                    <span class="s2">&quot;COMP TIME&quot;</span><span class="p">:</span> <span class="n">time_took</span>
+                <span class="p">}</span>
+        <span class="k">if</span> <span class="n">pandas</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">result</span> <span class="o">=</span> <span class="n">pandas</span><span class="o">.</span><span class="n">DataFrame</span><span class="o">.</span><span class="n">from_dict</span><span class="p">(</span><span class="n">frame_out</span><span class="p">)</span>
+            <span class="n">result</span> <span class="o">=</span> <span class="n">result</span><span class="o">.</span><span class="n">transpose</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">result</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">frame_out</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.attention_module.AttentionModule.cuddn_flash_attention" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">cuddn_flash_attention</span><span class="p">(</span><span class="o">*</span><span class="p">,</span> <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">bias</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">causal</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">query_sequence_length</span><span class="p">,</span> <span class="n">key_value_sequence_length</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>CUDNN Flash Attention with Transformer Engine.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/attention_module.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span>
+<span class="normal">1119</span>
+<span class="normal">1120</span>
+<span class="normal">1121</span>
+<span class="normal">1122</span>
+<span class="normal">1123</span>
+<span class="normal">1124</span>
+<span class="normal">1125</span>
+<span class="normal">1126</span>
+<span class="normal">1127</span>
+<span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span>
+<span class="normal">1149</span>
+<span class="normal">1150</span>
+<span class="normal">1151</span>
+<span class="normal">1152</span>
+<span class="normal">1153</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">cuddn_flash_attention</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="o">*</span><span class="p">,</span>  <span class="c1"># it&#39;s Kwarg Only</span>
+        <span class="n">query_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+        <span class="n">value_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+        <span class="n">bias</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">causal</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">query_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">AttentionOutput</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;CUDNN Flash Attention with Transformer Engine.&quot;&quot;&quot;</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="kn">import</span> <span class="nn">transformer_engine.jax.fused_attn</span> <span class="k">as</span> <span class="nn">fused_attn</span>
+        <span class="kn">from</span> <span class="nn">transformer_engine.jax.fused_attn</span> <span class="kn">import</span> <span class="n">AttnBiasType</span><span class="p">,</span> <span class="n">AttnMaskType</span><span class="p">,</span> <span class="n">QKVLayout</span>
+        <span class="kn">from</span> <span class="nn">transformer_engine.jax.fused_attn</span> <span class="kn">import</span> <span class="n">is_fused_attn_kernel_available</span>
+    <span class="k">except</span> <span class="p">(</span><span class="ne">ModuleNotFoundError</span><span class="p">,</span> <span class="ne">ImportError</span><span class="p">)</span> <span class="k">as</span> <span class="n">err</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">RuntimeError</span><span class="p">(</span>
+            <span class="s2">&quot;Please install transformer_engine first. you can install that by running &quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;`pip install git+https://github.com/NVIDIA/TransformerEngine`&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">here&#39;s extra information on error</span><span class="se">\n</span><span class="si">{</span><span class="n">err</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+    <span class="n">batch</span><span class="p">,</span> <span class="n">query_sequence_length</span><span class="p">,</span> <span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">head_dim</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="n">qkv_layout</span> <span class="o">=</span> <span class="n">QKVLayout</span><span class="o">.</span><span class="n">BS3HD</span>
+    <span class="n">attn_mask_type</span> <span class="o">=</span> <span class="n">AttnMaskType</span><span class="o">.</span><span class="n">CAUSAL_MASK</span>
+    <span class="n">attn_bias_type</span> <span class="o">=</span> <span class="n">AttnBiasType</span><span class="o">.</span><span class="n">NO_BIAS</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">sm_scale</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sm_scale</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">has_fused_attn_kernel</span> <span class="o">=</span> <span class="n">is_fused_attn_kernel_available</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">qkv_layout</span><span class="p">,</span>
+        <span class="n">attn_bias_type</span><span class="p">,</span>
+        <span class="n">attn_mask_type</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">2</span><span class="p">],</span>
+        <span class="n">query_sequence_length</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="p">,</span>
+        <span class="n">head_dim</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">has_fused_attn_kernel</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+            <span class="s2">&quot;Flash attention kernel is not supported for current requested arrays&quot;</span>
+            <span class="s2">&quot; for details check this repo https://github.com/NVIDIA/TransformerEngine/&quot;</span>
+        <span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">AttentionOutput</span><span class="p">(</span>
+        <span class="n">attention_weights</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">attention_outputs</span><span class="o">=</span><span class="n">fused_attn</span><span class="o">.</span><span class="n">self_fused_attn</span><span class="p">(</span>
+            <span class="n">qkv</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span>
+                    <span class="n">jnp</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="p">(</span><span class="o">*</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">],</span> <span class="mi">1</span><span class="p">,</span> <span class="o">*</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:])),</span>
+                    <span class="n">jnp</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">key_states</span><span class="p">,</span> <span class="p">(</span><span class="o">*</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">],</span> <span class="mi">1</span><span class="p">,</span> <span class="o">*</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:])),</span>
+                    <span class="n">jnp</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">value_states</span><span class="p">,</span> <span class="p">(</span><span class="o">*</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">],</span> <span class="mi">1</span><span class="p">,</span> <span class="o">*</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">:]))</span>
+                <span class="p">),</span>
+                <span class="n">axis</span><span class="o">=</span><span class="mi">2</span>
+            <span class="p">),</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">bias</span><span class="p">,</span>
+            <span class="n">mask</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">((</span><span class="n">batch</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_sequence_length</span><span class="p">,</span> <span class="n">key_value_sequence_length</span><span class="p">))</span> <span class="k">if</span> <span class="n">causal</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">seed</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">attn_bias_type</span><span class="o">=</span><span class="n">attn_bias_type</span><span class="p">,</span>
+            <span class="n">attn_mask_type</span><span class="o">=</span><span class="n">attn_mask_type</span><span class="p">,</span>
+            <span class="n">scaling_factor</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">sm_scale</span><span class="p">,</span>
+            <span class="n">dropout_probability</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+            <span class="n">is_training</span><span class="o">=</span><span class="n">deterministic</span>
+        <span class="p">)</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.attention_module.AttentionModule.test_attentions" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">test_attentions</span><span class="p">(</span><span class="n">batch_size</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span> <span class="n">sequence_length</span><span class="o">=</span><span class="mi">128</span> <span class="o">*</span> <span class="mi">8</span><span class="p">,</span> <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span> <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span> <span class="n">chunk_size</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span> <span class="n">axis_dims</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">))</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-staticmethod"><code>staticmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>creates a test for attention module to help you find the best attention mechanism you can use.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/attention_module.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1155</span>
+<span class="normal">1156</span>
+<span class="normal">1157</span>
+<span class="normal">1158</span>
+<span class="normal">1159</span>
+<span class="normal">1160</span>
+<span class="normal">1161</span>
+<span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span>
+<span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span>
+<span class="normal">1204</span>
+<span class="normal">1205</span>
+<span class="normal">1206</span>
+<span class="normal">1207</span>
+<span class="normal">1208</span>
+<span class="normal">1209</span>
+<span class="normal">1210</span>
+<span class="normal">1211</span>
+<span class="normal">1212</span>
+<span class="normal">1213</span>
+<span class="normal">1214</span>
+<span class="normal">1215</span>
+<span class="normal">1216</span>
+<span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span>
+<span class="normal">1220</span>
+<span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span>
+<span class="normal">1230</span>
+<span class="normal">1231</span>
+<span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span>
+<span class="normal">1241</span>
+<span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span>
+<span class="normal">1281</span>
+<span class="normal">1282</span>
+<span class="normal">1283</span>
+<span class="normal">1284</span>
+<span class="normal">1285</span>
+<span class="normal">1286</span>
+<span class="normal">1287</span>
+<span class="normal">1288</span>
+<span class="normal">1289</span>
+<span class="normal">1290</span>
+<span class="normal">1291</span>
+<span class="normal">1292</span>
+<span class="normal">1293</span>
+<span class="normal">1294</span>
+<span class="normal">1295</span>
+<span class="normal">1296</span>
+<span class="normal">1297</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@staticmethod</span>
+<span class="k">def</span> <span class="nf">test_attentions</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="o">=</span><span class="mi">128</span> <span class="o">*</span> <span class="mi">8</span><span class="p">,</span>
+        <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+        <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+        <span class="n">chunk_size</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span>
+        <span class="n">axis_dims</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;creates a test for attention module to help you find the best attention mechanism you can use.&quot;&quot;&quot;</span>
+    <span class="kn">import</span> <span class="nn">flax</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="kn">import</span> <span class="nn">pandas</span>
+    <span class="k">except</span> <span class="p">(</span><span class="ne">ModuleNotFoundError</span><span class="p">,</span> <span class="ne">ImportError</span><span class="p">):</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;couldn&#39;t import pandas ... please install pandas&quot;</span><span class="p">)</span>
+        <span class="n">pandas</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="kn">from</span> <span class="nn">..modules.mistral</span> <span class="kn">import</span> <span class="n">MistralConfig</span>
+    <span class="kn">from</span> <span class="nn">fjformer</span> <span class="kn">import</span> <span class="n">GenerateRNG</span>
+    <span class="n">head_dim</span> <span class="o">=</span> <span class="mi">128</span>
+    <span class="n">rng</span> <span class="o">=</span> <span class="n">GenerateRNG</span><span class="p">()</span>
+
+    <span class="n">config</span> <span class="o">=</span> <span class="n">MistralConfig</span><span class="p">(</span>
+        <span class="n">axis_dims</span><span class="o">=</span><span class="n">axis_dims</span><span class="p">,</span>
+        <span class="n">block_q</span><span class="o">=</span><span class="n">chunk_size</span><span class="p">,</span>
+        <span class="n">block_k</span><span class="o">=</span><span class="n">chunk_size</span>
+    <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">value_and_grad_wrapper</span><span class="p">(</span><span class="n">fn</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="nd">@partial</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">value_and_grad</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="k">def</span> <span class="nf">inner</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">fn</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="n">inner</span>
+
+    <span class="k">def</span> <span class="nf">diff</span><span class="p">(</span><span class="n">t1</span><span class="p">,</span> <span class="n">t2</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">max</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">t1</span> <span class="o">-</span> <span class="n">t2</span><span class="p">))</span>
+
+    <span class="nd">@value_and_grad_wrapper</span>
+    <span class="k">def</span> <span class="nf">call_dot_product</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="p">):</span>
+        <span class="n">attention_pred</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">dot_product_attention</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="p">)</span>
+        <span class="k">return</span> <span class="n">attention_pred</span>
+
+    <span class="nd">@value_and_grad_wrapper</span>
+    <span class="k">def</span> <span class="nf">call_attention_module</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">a</span><span class="p">,</span> <span class="n">attn_mechanism</span><span class="p">):</span>
+        <span class="n">attention_pred</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="n">q</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="n">q</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="n">q</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">],</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">base_module_class</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+        <span class="p">)(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">q</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">k</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">v</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">b</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">a</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">attention_outputs</span>
+        <span class="k">return</span> <span class="n">attention_pred</span>
+
+    <span class="k">def</span> <span class="nf">make_inputs</span><span class="p">():</span>
+        <span class="n">q</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+            <span class="n">rng</span><span class="o">.</span><span class="n">rng</span><span class="p">,</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;float32&quot;</span>
+        <span class="p">)</span>
+        <span class="n">k</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+            <span class="n">rng</span><span class="o">.</span><span class="n">rng</span><span class="p">,</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">num_key_value_heads</span><span class="p">,</span> <span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;float32&quot;</span>
+        <span class="p">)</span>
+        <span class="n">v</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+            <span class="n">rng</span><span class="o">.</span><span class="n">rng</span><span class="p">,</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">num_key_value_heads</span><span class="p">,</span> <span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;float32&quot;</span>
+        <span class="p">)</span>
+        <span class="n">c</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">attention</span><span class="o">.</span><span class="n">make_causal_mask</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">)))</span>
+        <span class="n">a</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+        <span class="n">a</span> <span class="o">=</span> <span class="n">a</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="n">sequence_length</span> <span class="o">//</span> <span class="mi">2</span><span class="p">:]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+        <span class="n">b</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">attention</span><span class="o">.</span><span class="n">combine_masks</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">a</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="mi">1</span><span class="p">),</span> <span class="n">c</span><span class="p">),</span> <span class="mi">0</span><span class="p">,</span> <span class="o">-</span><span class="n">jnp</span><span class="o">.</span><span class="n">inf</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">a</span>
+
+    <span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">a</span> <span class="o">=</span> <span class="n">make_inputs</span><span class="p">()</span>
+    <span class="n">excepted_output</span><span class="p">,</span> <span class="n">excepted_grads</span> <span class="o">=</span> <span class="n">call_dot_product</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">b</span><span class="p">)</span>
+    <span class="n">test_attentions</span> <span class="o">=</span> <span class="p">[</span>
+        <span class="s2">&quot;local_ring&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;blockwise&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;vanilla&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;wise_ring&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;sharded_vanilla&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;flash&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;splash&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;cudnn&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;pallas_flash&quot;</span>
+    <span class="p">]</span>
+    <span class="n">fns</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="n">k</span><span class="p">:</span> <span class="n">partial</span><span class="p">(</span><span class="n">call_attention_module</span><span class="p">,</span> <span class="n">attn_mechanism</span><span class="o">=</span><span class="n">k</span><span class="p">)</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">test_attentions</span>
+    <span class="p">}</span>
+    <span class="n">outs_and_grads</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">for</span> <span class="n">nm</span><span class="p">,</span> <span class="n">fn</span> <span class="ow">in</span> <span class="n">fns</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+            <span class="n">out</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">block_until_ready</span><span class="p">(</span><span class="n">fn</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">b</span><span class="p">,</span> <span class="n">a</span><span class="p">))</span>
+            <span class="n">end</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">start</span>
+            <span class="n">outs_and_grads</span><span class="p">[</span><span class="n">nm</span><span class="p">]</span> <span class="o">=</span> <span class="n">out</span> <span class="o">+</span> <span class="p">(</span><span class="n">end</span><span class="p">,)</span>
+        <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+            <span class="nb">print</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">nm</span><span class="si">}</span><span class="s2"> is Failed :</span><span class="se">\n\n</span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+            <span class="n">outs_and_grads</span><span class="p">[</span><span class="n">nm</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="n">frame_out</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="n">out</span><span class="p">,</span> <span class="n">grad</span><span class="p">,</span> <span class="n">time_took</span><span class="p">)</span> <span class="ow">in</span> <span class="n">outs_and_grads</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+
+        <span class="k">if</span> <span class="n">out</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">grad</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">frame_out</span><span class="p">[</span><span class="n">key</span><span class="o">.</span><span class="n">upper</span><span class="p">()]</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="s2">&quot;OUT DIFF&quot;</span><span class="p">:</span> <span class="s2">&quot;NA&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;GRADIENT DIFF SUM&quot;</span><span class="p">:</span> <span class="s2">&quot;NA&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;TEST PASSED&quot;</span><span class="p">:</span> <span class="s2">&quot;NA&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;COMP TIME&quot;</span><span class="p">:</span> <span class="s2">&quot;NA&quot;</span>
+            <span class="p">}</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">output_diff</span> <span class="o">=</span> <span class="n">diff</span><span class="p">(</span><span class="n">excepted_output</span><span class="p">,</span> <span class="n">out</span><span class="p">)</span>
+            <span class="n">g_diff</span> <span class="o">=</span> <span class="p">[</span><span class="n">diff</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">)</span> <span class="k">for</span> <span class="n">args</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">excepted_grads</span><span class="p">,</span> <span class="n">grad</span><span class="p">)]</span>
+            <span class="n">sum_g</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="n">g_diff</span><span class="p">)</span>
+            <span class="c1"># TODO : Fix this</span>
+            <span class="c1"># XlaRuntimeError: FAILED_PRECONDITION: The program continuator has halted unexpectedly.</span>
+            <span class="c1"># sum_g = jax.device_get(sum_g)</span>
+            <span class="c1"># output_diff = jax.device_get(output_diff)</span>
+            <span class="n">frame_out</span><span class="p">[</span><span class="n">key</span><span class="o">.</span><span class="n">upper</span><span class="p">()]</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="s2">&quot;OUT DIFF&quot;</span><span class="p">:</span> <span class="n">output_diff</span><span class="p">,</span>
+                <span class="s2">&quot;GRADIENT DIFF SUM&quot;</span><span class="p">:</span> <span class="n">sum_g</span><span class="p">,</span>
+                <span class="s2">&quot;TEST PASSED&quot;</span><span class="p">:</span> <span class="n">sum_g</span> <span class="o">&lt;</span> <span class="mi">1</span> <span class="ow">and</span> <span class="n">output_diff</span> <span class="o">&lt;</span> <span class="mf">1e-2</span><span class="p">,</span>
+                <span class="s2">&quot;COMP TIME&quot;</span><span class="p">:</span> <span class="n">time_took</span>
+            <span class="p">}</span>
+    <span class="k">if</span> <span class="n">pandas</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">result</span> <span class="o">=</span> <span class="n">pandas</span><span class="o">.</span><span class="n">DataFrame</span><span class="o">.</span><span class="n">from_dict</span><span class="p">(</span><span class="n">frame_out</span><span class="p">)</span>
+        <span class="n">result</span> <span class="o">=</span> <span class="n">result</span><span class="o">.</span><span class="n">transpose</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">result</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">frame_out</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.attention_module.get_flash_attention" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_flash_attention</span><span class="p">()</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>return: FlashAttention FN, Upcast Needed to float32,do_shard_map</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/attention_module.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_flash_attention</span><span class="p">()</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">Callable</span><span class="p">,</span> <span class="nb">bool</span><span class="p">,</span> <span class="nb">bool</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;return: FlashAttention FN, Upcast Needed to float32,do_shard_map&quot;&quot;&quot;</span>
+    <span class="n">platform</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lib</span><span class="o">.</span><span class="n">xla_bridge</span><span class="o">.</span><span class="n">get_backend</span><span class="p">()</span><span class="o">.</span><span class="n">platform</span>
+    <span class="k">if</span> <span class="n">platform</span> <span class="o">==</span> <span class="s2">&quot;gpu&quot;</span><span class="p">:</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;for GPU backend use `cudnn` or `pallas_flash`&quot;</span><span class="p">)</span>
+        <span class="n">float32_logits</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="n">ring_attention_fn</span> <span class="o">=</span> <span class="n">flash_attention</span>
+        <span class="n">do_shard_map</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="k">elif</span> <span class="n">platform</span> <span class="o">==</span> <span class="s2">&quot;tpu&quot;</span><span class="p">:</span>
+        <span class="n">float32_logits</span> <span class="o">=</span> <span class="kc">True</span>
+        <span class="n">ring_attention_fn</span> <span class="o">=</span> <span class="n">tpu_flash_attention</span>
+        <span class="n">do_shard_map</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Unsupported platform </span><span class="si">{</span><span class="n">platform</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">ring_attention_fn</span><span class="p">,</span> <span class="n">float32_logits</span><span class="p">,</span> <span class="n">do_shard_map</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-auto_easydel_model/index.html b/generated-modules-auto_easydel_model/index.html
new file mode 100644
index 000000000..f7349167e
--- /dev/null
+++ b/generated-modules-auto_easydel_model/index.html
@@ -0,0 +1,8890 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-_attentions-vanilla/">
+      
+      
+        <link rel="next" href="../generated-modules-cohere-cohere_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Auto Easydel Model - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesauto_easydel_model" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Auto Easydel Model
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.auto_easydel_model" class="md-nav__link">
+    <span class="md-ellipsis">
+      auto_easydel_model
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.auto_easydel_model.AutoEasyDeLConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      AutoEasyDeLConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="AutoEasyDeLConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.auto_easydel_model.AutoEasyDeLConfig.from_pretrained" class="md-nav__link">
+    <span class="md-ellipsis">
+      from_pretrained
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.auto_easydel_model.AutoEasyDeLModelForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      AutoEasyDeLModelForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="AutoEasyDeLModelForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.auto_easydel_model.AutoEasyDeLModelForCausalLM.from_pretrained" class="md-nav__link">
+    <span class="md-ellipsis">
+      from_pretrained
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.auto_easydel_model.get_modules_by_type" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_modules_by_type
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.auto_easydel_model.is_flatten" class="md-nav__link">
+    <span class="md-ellipsis">
+      is_flatten
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.auto_easydel_model" class="md-nav__link">
+    <span class="md-ellipsis">
+      auto_easydel_model
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.auto_easydel_model.AutoEasyDeLConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      AutoEasyDeLConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="AutoEasyDeLConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.auto_easydel_model.AutoEasyDeLConfig.from_pretrained" class="md-nav__link">
+    <span class="md-ellipsis">
+      from_pretrained
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.auto_easydel_model.AutoEasyDeLModelForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      AutoEasyDeLModelForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="AutoEasyDeLModelForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.auto_easydel_model.AutoEasyDeLModelForCausalLM.from_pretrained" class="md-nav__link">
+    <span class="md-ellipsis">
+      from_pretrained
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.auto_easydel_model.get_modules_by_type" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_modules_by_type
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.auto_easydel_model.is_flatten" class="md-nav__link">
+    <span class="md-ellipsis">
+      is_flatten
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesauto_easydel_model">modules.auto_easydel_model</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.auto_easydel_model"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.auto_easydel_model.AutoEasyDeLConfig" class="doc doc-heading">
+            <code>AutoEasyDeLConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/auto_easydel_model.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">AutoEasyDeLConfig</span><span class="p">:</span>
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">from_pretrained</span><span class="p">(</span>
+            <span class="bp">cls</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">sharding_axis_dims</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">sharding_axis_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span>
+            <span class="n">query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">key_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">value_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">shard_attention_computation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">backend</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">EasyDeLPretrainedConfig</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The from_pretrained function is a helper function that allows you to instantiate a model from the pretrained</span>
+<span class="sd">        model repository. It takes as input the name of the model (e.g., &#39;bert-base-uncased&#39;) and returns an instance of</span>
+<span class="sd">        the class corresponding to your model, with all weights loaded from disk.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            cls: Create an instance of the class that called this</span>
+<span class="sd">                function</span>
+<span class="sd">            pretrained_model_name_or_path: str: Identify the model in</span>
+<span class="sd">                the huggingface model hub</span>
+<span class="sd">            sharding_axis_dims: Sequence[int]: Specify the dimension of</span>
+<span class="sd">                each axis in the sharded model</span>
+<span class="sd">            sharding_axis_names: Sequence[str]: Specify the order of</span>
+<span class="sd">                sharding</span>
+<span class="sd">            query_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">                partitioning of the query tensor</span>
+<span class="sd">            generation_query_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">                partitioning of the query tensor in</span>
+<span class="sd">            key_partition_spec: PartitionSpec: Partition the key matrix</span>
+<span class="sd">            value_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">                partitioning of the value tensor</span>
+<span class="sd">            bias_partition_spec: PartitionSpec: Specify the Attention</span>
+<span class="sd">                Bias partition spec</span>
+<span class="sd">            generation_bias_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">                Attention Bias partition spec for generation</span>
+<span class="sd">            attention_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">                partitioning of the attention weights</span>
+<span class="sd">            shard_attention_computation: bool: whenever to use shard_map</span>
+<span class="sd">                for attention</span>
+<span class="sd">            backend: Optional[str]: backend to use for model</span>
+<span class="sd">            **kwargs: Pass additional arguments to the model and config</span>
+<span class="sd">                classes</span>
+<span class="sd">        generation process</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A Model Config</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">config</span> <span class="o">=</span> <span class="n">AutoConfig</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">)</span>
+        <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">model_type</span>
+
+        <span class="n">cfg</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">trf</span> <span class="o">=</span> <span class="n">get_modules_by_type</span><span class="p">(</span><span class="n">model_type</span><span class="p">)</span>
+        <span class="n">cfg</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">)</span>
+        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">cfg</span><span class="p">,</span> <span class="s1">&#39;add_jax_args&#39;</span><span class="p">):</span>
+            <span class="n">cfg</span><span class="o">.</span><span class="n">add_jax_args</span><span class="p">()</span>
+        <span class="n">cfg</span><span class="o">.</span><span class="n">add_basic_configurations</span><span class="p">(</span>
+            <span class="n">axis_dims</span><span class="o">=</span><span class="n">sharding_axis_dims</span><span class="p">,</span>
+            <span class="n">axis_names</span><span class="o">=</span><span class="n">sharding_axis_names</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">backend</span><span class="o">=</span><span class="n">backend</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">cfg</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.auto_easydel_model.AutoEasyDeLConfig.from_pretrained" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="n">sharding_axis_dims</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">sharding_axis_names</span><span class="o">=</span><span class="p">(</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="s1">&#39;sp&#39;</span><span class="p">),</span> <span class="n">query_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">key_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">value_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">bias_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">attention_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">shard_attention_computation</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">backend</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-classmethod"><code>classmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The from_pretrained function is a helper function that allows you to instantiate a model from the pretrained
+model repository. It takes as input the name of the model (e.g., 'bert-base-uncased') and returns an instance of
+the class corresponding to your model, with all weights loaded from disk.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>cls</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Create an instance of the class that called this
+function</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>pretrained_model_name_or_path</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Identify the model in
+the huggingface model hub</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sharding_axis_dims</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[int]: Specify the dimension of
+each axis in the sharded model</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, -1, 1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sharding_axis_names</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[str]: Specify the order of
+sharding</p>
+              </div>
+            </td>
+            <td>
+                  <code>(&#39;dp&#39;, &#39;fsdp&#39;, &#39;tp&#39;, &#39;sp&#39;)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the
+partitioning of the query tensor</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>generation_query_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the
+partitioning of the query tensor in</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, None, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Partition the key matrix</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the
+partitioning of the value tensor</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bias_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the Attention
+Bias partition spec</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), None, None, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>generation_bias_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the
+Attention Bias partition spec for generation</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), None, None, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the
+partitioning of the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>shard_attention_computation</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: whenever to use shard_map
+for attention</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>backend</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[str]: backend to use for model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass additional arguments to the model and config
+classes</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>generation process</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A Model Config</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/auto_easydel_model.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@classmethod</span>
+<span class="k">def</span> <span class="nf">from_pretrained</span><span class="p">(</span>
+        <span class="bp">cls</span><span class="p">,</span>
+        <span class="n">pretrained_model_name_or_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+        <span class="n">sharding_axis_dims</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">sharding_axis_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span>
+        <span class="n">query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">key_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">value_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">shard_attention_computation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">backend</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">EasyDeLPretrainedConfig</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The from_pretrained function is a helper function that allows you to instantiate a model from the pretrained</span>
+<span class="sd">    model repository. It takes as input the name of the model (e.g., &#39;bert-base-uncased&#39;) and returns an instance of</span>
+<span class="sd">    the class corresponding to your model, with all weights loaded from disk.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        cls: Create an instance of the class that called this</span>
+<span class="sd">            function</span>
+<span class="sd">        pretrained_model_name_or_path: str: Identify the model in</span>
+<span class="sd">            the huggingface model hub</span>
+<span class="sd">        sharding_axis_dims: Sequence[int]: Specify the dimension of</span>
+<span class="sd">            each axis in the sharded model</span>
+<span class="sd">        sharding_axis_names: Sequence[str]: Specify the order of</span>
+<span class="sd">            sharding</span>
+<span class="sd">        query_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">            partitioning of the query tensor</span>
+<span class="sd">        generation_query_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">            partitioning of the query tensor in</span>
+<span class="sd">        key_partition_spec: PartitionSpec: Partition the key matrix</span>
+<span class="sd">        value_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">            partitioning of the value tensor</span>
+<span class="sd">        bias_partition_spec: PartitionSpec: Specify the Attention</span>
+<span class="sd">            Bias partition spec</span>
+<span class="sd">        generation_bias_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">            Attention Bias partition spec for generation</span>
+<span class="sd">        attention_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">            partitioning of the attention weights</span>
+<span class="sd">        shard_attention_computation: bool: whenever to use shard_map</span>
+<span class="sd">            for attention</span>
+<span class="sd">        backend: Optional[str]: backend to use for model</span>
+<span class="sd">        **kwargs: Pass additional arguments to the model and config</span>
+<span class="sd">            classes</span>
+<span class="sd">    generation process</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A Model Config</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">config</span> <span class="o">=</span> <span class="n">AutoConfig</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">)</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">model_type</span>
+
+    <span class="n">cfg</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">trf</span> <span class="o">=</span> <span class="n">get_modules_by_type</span><span class="p">(</span><span class="n">model_type</span><span class="p">)</span>
+    <span class="n">cfg</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">)</span>
+    <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">cfg</span><span class="p">,</span> <span class="s1">&#39;add_jax_args&#39;</span><span class="p">):</span>
+        <span class="n">cfg</span><span class="o">.</span><span class="n">add_jax_args</span><span class="p">()</span>
+    <span class="n">cfg</span><span class="o">.</span><span class="n">add_basic_configurations</span><span class="p">(</span>
+        <span class="n">axis_dims</span><span class="o">=</span><span class="n">sharding_axis_dims</span><span class="p">,</span>
+        <span class="n">axis_names</span><span class="o">=</span><span class="n">sharding_axis_names</span><span class="p">,</span>
+        <span class="n">query_partition_spec</span><span class="o">=</span><span class="n">query_partition_spec</span><span class="p">,</span>
+        <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+        <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+        <span class="n">key_partition_spec</span><span class="o">=</span><span class="n">key_partition_spec</span><span class="p">,</span>
+        <span class="n">value_partition_spec</span><span class="o">=</span><span class="n">value_partition_spec</span><span class="p">,</span>
+        <span class="n">bias_partition_spec</span><span class="o">=</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+        <span class="n">attention_partition_spec</span><span class="o">=</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+        <span class="n">backend</span><span class="o">=</span><span class="n">backend</span><span class="p">,</span>
+        <span class="n">shard_attention_computation</span><span class="o">=</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">cfg</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.auto_easydel_model.AutoEasyDeLModelForCausalLM" class="doc doc-heading">
+            <code>AutoEasyDeLModelForCausalLM</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+      <p>This class provides a convenient way to load and shard pretrained causal language models from the Hugging Face Hub
+and convert them into EasyDeL compatible models. It utilizes the EasyDeL library for distributed training and inference
+with JAX.</p>
+<p>This class inherits from the <code>EasyDeLFlaxPretrainedModel</code> class, providing functionalities for model loading,
+parameter sharding, and interaction with the EasyDeL framework.</p>
+
+
+<p><span class="doc-section-title">Examples:</span></p>
+    <pre><code class="language-python">import jax
+from easydel import AutoEasyDeLModelForCausalLM
+
+# Load a GPT-2 model on a single CPU
+model, params = AutoEasyDeLModelForCausalLM.from_pretrained(
+    &quot;gpt2&quot;,
+    device=jax.devices(&quot;cpu&quot;)[0]
+)
+
+# Load a GPT-2 model sharded across 8 GPUs with data parallelism (DP) and fully sharded data parallelism (FSDP)
+model, params = AutoEasyDeLModelForCausalLM.from_pretrained(
+    &quot;gpt2&quot;,
+    sharding_axis_dims=(1, 8, 1, 1),
+    sharding_axis_names=(&quot;dp&quot;, &quot;fsdp&quot;, &quot;tp&quot;, &quot;sp&quot;),
+    device=jax.devices(&quot;cpu&quot;)[0] # offload to CPU [OPTIONAL]
+)
+</code></pre>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/auto_easydel_model.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">AutoEasyDeLModelForCausalLM</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;This class provides a convenient way to load and shard pretrained causal language models from the Hugging Face Hub</span>
+<span class="sd">    and convert them into EasyDeL compatible models. It utilizes the EasyDeL library for distributed training and inference</span>
+<span class="sd">    with JAX.</span>
+
+<span class="sd">    This class inherits from the `EasyDeLFlaxPretrainedModel` class, providing functionalities for model loading,</span>
+<span class="sd">    parameter sharding, and interaction with the EasyDeL framework.</span>
+
+<span class="sd">    Attributes:</span>
+<span class="sd">        None</span>
+
+<span class="sd">    Examples:</span>
+<span class="sd">        ```python</span>
+<span class="sd">        import jax</span>
+<span class="sd">        from easydel import AutoEasyDeLModelForCausalLM</span>
+
+<span class="sd">        # Load a GPT-2 model on a single CPU</span>
+<span class="sd">        model, params = AutoEasyDeLModelForCausalLM.from_pretrained(</span>
+<span class="sd">            &quot;gpt2&quot;,</span>
+<span class="sd">            device=jax.devices(&quot;cpu&quot;)[0]</span>
+<span class="sd">        )</span>
+
+<span class="sd">        # Load a GPT-2 model sharded across 8 GPUs with data parallelism (DP) and fully sharded data parallelism (FSDP)</span>
+<span class="sd">        model, params = AutoEasyDeLModelForCausalLM.from_pretrained(</span>
+<span class="sd">            &quot;gpt2&quot;,</span>
+<span class="sd">            sharding_axis_dims=(1, 8, 1, 1),</span>
+<span class="sd">            sharding_axis_names=(&quot;dp&quot;, &quot;fsdp&quot;, &quot;tp&quot;, &quot;sp&quot;),</span>
+<span class="sd">            device=jax.devices(&quot;cpu&quot;)[0] # offload to CPU [OPTIONAL]</span>
+<span class="sd">        )</span>
+<span class="sd">        ```</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">from_pretrained</span><span class="p">(</span>
+            <span class="bp">cls</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">device</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="s1">&#39;cpu&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">],</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">),</span>
+            <span class="n">sharding_axis_dims</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">sharding_axis_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span>
+            <span class="n">query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">key_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">value_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">shard_attention_computation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">shard_fns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">tuple</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]</span> <span class="o">|</span> <span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">backend</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">config_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">auto_shard_params</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">partition_rules</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">],</span> <span class="o">...</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">load_in_8bit</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">bit_targeted_params</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">,</span> <span class="nb">dict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Loads and shards a pretrained causal language model from the Hugging Face Hub and converts it into an</span>
+<span class="sd">        EasyDeL compatible model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            pretrained_model_name_or_path (str): Path or name of the pretrained model in the Hugging Face Hub.</span>
+<span class="sd">            device (jax.Array, optional): Device to load the model on. Defaults to the first CPU.</span>
+<span class="sd">            dtype (jax.numpy.dtype, optional): Data type of the model. Defaults to jax.numpy.float32.</span>
+<span class="sd">            param_dtype (jax.numpy.dtype, optional): Data type of the model parameters. Defaults to jax.numpy.float32.</span>
+<span class="sd">            precision (jax.lax.Precision, optional): Precision for computations. Defaults to jax.lax.Precision(&quot;fastest&quot;).</span>
+<span class="sd">            sharding_axis_dims (Sequence[int], optional): Dimensions of each sharding axis. Defaults to (1, -1, 1, 1).</span>
+<span class="sd">            sharding_axis_names (Sequence[str], optional): Names of the sharding axes. Defaults to (&quot;dp&quot;, &quot;fsdp&quot;, &quot;tp&quot;, &quot;sp&quot;).</span>
+<span class="sd">            query_partition_spec (PartitionSpec, optional): Partitioning specification for the query tensor. Defaults to</span>
+<span class="sd">                PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None).</span>
+<span class="sd">            generation_query_partition_spec (PartitionSpec, optional): Partitioning specification for the query tensor during</span>
+<span class="sd">                generation. Defaults to PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), None, &quot;tp&quot;, None).</span>
+<span class="sd">            key_partition_spec (PartitionSpec, optional): Partitioning specification for the key tensor. Defaults to</span>
+<span class="sd">                PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None).</span>
+<span class="sd">            value_partition_spec (PartitionSpec, optional): Partitioning specification for the value tensor. Defaults to</span>
+<span class="sd">                PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None).</span>
+<span class="sd">            bias_partition_spec (PartitionSpec, optional): Partitioning specification for the attention bias. Defaults to</span>
+<span class="sd">                PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), None, None, None).</span>
+<span class="sd">            generation_bias_partition_spec (PartitionSpec, optional): Partitioning specification for the attention bias during</span>
+<span class="sd">                generation. Defaults to PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), None, None, None).</span>
+<span class="sd">            attention_partition_spec (PartitionSpec, optional): Partitioning specification for the attention weights. Defaults to</span>
+<span class="sd">                PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None).</span>
+<span class="sd">            shard_attention_computation (bool, optional): Whether to shard attention computation. Defaults to True.</span>
+<span class="sd">            input_shape (Sequence[int], optional): Shape of the input to the model. Defaults to (1, 1).</span>
+<span class="sd">            shard_fns (Optional[Mapping[tuple, Callable] | dict], optional): Sharding functions to use for the model. If None,</span>
+<span class="sd">                auto-sharding is used if auto_shard_params is True. Defaults to None.</span>
+<span class="sd">            backend (Optional[str], optional): Backend to use for the model. Defaults to None.</span>
+<span class="sd">            config_kwargs (Optional[Mapping[str, Any]], optional): Configuration keyword arguments to pass to the model config.</span>
+<span class="sd">                Defaults to None.</span>
+<span class="sd">            auto_shard_params (bool, optional): Whether to automatically shard the model parameters. Defaults to False.</span>
+<span class="sd">            partition_rules (Optional[Tuple[Tuple[str, PartitionSpec]]], optional): Custom partition rules for parameter</span>
+<span class="sd">                sharding. If not None, shard_fns should also be provided. Defaults to None.</span>
+<span class="sd">            load_in_8bit (bool, optional): Whether to load the model parameters in 8-bit precision. Defaults to False.</span>
+<span class="sd">            bit_targeted_params (Optional[List[str]], optional): List of parameter names to convert to 8-bit precision. If</span>
+<span class="sd">                None and load_in_8bit is True, all kernels and embeddings are converted to 8-bit. Defaults to None.</span>
+<span class="sd">            **kwargs: Additional keyword arguments to pass to the model and config classes.</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            Tuple[EasyDeLFlaxPretrainedModel, dict]: A tuple containing the EasyDeL model and the loaded and sharded</span>
+<span class="sd">                model parameters.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Downloading model config from </span><span class="si">{</span><span class="n">pretrained_model_name_or_path</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="n">AutoConfig</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">)</span>
+        <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">model_type</span>
+
+        <span class="n">cfg</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">trf</span> <span class="o">=</span> <span class="n">get_modules_by_type</span><span class="p">(</span><span class="n">model_type</span><span class="p">)</span>
+
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Downloading model weights from </span><span class="si">{</span><span class="n">pretrained_model_name_or_path</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">AutoModelForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="n">cfg</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">)</span>
+        <span class="n">state_dict</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">state_dict</span><span class="p">()</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;adding model basic EasyDeL configurations.&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">cfg</span><span class="p">,</span> <span class="s1">&#39;add_jax_args&#39;</span><span class="p">):</span>
+            <span class="n">cfg</span><span class="o">.</span><span class="n">add_jax_args</span><span class="p">()</span>
+        <span class="n">cfg</span><span class="o">.</span><span class="n">add_basic_configurations</span><span class="p">(</span>
+            <span class="n">axis_dims</span><span class="o">=</span><span class="n">sharding_axis_dims</span><span class="p">,</span>
+            <span class="n">axis_names</span><span class="o">=</span><span class="n">sharding_axis_names</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">backend</span><span class="o">=</span><span class="n">backend</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">config_kwargs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">config_kwargs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                <span class="nb">setattr</span><span class="p">(</span><span class="n">cfg</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span>
+
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="s2">&quot;creating easydel model&quot;</span><span class="p">)</span>
+        <span class="n">ed_model</span> <span class="o">=</span> <span class="n">module</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">cfg</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span>
+        <span class="p">)</span>
+
+        <span class="n">needs</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">s</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;.kernel&quot;</span><span class="p">,</span> <span class="s2">&quot;.weight&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;.scale&quot;</span><span class="p">,</span> <span class="s2">&quot;.weight&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;.embedding&quot;</span><span class="p">,</span> <span class="s2">&quot;.weight&quot;</span><span class="p">)</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span>
+            <span class="nb">list</span><span class="p">(</span><span class="n">flax</span><span class="o">.</span><span class="n">traverse_util</span><span class="o">.</span><span class="n">flatten_dict</span><span class="p">(</span><span class="n">ed_model</span><span class="o">.</span><span class="n">params_shape_tree</span><span class="p">,</span> <span class="n">sep</span><span class="o">=</span><span class="s2">&quot;.&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+        <span class="p">]</span>
+        <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">state_dict</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+            <span class="k">if</span> <span class="n">k</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">needs</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;removing </span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> from weights as it was not needed by flax model&quot;</span><span class="p">)</span>
+                <span class="k">del</span> <span class="n">state_dict</span><span class="p">[</span><span class="n">k</span><span class="p">]</span>
+        <span class="k">if</span> <span class="n">shard_fns</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">auto_shard_params</span><span class="p">:</span>
+                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                    <span class="s2">&quot;`auto_shard_params` will be ignored since you are passing custom sharding functions&quot;</span>
+                <span class="p">)</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="s2">&quot;sharding model parameters based on the given shard_fns.&quot;</span><span class="p">)</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">is_flatten</span><span class="p">(</span><span class="n">shard_fns</span><span class="p">):</span>
+                <span class="n">shard_fns</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">traverse_util</span><span class="o">.</span><span class="n">flatten_dict</span><span class="p">(</span><span class="n">shard_fns</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="n">auto_shard_params</span><span class="p">:</span>
+            <span class="n">shard_fns</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">AutoShardAndGatherFunctions</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+                <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+                <span class="n">dtype_specs</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">partition_rules</span><span class="o">=</span><span class="n">partition_rules</span><span class="p">,</span>
+                <span class="n">sharding_axis_dims</span><span class="o">=</span><span class="n">sharding_axis_dims</span><span class="p">,</span>
+                <span class="n">sharding_axis_names</span><span class="o">=</span><span class="n">sharding_axis_names</span><span class="p">,</span>
+                <span class="n">query_partition_spec</span><span class="o">=</span><span class="n">query_partition_spec</span><span class="p">,</span>
+                <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+                <span class="n">key_partition_spec</span><span class="o">=</span><span class="n">key_partition_spec</span><span class="p">,</span>
+                <span class="n">value_partition_spec</span><span class="o">=</span><span class="n">value_partition_spec</span><span class="p">,</span>
+                <span class="n">bias_partition_spec</span><span class="o">=</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+                <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+                <span class="n">attention_partition_spec</span><span class="o">=</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+                <span class="n">shard_attention_computation</span><span class="o">=</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+                <span class="n">backend</span><span class="o">=</span><span class="n">backend</span><span class="p">,</span>
+                <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+                <span class="n">config_kwargs</span><span class="o">=</span><span class="n">config_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">with</span> <span class="n">cfg</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">():</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="s2">&quot;converting huggingface-model to easydel-model.&quot;</span><span class="p">)</span>
+            <span class="n">params_pattern_selection</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="k">if</span> <span class="n">load_in_8bit</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">bit_targeted_params</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                        <span class="s2">&quot;since `bit_targeted_params` is set to None, auto loader will convert all of&quot;</span>
+                        <span class="s2">&quot; kernels(weights) and embeddings to 8bit by default&quot;</span>
+                    <span class="p">)</span>
+                    <span class="n">bit_targeted_params</span> <span class="o">=</span> <span class="p">[</span>
+                        <span class="s2">&quot;kernel&quot;</span><span class="p">,</span>
+                        <span class="s2">&quot;embedding&quot;</span>
+                    <span class="p">]</span>
+
+                    <span class="n">params_pattern_selection</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="s2">&quot;(</span><span class="si">{}</span><span class="s2">)&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="s2">&quot;|&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">bit_targeted_params</span><span class="p">)))</span>
+
+            <span class="n">params</span> <span class="o">=</span> <span class="n">trf</span><span class="p">(</span>
+                <span class="n">state_dict</span><span class="p">,</span>
+                <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span>
+                <span class="n">shard_fns</span><span class="o">=</span><span class="n">shard_fns</span><span class="p">,</span>
+                <span class="n">convert_to_8bit</span><span class="o">=</span><span class="n">load_in_8bit</span><span class="p">,</span>
+                <span class="n">params_pattern_selection</span><span class="o">=</span><span class="n">params_pattern_selection</span><span class="p">,</span>
+                <span class="n">remove_state_dict</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="s2">&quot;deleting huggingface-model&quot;</span><span class="p">)</span>
+
+        <span class="k">del</span> <span class="n">state_dict</span>
+        <span class="k">del</span> <span class="n">model</span>
+        <span class="n">gc</span><span class="o">.</span><span class="n">collect</span><span class="p">()</span>
+
+        <span class="k">if</span> <span class="n">is_flatten</span><span class="p">(</span><span class="n">params</span><span class="p">):</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;converted parameters are flatten making them unflatten &quot;</span><span class="p">)</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">ed_model</span><span class="p">,</span> <span class="n">params</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.auto_easydel_model.AutoEasyDeLModelForCausalLM.from_pretrained" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="s1">&#39;cpu&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">param_dtype</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">precision</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s1">&#39;fastest&#39;</span><span class="p">),</span> <span class="n">sharding_axis_dims</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">sharding_axis_names</span><span class="o">=</span><span class="p">(</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="s1">&#39;sp&#39;</span><span class="p">),</span> <span class="n">query_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">key_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">value_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">bias_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">attention_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span> <span class="n">shard_attention_computation</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">shard_fns</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">backend</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">config_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">auto_shard_params</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">partition_rules</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">load_in_8bit</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">bit_targeted_params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-classmethod"><code>classmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Loads and shards a pretrained causal language model from the Hugging Face Hub and converts it into an
+EasyDeL compatible model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>pretrained_model_name_or_path</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Path or name of the pretrained model in the Hugging Face Hub.</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>device</code></td>
+            <td>
+                  <code><span title="jax.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Device to load the model on. Defaults to the first CPU.</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.devices">devices</span>(&#39;cpu&#39;)[0]</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Data type of the model. Defaults to jax.numpy.float32.</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.float32">float32</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>param_dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Data type of the model parameters. Defaults to jax.numpy.float32.</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.float32">float32</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>precision</code></td>
+            <td>
+                  <code><span title="jax.lax.Precision">Precision</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Precision for computations. Defaults to jax.lax.Precision("fastest").</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.lax.Precision">Precision</span>(&#39;fastest&#39;)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sharding_axis_dims</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Dimensions of each sharding axis. Defaults to (1, -1, 1, 1).</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, -1, 1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sharding_axis_names</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Names of the sharding axes. Defaults to ("dp", "fsdp", "tp", "sp").</p>
+              </div>
+            </td>
+            <td>
+                  <code>(&#39;dp&#39;, &#39;fsdp&#39;, &#39;tp&#39;, &#39;sp&#39;)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Partitioning specification for the query tensor. Defaults to
+PartitionSpec(("dp", "fsdp"), "sp", "tp", None).</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>generation_query_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Partitioning specification for the query tensor during
+generation. Defaults to PartitionSpec(("dp", "fsdp"), None, "tp", None).</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), None, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Partitioning specification for the key tensor. Defaults to
+PartitionSpec(("dp", "fsdp"), "sp", "tp", None).</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Partitioning specification for the value tensor. Defaults to
+PartitionSpec(("dp", "fsdp"), "sp", "tp", None).</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bias_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Partitioning specification for the attention bias. Defaults to
+PartitionSpec(("dp", "fsdp"), None, None, None).</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), None, None, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>generation_bias_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Partitioning specification for the attention bias during
+generation. Defaults to PartitionSpec(("dp", "fsdp"), None, None, None).</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), None, None, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Partitioning specification for the attention weights. Defaults to
+PartitionSpec(("dp", "fsdp"), "sp", "tp", None).</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>shard_attention_computation</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Whether to shard attention computation. Defaults to True.</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Shape of the input to the model. Defaults to (1, 1).</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>shard_fns</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Mapping">Mapping</span>[tuple, <span title="typing.Callable">Callable</span>] | dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sharding functions to use for the model. If None,
+auto-sharding is used if auto_shard_params is True. Defaults to None.</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>backend</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Backend to use for the model. Defaults to None.</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>config_kwargs</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Mapping">Mapping</span>[str, <span title="typing.Any">Any</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Configuration keyword arguments to pass to the model config.
+Defaults to None.</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>auto_shard_params</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Whether to automatically shard the model parameters. Defaults to False.</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>partition_rules</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Tuple">Tuple</span>[<span title="typing.Tuple">Tuple</span>[str, <span title="jax.sharding.PartitionSpec">PartitionSpec</span>]]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Custom partition rules for parameter
+sharding. If not None, shard_fns should also be provided. Defaults to None.</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>load_in_8bit</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Whether to load the model parameters in 8-bit precision. Defaults to False.</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bit_targeted_params</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.List">List</span>[str]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>List of parameter names to convert to 8-bit precision. If
+None and load_in_8bit is True, all kernels and embeddings are converted to 8-bit. Defaults to None.</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Additional keyword arguments to pass to the model and config classes.</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a>, dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[EasyDeLFlaxPretrainedModel, dict]: A tuple containing the EasyDeL model and the loaded and sharded
+model parameters.</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/auto_easydel_model.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@classmethod</span>
+<span class="k">def</span> <span class="nf">from_pretrained</span><span class="p">(</span>
+        <span class="bp">cls</span><span class="p">,</span>
+        <span class="n">pretrained_model_name_or_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+        <span class="n">device</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="s1">&#39;cpu&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">],</span>
+        <span class="n">dtype</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+        <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+        <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">),</span>
+        <span class="n">sharding_axis_dims</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">sharding_axis_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span>
+        <span class="n">query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">key_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">value_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">shard_attention_computation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">shard_fns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">tuple</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]</span> <span class="o">|</span> <span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">backend</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">config_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">auto_shard_params</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">partition_rules</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">],</span> <span class="o">...</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">load_in_8bit</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">bit_targeted_params</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">,</span> <span class="nb">dict</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Loads and shards a pretrained causal language model from the Hugging Face Hub and converts it into an</span>
+<span class="sd">    EasyDeL compatible model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        pretrained_model_name_or_path (str): Path or name of the pretrained model in the Hugging Face Hub.</span>
+<span class="sd">        device (jax.Array, optional): Device to load the model on. Defaults to the first CPU.</span>
+<span class="sd">        dtype (jax.numpy.dtype, optional): Data type of the model. Defaults to jax.numpy.float32.</span>
+<span class="sd">        param_dtype (jax.numpy.dtype, optional): Data type of the model parameters. Defaults to jax.numpy.float32.</span>
+<span class="sd">        precision (jax.lax.Precision, optional): Precision for computations. Defaults to jax.lax.Precision(&quot;fastest&quot;).</span>
+<span class="sd">        sharding_axis_dims (Sequence[int], optional): Dimensions of each sharding axis. Defaults to (1, -1, 1, 1).</span>
+<span class="sd">        sharding_axis_names (Sequence[str], optional): Names of the sharding axes. Defaults to (&quot;dp&quot;, &quot;fsdp&quot;, &quot;tp&quot;, &quot;sp&quot;).</span>
+<span class="sd">        query_partition_spec (PartitionSpec, optional): Partitioning specification for the query tensor. Defaults to</span>
+<span class="sd">            PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None).</span>
+<span class="sd">        generation_query_partition_spec (PartitionSpec, optional): Partitioning specification for the query tensor during</span>
+<span class="sd">            generation. Defaults to PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), None, &quot;tp&quot;, None).</span>
+<span class="sd">        key_partition_spec (PartitionSpec, optional): Partitioning specification for the key tensor. Defaults to</span>
+<span class="sd">            PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None).</span>
+<span class="sd">        value_partition_spec (PartitionSpec, optional): Partitioning specification for the value tensor. Defaults to</span>
+<span class="sd">            PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None).</span>
+<span class="sd">        bias_partition_spec (PartitionSpec, optional): Partitioning specification for the attention bias. Defaults to</span>
+<span class="sd">            PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), None, None, None).</span>
+<span class="sd">        generation_bias_partition_spec (PartitionSpec, optional): Partitioning specification for the attention bias during</span>
+<span class="sd">            generation. Defaults to PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), None, None, None).</span>
+<span class="sd">        attention_partition_spec (PartitionSpec, optional): Partitioning specification for the attention weights. Defaults to</span>
+<span class="sd">            PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None).</span>
+<span class="sd">        shard_attention_computation (bool, optional): Whether to shard attention computation. Defaults to True.</span>
+<span class="sd">        input_shape (Sequence[int], optional): Shape of the input to the model. Defaults to (1, 1).</span>
+<span class="sd">        shard_fns (Optional[Mapping[tuple, Callable] | dict], optional): Sharding functions to use for the model. If None,</span>
+<span class="sd">            auto-sharding is used if auto_shard_params is True. Defaults to None.</span>
+<span class="sd">        backend (Optional[str], optional): Backend to use for the model. Defaults to None.</span>
+<span class="sd">        config_kwargs (Optional[Mapping[str, Any]], optional): Configuration keyword arguments to pass to the model config.</span>
+<span class="sd">            Defaults to None.</span>
+<span class="sd">        auto_shard_params (bool, optional): Whether to automatically shard the model parameters. Defaults to False.</span>
+<span class="sd">        partition_rules (Optional[Tuple[Tuple[str, PartitionSpec]]], optional): Custom partition rules for parameter</span>
+<span class="sd">            sharding. If not None, shard_fns should also be provided. Defaults to None.</span>
+<span class="sd">        load_in_8bit (bool, optional): Whether to load the model parameters in 8-bit precision. Defaults to False.</span>
+<span class="sd">        bit_targeted_params (Optional[List[str]], optional): List of parameter names to convert to 8-bit precision. If</span>
+<span class="sd">            None and load_in_8bit is True, all kernels and embeddings are converted to 8-bit. Defaults to None.</span>
+<span class="sd">        **kwargs: Additional keyword arguments to pass to the model and config classes.</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        Tuple[EasyDeLFlaxPretrainedModel, dict]: A tuple containing the EasyDeL model and the loaded and sharded</span>
+<span class="sd">            model parameters.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Downloading model config from </span><span class="si">{</span><span class="n">pretrained_model_name_or_path</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+    <span class="n">config</span> <span class="o">=</span> <span class="n">AutoConfig</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">)</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">model_type</span>
+
+    <span class="n">cfg</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">trf</span> <span class="o">=</span> <span class="n">get_modules_by_type</span><span class="p">(</span><span class="n">model_type</span><span class="p">)</span>
+
+    <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Downloading model weights from </span><span class="si">{</span><span class="n">pretrained_model_name_or_path</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">AutoModelForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+    <span class="n">cfg</span> <span class="o">=</span> <span class="n">cfg</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">)</span>
+    <span class="n">state_dict</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">state_dict</span><span class="p">()</span>
+    <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;adding model basic EasyDeL configurations.&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">cfg</span><span class="p">,</span> <span class="s1">&#39;add_jax_args&#39;</span><span class="p">):</span>
+        <span class="n">cfg</span><span class="o">.</span><span class="n">add_jax_args</span><span class="p">()</span>
+    <span class="n">cfg</span><span class="o">.</span><span class="n">add_basic_configurations</span><span class="p">(</span>
+        <span class="n">axis_dims</span><span class="o">=</span><span class="n">sharding_axis_dims</span><span class="p">,</span>
+        <span class="n">axis_names</span><span class="o">=</span><span class="n">sharding_axis_names</span><span class="p">,</span>
+        <span class="n">query_partition_spec</span><span class="o">=</span><span class="n">query_partition_spec</span><span class="p">,</span>
+        <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+        <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+        <span class="n">key_partition_spec</span><span class="o">=</span><span class="n">key_partition_spec</span><span class="p">,</span>
+        <span class="n">value_partition_spec</span><span class="o">=</span><span class="n">value_partition_spec</span><span class="p">,</span>
+        <span class="n">bias_partition_spec</span><span class="o">=</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+        <span class="n">attention_partition_spec</span><span class="o">=</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+        <span class="n">backend</span><span class="o">=</span><span class="n">backend</span><span class="p">,</span>
+        <span class="n">shard_attention_computation</span><span class="o">=</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="k">if</span> <span class="n">config_kwargs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">config_kwargs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="nb">setattr</span><span class="p">(</span><span class="n">cfg</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span>
+
+    <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="s2">&quot;creating easydel model&quot;</span><span class="p">)</span>
+    <span class="n">ed_model</span> <span class="o">=</span> <span class="n">module</span><span class="p">(</span>
+        <span class="n">config</span><span class="o">=</span><span class="n">cfg</span><span class="p">,</span>
+        <span class="n">_do_init</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+        <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span>
+    <span class="p">)</span>
+
+    <span class="n">needs</span> <span class="o">=</span> <span class="p">[</span>
+        <span class="n">s</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;.kernel&quot;</span><span class="p">,</span> <span class="s2">&quot;.weight&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;.scale&quot;</span><span class="p">,</span> <span class="s2">&quot;.weight&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;.embedding&quot;</span><span class="p">,</span> <span class="s2">&quot;.weight&quot;</span><span class="p">)</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span>
+        <span class="nb">list</span><span class="p">(</span><span class="n">flax</span><span class="o">.</span><span class="n">traverse_util</span><span class="o">.</span><span class="n">flatten_dict</span><span class="p">(</span><span class="n">ed_model</span><span class="o">.</span><span class="n">params_shape_tree</span><span class="p">,</span> <span class="n">sep</span><span class="o">=</span><span class="s2">&quot;.&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+    <span class="p">]</span>
+    <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">state_dict</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+        <span class="k">if</span> <span class="n">k</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">needs</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;removing </span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> from weights as it was not needed by flax model&quot;</span><span class="p">)</span>
+            <span class="k">del</span> <span class="n">state_dict</span><span class="p">[</span><span class="n">k</span><span class="p">]</span>
+    <span class="k">if</span> <span class="n">shard_fns</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">auto_shard_params</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;`auto_shard_params` will be ignored since you are passing custom sharding functions&quot;</span>
+            <span class="p">)</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="s2">&quot;sharding model parameters based on the given shard_fns.&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">is_flatten</span><span class="p">(</span><span class="n">shard_fns</span><span class="p">):</span>
+            <span class="n">shard_fns</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">traverse_util</span><span class="o">.</span><span class="n">flatten_dict</span><span class="p">(</span><span class="n">shard_fns</span><span class="p">)</span>
+    <span class="k">elif</span> <span class="n">auto_shard_params</span><span class="p">:</span>
+        <span class="n">shard_fns</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">AutoShardAndGatherFunctions</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+            <span class="n">dtype_specs</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">partition_rules</span><span class="o">=</span><span class="n">partition_rules</span><span class="p">,</span>
+            <span class="n">sharding_axis_dims</span><span class="o">=</span><span class="n">sharding_axis_dims</span><span class="p">,</span>
+            <span class="n">sharding_axis_names</span><span class="o">=</span><span class="n">sharding_axis_names</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">backend</span><span class="o">=</span><span class="n">backend</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+            <span class="n">config_kwargs</span><span class="o">=</span><span class="n">config_kwargs</span>
+        <span class="p">)</span>
+    <span class="k">with</span> <span class="n">cfg</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">():</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="s2">&quot;converting huggingface-model to easydel-model.&quot;</span><span class="p">)</span>
+        <span class="n">params_pattern_selection</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">if</span> <span class="n">load_in_8bit</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">bit_targeted_params</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                    <span class="s2">&quot;since `bit_targeted_params` is set to None, auto loader will convert all of&quot;</span>
+                    <span class="s2">&quot; kernels(weights) and embeddings to 8bit by default&quot;</span>
+                <span class="p">)</span>
+                <span class="n">bit_targeted_params</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="s2">&quot;kernel&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;embedding&quot;</span>
+                <span class="p">]</span>
+
+                <span class="n">params_pattern_selection</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="s2">&quot;(</span><span class="si">{}</span><span class="s2">)&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="s2">&quot;|&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">bit_targeted_params</span><span class="p">)))</span>
+
+        <span class="n">params</span> <span class="o">=</span> <span class="n">trf</span><span class="p">(</span>
+            <span class="n">state_dict</span><span class="p">,</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span>
+            <span class="n">shard_fns</span><span class="o">=</span><span class="n">shard_fns</span><span class="p">,</span>
+            <span class="n">convert_to_8bit</span><span class="o">=</span><span class="n">load_in_8bit</span><span class="p">,</span>
+            <span class="n">params_pattern_selection</span><span class="o">=</span><span class="n">params_pattern_selection</span><span class="p">,</span>
+            <span class="n">remove_state_dict</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+    <span class="n">logger</span><span class="o">.</span><span class="n">debug</span><span class="p">(</span><span class="s2">&quot;deleting huggingface-model&quot;</span><span class="p">)</span>
+
+    <span class="k">del</span> <span class="n">state_dict</span>
+    <span class="k">del</span> <span class="n">model</span>
+    <span class="n">gc</span><span class="o">.</span><span class="n">collect</span><span class="p">()</span>
+
+    <span class="k">if</span> <span class="n">is_flatten</span><span class="p">(</span><span class="n">params</span><span class="p">):</span>
+        <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;converted parameters are flatten making them unflatten &quot;</span><span class="p">)</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">ed_model</span><span class="p">,</span> <span class="n">params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.auto_easydel_model.get_modules_by_type" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_modules_by_type</span><span class="p">(</span><span class="n">model_type</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+
+<details class="the-get_modules_by_type-function-is-a-helper-function-that-returns-the-following" open>
+  <summary>The get_modules_by_type function is a helper function that returns the following</summary>
+  <ol>
+<li>The config class for the model type specified (e.g., LlamaConfig, FalconConfig)</li>
+<li>The Flax Model class for the model type specified (e.g., FlaxLlamaForCausalLM, FlaxFalconForCausalLM)</li>
+<li>A function to convert a HuggingFace pretrained checkpoint into an easydel checkpoint</li>
+</ol>
+</details>      <p>:param model_type: str: Determine which model to use
+:return: A tuple of three elements (BaseConfig,BaseModel,Func To Transform Model from Torch to EasyDeL)</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/auto_easydel_model.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_modules_by_type</span><span class="p">(</span><span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span>
+    <span class="n">Type</span><span class="p">[</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">],</span> <span class="n">Type</span><span class="p">[</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">]</span> <span class="o">|</span> <span class="n">Any</span><span class="p">,</span> <span class="n">partial</span> <span class="o">|</span> <span class="n">Any</span>
+<span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The get_modules_by_type function is a helper function that returns the following:</span>
+<span class="sd">        1. The config class for the model type specified (e.g., LlamaConfig, FalconConfig)</span>
+<span class="sd">        2. The Flax Model class for the model type specified (e.g., FlaxLlamaForCausalLM, FlaxFalconForCausalLM)</span>
+<span class="sd">        3. A function to convert a HuggingFace pretrained checkpoint into an easydel checkpoint</span>
+
+<span class="sd">    :param model_type: str: Determine which model to use</span>
+<span class="sd">    :return: A tuple of three elements (BaseConfig,BaseModel,Func To Transform Model from Torch to EasyDeL)</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;llama&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.llama</span> <span class="kn">import</span> <span class="n">LlamaConfig</span> <span class="k">as</span> <span class="n">_LlamaConfig</span>
+        <span class="kn">from</span> <span class="nn">.llama</span> <span class="kn">import</span> <span class="n">FlaxLlamaForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxLlamaForCausalLM</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_LlamaConfig</span><span class="p">,</span>
+            <span class="n">_FlaxLlamaForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;gemma&quot;</span><span class="p">:</span>
+
+        <span class="kn">from</span> <span class="nn">.gemma</span> <span class="kn">import</span> <span class="n">GemmaConfig</span> <span class="k">as</span> <span class="n">_GemmaConfig</span>
+        <span class="kn">from</span> <span class="nn">.gemma</span> <span class="kn">import</span> <span class="n">FlaxGemmaForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxGemmaForCausalLM</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_GemmaConfig</span><span class="p">,</span>
+            <span class="n">_FlaxGemmaForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;falcon&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.falcon</span> <span class="kn">import</span> <span class="n">FlaxFalconForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxFalconForCausalLM</span>
+        <span class="kn">from</span> <span class="nn">.falcon</span> <span class="kn">import</span> <span class="n">FalconConfig</span> <span class="k">as</span> <span class="n">_FalconConfig</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_FalconConfig</span><span class="p">,</span>
+            <span class="n">_FlaxFalconForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;word_embeddings&quot;</span><span class="p">],</span>
+                <span class="n">layer_norm_names</span><span class="o">=</span><span class="p">[</span>
+                    <span class="s2">&quot;input_layernorm&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;ln_f&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;ln_attn&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;ln_mlp&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;post_attention_layernorm&quot;</span>
+                <span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;mpt&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.mosaic_mpt</span> <span class="kn">import</span> <span class="n">FlaxMptForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxMptForCausalLM</span>
+        <span class="kn">from</span> <span class="nn">.mosaic_mpt</span> <span class="kn">import</span> <span class="n">MptConfig</span> <span class="k">as</span> <span class="n">_MptConfig</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_MptConfig</span><span class="p">,</span>
+            <span class="n">_FlaxMptForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;wte&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="n">layer_norm_names</span><span class="o">=</span><span class="p">[</span>
+                    <span class="s2">&quot;norm_1&quot;</span><span class="p">,</span> <span class="s2">&quot;norm_2&quot;</span><span class="p">,</span> <span class="s2">&quot;norm_f&quot;</span>
+                <span class="p">]</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;mistral&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.mistral</span> <span class="kn">import</span> <span class="n">FlaxMistralForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxMistralForCausalLM</span>
+        <span class="kn">from</span> <span class="nn">.mistral</span> <span class="kn">import</span> <span class="n">MistralConfig</span> <span class="k">as</span> <span class="n">_MistralConfig</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_MistralConfig</span><span class="p">,</span>
+            <span class="n">_FlaxMistralForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;gptj&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.gpt_j</span> <span class="kn">import</span> <span class="n">FlaxGPTJForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxGPTJForCausalLM</span>
+        <span class="kn">from</span> <span class="nn">.gpt_j</span> <span class="kn">import</span> <span class="n">GPTJConfig</span> <span class="k">as</span> <span class="n">_GPTJConfig</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_GPTJConfig</span><span class="p">,</span>
+            <span class="n">_FlaxGPTJForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="s2">&quot;wte&quot;</span><span class="p">,</span>
+                <span class="n">layer_norm_names</span><span class="o">=</span><span class="p">[</span>
+                    <span class="s2">&quot;ln_1&quot;</span><span class="p">,</span> <span class="s2">&quot;ln_2&quot;</span><span class="p">,</span> <span class="s2">&quot;ln_f&quot;</span><span class="p">,</span>
+                <span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;gpt_neox&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.gpt_neo_x</span> <span class="kn">import</span> <span class="n">FlaxGPTNeoXForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxGPTNeoXForCausalLM</span>
+        <span class="kn">from</span> <span class="nn">.gpt_neo_x</span> <span class="kn">import</span> <span class="n">GPTNeoXConfig</span> <span class="k">as</span> <span class="n">_GPTNeoXConfig</span>
+
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_GPTNeoXConfig</span><span class="p">,</span>
+            <span class="n">_FlaxGPTNeoXForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="s2">&quot;wte&quot;</span><span class="p">,</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;palm&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.palm</span> <span class="kn">import</span> <span class="n">FlaxPalmForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxPalmForCausalLM</span>
+        <span class="kn">from</span> <span class="nn">.palm</span> <span class="kn">import</span> <span class="n">PalmConfig</span> <span class="k">as</span> <span class="n">_PalmConfig</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_PalmConfig</span><span class="p">,</span>
+            <span class="n">_FlaxPalmForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="s2">&quot;wte&quot;</span><span class="p">,</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;lt&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.lucid_transformer</span> <span class="kn">import</span> <span class="n">FlaxLTForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxLTForCausalLM</span>
+        <span class="kn">from</span> <span class="nn">.lucid_transformer</span> <span class="kn">import</span> <span class="n">FlaxLTConfig</span> <span class="k">as</span> <span class="n">_FlaxLTConfig</span>
+
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_FlaxLTConfig</span><span class="p">,</span>
+            <span class="n">_FlaxLTForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="s2">&quot;wte&quot;</span><span class="p">,</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;gpt2&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.gpt2</span> <span class="kn">import</span> <span class="n">FlaxGPT2LMHeadModel</span> <span class="k">as</span> <span class="n">_FlaxGPT2LMHeadModel</span>
+        <span class="kn">from</span> <span class="nn">.gpt2</span> <span class="kn">import</span> <span class="n">GPT2Config</span> <span class="k">as</span> <span class="n">_GPT2Config</span>
+
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_GPT2Config</span><span class="p">,</span>
+            <span class="n">_FlaxGPT2LMHeadModel</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;wte&quot;</span><span class="p">,</span> <span class="s2">&quot;wpe&quot;</span><span class="p">],</span>
+                <span class="n">layer_norm_names</span><span class="o">=</span><span class="p">[</span>
+                    <span class="s2">&quot;ln_1&quot;</span><span class="p">,</span> <span class="s2">&quot;ln_2&quot;</span><span class="p">,</span> <span class="s2">&quot;ln_f&quot;</span>
+                <span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;mixtral&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.mixtral</span> <span class="kn">import</span> <span class="n">FlaxMixtralForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxMixtralForCausalLM</span>
+        <span class="kn">from</span> <span class="nn">.mixtral</span> <span class="kn">import</span> <span class="n">MixtralConfig</span> <span class="k">as</span> <span class="n">_MixtralConfig</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_MixtralConfig</span><span class="p">,</span>
+            <span class="n">_FlaxMixtralForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;phi&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.phi</span> <span class="kn">import</span> <span class="n">FlaxPhiForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxPhiForCausalLM</span>
+        <span class="kn">from</span> <span class="nn">.phi</span> <span class="kn">import</span> <span class="n">PhiConfig</span> <span class="k">as</span> <span class="n">_PhiConfig</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_PhiConfig</span><span class="p">,</span>
+            <span class="n">_FlaxPhiForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">],</span>
+                <span class="n">layer_norm_names</span><span class="o">=</span><span class="p">[</span>
+                    <span class="s2">&quot;input_layernorm&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;final_layernorm&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;q_layernorm&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;k_layernorm&quot;</span>
+                <span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;qwen&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.qwen1</span> <span class="kn">import</span> <span class="n">Qwen1Config</span> <span class="k">as</span> <span class="n">_Qwen1Config</span>
+        <span class="kn">from</span> <span class="nn">.qwen1</span> <span class="kn">import</span> <span class="n">FlaxQwen1ForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxQwen1ForCausalLM</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_Qwen1Config</span><span class="p">,</span>
+            <span class="n">_FlaxQwen1ForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;wte&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;qwen2&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.qwen2</span> <span class="kn">import</span> <span class="n">Qwen2Config</span> <span class="k">as</span> <span class="n">_Qwen2Config</span>
+        <span class="kn">from</span> <span class="nn">.qwen2</span> <span class="kn">import</span> <span class="n">FlaxQwen2ForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxQwen2ForCausalLM</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_Qwen2Config</span><span class="p">,</span>
+            <span class="n">_FlaxQwen2ForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;stablelm&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.stablelm</span> <span class="kn">import</span> <span class="n">StableLmConfig</span> <span class="k">as</span> <span class="n">_StableLmConfig</span>
+        <span class="kn">from</span> <span class="nn">.stablelm</span> <span class="kn">import</span> <span class="n">FlaxStableLmForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxStableLmForCausalLM</span>
+
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_StableLmConfig</span><span class="p">,</span>
+            <span class="n">_FlaxStableLmForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">],</span>
+                <span class="n">layer_norm_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;input_layernorm&quot;</span><span class="p">,</span> <span class="s2">&quot;post_attention_layernorm&quot;</span><span class="p">,</span> <span class="s2">&quot;norm&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;rwkv&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.rwkv</span> <span class="kn">import</span> <span class="n">RwkvConfig</span> <span class="k">as</span> <span class="n">_RwkvConfig</span>
+        <span class="kn">from</span> <span class="nn">.rwkv</span> <span class="kn">import</span> <span class="n">FlaxRwkvForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxRwkvForCausalLM</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_RwkvConfig</span><span class="p">,</span>
+            <span class="n">_FlaxRwkvForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embeddings&quot;</span><span class="p">],</span>
+                <span class="n">layer_norm_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;ln_out&quot;</span><span class="p">,</span> <span class="s2">&quot;ln2&quot;</span><span class="p">,</span> <span class="s2">&quot;ln1&quot;</span><span class="p">,</span> <span class="s2">&quot;pre_ln&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;mamba&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.mamba</span> <span class="kn">import</span> <span class="n">MambaConfig</span> <span class="k">as</span> <span class="n">_MambaConfig</span>
+        <span class="kn">from</span> <span class="nn">.mamba</span> <span class="kn">import</span> <span class="n">FlaxMambaForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxMambaForCausalLM</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_MambaConfig</span><span class="p">,</span>
+            <span class="n">_FlaxMambaForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embeddings&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;grok-1&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.grok_1</span> <span class="kn">import</span> <span class="n">Grok1Config</span> <span class="k">as</span> <span class="n">_Grok1Config</span>
+        <span class="kn">from</span> <span class="nn">.grok_1</span> <span class="kn">import</span> <span class="n">FlaxGrok1ForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxGrok1ForCausalLM</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_Grok1Config</span><span class="p">,</span>
+            <span class="n">_FlaxGrok1ForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;qwen2_moe&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.qwen2_moe</span> <span class="kn">import</span> <span class="n">Qwen2MoeConfig</span> <span class="k">as</span> <span class="n">_Qwen2MoeConfig</span>
+        <span class="kn">from</span> <span class="nn">.qwen2_moe</span> <span class="kn">import</span> <span class="n">FlaxQwen2MoeForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxQwen2MoeForCausalLM</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_Qwen2MoeConfig</span><span class="p">,</span>
+            <span class="n">_FlaxQwen2MoeForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;cohere&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.cohere</span> <span class="kn">import</span> <span class="n">CohereConfig</span> <span class="k">as</span> <span class="n">_CohereConfig</span>
+        <span class="kn">from</span> <span class="nn">.cohere</span> <span class="kn">import</span> <span class="n">FlaxCohereForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxCohereForCausalLM</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_CohereConfig</span><span class="p">,</span>
+            <span class="n">_FlaxCohereForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;dbrx&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.dbrx</span> <span class="kn">import</span> <span class="n">DbrxConfig</span> <span class="k">as</span> <span class="n">_DbrxConfig</span>
+        <span class="kn">from</span> <span class="nn">.dbrx</span> <span class="kn">import</span> <span class="n">FlaxDbrxForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxDbrxForCausalLM</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_DbrxConfig</span><span class="p">,</span>
+            <span class="n">_FlaxDbrxForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;wte&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="n">layer_norm_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;norm_1&quot;</span><span class="p">,</span> <span class="s2">&quot;norm_2&quot;</span><span class="p">,</span> <span class="s2">&quot;norm_f&quot;</span><span class="p">]</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;phi3&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.phi3</span> <span class="kn">import</span> <span class="n">Phi3Config</span> <span class="k">as</span> <span class="n">_Phi3Config</span>
+        <span class="kn">from</span> <span class="nn">.phi3</span> <span class="kn">import</span> <span class="n">FlaxPhi3ForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxPhi3ForCausalLM</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_Phi3Config</span><span class="p">,</span>
+            <span class="n">_FlaxPhi3ForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;arctic&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.arctic</span> <span class="kn">import</span> <span class="n">ArcticConfig</span> <span class="k">as</span> <span class="n">_ArcticConfig</span>
+        <span class="kn">from</span> <span class="nn">.arctic</span> <span class="kn">import</span> <span class="n">FlaxArcticForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxArcticForCausalLM</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_ArcticConfig</span><span class="p">,</span>
+            <span class="n">_FlaxArcticForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;openelm&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.openelm</span> <span class="kn">import</span> <span class="n">OpenELMConfig</span> <span class="k">as</span> <span class="n">_OpenELMConfig</span>
+        <span class="kn">from</span> <span class="nn">.openelm</span> <span class="kn">import</span> <span class="n">FlaxOpenELMForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxOpenELMForCausalLM</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_OpenELMConfig</span><span class="p">,</span>
+            <span class="n">_FlaxOpenELMForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;token_embeddings&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;deepseek_v2&quot;</span><span class="p">:</span>
+        <span class="kn">from</span> <span class="nn">.deepseek_v2</span> <span class="kn">import</span> <span class="n">DeepseekV2Config</span> <span class="k">as</span> <span class="n">_DeepseekV2Config</span>
+        <span class="kn">from</span> <span class="nn">.deepseek_v2</span> <span class="kn">import</span> <span class="n">FlaxDeepseekV2ForCausalLM</span> <span class="k">as</span> <span class="n">_FlaxDeepseekV2ForCausalLM</span>
+
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">_DeepseekV2Config</span><span class="p">,</span>
+            <span class="n">_FlaxDeepseekV2ForCausalLM</span><span class="p">,</span>
+            <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">huggingface_to_easydel</span><span class="p">,</span>
+                <span class="n">embedding_layer_names</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">],</span>
+                <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">raise</span> <span class="n">EasyDeLRuntimeError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Model Type (</span><span class="si">{</span><span class="n">model_type</span><span class="si">}</span><span class="s1">) is not supported or is not found&#39;</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.auto_easydel_model.is_flatten" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">is_flatten</span><span class="p">(</span><span class="n">pytree</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The is_flatten function checks if the pytree is flattened.
+    If it is, then the first key in the dictionary will be a tuple of (mpl, mpl_id).
+    Otherwise, it will be an integer representing mpl_id.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>pytree</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass the pytree to the function</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>True if the pytree is a flattened tree, and false otherwise</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/auto_easydel_model.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">is_flatten</span><span class="p">(</span><span class="n">pytree</span><span class="p">:</span> <span class="nb">dict</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The is_flatten function checks if the pytree is flattened.</span>
+<span class="sd">        If it is, then the first key in the dictionary will be a tuple of (mpl, mpl_id).</span>
+<span class="sd">        Otherwise, it will be an integer representing mpl_id.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        pytree: dict: Pass the pytree to the function</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        True if the pytree is a flattened tree, and false otherwise</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">mpl</span> <span class="o">=</span> <span class="p">[</span><span class="n">k</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">pytree</span><span class="o">.</span><span class="n">keys</span><span class="p">()][</span><span class="mi">0</span><span class="p">]</span>
+    <span class="k">return</span> <span class="kc">True</span> <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">mpl</span><span class="p">,</span> <span class="nb">tuple</span><span class="p">)</span> <span class="k">else</span> <span class="kc">False</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-cohere-cohere_configuration/index.html b/generated-modules-cohere-cohere_configuration/index.html
new file mode 100644
index 000000000..8b2c734d7
--- /dev/null
+++ b/generated-modules-cohere-cohere_configuration/index.html
@@ -0,0 +1,6754 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-auto_easydel_model/">
+      
+      
+        <link rel="next" href="../generated-modules-cohere-modelling_cohere_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Cohere Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulescoherecohere_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Cohere Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.cohere_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      cohere_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.cohere_configuration.CohereConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      CohereConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="CohereConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.cohere_configuration.CohereConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.cohere_configuration.CohereConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.cohere_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      cohere_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.cohere_configuration.CohereConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      CohereConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="CohereConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.cohere_configuration.CohereConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.cohere_configuration.CohereConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulescoherecohere_configuration">modules.cohere.cohere_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.cohere.cohere_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.cohere.cohere_configuration.CohereConfig" class="doc doc-heading">
+            <code>CohereConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/cohere/cohere_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  8</span>
+<span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">CohereConfig</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;cohere&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">256000</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">8192</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">22528</span><span class="p">,</span>
+            <span class="n">logit_scale</span><span class="o">=</span><span class="mf">0.0625</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">40</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">64</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">hidden_act</span><span class="o">=</span><span class="s2">&quot;silu&quot;</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">8192</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">layer_norm_eps</span><span class="o">=</span><span class="mf">1e-5</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">5</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">255001</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span>
+            <span class="n">attention_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">use_qk_norm</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">logit_scale</span> <span class="o">=</span> <span class="n">logit_scale</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_qk_norm</span> <span class="o">=</span> <span class="n">use_qk_norm</span>
+        <span class="c1"># for backward compatibility</span>
+        <span class="k">if</span> <span class="n">num_key_value_heads</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm_eps</span> <span class="o">=</span> <span class="n">layer_norm_eps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="n">pad_token_id</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">            1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">                partition the model fully or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;linear/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;linear_1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;linear_v/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;post_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;pre_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;pre_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;linear/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;linear_1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;linear_v/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;post_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;pre_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;pre_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;post_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the current object</span>
+<span class="sd">            tie_word_embeddings: bool: Tie the word embeddings to the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">                used by jax</span>
+<span class="sd">            bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">                the quantization</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tie_word_embeddings</span> <span class="o">=</span> <span class="n">tie_word_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_weight_decay_exclusions</span><span class="p">():</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">rng_keys</span><span class="p">():</span>
+        <span class="k">return</span> <span class="s1">&#39;params&#39;</span><span class="p">,</span> <span class="s1">&#39;dropout&#39;</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.cohere.cohere_configuration.CohereConfig.add_jax_args" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_jax_args</span><span class="p">(</span><span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The add_jax_args function adds the following arguments to the Transformer class:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the current object</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tie_word_embeddings</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Tie the word embeddings to the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Control the amount of memory
+used by jax</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Determine the number of bits used in
+the quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/cohere/cohere_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">tie_word_embeddings</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the current object</span>
+<span class="sd">        tie_word_embeddings: bool: Tie the word embeddings to the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">            used by jax</span>
+<span class="sd">        bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">            the quantization</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tie_word_embeddings</span> <span class="o">=</span> <span class="n">tie_word_embeddings</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.cohere.cohere_configuration.CohereConfig.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+    1) A regex string that matches the name of one or more parameters in the model.
+    2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to
+partition the model fully or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/cohere/cohere_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">        1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">            partition the model fully or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;linear/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;linear_1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;linear_v/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;post_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;pre_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;pre_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;linear/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;linear_1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;linear_v/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;post_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;pre_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;pre_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;post_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-cohere-modelling_cohere_flax/index.html b/generated-modules-cohere-modelling_cohere_flax/index.html
new file mode 100644
index 000000000..ffff2800f
--- /dev/null
+++ b/generated-modules-cohere-modelling_cohere_flax/index.html
@@ -0,0 +1,12560 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-cohere-cohere_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-dbrx-dbrx_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Cohere Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulescoheremodelling_cohere_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Cohere Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_cohere_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCohereAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCohereAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlock" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCohereBlock
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCohereBlock">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlock.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlockCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCohereBlockCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCohereBlockCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlockCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCohereForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCohereForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCohereForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCohereForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereMLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCohereMLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCohereMLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereMLP.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCohereModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCohereModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCoherePreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCoherePreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.init_cache" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_cache
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_cohere_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCohereAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCohereAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlock" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCohereBlock
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCohereBlock">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlock.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlockCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCohereBlockCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCohereBlockCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlockCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCohereForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCohereForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCohereForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCohereForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereMLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCohereMLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCohereMLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereMLP.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCohereModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCohereModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxCoherePreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxCoherePreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.init_cache" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_cache
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulescoheremodelling_cohere_flax">modules.cohere.modelling_cohere_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.cohere.modelling_cohere_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereAttention" class="doc doc-heading">
+            <code>FlaxCohereAttention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxCohereAttention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">CohereConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+
+        <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">use_qk_norm</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">q_norm</span> <span class="o">=</span> <span class="n">RMSNorm</span><span class="p">(</span>
+                <span class="n">dim</span><span class="o">=</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">),</span>
+                <span class="n">eps</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">layer_norm_eps</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">do_t</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">k_norm</span> <span class="o">=</span> <span class="n">RMSNorm</span><span class="p">(</span>
+                <span class="n">dim</span><span class="o">=</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,),</span>
+                <span class="n">eps</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">layer_norm_eps</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">do_t</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span> <span class="o">=</span> <span class="n">FlaxCohereEmbedding</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">use_sharding_constraint</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span><span class="p">,</span>
+            <span class="n">backward_pass_impl</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">flash_attention_backward_pass_impl</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _transpose_sequence_head function transposes the query, key and value matrices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            query: Get the attention weights for each of the heads</span>
+<span class="sd">            key: Determine the number of heads</span>
+<span class="sd">            value: Store the values of the input</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The transpose of the query, key and value matrices</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">            sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">            query: Calculate the attention weights</span>
+<span class="sd">            key: Calculate the attention</span>
+<span class="sd">            value: Compute the attention weights</span>
+<span class="sd">            freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">                vocabulary</span>
+<span class="sd">            position_ids: Identify the position of each token in the</span>
+<span class="sd">                sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 tensors: query, key and value</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">        and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency coefficients for each position</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+<span class="sd">            fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">                and output tokens</span>
+<span class="sd">        :param : Determine if the attention is causal or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two arrays</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="p">(</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span>
+        <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_qk_norm</span><span class="p">:</span>
+            <span class="n">query_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_norm</span><span class="p">(</span><span class="n">query_states</span><span class="p">)</span>
+            <span class="n">key_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_norm</span><span class="p">(</span><span class="n">key_states</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+        <span class="p">)</span>
+
+        <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span>
+                <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+
+        <span class="c1"># if self.config.use_sharding_constraint:</span>
+        <span class="c1">#     query_states = with_sharding_constraint(</span>
+        <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     key_states = with_sharding_constraint(</span>
+        <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     value_states = with_sharding_constraint(</span>
+        <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span><span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereAttention.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module. It defines how the module behaves when called
+with inputs. The <strong>call</strong> function can be thought of as a &quot;forward pass&quot; through the model,
+and it should return all outputs that are needed for training or inference.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the hidden states of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency coefficients for each position</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the future tokens in the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the attention weights between the input
+and output tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine if the attention is causal or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two arrays</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">    and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency coefficients for each position</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+<span class="sd">        fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">            and output tokens</span>
+<span class="sd">    :param : Determine if the attention is causal or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two arrays</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+    <span class="p">(</span>
+        <span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span>
+    <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_qk_norm</span><span class="p">:</span>
+        <span class="n">query_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_norm</span><span class="p">(</span><span class="n">query_states</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_norm</span><span class="p">(</span><span class="n">key_states</span><span class="p">)</span>
+    <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+        <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+    <span class="p">)</span>
+
+    <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">)</span>
+
+    <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+        <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+        <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+        <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+    <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+        <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+        <span class="p">)</span>
+
+    <span class="c1"># if self.config.use_sharding_constraint:</span>
+    <span class="c1">#     query_states = with_sharding_constraint(</span>
+    <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     key_states = with_sharding_constraint(</span>
+    <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     value_states = with_sharding_constraint(</span>
+    <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+        <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+        <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+        <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+    <span class="p">)</span>
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                <span class="s2">&quot;tp&quot;</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span><span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereAttention.apply_rotary" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rotary</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class.
+The main difference is that it takes in an additional argument, freq_cis, which are used to calculate
+the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sequence_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Compute the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the frequency of each word in the
+vocabulary</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Identify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 tensors: query, key and value</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">        sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">        query: Calculate the attention weights</span>
+<span class="sd">        key: Calculate the attention</span>
+<span class="sd">        value: Compute the attention weights</span>
+<span class="sd">        freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">            vocabulary</span>
+<span class="sd">        position_ids: Identify the position of each token in the</span>
+<span class="sd">            sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 tensors: query, key and value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlock" class="doc doc-heading">
+            <code>FlaxCohereBlock</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxCohereBlock</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">CohereConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attn_block</span> <span class="o">=</span> <span class="n">FlaxCohereAttention</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">attn_block</span> <span class="o">=</span> <span class="n">re_mat</span><span class="p">(</span>
+                <span class="n">FlaxCohereAttention</span><span class="p">,</span> <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">6</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">8</span><span class="p">),</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="p">)</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span> <span class="o">=</span> <span class="n">attn_block</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">FlaxCohereMLP</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">re_mat</span><span class="p">(</span>
+                <span class="n">FlaxCohereMLP</span><span class="p">,</span> <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,),</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span> <span class="o">=</span> <span class="n">mlp_block</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span> <span class="o">=</span> <span class="n">RMSNorm</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">layer_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">        It takes in hidden states, frequency-domain inputs, and masks as input. It then</span>
+<span class="sd">        applies self-attention to the hidden states using those inputs and returns an</span>
+<span class="sd">        output tensor with shape (batch_size, sequence_length, model_dim).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the class instance itself</span>
+<span class="sd">            hidden_states: chex.Array: Pass in the hidden state of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency information</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in the sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">            deterministic: bool: Control whether the dropout is applied</span>
+<span class="sd">                or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache in the attention</span>
+<span class="sd">                layer</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            fcm_mask: Optional[jnp.ndarray]: Mask the self-attention</span>
+<span class="sd">        :param : Control the dropout in the self attention layer</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two items</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">residual</span> <span class="o">=</span> <span class="n">hidden_states</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">attn_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="n">feed_forward_input</span> <span class="o">=</span> <span class="n">hidden_states</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_scan_mlp</span><span class="p">:</span>
+            <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="n">block_wise_ffn</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">,</span>
+                <span class="n">feed_forward_input</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">(</span>
+                <span class="n">feed_forward_input</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="p">,</span>
+            <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">attn_output</span> <span class="o">+</span> <span class="n">feed_forward_hidden_states</span> <span class="o">+</span> <span class="n">residual</span>
+
+        <span class="k">return</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlock.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a TransformerEncoderLayer.
+It takes in hidden states, frequency-domain inputs, and masks as input. It then
+applies self-attention to the hidden states using those inputs and returns an
+output tensor with shape (batch_size, sequence_length, model_dim).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the class instance itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the hidden state of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency information</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for padding tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the dropout is applied
+or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache in the attention
+layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="jax.numpy.ndarray">ndarray</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[jnp.ndarray]: Mask the self-attention</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Control the dropout in the self attention layer</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two items</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">    It takes in hidden states, frequency-domain inputs, and masks as input. It then</span>
+<span class="sd">    applies self-attention to the hidden states using those inputs and returns an</span>
+<span class="sd">    output tensor with shape (batch_size, sequence_length, model_dim).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the class instance itself</span>
+<span class="sd">        hidden_states: chex.Array: Pass in the hidden state of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency information</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in the sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">        deterministic: bool: Control whether the dropout is applied</span>
+<span class="sd">            or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache in the attention</span>
+<span class="sd">            layer</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        fcm_mask: Optional[jnp.ndarray]: Mask the self-attention</span>
+<span class="sd">    :param : Control the dropout in the self attention layer</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two items</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">residual</span> <span class="o">=</span> <span class="n">hidden_states</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="n">attn_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+    <span class="n">feed_forward_input</span> <span class="o">=</span> <span class="n">hidden_states</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_scan_mlp</span><span class="p">:</span>
+        <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="n">block_wise_ffn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">,</span>
+            <span class="n">feed_forward_input</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">(</span>
+            <span class="n">feed_forward_input</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">attn_output</span> <span class="o">+</span> <span class="n">feed_forward_hidden_states</span> <span class="o">+</span> <span class="n">residual</span>
+
+    <span class="k">return</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlockCollection" class="doc doc-heading">
+            <code>FlaxCohereBlockCollection</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span>
+<span class="normal">914</span>
+<span class="normal">915</span>
+<span class="normal">916</span>
+<span class="normal">917</span>
+<span class="normal">918</span>
+<span class="normal">919</span>
+<span class="normal">920</span>
+<span class="normal">921</span>
+<span class="normal">922</span>
+<span class="normal">923</span>
+<span class="normal">924</span>
+<span class="normal">925</span>
+<span class="normal">926</span>
+<span class="normal">927</span>
+<span class="normal">928</span>
+<span class="normal">929</span>
+<span class="normal">930</span>
+<span class="normal">931</span>
+<span class="normal">932</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxCohereBlockCollection</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">CohereConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">FlaxCohereBlock</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">name</span><span class="o">=</span><span class="nb">str</span><span class="p">(</span><span class="n">i</span><span class="p">),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+            <span class="p">)</span>
+            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_hidden_layers</span><span class="p">)</span>
+        <span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX nn.Module.</span>
+<span class="sd">        It defines how the module behaves when called as a function, and it&#39;s what you&#39;ll use to call your model</span>
+<span class="sd">         in training loops or inference scripts.</span>
+<span class="sd">        The __call__ method should take all inputs that are necessary for computing outputs from the module,</span>
+<span class="sd">        and return all outputs that are computed by this module.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the input tensor to the</span>
+<span class="sd">                encoder</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency of each token</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">            deterministic: bool: Determine whether the model is in</span>
+<span class="sd">                training or evaluation mode</span>
+<span class="sd">            init_cache: bool: Initialize the cache for each layer</span>
+<span class="sd">            output_attentions: bool: Determine whether to output the</span>
+<span class="sd">                attention weights</span>
+<span class="sd">            output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">                hidden states of each layer</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs</span>
+<span class="sd">        :param : Determine whether to use the forgetful causal mask</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 values</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">all_attentions</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="c1"># Apply forgetful causal mask</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">fcm_ratio</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span> <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+                <span class="n">minval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_min_ratio</span><span class="p">,</span>
+                <span class="n">maxval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span>
+            <span class="p">)</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span>
+                <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span> <span class="o">&gt;</span> <span class="n">fcm_ratio</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:,</span> <span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s1">&#39;bool&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+                <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+
+            <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+                <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+                <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+                <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+                <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+                <span class="n">fcm_mask</span><span class="o">=</span><span class="n">fcm_mask</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+            <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+                <span class="n">all_attentions</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">,</span> <span class="n">all_attentions</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlockCollection.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX nn.Module.
+It defines how the module behaves when called as a function, and it's what you'll use to call your model
+ in training loops or inference scripts.
+The <strong>call</strong> method should take all inputs that are necessary for computing outputs from the module,
+and return all outputs that are computed by this module.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input tensor to the
+encoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency of each token</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether the model is in
+training or evaluation mode</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for each layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to output the
+attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+hidden states of each layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine whether to use the forgetful causal mask</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 values</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span>
+<span class="normal">914</span>
+<span class="normal">915</span>
+<span class="normal">916</span>
+<span class="normal">917</span>
+<span class="normal">918</span>
+<span class="normal">919</span>
+<span class="normal">920</span>
+<span class="normal">921</span>
+<span class="normal">922</span>
+<span class="normal">923</span>
+<span class="normal">924</span>
+<span class="normal">925</span>
+<span class="normal">926</span>
+<span class="normal">927</span>
+<span class="normal">928</span>
+<span class="normal">929</span>
+<span class="normal">930</span>
+<span class="normal">931</span>
+<span class="normal">932</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX nn.Module.</span>
+<span class="sd">    It defines how the module behaves when called as a function, and it&#39;s what you&#39;ll use to call your model</span>
+<span class="sd">     in training loops or inference scripts.</span>
+<span class="sd">    The __call__ method should take all inputs that are necessary for computing outputs from the module,</span>
+<span class="sd">    and return all outputs that are computed by this module.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the input tensor to the</span>
+<span class="sd">            encoder</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency of each token</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">        deterministic: bool: Determine whether the model is in</span>
+<span class="sd">            training or evaluation mode</span>
+<span class="sd">        init_cache: bool: Initialize the cache for each layer</span>
+<span class="sd">        output_attentions: bool: Determine whether to output the</span>
+<span class="sd">            attention weights</span>
+<span class="sd">        output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">            hidden states of each layer</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs</span>
+<span class="sd">    :param : Determine whether to use the forgetful causal mask</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 values</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">all_attentions</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="c1"># Apply forgetful causal mask</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">fcm_ratio</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span> <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">minval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_min_ratio</span><span class="p">,</span>
+            <span class="n">maxval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span>
+        <span class="p">)</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span>
+            <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span> <span class="o">&gt;</span> <span class="n">fcm_ratio</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:,</span> <span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="kc">True</span><span class="p">)</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s1">&#39;bool&#39;</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+
+        <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="n">fcm_mask</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">all_attentions</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">,</span> <span class="n">all_attentions</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLM" class="doc doc-heading">
+            <code>FlaxCohereForCausalLM</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel" href="#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel">FlaxCoherePreTrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span>
+<span class="normal">1204</span>
+<span class="normal">1205</span>
+<span class="normal">1206</span>
+<span class="normal">1207</span>
+<span class="normal">1208</span>
+<span class="normal">1209</span>
+<span class="normal">1210</span>
+<span class="normal">1211</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxCohereForCausalLM</span><span class="p">(</span><span class="n">FlaxCoherePreTrainedModel</span><span class="p">):</span>
+    <span class="n">module_class</span> <span class="o">=</span> <span class="n">FlaxCohereForCausalLMModule</span>
+
+    <span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">        :param self: Access variables that belong to the class</span>
+<span class="sd">        :param input_ids: Pass in the input tokens</span>
+<span class="sd">        :param max_length: Set the length of the sequence to be generated</span>
+<span class="sd">        :param attention_mask: Optional[chex.Array]: Mask the attention weights</span>
+<span class="sd">        :return: A dictionary of the past_key_values, attention_mask and position ids</span>
+
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+            <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+                <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+            <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+            <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">update_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_outputs</span><span class="p">,</span> <span class="n">model_kwargs</span><span class="p">):</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">past_key_values</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">][:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">:]</span> <span class="o">+</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="n">model_kwargs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLM.prepare_inputs_for_generation" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">prepare_inputs_for_generation</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p>
+<p>:param self: Access variables that belong to the class
+:param input_ids: Pass in the input tokens
+:param max_length: Set the length of the sequence to be generated
+:param attention_mask: Optional[chex.Array]: Mask the attention weights
+:return: A dictionary of the past_key_values, attention_mask and position ids</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span>
+<span class="normal">1204</span>
+<span class="normal">1205</span>
+<span class="normal">1206</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">    :param self: Access variables that belong to the class</span>
+<span class="sd">    :param input_ids: Pass in the input tokens</span>
+<span class="sd">    :param max_length: Set the length of the sequence to be generated</span>
+<span class="sd">    :param attention_mask: Optional[chex.Array]: Mask the attention weights</span>
+<span class="sd">    :return: A dictionary of the past_key_values, attention_mask and position ids</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+    <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+        <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+            <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+        <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+        <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLMModule" class="doc doc-heading">
+            <code>FlaxCohereForCausalLMModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1077</span>
+<span class="normal">1078</span>
+<span class="normal">1079</span>
+<span class="normal">1080</span>
+<span class="normal">1081</span>
+<span class="normal">1082</span>
+<span class="normal">1083</span>
+<span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span>
+<span class="normal">1119</span>
+<span class="normal">1120</span>
+<span class="normal">1121</span>
+<span class="normal">1122</span>
+<span class="normal">1123</span>
+<span class="normal">1124</span>
+<span class="normal">1125</span>
+<span class="normal">1126</span>
+<span class="normal">1127</span>
+<span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span>
+<span class="normal">1149</span>
+<span class="normal">1150</span>
+<span class="normal">1151</span>
+<span class="normal">1152</span>
+<span class="normal">1153</span>
+<span class="normal">1154</span>
+<span class="normal">1155</span>
+<span class="normal">1156</span>
+<span class="normal">1157</span>
+<span class="normal">1158</span>
+<span class="normal">1159</span>
+<span class="normal">1160</span>
+<span class="normal">1161</span>
+<span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxCohereForCausalLMModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">CohereConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">FlaxCohereModule</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">logit_scale</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">logit_scale</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            input_ids: chex.Array: Pass the input token ids to the model</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in the input sequence</span>
+<span class="sd">            deterministic: bool: Control whether the model is trained or</span>
+<span class="sd">                not</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">                hidden states</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">                embedding of the word that we want to predict</span>
+<span class="sd">            None]]: Pass in the extra embedding</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The logits and the hidden states</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">tie_word_embeddings</span><span class="p">:</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+            <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+                <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="p">(</span><span class="n">lm_logits</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">logit_scale</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">(</span><span class="n">lm_logits</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">FlaxCausalLMOutput</span><span class="p">(</span><span class="n">logits</span><span class="o">=</span><span class="n">lm_logits</span><span class="p">,</span> <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLMModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax module. It takes in inputs and returns outputs.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input token ids to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in the input sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the model is trained or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+hidden states</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray: Pass in the
+embedding of the word that we want to predict</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>None]]</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the extra embedding</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The logits and the hidden states</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span>
+<span class="normal">1119</span>
+<span class="normal">1120</span>
+<span class="normal">1121</span>
+<span class="normal">1122</span>
+<span class="normal">1123</span>
+<span class="normal">1124</span>
+<span class="normal">1125</span>
+<span class="normal">1126</span>
+<span class="normal">1127</span>
+<span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span>
+<span class="normal">1149</span>
+<span class="normal">1150</span>
+<span class="normal">1151</span>
+<span class="normal">1152</span>
+<span class="normal">1153</span>
+<span class="normal">1154</span>
+<span class="normal">1155</span>
+<span class="normal">1156</span>
+<span class="normal">1157</span>
+<span class="normal">1158</span>
+<span class="normal">1159</span>
+<span class="normal">1160</span>
+<span class="normal">1161</span>
+<span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        input_ids: chex.Array: Pass the input token ids to the model</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in the input sequence</span>
+<span class="sd">        deterministic: bool: Control whether the model is trained or</span>
+<span class="sd">            not</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">            hidden states</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">            embedding of the word that we want to predict</span>
+<span class="sd">        None]]: Pass in the extra embedding</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The logits and the hidden states</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+        <span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">tie_word_embeddings</span><span class="p">:</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">lm_logits</span> <span class="o">=</span> <span class="p">(</span><span class="n">lm_logits</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">logit_scale</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">lm_logits</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">FlaxCausalLMOutput</span><span class="p">(</span><span class="n">logits</span><span class="o">=</span><span class="n">lm_logits</span><span class="p">,</span> <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereMLP" class="doc doc-heading">
+            <code>FlaxCohereMLP</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxCohereMLP</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">CohereConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">intermediate_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">intermediate_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">        It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).</span>
+<span class="sd">        The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            x: jnp.ndarray: Pass in the input to the layer</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tensor that is the result of applying a dropout function</span>
+<span class="sd">            to x</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">silu</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span>
+        <span class="k">return</span> <span class="n">x</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereMLP.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a class.
+It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).
+The <strong>call</strong> method enables instances of a class to be called like standard Python functions.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>x</code></td>
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.ndarray: Pass in the input to the layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tensor that is the result of applying a dropout function</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>to x</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">    It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).</span>
+<span class="sd">    The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        x: jnp.ndarray: Pass in the input to the layer</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tensor that is the result of applying a dropout function</span>
+<span class="sd">        to x</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">silu</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">x</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereModule" class="doc doc-heading">
+            <code>FlaxCohereModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span>
+<span class="normal">1054</span>
+<span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxCohereModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">CohereConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Embed</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">embedding_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">layers</span> <span class="o">=</span> <span class="n">FlaxCohereBlockCollection</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                                                <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">norm</span> <span class="o">=</span> <span class="n">RMSNorm</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">layer_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">make_causal_mask</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+                <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;c_max_position_embeddings&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">)),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span>
+            <span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span>
+        <span class="p">)</span>
+
+        <span class="n">initial_rope_kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+            <span class="n">rope_type</span><span class="o">=</span><span class="s2">&quot;none&quot;</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;rope_scaling&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">scaling_type</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">[</span><span class="s2">&quot;type&quot;</span><span class="p">]</span>
+            <span class="n">scaling_factor</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">[</span><span class="s2">&quot;factor&quot;</span><span class="p">]</span>
+            <span class="n">initial_rope_kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+                <span class="n">scaling_factor</span><span class="o">=</span><span class="n">scaling_factor</span><span class="p">,</span>
+                <span class="n">rope_type</span><span class="o">=</span><span class="n">scaling_type</span>
+            <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span> <span class="o">=</span> <span class="n">precompute_freq_cis</span><span class="p">(</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="p">(</span>
+                <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;freq_max_position_embeddings&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">)</span>
+            <span class="p">),</span>
+            <span class="n">dim</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">base</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">rope_theta</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">initial_rope_kwargs</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids</span>
+<span class="sd">        and returns the output of the model. The __call__ function also has optional arguments that can be used to control</span>
+<span class="sd">        the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when</span>
+<span class="sd">        calling a Flax model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input token ids</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            deterministic: bool: Control whether dropout is applied or</span>
+<span class="sd">                not</span>
+<span class="sd">            inputs_embeds: chex.Array: Pass in the embeddings of the</span>
+<span class="sd">                input tokens</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attentions or not</span>
+<span class="sd">            output_hidden_states: bool: Determine whether to return</span>
+<span class="sd">                hidden states</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the output or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">                embedding of the</span>
+<span class="sd">            None]]: Pass in the extra embedding</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">inputs_embeds</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">))</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">inputs_embeds</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+        <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="n">inputs_embeds</span> <span class="o">+</span> <span class="n">extra_embedding</span> <span class="k">if</span> <span class="n">extra_embedding</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">inputs_embeds</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">inputs_embeds</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">v</span> <span class="k">for</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">outputs</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">FlaxBaseModelOutput</span><span class="p">(</span>
+            <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+            <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">inputs_embeds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids
+and returns the output of the model. The <strong>call</strong> function also has optional arguments that can be used to control
+the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when
+calling a Flax model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input token ids</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Indicate the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether dropout is applied or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>inputs_embeds</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the embeddings of the
+input tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attentions or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return
+hidden states</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the output or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray: Pass in the
+embedding of the</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>None]]</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the extra embedding</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span>
+<span class="normal">1054</span>
+<span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids</span>
+<span class="sd">    and returns the output of the model. The __call__ function also has optional arguments that can be used to control</span>
+<span class="sd">    the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when</span>
+<span class="sd">    calling a Flax model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input token ids</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        deterministic: bool: Control whether dropout is applied or</span>
+<span class="sd">            not</span>
+<span class="sd">        inputs_embeds: chex.Array: Pass in the embeddings of the</span>
+<span class="sd">            input tokens</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attentions or not</span>
+<span class="sd">        output_hidden_states: bool: Determine whether to return</span>
+<span class="sd">            hidden states</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the output or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">            embedding of the</span>
+<span class="sd">        None]]: Pass in the extra embedding</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">inputs_embeds</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">))</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">inputs_embeds</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+    <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="n">inputs_embeds</span> <span class="o">+</span> <span class="n">extra_embedding</span> <span class="k">if</span> <span class="n">extra_embedding</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">inputs_embeds</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">inputs_embeds</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">v</span> <span class="k">for</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">outputs</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">FlaxBaseModelOutput</span><span class="p">(</span>
+        <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+        <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel" class="doc doc-heading">
+            <code>FlaxCoherePreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxCoherePreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">CohereConfig</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;model&quot;</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">CohereConfig</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up the instance of the class, and defines what happens when it&#39;s created.</span>
+<span class="sd">        The __init__ function can take arguments, but self is always required (it refers to the instance of the object).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            config: CohereConfig: Pass the configuration to the module</span>
+<span class="sd">            input_shape: Tuple: Specify the shape of the input to the</span>
+<span class="sd">                model</span>
+<span class="sd">            seed: int: Set the seed for random number generation</span>
+<span class="sd">            dtype: jnp.dtype: Specify the data type of the input</span>
+<span class="sd">            _do_init: bool: Control whether the module is initialized or</span>
+<span class="sd">                not</span>
+<span class="sd">            **kwargs: Pass in any additional parameters that the</span>
+<span class="sd">                module_class might need</span>
+<span class="sd">        :param : Specify the number of layers in the network</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The super() of the class</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+                         <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">            params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">                model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+            <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+                <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+            <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">encoder_hidden_states</span><span class="p">,</span>
+                <span class="n">encoder_attention_mask</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_cache function is used to initialize the cache for a given batch size and sequence length.</span>
+<span class="sd">        The cache is a dictionary that contains all the intermediate states from each layer in the model.</span>
+<span class="sd">        This allows us to run inference on multiple batches without having to re-run forward passes through every layer in</span>
+<span class="sd">        the model, which would be very slow.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the module</span>
+<span class="sd">            batch_size: Define the batch size of the input tensors</span>
+<span class="sd">            max_length: Set the length of the input sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary with the following keys:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It takes in inputs and returns outputs, but it also has some other important features:</span>
+<span class="sd">        - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.</span>
+<span class="sd">        - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input</span>
+<span class="sd">            position_ids: chex.Array: Create the positional embeddings</span>
+<span class="sd">            params: dict: Pass in the parameters of the model</span>
+<span class="sd">            past_key_values: dict: Pass in the past key values from a</span>
+<span class="sd">                previous call to __call__</span>
+<span class="sd">            dropout_rng: jax.random.PRNGKey: Make sure that the dropout</span>
+<span class="sd">                is applied in a random way</span>
+<span class="sd">            train: bool: Determine whether to use dropout or not</span>
+<span class="sd">            output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the attention weights</span>
+<span class="sd">            output_hidden_states: Optional[bool]: Return the hidden</span>
+<span class="sd">                states of all layers</span>
+<span class="sd">            return_dict: Optional[bool]: Determine whether to return a</span>
+<span class="sd">                dictionary or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in</span>
+<span class="sd">                the embedding for the input_ids</span>
+<span class="sd">            add_params_field: bool: Add the params field to the inputs</span>
+<span class="sd">                dictionary</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the following:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+        <span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                      <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">past_key_values</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dropout_rng</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It takes in inputs and returns outputs, but it also has some other important features:
+- It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.
+- It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Create the positional embeddings</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>past_key_values</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the past key values from a
+previous call to <strong>call</strong></p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dropout_rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Make sure that the dropout
+is applied in a random way</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>train</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Return the hidden
+states of all layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to return a
+dictionary or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray,None]]: Pass in
+the embedding for the input_ids</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add the params field to the inputs
+dictionary</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the following:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It takes in inputs and returns outputs, but it also has some other important features:</span>
+<span class="sd">    - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.</span>
+<span class="sd">    - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input</span>
+<span class="sd">        position_ids: chex.Array: Create the positional embeddings</span>
+<span class="sd">        params: dict: Pass in the parameters of the model</span>
+<span class="sd">        past_key_values: dict: Pass in the past key values from a</span>
+<span class="sd">            previous call to __call__</span>
+<span class="sd">        dropout_rng: jax.random.PRNGKey: Make sure that the dropout</span>
+<span class="sd">            is applied in a random way</span>
+<span class="sd">        train: bool: Determine whether to use dropout or not</span>
+<span class="sd">        output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the attention weights</span>
+<span class="sd">        output_hidden_states: Optional[bool]: Return the hidden</span>
+<span class="sd">            states of all layers</span>
+<span class="sd">        return_dict: Optional[bool]: Determine whether to return a</span>
+<span class="sd">            dictionary or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in</span>
+<span class="sd">            the embedding for the input_ids</span>
+<span class="sd">        add_params_field: bool: Add the params field to the inputs</span>
+<span class="sd">            dictionary</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the following:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+    <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+    <span class="p">)</span>
+    <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rngs</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+    <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+    <span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+        <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+        <span class="n">inputs</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+        <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">,</span>
+        <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+        <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+    <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                  <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">seed</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up the instance of the class, and defines what happens when it's created.
+The <strong>init</strong> function can take arguments, but self is always required (it refers to the instance of the object).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>config</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.cohere.cohere_configuration.CohereConfig" href="../generated-modules-cohere-cohere_configuration/#src.python.easydel.modules.cohere.cohere_configuration.CohereConfig">CohereConfig</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>CohereConfig: Pass the configuration to the module</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Specify the shape of the input to the
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>seed</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the seed for random number generation</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.dtype: Specify the data type of the input</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.float32">float32</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>_do_init</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the module is initialized or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in any additional parameters that the
+module_class might need</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Specify the number of layers in the network</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The super() of the class</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">config</span><span class="p">:</span> <span class="n">CohereConfig</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+        <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up the instance of the class, and defines what happens when it&#39;s created.</span>
+<span class="sd">    The __init__ function can take arguments, but self is always required (it refers to the instance of the object).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        config: CohereConfig: Pass the configuration to the module</span>
+<span class="sd">        input_shape: Tuple: Specify the shape of the input to the</span>
+<span class="sd">            model</span>
+<span class="sd">        seed: int: Set the seed for random number generation</span>
+<span class="sd">        dtype: jnp.dtype: Specify the data type of the input</span>
+<span class="sd">        _do_init: bool: Control whether the module is initialized or</span>
+<span class="sd">            not</span>
+<span class="sd">        **kwargs: Pass in any additional parameters that the</span>
+<span class="sd">            module_class might need</span>
+<span class="sd">    :param : Specify the number of layers in the network</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The super() of the class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+                     <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.init_cache" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_cache function is used to initialize the cache for a given batch size and sequence length.
+The cache is a dictionary that contains all the intermediate states from each layer in the model.
+This allows us to run inference on multiple batches without having to re-run forward passes through every layer in
+the model, which would be very slow.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access the module</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the batch size of the input tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the length of the input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with the following keys:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_cache function is used to initialize the cache for a given batch size and sequence length.</span>
+<span class="sd">    The cache is a dictionary that contains all the intermediate states from each layer in the model.</span>
+<span class="sd">    This allows us to run inference on multiple batches without having to re-run forward passes through every layer in</span>
+<span class="sd">    the model, which would be very slow.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access the module</span>
+<span class="sd">        batch_size: Define the batch size of the input tensors</span>
+<span class="sd">        max_length: Set the length of the input sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with the following keys:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+    <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+        <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Specify the shape of the input tensor</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>FrozenDict: Pass in the parameters of a pre-trained
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">        params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">            model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+        <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+            <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+        <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+
+    <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-dbrx-dbrx_configuration/index.html b/generated-modules-dbrx-dbrx_configuration/index.html
new file mode 100644
index 000000000..2d4617759
--- /dev/null
+++ b/generated-modules-dbrx-dbrx_configuration/index.html
@@ -0,0 +1,6046 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-cohere-modelling_cohere_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-dbrx-modelling_dbrx_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Dbrx Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesdbrxdbrx_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Dbrx Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.dbrx_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      dbrx_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.dbrx_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      dbrx_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesdbrxdbrx_configuration">modules.dbrx.dbrx_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.dbrx.dbrx_configuration"></a>
+    <div class="doc doc-contents first">
+
+      <p>Dbrx configuration.</p>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-dbrx-modelling_dbrx_flax/index.html b/generated-modules-dbrx-modelling_dbrx_flax/index.html
new file mode 100644
index 000000000..999911e3a
--- /dev/null
+++ b/generated-modules-dbrx-modelling_dbrx_flax/index.html
@@ -0,0 +1,8968 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-dbrx-dbrx_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-deepseek_v2-deepseek_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Dbrx Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesdbrxmodelling_dbrx_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Dbrx Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_dbrx_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.DbrxPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      DbrxPreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="DbrxPreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.DbrxPreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.DbrxPreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxDbrxAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxDbrxAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxDbrxForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxDbrxForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_dbrx_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.DbrxPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      DbrxPreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="DbrxPreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.DbrxPreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.DbrxPreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxDbrxAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxDbrxAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxDbrxForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxDbrxForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesdbrxmodelling_dbrx_flax">modules.dbrx.modelling_dbrx_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.dbrx.modelling_dbrx_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.dbrx.modelling_dbrx_flax.DbrxPreTrainedModel" class="doc doc-heading">
+            <code>DbrxPreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span>
+<span class="normal">914</span>
+<span class="normal">915</span>
+<span class="normal">916</span>
+<span class="normal">917</span>
+<span class="normal">918</span>
+<span class="normal">919</span>
+<span class="normal">920</span>
+<span class="normal">921</span>
+<span class="normal">922</span>
+<span class="normal">923</span>
+<span class="normal">924</span>
+<span class="normal">925</span>
+<span class="normal">926</span>
+<span class="normal">927</span>
+<span class="normal">928</span>
+<span class="normal">929</span>
+<span class="normal">930</span>
+<span class="normal">931</span>
+<span class="normal">932</span>
+<span class="normal">933</span>
+<span class="normal">934</span>
+<span class="normal">935</span>
+<span class="normal">936</span>
+<span class="normal">937</span>
+<span class="normal">938</span>
+<span class="normal">939</span>
+<span class="normal">940</span>
+<span class="normal">941</span>
+<span class="normal">942</span>
+<span class="normal">943</span>
+<span class="normal">944</span>
+<span class="normal">945</span>
+<span class="normal">946</span>
+<span class="normal">947</span>
+<span class="normal">948</span>
+<span class="normal">949</span>
+<span class="normal">950</span>
+<span class="normal">951</span>
+<span class="normal">952</span>
+<span class="normal">953</span>
+<span class="normal">954</span>
+<span class="normal">955</span>
+<span class="normal">956</span>
+<span class="normal">957</span>
+<span class="normal">958</span>
+<span class="normal">959</span>
+<span class="normal">960</span>
+<span class="normal">961</span>
+<span class="normal">962</span>
+<span class="normal">963</span>
+<span class="normal">964</span>
+<span class="normal">965</span>
+<span class="normal">966</span>
+<span class="normal">967</span>
+<span class="normal">968</span>
+<span class="normal">969</span>
+<span class="normal">970</span>
+<span class="normal">971</span>
+<span class="normal">972</span>
+<span class="normal">973</span>
+<span class="normal">974</span>
+<span class="normal">975</span>
+<span class="normal">976</span>
+<span class="normal">977</span>
+<span class="normal">978</span>
+<span class="normal">979</span>
+<span class="normal">980</span>
+<span class="normal">981</span>
+<span class="normal">982</span>
+<span class="normal">983</span>
+<span class="normal">984</span>
+<span class="normal">985</span>
+<span class="normal">986</span>
+<span class="normal">987</span>
+<span class="normal">988</span>
+<span class="normal">989</span>
+<span class="normal">990</span>
+<span class="normal">991</span>
+<span class="normal">992</span>
+<span class="normal">993</span>
+<span class="normal">994</span>
+<span class="normal">995</span>
+<span class="normal">996</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">DbrxPreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span><span class="p">:</span> <span class="n">DbrxConfig</span> <span class="o">=</span> <span class="n">DbrxConfig</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;model&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">DbrxConfig</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">),</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">,</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">module</span><span class="p">,</span> <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+            <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+<span class="sd">        It takes in a rng, which is a random number generator key that can be used to generate random numbers.</span>
+<span class="sd">        The input_shape parameter specifies the shape of the inputs that will be fed into this model.</span>
+<span class="sd">        The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Initialize the input_ids, attention_mask</span>
+<span class="sd">                and position_ids</span>
+<span class="sd">            params: flax.core.FrozenDict: Pass in the parameters of a</span>
+<span class="sd">                pre-trained model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">True</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">input_shape</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+            <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+                <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+            <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">encoder_hidden_states</span><span class="p">,</span>
+                <span class="n">encoder_attention_mask</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It takes as input:</span>
+<span class="sd">        - The parameters of the model (self.params)</span>
+<span class="sd">        - The inputs to the model (input_ids, attention_mask, position_ids)</span>
+<span class="sd">        - Whether we are training (train=True/False) and whether we want to return all hidden states and</span>
+<span class="sd">        attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: Pass the input sequence to the model</span>
+<span class="sd">            attention_mask: Mask out the padding tokens</span>
+<span class="sd">            position_ids: Specify the position of each token in the</span>
+<span class="sd">                sequence</span>
+<span class="sd">            params: dict: Pass in the parameters of the model</span>
+<span class="sd">            past_key_values: dict: Pass the past key values to the model</span>
+<span class="sd">            dropout_rng: jax.random.PRNGKey: Pass in a random number</span>
+<span class="sd">                generator key to the model</span>
+<span class="sd">            train: bool: Determine whether to use dropout or not</span>
+<span class="sd">            output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the attention weights</span>
+<span class="sd">            output_hidden_states: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the hidden states of all layers</span>
+<span class="sd">            return_dict: Optional[bool]: Return a dictionary of the</span>
+<span class="sd">                outputs</span>
+<span class="sd">            add_params_field: bool: Add a params field to the inputs</span>
+<span class="sd">                dictionary</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (last_hidden_state, past_key_values)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rng_s</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rng_s</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>  <span class="c1"># input_ids: chex.Array</span>
+            <span class="c1"># attention_mask: Optional[chex.Array] = None</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="c1"># position_ids: Optional[chex.Array] = None</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="kc">None</span><span class="p">,</span>  <span class="c1"># inputs_embeds: Optional[chex.Array] = None</span>
+            <span class="n">output_attentions</span><span class="p">,</span>  <span class="c1"># output_attentions: Optional[bool] = None</span>
+            <span class="c1"># output_hidden_states: Optional[bool] = None</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="c1"># output_router_logits: Optional[bool] = None</span>
+            <span class="n">output_router_logits</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>  <span class="c1"># init_cache: bool = False</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>  <span class="c1"># deterministic: bool = True</span>
+            <span class="n">return_dict</span><span class="p">,</span>  <span class="c1"># return_dict: bool = True</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rng_s</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.dbrx.modelling_dbrx_flax.DbrxPreTrainedModel.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">past_key_values</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dropout_rng</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It takes as input:
+- The parameters of the model (self.params)
+- The inputs to the model (input_ids, attention_mask, position_ids)
+- Whether we are training (train=True/False) and whether we want to return all hidden states and
+attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the input sequence to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>past_key_values</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass the past key values to the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dropout_rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Pass in a random number
+generator key to the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>train</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the hidden states of all layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Return a dictionary of the
+outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add a params field to the inputs
+dictionary</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of (last_hidden_state, past_key_values)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span>
+<span class="normal">914</span>
+<span class="normal">915</span>
+<span class="normal">916</span>
+<span class="normal">917</span>
+<span class="normal">918</span>
+<span class="normal">919</span>
+<span class="normal">920</span>
+<span class="normal">921</span>
+<span class="normal">922</span>
+<span class="normal">923</span>
+<span class="normal">924</span>
+<span class="normal">925</span>
+<span class="normal">926</span>
+<span class="normal">927</span>
+<span class="normal">928</span>
+<span class="normal">929</span>
+<span class="normal">930</span>
+<span class="normal">931</span>
+<span class="normal">932</span>
+<span class="normal">933</span>
+<span class="normal">934</span>
+<span class="normal">935</span>
+<span class="normal">936</span>
+<span class="normal">937</span>
+<span class="normal">938</span>
+<span class="normal">939</span>
+<span class="normal">940</span>
+<span class="normal">941</span>
+<span class="normal">942</span>
+<span class="normal">943</span>
+<span class="normal">944</span>
+<span class="normal">945</span>
+<span class="normal">946</span>
+<span class="normal">947</span>
+<span class="normal">948</span>
+<span class="normal">949</span>
+<span class="normal">950</span>
+<span class="normal">951</span>
+<span class="normal">952</span>
+<span class="normal">953</span>
+<span class="normal">954</span>
+<span class="normal">955</span>
+<span class="normal">956</span>
+<span class="normal">957</span>
+<span class="normal">958</span>
+<span class="normal">959</span>
+<span class="normal">960</span>
+<span class="normal">961</span>
+<span class="normal">962</span>
+<span class="normal">963</span>
+<span class="normal">964</span>
+<span class="normal">965</span>
+<span class="normal">966</span>
+<span class="normal">967</span>
+<span class="normal">968</span>
+<span class="normal">969</span>
+<span class="normal">970</span>
+<span class="normal">971</span>
+<span class="normal">972</span>
+<span class="normal">973</span>
+<span class="normal">974</span>
+<span class="normal">975</span>
+<span class="normal">976</span>
+<span class="normal">977</span>
+<span class="normal">978</span>
+<span class="normal">979</span>
+<span class="normal">980</span>
+<span class="normal">981</span>
+<span class="normal">982</span>
+<span class="normal">983</span>
+<span class="normal">984</span>
+<span class="normal">985</span>
+<span class="normal">986</span>
+<span class="normal">987</span>
+<span class="normal">988</span>
+<span class="normal">989</span>
+<span class="normal">990</span>
+<span class="normal">991</span>
+<span class="normal">992</span>
+<span class="normal">993</span>
+<span class="normal">994</span>
+<span class="normal">995</span>
+<span class="normal">996</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It takes as input:</span>
+<span class="sd">    - The parameters of the model (self.params)</span>
+<span class="sd">    - The inputs to the model (input_ids, attention_mask, position_ids)</span>
+<span class="sd">    - Whether we are training (train=True/False) and whether we want to return all hidden states and</span>
+<span class="sd">    attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: Pass the input sequence to the model</span>
+<span class="sd">        attention_mask: Mask out the padding tokens</span>
+<span class="sd">        position_ids: Specify the position of each token in the</span>
+<span class="sd">            sequence</span>
+<span class="sd">        params: dict: Pass in the parameters of the model</span>
+<span class="sd">        past_key_values: dict: Pass the past key values to the model</span>
+<span class="sd">        dropout_rng: jax.random.PRNGKey: Pass in a random number</span>
+<span class="sd">            generator key to the model</span>
+<span class="sd">        train: bool: Determine whether to use dropout or not</span>
+<span class="sd">        output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the attention weights</span>
+<span class="sd">        output_hidden_states: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the hidden states of all layers</span>
+<span class="sd">        return_dict: Optional[bool]: Return a dictionary of the</span>
+<span class="sd">            outputs</span>
+<span class="sd">        add_params_field: bool: Add a params field to the inputs</span>
+<span class="sd">            dictionary</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of (last_hidden_state, past_key_values)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+    <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+    <span class="p">)</span>
+    <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rng_s</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+    <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rng_s</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+        <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+        <span class="n">inputs</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>  <span class="c1"># input_ids: chex.Array</span>
+        <span class="c1"># attention_mask: Optional[chex.Array] = None</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="c1"># position_ids: Optional[chex.Array] = None</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="kc">None</span><span class="p">,</span>  <span class="c1"># inputs_embeds: Optional[chex.Array] = None</span>
+        <span class="n">output_attentions</span><span class="p">,</span>  <span class="c1"># output_attentions: Optional[bool] = None</span>
+        <span class="c1"># output_hidden_states: Optional[bool] = None</span>
+        <span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="c1"># output_router_logits: Optional[bool] = None</span>
+        <span class="n">output_router_logits</span><span class="p">,</span>
+        <span class="kc">False</span><span class="p">,</span>  <span class="c1"># init_cache: bool = False</span>
+        <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>  <span class="c1"># deterministic: bool = True</span>
+        <span class="n">return_dict</span><span class="p">,</span>  <span class="c1"># return_dict: bool = True</span>
+        <span class="n">rngs</span><span class="o">=</span><span class="n">rng_s</span><span class="p">,</span>
+        <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+    <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.dbrx.modelling_dbrx_flax.DbrxPreTrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.
+It takes in a rng, which is a random number generator key that can be used to generate random numbers.
+The input_shape parameter specifies the shape of the inputs that will be fed into this model.
+The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Initialize the input_ids, attention_mask
+and position_ids</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="flax.core.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>flax.core.FrozenDict: Pass in the parameters of a
+pre-trained model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+<span class="sd">    It takes in a rng, which is a random number generator key that can be used to generate random numbers.</span>
+<span class="sd">    The input_shape parameter specifies the shape of the inputs that will be fed into this model.</span>
+<span class="sd">    The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Initialize the input_ids, attention_mask</span>
+<span class="sd">            and position_ids</span>
+<span class="sd">        params: flax.core.FrozenDict: Pass in the parameters of a</span>
+<span class="sd">            pre-trained model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">input_shape</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+        <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+            <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+        <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+    <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxAttention" class="doc doc-heading">
+            <code>FlaxDbrxAttention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxDbrxAttention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">DbrxConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">n_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_config</span><span class="o">.</span><span class="n">kv_n_heads</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">d_model</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">n_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_config</span><span class="o">.</span><span class="n">kv_n_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">Wqkv</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">+</span> <span class="mi">2</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">out_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span> <span class="o">=</span> <span class="n">FlaxDbrxEmbedding</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">use_sharding_constraint</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_config</span><span class="o">.</span><span class="n">attn_pdrop</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span><span class="p">,</span>
+            <span class="n">backward_pass_impl</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">flash_attention_backward_pass_impl</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">rate</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">resid_pdrop</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _transpose_sequence_head function transposes the query, key and value matrices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            query: Get the attention weights for each of the heads</span>
+<span class="sd">            key: Determine the number of heads</span>
+<span class="sd">            value: Store the values of the input</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The transpose of the query, key and value matrices</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">            sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">            query: Calculate the attention weights</span>
+<span class="sd">            key: Calculate the attention</span>
+<span class="sd">            value: Compute the attention weights</span>
+<span class="sd">            freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">                vocabulary</span>
+<span class="sd">            position_ids: Identify the position of each token in the</span>
+<span class="sd">                sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 tensors: query, key and value</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">        and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency coefficients for each position</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+<span class="sd">            fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">                and output tokens</span>
+<span class="sd">        :param : Determine if the attention is causal or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two arrays</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="n">qkv_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">Wqkv</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_config</span><span class="o">.</span><span class="n">clip_qkv</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">qkv_states</span> <span class="o">=</span> <span class="n">qkv_states</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span>
+                <span class="nb">min</span><span class="o">=-</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_config</span><span class="o">.</span><span class="n">clip_qkv</span><span class="p">,</span>
+                <span class="nb">max</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_config</span><span class="o">.</span><span class="n">clip_qkv</span>
+            <span class="p">)</span>
+
+        <span class="n">query_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="n">key_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_value_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">qkv_states</span><span class="p">,</span> <span class="p">[</span><span class="n">query_size</span><span class="p">],</span> <span class="n">axis</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span>
+        <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">key_value_states</span><span class="p">,</span> <span class="p">[</span><span class="n">key_size</span><span class="p">],</span> <span class="n">axis</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+        <span class="p">)</span>
+
+        <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span>
+                <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_config</span><span class="o">.</span><span class="n">attn_pdrop</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">out_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span><span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxAttention.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module. It defines how the module behaves when called
+with inputs. The <strong>call</strong> function can be thought of as a &quot;forward pass&quot; through the model,
+and it should return all outputs that are needed for training or inference.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the hidden states of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency coefficients for each position</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the future tokens in the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the attention weights between the input
+and output tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine if the attention is causal or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two arrays</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">    and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency coefficients for each position</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+<span class="sd">        fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">            and output tokens</span>
+<span class="sd">    :param : Determine if the attention is causal or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two arrays</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+    <span class="n">qkv_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">Wqkv</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_config</span><span class="o">.</span><span class="n">clip_qkv</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">qkv_states</span> <span class="o">=</span> <span class="n">qkv_states</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span>
+            <span class="nb">min</span><span class="o">=-</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_config</span><span class="o">.</span><span class="n">clip_qkv</span><span class="p">,</span>
+            <span class="nb">max</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_config</span><span class="o">.</span><span class="n">clip_qkv</span>
+        <span class="p">)</span>
+
+    <span class="n">query_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span>
+    <span class="n">key_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_value_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">qkv_states</span><span class="p">,</span> <span class="p">[</span><span class="n">query_size</span><span class="p">],</span> <span class="n">axis</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span>
+    <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">key_value_states</span><span class="p">,</span> <span class="p">[</span><span class="n">key_size</span><span class="p">],</span> <span class="n">axis</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span>
+
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+        <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+    <span class="p">)</span>
+
+    <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">)</span>
+
+    <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+        <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+        <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+        <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+    <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_config</span><span class="o">.</span><span class="n">attn_pdrop</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+        <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+        <span class="p">)</span>
+
+    <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+        <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+        <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+        <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+    <span class="p">)</span>
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                <span class="s2">&quot;tp&quot;</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">out_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span><span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxAttention.apply_rotary" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rotary</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class.
+The main difference is that it takes in an additional argument, freq_cis, which are used to calculate
+the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sequence_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Compute the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the frequency of each word in the
+vocabulary</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Identify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 tensors: query, key and value</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">        sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">        query: Calculate the attention weights</span>
+<span class="sd">        key: Calculate the attention</span>
+<span class="sd">        value: Compute the attention weights</span>
+<span class="sd">        freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">            vocabulary</span>
+<span class="sd">        position_ids: Identify the position of each token in the</span>
+<span class="sd">            sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 tensors: query, key and value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxForCausalLM" class="doc doc-heading">
+            <code>FlaxDbrxForCausalLM</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.dbrx.modelling_dbrx_flax.DbrxPreTrainedModel" href="#src.python.easydel.modules.dbrx.modelling_dbrx_flax.DbrxPreTrainedModel">DbrxPreTrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1214</span>
+<span class="normal">1215</span>
+<span class="normal">1216</span>
+<span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span>
+<span class="normal">1220</span>
+<span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span>
+<span class="normal">1230</span>
+<span class="normal">1231</span>
+<span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span>
+<span class="normal">1241</span>
+<span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxDbrxForCausalLM</span><span class="p">(</span><span class="n">DbrxPreTrainedModel</span><span class="p">):</span>
+    <span class="n">module_class</span> <span class="o">=</span> <span class="n">FlaxDbrxForCausalLMModule</span>
+
+    <span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">        :param self: Access variables that belong to the class</span>
+<span class="sd">        :param input_ids: Pass in the input tokens</span>
+<span class="sd">        :param max_length: Set the length of the sequence to be generated</span>
+<span class="sd">        :param attention_mask: Optional[chex.Array]: Mask the attention weights</span>
+<span class="sd">        :return: A dictionary of the past_key_values, attention_mask and position ids</span>
+
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+            <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+                <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+            <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+            <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">update_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_outputs</span><span class="p">,</span> <span class="n">model_kwargs</span><span class="p">):</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">past_key_values</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">][:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">:]</span> <span class="o">+</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="n">model_kwargs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxForCausalLM.prepare_inputs_for_generation" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">prepare_inputs_for_generation</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p>
+<p>:param self: Access variables that belong to the class
+:param input_ids: Pass in the input tokens
+:param max_length: Set the length of the sequence to be generated
+:param attention_mask: Optional[chex.Array]: Mask the attention weights
+:return: A dictionary of the past_key_values, attention_mask and position ids</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span>
+<span class="normal">1220</span>
+<span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span>
+<span class="normal">1230</span>
+<span class="normal">1231</span>
+<span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span>
+<span class="normal">1241</span>
+<span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">    :param self: Access variables that belong to the class</span>
+<span class="sd">    :param input_ids: Pass in the input tokens</span>
+<span class="sd">    :param max_length: Set the length of the sequence to be generated</span>
+<span class="sd">    :param attention_mask: Optional[chex.Array]: Mask the attention weights</span>
+<span class="sd">    :return: A dictionary of the past_key_values, attention_mask and position ids</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+    <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+        <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+            <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+        <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+        <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-deepseek_v2-deepseek_configuration/index.html b/generated-modules-deepseek_v2-deepseek_configuration/index.html
new file mode 100644
index 000000000..d15ce5d80
--- /dev/null
+++ b/generated-modules-deepseek_v2-deepseek_configuration/index.html
@@ -0,0 +1,7035 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-dbrx-modelling_dbrx_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-deepseek_v2-modeling_deepseek_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Deepseek Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesdeepseek_v2deepseek_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Deepseek Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.deepseek_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      deepseek_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.deepseek_configuration.DeepseekV2Config" class="md-nav__link">
+    <span class="md-ellipsis">
+      DeepseekV2Config
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="DeepseekV2Config">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.deepseek_configuration.DeepseekV2Config.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.deepseek_configuration.DeepseekV2Config.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.deepseek_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      deepseek_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.deepseek_configuration.DeepseekV2Config" class="md-nav__link">
+    <span class="md-ellipsis">
+      DeepseekV2Config
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="DeepseekV2Config">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.deepseek_configuration.DeepseekV2Config.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.deepseek_configuration.DeepseekV2Config.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesdeepseek_v2deepseek_configuration">modules.deepseek_v2.deepseek_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.deepseek_v2.deepseek_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.deepseek_v2.deepseek_configuration.DeepseekV2Config" class="doc doc-heading">
+            <code>DeepseekV2Config</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/deepseek_v2/deepseek_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">DeepseekV2Config</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;deepseek_v2&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">102400</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">11008</span><span class="p">,</span>
+            <span class="n">moe_intermediate_size</span><span class="o">=</span><span class="mi">1407</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">30</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">n_shared_experts</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">n_routed_experts</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">ep_size</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">routed_scaling_factor</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span>
+            <span class="n">kv_lora_rank</span><span class="o">=</span><span class="mi">512</span><span class="p">,</span>
+            <span class="n">q_lora_rank</span><span class="o">=</span><span class="mi">1536</span><span class="p">,</span>
+            <span class="n">qk_rope_head_dim</span><span class="o">=</span><span class="mi">64</span><span class="p">,</span>
+            <span class="n">v_head_dim</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span>
+            <span class="n">qk_nope_head_dim</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span>
+            <span class="n">topk_method</span><span class="o">=</span><span class="s1">&#39;gready&#39;</span><span class="p">,</span>
+            <span class="n">n_group</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">topk_group</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">num_experts_per_tok</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">moe_layer_freq</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">first_k_dense_replace</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="n">norm_topk_prob</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">scoring_func</span><span class="o">=</span><span class="s1">&#39;softmax&#39;</span><span class="p">,</span>
+            <span class="n">aux_loss_alpha</span><span class="o">=</span><span class="mf">0.001</span><span class="p">,</span>
+            <span class="n">seq_aux</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">hidden_act</span><span class="o">=</span><span class="s2">&quot;silu&quot;</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">2048</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-6</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">100000</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">100001</span><span class="p">,</span>
+            <span class="n">pretraining_tp</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span>
+            <span class="n">attention_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;`DeepseekV2` is still in beta mode.&quot;</span><span class="p">,</span>
+            <span class="ne">UserWarning</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">moe_intermediate_size</span> <span class="o">=</span> <span class="n">moe_intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">n_shared_experts</span> <span class="o">=</span> <span class="n">n_shared_experts</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">n_routed_experts</span> <span class="o">=</span> <span class="n">n_routed_experts</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ep_size</span> <span class="o">=</span> <span class="n">ep_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">routed_scaling_factor</span> <span class="o">=</span> <span class="n">routed_scaling_factor</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">kv_lora_rank</span> <span class="o">=</span> <span class="n">kv_lora_rank</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_lora_rank</span> <span class="o">=</span> <span class="n">q_lora_rank</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">qk_rope_head_dim</span> <span class="o">=</span> <span class="n">qk_rope_head_dim</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v_head_dim</span> <span class="o">=</span> <span class="n">v_head_dim</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">qk_nope_head_dim</span> <span class="o">=</span> <span class="n">qk_nope_head_dim</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">topk_method</span> <span class="o">=</span> <span class="n">topk_method</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">n_group</span> <span class="o">=</span> <span class="n">n_group</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">topk_group</span> <span class="o">=</span> <span class="n">topk_group</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_experts_per_tok</span> <span class="o">=</span> <span class="n">num_experts_per_tok</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">moe_layer_freq</span> <span class="o">=</span> <span class="n">moe_layer_freq</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">first_k_dense_replace</span> <span class="o">=</span> <span class="n">first_k_dense_replace</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">norm_topk_prob</span> <span class="o">=</span> <span class="n">norm_topk_prob</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scoring_func</span> <span class="o">=</span> <span class="n">scoring_func</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">aux_loss_alpha</span> <span class="o">=</span> <span class="n">aux_loss_alpha</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">seq_aux</span> <span class="o">=</span> <span class="n">seq_aux</span>
+        <span class="c1"># for backward compatibility</span>
+        <span class="k">if</span> <span class="n">num_key_value_heads</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pretraining_tp</span> <span class="o">=</span> <span class="n">pretraining_tp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="n">pad_token_id</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="o">=</span><span class="n">use_scan_mlp</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+            <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">          1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">          2) A PartitionScheme object that defines how those parameters should be partitioned.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to use</span>
+<span class="sd">                the fully_sharded_data_parallel partitioning scheme or</span>
+<span class="sd">                not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;w3/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;w3/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the model:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Bind the attributes and methods of a class to an</span>
+<span class="sd">                instance of that class</span>
+<span class="sd">            gradient_checkpointing: str: Determine whether to use</span>
+<span class="sd">                gradient checkpointing</span>
+<span class="sd">            use_scan_mlp: bool: Determine whether to use the scan_mlp</span>
+<span class="sd">                function or not</span>
+<span class="sd">            scan_mlp_chunk_size: int: Chunk the input to the mlp</span>
+<span class="sd">            number_rep_kv: int: Control the number of times that the key</span>
+<span class="sd">                and value vectors are repeated</span>
+<span class="sd">            bits: Optional[int]: Specify the number of bits to use for</span>
+<span class="sd">                quantization</span>
+<span class="sd">            attention_dropout: float: Set the dropout rate for the</span>
+<span class="sd">                attention layer</span>
+<span class="sd">            attention_bias: bool: when ever to use attention_bias</span>
+<span class="sd">            initialization_of_moe: bool: initialization of moe needs to</span>
+<span class="sd">                disable some dynamic part&#39;s this boolean variable will</span>
+<span class="sd">                turn them off.</span>
+<span class="sd">            rope_scaling: Dict[str, Union[str, float]]: rope_scaling for</span>
+<span class="sd">                rope</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the following:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="n">initialization_of_moe</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_weight_decay_exclusions</span><span class="p">():</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">rng_keys</span><span class="p">():</span>
+        <span class="k">return</span> <span class="s1">&#39;params&#39;</span><span class="p">,</span> <span class="s1">&#39;dropout&#39;</span><span class="p">,</span> <span class="s1">&#39;fcm&#39;</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.deepseek_v2.deepseek_configuration.DeepseekV2Config.add_jax_args" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_jax_args</span><span class="p">(</span><span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">use_scan_mlp</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="mi">1024</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rope_scaling</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The add_jax_args function adds the following arguments to the model:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Bind the attributes and methods of a class to an
+instance of that class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Determine whether to use
+gradient checkpointing</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_scan_mlp</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use the scan_mlp
+function or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_mlp_chunk_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Chunk the input to the mlp</p>
+              </div>
+            </td>
+            <td>
+                  <code>1024</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>number_rep_kv</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Control the number of times that the key
+and value vectors are repeated</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Specify the number of bits to use for
+quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_dropout</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the dropout rate for the
+attention layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_bias</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: when ever to use attention_bias</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>initialization_of_moe</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: initialization of moe needs to
+disable some dynamic part's this boolean variable will
+turn them off.</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rope_scaling</code></td>
+            <td>
+                  <code><span title="typing.Dict">Dict</span>[str, <span title="typing.Union">Union</span>[str, float]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Dict[str, Union[str, float]]: rope_scaling for
+rope</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the following:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/deepseek_v2/deepseek_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the model:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Bind the attributes and methods of a class to an</span>
+<span class="sd">            instance of that class</span>
+<span class="sd">        gradient_checkpointing: str: Determine whether to use</span>
+<span class="sd">            gradient checkpointing</span>
+<span class="sd">        use_scan_mlp: bool: Determine whether to use the scan_mlp</span>
+<span class="sd">            function or not</span>
+<span class="sd">        scan_mlp_chunk_size: int: Chunk the input to the mlp</span>
+<span class="sd">        number_rep_kv: int: Control the number of times that the key</span>
+<span class="sd">            and value vectors are repeated</span>
+<span class="sd">        bits: Optional[int]: Specify the number of bits to use for</span>
+<span class="sd">            quantization</span>
+<span class="sd">        attention_dropout: float: Set the dropout rate for the</span>
+<span class="sd">            attention layer</span>
+<span class="sd">        attention_bias: bool: when ever to use attention_bias</span>
+<span class="sd">        initialization_of_moe: bool: initialization of moe needs to</span>
+<span class="sd">            disable some dynamic part&#39;s this boolean variable will</span>
+<span class="sd">            turn them off.</span>
+<span class="sd">        rope_scaling: Dict[str, Union[str, float]]: rope_scaling for</span>
+<span class="sd">            rope</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the following:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="n">initialization_of_moe</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.deepseek_v2.deepseek_configuration.DeepseekV2Config.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+  1) A regex string that matches the name of one or more parameters in the model.
+  2) A PartitionScheme object that defines how those parameters should be partitioned.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use
+the fully_sharded_data_parallel partitioning scheme or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/deepseek_v2/deepseek_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">      1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">      2) A PartitionScheme object that defines how those parameters should be partitioned.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to use</span>
+<span class="sd">            the fully_sharded_data_parallel partitioning scheme or</span>
+<span class="sd">            not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;w3/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;w3/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-deepseek_v2-modeling_deepseek_flax/index.html b/generated-modules-deepseek_v2-modeling_deepseek_flax/index.html
new file mode 100644
index 000000000..b53dede1a
--- /dev/null
+++ b/generated-modules-deepseek_v2-modeling_deepseek_flax/index.html
@@ -0,0 +1,9072 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-deepseek_v2-deepseek_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-easydel_modelling_utils/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modeling Deepseek Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesdeepseek_v2modeling_deepseek_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modeling Deepseek Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modeling_deepseek_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.DeepseekV2PreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      DeepseekV2PreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="DeepseekV2PreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.DeepseekV2PreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.DeepseekV2PreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxDeepseekV2ForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxDeepseekV2ForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxDeepseekV2ForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxDeepseekV2ForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2Module" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxDeepseekV2Module
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxDeepseekV2Module">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2Module.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modeling_deepseek_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.DeepseekV2PreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      DeepseekV2PreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="DeepseekV2PreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.DeepseekV2PreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.DeepseekV2PreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxDeepseekV2ForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxDeepseekV2ForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxDeepseekV2ForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxDeepseekV2ForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2Module" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxDeepseekV2Module
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxDeepseekV2Module">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2Module.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesdeepseek_v2modeling_deepseek_flax">modules.deepseek_v2.modeling_deepseek_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.DeepseekV2PreTrainedModel" class="doc doc-heading">
+            <code>DeepseekV2PreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span>
+<span class="normal">1054</span>
+<span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span>
+<span class="normal">1065</span>
+<span class="normal">1066</span>
+<span class="normal">1067</span>
+<span class="normal">1068</span>
+<span class="normal">1069</span>
+<span class="normal">1070</span>
+<span class="normal">1071</span>
+<span class="normal">1072</span>
+<span class="normal">1073</span>
+<span class="normal">1074</span>
+<span class="normal">1075</span>
+<span class="normal">1076</span>
+<span class="normal">1077</span>
+<span class="normal">1078</span>
+<span class="normal">1079</span>
+<span class="normal">1080</span>
+<span class="normal">1081</span>
+<span class="normal">1082</span>
+<span class="normal">1083</span>
+<span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span>
+<span class="normal">1119</span>
+<span class="normal">1120</span>
+<span class="normal">1121</span>
+<span class="normal">1122</span>
+<span class="normal">1123</span>
+<span class="normal">1124</span>
+<span class="normal">1125</span>
+<span class="normal">1126</span>
+<span class="normal">1127</span>
+<span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span>
+<span class="normal">1149</span>
+<span class="normal">1150</span>
+<span class="normal">1151</span>
+<span class="normal">1152</span>
+<span class="normal">1153</span>
+<span class="normal">1154</span>
+<span class="normal">1155</span>
+<span class="normal">1156</span>
+<span class="normal">1157</span>
+<span class="normal">1158</span>
+<span class="normal">1159</span>
+<span class="normal">1160</span>
+<span class="normal">1161</span>
+<span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span>
+<span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span>
+<span class="normal">1204</span>
+<span class="normal">1205</span>
+<span class="normal">1206</span>
+<span class="normal">1207</span>
+<span class="normal">1208</span>
+<span class="normal">1209</span>
+<span class="normal">1210</span>
+<span class="normal">1211</span>
+<span class="normal">1212</span>
+<span class="normal">1213</span>
+<span class="normal">1214</span>
+<span class="normal">1215</span>
+<span class="normal">1216</span>
+<span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span>
+<span class="normal">1220</span>
+<span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">DeepseekV2PreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span><span class="p">:</span> <span class="n">DeepseekV2Config</span> <span class="o">=</span> <span class="n">DeepseekV2Config</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;model&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">DeepseekV2Config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">),</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">,</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">module</span><span class="p">,</span> <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+            <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+<span class="sd">        It takes in a rng, which is a random number generator key that can be used to generate random numbers.</span>
+<span class="sd">        The input_shape parameter specifies the shape of the inputs that will be fed into this model.</span>
+<span class="sd">        The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Initialize the input_ids, attention_mask</span>
+<span class="sd">                and position_ids</span>
+<span class="sd">            params: flax.core.FrozenDict: Pass in the parameters of a</span>
+<span class="sd">                pre-trained model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">True</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">input_shape</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+            <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+                <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+            <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">encoder_hidden_states</span><span class="p">,</span>
+                <span class="n">encoder_attention_mask</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It takes as input:</span>
+<span class="sd">        - The parameters of the model (self.params)</span>
+<span class="sd">        - The inputs to the model (input_ids, attention_mask, position_ids)</span>
+<span class="sd">        - Whether we are training (train=True/False) and whether we want to return all hidden states and</span>
+<span class="sd">        attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: Pass the input sequence to the model</span>
+<span class="sd">            attention_mask: Mask out the padding tokens</span>
+<span class="sd">            position_ids: Specify the position of each token in the</span>
+<span class="sd">                sequence</span>
+<span class="sd">            params: dict: Pass in the parameters of the model</span>
+<span class="sd">            past_key_values: dict: Pass the past key values to the model</span>
+<span class="sd">            dropout_rng: jax.random.PRNGKey: Pass in a random number</span>
+<span class="sd">                generator key to the model</span>
+<span class="sd">            train: bool: Determine whether to use dropout or not</span>
+<span class="sd">            output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the attention weights</span>
+<span class="sd">            output_hidden_states: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the hidden states of all layers</span>
+<span class="sd">            return_dict: Optional[bool]: Return a dictionary of the</span>
+<span class="sd">                outputs</span>
+<span class="sd">            add_params_field: bool: Add a params field to the inputs</span>
+<span class="sd">                dictionary</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (last_hidden_state, past_key_values)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rng_s</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rng_s</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>  <span class="c1"># input_ids: chex.Array</span>
+            <span class="c1"># attention_mask: Optional[chex.Array] = None</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="c1"># position_ids: Optional[chex.Array] = None</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="kc">None</span><span class="p">,</span>  <span class="c1"># inputs_embeds: Optional[chex.Array] = None</span>
+            <span class="n">output_attentions</span><span class="p">,</span>  <span class="c1"># output_attentions: Optional[bool] = None</span>
+            <span class="c1"># output_hidden_states: Optional[bool] = None</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="c1"># output_router_logits: Optional[bool] = None</span>
+            <span class="n">output_router_logits</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>  <span class="c1"># init_cache: bool = False</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>  <span class="c1"># deterministic: bool = True</span>
+            <span class="n">return_dict</span><span class="p">,</span>  <span class="c1"># return_dict: bool = True</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rng_s</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                      <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.DeepseekV2PreTrainedModel.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">past_key_values</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dropout_rng</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It takes as input:
+- The parameters of the model (self.params)
+- The inputs to the model (input_ids, attention_mask, position_ids)
+- Whether we are training (train=True/False) and whether we want to return all hidden states and
+attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the input sequence to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>past_key_values</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass the past key values to the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dropout_rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Pass in a random number
+generator key to the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>train</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the hidden states of all layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Return a dictionary of the
+outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add a params field to the inputs
+dictionary</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of (last_hidden_state, past_key_values)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1119</span>
+<span class="normal">1120</span>
+<span class="normal">1121</span>
+<span class="normal">1122</span>
+<span class="normal">1123</span>
+<span class="normal">1124</span>
+<span class="normal">1125</span>
+<span class="normal">1126</span>
+<span class="normal">1127</span>
+<span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span>
+<span class="normal">1149</span>
+<span class="normal">1150</span>
+<span class="normal">1151</span>
+<span class="normal">1152</span>
+<span class="normal">1153</span>
+<span class="normal">1154</span>
+<span class="normal">1155</span>
+<span class="normal">1156</span>
+<span class="normal">1157</span>
+<span class="normal">1158</span>
+<span class="normal">1159</span>
+<span class="normal">1160</span>
+<span class="normal">1161</span>
+<span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span>
+<span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span>
+<span class="normal">1204</span>
+<span class="normal">1205</span>
+<span class="normal">1206</span>
+<span class="normal">1207</span>
+<span class="normal">1208</span>
+<span class="normal">1209</span>
+<span class="normal">1210</span>
+<span class="normal">1211</span>
+<span class="normal">1212</span>
+<span class="normal">1213</span>
+<span class="normal">1214</span>
+<span class="normal">1215</span>
+<span class="normal">1216</span>
+<span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span>
+<span class="normal">1220</span>
+<span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It takes as input:</span>
+<span class="sd">    - The parameters of the model (self.params)</span>
+<span class="sd">    - The inputs to the model (input_ids, attention_mask, position_ids)</span>
+<span class="sd">    - Whether we are training (train=True/False) and whether we want to return all hidden states and</span>
+<span class="sd">    attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: Pass the input sequence to the model</span>
+<span class="sd">        attention_mask: Mask out the padding tokens</span>
+<span class="sd">        position_ids: Specify the position of each token in the</span>
+<span class="sd">            sequence</span>
+<span class="sd">        params: dict: Pass in the parameters of the model</span>
+<span class="sd">        past_key_values: dict: Pass the past key values to the model</span>
+<span class="sd">        dropout_rng: jax.random.PRNGKey: Pass in a random number</span>
+<span class="sd">            generator key to the model</span>
+<span class="sd">        train: bool: Determine whether to use dropout or not</span>
+<span class="sd">        output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the attention weights</span>
+<span class="sd">        output_hidden_states: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the hidden states of all layers</span>
+<span class="sd">        return_dict: Optional[bool]: Return a dictionary of the</span>
+<span class="sd">            outputs</span>
+<span class="sd">        add_params_field: bool: Add a params field to the inputs</span>
+<span class="sd">            dictionary</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of (last_hidden_state, past_key_values)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+    <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+    <span class="p">)</span>
+    <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rng_s</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+    <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rng_s</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+        <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+        <span class="n">inputs</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>  <span class="c1"># input_ids: chex.Array</span>
+        <span class="c1"># attention_mask: Optional[chex.Array] = None</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="c1"># position_ids: Optional[chex.Array] = None</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="kc">None</span><span class="p">,</span>  <span class="c1"># inputs_embeds: Optional[chex.Array] = None</span>
+        <span class="n">output_attentions</span><span class="p">,</span>  <span class="c1"># output_attentions: Optional[bool] = None</span>
+        <span class="c1"># output_hidden_states: Optional[bool] = None</span>
+        <span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="c1"># output_router_logits: Optional[bool] = None</span>
+        <span class="n">output_router_logits</span><span class="p">,</span>
+        <span class="kc">False</span><span class="p">,</span>  <span class="c1"># init_cache: bool = False</span>
+        <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>  <span class="c1"># deterministic: bool = True</span>
+        <span class="n">return_dict</span><span class="p">,</span>  <span class="c1"># return_dict: bool = True</span>
+        <span class="n">rngs</span><span class="o">=</span><span class="n">rng_s</span><span class="p">,</span>
+        <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+    <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                  <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.DeepseekV2PreTrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.
+It takes in a rng, which is a random number generator key that can be used to generate random numbers.
+The input_shape parameter specifies the shape of the inputs that will be fed into this model.
+The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Initialize the input_ids, attention_mask
+and position_ids</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="flax.core.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>flax.core.FrozenDict: Pass in the parameters of a
+pre-trained model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span>
+<span class="normal">1054</span>
+<span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span>
+<span class="normal">1065</span>
+<span class="normal">1066</span>
+<span class="normal">1067</span>
+<span class="normal">1068</span>
+<span class="normal">1069</span>
+<span class="normal">1070</span>
+<span class="normal">1071</span>
+<span class="normal">1072</span>
+<span class="normal">1073</span>
+<span class="normal">1074</span>
+<span class="normal">1075</span>
+<span class="normal">1076</span>
+<span class="normal">1077</span>
+<span class="normal">1078</span>
+<span class="normal">1079</span>
+<span class="normal">1080</span>
+<span class="normal">1081</span>
+<span class="normal">1082</span>
+<span class="normal">1083</span>
+<span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+<span class="sd">    It takes in a rng, which is a random number generator key that can be used to generate random numbers.</span>
+<span class="sd">    The input_shape parameter specifies the shape of the inputs that will be fed into this model.</span>
+<span class="sd">    The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Initialize the input_ids, attention_mask</span>
+<span class="sd">            and position_ids</span>
+<span class="sd">        params: flax.core.FrozenDict: Pass in the parameters of a</span>
+<span class="sd">            pre-trained model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">input_shape</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+        <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+            <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+        <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+    <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLM" class="doc doc-heading">
+            <code>FlaxDeepseekV2ForCausalLM</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.DeepseekV2PreTrainedModel" href="#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.DeepseekV2PreTrainedModel">DeepseekV2PreTrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1337</span>
+<span class="normal">1338</span>
+<span class="normal">1339</span>
+<span class="normal">1340</span>
+<span class="normal">1341</span>
+<span class="normal">1342</span>
+<span class="normal">1343</span>
+<span class="normal">1344</span>
+<span class="normal">1345</span>
+<span class="normal">1346</span>
+<span class="normal">1347</span>
+<span class="normal">1348</span>
+<span class="normal">1349</span>
+<span class="normal">1350</span>
+<span class="normal">1351</span>
+<span class="normal">1352</span>
+<span class="normal">1353</span>
+<span class="normal">1354</span>
+<span class="normal">1355</span>
+<span class="normal">1356</span>
+<span class="normal">1357</span>
+<span class="normal">1358</span>
+<span class="normal">1359</span>
+<span class="normal">1360</span>
+<span class="normal">1361</span>
+<span class="normal">1362</span>
+<span class="normal">1363</span>
+<span class="normal">1364</span>
+<span class="normal">1365</span>
+<span class="normal">1366</span>
+<span class="normal">1367</span>
+<span class="normal">1368</span>
+<span class="normal">1369</span>
+<span class="normal">1370</span>
+<span class="normal">1371</span>
+<span class="normal">1372</span>
+<span class="normal">1373</span>
+<span class="normal">1374</span>
+<span class="normal">1375</span>
+<span class="normal">1376</span>
+<span class="normal">1377</span>
+<span class="normal">1378</span>
+<span class="normal">1379</span>
+<span class="normal">1380</span>
+<span class="normal">1381</span>
+<span class="normal">1382</span>
+<span class="normal">1383</span>
+<span class="normal">1384</span>
+<span class="normal">1385</span>
+<span class="normal">1386</span>
+<span class="normal">1387</span>
+<span class="normal">1388</span>
+<span class="normal">1389</span>
+<span class="normal">1390</span>
+<span class="normal">1391</span>
+<span class="normal">1392</span>
+<span class="normal">1393</span>
+<span class="normal">1394</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxDeepseekV2ForCausalLM</span><span class="p">(</span><span class="n">DeepseekV2PreTrainedModel</span><span class="p">):</span>
+    <span class="n">module_class</span> <span class="o">=</span> <span class="n">FlaxDeepseekV2ForCausalLMModule</span>
+
+    <span class="k">def</span> <span class="nf">set_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">embed_tokens</span> <span class="o">=</span> <span class="n">value</span>
+
+    <span class="k">def</span> <span class="nf">get_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">embed_tokens</span>
+
+    <span class="k">def</span> <span class="nf">set_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">decoder</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">decoder</span>
+
+    <span class="k">def</span> <span class="nf">get_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span>
+
+    <span class="k">def</span> <span class="nf">get_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">lm_head</span>
+
+    <span class="k">def</span> <span class="nf">set_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">new_embeddings</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">lm_head</span> <span class="o">=</span> <span class="n">new_embeddings</span>
+
+    <span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            input_ids: Pass in the input tokens</span>
+<span class="sd">            max_length: Set the length of the sequence to be generated</span>
+<span class="sd">            attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">                weights</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">            position ids</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+            <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+                <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+            <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+            <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">update_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_outputs</span><span class="p">,</span> <span class="n">model_kwargs</span><span class="p">):</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">past_key_values</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">][:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">:]</span> <span class="o">+</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="n">model_kwargs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLM.prepare_inputs_for_generation" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">prepare_inputs_for_generation</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the length of the sequence to be generated</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[chex.Array]: Mask the attention
+weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of the past_key_values, attention_mask and</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>position ids</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1358</span>
+<span class="normal">1359</span>
+<span class="normal">1360</span>
+<span class="normal">1361</span>
+<span class="normal">1362</span>
+<span class="normal">1363</span>
+<span class="normal">1364</span>
+<span class="normal">1365</span>
+<span class="normal">1366</span>
+<span class="normal">1367</span>
+<span class="normal">1368</span>
+<span class="normal">1369</span>
+<span class="normal">1370</span>
+<span class="normal">1371</span>
+<span class="normal">1372</span>
+<span class="normal">1373</span>
+<span class="normal">1374</span>
+<span class="normal">1375</span>
+<span class="normal">1376</span>
+<span class="normal">1377</span>
+<span class="normal">1378</span>
+<span class="normal">1379</span>
+<span class="normal">1380</span>
+<span class="normal">1381</span>
+<span class="normal">1382</span>
+<span class="normal">1383</span>
+<span class="normal">1384</span>
+<span class="normal">1385</span>
+<span class="normal">1386</span>
+<span class="normal">1387</span>
+<span class="normal">1388</span>
+<span class="normal">1389</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        input_ids: Pass in the input tokens</span>
+<span class="sd">        max_length: Set the length of the sequence to be generated</span>
+<span class="sd">        attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">            weights</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">        position ids</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+    <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+        <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+            <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+        <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+        <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLMModule" class="doc doc-heading">
+            <code>FlaxDeepseekV2ForCausalLMModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span>
+<span class="normal">1241</span>
+<span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span>
+<span class="normal">1281</span>
+<span class="normal">1282</span>
+<span class="normal">1283</span>
+<span class="normal">1284</span>
+<span class="normal">1285</span>
+<span class="normal">1286</span>
+<span class="normal">1287</span>
+<span class="normal">1288</span>
+<span class="normal">1289</span>
+<span class="normal">1290</span>
+<span class="normal">1291</span>
+<span class="normal">1292</span>
+<span class="normal">1293</span>
+<span class="normal">1294</span>
+<span class="normal">1295</span>
+<span class="normal">1296</span>
+<span class="normal">1297</span>
+<span class="normal">1298</span>
+<span class="normal">1299</span>
+<span class="normal">1300</span>
+<span class="normal">1301</span>
+<span class="normal">1302</span>
+<span class="normal">1303</span>
+<span class="normal">1304</span>
+<span class="normal">1305</span>
+<span class="normal">1306</span>
+<span class="normal">1307</span>
+<span class="normal">1308</span>
+<span class="normal">1309</span>
+<span class="normal">1310</span>
+<span class="normal">1311</span>
+<span class="normal">1312</span>
+<span class="normal">1313</span>
+<span class="normal">1314</span>
+<span class="normal">1315</span>
+<span class="normal">1316</span>
+<span class="normal">1317</span>
+<span class="normal">1318</span>
+<span class="normal">1319</span>
+<span class="normal">1320</span>
+<span class="normal">1321</span>
+<span class="normal">1322</span>
+<span class="normal">1323</span>
+<span class="normal">1324</span>
+<span class="normal">1325</span>
+<span class="normal">1326</span>
+<span class="normal">1327</span>
+<span class="normal">1328</span>
+<span class="normal">1329</span>
+<span class="normal">1330</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxDeepseekV2ForCausalLMModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">DeepseekV2Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">FlaxDeepseekV2Module</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It defines how the model will be called,</span>
+<span class="sd">        and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask</span>
+<span class="sd">        as inputs (these are defined in __init__). We also have some optional arguments that can be passed to</span>
+<span class="sd">        the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),</span>
+<span class="sd">        output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in the sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout in the</span>
+<span class="sd">                model</span>
+<span class="sd">            inputs_embeds: chex.Array: Pass in the embeddings of the</span>
+<span class="sd">                input tokens</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            output_hidden_states: bool: Return the hidden states of all</span>
+<span class="sd">                layers</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs or</span>
+<span class="sd">                just the logits</span>
+<span class="sd">        :param : Determine whether to return the logits or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (lm_logits, hidden_states, attentions)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="o">=</span><span class="n">inputs_embeds</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">tie_word_embeddings</span><span class="p">:</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+            <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+                <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="c1"># lm_logits = lm_logits.astype(jnp.float32)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">(</span><span class="n">lm_logits</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">FlaxCausalLMOutput</span><span class="p">(</span><span class="n">logits</span><span class="o">=</span><span class="n">lm_logits</span><span class="p">,</span> <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLMModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">inputs_embeds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax module. It defines how the model will be called,
+and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask
+as inputs (these are defined in <strong>init</strong>). We also have some optional arguments that can be passed to
+the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),
+output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout in the
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>inputs_embeds</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the embeddings of the
+input tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the hidden states of all
+layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs or
+just the logits</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine whether to return the logits or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of (lm_logits, hidden_states, attentions)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span>
+<span class="normal">1281</span>
+<span class="normal">1282</span>
+<span class="normal">1283</span>
+<span class="normal">1284</span>
+<span class="normal">1285</span>
+<span class="normal">1286</span>
+<span class="normal">1287</span>
+<span class="normal">1288</span>
+<span class="normal">1289</span>
+<span class="normal">1290</span>
+<span class="normal">1291</span>
+<span class="normal">1292</span>
+<span class="normal">1293</span>
+<span class="normal">1294</span>
+<span class="normal">1295</span>
+<span class="normal">1296</span>
+<span class="normal">1297</span>
+<span class="normal">1298</span>
+<span class="normal">1299</span>
+<span class="normal">1300</span>
+<span class="normal">1301</span>
+<span class="normal">1302</span>
+<span class="normal">1303</span>
+<span class="normal">1304</span>
+<span class="normal">1305</span>
+<span class="normal">1306</span>
+<span class="normal">1307</span>
+<span class="normal">1308</span>
+<span class="normal">1309</span>
+<span class="normal">1310</span>
+<span class="normal">1311</span>
+<span class="normal">1312</span>
+<span class="normal">1313</span>
+<span class="normal">1314</span>
+<span class="normal">1315</span>
+<span class="normal">1316</span>
+<span class="normal">1317</span>
+<span class="normal">1318</span>
+<span class="normal">1319</span>
+<span class="normal">1320</span>
+<span class="normal">1321</span>
+<span class="normal">1322</span>
+<span class="normal">1323</span>
+<span class="normal">1324</span>
+<span class="normal">1325</span>
+<span class="normal">1326</span>
+<span class="normal">1327</span>
+<span class="normal">1328</span>
+<span class="normal">1329</span>
+<span class="normal">1330</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It defines how the model will be called,</span>
+<span class="sd">    and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask</span>
+<span class="sd">    as inputs (these are defined in __init__). We also have some optional arguments that can be passed to</span>
+<span class="sd">    the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),</span>
+<span class="sd">    output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in the sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout in the</span>
+<span class="sd">            model</span>
+<span class="sd">        inputs_embeds: chex.Array: Pass in the embeddings of the</span>
+<span class="sd">            input tokens</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        output_hidden_states: bool: Return the hidden states of all</span>
+<span class="sd">            layers</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs or</span>
+<span class="sd">            just the logits</span>
+<span class="sd">    :param : Determine whether to return the logits or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of (lm_logits, hidden_states, attentions)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+        <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="o">=</span><span class="n">inputs_embeds</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">tie_word_embeddings</span><span class="p">:</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="c1"># lm_logits = lm_logits.astype(jnp.float32)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">lm_logits</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">FlaxCausalLMOutput</span><span class="p">(</span><span class="n">logits</span><span class="o">=</span><span class="n">lm_logits</span><span class="p">,</span> <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2Module" class="doc doc-heading">
+            <code>FlaxDeepseekV2Module</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 859</span>
+<span class="normal"> 860</span>
+<span class="normal"> 861</span>
+<span class="normal"> 862</span>
+<span class="normal"> 863</span>
+<span class="normal"> 864</span>
+<span class="normal"> 865</span>
+<span class="normal"> 866</span>
+<span class="normal"> 867</span>
+<span class="normal"> 868</span>
+<span class="normal"> 869</span>
+<span class="normal"> 870</span>
+<span class="normal"> 871</span>
+<span class="normal"> 872</span>
+<span class="normal"> 873</span>
+<span class="normal"> 874</span>
+<span class="normal"> 875</span>
+<span class="normal"> 876</span>
+<span class="normal"> 877</span>
+<span class="normal"> 878</span>
+<span class="normal"> 879</span>
+<span class="normal"> 880</span>
+<span class="normal"> 881</span>
+<span class="normal"> 882</span>
+<span class="normal"> 883</span>
+<span class="normal"> 884</span>
+<span class="normal"> 885</span>
+<span class="normal"> 886</span>
+<span class="normal"> 887</span>
+<span class="normal"> 888</span>
+<span class="normal"> 889</span>
+<span class="normal"> 890</span>
+<span class="normal"> 891</span>
+<span class="normal"> 892</span>
+<span class="normal"> 893</span>
+<span class="normal"> 894</span>
+<span class="normal"> 895</span>
+<span class="normal"> 896</span>
+<span class="normal"> 897</span>
+<span class="normal"> 898</span>
+<span class="normal"> 899</span>
+<span class="normal"> 900</span>
+<span class="normal"> 901</span>
+<span class="normal"> 902</span>
+<span class="normal"> 903</span>
+<span class="normal"> 904</span>
+<span class="normal"> 905</span>
+<span class="normal"> 906</span>
+<span class="normal"> 907</span>
+<span class="normal"> 908</span>
+<span class="normal"> 909</span>
+<span class="normal"> 910</span>
+<span class="normal"> 911</span>
+<span class="normal"> 912</span>
+<span class="normal"> 913</span>
+<span class="normal"> 914</span>
+<span class="normal"> 915</span>
+<span class="normal"> 916</span>
+<span class="normal"> 917</span>
+<span class="normal"> 918</span>
+<span class="normal"> 919</span>
+<span class="normal"> 920</span>
+<span class="normal"> 921</span>
+<span class="normal"> 922</span>
+<span class="normal"> 923</span>
+<span class="normal"> 924</span>
+<span class="normal"> 925</span>
+<span class="normal"> 926</span>
+<span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxDeepseekV2Module</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">DeepseekV2Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Embed</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">embedding_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">layers</span> <span class="o">=</span> <span class="n">FlaxDeepseekV2DecoratorCollection</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">norm</span> <span class="o">=</span> <span class="n">DeepseekV2RMSNorm</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+
+        <span class="n">initial_rope_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">method</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">scaling_type</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">[</span><span class="s2">&quot;type&quot;</span><span class="p">]</span>
+            <span class="n">method</span> <span class="o">=</span> <span class="n">scaling_type</span>
+            <span class="k">if</span> <span class="n">scaling_type</span> <span class="o">!=</span> <span class="s2">&quot;yarn&quot;</span><span class="p">:</span>
+                <span class="n">initial_rope_kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span><span class="n">scaling_factor</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">[</span><span class="s2">&quot;factor&quot;</span><span class="p">])</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">initial_rope_kwargs</span> <span class="o">=</span> <span class="p">{</span>
+                    <span class="n">key</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+                    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="p">[</span>
+                        <span class="s2">&quot;original_max_position_embeddings&quot;</span><span class="p">,</span>
+                        <span class="s2">&quot;beta_fast&quot;</span><span class="p">,</span>
+                        <span class="s2">&quot;beta_slow&quot;</span><span class="p">,</span>
+                        <span class="s2">&quot;mscale&quot;</span><span class="p">,</span>
+                        <span class="s2">&quot;mscale_all_dim&quot;</span><span class="p">,</span>
+                    <span class="p">]</span>
+                    <span class="k">if</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span>
+                <span class="p">}</span>
+                <span class="n">initial_rope_kwargs</span><span class="p">[</span><span class="s2">&quot;scaling_factor&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">[</span><span class="s2">&quot;factor&quot;</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span> <span class="o">=</span> <span class="n">init_deepseek_rotary_embedding</span><span class="p">(</span>
+            <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="p">(</span>
+                <span class="nb">getattr</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                    <span class="s2">&quot;freq_max_position_embeddings&quot;</span><span class="p">,</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span>
+                <span class="p">)</span>
+            <span class="p">),</span>
+            <span class="n">base</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_theta</span><span class="p">,</span>
+            <span class="n">method</span><span class="o">=</span><span class="n">method</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+            <span class="n">kwargs</span><span class="o">=</span><span class="n">initial_rope_kwargs</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">make_causal_mask</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+                <span class="p">(</span>
+                    <span class="mi">1</span><span class="p">,</span>
+                    <span class="nb">getattr</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                        <span class="s2">&quot;c_max_position_embeddings&quot;</span><span class="p">,</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span>
+                    <span class="p">)</span>
+                <span class="p">),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span>
+            <span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Union</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="o">...</span><span class="p">],</span> <span class="n">FlaxBaseModelOutput</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax model.</span>
+<span class="sd">        It takes in input_ids, attention_mask, and position_ids as inputs to the model.</span>
+<span class="sd">        The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input ids</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for certain tokens</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            inputs_embeds: chex.Array: Pass in the embedding of the</span>
+<span class="sd">                input_ids</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+<span class="sd">            output_hidden_states: bool: Return all hidden states or just</span>
+<span class="sd">                the last one</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">        :param : Determine whether the model is in training mode or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the hidden states, all hidden states, and</span>
+<span class="sd">            attentions</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">inputs_embeds</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">))</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">b</span><span class="p">,</span> <span class="n">s</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">b</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">s</span><span class="p">)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">inputs_embeds</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">value</span> <span class="k">for</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">outputs</span> <span class="k">if</span> <span class="n">value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">FlaxBaseModelOutput</span><span class="p">(</span>
+            <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+            <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2Module.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">inputs_embeds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax model.
+It takes in input_ids, attention_mask, and position_ids as inputs to the model.
+The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input ids</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for certain tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>inputs_embeds</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the embedding of the
+input_ids</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return all hidden states or just
+the last one</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine whether the model is in training mode or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, ...], <span title="transformers.modeling_flax_outputs.FlaxBaseModelOutput">FlaxBaseModelOutput</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the hidden states, all hidden states, and</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, ...], <span title="transformers.modeling_flax_outputs.FlaxBaseModelOutput">FlaxBaseModelOutput</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>attentions</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Union</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="o">...</span><span class="p">],</span> <span class="n">FlaxBaseModelOutput</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax model.</span>
+<span class="sd">    It takes in input_ids, attention_mask, and position_ids as inputs to the model.</span>
+<span class="sd">    The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input ids</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for certain tokens</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        inputs_embeds: chex.Array: Pass in the embedding of the</span>
+<span class="sd">            input_ids</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+<span class="sd">        output_hidden_states: bool: Return all hidden states or just</span>
+<span class="sd">            the last one</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">    :param : Determine whether the model is in training mode or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the hidden states, all hidden states, and</span>
+<span class="sd">        attentions</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">inputs_embeds</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">))</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">b</span><span class="p">,</span> <span class="n">s</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">b</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">s</span><span class="p">)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">inputs_embeds</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">value</span> <span class="k">for</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">outputs</span> <span class="k">if</span> <span class="n">value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">FlaxBaseModelOutput</span><span class="p">(</span>
+        <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+        <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-easydel_modelling_utils/index.html b/generated-modules-easydel_modelling_utils/index.html
new file mode 100644
index 000000000..5657090de
--- /dev/null
+++ b/generated-modules-easydel_modelling_utils/index.html
@@ -0,0 +1,11175 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-deepseek_v2-modeling_deepseek_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-falcon-falcon_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Easydel Modelling Utils - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#moduleseasydel_modelling_utils" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Easydel Modelling Utils
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      easydel_modelling_utils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLFlaxPretrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="EasyDeLFlaxPretrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.get_decoder" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_decoder
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.get_input_embeddings" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_input_embeddings
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.get_output_embeddings" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_output_embeddings
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.set_decoder" class="md-nav__link">
+    <span class="md-ellipsis">
+      set_decoder
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.set_input_embeddings" class="md-nav__link">
+    <span class="md-ellipsis">
+      set_input_embeddings
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.set_output_embeddings" class="md-nav__link">
+    <span class="md-ellipsis">
+      set_output_embeddings
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.to_easydel_state" class="md-nav__link">
+    <span class="md-ellipsis">
+      to_easydel_state
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.to_pytorch" class="md-nav__link">
+    <span class="md-ellipsis">
+      to_pytorch
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLPretrainedConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="EasyDeLPretrainedConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.add_basic_configurations" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_basic_configurations
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.create_mesh" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_mesh
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_axis_dims" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_axis_dims
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_axis_names" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_axis_names
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_backend" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_backend
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.jax_mesh" class="md-nav__link">
+    <span class="md-ellipsis">
+      jax_mesh
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      easydel_modelling_utils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLFlaxPretrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="EasyDeLFlaxPretrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.get_decoder" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_decoder
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.get_input_embeddings" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_input_embeddings
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.get_output_embeddings" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_output_embeddings
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.set_decoder" class="md-nav__link">
+    <span class="md-ellipsis">
+      set_decoder
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.set_input_embeddings" class="md-nav__link">
+    <span class="md-ellipsis">
+      set_input_embeddings
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.set_output_embeddings" class="md-nav__link">
+    <span class="md-ellipsis">
+      set_output_embeddings
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.to_easydel_state" class="md-nav__link">
+    <span class="md-ellipsis">
+      to_easydel_state
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.to_pytorch" class="md-nav__link">
+    <span class="md-ellipsis">
+      to_pytorch
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeLPretrainedConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="EasyDeLPretrainedConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.add_basic_configurations" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_basic_configurations
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.create_mesh" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_mesh
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_axis_dims" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_axis_dims
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_axis_names" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_axis_names
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_backend" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_backend
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.jax_mesh" class="md-nav__link">
+    <span class="md-ellipsis">
+      jax_mesh
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="moduleseasydel_modelling_utils">modules.easydel_modelling_utils</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.easydel_modelling_utils"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" class="doc doc-heading">
+            <code>EasyDeLFlaxPretrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="transformers.FlaxPreTrainedModel">FlaxPreTrainedModel</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">EasyDeLFlaxPretrainedModel</span><span class="p">(</span><span class="n">FlaxPreTrainedModel</span><span class="p">):</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">PretrainedConfig</span><span class="p">,</span>
+            <span class="n">module</span><span class="p">:</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">Module</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>  <span class="c1"># Ignored</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># Ignored</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">module</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+            <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_input_embeddings function returns the embedding layer of the model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the current object</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The embedding layer of the model</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">set_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The set_input_embeddings function is used to set the embedding module of the model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            value: Set the embeddings of the model</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">get_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_output_embeddings function returns the output embeddings of a model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The output embeddings of the model</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">set_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">new_embeddings</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The set_output_embeddings function is used to set the output embeddings of a model.</span>
+<span class="sd">        This function can be used to change the output embedding layer of a pretrained model in order to finetune it</span>
+<span class="sd">        to some downstream task. Changing this layer has an effect only if the model has already been fine-tuned on some</span>
+<span class="sd">        task (e.g., for classification). If you are training your own language models, you should call this function before</span>
+<span class="sd">        you start training.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            new_embeddings: Set the embeddings of the output layer</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A new embedding layer</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">set_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">decoder</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The set_decoder function is used to set the decoder for a given encoder.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            decoder: Set the decoder for a given encoder</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A decoder</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">get_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_decoder function is used to create a decoder object.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A decoder object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">max_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span><span class="s2">&quot;init_cache is not Implemented Yet!&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            input_ids: Pass in the input tokens</span>
+<span class="sd">            max_length: Set the length of the sequence to be generated</span>
+<span class="sd">            attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">                weights</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">            position ids</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+            <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+                <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+            <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+            <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">update_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_outputs</span><span class="p">,</span> <span class="n">model_kwargs</span><span class="p">):</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">past_key_values</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">][:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">:]</span> <span class="o">+</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="n">model_kwargs</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">vision_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span><span class="s2">&quot;Not Implemented Yet&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">        This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">        to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">        object, or when you type its name in the REPL.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A string representation of the object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                    <span class="k">pass</span>
+        <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">        It should return a string representation of the object.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The object&#39;s string representation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+
+    <span class="nd">@property</span>
+    <span class="k">def</span> <span class="nf">config</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">EasyDeLPretrainedConfig</span><span class="p">:</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_config</span>  <span class="c1"># type:ignore</span>
+
+    <span class="k">def</span> <span class="nf">to_easydel_state</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Convert the Model to EasyDeLState</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+            <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+            <span class="n">opt_state</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">to_pytorch</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">,</span>
+            <span class="n">base_hf_auto_class</span><span class="o">=</span><span class="n">AutoModelForCausalLM</span><span class="p">,</span>
+            <span class="n">easystate_to_huggingface_model_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Return the Huggingface / Pytorch implementation of the model with same weights  (if model is available in HF)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="kn">from</span> <span class="nn">..transform.easydel_transform</span> <span class="kn">import</span> <span class="n">easystate_to_huggingface_model</span>
+        <span class="n">state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">to_easydel_state</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">easystate_to_huggingface_model_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">easystate_to_huggingface_model_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+
+        <span class="n">model_config</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">module_config</span>
+        <span class="k">if</span> <span class="n">model_config</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">model_config</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config_class</span>
+        <span class="c1"># model_type = model_config.model_type</span>
+        <span class="n">model_class</span> <span class="o">=</span> <span class="n">base_hf_auto_class</span><span class="o">.</span><span class="n">_model_mapping</span><span class="p">[</span><span class="nb">type</span><span class="p">(</span><span class="n">model_config</span><span class="p">)]</span>  <span class="c1"># noqa</span>
+        <span class="n">hf_model</span> <span class="o">=</span> <span class="n">easystate_to_huggingface_model</span><span class="p">(</span>
+            <span class="n">state</span><span class="o">=</span><span class="n">state</span><span class="p">,</span>
+            <span class="n">base_huggingface_module</span><span class="o">=</span><span class="n">model_class</span><span class="p">,</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">model_config</span><span class="p">,</span>
+
+            <span class="o">**</span><span class="n">easystate_to_huggingface_model_kwargs</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">hf_model</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.__repr__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__repr__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>repr</strong> function is used to generate a string representation of an object.
+This function should return a string that can be parsed by the Python interpreter
+to recreate the object. The <strong>repr</strong> function is called when you use print() on an
+object, or when you type its name in the REPL.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A string representation of the object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">    This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">    to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">    object, or when you type its name in the REPL.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A string representation of the object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                <span class="k">pass</span>
+    <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.__str__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__str__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>str</strong> function is called when you use the print function or when str() is used.
+It should return a string representation of the object.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The object's string representation</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">    It should return a string representation of the object.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The object&#39;s string representation</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.get_decoder" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_decoder</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_decoder function is used to create a decoder object.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A decoder object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_decoder function is used to create a decoder object.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A decoder object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.get_input_embeddings" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_input_embeddings</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_input_embeddings function returns the embedding layer of the model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the current object</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The embedding layer of the model</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_input_embeddings function returns the embedding layer of the model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the current object</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The embedding layer of the model</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.get_output_embeddings" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_output_embeddings</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_output_embeddings function returns the output embeddings of a model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The output embeddings of the model</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_output_embeddings function returns the output embeddings of a model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The output embeddings of the model</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.prepare_inputs_for_generation" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">prepare_inputs_for_generation</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the length of the sequence to be generated</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[chex.Array]: Mask the attention
+weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of the past_key_values, attention_mask and</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>position ids</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        input_ids: Pass in the input tokens</span>
+<span class="sd">        max_length: Set the length of the sequence to be generated</span>
+<span class="sd">        attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">            weights</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">        position ids</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+    <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+        <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+            <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+        <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+        <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.set_decoder" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">set_decoder</span><span class="p">(</span><span class="n">decoder</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The set_decoder function is used to set the decoder for a given encoder.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>decoder</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the decoder for a given encoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A decoder</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">set_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">decoder</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The set_decoder function is used to set the decoder for a given encoder.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        decoder: Set the decoder for a given encoder</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A decoder</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.set_input_embeddings" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">set_input_embeddings</span><span class="p">(</span><span class="n">value</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The set_input_embeddings function is used to set the embedding module of the model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the embeddings of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">set_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The set_input_embeddings function is used to set the embedding module of the model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        value: Set the embeddings of the model</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.set_output_embeddings" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">set_output_embeddings</span><span class="p">(</span><span class="n">new_embeddings</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The set_output_embeddings function is used to set the output embeddings of a model.
+This function can be used to change the output embedding layer of a pretrained model in order to finetune it
+to some downstream task. Changing this layer has an effect only if the model has already been fine-tuned on some
+task (e.g., for classification). If you are training your own language models, you should call this function before
+you start training.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>new_embeddings</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the embeddings of the output layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A new embedding layer</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">set_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">new_embeddings</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The set_output_embeddings function is used to set the output embeddings of a model.</span>
+<span class="sd">    This function can be used to change the output embedding layer of a pretrained model in order to finetune it</span>
+<span class="sd">    to some downstream task. Changing this layer has an effect only if the model has already been fine-tuned on some</span>
+<span class="sd">    task (e.g., for classification). If you are training your own language models, you should call this function before</span>
+<span class="sd">    you start training.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        new_embeddings: Set the embeddings of the output layer</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A new embedding layer</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.to_easydel_state" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">to_easydel_state</span><span class="p">(</span><span class="n">params</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Convert the Model to EasyDeLState</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">to_easydel_state</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Convert the Model to EasyDeLState</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+        <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+        <span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+        <span class="n">opt_state</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.to_pytorch" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">to_pytorch</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">base_hf_auto_class</span><span class="o">=</span><span class="n">AutoModelForCausalLM</span><span class="p">,</span> <span class="n">easystate_to_huggingface_model_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Return the Huggingface / Pytorch implementation of the model with same weights  (if model is available in HF)</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">to_pytorch</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">,</span>
+        <span class="n">base_hf_auto_class</span><span class="o">=</span><span class="n">AutoModelForCausalLM</span><span class="p">,</span>
+        <span class="n">easystate_to_huggingface_model_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Return the Huggingface / Pytorch implementation of the model with same weights  (if model is available in HF)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="kn">from</span> <span class="nn">..transform.easydel_transform</span> <span class="kn">import</span> <span class="n">easystate_to_huggingface_model</span>
+    <span class="n">state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">to_easydel_state</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">easystate_to_huggingface_model_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">easystate_to_huggingface_model_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+
+    <span class="n">model_config</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">module_config</span>
+    <span class="k">if</span> <span class="n">model_config</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">model_config</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config_class</span>
+    <span class="c1"># model_type = model_config.model_type</span>
+    <span class="n">model_class</span> <span class="o">=</span> <span class="n">base_hf_auto_class</span><span class="o">.</span><span class="n">_model_mapping</span><span class="p">[</span><span class="nb">type</span><span class="p">(</span><span class="n">model_config</span><span class="p">)]</span>  <span class="c1"># noqa</span>
+    <span class="n">hf_model</span> <span class="o">=</span> <span class="n">easystate_to_huggingface_model</span><span class="p">(</span>
+        <span class="n">state</span><span class="o">=</span><span class="n">state</span><span class="p">,</span>
+        <span class="n">base_huggingface_module</span><span class="o">=</span><span class="n">model_class</span><span class="p">,</span>
+        <span class="n">config</span><span class="o">=</span><span class="n">model_config</span><span class="p">,</span>
+
+        <span class="o">**</span><span class="n">easystate_to_huggingface_model_kwargs</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">hf_model</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" class="doc doc-heading">
+            <code>EasyDeLPretrainedConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="transformers.PretrainedConfig">PretrainedConfig</span></code></p>
+
+
+      <p>It initializes all the attributes of an object, and it's called when you create a new instance of that class.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_dims</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[int]: Specify the number of dimensions for
+each axis</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, -1, 1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_names</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[str]: Set the names of the axes</p>
+              </div>
+            </td>
+            <td>
+                  <code>(&#39;dp&#39;, &#39;fsdp&#39;, &#39;tp&#39;, &#39;sp&#39;)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attn_mechanism</code></td>
+            <td>
+                  <code><span title="src.python.easydel.modules.easydel_modelling_utils.AVAILABLE_ATTENTION_MECHANISMS">AVAILABLE_ATTENTION_MECHANISMS</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Literal["vanilla", "flash", "splash", "ring"]:
+attention mechanism to use</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;sharded_vanilla&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_k</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of key_states</p>
+              </div>
+            </td>
+            <td>
+                  <code>128</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_q</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of query_states</p>
+              </div>
+            </td>
+            <td>
+                  <code>128</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_b</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of bias</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_q_major_dkv</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of block_q_major_dkv</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_k_major_dkv</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of block_k_major_dkv</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_k_dkv</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of block_k_dkv</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_q_dkv</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of block_q_dkv</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_k_major_dq</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of block_k_major_dq</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_k_dq</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of block_k_dq</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_q_dq</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of block_q_dq</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the partitioning of
+the query tensor</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Partition the key matrix</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the partitioning of
+the value tensor</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bias_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the Attention Bias
+partition spec</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), None, None, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the
+partitioning of the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;, &#39;tp&#39;, None)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>shard_attention_computation</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: whenever to shard qkv b for
+attention</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_sharding_constraint</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: whether to use sharding
+constraint for the arrays</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_scan_mlp</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use scan_mlp or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>backend</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[None]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[None]: Specify the backend to use</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.default_backend">default_backend</span>()</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>flash_attention_backward_pass_impl</code></td>
+            <td>
+                  <code><span title="typing.Literal">Literal</span>[&#39;triton&#39;, &#39;xla&#39;]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Literal["triton", "xla"]:
+Specify the backward pass kernel for flash attention</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;triton&#39;</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">EasyDeLPretrainedConfig</span><span class="p">(</span><span class="n">PretrainedConfig</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;It initializes all the attributes of an object, and it&#39;s called when you create a new instance of that class.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+<span class="sd">        axis_dims: Sequence[int]: Specify the number of dimensions for</span>
+<span class="sd">            each axis</span>
+<span class="sd">        axis_names: Sequence[str]: Set the names of the axes</span>
+<span class="sd">        attn_mechanism: Literal[&quot;vanilla&quot;, &quot;flash&quot;, &quot;splash&quot;, &quot;ring&quot;]:</span>
+<span class="sd">            attention mechanism to use</span>
+<span class="sd">        block_k: int: block size of key_states</span>
+<span class="sd">        block_q: int: block size of query_states</span>
+<span class="sd">        block_b: int: block size of bias</span>
+<span class="sd">        block_q_major_dkv: int: block size of block_q_major_dkv</span>
+<span class="sd">        block_k_major_dkv: int: block size of block_k_major_dkv</span>
+<span class="sd">        block_k_dkv: int: block size of block_k_dkv</span>
+<span class="sd">        block_q_dkv: int: block size of block_q_dkv</span>
+<span class="sd">        block_k_major_dq: int: block size of block_k_major_dq</span>
+<span class="sd">        block_k_dq: int: block size of block_k_dq</span>
+<span class="sd">        block_q_dq: int: block size of block_q_dq</span>
+<span class="sd">        query_partition_spec: PartitionSpec: Specify the partitioning of</span>
+<span class="sd">            the query tensor</span>
+<span class="sd">        key_partition_spec: PartitionSpec: Partition the key matrix</span>
+<span class="sd">        value_partition_spec: PartitionSpec: Specify the partitioning of</span>
+<span class="sd">            the value tensor</span>
+<span class="sd">        bias_partition_spec: PartitionSpec: Specify the Attention Bias</span>
+<span class="sd">            partition spec</span>
+<span class="sd">        attention_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">            partitioning of the attention weights</span>
+<span class="sd">        shard_attention_computation: bool: whenever to shard qkv b for</span>
+<span class="sd">            attention</span>
+<span class="sd">        use_sharding_constraint: bool: whether to use sharding</span>
+<span class="sd">            constraint for the arrays</span>
+<span class="sd">        use_scan_mlp: bool: Determine whether to use scan_mlp or not</span>
+<span class="sd">        backend: Optional[None]: Specify the backend to use</span>
+<span class="sd">        flash_attention_backward_pass_impl: Literal[&quot;triton&quot;, &quot;xla&quot;]:</span>
+<span class="sd">            Specify the backward pass kernel for flash attention</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">axis_dims</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">axis_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span>
+            <span class="n">attn_mechanism</span><span class="p">:</span> <span class="n">AVAILABLE_ATTENTION_MECHANISMS</span> <span class="o">=</span> <span class="s2">&quot;sharded_vanilla&quot;</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">128</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">128</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">128</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">key_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">value_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">generation_attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">shard_attention_computation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">use_sharded_kv_caching</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">use_sharding_constraint</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">backend</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_backend</span><span class="p">(),</span>
+            <span class="n">easy_method</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;train&quot;</span><span class="p">,</span> <span class="s2">&quot;serve&quot;</span><span class="p">,</span> <span class="s2">&quot;convert&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">EasyMethod</span><span class="o">.</span><span class="n">TRAIN</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">scan_attention_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">attention_axis_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span>
+            <span class="n">quantize_kv_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">flash_attention_backward_pass_impl</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;triton&quot;</span><span class="p">,</span> <span class="s2">&quot;xla&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;triton&quot;</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">query_partition_spec</span> <span class="o">=</span> <span class="n">query_partition_spec</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">generation_query_partition_spec</span> <span class="o">=</span> <span class="n">generation_query_partition_spec</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">key_partition_spec</span> <span class="o">=</span> <span class="n">key_partition_spec</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">value_partition_spec</span> <span class="o">=</span> <span class="n">value_partition_spec</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bias_partition_spec</span> <span class="o">=</span> <span class="n">bias_partition_spec</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span> <span class="o">=</span> <span class="n">generation_bias_partition_spec</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_partition_spec</span> <span class="o">=</span> <span class="n">attention_partition_spec</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span> <span class="o">=</span> <span class="n">generation_attention_partition_spec</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">shard_attention_computation</span> <span class="o">=</span> <span class="n">shard_attention_computation</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">axis_dims</span> <span class="o">=</span> <span class="n">axis_dims</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">axis_names</span> <span class="o">=</span> <span class="n">axis_names</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">backend</span> <span class="o">=</span> <span class="n">backend</span> <span class="k">if</span> <span class="n">backend</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="s2">&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">easy_method</span> <span class="o">=</span> <span class="n">easy_method</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attn_mechanism</span> <span class="o">=</span> <span class="n">attn_mechanism</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_b</span> <span class="o">=</span> <span class="n">block_b</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span> <span class="o">=</span> <span class="n">block_k</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_q</span> <span class="o">=</span> <span class="n">block_q</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_k_major</span> <span class="o">=</span> <span class="n">block_k_major</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_q_major_dkv</span> <span class="o">=</span> <span class="n">block_q_major_dkv</span> <span class="ow">or</span> <span class="n">block_q</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_k_major_dkv</span> <span class="o">=</span> <span class="n">block_k_major_dkv</span> <span class="ow">or</span> <span class="n">block_k</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_k_dkv</span> <span class="o">=</span> <span class="n">block_k_dkv</span> <span class="ow">or</span> <span class="n">block_k</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_q_dkv</span> <span class="o">=</span> <span class="n">block_q_dkv</span> <span class="ow">or</span> <span class="n">block_q</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_k_major_dq</span> <span class="o">=</span> <span class="n">block_k_major_dq</span> <span class="ow">or</span> <span class="n">block_k</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_k_dq</span> <span class="o">=</span> <span class="n">block_k_dq</span> <span class="ow">or</span> <span class="n">block_k</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_q_dq</span> <span class="o">=</span> <span class="n">block_q_dq</span> <span class="ow">or</span> <span class="n">block_q</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_attention_layers</span> <span class="o">=</span> <span class="n">scan_attention_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_ring_attention</span> <span class="o">=</span> <span class="n">scan_ring_attention</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_sharded_kv_caching</span> <span class="o">=</span> <span class="n">use_sharded_kv_caching</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_sharding_constraint</span> <span class="o">=</span> <span class="n">use_sharding_constraint</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_axis_name</span> <span class="o">=</span> <span class="n">attention_axis_name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">quantize_kv_cache</span> <span class="o">=</span> <span class="n">quantize_kv_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">flash_attention_backward_pass_impl</span> <span class="o">=</span> <span class="n">flash_attention_backward_pass_impl</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">create_mesh</span><span class="p">(</span>
+            <span class="n">axis_dims</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">axis_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="n">backend</span><span class="o">=</span><span class="s2">&quot;&quot;</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The create_mesh function creates a mesh object that can be used to shard arrays.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            axis_dims: Sequence[int]: Specify the dimensions of the mesh</span>
+<span class="sd">            axis_names: Sequence[str]: Name the axes of the mesh</span>
+<span class="sd">            backend: Specify the backend to use</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A mesh object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">array_devices</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+            <span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">()</span> <span class="k">if</span> <span class="n">backend</span> <span class="o">==</span> <span class="s2">&quot;&quot;</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="n">backend</span><span class="p">)),</span> <span class="mi">1</span><span class="p">))</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">axis_dims</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="n">axis_dims</span> <span class="o">=</span> <span class="nb">eval</span><span class="p">(</span><span class="n">axis_dims</span><span class="p">)</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;axis_dims argument is not a Sequence of int and it&#39;s an string. &quot;</span>
+                <span class="s2">&quot;(backbone Warning in EasyDeLModuleConfig)</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="s2">changed to </span><span class="si">{</span><span class="n">axis_dims</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">axis_names</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="n">axis_names</span> <span class="o">=</span> <span class="nb">eval</span><span class="p">(</span><span class="n">axis_names</span><span class="p">)</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;axis_names argument is not a Sequence of strings and it&#39;s an string class. &quot;</span>
+                <span class="s2">&quot;(backbone Warning in EasyDeLModuleConfig)</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="s2">changed to </span><span class="si">{</span><span class="n">axis_names</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="p">)</span>
+        <span class="n">resh</span> <span class="o">=</span> <span class="n">array_devices</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">axis_dims</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">return</span> <span class="n">Mesh</span><span class="p">(</span>
+            <span class="n">create_device_mesh</span><span class="p">(</span><span class="n">resh</span><span class="p">),</span> <span class="n">axis_names</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">jax_mesh</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Mesh</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The jax_mesh function is a helper function that creates a Mesh object from the</span>
+<span class="sd">        axis_dims and axis_names attributes of an object, which are assumed to be lists of integers and strings, respectively.</span>
+<span class="sd">        The backend attribute is also used if it exists.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A jaxMesh</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">create_mesh</span><span class="p">(</span>
+            <span class="n">axis_dims</span><span class="o">=</span><span class="p">[</span><span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">axis_dims</span><span class="o">.</span><span class="n">items</span><span class="p">()]</span> <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">axis_dims</span><span class="p">,</span>
+                <span class="nb">dict</span>
+            <span class="p">)</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">axis_dims</span><span class="p">,</span>
+            <span class="n">axis_names</span><span class="o">=</span><span class="p">[</span><span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">axis_names</span><span class="o">.</span><span class="n">items</span><span class="p">()]</span> <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">axis_names</span><span class="p">,</span>
+                <span class="nb">dict</span>
+            <span class="p">)</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">axis_names</span><span class="p">,</span>
+            <span class="n">backend</span><span class="o">=</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">backend</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">backend</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="s2">&quot;&quot;</span><span class="p">)</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span>
+                <span class="bp">self</span><span class="p">,</span> <span class="s1">&#39;backend&#39;</span><span class="p">)</span> <span class="k">else</span> <span class="s2">&quot;&quot;</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to specify how the parameters of a model are partitioned across devices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the attributes of the class</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether the</span>
+<span class="sd">                model is fully sharded or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">(</span>
+                <span class="p">(</span><span class="s1">&#39;.*&#39;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="p">),),</span>
+            <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_axis_dims</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_axis_dims function returns a sequence of integers representing the dimensions of each axis.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The dimensions of the axes</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">axis_dims</span>
+
+    <span class="k">def</span> <span class="nf">get_axis_names</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_axis_names function returns a list of the names of the axes.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of the names of all axes</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">axis_names</span>
+
+    <span class="k">def</span> <span class="nf">get_backend</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_backend function returns the backend that is currently being used.</span>
+<span class="sd">        If no backend has been set, it will return the default JAX backend.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Bind the method to an object</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The backend platform</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">backend</span> <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">backend</span> <span class="o">==</span> <span class="s2">&quot;&quot;</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">lib</span><span class="o">.</span><span class="n">xla_bridge</span><span class="o">.</span><span class="n">get_backend</span><span class="p">()</span><span class="o">.</span><span class="n">platform</span>
+
+    <span class="k">def</span> <span class="nf">add_basic_configurations</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">axis_dims</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">axis_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="p">:</span> <span class="n">AVAILABLE_ATTENTION_MECHANISMS</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">use_sharded_kv_caching</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">backend</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">easy_method</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;train&quot;</span><span class="p">,</span> <span class="s2">&quot;serve&quot;</span><span class="p">,</span> <span class="s2">&quot;convert&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">scan_attention_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">use_sharding_constraint</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">attention_axis_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">quantize_kv_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+            <span class="n">flash_attention_backward_pass_impl</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;triton&quot;</span><span class="p">,</span> <span class="s2">&quot;xla&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="o">...</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;It initializes all the attributes of an object, and it&#39;s called when you create a new instance of that class.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the instance of the class</span>
+<span class="sd">            axis_dims: Sequence[int]: Specify the number of dimensions</span>
+<span class="sd">                for each axis</span>
+<span class="sd">            axis_names: Sequence[str]: Set the names of the axes</span>
+<span class="sd">            attn_mechanism: Literal[&quot;vanilla&quot;, &quot;flash&quot;, &quot;splash&quot;]:</span>
+<span class="sd">                attention mechanism to use</span>
+<span class="sd">            block_k: int: block size of key_states</span>
+<span class="sd">            block_q: int: block size of query_states</span>
+<span class="sd">            block_b: int: block size of bias</span>
+<span class="sd">            block_k_major: int: block size if key major</span>
+<span class="sd">            block_q_major_dkv: int: block size of block_q_major_dkv</span>
+<span class="sd">            block_k_major_dkv: int: block size of block_k_major_dkv</span>
+<span class="sd">            block_k_dkv: int: block size of block_k_dkv</span>
+<span class="sd">            block_q_dkv: int: block size of block_q_dkv</span>
+<span class="sd">            block_k_major_dq: int: block size of block_k_major_dq</span>
+<span class="sd">            block_k_dq: int: block size of block_k_dq</span>
+<span class="sd">            block_q_dq: int: block size of block_q_dq</span>
+<span class="sd">            query_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">                partitioning of the query tensor</span>
+<span class="sd">            key_partition_spec: PartitionSpec: Partition the key matrix</span>
+<span class="sd">            value_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">                partitioning of the value tensor</span>
+<span class="sd">            bias_partition_spec: PartitionSpec: Specify the Attention</span>
+<span class="sd">                Bias partition spec</span>
+<span class="sd">            attention_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">                partitioning of the attention weights</span>
+<span class="sd">            generation_attention_partition_spec: : PartitionSpec:</span>
+<span class="sd">                Specify the partitioning of the attention weights</span>
+<span class="sd">            generation_bias_partition_spec: : PartitionSpec: Specify the</span>
+<span class="sd">                partitioning of the Attention Bias partition spec in</span>
+<span class="sd">                generation process</span>
+<span class="sd">            generation_query_partition_spec: : PartitionSpec: Specify</span>
+<span class="sd">                the partitioning of the query tensor</span>
+<span class="sd">            shard_attention_computation: bool: whenever to use shard_map</span>
+<span class="sd">                for attention</span>
+<span class="sd">            use_sharded_kv_caching: bool: whenever to use shard_map and</span>
+<span class="sd">                sharding for key and value</span>
+<span class="sd">            backend: Optional[None]: Specify the backend to use</span>
+<span class="sd">            easy_method: Literal[&quot;train&quot;, &quot;serve&quot;, &quot;convert&quot;]: easydel</span>
+<span class="sd">                Quantization Method to be applied for</span>
+<span class="sd">            bits: Optional[int]: Model bits for quantization</span>
+<span class="sd">            use_sharding_constraint: bool: whether to use sharding</span>
+<span class="sd">                constraint for the arrays</span>
+<span class="sd">            scan_ring_attention: bool: Whether to use can for ring</span>
+<span class="sd">                attention</span>
+<span class="sd">            scan_attention_layers: bool: Whether to use can for</span>
+<span class="sd">                attention layers</span>
+<span class="sd">            use_scan_mlp: bool: Determine whether to use scan_mlp or not</span>
+<span class="sd">            scan_mlp_chunk_size: int: Size of chunks in scan MLP.</span>
+<span class="sd">            attention_axis_name: str: Name of the attention axis name</span>
+<span class="sd">            quantize_kv_cache: bool: Whether to quantize Key/Value in</span>
+<span class="sd">                attention for generation process.</span>
+<span class="sd">            flash_attention_backward_pass_impl: Literal[&quot;triton&quot;,</span>
+<span class="sd">                &quot;xla&quot;]: Specify the backward pass kernel for flash</span>
+<span class="sd">                attention</span>
+<span class="sd">        in generation process</span>
+<span class="sd">        in generation process</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;axis_dims&quot;</span><span class="p">,</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">axis_dims</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;axis_names&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="n">axis_names</span><span class="p">)</span>
+
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_q&quot;</span><span class="p">,</span> <span class="mi">1024</span><span class="p">,</span> <span class="n">block_q</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k&quot;</span><span class="p">,</span> <span class="mi">1024</span><span class="p">,</span> <span class="n">block_k</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_b&quot;</span><span class="p">,</span> <span class="mi">1024</span><span class="p">,</span> <span class="n">block_b</span><span class="p">)</span>
+
+        <span class="n">set_attrs_smartly</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;query_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">query_partition_spec</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;generation_query_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">generation_query_partition_spec</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;generation_bias_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">generation_bias_partition_spec</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;key_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">key_partition_spec</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;value_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">value_partition_spec</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;bias_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">bias_partition_spec</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;attention_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">attention_partition_spec</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;generation_attention_partition_spec&quot;</span><span class="p">,</span>
+            <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">generation_attention_partition_spec</span>
+        <span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;use_sharding_constraint&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">,</span> <span class="n">use_sharding_constraint</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;backend&quot;</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_backend</span><span class="p">(),</span> <span class="n">backend</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;shard_attention_computation&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">,</span> <span class="n">shard_attention_computation</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;use_sharded_kv_caching&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">,</span> <span class="n">use_sharded_kv_caching</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;attn_mechanism&quot;</span><span class="p">,</span> <span class="s2">&quot;sharded_vanilla&quot;</span><span class="p">,</span> <span class="n">attn_mechanism</span><span class="p">)</span>
+
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_dkv&quot;</span><span class="p">,</span> <span class="n">block_k_dkv</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span> <span class="n">block_k_dkv</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_q_dkv&quot;</span><span class="p">,</span> <span class="n">block_q_dkv</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span> <span class="n">block_q_dkv</span><span class="p">)</span>
+
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_q_major_dkv&quot;</span><span class="p">,</span> <span class="n">block_q_major_dkv</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span> <span class="n">block_q_major_dkv</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_major_dkv&quot;</span><span class="p">,</span> <span class="n">block_k_major_dkv</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span> <span class="n">block_k_major_dkv</span><span class="p">)</span>
+
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_major&quot;</span><span class="p">,</span> <span class="n">block_k_major</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span> <span class="n">block_k_major</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_major_dq&quot;</span><span class="p">,</span> <span class="n">block_k_major_dq</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span> <span class="n">block_k_major_dq</span><span class="p">)</span>
+
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_dq&quot;</span><span class="p">,</span> <span class="n">block_k_dq</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span> <span class="n">block_k_dq</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_q_dq&quot;</span><span class="p">,</span> <span class="n">block_q_dq</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span> <span class="n">block_q_dq</span><span class="p">)</span>
+
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;easy_method&quot;</span><span class="p">,</span> <span class="n">EasyMethod</span><span class="o">.</span><span class="n">TRAIN</span><span class="p">,</span> <span class="n">easy_method</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;bits&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="n">bits</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;scan_attention_layers&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">,</span> <span class="n">scan_attention_layers</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;scan_ring_attention&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">,</span> <span class="n">scan_ring_attention</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;use_scan_mlp&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">,</span> <span class="n">use_scan_mlp</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;scan_mlp_chunk_size&quot;</span><span class="p">,</span> <span class="mi">1024</span><span class="p">,</span> <span class="n">scan_mlp_chunk_size</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;attention_axis_name&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="n">attention_axis_name</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;quantize_kv_cache&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">,</span> <span class="n">quantize_kv_cache</span><span class="p">)</span>
+        <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;flash_attention_backward_pass_impl&quot;</span><span class="p">,</span> <span class="s2">&quot;triton&quot;</span><span class="p">,</span> <span class="n">flash_attention_backward_pass_impl</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">        This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">        to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">        object, or when you type its name in the REPL.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A string representation of the object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                    <span class="k">pass</span>
+        <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;k&quot;</span><span class="p">,</span> <span class="n">v</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">        It should return a string representation of the object.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The object&#39;s string representation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.__repr__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__repr__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>repr</strong> function is used to generate a string representation of an object.
+This function should return a string that can be parsed by the Python interpreter
+to recreate the object. The <strong>repr</strong> function is called when you use print() on an
+object, or when you type its name in the REPL.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A string representation of the object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">    This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">    to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">    object, or when you type its name in the REPL.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A string representation of the object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                <span class="k">pass</span>
+    <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.__str__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__str__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>str</strong> function is called when you use the print function or when str() is used.
+It should return a string representation of the object.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The object's string representation</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">    It should return a string representation of the object.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The object&#39;s string representation</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.add_basic_configurations" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_basic_configurations</span><span class="p">(</span><span class="n">axis_dims</span><span class="o">=...</span><span class="p">,</span> <span class="n">axis_names</span><span class="o">=...</span><span class="p">,</span> <span class="n">attn_mechanism</span><span class="o">=...</span><span class="p">,</span> <span class="n">block_k</span><span class="o">=...</span><span class="p">,</span> <span class="n">block_q</span><span class="o">=...</span><span class="p">,</span> <span class="n">block_b</span><span class="o">=...</span><span class="p">,</span> <span class="n">block_k_major</span><span class="o">=...</span><span class="p">,</span> <span class="n">block_q_major_dkv</span><span class="o">=...</span><span class="p">,</span> <span class="n">block_k_major_dkv</span><span class="o">=...</span><span class="p">,</span> <span class="n">block_k_dkv</span><span class="o">=...</span><span class="p">,</span> <span class="n">block_q_dkv</span><span class="o">=...</span><span class="p">,</span> <span class="n">block_k_major_dq</span><span class="o">=...</span><span class="p">,</span> <span class="n">block_k_dq</span><span class="o">=...</span><span class="p">,</span> <span class="n">block_q_dq</span><span class="o">=...</span><span class="p">,</span> <span class="n">query_partition_spec</span><span class="o">=...</span><span class="p">,</span> <span class="n">generation_query_partition_spec</span><span class="o">=...</span><span class="p">,</span> <span class="n">key_partition_spec</span><span class="o">=...</span><span class="p">,</span> <span class="n">value_partition_spec</span><span class="o">=...</span><span class="p">,</span> <span class="n">bias_partition_spec</span><span class="o">=...</span><span class="p">,</span> <span class="n">attention_partition_spec</span><span class="o">=...</span><span class="p">,</span> <span class="n">generation_bias_partition_spec</span><span class="o">=...</span><span class="p">,</span> <span class="n">generation_attention_partition_spec</span><span class="o">=...</span><span class="p">,</span> <span class="n">shard_attention_computation</span><span class="o">=...</span><span class="p">,</span> <span class="n">use_sharded_kv_caching</span><span class="o">=...</span><span class="p">,</span> <span class="n">backend</span><span class="o">=...</span><span class="p">,</span> <span class="n">easy_method</span><span class="o">=...</span><span class="p">,</span> <span class="n">bits</span><span class="o">=...</span><span class="p">,</span> <span class="n">scan_ring_attention</span><span class="o">=...</span><span class="p">,</span> <span class="n">scan_attention_layers</span><span class="o">=...</span><span class="p">,</span> <span class="n">use_sharding_constraint</span><span class="o">=...</span><span class="p">,</span> <span class="n">use_scan_mlp</span><span class="o">=...</span><span class="p">,</span> <span class="n">scan_mlp_chunk_size</span><span class="o">=...</span><span class="p">,</span> <span class="n">attention_axis_name</span><span class="o">=...</span><span class="p">,</span> <span class="n">quantize_kv_cache</span><span class="o">=...</span><span class="p">,</span> <span class="n">flash_attention_backward_pass_impl</span><span class="o">=...</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>It initializes all the attributes of an object, and it's called when you create a new instance of that class.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_dims</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[int]: Specify the number of dimensions
+for each axis</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_names</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[str]: Set the names of the axes</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attn_mechanism</code></td>
+            <td>
+                  <code><span title="src.python.easydel.modules.easydel_modelling_utils.AVAILABLE_ATTENTION_MECHANISMS">AVAILABLE_ATTENTION_MECHANISMS</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Literal["vanilla", "flash", "splash"]:
+attention mechanism to use</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_k</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of key_states</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_q</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of query_states</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_b</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of bias</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_k_major</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size if key major</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_q_major_dkv</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of block_q_major_dkv</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_k_major_dkv</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of block_k_major_dkv</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_k_dkv</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of block_k_dkv</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_q_dkv</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of block_q_dkv</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_k_major_dq</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of block_k_major_dq</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_k_dq</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of block_k_dq</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>block_q_dq</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: block size of block_q_dq</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the
+partitioning of the query tensor</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Partition the key matrix</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the
+partitioning of the value tensor</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bias_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the Attention
+Bias partition spec</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Specify the
+partitioning of the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>generation_attention_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>: PartitionSpec:
+Specify the partitioning of the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>generation_bias_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>: PartitionSpec: Specify the
+partitioning of the Attention Bias partition spec in
+generation process</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>generation_query_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>: PartitionSpec: Specify
+the partitioning of the query tensor</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>shard_attention_computation</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: whenever to use shard_map
+for attention</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_sharded_kv_caching</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: whenever to use shard_map and
+sharding for key and value</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>backend</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[None]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[None]: Specify the backend to use</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>easy_method</code></td>
+            <td>
+                  <code><span title="typing.Literal">Literal</span>[&#39;train&#39;, &#39;serve&#39;, &#39;convert&#39;]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Literal["train", "serve", "convert"]: easydel
+Quantization Method to be applied for</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Model bits for quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_sharding_constraint</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: whether to use sharding
+constraint for the arrays</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_ring_attention</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Whether to use can for ring
+attention</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_attention_layers</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Whether to use can for
+attention layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_scan_mlp</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use scan_mlp or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_mlp_chunk_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Size of chunks in scan MLP.</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_axis_name</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Name of the attention axis name</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>quantize_kv_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Whether to quantize Key/Value in
+attention for generation process.</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>flash_attention_backward_pass_impl</code></td>
+            <td>
+                  <code><span title="typing.Literal">Literal</span>[&#39;triton&#39;, &#39;xla&#39;]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Literal["triton",
+"xla"]: Specify the backward pass kernel for flash
+attention</p>
+              </div>
+            </td>
+            <td>
+                  <code>...</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>in generation process
+in generation process</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_basic_configurations</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">axis_dims</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">axis_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">attn_mechanism</span><span class="p">:</span> <span class="n">AVAILABLE_ATTENTION_MECHANISMS</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">block_k</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">block_q</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">block_b</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">block_k_major</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">block_q_major_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">block_k_major_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">block_k_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">block_q_dkv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">block_k_major_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">block_k_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">block_q_dq</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">key_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">value_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">generation_attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">shard_attention_computation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">use_sharded_kv_caching</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">backend</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">easy_method</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;train&quot;</span><span class="p">,</span> <span class="s2">&quot;serve&quot;</span><span class="p">,</span> <span class="s2">&quot;convert&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">scan_ring_attention</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">scan_attention_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">use_sharding_constraint</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">attention_axis_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">quantize_kv_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="o">...</span><span class="p">,</span>
+        <span class="n">flash_attention_backward_pass_impl</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;triton&quot;</span><span class="p">,</span> <span class="s2">&quot;xla&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="o">...</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;It initializes all the attributes of an object, and it&#39;s called when you create a new instance of that class.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+<span class="sd">        axis_dims: Sequence[int]: Specify the number of dimensions</span>
+<span class="sd">            for each axis</span>
+<span class="sd">        axis_names: Sequence[str]: Set the names of the axes</span>
+<span class="sd">        attn_mechanism: Literal[&quot;vanilla&quot;, &quot;flash&quot;, &quot;splash&quot;]:</span>
+<span class="sd">            attention mechanism to use</span>
+<span class="sd">        block_k: int: block size of key_states</span>
+<span class="sd">        block_q: int: block size of query_states</span>
+<span class="sd">        block_b: int: block size of bias</span>
+<span class="sd">        block_k_major: int: block size if key major</span>
+<span class="sd">        block_q_major_dkv: int: block size of block_q_major_dkv</span>
+<span class="sd">        block_k_major_dkv: int: block size of block_k_major_dkv</span>
+<span class="sd">        block_k_dkv: int: block size of block_k_dkv</span>
+<span class="sd">        block_q_dkv: int: block size of block_q_dkv</span>
+<span class="sd">        block_k_major_dq: int: block size of block_k_major_dq</span>
+<span class="sd">        block_k_dq: int: block size of block_k_dq</span>
+<span class="sd">        block_q_dq: int: block size of block_q_dq</span>
+<span class="sd">        query_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">            partitioning of the query tensor</span>
+<span class="sd">        key_partition_spec: PartitionSpec: Partition the key matrix</span>
+<span class="sd">        value_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">            partitioning of the value tensor</span>
+<span class="sd">        bias_partition_spec: PartitionSpec: Specify the Attention</span>
+<span class="sd">            Bias partition spec</span>
+<span class="sd">        attention_partition_spec: PartitionSpec: Specify the</span>
+<span class="sd">            partitioning of the attention weights</span>
+<span class="sd">        generation_attention_partition_spec: : PartitionSpec:</span>
+<span class="sd">            Specify the partitioning of the attention weights</span>
+<span class="sd">        generation_bias_partition_spec: : PartitionSpec: Specify the</span>
+<span class="sd">            partitioning of the Attention Bias partition spec in</span>
+<span class="sd">            generation process</span>
+<span class="sd">        generation_query_partition_spec: : PartitionSpec: Specify</span>
+<span class="sd">            the partitioning of the query tensor</span>
+<span class="sd">        shard_attention_computation: bool: whenever to use shard_map</span>
+<span class="sd">            for attention</span>
+<span class="sd">        use_sharded_kv_caching: bool: whenever to use shard_map and</span>
+<span class="sd">            sharding for key and value</span>
+<span class="sd">        backend: Optional[None]: Specify the backend to use</span>
+<span class="sd">        easy_method: Literal[&quot;train&quot;, &quot;serve&quot;, &quot;convert&quot;]: easydel</span>
+<span class="sd">            Quantization Method to be applied for</span>
+<span class="sd">        bits: Optional[int]: Model bits for quantization</span>
+<span class="sd">        use_sharding_constraint: bool: whether to use sharding</span>
+<span class="sd">            constraint for the arrays</span>
+<span class="sd">        scan_ring_attention: bool: Whether to use can for ring</span>
+<span class="sd">            attention</span>
+<span class="sd">        scan_attention_layers: bool: Whether to use can for</span>
+<span class="sd">            attention layers</span>
+<span class="sd">        use_scan_mlp: bool: Determine whether to use scan_mlp or not</span>
+<span class="sd">        scan_mlp_chunk_size: int: Size of chunks in scan MLP.</span>
+<span class="sd">        attention_axis_name: str: Name of the attention axis name</span>
+<span class="sd">        quantize_kv_cache: bool: Whether to quantize Key/Value in</span>
+<span class="sd">            attention for generation process.</span>
+<span class="sd">        flash_attention_backward_pass_impl: Literal[&quot;triton&quot;,</span>
+<span class="sd">            &quot;xla&quot;]: Specify the backward pass kernel for flash</span>
+<span class="sd">            attention</span>
+<span class="sd">    in generation process</span>
+<span class="sd">    in generation process</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;axis_dims&quot;</span><span class="p">,</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">axis_dims</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;axis_names&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="n">axis_names</span><span class="p">)</span>
+
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_q&quot;</span><span class="p">,</span> <span class="mi">1024</span><span class="p">,</span> <span class="n">block_q</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k&quot;</span><span class="p">,</span> <span class="mi">1024</span><span class="p">,</span> <span class="n">block_k</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_b&quot;</span><span class="p">,</span> <span class="mi">1024</span><span class="p">,</span> <span class="n">block_b</span><span class="p">)</span>
+
+    <span class="n">set_attrs_smartly</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="s2">&quot;query_partition_spec&quot;</span><span class="p">,</span>
+        <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">query_partition_spec</span>
+    <span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="s2">&quot;generation_query_partition_spec&quot;</span><span class="p">,</span>
+        <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">generation_query_partition_spec</span>
+    <span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="s2">&quot;generation_bias_partition_spec&quot;</span><span class="p">,</span>
+        <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">generation_bias_partition_spec</span>
+    <span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="s2">&quot;key_partition_spec&quot;</span><span class="p">,</span>
+        <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">key_partition_spec</span>
+    <span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="s2">&quot;value_partition_spec&quot;</span><span class="p">,</span>
+        <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">value_partition_spec</span>
+    <span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="s2">&quot;bias_partition_spec&quot;</span><span class="p">,</span>
+        <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">bias_partition_spec</span>
+    <span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="s2">&quot;attention_partition_spec&quot;</span><span class="p">,</span>
+        <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">attention_partition_spec</span>
+    <span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="s2">&quot;generation_attention_partition_spec&quot;</span><span class="p">,</span>
+        <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="n">generation_attention_partition_spec</span>
+    <span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;use_sharding_constraint&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">,</span> <span class="n">use_sharding_constraint</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;backend&quot;</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_backend</span><span class="p">(),</span> <span class="n">backend</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;shard_attention_computation&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">,</span> <span class="n">shard_attention_computation</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;use_sharded_kv_caching&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">,</span> <span class="n">use_sharded_kv_caching</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;attn_mechanism&quot;</span><span class="p">,</span> <span class="s2">&quot;sharded_vanilla&quot;</span><span class="p">,</span> <span class="n">attn_mechanism</span><span class="p">)</span>
+
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_dkv&quot;</span><span class="p">,</span> <span class="n">block_k_dkv</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span> <span class="n">block_k_dkv</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_q_dkv&quot;</span><span class="p">,</span> <span class="n">block_q_dkv</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span> <span class="n">block_q_dkv</span><span class="p">)</span>
+
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_q_major_dkv&quot;</span><span class="p">,</span> <span class="n">block_q_major_dkv</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span> <span class="n">block_q_major_dkv</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_major_dkv&quot;</span><span class="p">,</span> <span class="n">block_k_major_dkv</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span> <span class="n">block_k_major_dkv</span><span class="p">)</span>
+
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_major&quot;</span><span class="p">,</span> <span class="n">block_k_major</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span> <span class="n">block_k_major</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_major_dq&quot;</span><span class="p">,</span> <span class="n">block_k_major_dq</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span> <span class="n">block_k_major_dq</span><span class="p">)</span>
+
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_k_dq&quot;</span><span class="p">,</span> <span class="n">block_k_dq</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span> <span class="n">block_k_dq</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;block_q_dq&quot;</span><span class="p">,</span> <span class="n">block_q_dq</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span> <span class="n">block_q_dq</span><span class="p">)</span>
+
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;easy_method&quot;</span><span class="p">,</span> <span class="n">EasyMethod</span><span class="o">.</span><span class="n">TRAIN</span><span class="p">,</span> <span class="n">easy_method</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;bits&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="n">bits</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;scan_attention_layers&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">,</span> <span class="n">scan_attention_layers</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;scan_ring_attention&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">,</span> <span class="n">scan_ring_attention</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;use_scan_mlp&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">,</span> <span class="n">use_scan_mlp</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;scan_mlp_chunk_size&quot;</span><span class="p">,</span> <span class="mi">1024</span><span class="p">,</span> <span class="n">scan_mlp_chunk_size</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;attention_axis_name&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="n">attention_axis_name</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;quantize_kv_cache&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">,</span> <span class="n">quantize_kv_cache</span><span class="p">)</span>
+    <span class="n">set_attrs_smartly</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;flash_attention_backward_pass_impl&quot;</span><span class="p">,</span> <span class="s2">&quot;triton&quot;</span><span class="p">,</span> <span class="n">flash_attention_backward_pass_impl</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.create_mesh" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_mesh</span><span class="p">(</span><span class="n">axis_dims</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">axis_names</span><span class="o">=</span><span class="p">(</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="s1">&#39;sp&#39;</span><span class="p">),</span> <span class="n">backend</span><span class="o">=</span><span class="s1">&#39;&#39;</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-staticmethod"><code>staticmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The create_mesh function creates a mesh object that can be used to shard arrays.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>axis_dims</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[int]: Specify the dimensions of the mesh</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, -1, 1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_names</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[str]: Name the axes of the mesh</p>
+              </div>
+            </td>
+            <td>
+                  <code>(&#39;dp&#39;, &#39;fsdp&#39;, &#39;tp&#39;, &#39;sp&#39;)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>backend</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the backend to use</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;&#39;</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A mesh object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@staticmethod</span>
+<span class="k">def</span> <span class="nf">create_mesh</span><span class="p">(</span>
+        <span class="n">axis_dims</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">axis_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="n">backend</span><span class="o">=</span><span class="s2">&quot;&quot;</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The create_mesh function creates a mesh object that can be used to shard arrays.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        axis_dims: Sequence[int]: Specify the dimensions of the mesh</span>
+<span class="sd">        axis_names: Sequence[str]: Name the axes of the mesh</span>
+<span class="sd">        backend: Specify the backend to use</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A mesh object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">array_devices</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+        <span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">()</span> <span class="k">if</span> <span class="n">backend</span> <span class="o">==</span> <span class="s2">&quot;&quot;</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="n">backend</span><span class="p">)),</span> <span class="mi">1</span><span class="p">))</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">axis_dims</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">axis_dims</span> <span class="o">=</span> <span class="nb">eval</span><span class="p">(</span><span class="n">axis_dims</span><span class="p">)</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;axis_dims argument is not a Sequence of int and it&#39;s an string. &quot;</span>
+            <span class="s2">&quot;(backbone Warning in EasyDeLModuleConfig)</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="s2">changed to </span><span class="si">{</span><span class="n">axis_dims</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">axis_names</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">axis_names</span> <span class="o">=</span> <span class="nb">eval</span><span class="p">(</span><span class="n">axis_names</span><span class="p">)</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;axis_names argument is not a Sequence of strings and it&#39;s an string class. &quot;</span>
+            <span class="s2">&quot;(backbone Warning in EasyDeLModuleConfig)</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="s2">changed to </span><span class="si">{</span><span class="n">axis_names</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+    <span class="n">resh</span> <span class="o">=</span> <span class="n">array_devices</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">axis_dims</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">return</span> <span class="n">Mesh</span><span class="p">(</span>
+        <span class="n">create_device_mesh</span><span class="p">(</span><span class="n">resh</span><span class="p">),</span> <span class="n">axis_names</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_axis_dims" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_axis_dims</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_axis_dims function returns a sequence of integers representing the dimensions of each axis.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The dimensions of the axes</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_axis_dims</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_axis_dims function returns a sequence of integers representing the dimensions of each axis.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The dimensions of the axes</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">axis_dims</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_axis_names" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_axis_names</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_axis_names function returns a list of the names of the axes.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of the names of all axes</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_axis_names</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_axis_names function returns a list of the names of the axes.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of the names of all axes</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">axis_names</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_backend" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_backend</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_backend function returns the backend that is currently being used.
+If no backend has been set, it will return the default JAX backend.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Bind the method to an object</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The backend platform</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_backend</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_backend function returns the backend that is currently being used.</span>
+<span class="sd">    If no backend has been set, it will return the default JAX backend.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Bind the method to an object</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The backend platform</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">backend</span> <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">backend</span> <span class="o">==</span> <span class="s2">&quot;&quot;</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">lib</span><span class="o">.</span><span class="n">xla_bridge</span><span class="o">.</span><span class="n">get_backend</span><span class="p">()</span><span class="o">.</span><span class="n">platform</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to specify how the parameters of a model are partitioned across devices.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access the attributes of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether the
+model is fully sharded or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to specify how the parameters of a model are partitioned across devices.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access the attributes of the class</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether the</span>
+<span class="sd">            model is fully sharded or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="p">(</span><span class="s1">&#39;.*&#39;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="p">),),</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.jax_mesh" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">jax_mesh</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The jax_mesh function is a helper function that creates a Mesh object from the
+axis_dims and axis_names attributes of an object, which are assumed to be lists of integers and strings, respectively.
+The backend attribute is also used if it exists.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="jax.sharding.Mesh">Mesh</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A jaxMesh</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">jax_mesh</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Mesh</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The jax_mesh function is a helper function that creates a Mesh object from the</span>
+<span class="sd">    axis_dims and axis_names attributes of an object, which are assumed to be lists of integers and strings, respectively.</span>
+<span class="sd">    The backend attribute is also used if it exists.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A jaxMesh</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">create_mesh</span><span class="p">(</span>
+        <span class="n">axis_dims</span><span class="o">=</span><span class="p">[</span><span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">axis_dims</span><span class="o">.</span><span class="n">items</span><span class="p">()]</span> <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">axis_dims</span><span class="p">,</span>
+            <span class="nb">dict</span>
+        <span class="p">)</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">axis_dims</span><span class="p">,</span>
+        <span class="n">axis_names</span><span class="o">=</span><span class="p">[</span><span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">axis_names</span><span class="o">.</span><span class="n">items</span><span class="p">()]</span> <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">axis_names</span><span class="p">,</span>
+            <span class="nb">dict</span>
+        <span class="p">)</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">axis_names</span><span class="p">,</span>
+        <span class="n">backend</span><span class="o">=</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">backend</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">backend</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="s2">&quot;&quot;</span><span class="p">)</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span> <span class="s1">&#39;backend&#39;</span><span class="p">)</span> <span class="k">else</span> <span class="s2">&quot;&quot;</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-falcon-falcon_configuration/index.html b/generated-modules-falcon-falcon_configuration/index.html
new file mode 100644
index 000000000..7e23a07c8
--- /dev/null
+++ b/generated-modules-falcon-falcon_configuration/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-easydel_modelling_utils/">
+      
+      
+        <link rel="next" href="../generated-modules-falcon-modelling_falcon_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Falcon Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesfalconfalcon_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Falcon Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.falcon.falcon_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      falcon_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.falcon.falcon_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      falcon_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesfalconfalcon_configuration">modules.falcon.falcon_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.falcon.falcon_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-falcon-modelling_falcon_flax/index.html b/generated-modules-falcon-modelling_falcon_flax/index.html
new file mode 100644
index 000000000..98a982e06
--- /dev/null
+++ b/generated-modules-falcon-modelling_falcon_flax/index.html
@@ -0,0 +1,7025 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-falcon-falcon_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-flax_modelling_utils/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Falcon Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesfalconmodelling_falcon_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Falcon Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.falcon.modelling_falcon_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_falcon_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.falcon.modelling_falcon_flax.FlaxFalconPretrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxFalconPretrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxFalconPretrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.falcon.modelling_falcon_flax.FlaxFalconPretrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.falcon.modelling_falcon_flax.built_bloom_alibi" class="md-nav__link">
+    <span class="md-ellipsis">
+      built_bloom_alibi
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.falcon.modelling_falcon_flax.dropout_add" class="md-nav__link">
+    <span class="md-ellipsis">
+      dropout_add
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.falcon.modelling_falcon_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_falcon_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.falcon.modelling_falcon_flax.FlaxFalconPretrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxFalconPretrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxFalconPretrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.falcon.modelling_falcon_flax.FlaxFalconPretrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.falcon.modelling_falcon_flax.built_bloom_alibi" class="md-nav__link">
+    <span class="md-ellipsis">
+      built_bloom_alibi
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.falcon.modelling_falcon_flax.dropout_add" class="md-nav__link">
+    <span class="md-ellipsis">
+      dropout_add
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesfalconmodelling_falcon_flax">modules.falcon.modelling_falcon_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.falcon.modelling_falcon_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.falcon.modelling_falcon_flax.FlaxFalconPretrainedModel" class="doc doc-heading">
+            <code>FlaxFalconPretrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/falcon/modelling_falcon_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxFalconPretrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">FalconConfig</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">,</span>
+                 <span class="n">_do_init</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                 <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+                 <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+                 <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+                 <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+                 <span class="p">):</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span> <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">,</span> <span class="n">module</span><span class="o">=</span><span class="n">module</span><span class="p">,</span> <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">            params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">                model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+            <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+                <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+            <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">encoder_hidden_states</span><span class="p">,</span>
+                <span class="n">encoder_attention_mask</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">int32</span><span class="p">)</span>
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;params&#39;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">])[</span><span class="kc">None</span><span class="p">,</span> <span class="p">:],</span>
+                                            <span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]))</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]))</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+            <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span><span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span><span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+            <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+            <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+        <span class="p">}</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">update_inputs_for_generation</span><span class="p">(</span><span class="n">model_outputs</span><span class="p">,</span> <span class="n">model_kwargs</span><span class="p">):</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">past_key_values</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">][:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">:]</span> <span class="o">+</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="n">model_kwargs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.falcon.modelling_falcon_flax.FlaxFalconPretrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Specify the shape of the input tensor</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="flax.core.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>FrozenDict: Pass in the parameters of a pre-trained
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/falcon/modelling_falcon_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">        params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">            model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+        <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+            <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+        <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+
+    <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.falcon.modelling_falcon_flax.built_bloom_alibi" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">built_bloom_alibi</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">num_attention_heads</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The built_bloom_alibi function is used to create a bloom alibi for the attention mask.
+The bloom alibi is used in the Bloom Attention layer to ensure that each token has a unique
+attention vector, even if it's masked out. This ensures that all tokens have an equal chance of being selected as
+the most important token in the sequence, which helps with training stability and performance.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the padding tokens in the input
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_attention_heads</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine the number of attention heads in
+the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tensor of shape (batch_size, num_attention_heads, 1,</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>sequence_length)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/falcon/modelling_falcon_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">built_bloom_alibi</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">num_attention_heads</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The built_bloom_alibi function is used to create a bloom alibi for the attention mask.</span>
+<span class="sd">    The bloom alibi is used in the Bloom Attention layer to ensure that each token has a unique</span>
+<span class="sd">    attention vector, even if it&#39;s masked out. This ensures that all tokens have an equal chance of being selected as</span>
+<span class="sd">    the most important token in the sequence, which helps with training stability and performance.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        attention_mask: Mask out the padding tokens in the input</span>
+<span class="sd">            sequence</span>
+<span class="sd">        num_attention_heads: Determine the number of attention heads in</span>
+<span class="sd">            the model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tensor of shape (batch_size, num_attention_heads, 1,</span>
+<span class="sd">        sequence_length)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span>
+    <span class="n">cp2</span> <span class="o">=</span> <span class="mi">2</span> <span class="o">**</span> <span class="n">math</span><span class="o">.</span><span class="n">floor</span><span class="p">(</span><span class="n">math</span><span class="o">.</span><span class="n">log2</span><span class="p">(</span><span class="n">num_attention_heads</span><span class="p">))</span>
+    <span class="n">base</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span>
+        <span class="mi">2</span> <span class="o">**</span> <span class="p">(</span><span class="o">-</span> <span class="p">(</span><span class="mi">2</span> <span class="o">**</span> <span class="o">-</span><span class="p">(</span><span class="n">math</span><span class="o">.</span><span class="n">log2</span><span class="p">(</span><span class="n">cp2</span><span class="p">)</span> <span class="o">-</span> <span class="mi">3</span><span class="p">))),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="p">)</span>
+    <span class="n">powers</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span> <span class="o">+</span> <span class="n">cp2</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+    <span class="n">slops</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">power</span><span class="p">(</span><span class="n">base</span><span class="p">,</span> <span class="n">powers</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">cp2</span> <span class="o">!=</span> <span class="n">num_attention_heads</span><span class="p">:</span>
+        <span class="n">extra_base</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span>
+            <span class="mi">2</span> <span class="o">**</span> <span class="p">(</span><span class="o">-</span><span class="p">(</span><span class="mi">2</span> <span class="o">**</span> <span class="o">-</span><span class="p">(</span><span class="n">math</span><span class="o">.</span><span class="n">log2</span><span class="p">(</span><span class="mi">2</span> <span class="o">*</span> <span class="n">cp2</span><span class="p">)</span> <span class="o">-</span> <span class="mi">3</span><span class="p">))),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+        <span class="p">)</span>
+        <span class="n">num_rem_heads</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">cp2</span><span class="p">,</span> <span class="n">num_attention_heads</span> <span class="o">-</span> <span class="n">cp2</span><span class="p">)</span>
+        <span class="n">extra_power</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span> <span class="o">+</span> <span class="mi">2</span> <span class="o">*</span> <span class="n">num_rem_heads</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="n">slops</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">([</span><span class="n">slops</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">power</span><span class="p">(</span><span class="n">extra_base</span><span class="p">,</span> <span class="n">extra_power</span><span class="p">)],</span> <span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+    <span class="n">arange_tensor</span> <span class="o">=</span> <span class="p">(((</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">))</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span> <span class="o">*</span> <span class="n">attention_mask</span><span class="p">)[:,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">newaxis</span><span class="p">,</span> <span class="p">:]</span>
+    <span class="n">alibi</span> <span class="o">=</span> <span class="n">slops</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">newaxis</span><span class="p">]</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">)</span> <span class="o">*</span> <span class="n">arange_tensor</span>
+    <span class="k">return</span> <span class="n">alibi</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">num_attention_heads</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.falcon.modelling_falcon_flax.dropout_add" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">dropout_add</span><span class="p">(</span><span class="n">linen_drop</span><span class="p">,</span> <span class="n">x</span><span class="p">,</span> <span class="n">residual</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The dropout_add function is a helper function that adds the residual to the output of
+the dropout layer. This is necessary because we want to use deterministic=True when
+we are evaluating our model, but we still need to add in the residual. The reason for this
+is that during training, we have two paths through our network: one with dropout and one without.
+The path without dropout (residual) allows us to backpropagate gradients through both paths at once.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>linen_drop</code></td>
+            <td>
+                  <code><span title="flax.linen.Dropout">Dropout</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>flax.linen.Dropout: Specify the dropout layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>x</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input to the dropout layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>residual</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Add the residual to the output of
+dropout_add</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether the dropout layer is
+active or not</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tensor that is the sum of the residual and a dropout layer</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/falcon/modelling_falcon_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span>
+<span class="normal">80</span>
+<span class="normal">81</span>
+<span class="normal">82</span>
+<span class="normal">83</span>
+<span class="normal">84</span>
+<span class="normal">85</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">dropout_add</span><span class="p">(</span><span class="n">linen_drop</span><span class="p">:</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">Dropout</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">residual</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The dropout_add function is a helper function that adds the residual to the output of</span>
+<span class="sd">    the dropout layer. This is necessary because we want to use deterministic=True when</span>
+<span class="sd">    we are evaluating our model, but we still need to add in the residual. The reason for this</span>
+<span class="sd">    is that during training, we have two paths through our network: one with dropout and one without.</span>
+<span class="sd">    The path without dropout (residual) allows us to backpropagate gradients through both paths at once.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        linen_drop: flax.linen.Dropout: Specify the dropout layer</span>
+<span class="sd">        x: chex.Array: Pass in the input to the dropout layer</span>
+<span class="sd">        residual: chex.Array: Add the residual to the output of</span>
+<span class="sd">            dropout_add</span>
+<span class="sd">        deterministic: bool: Determine whether the dropout layer is</span>
+<span class="sd">            active or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tensor that is the sum of the residual and a dropout layer</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">out</span> <span class="o">=</span> <span class="n">linen_drop</span><span class="p">(</span><span class="n">inputs</span><span class="o">=</span><span class="n">x</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+    <span class="n">out</span> <span class="o">=</span> <span class="n">residual</span> <span class="o">+</span> <span class="n">out</span>
+    <span class="k">return</span> <span class="n">out</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-flax_modelling_utils/index.html b/generated-modules-flax_modelling_utils/index.html
new file mode 100644
index 000000000..f813629be
--- /dev/null
+++ b/generated-modules-flax_modelling_utils/index.html
@@ -0,0 +1,8049 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-falcon-modelling_falcon_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-gemma-gemma_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Flax Modelling Utils - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesflax_modelling_utils" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Flax Modelling Utils
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      flax_modelling_utils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      BaseJAXAttentionModule
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.add_start_docstrings" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_start_docstrings
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.apply_rotary_pos_emb" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary_pos_emb
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.canonicalize_dtype" class="md-nav__link">
+    <span class="md-ellipsis">
+      canonicalize_dtype
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.create_mesh" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_mesh
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.get_dot_general_by_bits" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_dot_general_by_bits
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.get_gradient_checkpoint_policy" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_gradient_checkpoint_policy
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.get_names_from_partition_spec" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_names_from_partition_spec
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.get_ranks_and_size" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_ranks_and_size
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.names_in_mesh" class="md-nav__link">
+    <span class="md-ellipsis">
+      names_in_mesh
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.repeat_kv_bnsh" class="md-nav__link">
+    <span class="md-ellipsis">
+      repeat_kv_bnsh
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.repeat_kv_bsnh" class="md-nav__link">
+    <span class="md-ellipsis">
+      repeat_kv_bsnh
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.rotate_half" class="md-nav__link">
+    <span class="md-ellipsis">
+      rotate_half
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      flax_modelling_utils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      BaseJAXAttentionModule
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.add_start_docstrings" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_start_docstrings
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.apply_rotary_pos_emb" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary_pos_emb
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.canonicalize_dtype" class="md-nav__link">
+    <span class="md-ellipsis">
+      canonicalize_dtype
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.create_mesh" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_mesh
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.get_dot_general_by_bits" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_dot_general_by_bits
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.get_gradient_checkpoint_policy" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_gradient_checkpoint_policy
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.get_names_from_partition_spec" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_names_from_partition_spec
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.get_ranks_and_size" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_ranks_and_size
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.names_in_mesh" class="md-nav__link">
+    <span class="md-ellipsis">
+      names_in_mesh
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.repeat_kv_bnsh" class="md-nav__link">
+    <span class="md-ellipsis">
+      repeat_kv_bnsh
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.repeat_kv_bsnh" class="md-nav__link">
+    <span class="md-ellipsis">
+      repeat_kv_bsnh
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.flax_modelling_utils.rotate_half" class="md-nav__link">
+    <span class="md-ellipsis">
+      rotate_half
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesflax_modelling_utils">modules.flax_modelling_utils</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.flax_modelling_utils"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" class="doc doc-heading">
+            <code>BaseJAXAttentionModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="flax.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">BaseJAXAttentionModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="s2">&quot;EasyDeLPretrainedConfig&quot;</span>  <span class="c1"># type: ignore</span>
+
+    <span class="nd">@nn</span><span class="o">.</span><span class="n">compact</span>
+    <span class="k">def</span> <span class="nf">_concatenate_to_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">query_states</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _concatenate_to_cache function is used to concatenate the key and value vectors</span>
+<span class="sd">        of a query_states with those of previous queries. This allows for the attention mechanism to</span>
+<span class="sd">        look at all previous queries when computing its output. The function takes in three</span>
+<span class="sd">        arguments: key, value, and query_states. It also uses two variables that are stored in the cache:</span>
+<span class="sd">        cached_key and cached_value.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the variables stored in the cache</span>
+<span class="sd">            key: Store the keys of the encoder-decoder attention</span>
+<span class="sd">            value: Initialize the cached_value variable</span>
+<span class="sd">            query_states: Determine the number of cache vectors to</span>
+<span class="sd">                update</span>
+<span class="sd">            attention_mask: Mask out the padded vectors in the cache</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The key, value and attention_mask</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">quantize_kv_cache</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">quantize_kv_cache</span>
+        <span class="n">is_initialized</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">quantize_kv_cache</span><span class="p">:</span>
+            <span class="n">cached_key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">,</span> <span class="n">key</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">int8</span><span class="p">)</span>
+            <span class="n">cached_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_value&quot;</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">,</span> <span class="n">value</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">int8</span><span class="p">)</span>
+            <span class="n">cached_key_scale</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key_scale&quot;</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">,</span> <span class="n">key</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+            <span class="n">cached_value_scale</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_value_scale&quot;</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">,</span> <span class="n">value</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+            <span class="n">cache_index</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cache_index&quot;</span><span class="p">,</span> <span class="k">lambda</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">int32</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">cached_key_scale</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">cached_value_scale</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">cached_key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">,</span> <span class="n">key</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">key</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+            <span class="n">cached_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_value&quot;</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">,</span> <span class="n">value</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">value</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+            <span class="n">cache_index</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cache_index&quot;</span><span class="p">,</span> <span class="k">lambda</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">int32</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">is_initialized</span><span class="p">:</span>
+            <span class="o">*</span><span class="n">batch_dims</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">num_heads</span><span class="p">,</span> <span class="n">depth_per_head</span> <span class="o">=</span> <span class="n">cached_key</span><span class="o">.</span><span class="n">value</span><span class="o">.</span><span class="n">shape</span>
+            <span class="n">cur_index</span> <span class="o">=</span> <span class="n">cache_index</span><span class="o">.</span><span class="n">value</span>
+            <span class="k">if</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharded_kv_caching</span><span class="p">:</span>
+                <span class="n">mesh</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">()</span>
+
+                <span class="k">def</span> <span class="nf">fn</span><span class="p">(</span>
+                        <span class="n">_cached_key</span><span class="p">,</span>
+                        <span class="n">_cached_value</span><span class="p">,</span>
+                        <span class="n">_key</span><span class="p">,</span>
+                        <span class="n">_value</span><span class="p">,</span>
+                        <span class="n">_cur_index</span>
+                <span class="p">):</span>
+                    <span class="k">assert</span> <span class="n">_key</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="n">_value</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="mi">1</span><span class="p">,</span> <span class="p">(</span><span class="n">_key</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">_value</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+                    <span class="n">sp_size</span> <span class="o">=</span> <span class="n">max_length</span> <span class="o">//</span> <span class="n">mesh</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="s2">&quot;sp&quot;</span><span class="p">]</span>
+                    <span class="n">axis_index</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">axis_index</span><span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">)</span>
+                    <span class="n">_cur_index</span> <span class="o">=</span> <span class="n">_cur_index</span> <span class="o">-</span> <span class="n">axis_index</span> <span class="o">*</span> <span class="n">sp_size</span>
+                    <span class="n">_key</span><span class="p">,</span> <span class="n">_value</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">cond</span><span class="p">(</span>
+                        <span class="n">jnp</span><span class="o">.</span><span class="n">logical_and</span><span class="p">(</span><span class="n">_cur_index</span> <span class="o">&gt;=</span> <span class="mi">0</span><span class="p">,</span> <span class="n">_cur_index</span> <span class="o">&lt;</span> <span class="n">sp_size</span><span class="p">),</span>
+                        <span class="k">lambda</span><span class="p">:</span> <span class="p">(</span>
+                            <span class="n">_cached_key</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="n">_cur_index</span><span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="n">_key</span><span class="p">[:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">]),</span>
+                            <span class="n">_cached_value</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="n">_cur_index</span><span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="n">_value</span><span class="p">[:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">]),</span>
+                        <span class="p">),</span>
+                        <span class="k">lambda</span><span class="p">:</span> <span class="p">(</span><span class="n">_cached_key</span><span class="p">,</span> <span class="n">_cached_value</span><span class="p">),</span>
+                    <span class="p">)</span>
+                    <span class="k">return</span> <span class="n">_key</span><span class="p">,</span> <span class="n">_value</span>
+
+                <span class="n">fn</span> <span class="o">=</span> <span class="n">shard_map</span><span class="p">(</span>
+                    <span class="n">fn</span><span class="p">,</span> <span class="n">mesh</span><span class="o">=</span><span class="n">mesh</span><span class="p">,</span>
+                    <span class="n">in_specs</span><span class="o">=</span><span class="p">(</span>
+                        <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+                        <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+                        <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+                        <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+                        <span class="n">PartitionSpec</span><span class="p">()</span>
+                    <span class="p">),</span>
+                    <span class="n">out_specs</span><span class="o">=</span><span class="p">(</span>
+                        <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+                        <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+                    <span class="p">),</span>
+                    <span class="n">check_rep</span><span class="o">=</span><span class="kc">False</span>
+                <span class="p">)</span>
+                <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="n">fn</span><span class="p">(</span><span class="n">cached_key</span><span class="o">.</span><span class="n">value</span><span class="p">,</span> <span class="n">cached_value</span><span class="o">.</span><span class="n">value</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">cur_index</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="o">*</span><span class="n">batch_dims</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">num_heads</span><span class="p">,</span> <span class="n">depth_per_head</span> <span class="o">=</span> <span class="n">cached_key</span><span class="o">.</span><span class="n">value</span><span class="o">.</span><span class="n">shape</span>
+                <span class="n">cur_index</span> <span class="o">=</span> <span class="n">cache_index</span><span class="o">.</span><span class="n">value</span>
+                <span class="n">indices</span> <span class="o">=</span> <span class="p">(</span><span class="mi">0</span><span class="p">,)</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">batch_dims</span><span class="p">)</span> <span class="o">+</span> <span class="p">(</span><span class="n">cur_index</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">)</span>  <span class="c1"># type:ignore</span>
+                <span class="k">if</span> <span class="n">quantize_kv_cache</span><span class="p">:</span>
+                    <span class="n">key_val</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">de_quantize</span><span class="p">(</span>
+                        <span class="n">cached_key</span><span class="o">.</span><span class="n">value</span><span class="p">,</span>
+                        <span class="n">cached_key_scale</span><span class="o">.</span><span class="n">value</span><span class="p">,</span>
+                        <span class="n">key</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                        <span class="mf">.0</span>
+                    <span class="p">)</span>
+                    <span class="n">value_val</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">de_quantize</span><span class="p">(</span>
+                        <span class="n">cached_value</span><span class="o">.</span><span class="n">value</span><span class="p">,</span>
+                        <span class="n">cached_value_scale</span><span class="o">.</span><span class="n">value</span><span class="p">,</span>
+                        <span class="n">value</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                        <span class="mf">.0</span>
+                    <span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">key_val</span> <span class="o">=</span> <span class="n">cached_key</span><span class="o">.</span><span class="n">value</span>
+                    <span class="n">value_val</span> <span class="o">=</span> <span class="n">cached_value</span><span class="o">.</span><span class="n">value</span>
+
+                <span class="n">key</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span><span class="n">key_val</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">indices</span><span class="p">)</span>
+                <span class="n">value</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span><span class="n">value_val</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">indices</span><span class="p">)</span>
+                <span class="n">num_updated_cache_vectors</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+                <span class="n">pad_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+                    <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">max_length</span><span class="p">)</span> <span class="o">&lt;</span> <span class="n">cur_index</span> <span class="o">+</span> <span class="n">num_updated_cache_vectors</span><span class="p">,</span>
+                    <span class="nb">tuple</span><span class="p">(</span><span class="n">batch_dims</span><span class="p">)</span> <span class="o">+</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">num_updated_cache_vectors</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span>
+                <span class="p">)</span>
+                <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">pad_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">quantize_kv_cache</span><span class="p">:</span>
+                <span class="n">kq</span><span class="p">,</span> <span class="n">ks</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">quantize</span><span class="p">(</span><span class="n">key</span><span class="p">)</span>
+                <span class="n">vq</span><span class="p">,</span> <span class="n">vs</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">quantize</span><span class="p">(</span><span class="n">value</span><span class="p">)</span>
+
+                <span class="n">cached_key</span><span class="o">.</span><span class="n">value</span> <span class="o">=</span> <span class="n">kq</span>
+                <span class="n">cached_key_scale</span><span class="o">.</span><span class="n">value</span> <span class="o">=</span> <span class="n">ks</span>
+
+                <span class="n">cached_value</span><span class="o">.</span><span class="n">value</span> <span class="o">=</span> <span class="n">vq</span>
+                <span class="n">cached_value_scale</span><span class="o">.</span><span class="n">value</span> <span class="o">=</span> <span class="n">vs</span>
+
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">cached_key</span><span class="o">.</span><span class="n">value</span> <span class="o">=</span> <span class="n">key</span>
+                <span class="n">cached_value</span><span class="o">.</span><span class="n">value</span> <span class="o">=</span> <span class="n">value</span>
+
+            <span class="n">num_updated_cache_vectors</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">cache_index</span><span class="o">.</span><span class="n">value</span> <span class="o">=</span> <span class="n">cache_index</span><span class="o">.</span><span class="n">value</span> <span class="o">+</span> <span class="n">num_updated_cache_vectors</span>
+        <span class="k">return</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">attention_mask</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.flax_modelling_utils.add_start_docstrings" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_start_docstrings</span><span class="p">(</span><span class="o">*</span><span class="n">docstr</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The add_start_docstrings function is a decorator that adds the docstrings to the beginning of a function.
+The add_start_docstrings function takes in an arbitrary number of strings and returns a decorator.
+The returned decorator takes in one argument, fn, which is assumed to be a function. The docstring for fn is set equal to
+the concatenation of all the strings passed into add_start_docstrings plus (if it exists) the original docstring for fn.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>*docstr</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in a variable number of arguments to the function</p>
+              </div>
+            </td>
+            <td>
+                  <code>()</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A decorator that adds the docstrings to the function</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_start_docstrings</span><span class="p">(</span><span class="o">*</span><span class="n">docstr</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The add_start_docstrings function is a decorator that adds the docstrings to the beginning of a function.</span>
+<span class="sd">    The add_start_docstrings function takes in an arbitrary number of strings and returns a decorator.</span>
+<span class="sd">    The returned decorator takes in one argument, fn, which is assumed to be a function. The docstring for fn is set equal to</span>
+<span class="sd">    the concatenation of all the strings passed into add_start_docstrings plus (if it exists) the original docstring for fn.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        *docstr: Pass in a variable number of arguments to the function</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A decorator that adds the docstrings to the function</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">docstring_decorator</span><span class="p">(</span><span class="n">fn</span><span class="p">):</span>
+        <span class="n">fn</span><span class="o">.</span><span class="vm">__doc__</span> <span class="o">=</span> <span class="s2">&quot;&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">docstr</span><span class="p">)</span> <span class="o">+</span> \
+                     <span class="p">(</span><span class="n">fn</span><span class="o">.</span><span class="vm">__doc__</span> <span class="k">if</span> <span class="n">fn</span><span class="o">.</span><span class="vm">__doc__</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="s2">&quot;&quot;</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">fn</span>
+
+    <span class="k">return</span> <span class="n">docstring_decorator</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.flax_modelling_utils.apply_rotary_pos_emb" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rotary_pos_emb</span><span class="p">(</span><span class="n">tensor</span><span class="p">,</span> <span class="n">sin_</span><span class="p">,</span> <span class="n">cos_</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_rotary_pos_emb function applies a rotary positional embedding to the input tensor.
+b,h,s,d or pytorch style</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>tensor</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Store the tensor that is passed into the function</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sin_</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Rotate the tensor by pi/2</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>cos_</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Apply the cosine function to the tensor</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tensor with the same shape as the input tensor</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rotary_pos_emb</span><span class="p">(</span><span class="n">tensor</span><span class="p">,</span> <span class="n">sin_</span><span class="p">,</span> <span class="n">cos_</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_rotary_pos_emb function applies a rotary positional embedding to the input tensor.</span>
+<span class="sd">    b,h,s,d or pytorch style</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        tensor: Store the tensor that is passed into the function</span>
+<span class="sd">        sin_: Rotate the tensor by pi/2</span>
+<span class="sd">        cos_: Apply the cosine function to the tensor</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tensor with the same shape as the input tensor</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">b</span><span class="p">,</span> <span class="n">h</span><span class="p">,</span> <span class="n">s</span><span class="p">,</span> <span class="n">d</span> <span class="o">=</span> <span class="n">tensor</span><span class="o">.</span><span class="n">shape</span>
+    <span class="k">return</span> <span class="p">(</span><span class="n">tensor</span> <span class="o">*</span> <span class="n">cos_</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">s</span><span class="p">,</span> <span class="p">:])</span> <span class="o">+</span> <span class="p">(</span><span class="n">rotate_half</span><span class="p">(</span><span class="n">tensor</span><span class="p">)</span> <span class="o">*</span> <span class="n">sin_</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">s</span><span class="p">,</span> <span class="p">:])</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.flax_modelling_utils.canonicalize_dtype" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">canonicalize_dtype</span><span class="p">(</span><span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">inexact</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Canonicalize an optional dtype to the definitive dtype.</p>
+<p>If the <code>dtype</code> is None this function will infer the dtype. If it is not
+None it will be returned unmodified or an exceptions is raised if the dtype
+is invalid.
+from the input arguments using <code>jnp.result_type</code>.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>*args</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>JAX array compatible values. None values
+are ignored.</p>
+              </div>
+            </td>
+            <td>
+                  <code>()</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dtype</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.ArrayDType">ArrayDType</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional dtype override. If specified the arguments are cast to
+the specified dtype instead and dtype inference is disabled.</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>inexact</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>When True, the output dtype must be a subdtype</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>Returns:
+  The dtype that *args should be cast to.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">canonicalize_dtype</span><span class="p">(</span>
+        <span class="o">*</span><span class="n">args</span><span class="p">,</span> <span class="n">dtype</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">ArrayDType</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="n">inexact</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">chex</span><span class="o">.</span><span class="n">ArrayDType</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Canonicalize an optional dtype to the definitive dtype.</span>
+
+<span class="sd">    If the ``dtype`` is None this function will infer the dtype. If it is not</span>
+<span class="sd">    None it will be returned unmodified or an exceptions is raised if the dtype</span>
+<span class="sd">    is invalid.</span>
+<span class="sd">    from the input arguments using ``jnp.result_type``.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">      *args: JAX array compatible values. None values</span>
+<span class="sd">        are ignored.</span>
+<span class="sd">      dtype: Optional dtype override. If specified the arguments are cast to</span>
+<span class="sd">        the specified dtype instead and dtype inference is disabled.</span>
+<span class="sd">      inexact: When True, the output dtype must be a subdtype</span>
+<span class="sd">      of `jnp.inexact`. Inexact dtypes are real or complex floating points. This</span>
+<span class="sd">      is useful when you want to apply operations that don&#39;t work directly on</span>
+<span class="sd">      integers like taking a mean for example.</span>
+<span class="sd">    Returns:</span>
+<span class="sd">      The dtype that *args should be cast to.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">dtype</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">args_filtered</span> <span class="o">=</span> <span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">args</span> <span class="k">if</span> <span class="n">x</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">]</span>
+        <span class="n">dtype</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">result_type</span><span class="p">(</span><span class="o">*</span><span class="n">args_filtered</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">inexact</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">issubdtype</span><span class="p">(</span><span class="n">dtype</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">inexact</span><span class="p">):</span>
+            <span class="n">dtype</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">promote_types</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">dtype</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">inexact</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">issubdtype</span><span class="p">(</span><span class="n">dtype</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">inexact</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;Dtype must be inexact: </span><span class="si">{</span><span class="n">dtype</span><span class="si">}</span><span class="s1">&#39;</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">dtype</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.flax_modelling_utils.create_mesh" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_mesh</span><span class="p">(</span><span class="n">axis_dims</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">axis_names</span><span class="o">=</span><span class="p">(</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="s1">&#39;sp&#39;</span><span class="p">),</span> <span class="n">backend</span><span class="o">=</span><span class="s1">&#39;&#39;</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The create_mesh function creates a mesh object that can be used to shard arrays.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>axis_dims</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[int]: Specify the dimensions of the mesh</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, -1, 1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_names</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[str]: Name the axes of the mesh</p>
+              </div>
+            </td>
+            <td>
+                  <code>(&#39;dp&#39;, &#39;fsdp&#39;, &#39;tp&#39;, &#39;sp&#39;)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>backend</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the backend to use</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;&#39;</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A mesh object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">create_mesh</span><span class="p">(</span>
+        <span class="n">axis_dims</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">axis_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="n">backend</span><span class="o">=</span><span class="s2">&quot;&quot;</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The create_mesh function creates a mesh object that can be used to shard arrays.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        axis_dims: Sequence[int]: Specify the dimensions of the mesh</span>
+<span class="sd">        axis_names: Sequence[str]: Name the axes of the mesh</span>
+<span class="sd">        backend: Specify the backend to use</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A mesh object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">array_devices</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+        <span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">()</span> <span class="k">if</span> <span class="n">backend</span> <span class="o">==</span> <span class="s2">&quot;&quot;</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="n">backend</span><span class="p">)),</span> <span class="mi">1</span><span class="p">))</span>
+    <span class="n">resh</span> <span class="o">=</span> <span class="n">array_devices</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">axis_dims</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">return</span> <span class="n">jax</span><span class="o">.</span><span class="n">sharding</span><span class="o">.</span><span class="n">Mesh</span><span class="p">(</span>
+        <span class="n">create_device_mesh</span><span class="p">(</span><span class="n">resh</span><span class="p">),</span> <span class="n">axis_names</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.flax_modelling_utils.get_dot_general_by_bits" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">mode</span><span class="o">=</span><span class="n">EasyMethod</span><span class="o">.</span><span class="n">TRAIN</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_general_dot function is a helper function that returns a q_flax.QDotGeneral object
+with the specified number of bits for forward and backward passes. If no bits are specified,
+the function returns None.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Specify the number of bits for quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>mode</code></td>
+            <td>
+                  <code><span title="typing.Literal">Literal</span>[&#39;train&#39;, &#39;serve&#39;, &#39;convert&#39;]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>EasyMethod: Specify the use of model to init the QDot
+Method for (e.q TRAIN,SERVE,...)</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="src.python.easydel.modules.easydel_modelling_utils.EasyMethod.TRAIN">TRAIN</span></code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dict that contain dot_general_cls</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_dot_general_by_bits</span><span class="p">(</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">mode</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;train&quot;</span><span class="p">,</span> <span class="s2">&quot;serve&quot;</span><span class="p">,</span> <span class="s2">&quot;convert&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">EasyMethod</span><span class="o">.</span><span class="n">TRAIN</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">dict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_general_dot function is a helper function that returns a q_flax.QDotGeneral object</span>
+<span class="sd">    with the specified number of bits for forward and backward passes. If no bits are specified,</span>
+<span class="sd">    the function returns None.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        bits: Optional[int]: Specify the number of bits for quantization</span>
+<span class="sd">        mode: EasyMethod: Specify the use of model to init the QDot</span>
+<span class="sd">            Method for (e.q TRAIN,SERVE,...)</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dict that contain dot_general_cls</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">mode</span> <span class="o">==</span> <span class="n">EasyMethod</span><span class="o">.</span><span class="n">TRAIN</span><span class="p">:</span>
+        <span class="n">rhs_quant_mode</span> <span class="o">=</span> <span class="n">q_flax</span><span class="o">.</span><span class="n">QuantMode</span><span class="o">.</span><span class="n">TRAIN</span>
+    <span class="k">elif</span> <span class="n">mode</span> <span class="o">==</span> <span class="n">EasyMethod</span><span class="o">.</span><span class="n">EVAL</span> <span class="ow">or</span> <span class="n">mode</span> <span class="o">==</span> <span class="n">EasyMethod</span><span class="o">.</span><span class="n">SERVE</span><span class="p">:</span>
+        <span class="n">rhs_quant_mode</span> <span class="o">=</span> <span class="n">q_flax</span><span class="o">.</span><span class="n">QuantMode</span><span class="o">.</span><span class="n">SERVE</span>
+    <span class="k">elif</span> <span class="n">mode</span> <span class="o">==</span> <span class="n">EasyMethod</span><span class="o">.</span><span class="n">CONVERT</span><span class="p">:</span>
+        <span class="n">rhs_quant_mode</span> <span class="o">=</span> <span class="n">q_flax</span><span class="o">.</span><span class="n">QuantMode</span><span class="o">.</span><span class="n">CONVERT</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Unknown Quant Method for EasyMethod&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;dot_general_cls&quot;</span><span class="p">:</span> <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+                <span class="n">q_flax</span><span class="o">.</span><span class="n">QDotGeneral</span><span class="p">,</span>
+                <span class="n">q_config</span><span class="o">.</span><span class="n">fully_quantized</span><span class="p">(</span>
+                    <span class="n">fwd_bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+                    <span class="n">bwd_bits</span><span class="o">=</span><span class="n">bits</span>
+                <span class="p">),</span>
+                <span class="n">rhs_quant_mode</span><span class="o">=</span><span class="n">rhs_quant_mode</span>
+            <span class="p">)</span>
+        <span class="p">}</span>
+    <span class="k">return</span> <span class="p">{}</span>  <span class="c1"># empty just in case of not getting any error</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.flax_modelling_utils.get_gradient_checkpoint_policy" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span><span class="n">name</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_gradient_checkpoint_policy function is a helper function that returns the gradient checkpoint policy
+    specified by the name parameter.</p>
+<p>:param name: Select the checkpoint policy from the dictionary
+:return: A function that is used in the jax</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_gradient_checkpoint_policy</span><span class="p">(</span><span class="n">name</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The get_gradient_checkpoint_policy function is a helper function that returns the gradient checkpoint policy</span>
+<span class="sd">        specified by the name parameter.</span>
+
+<span class="sd">    :param name: Select the checkpoint policy from the dictionary</span>
+<span class="sd">    :return: A function that is used in the jax</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">gradients</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+        <span class="n">everything_saveable</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">checkpoint_policies</span><span class="o">.</span><span class="n">everything_saveable</span><span class="p">,</span>
+        <span class="n">nothing_saveable</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">checkpoint_policies</span><span class="o">.</span><span class="n">nothing_saveable</span><span class="p">,</span>
+        <span class="n">dots_saveable</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">checkpoint_policies</span><span class="o">.</span><span class="n">dots_saveable</span><span class="p">,</span>
+        <span class="n">checkpoint_dots</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">checkpoint_policies</span><span class="o">.</span><span class="n">checkpoint_dots</span><span class="p">,</span>
+        <span class="n">dots_with_no_batch_dims_saveable</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">checkpoint_policies</span><span class="o">.</span><span class="n">dots_with_no_batch_dims_saveable</span><span class="p">,</span>
+        <span class="n">checkpoint_dots_with_no_batch_dims</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">checkpoint_policies</span><span class="o">.</span><span class="n">checkpoint_dots_with_no_batch_dims</span><span class="p">,</span>
+        <span class="n">save_anything_except_these_names</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">checkpoint_policies</span><span class="o">.</span><span class="n">save_anything_except_these_names</span><span class="p">,</span>
+        <span class="n">save_any_names_but_these</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">checkpoint_policies</span><span class="o">.</span><span class="n">save_any_names_but_these</span><span class="p">,</span>
+        <span class="n">save_only_these_names</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">checkpoint_policies</span><span class="o">.</span><span class="n">save_only_these_names</span><span class="p">,</span>
+        <span class="n">save_from_both_policies</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">checkpoint_policies</span><span class="o">.</span><span class="n">save_from_both_policies</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">gradients</span><span class="p">[</span><span class="n">name</span><span class="p">]</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.flax_modelling_utils.get_names_from_partition_spec" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_names_from_partition_spec</span><span class="p">(</span><span class="n">partition_specs</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_names_from_partition_spec function takes a partition_specs argument, which is either a dictionary or list.
+If it's a dictionary, the function converts it to a list of values. Then for each item in the partition_specs list:
+    If the item is None, continue (do nothing) and move on to next iteration of loop.
+    If the item is an instance of str (i.e., if it's just one string), add that string to names set and move
+    on to next iteration of loop.
+    Otherwise, (if not None or str), call get_names_from_partition_spec recurs</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>partition_specs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the partitioning of a table</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of the names of all partitions</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span>
+<span class="normal">80</span>
+<span class="normal">81</span>
+<span class="normal">82</span>
+<span class="normal">83</span>
+<span class="normal">84</span>
+<span class="normal">85</span>
+<span class="normal">86</span>
+<span class="normal">87</span>
+<span class="normal">88</span>
+<span class="normal">89</span>
+<span class="normal">90</span>
+<span class="normal">91</span>
+<span class="normal">92</span>
+<span class="normal">93</span>
+<span class="normal">94</span>
+<span class="normal">95</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_names_from_partition_spec</span><span class="p">(</span><span class="n">partition_specs</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_names_from_partition_spec function takes a partition_specs argument, which is either a dictionary or list.</span>
+<span class="sd">    If it&#39;s a dictionary, the function converts it to a list of values. Then for each item in the partition_specs list:</span>
+<span class="sd">        If the item is None, continue (do nothing) and move on to next iteration of loop.</span>
+<span class="sd">        If the item is an instance of str (i.e., if it&#39;s just one string), add that string to names set and move</span>
+<span class="sd">        on to next iteration of loop.</span>
+<span class="sd">        Otherwise, (if not None or str), call get_names_from_partition_spec recurs</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        partition_specs: Define the partitioning of a table</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of the names of all partitions</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">names</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">partition_specs</span><span class="p">,</span> <span class="nb">dict</span><span class="p">):</span>
+        <span class="n">partition_specs</span> <span class="o">=</span> <span class="n">partition_specs</span><span class="o">.</span><span class="n">values</span><span class="p">()</span>
+    <span class="k">for</span> <span class="n">item</span> <span class="ow">in</span> <span class="n">partition_specs</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">item</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">continue</span>
+        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">item</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="n">names</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">item</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">names</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">get_names_from_partition_spec</span><span class="p">(</span><span class="n">item</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="nb">list</span><span class="p">(</span><span class="n">names</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.flax_modelling_utils.get_ranks_and_size" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_ranks_and_size</span><span class="p">(</span><span class="n">mesh</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_ranks_and_size function is used to determine the number of MPI processes
+(<code>mp_node_size</code>) and the number of devices per process (<code>dp_node_size</code>).
+The <code>mesh.shape[mp]</code> determines how many MPI processes are needed,
+and then we divide that by the local device count to get <code>`mp_node_size = max( 1, mp / jax.local )</code>.
+This means that if there are more than enough devices for all MPI ranks on a node, each rank will only use one device; otherwise it will use</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>mesh</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Get the shape of the mesh</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with the following keys:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_ranks_and_size</span><span class="p">(</span><span class="n">mesh</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_ranks_and_size function is used to determine the number of MPI processes</span>
+<span class="sd">    (``mp_node_size``) and the number of devices per process (``dp_node_size``).</span>
+<span class="sd">    The ``mesh.shape[mp]`` determines how many MPI processes are needed,</span>
+<span class="sd">    and then we divide that by the local device count to get ``mp_node_size = max( 1, mp / jax.local )`.</span>
+<span class="sd">    This means that if there are more than enough devices for all MPI ranks on a node, each rank will only use one device; otherwise it will use</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        mesh: Get the shape of the mesh</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with the following keys:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">out</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span><span class="n">mesh</span><span class="o">=</span><span class="n">mesh</span><span class="p">)</span>
+    <span class="n">total_process_size</span> <span class="o">=</span> <span class="n">mesh</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="s2">&quot;tp&quot;</span><span class="p">]</span> <span class="o">*</span> <span class="n">mesh</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="s2">&quot;sp&quot;</span><span class="p">]</span>
+    <span class="n">mp_node_size</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">total_process_size</span> <span class="o">//</span> <span class="n">jax</span><span class="o">.</span><span class="n">local_device_count</span><span class="p">())</span>
+    <span class="n">dp_node_size</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">process_count</span><span class="p">()</span> <span class="o">//</span> <span class="n">mp_node_size</span>
+    <span class="n">out</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">mp_node_size</span><span class="o">=</span><span class="n">mp_node_size</span><span class="p">,</span>
+               <span class="n">dp_node_size</span><span class="o">=</span><span class="n">dp_node_size</span><span class="p">)</span>
+
+    <span class="n">dp_node_rank</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">process_index</span><span class="p">()</span> <span class="o">//</span> <span class="n">mp_node_size</span>
+    <span class="n">mp_node_rank</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">process_index</span><span class="p">()</span> <span class="o">%</span> <span class="n">mp_node_size</span>
+    <span class="n">out</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">dp_node_rank</span><span class="o">=</span><span class="n">dp_node_rank</span><span class="p">,</span>
+               <span class="n">mp_node_rank</span><span class="o">=</span><span class="n">mp_node_rank</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">out</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.flax_modelling_utils.names_in_mesh" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">names_in_mesh</span><span class="p">(</span><span class="o">*</span><span class="n">names</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The names_in_mesh function is a decorator that can be used to check whether
+the names of the axes passed into a function are valid.  It will raise an
+exception if any of the axis names are not in the physical mesh.  For example,
+if you have a function that takes two axes as arguments, and you want to make sure they're both in your mesh:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>*names</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Collect all the names passed to the function into a
+tuple</p>
+              </div>
+            </td>
+            <td>
+                  <code>()</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A boolean indicating whether all the given</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">names_in_mesh</span><span class="p">(</span><span class="o">*</span><span class="n">names</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The names_in_mesh function is a decorator that can be used to check whether</span>
+<span class="sd">    the names of the axes passed into a function are valid.  It will raise an</span>
+<span class="sd">    exception if any of the axis names are not in the physical mesh.  For example,</span>
+<span class="sd">    if you have a function that takes two axes as arguments, and you want to make sure they&#39;re both in your mesh:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        *names: Collect all the names passed to the function into a</span>
+<span class="sd">            tuple</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A boolean indicating whether all the given</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="nb">set</span><span class="p">(</span><span class="n">names</span><span class="p">)</span> <span class="o">&lt;=</span> <span class="nb">set</span><span class="p">(</span><span class="n">pxla</span><span class="o">.</span><span class="n">thread_resources</span><span class="o">.</span><span class="n">env</span><span class="o">.</span><span class="n">physical_mesh</span><span class="o">.</span><span class="n">axis_names</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.flax_modelling_utils.repeat_kv_bnsh" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">n_rep</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The repeat_kv_bnsh function is used to repeat the key and value vectors for each head in a multi-head attention
+module. This function takes as input an array of shape (batch_size, n_heads, sequence_length, head_dim) and returns
+an array of shape (batch_size, n_heads * nrep, sequence length, head dim). The reason this is necessary is because the
+attention module expects keys/values/queries to be repeated across heads but not across batches. However we want our
+keys/values/queries to be repeated both across heads AND batches so that we can use them</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>x</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input to the function</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>n_rep</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Repeat the key and value heads</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A new array with the same shape as x, except for the second</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dimension which is n_kv_heads * n_rep</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">repeat_kv_bnsh</span><span class="p">(</span><span class="n">x</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">n_rep</span><span class="p">:</span> <span class="nb">int</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The repeat_kv_bnsh function is used to repeat the key and value vectors for each head in a multi-head attention</span>
+<span class="sd">    module. This function takes as input an array of shape (batch_size, n_heads, sequence_length, head_dim) and returns</span>
+<span class="sd">    an array of shape (batch_size, n_heads * nrep, sequence length, head dim). The reason this is necessary is because the</span>
+<span class="sd">    attention module expects keys/values/queries to be repeated across heads but not across batches. However we want our</span>
+<span class="sd">    keys/values/queries to be repeated both across heads AND batches so that we can use them</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        x: chex.Array: Pass in the input to the function</span>
+<span class="sd">        n_rep: int: Repeat the key and value heads</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A new array with the same shape as x, except for the second</span>
+<span class="sd">        dimension which is n_kv_heads * n_rep</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">bs</span><span class="p">,</span> <span class="n">n_kv_heads</span><span class="p">,</span> <span class="n">s</span><span class="p">,</span> <span class="n">head_dim</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">shape</span>
+    <span class="k">if</span> <span class="n">n_rep</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">x</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="n">x</span><span class="p">[:,</span> <span class="p">:,</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">newaxis</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">n_rep</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">x</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">bs</span><span class="p">,</span> <span class="n">n_kv_heads</span> <span class="o">*</span> <span class="n">n_rep</span><span class="p">,</span> <span class="n">s</span><span class="p">,</span> <span class="n">head_dim</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.flax_modelling_utils.repeat_kv_bsnh" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">repeat_kv_bsnh</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">n_rep</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The repeat_kv_bsnh function is used to repeat the key and value vectors for each head.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>x</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the input array</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>n_rep</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Repeat the key-value attention heads n_rep times</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A new array with the same batch size, sequence length, and head</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dimension as the input array</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">repeat_kv_bsnh</span><span class="p">(</span><span class="n">x</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">n_rep</span><span class="p">:</span> <span class="nb">int</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The repeat_kv_bsnh function is used to repeat the key and value vectors for each head.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        x: chex.Array: Specify the input array</span>
+<span class="sd">        n_rep: int: Repeat the key-value attention heads n_rep times</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A new array with the same batch size, sequence length, and head</span>
+<span class="sd">        dimension as the input array</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">bs</span><span class="p">,</span> <span class="n">s</span><span class="p">,</span> <span class="n">n_kv_heads</span><span class="p">,</span> <span class="n">head_dim</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">shape</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">n_rep</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">x</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="n">x</span><span class="p">[:,</span> <span class="p">:,</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">newaxis</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">n_rep</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span>
+
+    <span class="n">x</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">x</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">bs</span><span class="p">,</span> <span class="n">s</span><span class="p">,</span> <span class="n">n_kv_heads</span> <span class="o">*</span> <span class="n">n_rep</span><span class="p">,</span> <span class="n">head_dim</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.flax_modelling_utils.rotate_half" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">rotate_half</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The rotate_half function takes a complex-valued array and rotates the
+phase of its second half by 180 degrees. This is equivalent to multiplying
+the second half by -i, or equivalently rotating it 90 degrees counterclockwise.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>x</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the input array</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A new array that is the same as the input</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">rotate_half</span><span class="p">(</span><span class="n">x</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The rotate_half function takes a complex-valued array and rotates the</span>
+<span class="sd">    phase of its second half by 180 degrees. This is equivalent to multiplying</span>
+<span class="sd">    the second half by -i, or equivalently rotating it 90 degrees counterclockwise.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        x: Specify the input array</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A new array that is the same as the input</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">x1</span> <span class="o">=</span> <span class="n">x</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span> <span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">//</span> <span class="mi">2</span><span class="p">]</span>
+    <span class="n">x2</span> <span class="o">=</span> <span class="n">x</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">//</span> <span class="mi">2</span><span class="p">:]</span>
+    <span class="k">return</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">concatenate</span><span class="p">((</span><span class="o">-</span><span class="n">x2</span><span class="p">,</span> <span class="n">x1</span><span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-gemma-gemma_configuration/index.html b/generated-modules-gemma-gemma_configuration/index.html
new file mode 100644
index 000000000..0e60cb182
--- /dev/null
+++ b/generated-modules-gemma-gemma_configuration/index.html
@@ -0,0 +1,6865 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-flax_modelling_utils/">
+      
+      
+        <link rel="next" href="../generated-modules-gemma-modelling_gemma_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Gemma Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesgemmagemma_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Gemma Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.gemma_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      gemma_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      GemmaConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="GemmaConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.gemma_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      gemma_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      GemmaConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="GemmaConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesgemmagemma_configuration">modules.gemma.gemma_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.gemma.gemma_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig" class="doc doc-heading">
+            <code>GemmaConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/gemma/gemma_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  8</span>
+<span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">GemmaConfig</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;gemma&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">256000</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">3072</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">24576</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">28</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">16</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">16</span><span class="p">,</span>
+            <span class="n">head_dim</span><span class="o">=</span><span class="mi">256</span><span class="p">,</span>
+            <span class="n">hidden_act</span><span class="o">=</span><span class="s2">&quot;gelu_pytorch_tanh&quot;</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">8192</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-6</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span>
+            <span class="n">attention_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">scan_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">hidden_activation</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up the attributes of an object, which are sometimes called fields or properties.</span>
+<span class="sd">        The __init__ function can accept arguments, but self must be the first one.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_layers</span> <span class="o">=</span> <span class="n">scan_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="n">head_dim</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_activation</span> <span class="o">=</span> <span class="n">hidden_activation</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="n">pad_token_id</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">            1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">                partition the model fully or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the current object</span>
+<span class="sd">            gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">                used by jax</span>
+<span class="sd">            bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">                the quantization</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_weight_decay_exclusions</span><span class="p">():</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">rng_keys</span><span class="p">():</span>
+        <span class="k">return</span> <span class="s1">&#39;params&#39;</span><span class="p">,</span> <span class="s1">&#39;dropout&#39;</span><span class="p">,</span> <span class="s1">&#39;fcm&#39;</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">vocab_size</span><span class="o">=</span><span class="mi">256000</span><span class="p">,</span> <span class="n">hidden_size</span><span class="o">=</span><span class="mi">3072</span><span class="p">,</span> <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">24576</span><span class="p">,</span> <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">28</span><span class="p">,</span> <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">16</span><span class="p">,</span> <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">16</span><span class="p">,</span> <span class="n">head_dim</span><span class="o">=</span><span class="mi">256</span><span class="p">,</span> <span class="n">hidden_act</span><span class="o">=</span><span class="s1">&#39;gelu_pytorch_tanh&#39;</span><span class="p">,</span> <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">8192</span><span class="p">,</span> <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span> <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-06</span><span class="p">,</span> <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">pad_token_id</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span> <span class="n">attention_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">scan_layers</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">hidden_activation</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up the attributes of an object, which are sometimes called fields or properties.
+The <strong>init</strong> function can accept arguments, but self must be the first one.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/gemma/gemma_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">11</span>
+<span class="normal">12</span>
+<span class="normal">13</span>
+<span class="normal">14</span>
+<span class="normal">15</span>
+<span class="normal">16</span>
+<span class="normal">17</span>
+<span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">vocab_size</span><span class="o">=</span><span class="mi">256000</span><span class="p">,</span>
+        <span class="n">hidden_size</span><span class="o">=</span><span class="mi">3072</span><span class="p">,</span>
+        <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">24576</span><span class="p">,</span>
+        <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">28</span><span class="p">,</span>
+        <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">16</span><span class="p">,</span>
+        <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">16</span><span class="p">,</span>
+        <span class="n">head_dim</span><span class="o">=</span><span class="mi">256</span><span class="p">,</span>
+        <span class="n">hidden_act</span><span class="o">=</span><span class="s2">&quot;gelu_pytorch_tanh&quot;</span><span class="p">,</span>
+        <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">8192</span><span class="p">,</span>
+        <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+        <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-6</span><span class="p">,</span>
+        <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">pad_token_id</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+        <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+        <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+        <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span>
+        <span class="n">attention_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">scan_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">hidden_activation</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up the attributes of an object, which are sometimes called fields or properties.</span>
+<span class="sd">    The __init__ function can accept arguments, but self must be the first one.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_layers</span> <span class="o">=</span> <span class="n">scan_layers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="n">head_dim</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">hidden_activation</span> <span class="o">=</span> <span class="n">hidden_activation</span>
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+        <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+        <span class="n">pad_token_id</span><span class="o">=</span><span class="n">pad_token_id</span><span class="p">,</span>
+        <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+        <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig.add_jax_args" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_jax_args</span><span class="p">(</span><span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The add_jax_args function adds the following arguments to the Transformer class:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the current object</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Control the amount of memory
+used by jax</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Determine the number of bits used in
+the quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/gemma/gemma_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the current object</span>
+<span class="sd">        gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">            used by jax</span>
+<span class="sd">        bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">            the quantization</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+    1) A regex string that matches the name of one or more parameters in the model.
+    2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to
+partition the model fully or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/gemma/gemma_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">        1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">            partition the model fully or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-gemma-modelling_gemma_flax/index.html b/generated-modules-gemma-modelling_gemma_flax/index.html
new file mode 100644
index 000000000..fe7bf40d4
--- /dev/null
+++ b/generated-modules-gemma-modelling_gemma_flax/index.html
@@ -0,0 +1,7599 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-gemma-gemma_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-gpt_j-gpt_j_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Gemma Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesgemmamodelling_gemma_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Gemma Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.modelling_gemma_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_gemma_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGemmaAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxGemmaAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGemmaPreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxGemmaPreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaPreTrainedModel.init_cache" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_cache
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.modelling_gemma_flax.add_positional_embedding" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_positional_embedding
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.modelling_gemma_flax.apply_rope" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rope
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.modelling_gemma_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_gemma_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGemmaAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxGemmaAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGemmaPreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxGemmaPreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaPreTrainedModel.init_cache" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_cache
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.modelling_gemma_flax.add_positional_embedding" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_positional_embedding
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gemma.modelling_gemma_flax.apply_rope" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rope
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesgemmamodelling_gemma_flax">modules.gemma.modelling_gemma_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.gemma.modelling_gemma_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaAttention" class="doc doc-heading">
+            <code>FlaxGemmaAttention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/gemma/modelling_gemma_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxGemmaAttention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">GemmaConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+    <span class="n">causal</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="n">is_cross_attention</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embed_dim</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_softmax_in_fp32</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span> <span class="ow">is</span> <span class="ow">not</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+
+        <span class="n">kernel</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">kernel</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">kernel</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">kernel</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">embed_dim</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">kernel</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">use_sharding_constraint</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">**</span> <span class="o">-</span><span class="mf">0.5</span><span class="p">,</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb</span> <span class="o">=</span> <span class="n">FlaxGemmaRotaryEmbedding</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,))</span>
+
+    <span class="k">def</span> <span class="nf">_split_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">,</span> <span class="n">num_heads</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">num_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">))</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _transpose_sequence_head function transposes the query, key and value matrices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            query: Get the attention weights for each of the heads</span>
+<span class="sd">            key: Determine the number of heads</span>
+<span class="sd">            value: Store the values of the input</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The transpose of the query, key and value matrices</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">            sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">            query: Calculate the attention weights</span>
+<span class="sd">            key: Calculate the attention</span>
+<span class="sd">            value: Compute the attention weights</span>
+<span class="sd">            freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">                vocabulary</span>
+<span class="sd">            position_ids: Identify the position of each token in the</span>
+<span class="sd">                sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 tensors: query, key and value</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb</span><span class="p">(</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query_states</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key_states</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="p">(</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span>
+        <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
+            <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">position_ids</span>
+        <span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">)</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">key_states</span><span class="p">,</span> <span class="n">repeats</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">value_states</span><span class="p">,</span> <span class="n">repeats</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="mi">2</span><span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span>
+            <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaAttention.apply_rotary" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rotary</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class.
+The main difference is that it takes in an additional argument, freq_cis, which are used to calculate
+the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sequence_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Compute the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the frequency of each word in the
+vocabulary</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Identify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 tensors: query, key and value</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/gemma/modelling_gemma_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">        sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">        query: Calculate the attention weights</span>
+<span class="sd">        key: Calculate the attention</span>
+<span class="sd">        value: Compute the attention weights</span>
+<span class="sd">        freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">            vocabulary</span>
+<span class="sd">        position_ids: Identify the position of each token in the</span>
+<span class="sd">            sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 tensors: query, key and value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb</span><span class="p">(</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query_states</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key_states</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaPreTrainedModel" class="doc doc-heading">
+            <code>FlaxGemmaPreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+      <p>An abstract class to handle weights initialization and a simple interface for downloading and loading pretrained
+models.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/gemma/modelling_gemma_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxGemmaPreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;An abstract class to handle weights initialization and a simple interface for downloading and loading pretrained</span>
+<span class="sd">    models.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">GemmaConfig</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;model&quot;</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">GemmaConfig</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">),</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">config</span><span class="p">,</span>
+            <span class="n">module</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+            <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_cache function is used to initialize the cache for a given batch size and sequence length.</span>
+<span class="sd">        The cache is a dictionary that contains all the intermediate states from each layer in the model.</span>
+<span class="sd">        This allows us to run inference on multiple batches without having to re-run forward passes through every layer in</span>
+<span class="sd">        the model, which would be very slow.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the module</span>
+<span class="sd">            batch_size: Define the batch size of the input tensors</span>
+<span class="sd">            max_length: Set the length of the input sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary with the following keys:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+        <span class="c1"># init input tensors</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span><span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaPreTrainedModel.init_cache" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_cache function is used to initialize the cache for a given batch size and sequence length.
+The cache is a dictionary that contains all the intermediate states from each layer in the model.
+This allows us to run inference on multiple batches without having to re-run forward passes through every layer in
+the model, which would be very slow.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access the module</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the batch size of the input tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the length of the input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with the following keys:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/gemma/modelling_gemma_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_cache function is used to initialize the cache for a given batch size and sequence length.</span>
+<span class="sd">    The cache is a dictionary that contains all the intermediate states from each layer in the model.</span>
+<span class="sd">    This allows us to run inference on multiple batches without having to re-run forward passes through every layer in</span>
+<span class="sd">    the model, which would be very slow.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access the module</span>
+<span class="sd">        batch_size: Define the batch size of the input tensors</span>
+<span class="sd">        max_length: Set the length of the input sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with the following keys:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+    <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+        <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.gemma.modelling_gemma_flax.add_positional_embedding" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_positional_embedding</span><span class="p">(</span><span class="n">input_embedding</span><span class="p">,</span> <span class="n">position</span><span class="p">,</span> <span class="n">theta</span><span class="o">=</span><span class="mi">10000</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Adds positional embeddings to input embeddings. From DeepMind Gemma</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/gemma/modelling_gemma_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_positional_embedding</span><span class="p">(</span>
+        <span class="n">input_embedding</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+        <span class="n">theta</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10_000</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jax</span><span class="o">.</span><span class="n">Array</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Adds positional embeddings to input embeddings. From DeepMind Gemma&quot;&quot;&quot;</span>
+    <span class="n">embed_dim</span> <span class="o">=</span> <span class="n">input_embedding</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+    <span class="n">num_timescales</span> <span class="o">=</span> <span class="n">embed_dim</span> <span class="o">//</span> <span class="mi">2</span>
+    <span class="n">log_timescale_increment</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="nb">float</span><span class="p">(</span><span class="n">theta</span><span class="p">))</span> <span class="o">/</span> <span class="n">jnp</span><span class="o">.</span><span class="n">maximum</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">num_timescales</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span>
+    <span class="p">)</span>
+    <span class="n">inv_timescales</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">num_timescales</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span> <span class="o">*</span> <span class="o">-</span><span class="n">log_timescale_increment</span>
+    <span class="p">)</span>
+    <span class="n">scaled_time</span> <span class="o">=</span> <span class="n">position</span> <span class="o">*</span> <span class="n">inv_timescales</span>
+    <span class="n">signal</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">([</span><span class="n">jnp</span><span class="o">.</span><span class="n">sin</span><span class="p">(</span><span class="n">scaled_time</span><span class="p">),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">cos</span><span class="p">(</span><span class="n">scaled_time</span><span class="p">)])</span>
+    <span class="n">signal</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">pad</span><span class="p">(</span><span class="n">signal</span><span class="p">,</span> <span class="p">[[</span><span class="mi">0</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">mod</span><span class="p">(</span><span class="n">embed_dim</span><span class="p">,</span> <span class="mi">2</span><span class="p">)]])</span>
+    <span class="n">position_embedding</span> <span class="o">=</span> <span class="n">signal</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">input_embedding</span> <span class="o">+</span> <span class="n">position_embedding</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.gemma.modelling_gemma_flax.apply_rope" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rope</span><span class="p">(</span><span class="n">inputs</span><span class="p">,</span> <span class="n">positions</span><span class="p">,</span> <span class="n">head_dim</span><span class="p">,</span> <span class="n">theta</span><span class="o">=</span><span class="mi">10000</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Applies RoPE. From DeepMind Gemma</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/gemma/modelling_gemma_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rope</span><span class="p">(</span>
+        <span class="n">inputs</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># [B, L]</span>
+        <span class="n">positions</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># [B, L]</span>
+        <span class="n">head_dim</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+        <span class="n">theta</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10_000</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jax</span><span class="o">.</span><span class="n">Array</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Applies RoPE. From DeepMind Gemma&quot;&quot;&quot;</span>
+    <span class="n">fraction</span> <span class="o">=</span> <span class="mi">2</span> <span class="o">*</span> <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">head_dim</span> <span class="o">//</span> <span class="mi">2</span><span class="p">)</span> <span class="o">/</span> <span class="n">head_dim</span>
+    <span class="n">timescale</span> <span class="o">=</span> <span class="n">theta</span> <span class="o">**</span> <span class="n">fraction</span>
+
+    <span class="n">sinusoid_inp</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">positions</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">newaxis</span><span class="p">]</span> <span class="o">/</span> <span class="n">timescale</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">newaxis</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">newaxis</span><span class="p">,</span> <span class="p">:]</span>
+    <span class="p">)</span>
+    <span class="n">sinusoid_inp</span> <span class="o">=</span> <span class="n">sinusoid_inp</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">newaxis</span><span class="p">,</span> <span class="p">:]</span>
+    <span class="n">sin</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">sin</span><span class="p">(</span><span class="n">sinusoid_inp</span><span class="p">)</span>
+    <span class="n">cos</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">cos</span><span class="p">(</span><span class="n">sinusoid_inp</span><span class="p">)</span>
+
+    <span class="n">first_half</span><span class="p">,</span> <span class="n">second_half</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">inputs</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+    <span class="n">first_part</span> <span class="o">=</span> <span class="n">first_half</span> <span class="o">*</span> <span class="n">cos</span> <span class="o">-</span> <span class="n">second_half</span> <span class="o">*</span> <span class="n">sin</span>
+    <span class="n">second_part</span> <span class="o">=</span> <span class="n">second_half</span> <span class="o">*</span> <span class="n">cos</span> <span class="o">+</span> <span class="n">first_half</span> <span class="o">*</span> <span class="n">sin</span>
+    <span class="n">out</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">([</span><span class="n">first_part</span><span class="p">,</span> <span class="n">second_part</span><span class="p">],</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">out</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">inputs</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-gpt2-gpt2_configuration/index.html b/generated-modules-gpt2-gpt2_configuration/index.html
new file mode 100644
index 000000000..602ed9f6d
--- /dev/null
+++ b/generated-modules-gpt2-gpt2_configuration/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-gpt2-modelling_gpt2_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Gpt2 Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesgpt2gpt2_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Gpt2 Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gpt2.gpt2_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      gpt2_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gpt2.gpt2_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      gpt2_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesgpt2gpt2_configuration">modules.gpt2.gpt2_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.gpt2.gpt2_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-gpt2-modelling_gpt2_flax/index.html b/generated-modules-gpt2-modelling_gpt2_flax/index.html
new file mode 100644
index 000000000..849fa3170
--- /dev/null
+++ b/generated-modules-gpt2-modelling_gpt2_flax/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-gpt2-gpt2_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-grok_1-grok_1_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Gpt2 Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesgpt2modelling_gpt2_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Gpt2 Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gpt2.modelling_gpt2_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_gpt2_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gpt2.modelling_gpt2_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_gpt2_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesgpt2modelling_gpt2_flax">modules.gpt2.modelling_gpt2_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.gpt2.modelling_gpt2_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-gpt_j-gpt_j_configuration/index.html b/generated-modules-gpt_j-gpt_j_configuration/index.html
new file mode 100644
index 000000000..0c6e6efc9
--- /dev/null
+++ b/generated-modules-gpt_j-gpt_j_configuration/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-gemma-modelling_gemma_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-gpt_j-modelling_gpt_j_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Gpt J Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesgpt_jgpt_j_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Gpt J Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gpt_j.gpt_j_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      gpt_j_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gpt_j.gpt_j_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      gpt_j_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesgpt_jgpt_j_configuration">modules.gpt_j.gpt_j_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.gpt_j.gpt_j_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-gpt_j-modelling_gpt_j_flax/index.html b/generated-modules-gpt_j-modelling_gpt_j_flax/index.html
new file mode 100644
index 000000000..73f79f72f
--- /dev/null
+++ b/generated-modules-gpt_j-modelling_gpt_j_flax/index.html
@@ -0,0 +1,6046 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-gpt_j-gpt_j_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Gpt J Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesgpt_jmodelling_gpt_j_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Gpt J Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gpt_j.modelling_gpt_j_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_gpt_j_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gpt_j.modelling_gpt_j_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_gpt_j_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesgpt_jmodelling_gpt_j_flax">modules.gpt_j.modelling_gpt_j_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.gpt_j.modelling_gpt_j_flax"></a>
+    <div class="doc doc-contents first">
+
+      <p>GPT-J model configuration</p>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-gpt_neo_x-gpt_neo_x_configuration/index.html b/generated-modules-gpt_neo_x-gpt_neo_x_configuration/index.html
new file mode 100644
index 000000000..df0fd8bc6
--- /dev/null
+++ b/generated-modules-gpt_neo_x-gpt_neo_x_configuration/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-gpt_j-modelling_gpt_j_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Gpt Neo X Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesgpt_neo_xgpt_neo_x_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Gpt Neo X Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gpt_neo_x.gpt_neo_x_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      gpt_neo_x_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gpt_neo_x.gpt_neo_x_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      gpt_neo_x_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesgpt_neo_xgpt_neo_x_configuration">modules.gpt_neo_x.gpt_neo_x_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.gpt_neo_x.gpt_neo_x_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/index.html b/generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/index.html
new file mode 100644
index 000000000..f6be269e6
--- /dev/null
+++ b/generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-gpt2-gpt2_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Gpt Neo X Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesgpt_neo_xmodelling_gpt_neo_x_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Gpt Neo X Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gpt_neo_x.modelling_gpt_neo_x_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_gpt_neo_x_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.gpt_neo_x.modelling_gpt_neo_x_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_gpt_neo_x_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesgpt_neo_xmodelling_gpt_neo_x_flax">modules.gpt_neo_x.modelling_gpt_neo_x_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.gpt_neo_x.modelling_gpt_neo_x_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-grok_1-grok_1_configuration/index.html b/generated-modules-grok_1-grok_1_configuration/index.html
new file mode 100644
index 000000000..000f325ba
--- /dev/null
+++ b/generated-modules-grok_1-grok_1_configuration/index.html
@@ -0,0 +1,6762 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-gpt2-modelling_gpt2_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-grok_1-modelling_grok_1_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Grok 1 Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesgrok_1grok_1_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Grok 1 Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.grok_1_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      grok_1_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.grok_1_configuration.Grok1Config" class="md-nav__link">
+    <span class="md-ellipsis">
+      Grok1Config
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Grok1Config">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.grok_1_configuration.Grok1Config.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.grok_1_configuration.Grok1Config.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.grok_1_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      grok_1_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.grok_1_configuration.Grok1Config" class="md-nav__link">
+    <span class="md-ellipsis">
+      Grok1Config
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Grok1Config">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.grok_1_configuration.Grok1Config.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.grok_1_configuration.Grok1Config.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesgrok_1grok_1_configuration">modules.grok_1.grok_1_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.grok_1.grok_1_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.grok_1.grok_1_configuration.Grok1Config" class="doc doc-heading">
+            <code>Grok1Config</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/grok_1/grok_1_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  6</span>
+<span class="normal">  7</span>
+<span class="normal">  8</span>
+<span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">Grok1Config</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;grok-1&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">32000</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">32768</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">attn_output_multiplier</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span>
+            <span class="n">max_attn_value</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">embedding_multiplier_scale</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+            <span class="n">output_multiplier_scale</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+            <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-5</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">num_experts_per_tok</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+            <span class="n">num_experts</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">router_aux_loss_coef</span><span class="o">=</span><span class="mf">0.001</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attn_output_multiplier</span> <span class="o">=</span> <span class="n">attn_output_multiplier</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_attn_value</span> <span class="o">=</span> <span class="n">max_attn_value</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embedding_multiplier_scale</span> <span class="o">=</span> <span class="n">embedding_multiplier_scale</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">output_multiplier_scale</span> <span class="o">=</span> <span class="n">output_multiplier_scale</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="c1"># for backward compatibility</span>
+        <span class="k">if</span> <span class="n">num_key_value_heads</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_experts_per_tok</span> <span class="o">=</span> <span class="n">num_experts_per_tok</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_experts</span> <span class="o">=</span> <span class="n">num_experts</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">output_router_logits</span> <span class="o">=</span> <span class="n">output_router_logits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">router_aux_loss_coef</span> <span class="o">=</span> <span class="n">router_aux_loss_coef</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="n">pad_token_id</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">            1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">                partition the model fully or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;linear/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;linear_1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;linear_v/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;post_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;pre_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;pre_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;linear/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;linear_1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;linear_v/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;post_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;pre_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;pre_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;post_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the current object</span>
+<span class="sd">            tie_word_embeddings: bool: Tie the word embeddings to the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">                used by jax</span>
+<span class="sd">            bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">                the quantization</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tie_word_embeddings</span> <span class="o">=</span> <span class="n">tie_word_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_weight_decay_exclusions</span><span class="p">():</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">rng_keys</span><span class="p">():</span>
+        <span class="k">return</span> <span class="s1">&#39;params&#39;</span><span class="p">,</span> <span class="s1">&#39;dropout&#39;</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.grok_1.grok_1_configuration.Grok1Config.add_jax_args" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_jax_args</span><span class="p">(</span><span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The add_jax_args function adds the following arguments to the Transformer class:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the current object</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tie_word_embeddings</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Tie the word embeddings to the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Control the amount of memory
+used by jax</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Determine the number of bits used in
+the quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/grok_1/grok_1_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">tie_word_embeddings</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the current object</span>
+<span class="sd">        tie_word_embeddings: bool: Tie the word embeddings to the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">            used by jax</span>
+<span class="sd">        bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">            the quantization</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tie_word_embeddings</span> <span class="o">=</span> <span class="n">tie_word_embeddings</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.grok_1.grok_1_configuration.Grok1Config.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+    1) A regex string that matches the name of one or more parameters in the model.
+    2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to
+partition the model fully or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/grok_1/grok_1_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">        1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">            partition the model fully or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;linear/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;linear_1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;linear_v/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;post_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;pre_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;pre_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;linear/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;linear_1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;linear_v/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;post_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;pre_attn_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;pre_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;post_moe_norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-grok_1-modelling_grok_1_flax/index.html b/generated-modules-grok_1-modelling_grok_1_flax/index.html
new file mode 100644
index 000000000..5f2338aaf
--- /dev/null
+++ b/generated-modules-grok_1-modelling_grok_1_flax/index.html
@@ -0,0 +1,10882 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-grok_1-grok_1_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-jetmoe-jetmoe_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Grok 1 Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesgrok_1modelling_grok_1_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Grok 1 Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_grok_1_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1Attention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGrok1Attention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxGrok1Attention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1Attention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1Attention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1BLockSparseMLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGrok1BLockSparseMLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxGrok1BLockSparseMLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1BLockSparseMLP.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayer" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGrok1DecoderLayer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxGrok1DecoderLayer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayer.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayerCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGrok1DecoderLayerCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxGrok1DecoderLayerCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayerCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1ForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGrok1ForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxGrok1ForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1ForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1SparseMoeBlock" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGrok1SparseMoeBlock
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.Grok1PreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      Grok1PreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Grok1PreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.Grok1PreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.Grok1PreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_grok_1_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1Attention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGrok1Attention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxGrok1Attention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1Attention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1Attention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1BLockSparseMLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGrok1BLockSparseMLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxGrok1BLockSparseMLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1BLockSparseMLP.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayer" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGrok1DecoderLayer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxGrok1DecoderLayer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayer.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayerCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGrok1DecoderLayerCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxGrok1DecoderLayerCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayerCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1ForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGrok1ForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxGrok1ForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1ForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1SparseMoeBlock" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxGrok1SparseMoeBlock
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.Grok1PreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      Grok1PreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Grok1PreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.Grok1PreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.Grok1PreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesgrok_1modelling_grok_1_flax">modules.grok_1.modelling_grok_1_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.grok_1.modelling_grok_1_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1Attention" class="doc doc-heading">
+            <code>FlaxGrok1Attention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxGrok1Attention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Grok1Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span> <span class="o">=</span> <span class="n">FlaxGrok1Embedding</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">use_sharding_constraint</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">rate</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">resid_pdrop</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _transpose_sequence_head function transposes the query, key and value matrices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            query: Get the attention weights for each of the heads</span>
+<span class="sd">            key: Determine the number of heads</span>
+<span class="sd">            value: Store the values of the input</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The transpose of the query, key and value matrices</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">            sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">            query: Calculate the attention weights</span>
+<span class="sd">            key: Calculate the attention</span>
+<span class="sd">            value: Compute the attention weights</span>
+<span class="sd">            freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">                vocabulary</span>
+<span class="sd">            position_ids: Identify the position of each token in the</span>
+<span class="sd">                sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 tensors: query, key and value</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">        and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency coefficients for each position</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+<span class="sd">            fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">                and output tokens</span>
+<span class="sd">        :param : Determine if the attention is causal or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two arrays</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+        <span class="p">)</span>
+
+        <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span>
+                <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+
+        <span class="c1"># if self.config.use_sharding_constraint:</span>
+        <span class="c1">#     query_states = with_sharding_constraint(</span>
+        <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     key_states = with_sharding_constraint(</span>
+        <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     value_states = with_sharding_constraint(</span>
+        <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span><span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span><span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1Attention.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module. It defines how the module behaves when called
+with inputs. The <strong>call</strong> function can be thought of as a &quot;forward pass&quot; through the model,
+and it should return all outputs that are needed for training or inference.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the hidden states of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency coefficients for each position</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the future tokens in the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the attention weights between the input
+and output tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine if the attention is causal or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two arrays</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">    and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency coefficients for each position</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+<span class="sd">        fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">            and output tokens</span>
+<span class="sd">    :param : Determine if the attention is causal or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two arrays</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+        <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+    <span class="p">)</span>
+
+    <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">)</span>
+
+    <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+        <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+        <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+        <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+    <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+        <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+        <span class="p">)</span>
+
+    <span class="c1"># if self.config.use_sharding_constraint:</span>
+    <span class="c1">#     query_states = with_sharding_constraint(</span>
+    <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     key_states = with_sharding_constraint(</span>
+    <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     value_states = with_sharding_constraint(</span>
+    <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+        <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+        <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+        <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+    <span class="p">)</span>
+
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                <span class="s2">&quot;tp&quot;</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span><span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span><span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1Attention.apply_rotary" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rotary</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class.
+The main difference is that it takes in an additional argument, freq_cis, which are used to calculate
+the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sequence_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Compute the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the frequency of each word in the
+vocabulary</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Identify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 tensors: query, key and value</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">        sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">        query: Calculate the attention weights</span>
+<span class="sd">        key: Calculate the attention</span>
+<span class="sd">        value: Compute the attention weights</span>
+<span class="sd">        freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">            vocabulary</span>
+<span class="sd">        position_ids: Identify the position of each token in the</span>
+<span class="sd">            sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 tensors: query, key and value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1BLockSparseMLP" class="doc doc-heading">
+            <code>FlaxGrok1BLockSparseMLP</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxGrok1BLockSparseMLP</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Grok1Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">linear</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">intermediate_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">linear_1</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">linear_v</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">intermediate_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">        It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).</span>
+<span class="sd">        The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            x: jnp.ndarray: Pass in the input to the layer</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout #</span>
+<span class="sd">                IGNORED</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tensor that is the result of applying a dropout function</span>
+<span class="sd">            to x</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">linear_1</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">gelu</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">linear</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">linear_v</span><span class="p">(</span><span class="n">x</span><span class="p">))</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1BLockSparseMLP.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a class.
+It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).
+The <strong>call</strong> method enables instances of a class to be called like standard Python functions.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>x</code></td>
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.ndarray: Pass in the input to the layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout #
+IGNORED</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tensor that is the result of applying a dropout function</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>to x</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">    It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).</span>
+<span class="sd">    The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        x: jnp.ndarray: Pass in the input to the layer</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout #</span>
+<span class="sd">            IGNORED</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tensor that is the result of applying a dropout function</span>
+<span class="sd">        to x</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">linear_1</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">gelu</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">linear</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">linear_v</span><span class="p">(</span><span class="n">x</span><span class="p">))</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayer" class="doc doc-heading">
+            <code>FlaxGrok1DecoderLayer</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxGrok1DecoderLayer</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Grok1Config</span>
+    <span class="n">layer_index</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="c1"># hidden_states: chex.Array</span>
+        <span class="c1"># freq_cis: Tuple[chex.Array, chex.Array],</span>
+        <span class="c1"># attention_mask: chex.Array</span>
+        <span class="c1"># causal_mask: chex.Array</span>
+        <span class="c1"># position_ids: chex.Array</span>
+        <span class="c1"># deterministic: bool = True</span>
+        <span class="c1"># init_cache: bool = False</span>
+        <span class="c1"># output_attentions: bool = True</span>
+
+        <span class="n">attn_block</span> <span class="o">=</span> <span class="n">FlaxGrok1Attention</span>
+        <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">FlaxGrok1SparseMoeBlock</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">attn_block</span> <span class="o">=</span> <span class="n">re_mat</span><span class="p">(</span>
+                <span class="n">attn_block</span><span class="p">,</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="p">),</span>
+                <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span>
+                    <span class="mi">3</span><span class="p">,</span> <span class="mi">5</span><span class="p">,</span> <span class="mi">6</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">8</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">re_mat</span><span class="p">(</span>
+                <span class="n">mlp_block</span><span class="p">,</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="p">),</span>
+                <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span>
+                    <span class="mi">1</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attn</span> <span class="o">=</span> <span class="n">attn_block</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">layer_index</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">layer_index</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">moe_block</span> <span class="o">=</span> <span class="n">mlp_block</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pre_attn_norm</span> <span class="o">=</span> <span class="n">FlaxGrok1RMSNorm</span><span class="p">(</span>
+            <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">post_attn_norm</span> <span class="o">=</span> <span class="n">FlaxGrok1RMSNorm</span><span class="p">(</span>
+            <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pre_moe_norm</span> <span class="o">=</span> <span class="n">FlaxGrok1RMSNorm</span><span class="p">(</span>
+            <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">post_moe_norm</span> <span class="o">=</span> <span class="n">FlaxGrok1RMSNorm</span><span class="p">(</span>
+            <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">        It takes in the following arguments:</span>
+<span class="sd">            hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.</span>
+<span class="sd">            freq_cis (chex.Array): A tensor containing frequency-domain representations of each token&#39;s context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            hidden_states: chex.Array: Represent the input to the</span>
+<span class="sd">                encoder layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency</span>
+<span class="sd">                information to the attention layer</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for certain positions</span>
+<span class="sd">            causal_mask: chex.Array: Mask the future tokens</span>
+<span class="sd">            position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">                token in the sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the self-</span>
+<span class="sd">                attention layer</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of hidden_states and attention_output</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">residual</span> <span class="o">=</span> <span class="n">hidden_states</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pre_attn_norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">hidden_states</span><span class="p">,</span> <span class="n">attention_weights</span><span class="p">,</span> <span class="n">present_key_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attn_norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">residual</span> <span class="o">+</span> <span class="n">hidden_states</span>
+
+        <span class="n">residual</span> <span class="o">=</span> <span class="n">hidden_states</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pre_moe_norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">hidden_states</span><span class="p">,</span> <span class="n">router_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">moe_block</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_moe_norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">residual</span> <span class="o">+</span> <span class="n">hidden_states</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">attention_weights</span><span class="p">,)</span>
+        <span class="k">if</span> <span class="n">output_router_logits</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">router_logits</span><span class="p">,)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayer.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a TransformerEncoderLayer.
+It takes in the following arguments:
+    hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.
+    freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Represent the input to the
+encoder layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass the frequency
+information to the attention layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for certain positions</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the future tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Indicate the position of each
+token in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the self-
+attention layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of hidden_states and attention_output</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">    It takes in the following arguments:</span>
+<span class="sd">        hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.</span>
+<span class="sd">        freq_cis (chex.Array): A tensor containing frequency-domain representations of each token&#39;s context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        hidden_states: chex.Array: Represent the input to the</span>
+<span class="sd">            encoder layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency</span>
+<span class="sd">            information to the attention layer</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for certain positions</span>
+<span class="sd">        causal_mask: chex.Array: Mask the future tokens</span>
+<span class="sd">        position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">            token in the sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the self-</span>
+<span class="sd">            attention layer</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of hidden_states and attention_output</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">residual</span> <span class="o">=</span> <span class="n">hidden_states</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pre_attn_norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="n">hidden_states</span><span class="p">,</span> <span class="n">attention_weights</span><span class="p">,</span> <span class="n">present_key_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attn_norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">residual</span> <span class="o">+</span> <span class="n">hidden_states</span>
+
+    <span class="n">residual</span> <span class="o">=</span> <span class="n">hidden_states</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pre_moe_norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="n">hidden_states</span><span class="p">,</span> <span class="n">router_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">moe_block</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_moe_norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">residual</span> <span class="o">+</span> <span class="n">hidden_states</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+    <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">attention_weights</span><span class="p">,)</span>
+    <span class="k">if</span> <span class="n">output_router_logits</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">router_logits</span><span class="p">,)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayerCollection" class="doc doc-heading">
+            <code>FlaxGrok1DecoderLayerCollection</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxGrok1DecoderLayerCollection</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Grok1Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">FlaxGrok1DecoderLayer</span><span class="p">(</span>
+                <span class="n">layer_index</span><span class="o">=</span><span class="n">layer_index</span><span class="p">,</span>
+                <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+                <span class="n">name</span><span class="o">=</span><span class="nb">str</span><span class="p">(</span><span class="n">layer_index</span><span class="p">)</span>
+            <span class="p">)</span>
+
+            <span class="k">for</span> <span class="n">layer_index</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_hidden_layers</span><span class="p">)</span>
+        <span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">        It takes in the following arguments:</span>
+<span class="sd">            hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.</span>
+<span class="sd">            freq_cis (chex.Array): A tensor containing frequency-domain representations of each token&#39;s context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            hidden_states: chex.Array: Represent the input to the</span>
+<span class="sd">                encoder layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency</span>
+<span class="sd">                information to the attention layer</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for certain positions</span>
+<span class="sd">            causal_mask: chex.Array: Mask the future tokens</span>
+<span class="sd">            position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">                token in the sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the self-</span>
+<span class="sd">                attention layer</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of hidden_states, attention_output,</span>
+<span class="sd">            all_hidden_states and all_router_logits</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="n">all_self_attns</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="n">all_router_logits</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_router_logits</span> <span class="k">else</span> <span class="kc">None</span>
+
+        <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+                <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+            <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+                <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+                <span class="n">output_router_logits</span><span class="o">=</span><span class="n">output_router_logits</span><span class="p">,</span>
+                <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+                <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+                <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+            <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+                <span class="n">all_self_attns</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],)</span>
+
+            <span class="k">if</span> <span class="n">output_router_logits</span><span class="p">:</span>
+                <span class="n">all_router_logits</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_self_attns</span><span class="p">,)</span>
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_hidden_states</span><span class="p">,)</span>
+        <span class="k">if</span> <span class="n">output_router_logits</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_router_logits</span><span class="p">,)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayerCollection.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a TransformerEncoderLayer.
+It takes in the following arguments:
+    hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.
+    freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Represent the input to the
+encoder layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass the frequency
+information to the attention layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for certain positions</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the future tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Indicate the position of each
+token in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the self-
+attention layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of hidden_states, attention_output,</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>all_hidden_states and all_router_logits</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">    It takes in the following arguments:</span>
+<span class="sd">        hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.</span>
+<span class="sd">        freq_cis (chex.Array): A tensor containing frequency-domain representations of each token&#39;s context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        hidden_states: chex.Array: Represent the input to the</span>
+<span class="sd">            encoder layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency</span>
+<span class="sd">            information to the attention layer</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for certain positions</span>
+<span class="sd">        causal_mask: chex.Array: Mask the future tokens</span>
+<span class="sd">        position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">            token in the sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the self-</span>
+<span class="sd">            attention layer</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of hidden_states, attention_output,</span>
+<span class="sd">        all_hidden_states and all_router_logits</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="n">all_self_attns</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="n">all_router_logits</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_router_logits</span> <span class="k">else</span> <span class="kc">None</span>
+
+    <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="o">=</span><span class="n">output_router_logits</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">all_self_attns</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],)</span>
+
+        <span class="k">if</span> <span class="n">output_router_logits</span><span class="p">:</span>
+            <span class="n">all_router_logits</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+    <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_self_attns</span><span class="p">,)</span>
+    <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_hidden_states</span><span class="p">,)</span>
+    <span class="k">if</span> <span class="n">output_router_logits</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_router_logits</span><span class="p">,)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1ForCausalLM" class="doc doc-heading">
+            <code>FlaxGrok1ForCausalLM</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.grok_1.modelling_grok_1_flax.Grok1PreTrainedModel" href="#src.python.easydel.modules.grok_1.modelling_grok_1_flax.Grok1PreTrainedModel">Grok1PreTrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span>
+<span class="normal">1281</span>
+<span class="normal">1282</span>
+<span class="normal">1283</span>
+<span class="normal">1284</span>
+<span class="normal">1285</span>
+<span class="normal">1286</span>
+<span class="normal">1287</span>
+<span class="normal">1288</span>
+<span class="normal">1289</span>
+<span class="normal">1290</span>
+<span class="normal">1291</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxGrok1ForCausalLM</span><span class="p">(</span><span class="n">Grok1PreTrainedModel</span><span class="p">):</span>
+    <span class="n">module_class</span> <span class="o">=</span> <span class="n">FlaxGrok1ForCausalLMModule</span>
+
+    <span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">        :param self: Access variables that belong to the class</span>
+<span class="sd">        :param input_ids: Pass in the input tokens</span>
+<span class="sd">        :param max_length: Set the length of the sequence to be generated</span>
+<span class="sd">        :param attention_mask: Optional[chex.Array]: Mask the attention weights</span>
+<span class="sd">        :return: A dictionary of the past_key_values, attention_mask and position ids</span>
+
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+            <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+                <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+            <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+            <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">update_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_outputs</span><span class="p">,</span> <span class="n">model_kwargs</span><span class="p">):</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">past_key_values</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">][:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">:]</span> <span class="o">+</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="n">model_kwargs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1ForCausalLM.prepare_inputs_for_generation" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">prepare_inputs_for_generation</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p>
+<p>:param self: Access variables that belong to the class
+:param input_ids: Pass in the input tokens
+:param max_length: Set the length of the sequence to be generated
+:param attention_mask: Optional[chex.Array]: Mask the attention weights
+:return: A dictionary of the past_key_values, attention_mask and position ids</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span>
+<span class="normal">1281</span>
+<span class="normal">1282</span>
+<span class="normal">1283</span>
+<span class="normal">1284</span>
+<span class="normal">1285</span>
+<span class="normal">1286</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">    :param self: Access variables that belong to the class</span>
+<span class="sd">    :param input_ids: Pass in the input tokens</span>
+<span class="sd">    :param max_length: Set the length of the sequence to be generated</span>
+<span class="sd">    :param attention_mask: Optional[chex.Array]: Mask the attention weights</span>
+<span class="sd">    :return: A dictionary of the past_key_values, attention_mask and position ids</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+    <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+        <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+            <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+        <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+        <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1SparseMoeBlock" class="doc doc-heading">
+            <code>FlaxGrok1SparseMoeBlock</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+      <p>This implementation is
+strictly equivalent to standard MoE with full capacity (no
+dropped tokens). It's faster since it formulates MoE operations
+in terms of block-sparse operations to accomodate imbalanced
+assignments of tokens to experts, whereas standard MoE either
+(1) drop tokens at the cost of reduced performance or (2) set
+capacity factor to number of experts and thus waste computation
+and memory on padding.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxGrok1SparseMoeBlock</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;This implementation is</span>
+<span class="sd">    strictly equivalent to standard MoE with full capacity (no</span>
+<span class="sd">    dropped tokens). It&#39;s faster since it formulates MoE operations</span>
+<span class="sd">    in terms of block-sparse operations to accomodate imbalanced</span>
+<span class="sd">    assignments of tokens to experts, whereas standard MoE either</span>
+<span class="sd">    (1) drop tokens at the cost of reduced performance or (2) set</span>
+<span class="sd">    capacity factor to number of experts and thus waste computation</span>
+<span class="sd">    and memory on padding.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Grok1Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span>
+        <span class="n">Union</span><span class="p">[</span><span class="kc">None</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span>
+    <span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_experts</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(),</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">experts</span> <span class="o">=</span> <span class="n">FlaxGrok1BlocKSparesTop2MLPCollection</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">e</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>  <span class="c1"># Ignored</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]:</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">hidden_dim</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">router_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">gate</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">promote_types</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">routing_weights</span><span class="p">,</span> <span class="n">selected_experts</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">top_k</span><span class="p">(</span>
+            <span class="n">router_logits</span><span class="p">,</span>
+            <span class="n">k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_experts_per_tok</span>
+        <span class="p">)</span>
+        <span class="n">routing_weights</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span>
+            <span class="n">routing_weights</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">promote_types</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+            <span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">experts</span><span class="p">(</span>
+            <span class="n">selected_experts</span><span class="o">=</span><span class="n">selected_experts</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span><span class="p">,</span>
+            <span class="n">hidden_dim</span><span class="o">=</span><span class="n">hidden_dim</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">routing_weights</span><span class="o">=</span><span class="n">routing_weights</span>
+        <span class="p">),</span> <span class="n">router_logits</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.Grok1PreTrainedModel" class="doc doc-heading">
+            <code>Grok1PreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 820</span>
+<span class="normal"> 821</span>
+<span class="normal"> 822</span>
+<span class="normal"> 823</span>
+<span class="normal"> 824</span>
+<span class="normal"> 825</span>
+<span class="normal"> 826</span>
+<span class="normal"> 827</span>
+<span class="normal"> 828</span>
+<span class="normal"> 829</span>
+<span class="normal"> 830</span>
+<span class="normal"> 831</span>
+<span class="normal"> 832</span>
+<span class="normal"> 833</span>
+<span class="normal"> 834</span>
+<span class="normal"> 835</span>
+<span class="normal"> 836</span>
+<span class="normal"> 837</span>
+<span class="normal"> 838</span>
+<span class="normal"> 839</span>
+<span class="normal"> 840</span>
+<span class="normal"> 841</span>
+<span class="normal"> 842</span>
+<span class="normal"> 843</span>
+<span class="normal"> 844</span>
+<span class="normal"> 845</span>
+<span class="normal"> 846</span>
+<span class="normal"> 847</span>
+<span class="normal"> 848</span>
+<span class="normal"> 849</span>
+<span class="normal"> 850</span>
+<span class="normal"> 851</span>
+<span class="normal"> 852</span>
+<span class="normal"> 853</span>
+<span class="normal"> 854</span>
+<span class="normal"> 855</span>
+<span class="normal"> 856</span>
+<span class="normal"> 857</span>
+<span class="normal"> 858</span>
+<span class="normal"> 859</span>
+<span class="normal"> 860</span>
+<span class="normal"> 861</span>
+<span class="normal"> 862</span>
+<span class="normal"> 863</span>
+<span class="normal"> 864</span>
+<span class="normal"> 865</span>
+<span class="normal"> 866</span>
+<span class="normal"> 867</span>
+<span class="normal"> 868</span>
+<span class="normal"> 869</span>
+<span class="normal"> 870</span>
+<span class="normal"> 871</span>
+<span class="normal"> 872</span>
+<span class="normal"> 873</span>
+<span class="normal"> 874</span>
+<span class="normal"> 875</span>
+<span class="normal"> 876</span>
+<span class="normal"> 877</span>
+<span class="normal"> 878</span>
+<span class="normal"> 879</span>
+<span class="normal"> 880</span>
+<span class="normal"> 881</span>
+<span class="normal"> 882</span>
+<span class="normal"> 883</span>
+<span class="normal"> 884</span>
+<span class="normal"> 885</span>
+<span class="normal"> 886</span>
+<span class="normal"> 887</span>
+<span class="normal"> 888</span>
+<span class="normal"> 889</span>
+<span class="normal"> 890</span>
+<span class="normal"> 891</span>
+<span class="normal"> 892</span>
+<span class="normal"> 893</span>
+<span class="normal"> 894</span>
+<span class="normal"> 895</span>
+<span class="normal"> 896</span>
+<span class="normal"> 897</span>
+<span class="normal"> 898</span>
+<span class="normal"> 899</span>
+<span class="normal"> 900</span>
+<span class="normal"> 901</span>
+<span class="normal"> 902</span>
+<span class="normal"> 903</span>
+<span class="normal"> 904</span>
+<span class="normal"> 905</span>
+<span class="normal"> 906</span>
+<span class="normal"> 907</span>
+<span class="normal"> 908</span>
+<span class="normal"> 909</span>
+<span class="normal"> 910</span>
+<span class="normal"> 911</span>
+<span class="normal"> 912</span>
+<span class="normal"> 913</span>
+<span class="normal"> 914</span>
+<span class="normal"> 915</span>
+<span class="normal"> 916</span>
+<span class="normal"> 917</span>
+<span class="normal"> 918</span>
+<span class="normal"> 919</span>
+<span class="normal"> 920</span>
+<span class="normal"> 921</span>
+<span class="normal"> 922</span>
+<span class="normal"> 923</span>
+<span class="normal"> 924</span>
+<span class="normal"> 925</span>
+<span class="normal"> 926</span>
+<span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">Grok1PreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span><span class="p">:</span> <span class="n">Grok1Config</span> <span class="o">=</span> <span class="n">Grok1Config</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;model&quot;</span>
+
+    <span class="c1"># main_input_name = &quot;input_ids&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">Grok1Config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span>
+                <span class="s2">&quot;fastest&quot;</span><span class="p">),</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">,</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">module</span><span class="p">,</span> <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+            <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span>
+                     <span class="n">params</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">FrozenDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+<span class="sd">        It takes in a rng, which is a random number generator key that can be used to generate random numbers.</span>
+<span class="sd">        The input_shape parameter specifies the shape of the inputs that will be fed into this model.</span>
+<span class="sd">        The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Initialize the input_ids, attention_mask</span>
+<span class="sd">                and position_ids</span>
+<span class="sd">            params: flax.core.FrozenDict: Pass in the parameters of a</span>
+<span class="sd">                pre-trained model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">True</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">input_shape</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+            <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+                <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+            <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">encoder_hidden_states</span><span class="p">,</span>
+                <span class="n">encoder_attention_mask</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It takes as input:</span>
+<span class="sd">        - The parameters of the model (self.params)</span>
+<span class="sd">        - The inputs to the model (input_ids, attention_mask, position_ids)</span>
+<span class="sd">        - Whether we are training (train=True/False) and whether we want to return all hidden states and</span>
+<span class="sd">        attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: Pass the input sequence to the model</span>
+<span class="sd">            attention_mask: Mask out the padding tokens</span>
+<span class="sd">            position_ids: Specify the position of each token in the</span>
+<span class="sd">                sequence</span>
+<span class="sd">            params: dict: Pass in the parameters of the model</span>
+<span class="sd">            past_key_values: dict: Pass the past key values to the model</span>
+<span class="sd">            dropout_rng: jax.random.PRNGKey: Pass in a random number</span>
+<span class="sd">                generator key to the model</span>
+<span class="sd">            train: bool: Determine whether to use dropout or not</span>
+<span class="sd">            output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the attention weights</span>
+<span class="sd">            output_hidden_states: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the hidden states of all layers</span>
+<span class="sd">            return_dict: Optional[bool]: Return a dictionary of the</span>
+<span class="sd">                outputs</span>
+<span class="sd">            add_params_field: bool: Add a params field to the inputs</span>
+<span class="sd">                dictionary</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (last_hidden_state, past_key_values)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rng_s</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rng_s</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>  <span class="c1"># input_ids: chex.Array</span>
+            <span class="c1"># attention_mask: Optional[chex.Array] = None</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="c1"># position_ids: Optional[chex.Array] = None</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="kc">None</span><span class="p">,</span>  <span class="c1"># inputs_embeds: Optional[chex.Array] = None</span>
+            <span class="n">output_attentions</span><span class="p">,</span>  <span class="c1"># output_attentions: Optional[bool] = None</span>
+            <span class="c1"># output_hidden_states: Optional[bool] = None</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="c1"># output_router_logits: Optional[bool] = None</span>
+            <span class="n">output_router_logits</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>  <span class="c1"># init_cache: bool = False</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>  <span class="c1"># deterministic: bool = True</span>
+            <span class="n">return_dict</span><span class="p">,</span>  <span class="c1"># return_dict: bool = True</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rng_s</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                      <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.Grok1PreTrainedModel.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">past_key_values</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dropout_rng</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It takes as input:
+- The parameters of the model (self.params)
+- The inputs to the model (input_ids, attention_mask, position_ids)
+- Whether we are training (train=True/False) and whether we want to return all hidden states and
+attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the input sequence to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>past_key_values</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass the past key values to the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dropout_rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Pass in a random number
+generator key to the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>train</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the hidden states of all layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Return a dictionary of the
+outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add a params field to the inputs
+dictionary</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of (last_hidden_state, past_key_values)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It takes as input:</span>
+<span class="sd">    - The parameters of the model (self.params)</span>
+<span class="sd">    - The inputs to the model (input_ids, attention_mask, position_ids)</span>
+<span class="sd">    - Whether we are training (train=True/False) and whether we want to return all hidden states and</span>
+<span class="sd">    attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: Pass the input sequence to the model</span>
+<span class="sd">        attention_mask: Mask out the padding tokens</span>
+<span class="sd">        position_ids: Specify the position of each token in the</span>
+<span class="sd">            sequence</span>
+<span class="sd">        params: dict: Pass in the parameters of the model</span>
+<span class="sd">        past_key_values: dict: Pass the past key values to the model</span>
+<span class="sd">        dropout_rng: jax.random.PRNGKey: Pass in a random number</span>
+<span class="sd">            generator key to the model</span>
+<span class="sd">        train: bool: Determine whether to use dropout or not</span>
+<span class="sd">        output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the attention weights</span>
+<span class="sd">        output_hidden_states: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the hidden states of all layers</span>
+<span class="sd">        return_dict: Optional[bool]: Return a dictionary of the</span>
+<span class="sd">            outputs</span>
+<span class="sd">        add_params_field: bool: Add a params field to the inputs</span>
+<span class="sd">            dictionary</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of (last_hidden_state, past_key_values)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+    <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+    <span class="p">)</span>
+    <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rng_s</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+    <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rng_s</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+        <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+        <span class="n">inputs</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>  <span class="c1"># input_ids: chex.Array</span>
+        <span class="c1"># attention_mask: Optional[chex.Array] = None</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="c1"># position_ids: Optional[chex.Array] = None</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="kc">None</span><span class="p">,</span>  <span class="c1"># inputs_embeds: Optional[chex.Array] = None</span>
+        <span class="n">output_attentions</span><span class="p">,</span>  <span class="c1"># output_attentions: Optional[bool] = None</span>
+        <span class="c1"># output_hidden_states: Optional[bool] = None</span>
+        <span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="c1"># output_router_logits: Optional[bool] = None</span>
+        <span class="n">output_router_logits</span><span class="p">,</span>
+        <span class="kc">False</span><span class="p">,</span>  <span class="c1"># init_cache: bool = False</span>
+        <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>  <span class="c1"># deterministic: bool = True</span>
+        <span class="n">return_dict</span><span class="p">,</span>  <span class="c1"># return_dict: bool = True</span>
+        <span class="n">rngs</span><span class="o">=</span><span class="n">rng_s</span><span class="p">,</span>
+        <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+    <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                  <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.grok_1.modelling_grok_1_flax.Grok1PreTrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.
+It takes in a rng, which is a random number generator key that can be used to generate random numbers.
+The input_shape parameter specifies the shape of the inputs that will be fed into this model.
+The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Initialize the input_ids, attention_mask
+and position_ids</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>flax.core.FrozenDict: Pass in the parameters of a
+pre-trained model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span>
+                 <span class="n">params</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">FrozenDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+<span class="sd">    It takes in a rng, which is a random number generator key that can be used to generate random numbers.</span>
+<span class="sd">    The input_shape parameter specifies the shape of the inputs that will be fed into this model.</span>
+<span class="sd">    The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Initialize the input_ids, attention_mask</span>
+<span class="sd">            and position_ids</span>
+<span class="sd">        params: flax.core.FrozenDict: Pass in the parameters of a</span>
+<span class="sd">            pre-trained model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">input_shape</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+        <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+            <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+        <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+    <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-jetmoe-jetmoe_configuration/index.html b/generated-modules-jetmoe-jetmoe_configuration/index.html
new file mode 100644
index 000000000..09de431b9
--- /dev/null
+++ b/generated-modules-jetmoe-jetmoe_configuration/index.html
@@ -0,0 +1,6602 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-grok_1-modelling_grok_1_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-jetmoe-modelling_jetmoe_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Jetmoe Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesjetmoejetmoe_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Jetmoe Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.jetmoe.jetmoe_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      jetmoe_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.jetmoe.jetmoe_configuration.JetMoEConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      JetMoEConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="JetMoEConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.jetmoe.jetmoe_configuration.JetMoEConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.jetmoe.jetmoe_configuration.JetMoEConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.jetmoe.jetmoe_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      jetmoe_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.jetmoe.jetmoe_configuration.JetMoEConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      JetMoEConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="JetMoEConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.jetmoe.jetmoe_configuration.JetMoEConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.jetmoe.jetmoe_configuration.JetMoEConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesjetmoejetmoe_configuration">modules.jetmoe.jetmoe_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.jetmoe.jetmoe_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.jetmoe.jetmoe_configuration.JetMoEConfig" class="doc doc-heading">
+            <code>JetMoEConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/jetmoe/jetmoe_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  6</span>
+<span class="normal">  7</span>
+<span class="normal">  8</span>
+<span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">JetMoEConfig</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;jetmoe&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">32000</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">2048</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">12</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">16</span><span class="p">,</span>
+            <span class="n">kv_channels</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span>
+            <span class="n">ffn_hidden_size</span><span class="o">=</span><span class="mi">5632</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">activation_function</span><span class="o">=</span><span class="s2">&quot;silu&quot;</span><span class="p">,</span>
+            <span class="n">glu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">moe_num_experts</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span>
+            <span class="n">moe_top_k</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span>
+            <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-6</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.01</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ffn_hidden_size</span> <span class="o">=</span> <span class="n">ffn_hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">kv_channels</span> <span class="o">=</span> <span class="n">kv_channels</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bias</span> <span class="o">=</span> <span class="n">bias</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">glu</span> <span class="o">=</span> <span class="n">glu</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">moe_num_experts</span> <span class="o">=</span> <span class="n">moe_num_experts</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">moe_top_k</span> <span class="o">=</span> <span class="n">moe_top_k</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">activation_function</span> <span class="o">=</span> <span class="n">activation_function</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="k">if</span> <span class="n">num_key_value_heads</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">            1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">                partition the model fully or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the current object</span>
+<span class="sd">            tie_word_embeddings: bool: Tie the word embeddings to the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">                used by jax</span>
+<span class="sd">            bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">                the quantization</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tie_word_embeddings</span> <span class="o">=</span> <span class="n">tie_word_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_weight_decay_exclusions</span><span class="p">():</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">rng_keys</span><span class="p">():</span>
+        <span class="k">return</span> <span class="s1">&#39;params&#39;</span><span class="p">,</span> <span class="s1">&#39;dropout&#39;</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.jetmoe.jetmoe_configuration.JetMoEConfig.add_jax_args" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_jax_args</span><span class="p">(</span><span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The add_jax_args function adds the following arguments to the Transformer class:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the current object</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tie_word_embeddings</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Tie the word embeddings to the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Control the amount of memory
+used by jax</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Determine the number of bits used in
+the quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/jetmoe/jetmoe_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">tie_word_embeddings</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the current object</span>
+<span class="sd">        tie_word_embeddings: bool: Tie the word embeddings to the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">            used by jax</span>
+<span class="sd">        bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">            the quantization</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tie_word_embeddings</span> <span class="o">=</span> <span class="n">tie_word_embeddings</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.jetmoe.jetmoe_configuration.JetMoEConfig.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+    1) A regex string that matches the name of one or more parameters in the model.
+    2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to
+partition the model fully or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/jetmoe/jetmoe_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span>
+<span class="normal">80</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">        1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">            partition the model fully or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-jetmoe-modelling_jetmoe_flax/index.html b/generated-modules-jetmoe-modelling_jetmoe_flax/index.html
new file mode 100644
index 000000000..f58ab9e37
--- /dev/null
+++ b/generated-modules-jetmoe-modelling_jetmoe_flax/index.html
@@ -0,0 +1,6108 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-jetmoe-jetmoe_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-llama-llama_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Jetmoe Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesjetmoemodelling_jetmoe_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Jetmoe Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.jetmoe.modelling_jetmoe_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_jetmoe_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.jetmoe.modelling_jetmoe_flax.compute_gating" class="md-nav__link">
+    <span class="md-ellipsis">
+      compute_gating
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.jetmoe.modelling_jetmoe_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_jetmoe_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.jetmoe.modelling_jetmoe_flax.compute_gating" class="md-nav__link">
+    <span class="md-ellipsis">
+      compute_gating
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesjetmoemodelling_jetmoe_flax">modules.jetmoe.modelling_jetmoe_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.jetmoe.modelling_jetmoe_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.jetmoe.modelling_jetmoe_flax.compute_gating" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">compute_gating</span><span class="p">(</span><span class="n">k</span><span class="p">,</span> <span class="n">num_experts</span><span class="p">,</span> <span class="n">top_k_gates</span><span class="p">,</span> <span class="n">top_k_indices</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Compute gating values for the mixture of experts based on probabilities and top-k indices.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/jetmoe/modelling_jetmoe_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">compute_gating</span><span class="p">(</span><span class="n">k</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">num_experts</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">top_k_gates</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">top_k_indices</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span>
+    <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span>
+<span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Compute gating values for the mixture of experts based on probabilities and top-k indices.&quot;&quot;&quot;</span>
+    <span class="n">zeros</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">([</span><span class="n">top_k_gates</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">num_experts</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="n">top_k_gates</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+    <span class="n">gates</span> <span class="o">=</span> <span class="n">zeros</span><span class="o">.</span><span class="n">at</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">zeros</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">])[:,</span> <span class="kc">None</span><span class="p">],</span> <span class="n">top_k_indices</span><span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+    <span class="n">expert_size</span> <span class="o">=</span> <span class="n">gates</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">int32</span><span class="p">)</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+    <span class="n">top_k_gates</span> <span class="o">=</span> <span class="n">top_k_gates</span><span class="o">.</span><span class="n">flatten</span><span class="p">()</span>
+    <span class="n">top_k_experts</span> <span class="o">=</span> <span class="n">top_k_indices</span><span class="o">.</span><span class="n">flatten</span><span class="p">()</span>
+    <span class="n">index_sorted_experts</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">argsort</span><span class="p">(</span><span class="n">top_k_experts</span><span class="p">)</span>
+    <span class="n">batch_index</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">div</span><span class="p">(</span><span class="n">index_sorted_experts</span><span class="p">,</span> <span class="n">k</span><span class="p">)</span>
+    <span class="n">batch_gates</span> <span class="o">=</span> <span class="n">top_k_gates</span><span class="p">[</span><span class="n">index_sorted_experts</span><span class="p">]</span>
+    <span class="k">return</span> <span class="n">batch_gates</span><span class="p">,</span> <span class="n">batch_index</span><span class="p">,</span> <span class="n">expert_size</span><span class="p">,</span> <span class="n">index_sorted_experts</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-llama-llama_configuration/index.html b/generated-modules-llama-llama_configuration/index.html
new file mode 100644
index 000000000..aad8b58f8
--- /dev/null
+++ b/generated-modules-llama-llama_configuration/index.html
@@ -0,0 +1,7984 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-jetmoe-modelling_jetmoe_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-llama-modelling_llama_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Llama Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesllamallama_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Llama Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.llama_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      llama_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.llama_configuration.LlamaConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      LlamaConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="LlamaConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.llama_configuration.LlamaConfig.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.llama_configuration.LlamaConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.llama_configuration.LlamaConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.llama_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      llama_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.llama_configuration.LlamaConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      LlamaConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="LlamaConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.llama_configuration.LlamaConfig.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.llama_configuration.LlamaConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.llama_configuration.LlamaConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesllamallama_configuration">modules.llama.llama_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.llama.llama_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.llama.llama_configuration.LlamaConfig" class="doc doc-heading">
+            <code>LlamaConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/llama/llama_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  8</span>
+<span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">LlamaConfig</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;llama&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32000</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4096</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">11008</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32</span><span class="p">,</span>
+            <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2048</span><span class="p">,</span>
+            <span class="n">rms_norm_eps</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1e-6</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">resid_pdrop</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">embd_pdrop</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">10000.</span><span class="p">,</span>
+            <span class="n">attention_bias</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">fcm_min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">fcm_max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">hidden_act</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;silu&#39;</span><span class="p">,</span>
+            <span class="n">pretraining_tp</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">scan_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up the attributes of an object, which are sometimes called fields or properties.</span>
+<span class="sd">        The __init__ function can accept arguments, but self must be the first one.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            vocab_size: int: Set the size of the vocabulary</span>
+<span class="sd">            hidden_size: int: Set the size of the hidden layers in each</span>
+<span class="sd">                transformer block</span>
+<span class="sd">            intermediate_size: int: Set the size of the intermediate</span>
+<span class="sd">                layer</span>
+<span class="sd">            num_hidden_layers: int: Determine the number of layers in</span>
+<span class="sd">                the transformer</span>
+<span class="sd">            num_attention_heads: int: Determine the number of attention</span>
+<span class="sd">                heads</span>
+<span class="sd">            number_rep_kv: int: Set the number of times to repeat the</span>
+<span class="sd">                key and value vectors</span>
+<span class="sd">            num_key_value_heads: Optional[int]: Define the number of</span>
+<span class="sd">                key-value heads</span>
+<span class="sd">            max_position_embeddings: int: Set the maximum length of a</span>
+<span class="sd">                sequence</span>
+<span class="sd">            rms_norm_eps: float: Prevent division by zero in the rms</span>
+<span class="sd">                normalization</span>
+<span class="sd">            initializer_range: float: Initialize the weights of the</span>
+<span class="sd">                model</span>
+<span class="sd">            use_cache: bool: Determine whether the attention layer</span>
+<span class="sd">                should use a cache for faster computation</span>
+<span class="sd">            bos_token_id: int: Set the beginning of sequence token</span>
+<span class="sd">            eos_token_id: int: Specify the end of sentence token</span>
+<span class="sd">            resid_pdrop: float: Set the dropout rate for residual</span>
+<span class="sd">                connections</span>
+<span class="sd">            embd_pdrop: float: Dropout the embedding layer</span>
+<span class="sd">            attention_dropout: float: Dropout the attention weights</span>
+<span class="sd">            tie_word_embeddings: bool: Tie the word embeddings and</span>
+<span class="sd">                output layer weights</span>
+<span class="sd">            gradient_checkpointing: str: Specify how to checkpoint the</span>
+<span class="sd">                gradients</span>
+<span class="sd">            fcm_min_ratio: float: Set the minimum ratio of the number of</span>
+<span class="sd">                elements in a tensor to be processed by flash</span>
+<span class="sd">            fcm_max_ratio: float: Determine the maximum ratio of</span>
+<span class="sd">            rope_scaling: Dict[str: Define the scaling of the rope</span>
+<span class="sd">            Union[str: Specify the type of the parameter</span>
+<span class="sd">            float]]: Specify the type of the parameter</span>
+<span class="sd">            shard_attention_computation: bool: when ever to use</span>
+<span class="sd">                shard_map for attention</span>
+<span class="sd">            bits: Optional[int]: Specify the number of bits used to</span>
+<span class="sd">                quantize the weights</span>
+<span class="sd">            rope_theta: float : rope_theta for compute rope</span>
+<span class="sd">            attention_bias: bool : whenever to use attention bias or no</span>
+<span class="sd">            hidden_act: str : hidden_act for mlp</span>
+<span class="sd">            axis_dims: Sequence[int]: Specify the dimensions of each</span>
+<span class="sd">                axis</span>
+<span class="sd">            axis_names: Sequence[str]: Specify the names of the axes in</span>
+<span class="sd">                a tensor</span>
+<span class="sd">            scan_layers: bool: Determine whether to use the scan_layers</span>
+<span class="sd">                or not</span>
+<span class="sd">            **kwargs: Pass a variable number of keyword arguments to a</span>
+<span class="sd">                function</span>
+<span class="sd">        :param : Define the number of layers in the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            Nothing</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span> <span class="ow">or</span> <span class="n">number_rep_kv</span> <span class="o">*</span> <span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">pretraining_tp</span> <span class="o">=</span> <span class="n">pretraining_tp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">resid_pdrop</span> <span class="o">=</span> <span class="n">resid_pdrop</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embd_pdrop</span> <span class="o">=</span> <span class="n">embd_pdrop</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fcm_min_ratio</span> <span class="o">=</span> <span class="n">fcm_min_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">=</span> <span class="n">fcm_max_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_layers</span> <span class="o">=</span> <span class="n">scan_layers</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+            <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">            1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">                partition the model fully or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">resid_pdrop</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">embd_pdrop</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">fcm_min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">fcm_max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">10000.</span><span class="p">,</span>
+            <span class="n">attention_bias</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">hidden_act</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;silu&#39;</span><span class="p">,</span>
+            <span class="n">scan_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the current object</span>
+<span class="sd">            resid_pdrop: float: Set the dropout rate for residual</span>
+<span class="sd">                connections</span>
+<span class="sd">            embd_pdrop: float: Set the probability of dropping an</span>
+<span class="sd">                embedding</span>
+<span class="sd">            attention_dropout: float: Set the probability of dropping</span>
+<span class="sd">                out the attention layer</span>
+<span class="sd">            tie_word_embeddings: bool: Tie the word embeddings to the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">                used by jax</span>
+<span class="sd">            fcm_min_ratio: float: Control the minimum ratio of the</span>
+<span class="sd">                number of chunks to be used in flash-based computation</span>
+<span class="sd">            fcm_max_ratio: float: Set the maximum ratio of the number of</span>
+<span class="sd">                input tokens to output tokens</span>
+<span class="sd">            number_rep_kv: int: Determine how many times the key and</span>
+<span class="sd">                value vectors are repeated</span>
+<span class="sd">            bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">                the quantization</span>
+<span class="sd">            rope_theta: float : rope_theta for compute rope</span>
+<span class="sd">            attention_bias: bool : whenever to use attention bias or no</span>
+<span class="sd">            hidden_act: str : hidden_act for mlp</span>
+<span class="sd">            scan_layers: bool: Determine whether to use scan layers or</span>
+<span class="sd">                not</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_layers</span> <span class="o">=</span> <span class="n">scan_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embd_pdrop</span> <span class="o">=</span> <span class="n">embd_pdrop</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">resid_pdrop</span> <span class="o">=</span> <span class="n">resid_pdrop</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tie_word_embeddings</span> <span class="o">=</span> <span class="n">tie_word_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fcm_min_ratio</span> <span class="o">=</span> <span class="n">fcm_min_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">=</span> <span class="n">fcm_max_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_weight_decay_exclusions</span><span class="p">():</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">rng_keys</span><span class="p">():</span>
+        <span class="k">return</span> <span class="s1">&#39;params&#39;</span><span class="p">,</span> <span class="s1">&#39;dropout&#39;</span><span class="p">,</span> <span class="s1">&#39;fcm&#39;</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.llama_configuration.LlamaConfig.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">vocab_size</span><span class="o">=</span><span class="mi">32000</span><span class="p">,</span> <span class="n">hidden_size</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span> <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">11008</span><span class="p">,</span> <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span> <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span> <span class="n">number_rep_kv</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">num_key_value_heads</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">2048</span><span class="p">,</span> <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-06</span><span class="p">,</span> <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span> <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">resid_pdrop</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">embd_pdrop</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span> <span class="n">attention_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">fcm_min_ratio</span><span class="o">=-</span><span class="mi">1</span><span class="p">,</span> <span class="n">fcm_max_ratio</span><span class="o">=-</span><span class="mi">1</span><span class="p">,</span> <span class="n">rope_scaling</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="mi">1024</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">hidden_act</span><span class="o">=</span><span class="s1">&#39;silu&#39;</span><span class="p">,</span> <span class="n">pretraining_tp</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">scan_layers</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up the attributes of an object, which are sometimes called fields or properties.
+The <strong>init</strong> function can accept arguments, but self must be the first one.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>vocab_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the size of the vocabulary</p>
+              </div>
+            </td>
+            <td>
+                  <code>32000</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the size of the hidden layers in each
+transformer block</p>
+              </div>
+            </td>
+            <td>
+                  <code>4096</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>intermediate_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the size of the intermediate
+layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>11008</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_hidden_layers</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Determine the number of layers in
+the transformer</p>
+              </div>
+            </td>
+            <td>
+                  <code>32</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_attention_heads</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Determine the number of attention
+heads</p>
+              </div>
+            </td>
+            <td>
+                  <code>32</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>number_rep_kv</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the number of times to repeat the
+key and value vectors</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_key_value_heads</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Define the number of
+key-value heads</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_position_embeddings</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the maximum length of a
+sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>2048</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rms_norm_eps</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Prevent division by zero in the rms
+normalization</p>
+              </div>
+            </td>
+            <td>
+                  <code>1e-06</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>initializer_range</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Initialize the weights of the
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.02</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether the attention layer
+should use a cache for faster computation</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bos_token_id</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the beginning of sequence token</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>eos_token_id</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Specify the end of sentence token</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>resid_pdrop</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the dropout rate for residual
+connections</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>embd_pdrop</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Dropout the embedding layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_dropout</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Dropout the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tie_word_embeddings</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Tie the word embeddings and
+output layer weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Specify how to checkpoint the
+gradients</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_min_ratio</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the minimum ratio of the number of
+elements in a tensor to be processed by flash</p>
+              </div>
+            </td>
+            <td>
+                  <code>-1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_max_ratio</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Determine the maximum ratio of</p>
+              </div>
+            </td>
+            <td>
+                  <code>-1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rope_scaling</code></td>
+            <td>
+                  <code><span title="typing.Dict">Dict</span>[str, <span title="typing.Union">Union</span>[str, float]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Dict[str: Define the scaling of the rope</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>Union[str</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the type of the parameter</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>float]]</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the type of the parameter</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>shard_attention_computation</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: when ever to use
+shard_map for attention</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Specify the number of bits used to
+quantize the weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rope_theta</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float : rope_theta for compute rope</p>
+              </div>
+            </td>
+            <td>
+                  <code>10000.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_bias</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool : whenever to use attention bias or no</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_act</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str : hidden_act for mlp</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;silu&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_dims</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[int]: Specify the dimensions of each
+axis</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_names</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[str]: Specify the names of the axes in
+a tensor</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_layers</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use the scan_layers
+or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass a variable number of keyword arguments to a
+function</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Define the number of layers in the model</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Nothing</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/llama_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">vocab_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32000</span><span class="p">,</span>
+        <span class="n">hidden_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4096</span><span class="p">,</span>
+        <span class="n">intermediate_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">11008</span><span class="p">,</span>
+        <span class="n">num_hidden_layers</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32</span><span class="p">,</span>
+        <span class="n">num_attention_heads</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32</span><span class="p">,</span>
+        <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">num_key_value_heads</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">max_position_embeddings</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2048</span><span class="p">,</span>
+        <span class="n">rms_norm_eps</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1e-6</span><span class="p">,</span>
+        <span class="n">initializer_range</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.02</span><span class="p">,</span>
+        <span class="n">use_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">bos_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">eos_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">resid_pdrop</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">embd_pdrop</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">attention_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">rope_theta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">10000.</span><span class="p">,</span>
+        <span class="n">attention_bias</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">tie_word_embeddings</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">fcm_min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span>
+        <span class="n">fcm_max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span>
+        <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">hidden_act</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;silu&#39;</span><span class="p">,</span>
+        <span class="n">pretraining_tp</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">scan_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up the attributes of an object, which are sometimes called fields or properties.</span>
+<span class="sd">    The __init__ function can accept arguments, but self must be the first one.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        vocab_size: int: Set the size of the vocabulary</span>
+<span class="sd">        hidden_size: int: Set the size of the hidden layers in each</span>
+<span class="sd">            transformer block</span>
+<span class="sd">        intermediate_size: int: Set the size of the intermediate</span>
+<span class="sd">            layer</span>
+<span class="sd">        num_hidden_layers: int: Determine the number of layers in</span>
+<span class="sd">            the transformer</span>
+<span class="sd">        num_attention_heads: int: Determine the number of attention</span>
+<span class="sd">            heads</span>
+<span class="sd">        number_rep_kv: int: Set the number of times to repeat the</span>
+<span class="sd">            key and value vectors</span>
+<span class="sd">        num_key_value_heads: Optional[int]: Define the number of</span>
+<span class="sd">            key-value heads</span>
+<span class="sd">        max_position_embeddings: int: Set the maximum length of a</span>
+<span class="sd">            sequence</span>
+<span class="sd">        rms_norm_eps: float: Prevent division by zero in the rms</span>
+<span class="sd">            normalization</span>
+<span class="sd">        initializer_range: float: Initialize the weights of the</span>
+<span class="sd">            model</span>
+<span class="sd">        use_cache: bool: Determine whether the attention layer</span>
+<span class="sd">            should use a cache for faster computation</span>
+<span class="sd">        bos_token_id: int: Set the beginning of sequence token</span>
+<span class="sd">        eos_token_id: int: Specify the end of sentence token</span>
+<span class="sd">        resid_pdrop: float: Set the dropout rate for residual</span>
+<span class="sd">            connections</span>
+<span class="sd">        embd_pdrop: float: Dropout the embedding layer</span>
+<span class="sd">        attention_dropout: float: Dropout the attention weights</span>
+<span class="sd">        tie_word_embeddings: bool: Tie the word embeddings and</span>
+<span class="sd">            output layer weights</span>
+<span class="sd">        gradient_checkpointing: str: Specify how to checkpoint the</span>
+<span class="sd">            gradients</span>
+<span class="sd">        fcm_min_ratio: float: Set the minimum ratio of the number of</span>
+<span class="sd">            elements in a tensor to be processed by flash</span>
+<span class="sd">        fcm_max_ratio: float: Determine the maximum ratio of</span>
+<span class="sd">        rope_scaling: Dict[str: Define the scaling of the rope</span>
+<span class="sd">        Union[str: Specify the type of the parameter</span>
+<span class="sd">        float]]: Specify the type of the parameter</span>
+<span class="sd">        shard_attention_computation: bool: when ever to use</span>
+<span class="sd">            shard_map for attention</span>
+<span class="sd">        bits: Optional[int]: Specify the number of bits used to</span>
+<span class="sd">            quantize the weights</span>
+<span class="sd">        rope_theta: float : rope_theta for compute rope</span>
+<span class="sd">        attention_bias: bool : whenever to use attention bias or no</span>
+<span class="sd">        hidden_act: str : hidden_act for mlp</span>
+<span class="sd">        axis_dims: Sequence[int]: Specify the dimensions of each</span>
+<span class="sd">            axis</span>
+<span class="sd">        axis_names: Sequence[str]: Specify the names of the axes in</span>
+<span class="sd">            a tensor</span>
+<span class="sd">        scan_layers: bool: Determine whether to use the scan_layers</span>
+<span class="sd">            or not</span>
+<span class="sd">        **kwargs: Pass a variable number of keyword arguments to a</span>
+<span class="sd">            function</span>
+<span class="sd">    :param : Define the number of layers in the model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        Nothing</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span> <span class="ow">or</span> <span class="n">number_rep_kv</span> <span class="o">*</span> <span class="n">num_attention_heads</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">pretraining_tp</span> <span class="o">=</span> <span class="n">pretraining_tp</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">resid_pdrop</span> <span class="o">=</span> <span class="n">resid_pdrop</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">embd_pdrop</span> <span class="o">=</span> <span class="n">embd_pdrop</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">fcm_min_ratio</span> <span class="o">=</span> <span class="n">fcm_min_ratio</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">=</span> <span class="n">fcm_max_ratio</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_layers</span> <span class="o">=</span> <span class="n">scan_layers</span>
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+        <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+        <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+        <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.llama_configuration.LlamaConfig.add_jax_args" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_jax_args</span><span class="p">(</span><span class="n">resid_pdrop</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">embd_pdrop</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">fcm_min_ratio</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">fcm_max_ratio</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">number_rep_kv</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span> <span class="n">attention_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">hidden_act</span><span class="o">=</span><span class="s1">&#39;silu&#39;</span><span class="p">,</span> <span class="n">scan_layers</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The add_jax_args function adds the following arguments to the Transformer class:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the current object</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>resid_pdrop</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the dropout rate for residual
+connections</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>embd_pdrop</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the probability of dropping an
+embedding</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_dropout</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the probability of dropping
+out the attention layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tie_word_embeddings</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Tie the word embeddings to the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Control the amount of memory
+used by jax</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_min_ratio</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Control the minimum ratio of the
+number of chunks to be used in flash-based computation</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_max_ratio</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the maximum ratio of the number of
+input tokens to output tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>number_rep_kv</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Determine how many times the key and
+value vectors are repeated</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Determine the number of bits used in
+the quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rope_theta</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float : rope_theta for compute rope</p>
+              </div>
+            </td>
+            <td>
+                  <code>10000.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_bias</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool : whenever to use attention bias or no</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_act</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str : hidden_act for mlp</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;silu&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_layers</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use scan layers or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/llama_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">resid_pdrop</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">embd_pdrop</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">attention_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">tie_word_embeddings</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">fcm_min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">fcm_max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">rope_theta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">10000.</span><span class="p">,</span>
+        <span class="n">attention_bias</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">hidden_act</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;silu&#39;</span><span class="p">,</span>
+        <span class="n">scan_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the current object</span>
+<span class="sd">        resid_pdrop: float: Set the dropout rate for residual</span>
+<span class="sd">            connections</span>
+<span class="sd">        embd_pdrop: float: Set the probability of dropping an</span>
+<span class="sd">            embedding</span>
+<span class="sd">        attention_dropout: float: Set the probability of dropping</span>
+<span class="sd">            out the attention layer</span>
+<span class="sd">        tie_word_embeddings: bool: Tie the word embeddings to the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">            used by jax</span>
+<span class="sd">        fcm_min_ratio: float: Control the minimum ratio of the</span>
+<span class="sd">            number of chunks to be used in flash-based computation</span>
+<span class="sd">        fcm_max_ratio: float: Set the maximum ratio of the number of</span>
+<span class="sd">            input tokens to output tokens</span>
+<span class="sd">        number_rep_kv: int: Determine how many times the key and</span>
+<span class="sd">            value vectors are repeated</span>
+<span class="sd">        bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">            the quantization</span>
+<span class="sd">        rope_theta: float : rope_theta for compute rope</span>
+<span class="sd">        attention_bias: bool : whenever to use attention bias or no</span>
+<span class="sd">        hidden_act: str : hidden_act for mlp</span>
+<span class="sd">        scan_layers: bool: Determine whether to use scan layers or</span>
+<span class="sd">            not</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_layers</span> <span class="o">=</span> <span class="n">scan_layers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">embd_pdrop</span> <span class="o">=</span> <span class="n">embd_pdrop</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">resid_pdrop</span> <span class="o">=</span> <span class="n">resid_pdrop</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tie_word_embeddings</span> <span class="o">=</span> <span class="n">tie_word_embeddings</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">fcm_min_ratio</span> <span class="o">=</span> <span class="n">fcm_min_ratio</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">=</span> <span class="n">fcm_max_ratio</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.llama_configuration.LlamaConfig.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+    1) A regex string that matches the name of one or more parameters in the model.
+    2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to
+partition the model fully or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/llama_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">        1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">            partition the model fully or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-llama-modelling_llama_flax/index.html b/generated-modules-llama-modelling_llama_flax/index.html
new file mode 100644
index 000000000..32dcf4b21
--- /dev/null
+++ b/generated-modules-llama-modelling_llama_flax/index.html
@@ -0,0 +1,13435 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-llama-llama_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-llama-modelling_vision_llama_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Llama Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesllamamodelling_llama_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Llama Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_llama_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlock" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaBlock
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaBlock">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlock.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlockCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaBlockCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaBlockCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlockCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForSequenceClassificationModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaForSequenceClassificationModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaForSequenceClassificationModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForSequenceClassificationModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForSequenceClassificationModule.setup" class="md-nav__link">
+    <span class="md-ellipsis">
+      setup
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaMLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaMLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaMLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaMLP.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaPreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaPreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.init_cache" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_cache
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_llama_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlock" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaBlock
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaBlock">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlock.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlockCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaBlockCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaBlockCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlockCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForSequenceClassificationModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaForSequenceClassificationModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaForSequenceClassificationModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForSequenceClassificationModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForSequenceClassificationModule.setup" class="md-nav__link">
+    <span class="md-ellipsis">
+      setup
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaMLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaMLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaMLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaMLP.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxLlamaPreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxLlamaPreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.init_cache" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_cache
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesllamamodelling_llama_flax">modules.llama.modelling_llama_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.llama.modelling_llama_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaAttention" class="doc doc-heading">
+            <code>FlaxLlamaAttention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxLlamaAttention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">LlamaConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span> <span class="o">=</span> <span class="n">FlaxLlamaEmbedding</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">use_sharding_constraint</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">rate</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">resid_pdrop</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _transpose_sequence_head function transposes the query, key and value matrices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            query: Get the attention weights for each of the heads</span>
+<span class="sd">            key: Determine the number of heads</span>
+<span class="sd">            value: Store the values of the input</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The transpose of the query, key and value matrices</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">            sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">            query: Calculate the attention weights</span>
+<span class="sd">            key: Calculate the attention</span>
+<span class="sd">            value: Compute the attention weights</span>
+<span class="sd">            freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">                vocabulary</span>
+<span class="sd">            position_ids: Identify the position of each token in the</span>
+<span class="sd">                sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 tensors: query, key and value</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">        and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency coefficients for each position</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+<span class="sd">            fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">                and output tokens</span>
+<span class="sd">        :param : Determine if the attention is causal or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two arrays</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="p">(</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span>
+        <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+        <span class="p">)</span>
+
+        <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span>
+                <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+
+        <span class="c1"># if self.config.use_sharding_constraint:</span>
+        <span class="c1">#     query_states = with_sharding_constraint(</span>
+        <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     key_states = with_sharding_constraint(</span>
+        <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     value_states = with_sharding_constraint(</span>
+        <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span><span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span><span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaAttention.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module. It defines how the module behaves when called
+with inputs. The <strong>call</strong> function can be thought of as a &quot;forward pass&quot; through the model,
+and it should return all outputs that are needed for training or inference.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the hidden states of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency coefficients for each position</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the future tokens in the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the attention weights between the input
+and output tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine if the attention is causal or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two arrays</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">    and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency coefficients for each position</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+<span class="sd">        fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">            and output tokens</span>
+<span class="sd">    :param : Determine if the attention is causal or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two arrays</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+    <span class="p">(</span>
+        <span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span>
+    <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+        <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+    <span class="p">)</span>
+
+    <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">)</span>
+
+    <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+        <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+        <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+        <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+    <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+        <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+        <span class="p">)</span>
+
+    <span class="c1"># if self.config.use_sharding_constraint:</span>
+    <span class="c1">#     query_states = with_sharding_constraint(</span>
+    <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     key_states = with_sharding_constraint(</span>
+    <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     value_states = with_sharding_constraint(</span>
+    <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+        <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+        <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+        <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+    <span class="p">)</span>
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                <span class="s2">&quot;tp&quot;</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span><span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span><span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaAttention.apply_rotary" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rotary</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class.
+The main difference is that it takes in an additional argument, freq_cis, which are used to calculate
+the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sequence_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Compute the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the frequency of each word in the
+vocabulary</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Identify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 tensors: query, key and value</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">        sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">        query: Calculate the attention weights</span>
+<span class="sd">        key: Calculate the attention</span>
+<span class="sd">        value: Compute the attention weights</span>
+<span class="sd">        freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">            vocabulary</span>
+<span class="sd">        position_ids: Identify the position of each token in the</span>
+<span class="sd">            sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 tensors: query, key and value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlock" class="doc doc-heading">
+            <code>FlaxLlamaBlock</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxLlamaBlock</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">LlamaConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attn_block</span> <span class="o">=</span> <span class="n">FlaxLlamaAttention</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">attn_block</span> <span class="o">=</span> <span class="n">nn_partitioning</span><span class="o">.</span><span class="n">remat</span><span class="p">(</span>
+                <span class="n">FlaxLlamaAttention</span><span class="p">,</span> <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">6</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">8</span><span class="p">),</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="p">)</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span> <span class="o">=</span> <span class="n">attn_block</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">FlaxLlamaMLP</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">nn_partitioning</span><span class="o">.</span><span class="n">remat</span><span class="p">(</span>
+                <span class="n">FlaxLlamaMLP</span><span class="p">,</span> <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,),</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span> <span class="o">=</span> <span class="n">mlp_block</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span> <span class="o">=</span> <span class="n">RMSNorm</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span> <span class="o">=</span> <span class="n">RMSNorm</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">        It takes in hidden states, frequency-domain inputs, and masks as input. It then</span>
+<span class="sd">        applies self-attention to the hidden states using those inputs and returns an</span>
+<span class="sd">        output tensor with shape (batch_size, sequence_length, model_dim).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the class instance itself</span>
+<span class="sd">            hidden_states: chex.Array: Pass in the hidden state of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency information</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in the sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">            deterministic: bool: Control whether the dropout is applied</span>
+<span class="sd">                or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache in the attention</span>
+<span class="sd">                layer</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            fcm_mask: Optional[jnp.ndarray]: Mask the self-attention</span>
+<span class="sd">        :param : Control the dropout in the self attention layer</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two items</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">attn_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span>
+            <span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">attn_output</span>
+
+        <span class="n">feed_forward_input</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_scan_mlp</span><span class="p">:</span>
+            <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="n">block_wise_ffn</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">,</span>
+                <span class="n">feed_forward_input</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">(</span>
+                <span class="n">feed_forward_input</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="p">,</span>
+            <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">feed_forward_hidden_states</span>
+
+        <span class="k">return</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlock.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a TransformerEncoderLayer.
+It takes in hidden states, frequency-domain inputs, and masks as input. It then
+applies self-attention to the hidden states using those inputs and returns an
+output tensor with shape (batch_size, sequence_length, model_dim).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the class instance itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the hidden state of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency information</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for padding tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the dropout is applied
+or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache in the attention
+layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="jax.numpy.ndarray">ndarray</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[jnp.ndarray]: Mask the self-attention</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Control the dropout in the self attention layer</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two items</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">    It takes in hidden states, frequency-domain inputs, and masks as input. It then</span>
+<span class="sd">    applies self-attention to the hidden states using those inputs and returns an</span>
+<span class="sd">    output tensor with shape (batch_size, sequence_length, model_dim).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the class instance itself</span>
+<span class="sd">        hidden_states: chex.Array: Pass in the hidden state of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency information</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in the sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">        deterministic: bool: Control whether the dropout is applied</span>
+<span class="sd">            or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache in the attention</span>
+<span class="sd">            layer</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        fcm_mask: Optional[jnp.ndarray]: Mask the self-attention</span>
+<span class="sd">    :param : Control the dropout in the self attention layer</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two items</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">attn_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span>
+        <span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">attn_output</span>
+
+    <span class="n">feed_forward_input</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_scan_mlp</span><span class="p">:</span>
+        <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="n">block_wise_ffn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">,</span>
+            <span class="n">feed_forward_input</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">(</span>
+            <span class="n">feed_forward_input</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">feed_forward_hidden_states</span>
+
+    <span class="k">return</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlockCollection" class="doc doc-heading">
+            <code>FlaxLlamaBlockCollection</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxLlamaBlockCollection</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">LlamaConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">FlaxLlamaBlock</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">name</span><span class="o">=</span><span class="nb">str</span><span class="p">(</span><span class="n">i</span><span class="p">),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+            <span class="p">)</span>
+            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_hidden_layers</span><span class="p">)</span>
+        <span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX nn.Module.</span>
+<span class="sd">        It defines how the module behaves when called as a function, and it&#39;s what you&#39;ll use to call your model</span>
+<span class="sd">         in training loops or inference scripts.</span>
+<span class="sd">        The __call__ method should take all inputs that are necessary for computing outputs from the module,</span>
+<span class="sd">        and return all outputs that are computed by this module.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the input tensor to the</span>
+<span class="sd">                encoder</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency of each token</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">            deterministic: bool: Determine whether the model is in</span>
+<span class="sd">                training or evaluation mode</span>
+<span class="sd">            init_cache: bool: Initialize the cache for each layer</span>
+<span class="sd">            output_attentions: bool: Determine whether to output the</span>
+<span class="sd">                attention weights</span>
+<span class="sd">            output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">                hidden states of each layer</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs</span>
+<span class="sd">        :param : Determine whether to use the forgetful causal mask</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 values</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">all_attentions</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="c1"># Apply forgetful causal mask</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">fcm_ratio</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span> <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+                <span class="n">minval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_min_ratio</span><span class="p">,</span>
+                <span class="n">maxval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span>
+            <span class="p">)</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span>
+                <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span> <span class="o">&gt;</span> <span class="n">fcm_ratio</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:,</span> <span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s1">&#39;bool&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+                <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+
+            <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+                <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+                <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+                <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+                <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+                <span class="n">fcm_mask</span><span class="o">=</span><span class="n">fcm_mask</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+            <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+                <span class="n">all_attentions</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">,</span> <span class="n">all_attentions</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlockCollection.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX nn.Module.
+It defines how the module behaves when called as a function, and it's what you'll use to call your model
+ in training loops or inference scripts.
+The <strong>call</strong> method should take all inputs that are necessary for computing outputs from the module,
+and return all outputs that are computed by this module.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input tensor to the
+encoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency of each token</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether the model is in
+training or evaluation mode</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for each layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to output the
+attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+hidden states of each layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine whether to use the forgetful causal mask</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 values</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX nn.Module.</span>
+<span class="sd">    It defines how the module behaves when called as a function, and it&#39;s what you&#39;ll use to call your model</span>
+<span class="sd">     in training loops or inference scripts.</span>
+<span class="sd">    The __call__ method should take all inputs that are necessary for computing outputs from the module,</span>
+<span class="sd">    and return all outputs that are computed by this module.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the input tensor to the</span>
+<span class="sd">            encoder</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency of each token</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">        deterministic: bool: Determine whether the model is in</span>
+<span class="sd">            training or evaluation mode</span>
+<span class="sd">        init_cache: bool: Initialize the cache for each layer</span>
+<span class="sd">        output_attentions: bool: Determine whether to output the</span>
+<span class="sd">            attention weights</span>
+<span class="sd">        output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">            hidden states of each layer</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs</span>
+<span class="sd">    :param : Determine whether to use the forgetful causal mask</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 values</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">all_attentions</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="c1"># Apply forgetful causal mask</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">fcm_ratio</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span> <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">minval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_min_ratio</span><span class="p">,</span>
+            <span class="n">maxval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span>
+        <span class="p">)</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span>
+            <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span> <span class="o">&gt;</span> <span class="n">fcm_ratio</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:,</span> <span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="kc">True</span><span class="p">)</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s1">&#39;bool&#39;</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+
+        <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="n">fcm_mask</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">all_attentions</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">,</span> <span class="n">all_attentions</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLM" class="doc doc-heading">
+            <code>FlaxLlamaForCausalLM</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel" href="#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel">FlaxLlamaPreTrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1154</span>
+<span class="normal">1155</span>
+<span class="normal">1156</span>
+<span class="normal">1157</span>
+<span class="normal">1158</span>
+<span class="normal">1159</span>
+<span class="normal">1160</span>
+<span class="normal">1161</span>
+<span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span>
+<span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span>
+<span class="normal">1204</span>
+<span class="normal">1205</span>
+<span class="normal">1206</span>
+<span class="normal">1207</span>
+<span class="normal">1208</span>
+<span class="normal">1209</span>
+<span class="normal">1210</span>
+<span class="normal">1211</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxLlamaForCausalLM</span><span class="p">(</span><span class="n">FlaxLlamaPreTrainedModel</span><span class="p">):</span>
+    <span class="n">module_class</span> <span class="o">=</span> <span class="n">FlaxLlamaForCausalLMModule</span>
+
+    <span class="k">def</span> <span class="nf">set_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">embed_tokens</span> <span class="o">=</span> <span class="n">value</span>
+
+    <span class="k">def</span> <span class="nf">get_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">embed_tokens</span>
+
+    <span class="k">def</span> <span class="nf">set_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">decoder</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">decoder</span>
+
+    <span class="k">def</span> <span class="nf">get_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span>
+
+    <span class="k">def</span> <span class="nf">get_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">lm_head</span>
+
+    <span class="k">def</span> <span class="nf">set_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">new_embeddings</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">lm_head</span> <span class="o">=</span> <span class="n">new_embeddings</span>
+
+    <span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            input_ids: Pass in the input tokens</span>
+<span class="sd">            max_length: Set the length of the sequence to be generated</span>
+<span class="sd">            attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">                weights</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">            position ids</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+            <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+                <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+            <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+            <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">update_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_outputs</span><span class="p">,</span> <span class="n">model_kwargs</span><span class="p">):</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">past_key_values</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">][:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">:]</span> <span class="o">+</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="n">model_kwargs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLM.prepare_inputs_for_generation" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">prepare_inputs_for_generation</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the length of the sequence to be generated</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[chex.Array]: Mask the attention
+weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of the past_key_values, attention_mask and</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>position ids</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span>
+<span class="normal">1204</span>
+<span class="normal">1205</span>
+<span class="normal">1206</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        input_ids: Pass in the input tokens</span>
+<span class="sd">        max_length: Set the length of the sequence to be generated</span>
+<span class="sd">        attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">            weights</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">        position ids</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+    <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+        <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+            <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+        <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+        <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLMModule" class="doc doc-heading">
+            <code>FlaxLlamaForCausalLMModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span>
+<span class="normal">1065</span>
+<span class="normal">1066</span>
+<span class="normal">1067</span>
+<span class="normal">1068</span>
+<span class="normal">1069</span>
+<span class="normal">1070</span>
+<span class="normal">1071</span>
+<span class="normal">1072</span>
+<span class="normal">1073</span>
+<span class="normal">1074</span>
+<span class="normal">1075</span>
+<span class="normal">1076</span>
+<span class="normal">1077</span>
+<span class="normal">1078</span>
+<span class="normal">1079</span>
+<span class="normal">1080</span>
+<span class="normal">1081</span>
+<span class="normal">1082</span>
+<span class="normal">1083</span>
+<span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span>
+<span class="normal">1119</span>
+<span class="normal">1120</span>
+<span class="normal">1121</span>
+<span class="normal">1122</span>
+<span class="normal">1123</span>
+<span class="normal">1124</span>
+<span class="normal">1125</span>
+<span class="normal">1126</span>
+<span class="normal">1127</span>
+<span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span>
+<span class="normal">1149</span>
+<span class="normal">1150</span>
+<span class="normal">1151</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxLlamaForCausalLMModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">LlamaConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">FlaxLlamaModule</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            input_ids: chex.Array: Pass the input token ids to the model</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in the input sequence</span>
+<span class="sd">            deterministic: bool: Control whether the model is trained or</span>
+<span class="sd">                not</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">                hidden states</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">                embedding of the word that we want to predict</span>
+<span class="sd">            None]]: Pass in the extra embedding</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The logits and the hidden states</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">tie_word_embeddings</span><span class="p">:</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+            <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+                <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="n">lm_logits</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">(</span><span class="n">lm_logits</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">FlaxCausalLMOutput</span><span class="p">(</span><span class="n">logits</span><span class="o">=</span><span class="n">lm_logits</span><span class="p">,</span> <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLMModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax module. It takes in inputs and returns outputs.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input token ids to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in the input sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the model is trained or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+hidden states</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray: Pass in the
+embedding of the word that we want to predict</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>None]]</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the extra embedding</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The logits and the hidden states</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1082</span>
+<span class="normal">1083</span>
+<span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span>
+<span class="normal">1119</span>
+<span class="normal">1120</span>
+<span class="normal">1121</span>
+<span class="normal">1122</span>
+<span class="normal">1123</span>
+<span class="normal">1124</span>
+<span class="normal">1125</span>
+<span class="normal">1126</span>
+<span class="normal">1127</span>
+<span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span>
+<span class="normal">1149</span>
+<span class="normal">1150</span>
+<span class="normal">1151</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        input_ids: chex.Array: Pass the input token ids to the model</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in the input sequence</span>
+<span class="sd">        deterministic: bool: Control whether the model is trained or</span>
+<span class="sd">            not</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">            hidden states</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">            embedding of the word that we want to predict</span>
+<span class="sd">        None]]: Pass in the extra embedding</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The logits and the hidden states</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+        <span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">tie_word_embeddings</span><span class="p">:</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">lm_logits</span> <span class="o">=</span> <span class="n">lm_logits</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">lm_logits</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">FlaxCausalLMOutput</span><span class="p">(</span><span class="n">logits</span><span class="o">=</span><span class="n">lm_logits</span><span class="p">,</span> <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForSequenceClassificationModule" class="doc doc-heading">
+            <code>FlaxLlamaForSequenceClassificationModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1214</span>
+<span class="normal">1215</span>
+<span class="normal">1216</span>
+<span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span>
+<span class="normal">1220</span>
+<span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span>
+<span class="normal">1230</span>
+<span class="normal">1231</span>
+<span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span>
+<span class="normal">1241</span>
+<span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span>
+<span class="normal">1281</span>
+<span class="normal">1282</span>
+<span class="normal">1283</span>
+<span class="normal">1284</span>
+<span class="normal">1285</span>
+<span class="normal">1286</span>
+<span class="normal">1287</span>
+<span class="normal">1288</span>
+<span class="normal">1289</span>
+<span class="normal">1290</span>
+<span class="normal">1291</span>
+<span class="normal">1292</span>
+<span class="normal">1293</span>
+<span class="normal">1294</span>
+<span class="normal">1295</span>
+<span class="normal">1296</span>
+<span class="normal">1297</span>
+<span class="normal">1298</span>
+<span class="normal">1299</span>
+<span class="normal">1300</span>
+<span class="normal">1301</span>
+<span class="normal">1302</span>
+<span class="normal">1303</span>
+<span class="normal">1304</span>
+<span class="normal">1305</span>
+<span class="normal">1306</span>
+<span class="normal">1307</span>
+<span class="normal">1308</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxLlamaForSequenceClassificationModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">num_classes</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">LlamaConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The setup function is called once at the beginning of training.</span>
+<span class="sd">        It initializes the model and optimizer, and sets up any other state that needs to be initialized.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the model and the classifier</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">FlaxLlamaModule</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_classes</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module.</span>
+<span class="sd">        It takes in all the inputs to the model and returns all outputs from it.</span>
+<span class="sd">        The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:</span>
+<span class="sd">            &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class</span>
+<span class="sd">            &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the class instance</span>
+<span class="sd">            input_ids: chex.Array: Pass the input to the model</span>
+<span class="sd">            attention_mask: chex.Array: Specify which tokens are masked</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in the sequence</span>
+<span class="sd">            deterministic: bool: Control whether the model is run in</span>
+<span class="sd">                deterministic or stochastic mode</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the transformer</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            output_hidden_states: bool: Return the hidden states of all</span>
+<span class="sd">                layers</span>
+<span class="sd">            return_dict: bool: Return a dictionary of outputs</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">                embedding of a new word</span>
+<span class="sd">            None]]: Pass the extra embedding to the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of logits and hidden_states</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">prediction</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">FlaxSequenceClassifierOutput</span><span class="p">(</span>
+                <span class="n">logits</span><span class="o">=</span><span class="n">prediction</span><span class="p">,</span>
+                <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">prediction</span><span class="p">,</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForSequenceClassificationModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax module.
+It takes in all the inputs to the model and returns all outputs from it.
+The <strong>call</strong> function can be called directly on an instance of a class, or by using parentheses after an instance:
+    &gt;&gt;&gt; my_model = MyModel()  # instantiate your model class
+    &gt;&gt;&gt; output = my_model(input)  # call your model with input data as arguments to <strong>call</strong></p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the class instance</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify which tokens are masked</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in the sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the model is run in
+deterministic or stochastic mode</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the transformer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the hidden states of all
+layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray: Pass in the
+embedding of a new word</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>None]]</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the extra embedding to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of logits and hidden_states</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span>
+<span class="normal">1281</span>
+<span class="normal">1282</span>
+<span class="normal">1283</span>
+<span class="normal">1284</span>
+<span class="normal">1285</span>
+<span class="normal">1286</span>
+<span class="normal">1287</span>
+<span class="normal">1288</span>
+<span class="normal">1289</span>
+<span class="normal">1290</span>
+<span class="normal">1291</span>
+<span class="normal">1292</span>
+<span class="normal">1293</span>
+<span class="normal">1294</span>
+<span class="normal">1295</span>
+<span class="normal">1296</span>
+<span class="normal">1297</span>
+<span class="normal">1298</span>
+<span class="normal">1299</span>
+<span class="normal">1300</span>
+<span class="normal">1301</span>
+<span class="normal">1302</span>
+<span class="normal">1303</span>
+<span class="normal">1304</span>
+<span class="normal">1305</span>
+<span class="normal">1306</span>
+<span class="normal">1307</span>
+<span class="normal">1308</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module.</span>
+<span class="sd">    It takes in all the inputs to the model and returns all outputs from it.</span>
+<span class="sd">    The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:</span>
+<span class="sd">        &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class</span>
+<span class="sd">        &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the class instance</span>
+<span class="sd">        input_ids: chex.Array: Pass the input to the model</span>
+<span class="sd">        attention_mask: chex.Array: Specify which tokens are masked</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in the sequence</span>
+<span class="sd">        deterministic: bool: Control whether the model is run in</span>
+<span class="sd">            deterministic or stochastic mode</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the transformer</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        output_hidden_states: bool: Return the hidden states of all</span>
+<span class="sd">            layers</span>
+<span class="sd">        return_dict: bool: Return a dictionary of outputs</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">            embedding of a new word</span>
+<span class="sd">        None]]: Pass the extra embedding to the model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of logits and hidden_states</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+        <span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">prediction</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">FlaxSequenceClassifierOutput</span><span class="p">(</span>
+            <span class="n">logits</span><span class="o">=</span><span class="n">prediction</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">prediction</span><span class="p">,</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForSequenceClassificationModule.setup" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">setup</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The setup function is called once at the beginning of training.
+It initializes the model and optimizer, and sets up any other state that needs to be initialized.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the model and the classifier</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span>
+<span class="normal">1230</span>
+<span class="normal">1231</span>
+<span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The setup function is called once at the beginning of training.</span>
+<span class="sd">    It initializes the model and optimizer, and sets up any other state that needs to be initialized.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the model and the classifier</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">FlaxLlamaModule</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_classes</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+        <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+            <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+        <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaMLP" class="doc doc-heading">
+            <code>FlaxLlamaMLP</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxLlamaMLP</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">LlamaConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">intermediate_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">intermediate_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">rate</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">resid_pdrop</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">        It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).</span>
+<span class="sd">        The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            x: jnp.ndarray: Pass in the input to the layer</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tensor that is the result of applying a dropout function</span>
+<span class="sd">            to x</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">silu</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span>
+        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">x</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaMLP.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a class.
+It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).
+The <strong>call</strong> method enables instances of a class to be called like standard Python functions.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>x</code></td>
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.ndarray: Pass in the input to the layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tensor that is the result of applying a dropout function</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>to x</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">    It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).</span>
+<span class="sd">    The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        x: jnp.ndarray: Pass in the input to the layer</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tensor that is the result of applying a dropout function</span>
+<span class="sd">        to x</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">silu</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">x</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaModule" class="doc doc-heading">
+            <code>FlaxLlamaModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 915</span>
+<span class="normal"> 916</span>
+<span class="normal"> 917</span>
+<span class="normal"> 918</span>
+<span class="normal"> 919</span>
+<span class="normal"> 920</span>
+<span class="normal"> 921</span>
+<span class="normal"> 922</span>
+<span class="normal"> 923</span>
+<span class="normal"> 924</span>
+<span class="normal"> 925</span>
+<span class="normal"> 926</span>
+<span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxLlamaModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">LlamaConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Embed</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">embedding_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">rate</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">embd_pdrop</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">layers</span> <span class="o">=</span> <span class="n">FlaxLlamaBlockCollection</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                                               <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">norm</span> <span class="o">=</span> <span class="n">RMSNorm</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span> <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">make_causal_mask</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+                <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;c_max_position_embeddings&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">)),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span>
+            <span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span>
+        <span class="p">)</span>
+
+        <span class="n">initial_rope_kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+            <span class="n">rope_type</span><span class="o">=</span><span class="s2">&quot;none&quot;</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">scaling_type</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">[</span><span class="s2">&quot;type&quot;</span><span class="p">]</span>
+            <span class="n">scaling_factor</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">[</span><span class="s2">&quot;factor&quot;</span><span class="p">]</span>
+            <span class="n">initial_rope_kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+                <span class="n">scaling_factor</span><span class="o">=</span><span class="n">scaling_factor</span><span class="p">,</span>
+                <span class="n">rope_type</span><span class="o">=</span><span class="n">scaling_type</span>
+            <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span> <span class="o">=</span> <span class="n">precompute_freq_cis</span><span class="p">(</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="p">(</span>
+                <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;freq_max_position_embeddings&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">)</span>
+            <span class="p">),</span>
+            <span class="n">dim</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">base</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">rope_theta</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">initial_rope_kwargs</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids</span>
+<span class="sd">        and returns the output of the model. The __call__ function also has optional arguments that can be used to control</span>
+<span class="sd">        the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when</span>
+<span class="sd">        calling a Flax model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input token ids</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            deterministic: bool: Control whether dropout is applied or</span>
+<span class="sd">                not</span>
+<span class="sd">            inputs_embeds: chex.Array: Pass in the embeddings of the</span>
+<span class="sd">                input tokens</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attentions or not</span>
+<span class="sd">            output_hidden_states: bool: Determine whether to return</span>
+<span class="sd">                hidden states</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the output or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">                embedding of the</span>
+<span class="sd">            None]]: Pass in the extra embedding</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">inputs_embeds</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">))</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">inputs_embeds</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+        <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="n">inputs_embeds</span> <span class="o">+</span> \
+                        <span class="n">extra_embedding</span> <span class="k">if</span> <span class="n">extra_embedding</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">inputs_embeds</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span>
+            <span class="n">inputs_embeds</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">v</span> <span class="k">for</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">outputs</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">FlaxBaseModelOutput</span><span class="p">(</span>
+            <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+            <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">inputs_embeds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids
+and returns the output of the model. The <strong>call</strong> function also has optional arguments that can be used to control
+the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when
+calling a Flax model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input token ids</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Indicate the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether dropout is applied or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>inputs_embeds</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the embeddings of the
+input tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attentions or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return
+hidden states</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the output or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray: Pass in the
+embedding of the</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>None]]</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the extra embedding</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids</span>
+<span class="sd">    and returns the output of the model. The __call__ function also has optional arguments that can be used to control</span>
+<span class="sd">    the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when</span>
+<span class="sd">    calling a Flax model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input token ids</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        deterministic: bool: Control whether dropout is applied or</span>
+<span class="sd">            not</span>
+<span class="sd">        inputs_embeds: chex.Array: Pass in the embeddings of the</span>
+<span class="sd">            input tokens</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attentions or not</span>
+<span class="sd">        output_hidden_states: bool: Determine whether to return</span>
+<span class="sd">            hidden states</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the output or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">            embedding of the</span>
+<span class="sd">        None]]: Pass in the extra embedding</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">inputs_embeds</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">))</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">inputs_embeds</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+    <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="n">inputs_embeds</span> <span class="o">+</span> \
+                    <span class="n">extra_embedding</span> <span class="k">if</span> <span class="n">extra_embedding</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">inputs_embeds</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span>
+        <span class="n">inputs_embeds</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">v</span> <span class="k">for</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">outputs</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">FlaxBaseModelOutput</span><span class="p">(</span>
+        <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+        <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel" class="doc doc-heading">
+            <code>FlaxLlamaPreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxLlamaPreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">LlamaConfig</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;model&quot;</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">LlamaConfig</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up the instance of the class, and defines what happens when it&#39;s created.</span>
+<span class="sd">        The __init__ function can take arguments, but self is always required (it refers to the instance of the object).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            config: LlamaConfig: Pass the configuration to the module</span>
+<span class="sd">            input_shape: Tuple: Specify the shape of the input to the</span>
+<span class="sd">                model</span>
+<span class="sd">            seed: int: Set the seed for random number generation</span>
+<span class="sd">            dtype: jnp.dtype: Specify the data type of the input</span>
+<span class="sd">            _do_init: bool: Control whether the module is initialized or</span>
+<span class="sd">                not</span>
+<span class="sd">            **kwargs: Pass in any additional parameters that the</span>
+<span class="sd">                module_class might need</span>
+<span class="sd">        :param : Specify the number of layers in the network</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The super() of the class</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+                         <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">            params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">                model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+            <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+                <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+            <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">encoder_hidden_states</span><span class="p">,</span>
+                <span class="n">encoder_attention_mask</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_cache function is used to initialize the cache for a given batch size and sequence length.</span>
+<span class="sd">        The cache is a dictionary that contains all the intermediate states from each layer in the model.</span>
+<span class="sd">        This allows us to run inference on multiple batches without having to re-run forward passes through every layer in</span>
+<span class="sd">        the model, which would be very slow.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the module</span>
+<span class="sd">            batch_size: Define the batch size of the input tensors</span>
+<span class="sd">            max_length: Set the length of the input sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary with the following keys:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It takes in inputs and returns outputs, but it also has some other important features:</span>
+<span class="sd">        - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.</span>
+<span class="sd">        - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input</span>
+<span class="sd">            position_ids: chex.Array: Create the positional embeddings</span>
+<span class="sd">            params: dict: Pass in the parameters of the model</span>
+<span class="sd">            past_key_values: dict: Pass in the past key values from a</span>
+<span class="sd">                previous call to __call__</span>
+<span class="sd">            dropout_rng: jax.random.PRNGKey: Make sure that the dropout</span>
+<span class="sd">                is applied in a random way</span>
+<span class="sd">            train: bool: Determine whether to use dropout or not</span>
+<span class="sd">            output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the attention weights</span>
+<span class="sd">            output_hidden_states: Optional[bool]: Return the hidden</span>
+<span class="sd">                states of all layers</span>
+<span class="sd">            return_dict: Optional[bool]: Determine whether to return a</span>
+<span class="sd">                dictionary or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in</span>
+<span class="sd">                the embedding for the input_ids</span>
+<span class="sd">            add_params_field: bool: Add the params field to the inputs</span>
+<span class="sd">                dictionary</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the following:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+        <span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                      <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">past_key_values</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dropout_rng</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It takes in inputs and returns outputs, but it also has some other important features:
+- It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.
+- It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Create the positional embeddings</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>past_key_values</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the past key values from a
+previous call to <strong>call</strong></p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dropout_rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Make sure that the dropout
+is applied in a random way</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>train</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Return the hidden
+states of all layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to return a
+dictionary or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray,None]]: Pass in
+the embedding for the input_ids</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add the params field to the inputs
+dictionary</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the following:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It takes in inputs and returns outputs, but it also has some other important features:</span>
+<span class="sd">    - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.</span>
+<span class="sd">    - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input</span>
+<span class="sd">        position_ids: chex.Array: Create the positional embeddings</span>
+<span class="sd">        params: dict: Pass in the parameters of the model</span>
+<span class="sd">        past_key_values: dict: Pass in the past key values from a</span>
+<span class="sd">            previous call to __call__</span>
+<span class="sd">        dropout_rng: jax.random.PRNGKey: Make sure that the dropout</span>
+<span class="sd">            is applied in a random way</span>
+<span class="sd">        train: bool: Determine whether to use dropout or not</span>
+<span class="sd">        output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the attention weights</span>
+<span class="sd">        output_hidden_states: Optional[bool]: Return the hidden</span>
+<span class="sd">            states of all layers</span>
+<span class="sd">        return_dict: Optional[bool]: Determine whether to return a</span>
+<span class="sd">            dictionary or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in</span>
+<span class="sd">            the embedding for the input_ids</span>
+<span class="sd">        add_params_field: bool: Add the params field to the inputs</span>
+<span class="sd">            dictionary</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the following:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+    <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+    <span class="p">)</span>
+    <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rngs</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+    <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+    <span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+        <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+        <span class="n">inputs</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+        <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">,</span>
+        <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+        <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+    <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                  <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">seed</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up the instance of the class, and defines what happens when it's created.
+The <strong>init</strong> function can take arguments, but self is always required (it refers to the instance of the object).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>config</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.llama.llama_configuration.LlamaConfig" href="../generated-modules-llama-llama_configuration/#src.python.easydel.modules.llama.llama_configuration.LlamaConfig">LlamaConfig</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>LlamaConfig: Pass the configuration to the module</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Specify the shape of the input to the
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>seed</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the seed for random number generation</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.dtype: Specify the data type of the input</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.float32">float32</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>_do_init</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the module is initialized or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in any additional parameters that the
+module_class might need</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Specify the number of layers in the network</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The super() of the class</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">config</span><span class="p">:</span> <span class="n">LlamaConfig</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+        <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up the instance of the class, and defines what happens when it&#39;s created.</span>
+<span class="sd">    The __init__ function can take arguments, but self is always required (it refers to the instance of the object).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        config: LlamaConfig: Pass the configuration to the module</span>
+<span class="sd">        input_shape: Tuple: Specify the shape of the input to the</span>
+<span class="sd">            model</span>
+<span class="sd">        seed: int: Set the seed for random number generation</span>
+<span class="sd">        dtype: jnp.dtype: Specify the data type of the input</span>
+<span class="sd">        _do_init: bool: Control whether the module is initialized or</span>
+<span class="sd">            not</span>
+<span class="sd">        **kwargs: Pass in any additional parameters that the</span>
+<span class="sd">            module_class might need</span>
+<span class="sd">    :param : Specify the number of layers in the network</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The super() of the class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+                     <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.init_cache" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_cache function is used to initialize the cache for a given batch size and sequence length.
+The cache is a dictionary that contains all the intermediate states from each layer in the model.
+This allows us to run inference on multiple batches without having to re-run forward passes through every layer in
+the model, which would be very slow.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access the module</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the batch size of the input tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the length of the input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with the following keys:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_cache function is used to initialize the cache for a given batch size and sequence length.</span>
+<span class="sd">    The cache is a dictionary that contains all the intermediate states from each layer in the model.</span>
+<span class="sd">    This allows us to run inference on multiple batches without having to re-run forward passes through every layer in</span>
+<span class="sd">    the model, which would be very slow.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access the module</span>
+<span class="sd">        batch_size: Define the batch size of the input tensors</span>
+<span class="sd">        max_length: Set the length of the input sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with the following keys:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+    <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+        <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Specify the shape of the input tensor</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>FrozenDict: Pass in the parameters of a pre-trained
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">        params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">            model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+        <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+            <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+        <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+
+    <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-llama-modelling_vision_llama_flax/index.html b/generated-modules-llama-modelling_vision_llama_flax/index.html
new file mode 100644
index 000000000..46a1ee819
--- /dev/null
+++ b/generated-modules-llama-modelling_vision_llama_flax/index.html
@@ -0,0 +1,6513 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-llama-modelling_llama_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-llama-vision_llama_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Vision Llama Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesllamamodelling_vision_llama_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Vision Llama Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_vision_llama_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_vision_llama_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_vision_llama_flax.FlaxVisionLlamaPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxVisionLlamaPreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxVisionLlamaPreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_vision_llama_flax.FlaxVisionLlamaPreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_vision_llama_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_vision_llama_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_vision_llama_flax.FlaxVisionLlamaPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxVisionLlamaPreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxVisionLlamaPreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.modelling_vision_llama_flax.FlaxVisionLlamaPreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesllamamodelling_vision_llama_flax">modules.llama.modelling_vision_llama_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.llama.modelling_vision_llama_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.llama.modelling_vision_llama_flax.FlaxVisionLlamaPreTrainedModel" class="doc doc-heading">
+            <code>FlaxVisionLlamaPreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/llama/modelling_vision_llama_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxVisionLlamaPreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">VisionLlamaConfig</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;model&quot;</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">VisionLlamaConfig</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">4</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">vision_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="nb">bool</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">vision_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">        :param self: Access variables that belong to the class</span>
+<span class="sd">        :param rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        :param input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">        :param params: FrozenDict: Pass in the parameters of a pre-trained model</span>
+<span class="sd">        :return: A frozendict of parameters</span>
+
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">vision_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="nb">bool</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="p">{</span>
+                <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span>
+                <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span>
+            <span class="p">},</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">vision_mask</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">vision_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span><span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="c1"># Handle any PRNG if needed</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">vision_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;f4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="c1"># add updated cache to model output</span>
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.modelling_vision_llama_flax.FlaxVisionLlamaPreTrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.</p>
+<p>:param self: Access variables that belong to the class
+:param rng: jax.random.PRNGKey: Initialize the weights of the model
+:param input_shape: Tuple: Specify the shape of the input tensor
+:param params: FrozenDict: Pass in the parameters of a pre-trained model
+:return: A frozendict of parameters</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/modelling_vision_llama_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span>
+<span class="normal">80</span>
+<span class="normal">81</span>
+<span class="normal">82</span>
+<span class="normal">83</span>
+<span class="normal">84</span>
+<span class="normal">85</span>
+<span class="normal">86</span>
+<span class="normal">87</span>
+<span class="normal">88</span>
+<span class="normal">89</span>
+<span class="normal">90</span>
+<span class="normal">91</span>
+<span class="normal">92</span>
+<span class="normal">93</span>
+<span class="normal">94</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">    :param self: Access variables that belong to the class</span>
+<span class="sd">    :param rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">    :param input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">    :param params: FrozenDict: Pass in the parameters of a pre-trained model</span>
+<span class="sd">    :return: A frozendict of parameters</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">vision_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="nb">bool</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+
+    <span class="n">random_params</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+        <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span>
+            <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span>
+        <span class="p">},</span>
+        <span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">vision_mask</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+    <span class="p">)[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-llama-vision_llama_configuration/index.html b/generated-modules-llama-vision_llama_configuration/index.html
new file mode 100644
index 000000000..0a5c12236
--- /dev/null
+++ b/generated-modules-llama-vision_llama_configuration/index.html
@@ -0,0 +1,6441 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-llama-modelling_vision_llama_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-lucid_transformer-lt_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Vision Llama Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesllamavision_llama_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Vision Llama Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.vision_llama_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      vision_llama_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.vision_llama_configuration.VisionLlamaConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      VisionLlamaConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="VisionLlamaConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.vision_llama_configuration.VisionLlamaConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.vision_llama_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      vision_llama_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.vision_llama_configuration.VisionLlamaConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      VisionLlamaConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="VisionLlamaConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.llama.vision_llama_configuration.VisionLlamaConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesllamavision_llama_configuration">modules.llama.vision_llama_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.llama.vision_llama_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.llama.vision_llama_configuration.VisionLlamaConfig" class="doc doc-heading">
+            <code>VisionLlamaConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.llama.llama_configuration.LlamaConfig" href="../generated-modules-llama-llama_configuration/#src.python.easydel.modules.llama.llama_configuration.LlamaConfig">LlamaConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/llama/vision_llama_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 5</span>
+<span class="normal"> 6</span>
+<span class="normal"> 7</span>
+<span class="normal"> 8</span>
+<span class="normal"> 9</span>
+<span class="normal">10</span>
+<span class="normal">11</span>
+<span class="normal">12</span>
+<span class="normal">13</span>
+<span class="normal">14</span>
+<span class="normal">15</span>
+<span class="normal">16</span>
+<span class="normal">17</span>
+<span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">VisionLlamaConfig</span><span class="p">(</span><span class="n">LlamaConfig</span><span class="p">):</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vision_vocab_size</span><span class="o">=</span><span class="mi">8448</span><span class="p">,</span>
+            <span class="n">tie_vision_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">sample_mode</span><span class="o">=</span><span class="s2">&quot;all&quot;</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vision_vocab_size</span> <span class="o">=</span> <span class="n">vision_vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tie_vision_embeddings</span> <span class="o">=</span> <span class="n">tie_vision_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sample_mode</span> <span class="o">=</span> <span class="n">sample_mode</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">            1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">                partition the model fully or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;model/embed_vision/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;vision_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;model/embed_vision/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;vision_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.llama.vision_llama_configuration.VisionLlamaConfig.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+    1) A regex string that matches the name of one or more parameters in the model.
+    2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to
+partition the model fully or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/llama/vision_llama_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">        1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">            partition the model fully or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;model/embed_vision/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;vision_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;model/embed_vision/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;vision_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-lucid_transformer-lt_configuration/index.html b/generated-modules-lucid_transformer-lt_configuration/index.html
new file mode 100644
index 000000000..051cc13a8
--- /dev/null
+++ b/generated-modules-lucid_transformer-lt_configuration/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-llama-vision_llama_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-lucid_transformer-modelling_lt_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Lt Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#moduleslucid_transformerlt_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Lt Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.lucid_transformer.lt_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      lt_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.lucid_transformer.lt_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      lt_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="moduleslucid_transformerlt_configuration">modules.lucid_transformer.lt_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.lucid_transformer.lt_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-lucid_transformer-modelling_lt_flax/index.html b/generated-modules-lucid_transformer-modelling_lt_flax/index.html
new file mode 100644
index 000000000..f81fbd1de
--- /dev/null
+++ b/generated-modules-lucid_transformer-modelling_lt_flax/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-lucid_transformer-lt_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-mamba-mamba_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Lt Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#moduleslucid_transformermodelling_lt_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Lt Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.lucid_transformer.modelling_lt_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_lt_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.lucid_transformer.modelling_lt_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_lt_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="moduleslucid_transformermodelling_lt_flax">modules.lucid_transformer.modelling_lt_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.lucid_transformer.modelling_lt_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-mamba-mamba_configuration/index.html b/generated-modules-mamba-mamba_configuration/index.html
new file mode 100644
index 000000000..fb765a0a2
--- /dev/null
+++ b/generated-modules-mamba-mamba_configuration/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-lucid_transformer-modelling_lt_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-mamba-modelling_mamba_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Mamba Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesmambamamba_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Mamba Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mamba.mamba_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      mamba_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mamba.mamba_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      mamba_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesmambamamba_configuration">modules.mamba.mamba_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.mamba.mamba_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-mamba-modelling_mamba_flax/index.html b/generated-modules-mamba-modelling_mamba_flax/index.html
new file mode 100644
index 000000000..254b720f7
--- /dev/null
+++ b/generated-modules-mamba-modelling_mamba_flax/index.html
@@ -0,0 +1,7372 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-mamba-mamba_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-mistral-mistral_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Mamba Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesmambamodelling_mamba_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Mamba Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mamba.modelling_mamba_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_mamba_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMambaPretrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMambaPretrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mamba.modelling_mamba_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_mamba_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMambaPretrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMambaPretrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesmambamodelling_mamba_flax">modules.mamba.modelling_mamba_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.mamba.modelling_mamba_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel" class="doc doc-heading">
+            <code>FlaxMambaPretrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mamba/modelling_mamba_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 878</span>
+<span class="normal"> 879</span>
+<span class="normal"> 880</span>
+<span class="normal"> 881</span>
+<span class="normal"> 882</span>
+<span class="normal"> 883</span>
+<span class="normal"> 884</span>
+<span class="normal"> 885</span>
+<span class="normal"> 886</span>
+<span class="normal"> 887</span>
+<span class="normal"> 888</span>
+<span class="normal"> 889</span>
+<span class="normal"> 890</span>
+<span class="normal"> 891</span>
+<span class="normal"> 892</span>
+<span class="normal"> 893</span>
+<span class="normal"> 894</span>
+<span class="normal"> 895</span>
+<span class="normal"> 896</span>
+<span class="normal"> 897</span>
+<span class="normal"> 898</span>
+<span class="normal"> 899</span>
+<span class="normal"> 900</span>
+<span class="normal"> 901</span>
+<span class="normal"> 902</span>
+<span class="normal"> 903</span>
+<span class="normal"> 904</span>
+<span class="normal"> 905</span>
+<span class="normal"> 906</span>
+<span class="normal"> 907</span>
+<span class="normal"> 908</span>
+<span class="normal"> 909</span>
+<span class="normal"> 910</span>
+<span class="normal"> 911</span>
+<span class="normal"> 912</span>
+<span class="normal"> 913</span>
+<span class="normal"> 914</span>
+<span class="normal"> 915</span>
+<span class="normal"> 916</span>
+<span class="normal"> 917</span>
+<span class="normal"> 918</span>
+<span class="normal"> 919</span>
+<span class="normal"> 920</span>
+<span class="normal"> 921</span>
+<span class="normal"> 922</span>
+<span class="normal"> 923</span>
+<span class="normal"> 924</span>
+<span class="normal"> 925</span>
+<span class="normal"> 926</span>
+<span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxMambaPretrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">MambaConfig</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;backbone&quot;</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">MambaConfig</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up the instance of the class, and defines what happens when it&#39;s created.</span>
+<span class="sd">        The __init__ function can take arguments, but self is always required (it refers to the instance of the object).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            config: MambaConfig: Pass the configuration to the module</span>
+<span class="sd">            input_shape: Tuple: Specify the shape of the input to the</span>
+<span class="sd">                model</span>
+<span class="sd">            seed: int: Set the seed for random number generation</span>
+<span class="sd">            dtype: jnp.dtype: Specify the data type of the model ra</span>
+<span class="sd">            param_dtype: jnp.dtype: Specify the data type of the</span>
+<span class="sd">                param_dtype</span>
+<span class="sd">            precision: Optional[Union[str, lax.Precision]]: precision</span>
+<span class="sd">                for model operations</span>
+<span class="sd">            _do_init: bool: Control whether the module is initialized or</span>
+<span class="sd">                not</span>
+<span class="sd">            **kwargs: Pass in any additional parameters that the</span>
+<span class="sd">                module_class might need</span>
+<span class="sd">        :param : Specify the number of layers in the network</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The super() of the class</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">config</span><span class="p">,</span>
+            <span class="n">module</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="p">(</span><span class="n">input_shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">            params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">                model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+        <span class="k">return</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">cache_params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># Ignored(we are using an SSM model not attention)</span>
+            <span class="n">use_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: Optional[chex.Array]: Pass in the input tokens</span>
+<span class="sd">            inputs_embeds: Optional[chex.Array]: Pass in the embedded</span>
+<span class="sd">                tokens</span>
+<span class="sd">            cache_params: dict: Pass in the past cache_params from a</span>
+<span class="sd">                previous call to __call__</span>
+<span class="sd">            params: dict: Pass in the parameters of the model</span>
+<span class="sd">            dropout_rng: jax.random.PRNGKey: Make sure that the dropout</span>
+<span class="sd">                is applied in a random way</span>
+<span class="sd">            train: bool: Determine whether to use dropout or not</span>
+<span class="sd">            output_hidden_states: Optional[bool]: Return the hidden</span>
+<span class="sd">                states of all layers</span>
+<span class="sd">            return_dict: Optional[bool]: Determine whether to return a</span>
+<span class="sd">                dictionary or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in</span>
+<span class="sd">                the embedding for the input_ids</span>
+<span class="sd">            add_params_field: bool: Add the params field to the inputs</span>
+<span class="sd">                dictionary</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the following:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+        <span class="k">if</span> <span class="n">cache_params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">cache_params</span><span class="p">,</span> <span class="n">FlaxMambaCache</span><span class="p">),</span> <span class="sa">f</span><span class="s2">&quot;Wrong cache input_type of </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">cache_params</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+        <span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="c1"># input_ids: Optional[chex.Array] = None,</span>
+        <span class="c1"># inputs_embeds: Optional[chex.Array] = None,</span>
+        <span class="c1"># cache_params: Optional[chex.Array] = None,</span>
+        <span class="c1"># deterministic: bool = True,</span>
+        <span class="c1"># use_cache: Optional[bool] = None,</span>
+        <span class="c1"># output_hidden_states: Optional[bool] = None,</span>
+        <span class="c1"># return_dict: Optional[bool] = None,</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="p">,</span>
+            <span class="n">cache_params</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">inputs_embeds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">cache_params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dropout_rng</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">use_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[chex.Array]: Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>inputs_embeds</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[chex.Array]: Pass in the embedded
+tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>cache_params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the past cache_params from a
+previous call to <strong>call</strong></p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dropout_rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Make sure that the dropout
+is applied in a random way</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>train</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Return the hidden
+states of all layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to return a
+dictionary or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray,None]]: Pass in
+the embedding for the input_ids</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add the params field to the inputs
+dictionary</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the following:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mamba/modelling_mamba_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">cache_params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># Ignored(we are using an SSM model not attention)</span>
+        <span class="n">use_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: Optional[chex.Array]: Pass in the input tokens</span>
+<span class="sd">        inputs_embeds: Optional[chex.Array]: Pass in the embedded</span>
+<span class="sd">            tokens</span>
+<span class="sd">        cache_params: dict: Pass in the past cache_params from a</span>
+<span class="sd">            previous call to __call__</span>
+<span class="sd">        params: dict: Pass in the parameters of the model</span>
+<span class="sd">        dropout_rng: jax.random.PRNGKey: Make sure that the dropout</span>
+<span class="sd">            is applied in a random way</span>
+<span class="sd">        train: bool: Determine whether to use dropout or not</span>
+<span class="sd">        output_hidden_states: Optional[bool]: Return the hidden</span>
+<span class="sd">            states of all layers</span>
+<span class="sd">        return_dict: Optional[bool]: Determine whether to return a</span>
+<span class="sd">            dictionary or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in</span>
+<span class="sd">            the embedding for the input_ids</span>
+<span class="sd">        add_params_field: bool: Add the params field to the inputs</span>
+<span class="sd">            dictionary</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the following:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+    <span class="p">)</span>
+    <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+    <span class="k">if</span> <span class="n">cache_params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">cache_params</span><span class="p">,</span> <span class="n">FlaxMambaCache</span><span class="p">),</span> <span class="sa">f</span><span class="s2">&quot;Wrong cache input_type of </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">cache_params</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+    <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+    <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+    <span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="c1"># input_ids: Optional[chex.Array] = None,</span>
+    <span class="c1"># inputs_embeds: Optional[chex.Array] = None,</span>
+    <span class="c1"># cache_params: Optional[chex.Array] = None,</span>
+    <span class="c1"># deterministic: bool = True,</span>
+    <span class="c1"># use_cache: Optional[bool] = None,</span>
+    <span class="c1"># output_hidden_states: Optional[bool] = None,</span>
+    <span class="c1"># return_dict: Optional[bool] = None,</span>
+
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+        <span class="n">inputs</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="p">,</span>
+        <span class="n">cache_params</span><span class="p">,</span>
+        <span class="n">train</span><span class="p">,</span>
+        <span class="n">use_cache</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+        <span class="n">mutable</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">seed</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">param_dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">precision</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up the instance of the class, and defines what happens when it's created.
+The <strong>init</strong> function can take arguments, but self is always required (it refers to the instance of the object).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>config</code></td>
+            <td>
+                  <code><span title="src.python.easydel.modules.mamba.mamba_configuration.MambaConfig">MambaConfig</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>MambaConfig: Pass the configuration to the module</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Specify the shape of the input to the
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>seed</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the seed for random number generation</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.dtype: Specify the data type of the model ra</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.float32">float32</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>param_dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.dtype: Specify the data type of the
+param_dtype</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.float32">float32</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>precision</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[str, <span title="jax.lax.Precision">Precision</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[str, lax.Precision]]: precision
+for model operations</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>_do_init</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the module is initialized or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in any additional parameters that the
+module_class might need</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Specify the number of layers in the network</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The super() of the class</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mamba/modelling_mamba_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span>
+<span class="normal">914</span>
+<span class="normal">915</span>
+<span class="normal">916</span>
+<span class="normal">917</span>
+<span class="normal">918</span>
+<span class="normal">919</span>
+<span class="normal">920</span>
+<span class="normal">921</span>
+<span class="normal">922</span>
+<span class="normal">923</span>
+<span class="normal">924</span>
+<span class="normal">925</span>
+<span class="normal">926</span>
+<span class="normal">927</span>
+<span class="normal">928</span>
+<span class="normal">929</span>
+<span class="normal">930</span>
+<span class="normal">931</span>
+<span class="normal">932</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">config</span><span class="p">:</span> <span class="n">MambaConfig</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+        <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+        <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up the instance of the class, and defines what happens when it&#39;s created.</span>
+<span class="sd">    The __init__ function can take arguments, but self is always required (it refers to the instance of the object).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        config: MambaConfig: Pass the configuration to the module</span>
+<span class="sd">        input_shape: Tuple: Specify the shape of the input to the</span>
+<span class="sd">            model</span>
+<span class="sd">        seed: int: Set the seed for random number generation</span>
+<span class="sd">        dtype: jnp.dtype: Specify the data type of the model ra</span>
+<span class="sd">        param_dtype: jnp.dtype: Specify the data type of the</span>
+<span class="sd">            param_dtype</span>
+<span class="sd">        precision: Optional[Union[str, lax.Precision]]: precision</span>
+<span class="sd">            for model operations</span>
+<span class="sd">        _do_init: bool: Control whether the module is initialized or</span>
+<span class="sd">            not</span>
+<span class="sd">        **kwargs: Pass in any additional parameters that the</span>
+<span class="sd">            module_class might need</span>
+<span class="sd">    :param : Specify the number of layers in the network</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The super() of the class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span>
+        <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+        <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">)</span>
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="n">config</span><span class="p">,</span>
+        <span class="n">module</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="o">=</span><span class="p">(</span><span class="n">input_shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+        <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Specify the shape of the input tensor</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>FrozenDict: Pass in the parameters of a pre-trained
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mamba/modelling_mamba_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">934</span>
+<span class="normal">935</span>
+<span class="normal">936</span>
+<span class="normal">937</span>
+<span class="normal">938</span>
+<span class="normal">939</span>
+<span class="normal">940</span>
+<span class="normal">941</span>
+<span class="normal">942</span>
+<span class="normal">943</span>
+<span class="normal">944</span>
+<span class="normal">945</span>
+<span class="normal">946</span>
+<span class="normal">947</span>
+<span class="normal">948</span>
+<span class="normal">949</span>
+<span class="normal">950</span>
+<span class="normal">951</span>
+<span class="normal">952</span>
+<span class="normal">953</span>
+<span class="normal">954</span>
+<span class="normal">955</span>
+<span class="normal">956</span>
+<span class="normal">957</span>
+<span class="normal">958</span>
+<span class="normal">959</span>
+<span class="normal">960</span>
+<span class="normal">961</span>
+<span class="normal">962</span>
+<span class="normal">963</span>
+<span class="normal">964</span>
+<span class="normal">965</span>
+<span class="normal">966</span>
+<span class="normal">967</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">        params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">            model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+    <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+        <span class="n">rngs</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+    <span class="p">)</span>
+
+    <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-mistral-mistral_configuration/index.html b/generated-modules-mistral-mistral_configuration/index.html
new file mode 100644
index 000000000..4d781688a
--- /dev/null
+++ b/generated-modules-mistral-mistral_configuration/index.html
@@ -0,0 +1,7780 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-mamba-modelling_mamba_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-mistral-modelling_mistral_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Mistral Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesmistralmistral_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Mistral Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.mistral_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      mistral_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.mistral_configuration.MistralConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      MistralConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="MistralConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.mistral_configuration.MistralConfig.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.mistral_configuration.MistralConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.mistral_configuration.MistralConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.mistral_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      mistral_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.mistral_configuration.MistralConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      MistralConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="MistralConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.mistral_configuration.MistralConfig.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.mistral_configuration.MistralConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.mistral_configuration.MistralConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesmistralmistral_configuration">modules.mistral.mistral_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.mistral.mistral_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mistral.mistral_configuration.MistralConfig" class="doc doc-heading">
+            <code>MistralConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mistral/mistral_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  8</span>
+<span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">MistralConfig</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;mistral&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">32000</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">14336</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span>
+            <span class="n">hidden_act</span><span class="o">=</span><span class="s2">&quot;silu&quot;</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">4096</span> <span class="o">*</span> <span class="mi">32</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-6</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">sliding_window</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_bias</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It allows the class to initialize the attributes of a class.</span>
+<span class="sd">        The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            vocab_size: Define the size of the vocabulary</span>
+<span class="sd">            hidden_size: Determine the size of the embedding layers</span>
+<span class="sd">            intermediate_size: Define the size of the intermediate layer</span>
+<span class="sd">                in each transformer block</span>
+<span class="sd">            num_hidden_layers: Determine the number of layers in the</span>
+<span class="sd">                encoder and decoder</span>
+<span class="sd">            num_attention_heads: Determine the number of attention heads</span>
+<span class="sd">                in each layer</span>
+<span class="sd">            num_key_value_heads: Specify the number of heads for key and</span>
+<span class="sd">                value</span>
+<span class="sd">            hidden_act: Specify the activation function used in the</span>
+<span class="sd">                hidden layers</span>
+<span class="sd">            max_position_embeddings: Set the maximum length of the</span>
+<span class="sd">                sequence</span>
+<span class="sd">            initializer_range: Initialize the weights of the model</span>
+<span class="sd">            rms_norm_eps: Avoid division by zero in the rms</span>
+<span class="sd">                normalization</span>
+<span class="sd">            use_cache: Determine whether to use the cache in the decoder</span>
+<span class="sd">            pad_token_id: Specify the token id of the padding token</span>
+<span class="sd">            bos_token_id: Specify the beginning of sentence token id</span>
+<span class="sd">            eos_token_id: Specify the end of sentence token</span>
+<span class="sd">            tie_word_embeddings: Tie the word embeddings and the output</span>
+<span class="sd">                layer</span>
+<span class="sd">            rope_theta: Control the number of tokens in a rope</span>
+<span class="sd">            sliding_window: Control the number of tokens that are</span>
+<span class="sd">                processed in parallel</span>
+<span class="sd">            gradient_checkpointing: str: Specify whether to use gradient</span>
+<span class="sd">                checkpointing</span>
+<span class="sd">            use_scan_mlp: bool: Determine whether or not to use the</span>
+<span class="sd">                scan_mlp function</span>
+<span class="sd">            scan_mlp_chunk_size: int: Specify the chunk size of the scan</span>
+<span class="sd">                mlp</span>
+<span class="sd">            number_rep_kv: int: Specify the number of times to repeat</span>
+<span class="sd">                the key and value vectors</span>
+<span class="sd">            attention_dropout: float: Set the dropout rate for the</span>
+<span class="sd">                attention layer</span>
+<span class="sd">            bits: Optional[int]: Specify the number of bits used for</span>
+<span class="sd">                quantization</span>
+<span class="sd">            axis_dims: Sequence[int]: Specify the dimension of each axis</span>
+<span class="sd">            axis_names: Sequence[str]: Specify the names of each axis in</span>
+<span class="sd">                the tensor</span>
+<span class="sd">            &amp;quot;mp&amp;quot;): Define the maximum position embeddings</span>
+<span class="sd">            attention_bias: bool: when ever to use attention_bias</span>
+<span class="sd">            **kwargs: Pass a variable number of keyword arguments to a</span>
+<span class="sd">                function</span>
+<span class="sd">        :param : Define the number of layers in the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            An instance of the class</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sliding_window</span> <span class="o">=</span> <span class="n">sliding_window</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="c1"># for backward compatibility</span>
+        <span class="k">if</span> <span class="n">num_key_value_heads</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="n">pad_token_id</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="o">=</span><span class="n">use_scan_mlp</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+            <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">          1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">          2) A PartitionScheme object that defines how those parameters should be partitioned.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to use</span>
+<span class="sd">                the fully_sharded_data_parallel partitioning scheme or</span>
+<span class="sd">                not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_bias</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the model:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Bind the attributes and methods of a class to an</span>
+<span class="sd">                instance of that class</span>
+<span class="sd">            gradient_checkpointing: str: Determine whether to use</span>
+<span class="sd">                gradient checkpointing</span>
+<span class="sd">            use_scan_mlp: bool: Determine whether to use the scan_mlp</span>
+<span class="sd">                function or notn</span>
+<span class="sd">            scan_mlp_chunk_size: int: Chunk the input to the mlp</span>
+<span class="sd">            number_rep_kv: int: Control the number of times that the key</span>
+<span class="sd">                and value vectors are repeated</span>
+<span class="sd">            bits: Optional[int]: Specify the number of bits to use for</span>
+<span class="sd">                quantization</span>
+<span class="sd">            attention_dropout: float: Set the dropout rate for the</span>
+<span class="sd">                attention layer</span>
+<span class="sd">            attention_bias: bool: when ever to use attention_bias</span>
+<span class="sd">            rope_scaling: Dict[str, Union[str, float]]: rope_scaling for</span>
+<span class="sd">                rope</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the following:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_weight_decay_exclusions</span><span class="p">():</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">rng_keys</span><span class="p">():</span>
+        <span class="k">return</span> <span class="s1">&#39;params&#39;</span><span class="p">,</span> <span class="s1">&#39;dropout&#39;</span><span class="p">,</span> <span class="s1">&#39;fcm&#39;</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mistral.mistral_configuration.MistralConfig.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">vocab_size</span><span class="o">=</span><span class="mi">32000</span><span class="p">,</span> <span class="n">hidden_size</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span> <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">14336</span><span class="p">,</span> <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span> <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span> <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span> <span class="n">hidden_act</span><span class="o">=</span><span class="s1">&#39;silu&#39;</span><span class="p">,</span> <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">4096</span> <span class="o">*</span> <span class="mi">32</span><span class="p">,</span> <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span> <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-06</span><span class="p">,</span> <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">pad_token_id</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span> <span class="n">rope_scaling</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">sliding_window</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span> <span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">use_scan_mlp</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="mi">1024</span><span class="p">,</span> <span class="n">number_rep_kv</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">attention_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It allows the class to initialize the attributes of a class.
+The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>vocab_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the size of the vocabulary</p>
+              </div>
+            </td>
+            <td>
+                  <code>32000</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine the size of the embedding layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>4096</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>intermediate_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the size of the intermediate layer
+in each transformer block</p>
+              </div>
+            </td>
+            <td>
+                  <code>14336</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_hidden_layers</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine the number of layers in the
+encoder and decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>32</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_attention_heads</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine the number of attention heads
+in each layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>32</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_key_value_heads</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the number of heads for key and
+value</p>
+              </div>
+            </td>
+            <td>
+                  <code>8</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_act</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the activation function used in the
+hidden layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;silu&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_position_embeddings</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the maximum length of the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>4096 * 32</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>initializer_range</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.02</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rms_norm_eps</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Avoid division by zero in the rms
+normalization</p>
+              </div>
+            </td>
+            <td>
+                  <code>1e-06</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_cache</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine whether to use the cache in the decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>pad_token_id</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the token id of the padding token</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bos_token_id</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the beginning of sentence token id</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>eos_token_id</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the end of sentence token</p>
+              </div>
+            </td>
+            <td>
+                  <code>2</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tie_word_embeddings</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tie the word embeddings and the output
+layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rope_theta</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Control the number of tokens in a rope</p>
+              </div>
+            </td>
+            <td>
+                  <code>10000.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sliding_window</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Control the number of tokens that are
+processed in parallel</p>
+              </div>
+            </td>
+            <td>
+                  <code>4096</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Specify whether to use gradient
+checkpointing</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_scan_mlp</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether or not to use the
+scan_mlp function</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_mlp_chunk_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Specify the chunk size of the scan
+mlp</p>
+              </div>
+            </td>
+            <td>
+                  <code>1024</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>number_rep_kv</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Specify the number of times to repeat
+the key and value vectors</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_dropout</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the dropout rate for the
+attention layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Specify the number of bits used for
+quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_dims</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[int]: Specify the dimension of each axis</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_names</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[str]: Specify the names of each axis in
+the tensor</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>&amp;quot;mp&amp;quot;)</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the maximum position embeddings</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_bias</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: when ever to use attention_bias</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass a variable number of keyword arguments to a
+function</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Define the number of layers in the model</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>An instance of the class</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mistral/mistral_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">vocab_size</span><span class="o">=</span><span class="mi">32000</span><span class="p">,</span>
+        <span class="n">hidden_size</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+        <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">14336</span><span class="p">,</span>
+        <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+        <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+        <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span>
+        <span class="n">hidden_act</span><span class="o">=</span><span class="s2">&quot;silu&quot;</span><span class="p">,</span>
+        <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">4096</span> <span class="o">*</span> <span class="mi">32</span><span class="p">,</span>
+        <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+        <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-6</span><span class="p">,</span>
+        <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">pad_token_id</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+        <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+        <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span>
+        <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">sliding_window</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+        <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">attention_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">attention_bias</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It allows the class to initialize the attributes of a class.</span>
+<span class="sd">    The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        vocab_size: Define the size of the vocabulary</span>
+<span class="sd">        hidden_size: Determine the size of the embedding layers</span>
+<span class="sd">        intermediate_size: Define the size of the intermediate layer</span>
+<span class="sd">            in each transformer block</span>
+<span class="sd">        num_hidden_layers: Determine the number of layers in the</span>
+<span class="sd">            encoder and decoder</span>
+<span class="sd">        num_attention_heads: Determine the number of attention heads</span>
+<span class="sd">            in each layer</span>
+<span class="sd">        num_key_value_heads: Specify the number of heads for key and</span>
+<span class="sd">            value</span>
+<span class="sd">        hidden_act: Specify the activation function used in the</span>
+<span class="sd">            hidden layers</span>
+<span class="sd">        max_position_embeddings: Set the maximum length of the</span>
+<span class="sd">            sequence</span>
+<span class="sd">        initializer_range: Initialize the weights of the model</span>
+<span class="sd">        rms_norm_eps: Avoid division by zero in the rms</span>
+<span class="sd">            normalization</span>
+<span class="sd">        use_cache: Determine whether to use the cache in the decoder</span>
+<span class="sd">        pad_token_id: Specify the token id of the padding token</span>
+<span class="sd">        bos_token_id: Specify the beginning of sentence token id</span>
+<span class="sd">        eos_token_id: Specify the end of sentence token</span>
+<span class="sd">        tie_word_embeddings: Tie the word embeddings and the output</span>
+<span class="sd">            layer</span>
+<span class="sd">        rope_theta: Control the number of tokens in a rope</span>
+<span class="sd">        sliding_window: Control the number of tokens that are</span>
+<span class="sd">            processed in parallel</span>
+<span class="sd">        gradient_checkpointing: str: Specify whether to use gradient</span>
+<span class="sd">            checkpointing</span>
+<span class="sd">        use_scan_mlp: bool: Determine whether or not to use the</span>
+<span class="sd">            scan_mlp function</span>
+<span class="sd">        scan_mlp_chunk_size: int: Specify the chunk size of the scan</span>
+<span class="sd">            mlp</span>
+<span class="sd">        number_rep_kv: int: Specify the number of times to repeat</span>
+<span class="sd">            the key and value vectors</span>
+<span class="sd">        attention_dropout: float: Set the dropout rate for the</span>
+<span class="sd">            attention layer</span>
+<span class="sd">        bits: Optional[int]: Specify the number of bits used for</span>
+<span class="sd">            quantization</span>
+<span class="sd">        axis_dims: Sequence[int]: Specify the dimension of each axis</span>
+<span class="sd">        axis_names: Sequence[str]: Specify the names of each axis in</span>
+<span class="sd">            the tensor</span>
+<span class="sd">        &amp;quot;mp&amp;quot;): Define the maximum position embeddings</span>
+<span class="sd">        attention_bias: bool: when ever to use attention_bias</span>
+<span class="sd">        **kwargs: Pass a variable number of keyword arguments to a</span>
+<span class="sd">            function</span>
+<span class="sd">    :param : Define the number of layers in the model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        An instance of the class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">sliding_window</span> <span class="o">=</span> <span class="n">sliding_window</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+    <span class="c1"># for backward compatibility</span>
+    <span class="k">if</span> <span class="n">num_key_value_heads</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="n">pad_token_id</span><span class="o">=</span><span class="n">pad_token_id</span><span class="p">,</span>
+        <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+        <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+        <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+        <span class="n">use_scan_mlp</span><span class="o">=</span><span class="n">use_scan_mlp</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+        <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mistral.mistral_configuration.MistralConfig.add_jax_args" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_jax_args</span><span class="p">(</span><span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">use_scan_mlp</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="mi">1024</span><span class="p">,</span> <span class="n">number_rep_kv</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">rope_scaling</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">attention_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The add_jax_args function adds the following arguments to the model:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Bind the attributes and methods of a class to an
+instance of that class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Determine whether to use
+gradient checkpointing</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_scan_mlp</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use the scan_mlp
+function or notn</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_mlp_chunk_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Chunk the input to the mlp</p>
+              </div>
+            </td>
+            <td>
+                  <code>1024</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>number_rep_kv</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Control the number of times that the key
+and value vectors are repeated</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Specify the number of bits to use for
+quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_dropout</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the dropout rate for the
+attention layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_bias</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: when ever to use attention_bias</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rope_scaling</code></td>
+            <td>
+                  <code><span title="typing.Dict">Dict</span>[str, <span title="typing.Union">Union</span>[str, float]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Dict[str, Union[str, float]]: rope_scaling for
+rope</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the following:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mistral/mistral_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+        <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">attention_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">attention_bias</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the model:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Bind the attributes and methods of a class to an</span>
+<span class="sd">            instance of that class</span>
+<span class="sd">        gradient_checkpointing: str: Determine whether to use</span>
+<span class="sd">            gradient checkpointing</span>
+<span class="sd">        use_scan_mlp: bool: Determine whether to use the scan_mlp</span>
+<span class="sd">            function or notn</span>
+<span class="sd">        scan_mlp_chunk_size: int: Chunk the input to the mlp</span>
+<span class="sd">        number_rep_kv: int: Control the number of times that the key</span>
+<span class="sd">            and value vectors are repeated</span>
+<span class="sd">        bits: Optional[int]: Specify the number of bits to use for</span>
+<span class="sd">            quantization</span>
+<span class="sd">        attention_dropout: float: Set the dropout rate for the</span>
+<span class="sd">            attention layer</span>
+<span class="sd">        attention_bias: bool: when ever to use attention_bias</span>
+<span class="sd">        rope_scaling: Dict[str, Union[str, float]]: rope_scaling for</span>
+<span class="sd">            rope</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the following:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mistral.mistral_configuration.MistralConfig.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-staticmethod"><code>staticmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+  1) A regex string that matches the name of one or more parameters in the model.
+  2) A PartitionScheme object that defines how those parameters should be partitioned.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use
+the fully_sharded_data_parallel partitioning scheme or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mistral/mistral_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@staticmethod</span>
+<span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">      1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">      2) A PartitionScheme object that defines how those parameters should be partitioned.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to use</span>
+<span class="sd">            the fully_sharded_data_parallel partitioning scheme or</span>
+<span class="sd">            not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-mistral-modelling_mistral_flax/index.html b/generated-modules-mistral-modelling_mistral_flax/index.html
new file mode 100644
index 000000000..9abd185f4
--- /dev/null
+++ b/generated-modules-mistral-modelling_mistral_flax/index.html
@@ -0,0 +1,10813 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-mistral-mistral_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-mistral-modelling_vision_mistral_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Mistral Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesmistralmodelling_mistral_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Mistral Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_mistral_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMistralAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMistralAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralDecoderLayer" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMistralDecoderLayer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMistralDecoderLayer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralDecoderLayer.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMistralForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMistralForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMistralModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMistralModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralPretrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMistralPretrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMistralPretrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralPretrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralPretrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.matmul_4d_loop" class="md-nav__link">
+    <span class="md-ellipsis">
+      matmul_4d_loop
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_mistral_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMistralAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMistralAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralDecoderLayer" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMistralDecoderLayer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMistralDecoderLayer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralDecoderLayer.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMistralForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMistralForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMistralModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMistralModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralPretrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMistralPretrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMistralPretrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralPretrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralPretrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_mistral_flax.matmul_4d_loop" class="md-nav__link">
+    <span class="md-ellipsis">
+      matmul_4d_loop
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesmistralmodelling_mistral_flax">modules.mistral.modelling_mistral_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.mistral.modelling_mistral_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralAttention" class="doc doc-heading">
+            <code>FlaxMistralAttention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxMistralAttention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">MistralConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span> <span class="o">=</span> <span class="n">FlaxMistralRotaryEmbedding</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span><span class="p">,</span>
+            <span class="n">base_module_class</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _transpose_sequence_head function transposes the query, key and value matrices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            query: Get the attention weights for each of the heads</span>
+<span class="sd">            key: Determine the number of heads</span>
+<span class="sd">            value: Store the values of the input</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The transpose of the query, key and value matrices</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">            sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">            query: Calculate the attention weights</span>
+<span class="sd">            key: Calculate the attention</span>
+<span class="sd">            value: Compute the attention weights</span>
+<span class="sd">            freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">                vocabulary</span>
+<span class="sd">            position_ids: Identify the position of each token in the</span>
+<span class="sd">                sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 tensors: query, key and value</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">        and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency coefficients for each position</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+<span class="sd">            fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">                and output tokens</span>
+<span class="sd">        :param : Determine if the attention is causal or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two arrays</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+        <span class="p">)</span>
+
+        <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                     <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span>
+        <span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+        <span class="c1"># if self.config.use_sharding_constraint:</span>
+        <span class="c1">#     query_states = with_sharding_constraint(</span>
+        <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     key_states = with_sharding_constraint(</span>
+        <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     value_states = with_sharding_constraint(</span>
+        <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralAttention.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module. It defines how the module behaves when called
+with inputs. The <strong>call</strong> function can be thought of as a &quot;forward pass&quot; through the model,
+and it should return all outputs that are needed for training or inference.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the hidden states of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency coefficients for each position</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the future tokens in the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the attention weights between the input
+and output tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine if the attention is causal or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two arrays</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">    and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency coefficients for each position</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+<span class="sd">        fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">            and output tokens</span>
+<span class="sd">    :param : Determine if the attention is causal or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two arrays</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+        <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+    <span class="p">)</span>
+
+    <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">)</span>
+
+    <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+        <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+        <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                 <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span>
+    <span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+
+    <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+        <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+        <span class="p">)</span>
+    <span class="c1"># if self.config.use_sharding_constraint:</span>
+    <span class="c1">#     query_states = with_sharding_constraint(</span>
+    <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     key_states = with_sharding_constraint(</span>
+    <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     value_states = with_sharding_constraint(</span>
+    <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+        <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+        <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+        <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+    <span class="p">)</span>
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                <span class="s2">&quot;tp&quot;</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span>
+        <span class="n">attn_output</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralAttention.apply_rotary" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rotary</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class.
+The main difference is that it takes in an additional argument, freq_cis, which are used to calculate
+the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sequence_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Compute the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the frequency of each word in the
+vocabulary</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Identify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 tensors: query, key and value</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">        sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">        query: Calculate the attention weights</span>
+<span class="sd">        key: Calculate the attention</span>
+<span class="sd">        value: Compute the attention weights</span>
+<span class="sd">        freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">            vocabulary</span>
+<span class="sd">        position_ids: Identify the position of each token in the</span>
+<span class="sd">            sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 tensors: query, key and value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralDecoderLayer" class="doc doc-heading">
+            <code>FlaxMistralDecoderLayer</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="flax.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxMistralDecoderLayer</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">MistralConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attn_block</span> <span class="o">=</span> <span class="n">FlaxMistralAttention</span>
+        <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">FlaxMistralMLP</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="c1"># hidden_states: chex.Array,</span>
+            <span class="c1"># freq_cis: Tuple[chex.Array, chex.Array],</span>
+            <span class="c1"># attention_mask: chex.Array,</span>
+            <span class="c1"># position_ids: chex.Array,</span>
+            <span class="c1"># causal_mask: chex.Array,</span>
+            <span class="c1"># segment_ids: Optional[chex.Array] = None,</span>
+            <span class="c1"># deterministic: bool = True,</span>
+            <span class="c1"># init_cache: bool = False,</span>
+            <span class="c1"># output_attentions: bool = False,</span>
+            <span class="c1"># fcm_mask = None,</span>
+            <span class="n">attn_block</span> <span class="o">=</span> <span class="n">re_mat</span><span class="p">(</span>
+                <span class="n">attn_block</span><span class="p">,</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="p">),</span>
+                <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">6</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">8</span><span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">re_mat</span><span class="p">(</span>
+                <span class="n">mlp_block</span><span class="p">,</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="p">),</span>
+                <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,)</span>
+            <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span> <span class="o">=</span> <span class="n">attn_block</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span> <span class="o">=</span> <span class="n">mlp_block</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span> <span class="o">=</span> <span class="n">MistralRMSNorm</span><span class="p">(</span>
+            <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span> <span class="o">=</span> <span class="n">MistralRMSNorm</span><span class="p">(</span>
+            <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">        It takes in the following arguments:</span>
+<span class="sd">            hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed</span>
+<span class="sd">            by all sublayers.</span>
+<span class="sd">            freq_cis (chex.Array): A tensor containing frequency-domain representations of each token&#39;s context vector,</span>
+<span class="sd">            used for computing self-attention weights and biases in a more efficient manner than using position</span>
+<span class="sd">            embeddings or sinusoidal positional encoding vectors would allow for [2].</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            hidden_states: chex.Array: Represent the input to the</span>
+<span class="sd">                encoder layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency</span>
+<span class="sd">                information to the attention layer</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for certain positions</span>
+<span class="sd">            causal_mask: chex.Array: Mask the future tokens</span>
+<span class="sd">            position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">                token in the sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the self-</span>
+<span class="sd">                attention layer</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of hidden_states and attention_output</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="c1"># hidden_states: chex.Array,</span>
+        <span class="c1"># freq_cis: Tuple[chex.Array, chex.Array],</span>
+        <span class="c1"># attention_mask: chex.Array,</span>
+        <span class="c1"># position_ids: chex.Array,</span>
+        <span class="c1"># causal_mask: chex.Array,</span>
+        <span class="c1"># segment_ids: Optional[chex.Array] = None,</span>
+        <span class="c1"># deterministic: bool = True,</span>
+        <span class="c1"># init_cache: bool = False,</span>
+        <span class="c1"># output_attentions: bool = False,</span>
+        <span class="c1"># fcm_mask = None,</span>
+        <span class="n">residual</span> <span class="o">=</span> <span class="n">hidden_states</span>
+        <span class="n">attention_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span>
+            <span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="kc">None</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">attention_output</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">+</span> <span class="n">residual</span>
+        <span class="n">ffd_inp</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_scan_mlp</span><span class="p">:</span>
+            <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="n">block_wise_ffn</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">,</span>
+                <span class="n">ffd_inp</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">(</span>
+                <span class="n">ffd_inp</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="p">,</span>
+            <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">feed_forward_hidden_states</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">+=</span> <span class="n">attention_output</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralDecoderLayer.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a TransformerEncoderLayer.
+It takes in the following arguments:
+    hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed
+    by all sublayers.
+    freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector,
+    used for computing self-attention weights and biases in a more efficient manner than using position
+    embeddings or sinusoidal positional encoding vectors would allow for [2].</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Represent the input to the
+encoder layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass the frequency
+information to the attention layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for certain positions</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the future tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Indicate the position of each
+token in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the self-
+attention layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of hidden_states and attention_output</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">    It takes in the following arguments:</span>
+<span class="sd">        hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed</span>
+<span class="sd">        by all sublayers.</span>
+<span class="sd">        freq_cis (chex.Array): A tensor containing frequency-domain representations of each token&#39;s context vector,</span>
+<span class="sd">        used for computing self-attention weights and biases in a more efficient manner than using position</span>
+<span class="sd">        embeddings or sinusoidal positional encoding vectors would allow for [2].</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        hidden_states: chex.Array: Represent the input to the</span>
+<span class="sd">            encoder layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency</span>
+<span class="sd">            information to the attention layer</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for certain positions</span>
+<span class="sd">        causal_mask: chex.Array: Mask the future tokens</span>
+<span class="sd">        position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">            token in the sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the self-</span>
+<span class="sd">            attention layer</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of hidden_states and attention_output</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="c1"># hidden_states: chex.Array,</span>
+    <span class="c1"># freq_cis: Tuple[chex.Array, chex.Array],</span>
+    <span class="c1"># attention_mask: chex.Array,</span>
+    <span class="c1"># position_ids: chex.Array,</span>
+    <span class="c1"># causal_mask: chex.Array,</span>
+    <span class="c1"># segment_ids: Optional[chex.Array] = None,</span>
+    <span class="c1"># deterministic: bool = True,</span>
+    <span class="c1"># init_cache: bool = False,</span>
+    <span class="c1"># output_attentions: bool = False,</span>
+    <span class="c1"># fcm_mask = None,</span>
+    <span class="n">residual</span> <span class="o">=</span> <span class="n">hidden_states</span>
+    <span class="n">attention_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span>
+        <span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">,</span>
+        <span class="kc">None</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">attention_output</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">+</span> <span class="n">residual</span>
+    <span class="n">ffd_inp</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_scan_mlp</span><span class="p">:</span>
+        <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="n">block_wise_ffn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">,</span>
+            <span class="n">ffd_inp</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">(</span>
+            <span class="n">ffd_inp</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">feed_forward_hidden_states</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+    <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="n">attention_output</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralForCausalLMModule" class="doc doc-heading">
+            <code>FlaxMistralForCausalLMModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="flax.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span>
+<span class="normal">1054</span>
+<span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span>
+<span class="normal">1065</span>
+<span class="normal">1066</span>
+<span class="normal">1067</span>
+<span class="normal">1068</span>
+<span class="normal">1069</span>
+<span class="normal">1070</span>
+<span class="normal">1071</span>
+<span class="normal">1072</span>
+<span class="normal">1073</span>
+<span class="normal">1074</span>
+<span class="normal">1075</span>
+<span class="normal">1076</span>
+<span class="normal">1077</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxMistralForCausalLMModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">MistralConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">:</span> <span class="n">FlaxMistralModule</span> <span class="o">=</span> <span class="n">FlaxMistralModule</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It defines how the model will be called,</span>
+<span class="sd">        and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask</span>
+<span class="sd">        as inputs (these are defined in __init__). We also have some optional arguments that can be passed to</span>
+<span class="sd">        the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),</span>
+<span class="sd">        output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in the sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout in the</span>
+<span class="sd">                model</span>
+<span class="sd">            inputs_embeds: chex.Array: Pass in the embeddings of the</span>
+<span class="sd">                input tokens</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            output_hidden_states: bool: Return the hidden states of all</span>
+<span class="sd">                layers</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs or</span>
+<span class="sd">                just the logits</span>
+<span class="sd">        :param : Determine whether to return the logits or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (lm_logits, hidden_states, attentions)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="o">=</span><span class="n">inputs_embeds</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">tie_word_embeddings</span><span class="p">:</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+            <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+                <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="c1"># lm_logits = lm_logits.astype(jnp.float32)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">(</span><span class="n">lm_logits</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">FlaxCausalLMOutput</span><span class="p">(</span><span class="n">logits</span><span class="o">=</span><span class="n">lm_logits</span><span class="p">,</span> <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralForCausalLMModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">inputs_embeds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax module. It defines how the model will be called,
+and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask
+as inputs (these are defined in <strong>init</strong>). We also have some optional arguments that can be passed to
+the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),
+output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout in the
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>inputs_embeds</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the embeddings of the
+input tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the hidden states of all
+layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs or
+just the logits</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine whether to return the logits or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of (lm_logits, hidden_states, attentions)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span>
+<span class="normal">1054</span>
+<span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span>
+<span class="normal">1065</span>
+<span class="normal">1066</span>
+<span class="normal">1067</span>
+<span class="normal">1068</span>
+<span class="normal">1069</span>
+<span class="normal">1070</span>
+<span class="normal">1071</span>
+<span class="normal">1072</span>
+<span class="normal">1073</span>
+<span class="normal">1074</span>
+<span class="normal">1075</span>
+<span class="normal">1076</span>
+<span class="normal">1077</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It defines how the model will be called,</span>
+<span class="sd">    and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask</span>
+<span class="sd">    as inputs (these are defined in __init__). We also have some optional arguments that can be passed to</span>
+<span class="sd">    the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),</span>
+<span class="sd">    output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in the sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout in the</span>
+<span class="sd">            model</span>
+<span class="sd">        inputs_embeds: chex.Array: Pass in the embeddings of the</span>
+<span class="sd">            input tokens</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        output_hidden_states: bool: Return the hidden states of all</span>
+<span class="sd">            layers</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs or</span>
+<span class="sd">            just the logits</span>
+<span class="sd">    :param : Determine whether to return the logits or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of (lm_logits, hidden_states, attentions)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+        <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="o">=</span><span class="n">inputs_embeds</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">tie_word_embeddings</span><span class="p">:</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="c1"># lm_logits = lm_logits.astype(jnp.float32)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">lm_logits</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">FlaxCausalLMOutput</span><span class="p">(</span><span class="n">logits</span><span class="o">=</span><span class="n">lm_logits</span><span class="p">,</span> <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralModule" class="doc doc-heading">
+            <code>FlaxMistralModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="flax.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span>
+<span class="normal">914</span>
+<span class="normal">915</span>
+<span class="normal">916</span>
+<span class="normal">917</span>
+<span class="normal">918</span>
+<span class="normal">919</span>
+<span class="normal">920</span>
+<span class="normal">921</span>
+<span class="normal">922</span>
+<span class="normal">923</span>
+<span class="normal">924</span>
+<span class="normal">925</span>
+<span class="normal">926</span>
+<span class="normal">927</span>
+<span class="normal">928</span>
+<span class="normal">929</span>
+<span class="normal">930</span>
+<span class="normal">931</span>
+<span class="normal">932</span>
+<span class="normal">933</span>
+<span class="normal">934</span>
+<span class="normal">935</span>
+<span class="normal">936</span>
+<span class="normal">937</span>
+<span class="normal">938</span>
+<span class="normal">939</span>
+<span class="normal">940</span>
+<span class="normal">941</span>
+<span class="normal">942</span>
+<span class="normal">943</span>
+<span class="normal">944</span>
+<span class="normal">945</span>
+<span class="normal">946</span>
+<span class="normal">947</span>
+<span class="normal">948</span>
+<span class="normal">949</span>
+<span class="normal">950</span>
+<span class="normal">951</span>
+<span class="normal">952</span>
+<span class="normal">953</span>
+<span class="normal">954</span>
+<span class="normal">955</span>
+<span class="normal">956</span>
+<span class="normal">957</span>
+<span class="normal">958</span>
+<span class="normal">959</span>
+<span class="normal">960</span>
+<span class="normal">961</span>
+<span class="normal">962</span>
+<span class="normal">963</span>
+<span class="normal">964</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxMistralModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">MistralConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Embed</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">embedding_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">layers</span> <span class="o">=</span> <span class="n">FlaxMistralDecoratorCollection</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">norm</span> <span class="o">=</span> <span class="n">MistralRMSNorm</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+
+        <span class="n">initial_rope_kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+            <span class="n">rope_type</span><span class="o">=</span><span class="s2">&quot;none&quot;</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">scaling_type</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">[</span><span class="s2">&quot;type&quot;</span><span class="p">]</span>
+            <span class="n">scaling_factor</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">[</span><span class="s2">&quot;factor&quot;</span><span class="p">]</span>
+            <span class="n">initial_rope_kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+                <span class="n">scaling_factor</span><span class="o">=</span><span class="n">scaling_factor</span><span class="p">,</span>
+                <span class="n">rope_type</span><span class="o">=</span><span class="n">scaling_type</span>
+            <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span> <span class="o">=</span> <span class="n">precompute_freq_cis</span><span class="p">(</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="p">(</span>
+                <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;freq_max_position_embeddings&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">)</span>
+            <span class="p">),</span>
+            <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">base</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_theta</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">initial_rope_kwargs</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">make_causal_mask</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+                <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;c_max_position_embeddings&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">)),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span>
+            <span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Union</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="n">Array</span><span class="p">,</span> <span class="o">...</span><span class="p">],</span> <span class="n">FlaxBaseModelOutput</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax model.</span>
+<span class="sd">        It takes in input_ids, attention_mask, and position_ids as inputs to the model.</span>
+<span class="sd">        The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input ids</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for certain tokens</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            inputs_embeds: chex.Array: Pass in the embedding of the</span>
+<span class="sd">                input_ids</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+<span class="sd">            output_hidden_states: bool: Return all hidden states or just</span>
+<span class="sd">                the last one</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">        :param : Determine whether the model is in training mode or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the hidden states, all hidden states, and</span>
+<span class="sd">            attentions</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">inputs_embeds</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">))</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">b</span><span class="p">,</span> <span class="n">s</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">b</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">s</span><span class="p">)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">inputs_embeds</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">value</span> <span class="k">for</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">outputs</span> <span class="k">if</span> <span class="n">value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">FlaxBaseModelOutput</span><span class="p">(</span>
+            <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+            <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">inputs_embeds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax model.
+It takes in input_ids, attention_mask, and position_ids as inputs to the model.
+The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input ids</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for certain tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>inputs_embeds</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the embedding of the
+input_ids</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return all hidden states or just
+the last one</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine whether the model is in training mode or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="typing.Tuple">Tuple</span>[<span title="jax.Array">Array</span>, ...], <span title="transformers.modeling_flax_outputs.FlaxBaseModelOutput">FlaxBaseModelOutput</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the hidden states, all hidden states, and</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="typing.Tuple">Tuple</span>[<span title="jax.Array">Array</span>, ...], <span title="transformers.modeling_flax_outputs.FlaxBaseModelOutput">FlaxBaseModelOutput</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>attentions</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span>
+<span class="normal">914</span>
+<span class="normal">915</span>
+<span class="normal">916</span>
+<span class="normal">917</span>
+<span class="normal">918</span>
+<span class="normal">919</span>
+<span class="normal">920</span>
+<span class="normal">921</span>
+<span class="normal">922</span>
+<span class="normal">923</span>
+<span class="normal">924</span>
+<span class="normal">925</span>
+<span class="normal">926</span>
+<span class="normal">927</span>
+<span class="normal">928</span>
+<span class="normal">929</span>
+<span class="normal">930</span>
+<span class="normal">931</span>
+<span class="normal">932</span>
+<span class="normal">933</span>
+<span class="normal">934</span>
+<span class="normal">935</span>
+<span class="normal">936</span>
+<span class="normal">937</span>
+<span class="normal">938</span>
+<span class="normal">939</span>
+<span class="normal">940</span>
+<span class="normal">941</span>
+<span class="normal">942</span>
+<span class="normal">943</span>
+<span class="normal">944</span>
+<span class="normal">945</span>
+<span class="normal">946</span>
+<span class="normal">947</span>
+<span class="normal">948</span>
+<span class="normal">949</span>
+<span class="normal">950</span>
+<span class="normal">951</span>
+<span class="normal">952</span>
+<span class="normal">953</span>
+<span class="normal">954</span>
+<span class="normal">955</span>
+<span class="normal">956</span>
+<span class="normal">957</span>
+<span class="normal">958</span>
+<span class="normal">959</span>
+<span class="normal">960</span>
+<span class="normal">961</span>
+<span class="normal">962</span>
+<span class="normal">963</span>
+<span class="normal">964</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Union</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="n">Array</span><span class="p">,</span> <span class="o">...</span><span class="p">],</span> <span class="n">FlaxBaseModelOutput</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax model.</span>
+<span class="sd">    It takes in input_ids, attention_mask, and position_ids as inputs to the model.</span>
+<span class="sd">    The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input ids</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for certain tokens</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        inputs_embeds: chex.Array: Pass in the embedding of the</span>
+<span class="sd">            input_ids</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+<span class="sd">        output_hidden_states: bool: Return all hidden states or just</span>
+<span class="sd">            the last one</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">    :param : Determine whether the model is in training mode or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the hidden states, all hidden states, and</span>
+<span class="sd">        attentions</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">inputs_embeds</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">))</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">b</span><span class="p">,</span> <span class="n">s</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">b</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">s</span><span class="p">)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">inputs_embeds</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">value</span> <span class="k">for</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">outputs</span> <span class="k">if</span> <span class="n">value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">FlaxBaseModelOutput</span><span class="p">(</span>
+        <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+        <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralPretrainedModel" class="doc doc-heading">
+            <code>FlaxMistralPretrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxMistralPretrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">MistralConfig</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s1">&#39;mistral&#39;</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">config</span><span class="p">:</span> <span class="n">MistralConfig</span><span class="p">,</span>
+                 <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+                 <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+                 <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+                 <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span>
+                 <span class="p">):</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+                         <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+<span class="sd">        It takes in an rng, which is a random number generator key that can be used to generate random numbers.</span>
+<span class="sd">        The input_shape parameter specifies the shape of the inputs that will be fed into this model.</span>
+<span class="sd">        The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Initialize the input_ids, attention_mask</span>
+<span class="sd">                and position_ids</span>
+<span class="sd">            params: flax.core.FrozenDict: Pass in the parameters of a</span>
+<span class="sd">                pre-trained model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+            <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+                <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+            <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rng_s</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">encoder_hidden_states</span><span class="p">,</span>
+                <span class="n">encoder_attention_mask</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rng_s</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It takes as input:</span>
+<span class="sd">        - The parameters of the model (self.params)</span>
+<span class="sd">        - The inputs to the model (input_ids, attention_mask, position_ids)</span>
+<span class="sd">        - Whether we are training (train=True/False) and whether we want to return all hidden states and</span>
+<span class="sd">        attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: Pass the input sequence to the model</span>
+<span class="sd">            attention_mask: Mask out the padding tokens</span>
+<span class="sd">            position_ids: Specify the position of each token in the</span>
+<span class="sd">                sequence</span>
+<span class="sd">            params: dict: Pass in the parameters of the model</span>
+<span class="sd">            past_key_values: dict: Pass the past key values to the model</span>
+<span class="sd">            dropout_rng: jax.random.PRNGKey: Pass in a random number</span>
+<span class="sd">                generator key to the model</span>
+<span class="sd">            train: bool: Determine whether to use dropout or not</span>
+<span class="sd">            output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the attention weights</span>
+<span class="sd">            output_hidden_states: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the hidden states of all layers</span>
+<span class="sd">            return_dict: Optional[bool]: Return a dictionary of the</span>
+<span class="sd">                outputs</span>
+<span class="sd">            add_params_field: bool: Add a params field to the inputs</span>
+<span class="sd">                dictionary</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (last_hidden_state, past_key_values)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rng_s</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rng_s</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+            <span class="kc">None</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rng_s</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                      <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralPretrainedModel.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">past_key_values</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dropout_rng</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It takes as input:
+- The parameters of the model (self.params)
+- The inputs to the model (input_ids, attention_mask, position_ids)
+- Whether we are training (train=True/False) and whether we want to return all hidden states and
+attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the input sequence to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>past_key_values</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass the past key values to the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dropout_rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Pass in a random number
+generator key to the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>train</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the hidden states of all layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Return a dictionary of the
+outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add a params field to the inputs
+dictionary</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of (last_hidden_state, past_key_values)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It takes as input:</span>
+<span class="sd">    - The parameters of the model (self.params)</span>
+<span class="sd">    - The inputs to the model (input_ids, attention_mask, position_ids)</span>
+<span class="sd">    - Whether we are training (train=True/False) and whether we want to return all hidden states and</span>
+<span class="sd">    attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: Pass the input sequence to the model</span>
+<span class="sd">        attention_mask: Mask out the padding tokens</span>
+<span class="sd">        position_ids: Specify the position of each token in the</span>
+<span class="sd">            sequence</span>
+<span class="sd">        params: dict: Pass in the parameters of the model</span>
+<span class="sd">        past_key_values: dict: Pass the past key values to the model</span>
+<span class="sd">        dropout_rng: jax.random.PRNGKey: Pass in a random number</span>
+<span class="sd">            generator key to the model</span>
+<span class="sd">        train: bool: Determine whether to use dropout or not</span>
+<span class="sd">        output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the attention weights</span>
+<span class="sd">        output_hidden_states: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the hidden states of all layers</span>
+<span class="sd">        return_dict: Optional[bool]: Return a dictionary of the</span>
+<span class="sd">            outputs</span>
+<span class="sd">        add_params_field: bool: Add a params field to the inputs</span>
+<span class="sd">            dictionary</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of (last_hidden_state, past_key_values)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+    <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+    <span class="p">)</span>
+    <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rng_s</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+    <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rng_s</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+        <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+        <span class="n">inputs</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+        <span class="kc">None</span><span class="p">,</span>
+        <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">rngs</span><span class="o">=</span><span class="n">rng_s</span><span class="p">,</span>
+        <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+    <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                  <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralPretrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.
+It takes in an rng, which is a random number generator key that can be used to generate random numbers.
+The input_shape parameter specifies the shape of the inputs that will be fed into this model.
+The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Initialize the input_ids, attention_mask
+and position_ids</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="flax.core.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>flax.core.FrozenDict: Pass in the parameters of a
+pre-trained model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+<span class="sd">    It takes in an rng, which is a random number generator key that can be used to generate random numbers.</span>
+<span class="sd">    The input_shape parameter specifies the shape of the inputs that will be fed into this model.</span>
+<span class="sd">    The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Initialize the input_ids, attention_mask</span>
+<span class="sd">            and position_ids</span>
+<span class="sd">        params: flax.core.FrozenDict: Pass in the parameters of a</span>
+<span class="sd">            pre-trained model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+    <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+        <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+            <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+        <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rng_s</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rng_s</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+
+    <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.mistral.modelling_mistral_flax.matmul_4d_loop" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">matmul_4d_loop</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Computes the matrix product of two 4D arrays x and y using a loop.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">matmul_4d_loop</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Computes the matrix product of two 4D arrays x and y using a loop.&quot;&quot;&quot;</span>
+    <span class="n">result</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="o">*</span><span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="n">y</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">])</span>
+    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]):</span>
+        <span class="k">for</span> <span class="n">j</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">y</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]):</span>
+            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">2</span><span class="p">]):</span>
+                <span class="k">for</span> <span class="n">l</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">y</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">3</span><span class="p">]):</span>
+                    <span class="n">result</span><span class="p">[</span><span class="n">i</span><span class="p">,</span> <span class="n">j</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">l</span><span class="p">]</span> <span class="o">+=</span> <span class="n">x</span><span class="p">[</span><span class="n">i</span><span class="p">,</span> <span class="n">j</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="p">:]</span> <span class="o">*</span> <span class="n">y</span><span class="p">[</span><span class="n">key</span><span class="p">,</span> <span class="n">l</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+    <span class="k">return</span> <span class="n">result</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-mistral-modelling_vision_mistral_flax/index.html b/generated-modules-mistral-modelling_vision_mistral_flax/index.html
new file mode 100644
index 000000000..37f020960
--- /dev/null
+++ b/generated-modules-mistral-modelling_vision_mistral_flax/index.html
@@ -0,0 +1,6610 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-mistral-modelling_mistral_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-mistral-vision_mistral_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Vision Mistral Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesmistralmodelling_vision_mistral_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Vision Mistral Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_vision_mistral_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_vision_mistral_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_vision_mistral_flax.FlaxVisionMistralPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxVisionMistralPreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxVisionMistralPreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_vision_mistral_flax.FlaxVisionMistralPreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_vision_mistral_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_vision_mistral_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_vision_mistral_flax.FlaxVisionMistralPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxVisionMistralPreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxVisionMistralPreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.modelling_vision_mistral_flax.FlaxVisionMistralPreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesmistralmodelling_vision_mistral_flax">modules.mistral.modelling_vision_mistral_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.mistral.modelling_vision_mistral_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mistral.modelling_vision_mistral_flax.FlaxVisionMistralPreTrainedModel" class="doc doc-heading">
+            <code>FlaxVisionMistralPreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_vision_mistral_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxVisionMistralPreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">VisionMistralConfig</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;model&quot;</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">VisionMistralConfig</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">4</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">vision_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="nb">bool</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">vision_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">            params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">                model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">vision_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="nb">bool</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="p">{</span>
+                <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span>
+                <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span>
+            <span class="p">},</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">vision_mask</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">vision_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span><span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="c1"># Handle any PRNG if needed</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">vision_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;f4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="c1"># add updated cache to model output</span>
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mistral.modelling_vision_mistral_flax.FlaxVisionMistralPreTrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Specify the shape of the input tensor</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>FrozenDict: Pass in the parameters of a pre-trained
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mistral/modelling_vision_mistral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span>
+<span class="normal">80</span>
+<span class="normal">81</span>
+<span class="normal">82</span>
+<span class="normal">83</span>
+<span class="normal">84</span>
+<span class="normal">85</span>
+<span class="normal">86</span>
+<span class="normal">87</span>
+<span class="normal">88</span>
+<span class="normal">89</span>
+<span class="normal">90</span>
+<span class="normal">91</span>
+<span class="normal">92</span>
+<span class="normal">93</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">        params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">            model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">vision_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="nb">bool</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+
+    <span class="n">random_params</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+        <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span>
+            <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span>
+        <span class="p">},</span>
+        <span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">vision_mask</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+    <span class="p">)[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-mistral-vision_mistral_configuration/index.html b/generated-modules-mistral-vision_mistral_configuration/index.html
new file mode 100644
index 000000000..57318fec3
--- /dev/null
+++ b/generated-modules-mistral-vision_mistral_configuration/index.html
@@ -0,0 +1,6441 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-mistral-modelling_vision_mistral_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-mixtral-mixtral_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Vision Mistral Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesmistralvision_mistral_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Vision Mistral Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.vision_mistral_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      vision_mistral_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.vision_mistral_configuration.VisionMistralConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      VisionMistralConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="VisionMistralConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.vision_mistral_configuration.VisionMistralConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.vision_mistral_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      vision_mistral_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.vision_mistral_configuration.VisionMistralConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      VisionMistralConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="VisionMistralConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mistral.vision_mistral_configuration.VisionMistralConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesmistralvision_mistral_configuration">modules.mistral.vision_mistral_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.mistral.vision_mistral_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mistral.vision_mistral_configuration.VisionMistralConfig" class="doc doc-heading">
+            <code>VisionMistralConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.mistral.mistral_configuration.MistralConfig" href="../generated-modules-mistral-mistral_configuration/#src.python.easydel.modules.mistral.mistral_configuration.MistralConfig">MistralConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mistral/vision_mistral_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 5</span>
+<span class="normal"> 6</span>
+<span class="normal"> 7</span>
+<span class="normal"> 8</span>
+<span class="normal"> 9</span>
+<span class="normal">10</span>
+<span class="normal">11</span>
+<span class="normal">12</span>
+<span class="normal">13</span>
+<span class="normal">14</span>
+<span class="normal">15</span>
+<span class="normal">16</span>
+<span class="normal">17</span>
+<span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">VisionMistralConfig</span><span class="p">(</span><span class="n">MistralConfig</span><span class="p">):</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vision_vocab_size</span><span class="o">=</span><span class="mi">8448</span><span class="p">,</span>
+            <span class="n">tie_vision_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">sample_mode</span><span class="o">=</span><span class="s2">&quot;all&quot;</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vision_vocab_size</span> <span class="o">=</span> <span class="n">vision_vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tie_vision_embeddings</span> <span class="o">=</span> <span class="n">tie_vision_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sample_mode</span> <span class="o">=</span> <span class="n">sample_mode</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">            1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">                partition the model fully or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;model/embed_vision/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;vision_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;model/embed_vision/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;vision_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mistral.vision_mistral_configuration.VisionMistralConfig.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+    1) A regex string that matches the name of one or more parameters in the model.
+    2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to
+partition the model fully or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mistral/vision_mistral_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">        1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">            partition the model fully or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;model/embed_vision/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;vision_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;model/embed_vision/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;vision_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-mixtral-mixtral_configuration/index.html b/generated-modules-mixtral-mixtral_configuration/index.html
new file mode 100644
index 000000000..3896d7a8f
--- /dev/null
+++ b/generated-modules-mixtral-mixtral_configuration/index.html
@@ -0,0 +1,7906 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-mistral-vision_mistral_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-mixtral-modelling_mixtral_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Mixtral Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesmixtralmixtral_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Mixtral Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.mixtral_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      mixtral_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      MixtralConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="MixtralConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.mixtral_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      mixtral_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      MixtralConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="MixtralConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesmixtralmixtral_configuration">modules.mixtral.mixtral_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.mixtral.mixtral_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig" class="doc doc-heading">
+            <code>MixtralConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mixtral/mixtral_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  8</span>
+<span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">MixtralConfig</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;mixtral&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">32000</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">14336</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span>
+            <span class="n">hidden_act</span><span class="o">=</span><span class="s2">&quot;silu&quot;</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">4096</span> <span class="o">*</span> <span class="mi">32</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-5</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="o">=</span><span class="mf">1e6</span><span class="p">,</span>
+            <span class="n">sliding_window</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">num_experts_per_tok</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+            <span class="n">num_local_experts</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">router_aux_loss_coef</span><span class="o">=</span><span class="mf">0.001</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_bias</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">initialization_of_moe</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">router_jitter_noise</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It allows the class to initialize the attributes of a class.</span>
+<span class="sd">        The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            vocab_size: Define the size of the vocabulary</span>
+<span class="sd">            hidden_size: Determine the size of the embedding layers</span>
+<span class="sd">            intermediate_size: Define the size of the intermediate layer</span>
+<span class="sd">                in each transformer block</span>
+<span class="sd">            num_hidden_layers: Determine the number of layers in the</span>
+<span class="sd">                encoder and decoder</span>
+<span class="sd">            num_attention_heads: Determine the number of attention heads</span>
+<span class="sd">                in each layer</span>
+<span class="sd">            num_key_value_heads: Specify the number of heads for key and</span>
+<span class="sd">                value</span>
+<span class="sd">            hidden_act: Specify the activation function used in the</span>
+<span class="sd">                hidden layers</span>
+<span class="sd">            max_position_embeddings: Set the maximum length of the</span>
+<span class="sd">                sequence</span>
+<span class="sd">            initializer_range: Initialize the weights of the model</span>
+<span class="sd">            rms_norm_eps: Avoid division by zero in the rms</span>
+<span class="sd">                normalization</span>
+<span class="sd">            use_cache: Determine whether to use the cache in the decoder</span>
+<span class="sd">            pad_token_id: Specify the token id of the padding token</span>
+<span class="sd">            bos_token_id: Specify the beginning of sentence token id</span>
+<span class="sd">            eos_token_id: Specify the end of sentence token</span>
+<span class="sd">            tie_word_embeddings: Tie the word embeddings and the output</span>
+<span class="sd">                layer</span>
+<span class="sd">            rope_theta: Control the number of tokens in a rope</span>
+<span class="sd">            sliding_window: Control the number of tokens that are</span>
+<span class="sd">                processed in parallel</span>
+<span class="sd">            gradient_checkpointing: str: Specify whether to use gradient</span>
+<span class="sd">                checkpointing</span>
+<span class="sd">            use_scan_mlp: bool: Determine whether or not to use the</span>
+<span class="sd">                scan_mlp function</span>
+<span class="sd">            scan_mlp_chunk_size: int: Specify the chunk size of the scan</span>
+<span class="sd">                mlp</span>
+<span class="sd">            number_rep_kv: int: Specify the number of times to repeat</span>
+<span class="sd">                the key and value vectors</span>
+<span class="sd">            bits: Optional[int]: Specify the number of bits used for</span>
+<span class="sd">                quantization</span>
+<span class="sd">            axis_dims: Sequence[int]: Specify the dimension of each axis</span>
+<span class="sd">            axis_names: Sequence[str]: Specify the names of each axis in</span>
+<span class="sd">                the tensor</span>
+<span class="sd">            &amp;quot;mp&amp;quot;): Define the maximum position embeddings</span>
+<span class="sd">            **kwargs: Pass a variable number of keyword arguments to a</span>
+<span class="sd">                function</span>
+<span class="sd">            rope_scaling: Dict[str, Union[str, float]]: rope scaling</span>
+<span class="sd">                information</span>
+<span class="sd">            attention_dropout: float: Set the dropout rate for the</span>
+<span class="sd">                attention layer</span>
+<span class="sd">            initialization_of_moe: bool: initialization of moe needs to</span>
+<span class="sd">                disable some dynamic part&#39;s this boolean variable will</span>
+<span class="sd">                turn them off.</span>
+<span class="sd">            attention_bias: bool: when ever to use attention_bias</span>
+<span class="sd">        :param : Define the number of layers in the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            An instance of the class</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sliding_window</span> <span class="o">=</span> <span class="n">sliding_window</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_local_experts</span> <span class="o">=</span> <span class="n">num_local_experts</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_experts_per_tok</span> <span class="o">=</span> <span class="n">num_experts_per_tok</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">output_router_logits</span> <span class="o">=</span> <span class="n">output_router_logits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">router_aux_loss_coef</span> <span class="o">=</span> <span class="n">router_aux_loss_coef</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+        <span class="c1"># for backward compatibility</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="k">if</span> <span class="n">num_key_value_heads</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="n">initialization_of_moe</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">router_jitter_noise</span> <span class="o">=</span> <span class="n">router_jitter_noise</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="n">pad_token_id</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="o">=</span><span class="n">use_scan_mlp</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+            <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">          1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">          2) A PartitionScheme object that defines how those parameters should be partitioned.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to use</span>
+<span class="sd">                the fully_sharded_data_parallel partitioning scheme or</span>
+<span class="sd">                not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;w3/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;w3/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_bias</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">initialization_of_moe</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the model:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Bind the attributes and methods of a class to an</span>
+<span class="sd">                instance of that class</span>
+<span class="sd">            gradient_checkpointing: str: Determine whether to use</span>
+<span class="sd">                gradient checkpointing</span>
+<span class="sd">            use_scan_mlp: bool: Determine whether to use the scan_mlp</span>
+<span class="sd">                function or not</span>
+<span class="sd">            scan_mlp_chunk_size: int: Chunk the input to the mlp</span>
+<span class="sd">            number_rep_kv: int: Control the number of times that the key</span>
+<span class="sd">                and value vectors are repeated</span>
+<span class="sd">            bits: Optional[int]: Specify the number of bits to use for</span>
+<span class="sd">                quantization</span>
+<span class="sd">            attention_dropout: float: Set the dropout rate for the</span>
+<span class="sd">                attention layer</span>
+<span class="sd">            attention_bias: bool: when ever to use attention_bias</span>
+<span class="sd">            initialization_of_moe: bool: initialization of moe needs to</span>
+<span class="sd">                disable some dynamic part&#39;s this boolean variable will</span>
+<span class="sd">                turn them off.</span>
+<span class="sd">            rope_scaling: Dict[str, Union[str, float]]: rope_scaling for</span>
+<span class="sd">                rope</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the following:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="n">initialization_of_moe</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_weight_decay_exclusions</span><span class="p">():</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">rng_keys</span><span class="p">():</span>
+        <span class="k">return</span> <span class="s1">&#39;params&#39;</span><span class="p">,</span> <span class="s1">&#39;dropout&#39;</span><span class="p">,</span> <span class="s1">&#39;fcm&#39;</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">vocab_size</span><span class="o">=</span><span class="mi">32000</span><span class="p">,</span> <span class="n">hidden_size</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span> <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">14336</span><span class="p">,</span> <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span> <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span> <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span> <span class="n">hidden_act</span><span class="o">=</span><span class="s1">&#39;silu&#39;</span><span class="p">,</span> <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">4096</span> <span class="o">*</span> <span class="mi">32</span><span class="p">,</span> <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span> <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-05</span><span class="p">,</span> <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">pad_token_id</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">rope_theta</span><span class="o">=</span><span class="mf">1000000.0</span><span class="p">,</span> <span class="n">sliding_window</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">num_experts_per_tok</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">num_local_experts</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span> <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">router_aux_loss_coef</span><span class="o">=</span><span class="mf">0.001</span><span class="p">,</span> <span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">use_scan_mlp</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="mi">1024</span><span class="p">,</span> <span class="n">number_rep_kv</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rope_scaling</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">attention_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">initialization_of_moe</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">router_jitter_noise</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It allows the class to initialize the attributes of a class.
+The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>vocab_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the size of the vocabulary</p>
+              </div>
+            </td>
+            <td>
+                  <code>32000</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine the size of the embedding layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>4096</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>intermediate_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the size of the intermediate layer
+in each transformer block</p>
+              </div>
+            </td>
+            <td>
+                  <code>14336</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_hidden_layers</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine the number of layers in the
+encoder and decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>32</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_attention_heads</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine the number of attention heads
+in each layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>32</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_key_value_heads</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the number of heads for key and
+value</p>
+              </div>
+            </td>
+            <td>
+                  <code>8</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_act</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the activation function used in the
+hidden layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;silu&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_position_embeddings</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the maximum length of the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>4096 * 32</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>initializer_range</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.02</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rms_norm_eps</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Avoid division by zero in the rms
+normalization</p>
+              </div>
+            </td>
+            <td>
+                  <code>1e-05</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_cache</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine whether to use the cache in the decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>pad_token_id</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the token id of the padding token</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bos_token_id</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the beginning of sentence token id</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>eos_token_id</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the end of sentence token</p>
+              </div>
+            </td>
+            <td>
+                  <code>2</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tie_word_embeddings</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tie the word embeddings and the output
+layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rope_theta</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Control the number of tokens in a rope</p>
+              </div>
+            </td>
+            <td>
+                  <code>1000000.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sliding_window</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Control the number of tokens that are
+processed in parallel</p>
+              </div>
+            </td>
+            <td>
+                  <code>4096</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Specify whether to use gradient
+checkpointing</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_scan_mlp</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether or not to use the
+scan_mlp function</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_mlp_chunk_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Specify the chunk size of the scan
+mlp</p>
+              </div>
+            </td>
+            <td>
+                  <code>1024</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>number_rep_kv</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Specify the number of times to repeat
+the key and value vectors</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Specify the number of bits used for
+quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_dims</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[int]: Specify the dimension of each axis</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_names</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[str]: Specify the names of each axis in
+the tensor</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>&amp;quot;mp&amp;quot;)</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the maximum position embeddings</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass a variable number of keyword arguments to a
+function</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rope_scaling</code></td>
+            <td>
+                  <code><span title="typing.Dict">Dict</span>[str, <span title="typing.Union">Union</span>[str, float]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Dict[str, Union[str, float]]: rope scaling
+information</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_dropout</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the dropout rate for the
+attention layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>initialization_of_moe</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: initialization of moe needs to
+disable some dynamic part's this boolean variable will
+turn them off.</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_bias</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: when ever to use attention_bias</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Define the number of layers in the model</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>An instance of the class</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mixtral/mixtral_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">vocab_size</span><span class="o">=</span><span class="mi">32000</span><span class="p">,</span>
+        <span class="n">hidden_size</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+        <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">14336</span><span class="p">,</span>
+        <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+        <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+        <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span>
+        <span class="n">hidden_act</span><span class="o">=</span><span class="s2">&quot;silu&quot;</span><span class="p">,</span>
+        <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">4096</span> <span class="o">*</span> <span class="mi">32</span><span class="p">,</span>
+        <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+        <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-5</span><span class="p">,</span>
+        <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">pad_token_id</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+        <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+        <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">rope_theta</span><span class="o">=</span><span class="mf">1e6</span><span class="p">,</span>
+        <span class="n">sliding_window</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+        <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">num_experts_per_tok</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+        <span class="n">num_local_experts</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">router_aux_loss_coef</span><span class="o">=</span><span class="mf">0.001</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+        <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">attention_bias</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">initialization_of_moe</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">router_jitter_noise</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It allows the class to initialize the attributes of a class.</span>
+<span class="sd">    The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        vocab_size: Define the size of the vocabulary</span>
+<span class="sd">        hidden_size: Determine the size of the embedding layers</span>
+<span class="sd">        intermediate_size: Define the size of the intermediate layer</span>
+<span class="sd">            in each transformer block</span>
+<span class="sd">        num_hidden_layers: Determine the number of layers in the</span>
+<span class="sd">            encoder and decoder</span>
+<span class="sd">        num_attention_heads: Determine the number of attention heads</span>
+<span class="sd">            in each layer</span>
+<span class="sd">        num_key_value_heads: Specify the number of heads for key and</span>
+<span class="sd">            value</span>
+<span class="sd">        hidden_act: Specify the activation function used in the</span>
+<span class="sd">            hidden layers</span>
+<span class="sd">        max_position_embeddings: Set the maximum length of the</span>
+<span class="sd">            sequence</span>
+<span class="sd">        initializer_range: Initialize the weights of the model</span>
+<span class="sd">        rms_norm_eps: Avoid division by zero in the rms</span>
+<span class="sd">            normalization</span>
+<span class="sd">        use_cache: Determine whether to use the cache in the decoder</span>
+<span class="sd">        pad_token_id: Specify the token id of the padding token</span>
+<span class="sd">        bos_token_id: Specify the beginning of sentence token id</span>
+<span class="sd">        eos_token_id: Specify the end of sentence token</span>
+<span class="sd">        tie_word_embeddings: Tie the word embeddings and the output</span>
+<span class="sd">            layer</span>
+<span class="sd">        rope_theta: Control the number of tokens in a rope</span>
+<span class="sd">        sliding_window: Control the number of tokens that are</span>
+<span class="sd">            processed in parallel</span>
+<span class="sd">        gradient_checkpointing: str: Specify whether to use gradient</span>
+<span class="sd">            checkpointing</span>
+<span class="sd">        use_scan_mlp: bool: Determine whether or not to use the</span>
+<span class="sd">            scan_mlp function</span>
+<span class="sd">        scan_mlp_chunk_size: int: Specify the chunk size of the scan</span>
+<span class="sd">            mlp</span>
+<span class="sd">        number_rep_kv: int: Specify the number of times to repeat</span>
+<span class="sd">            the key and value vectors</span>
+<span class="sd">        bits: Optional[int]: Specify the number of bits used for</span>
+<span class="sd">            quantization</span>
+<span class="sd">        axis_dims: Sequence[int]: Specify the dimension of each axis</span>
+<span class="sd">        axis_names: Sequence[str]: Specify the names of each axis in</span>
+<span class="sd">            the tensor</span>
+<span class="sd">        &amp;quot;mp&amp;quot;): Define the maximum position embeddings</span>
+<span class="sd">        **kwargs: Pass a variable number of keyword arguments to a</span>
+<span class="sd">            function</span>
+<span class="sd">        rope_scaling: Dict[str, Union[str, float]]: rope scaling</span>
+<span class="sd">            information</span>
+<span class="sd">        attention_dropout: float: Set the dropout rate for the</span>
+<span class="sd">            attention layer</span>
+<span class="sd">        initialization_of_moe: bool: initialization of moe needs to</span>
+<span class="sd">            disable some dynamic part&#39;s this boolean variable will</span>
+<span class="sd">            turn them off.</span>
+<span class="sd">        attention_bias: bool: when ever to use attention_bias</span>
+<span class="sd">    :param : Define the number of layers in the model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        An instance of the class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">sliding_window</span> <span class="o">=</span> <span class="n">sliding_window</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_local_experts</span> <span class="o">=</span> <span class="n">num_local_experts</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_experts_per_tok</span> <span class="o">=</span> <span class="n">num_experts_per_tok</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">output_router_logits</span> <span class="o">=</span> <span class="n">output_router_logits</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">router_aux_loss_coef</span> <span class="o">=</span> <span class="n">router_aux_loss_coef</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+    <span class="c1"># for backward compatibility</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+    <span class="k">if</span> <span class="n">num_key_value_heads</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="n">initialization_of_moe</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">router_jitter_noise</span> <span class="o">=</span> <span class="n">router_jitter_noise</span>
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="n">pad_token_id</span><span class="o">=</span><span class="n">pad_token_id</span><span class="p">,</span>
+        <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+        <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+        <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+        <span class="n">use_scan_mlp</span><span class="o">=</span><span class="n">use_scan_mlp</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+        <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig.add_jax_args" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_jax_args</span><span class="p">(</span><span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">use_scan_mlp</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="mi">1024</span><span class="p">,</span> <span class="n">number_rep_kv</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">rope_scaling</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">attention_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">initialization_of_moe</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The add_jax_args function adds the following arguments to the model:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Bind the attributes and methods of a class to an
+instance of that class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Determine whether to use
+gradient checkpointing</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_scan_mlp</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use the scan_mlp
+function or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_mlp_chunk_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Chunk the input to the mlp</p>
+              </div>
+            </td>
+            <td>
+                  <code>1024</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>number_rep_kv</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Control the number of times that the key
+and value vectors are repeated</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Specify the number of bits to use for
+quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_dropout</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the dropout rate for the
+attention layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_bias</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: when ever to use attention_bias</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>initialization_of_moe</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: initialization of moe needs to
+disable some dynamic part's this boolean variable will
+turn them off.</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rope_scaling</code></td>
+            <td>
+                  <code><span title="typing.Dict">Dict</span>[str, <span title="typing.Union">Union</span>[str, float]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Dict[str, Union[str, float]]: rope_scaling for
+rope</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the following:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mixtral/mixtral_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+        <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">attention_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">attention_bias</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">initialization_of_moe</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the model:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Bind the attributes and methods of a class to an</span>
+<span class="sd">            instance of that class</span>
+<span class="sd">        gradient_checkpointing: str: Determine whether to use</span>
+<span class="sd">            gradient checkpointing</span>
+<span class="sd">        use_scan_mlp: bool: Determine whether to use the scan_mlp</span>
+<span class="sd">            function or not</span>
+<span class="sd">        scan_mlp_chunk_size: int: Chunk the input to the mlp</span>
+<span class="sd">        number_rep_kv: int: Control the number of times that the key</span>
+<span class="sd">            and value vectors are repeated</span>
+<span class="sd">        bits: Optional[int]: Specify the number of bits to use for</span>
+<span class="sd">            quantization</span>
+<span class="sd">        attention_dropout: float: Set the dropout rate for the</span>
+<span class="sd">            attention layer</span>
+<span class="sd">        attention_bias: bool: when ever to use attention_bias</span>
+<span class="sd">        initialization_of_moe: bool: initialization of moe needs to</span>
+<span class="sd">            disable some dynamic part&#39;s this boolean variable will</span>
+<span class="sd">            turn them off.</span>
+<span class="sd">        rope_scaling: Dict[str, Union[str, float]]: rope_scaling for</span>
+<span class="sd">            rope</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the following:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_bias</span> <span class="o">=</span> <span class="n">attention_bias</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="n">initialization_of_moe</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+  1) A regex string that matches the name of one or more parameters in the model.
+  2) A PartitionScheme object that defines how those parameters should be partitioned.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use
+the fully_sharded_data_parallel partitioning scheme or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mixtral/mixtral_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">      1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">      2) A PartitionScheme object that defines how those parameters should be partitioned.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to use</span>
+<span class="sd">            the fully_sharded_data_parallel partitioning scheme or</span>
+<span class="sd">            not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;w3/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;w3/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-mixtral-modelling_mixtral_flax/index.html b/generated-modules-mixtral-modelling_mixtral_flax/index.html
new file mode 100644
index 000000000..367a641d6
--- /dev/null
+++ b/generated-modules-mixtral-modelling_mixtral_flax/index.html
@@ -0,0 +1,10250 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-mixtral-mixtral_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-mosaic_mpt-modelling_mpt_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Mixtral Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesmixtralmodelling_mixtral_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Mixtral Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_mixtral_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMixtralAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMixtralAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayer" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMixtralDecoderLayer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMixtralDecoderLayer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayer.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayerCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMixtralDecoderLayerCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMixtralDecoderLayerCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayerCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMixtralForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMixtralForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralSparseMoeBlock" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMixtralSparseMoeBlock
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.MixtralPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      MixtralPreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="MixtralPreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.MixtralPreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.MixtralPreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_mixtral_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMixtralAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMixtralAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayer" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMixtralDecoderLayer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMixtralDecoderLayer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayer.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayerCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMixtralDecoderLayerCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMixtralDecoderLayerCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayerCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMixtralForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMixtralForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralSparseMoeBlock" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMixtralSparseMoeBlock
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.MixtralPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      MixtralPreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="MixtralPreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.MixtralPreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.MixtralPreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesmixtralmodelling_mixtral_flax">modules.mixtral.modelling_mixtral_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.mixtral.modelling_mixtral_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralAttention" class="doc doc-heading">
+            <code>FlaxMixtralAttention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxMixtralAttention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">MixtralConfig</span>
+    <span class="n">layer_index</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span>
+
+        <span class="n">dense</span> <span class="o">=</span> <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+            <span class="n">Linear</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;attention_bias&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(),</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span> <span class="o">=</span> <span class="n">dense</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span> <span class="o">=</span> <span class="n">dense</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span> <span class="o">=</span> <span class="n">dense</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span> <span class="o">=</span> <span class="n">dense</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span> <span class="o">=</span> <span class="n">FlaxMixtralRotaryEmbedding</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">use_sharding_constraint</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span>
+        <span class="p">)</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+        <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span>
+                              <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span>
+                          <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span>
+                              <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It defines how the module behaves when called as a function, and it&#39;s what you&#39;ll use to call your model in practice.</span>
+<span class="sd">        The __call__ method takes an input tensor (x) and returns an output tensor (y).</span>
+<span class="sd">        In this case, we&#39;re defining our model to be a simple linear layer with no activation: y = x @ w + b.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            hidden_states: chex.Array: Pass in the hidden state of the</span>
+<span class="sd">                model</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Create the</span>
+<span class="sd">                apply_rotary variable</span>
+<span class="sd">            attention_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">            causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in a sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (out, attn_output)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+        <span class="p">)</span>
+
+        <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                     <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+        <span class="c1"># if self.config.use_sharding_constraint:</span>
+        <span class="c1">#     query_states = with_sharding_constraint(</span>
+        <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     key_states = with_sharding_constraint(</span>
+        <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     value_states = with_sharding_constraint(</span>
+        <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralAttention.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It defines how the module behaves when called as a function, and it's what you'll use to call your model in practice.
+The <strong>call</strong> method takes an input tensor (x) and returns an output tensor (y).
+In this case, we're defining our model to be a simple linear layer with no activation: y = x @ w + b.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the hidden state of the
+model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Create the
+apply_rotary variable</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of (out, attn_output)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It defines how the module behaves when called as a function, and it&#39;s what you&#39;ll use to call your model in practice.</span>
+<span class="sd">    The __call__ method takes an input tensor (x) and returns an output tensor (y).</span>
+<span class="sd">    In this case, we&#39;re defining our model to be a simple linear layer with no activation: y = x @ w + b.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        hidden_states: chex.Array: Pass in the hidden state of the</span>
+<span class="sd">            model</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Create the</span>
+<span class="sd">            apply_rotary variable</span>
+<span class="sd">        attention_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">        causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in a sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of (out, attn_output)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+        <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+    <span class="p">)</span>
+
+    <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">)</span>
+
+    <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+        <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+        <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                 <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+        <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+    <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+        <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+        <span class="p">)</span>
+    <span class="c1"># if self.config.use_sharding_constraint:</span>
+    <span class="c1">#     query_states = with_sharding_constraint(</span>
+    <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     key_states = with_sharding_constraint(</span>
+    <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     value_states = with_sharding_constraint(</span>
+    <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+        <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+        <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+        <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+    <span class="p">)</span>
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                <span class="s2">&quot;tp&quot;</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayer" class="doc doc-heading">
+            <code>FlaxMixtralDecoderLayer</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="flax.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxMixtralDecoderLayer</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">MixtralConfig</span>
+    <span class="n">layer_index</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="c1"># hidden_states: chex.Array</span>
+        <span class="c1"># freq_cis: Tuple[chex.Array, chex.Array],</span>
+        <span class="c1"># attention_mask: chex.Array</span>
+        <span class="c1"># causal_mask: chex.Array</span>
+        <span class="c1"># position_ids: chex.Array</span>
+        <span class="c1"># deterministic: bool = True</span>
+        <span class="c1"># init_cache: bool = False</span>
+        <span class="c1"># output_attentions: bool = True</span>
+
+        <span class="n">attn_block</span> <span class="o">=</span> <span class="n">FlaxMixtralAttention</span>
+        <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">FlaxMixtralSparseMoeBlock</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">attn_block</span> <span class="o">=</span> <span class="n">re_mat</span><span class="p">(</span>
+                <span class="n">attn_block</span><span class="p">,</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="p">),</span>
+                <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span>
+                    <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">6</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">8</span><span class="p">,</span> <span class="mi">9</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">re_mat</span><span class="p">(</span>
+                <span class="n">mlp_block</span><span class="p">,</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="p">),</span>
+                <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span>
+                    <span class="mi">1</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span> <span class="o">=</span> <span class="n">attn_block</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">layer_index</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">layer_index</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_sparse_moe</span> <span class="o">=</span> <span class="n">mlp_block</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span> <span class="o">=</span> <span class="n">MixtralRMSNorm</span><span class="p">(</span>
+            <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span> <span class="o">=</span> <span class="n">MixtralRMSNorm</span><span class="p">(</span>
+            <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">        It takes in the following arguments:</span>
+<span class="sd">            hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.</span>
+<span class="sd">            freq_cis (chex.Array): A tensor containing frequency-domain representations of each token&#39;s context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            hidden_states: chex.Array: Represent the input to the</span>
+<span class="sd">                encoder layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency</span>
+<span class="sd">                information to the attention layer</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for certain positions</span>
+<span class="sd">            causal_mask: chex.Array: Mask the future tokens</span>
+<span class="sd">            position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">                token in the sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the self-</span>
+<span class="sd">                attention layer</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of hidden_states and attention_output</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">residual</span> <span class="o">=</span> <span class="n">hidden_states</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="c1"># hidden_states: chex.Array</span>
+        <span class="c1"># freq_cis: Tuple[chex.Array, chex.Array],</span>
+        <span class="c1"># attention_mask: chex.Array</span>
+        <span class="c1"># causal_mask: chex.Array</span>
+        <span class="c1"># position_ids: chex.Array</span>
+        <span class="c1"># segment_ids: Optional[chex.Array] = None</span>
+        <span class="c1"># deterministic: bool = True</span>
+        <span class="c1"># init_cache: bool = False</span>
+        <span class="c1"># output_attentions: bool = True</span>
+
+        <span class="n">hidden_states</span><span class="p">,</span> <span class="n">self_attn_weights</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">residual</span> <span class="o">+</span> <span class="n">hidden_states</span>
+
+        <span class="n">residual</span> <span class="o">=</span> <span class="n">hidden_states</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">hidden_states</span><span class="p">,</span> <span class="n">router_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_sparse_moe</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">residual</span> <span class="o">+</span> <span class="n">hidden_states</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">self_attn_weights</span><span class="p">,)</span>
+        <span class="k">if</span> <span class="n">output_router_logits</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">router_logits</span><span class="p">,)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayer.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a TransformerEncoderLayer.
+It takes in the following arguments:
+    hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.
+    freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Represent the input to the
+encoder layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass the frequency
+information to the attention layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for certain positions</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the future tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Indicate the position of each
+token in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the self-
+attention layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of hidden_states and attention_output</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">    It takes in the following arguments:</span>
+<span class="sd">        hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.</span>
+<span class="sd">        freq_cis (chex.Array): A tensor containing frequency-domain representations of each token&#39;s context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        hidden_states: chex.Array: Represent the input to the</span>
+<span class="sd">            encoder layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency</span>
+<span class="sd">            information to the attention layer</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for certain positions</span>
+<span class="sd">        causal_mask: chex.Array: Mask the future tokens</span>
+<span class="sd">        position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">            token in the sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the self-</span>
+<span class="sd">            attention layer</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of hidden_states and attention_output</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">residual</span> <span class="o">=</span> <span class="n">hidden_states</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="c1"># hidden_states: chex.Array</span>
+    <span class="c1"># freq_cis: Tuple[chex.Array, chex.Array],</span>
+    <span class="c1"># attention_mask: chex.Array</span>
+    <span class="c1"># causal_mask: chex.Array</span>
+    <span class="c1"># position_ids: chex.Array</span>
+    <span class="c1"># segment_ids: Optional[chex.Array] = None</span>
+    <span class="c1"># deterministic: bool = True</span>
+    <span class="c1"># init_cache: bool = False</span>
+    <span class="c1"># output_attentions: bool = True</span>
+
+    <span class="n">hidden_states</span><span class="p">,</span> <span class="n">self_attn_weights</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">residual</span> <span class="o">+</span> <span class="n">hidden_states</span>
+
+    <span class="n">residual</span> <span class="o">=</span> <span class="n">hidden_states</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="n">hidden_states</span><span class="p">,</span> <span class="n">router_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">block_sparse_moe</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">residual</span> <span class="o">+</span> <span class="n">hidden_states</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+    <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">self_attn_weights</span><span class="p">,)</span>
+    <span class="k">if</span> <span class="n">output_router_logits</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">router_logits</span><span class="p">,)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayerCollection" class="doc doc-heading">
+            <code>FlaxMixtralDecoderLayerCollection</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="flax.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxMixtralDecoderLayerCollection</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">MixtralConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">FlaxMixtralDecoderLayer</span><span class="p">(</span>
+                <span class="n">layer_index</span><span class="o">=</span><span class="n">layer_index</span><span class="p">,</span>
+                <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+                <span class="n">name</span><span class="o">=</span><span class="nb">str</span><span class="p">(</span><span class="n">layer_index</span><span class="p">)</span>
+            <span class="p">)</span>
+
+            <span class="k">for</span> <span class="n">layer_index</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_hidden_layers</span><span class="p">)</span>
+        <span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">        It takes in the following arguments:</span>
+<span class="sd">            hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.</span>
+<span class="sd">            freq_cis (chex.Array): A tensor containing frequency-domain representations of each token&#39;s context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            hidden_states: chex.Array: Represent the input to the</span>
+<span class="sd">                encoder layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency</span>
+<span class="sd">                information to the attention layer</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for certain positions</span>
+<span class="sd">            causal_mask: chex.Array: Mask the future tokens</span>
+<span class="sd">            position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">                token in the sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the self-</span>
+<span class="sd">                attention layer</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of hidden_states, attention_output,</span>
+<span class="sd">            all_hidden_states and all_router_logits</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="n">all_self_attns</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="n">all_router_logits</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_router_logits</span> <span class="k">else</span> <span class="kc">None</span>
+
+        <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+                <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+            <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+                <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+                <span class="n">output_router_logits</span><span class="o">=</span><span class="n">output_router_logits</span><span class="p">,</span>
+                <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+                <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+                <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+            <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+                <span class="n">all_self_attns</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],)</span>
+
+            <span class="k">if</span> <span class="n">output_router_logits</span><span class="p">:</span>
+                <span class="n">all_router_logits</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_self_attns</span><span class="p">,)</span>
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_hidden_states</span><span class="p">,)</span>
+        <span class="k">if</span> <span class="n">output_router_logits</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_router_logits</span><span class="p">,)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayerCollection.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a TransformerEncoderLayer.
+It takes in the following arguments:
+    hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.
+    freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Represent the input to the
+encoder layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass the frequency
+information to the attention layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for certain positions</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the future tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Indicate the position of each
+token in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the self-
+attention layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of hidden_states, attention_output,</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>all_hidden_states and all_router_logits</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">    It takes in the following arguments:</span>
+<span class="sd">        hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.</span>
+<span class="sd">        freq_cis (chex.Array): A tensor containing frequency-domain representations of each token&#39;s context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        hidden_states: chex.Array: Represent the input to the</span>
+<span class="sd">            encoder layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency</span>
+<span class="sd">            information to the attention layer</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for certain positions</span>
+<span class="sd">        causal_mask: chex.Array: Mask the future tokens</span>
+<span class="sd">        position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">            token in the sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the self-</span>
+<span class="sd">            attention layer</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of hidden_states, attention_output,</span>
+<span class="sd">        all_hidden_states and all_router_logits</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="n">all_self_attns</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="n">all_router_logits</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_router_logits</span> <span class="k">else</span> <span class="kc">None</span>
+
+    <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="o">=</span><span class="n">output_router_logits</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">all_self_attns</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],)</span>
+
+        <span class="k">if</span> <span class="n">output_router_logits</span><span class="p">:</span>
+            <span class="n">all_router_logits</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+    <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_self_attns</span><span class="p">,)</span>
+    <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_hidden_states</span><span class="p">,)</span>
+    <span class="k">if</span> <span class="n">output_router_logits</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">+=</span> <span class="p">(</span><span class="n">all_router_logits</span><span class="p">,)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralForCausalLM" class="doc doc-heading">
+            <code>FlaxMixtralForCausalLM</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.mixtral.modelling_mixtral_flax.MixtralPreTrainedModel" href="#src.python.easydel.modules.mixtral.modelling_mixtral_flax.MixtralPreTrainedModel">MixtralPreTrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span>
+<span class="normal">1149</span>
+<span class="normal">1150</span>
+<span class="normal">1151</span>
+<span class="normal">1152</span>
+<span class="normal">1153</span>
+<span class="normal">1154</span>
+<span class="normal">1155</span>
+<span class="normal">1156</span>
+<span class="normal">1157</span>
+<span class="normal">1158</span>
+<span class="normal">1159</span>
+<span class="normal">1160</span>
+<span class="normal">1161</span>
+<span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span>
+<span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxMixtralForCausalLM</span><span class="p">(</span><span class="n">MixtralPreTrainedModel</span><span class="p">):</span>
+    <span class="n">module_class</span> <span class="o">=</span> <span class="n">FlaxMixtralForCausalLMModule</span>
+
+    <span class="k">def</span> <span class="nf">set_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">embed_tokens</span> <span class="o">=</span> <span class="n">value</span>
+
+    <span class="k">def</span> <span class="nf">get_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">embed_tokens</span>
+
+    <span class="k">def</span> <span class="nf">set_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">decoder</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">decoder</span>
+
+    <span class="k">def</span> <span class="nf">get_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span>
+
+    <span class="k">def</span> <span class="nf">get_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">lm_head</span>
+
+    <span class="k">def</span> <span class="nf">set_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">new_embeddings</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">lm_head</span> <span class="o">=</span> <span class="n">new_embeddings</span>
+
+    <span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            input_ids: Pass in the input tokens</span>
+<span class="sd">            max_length: Set the length of the sequence to be generated</span>
+<span class="sd">            attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">                weights</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">            position ids</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+            <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+                <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+            <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+            <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">update_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_outputs</span><span class="p">,</span> <span class="n">model_kwargs</span><span class="p">):</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">past_key_values</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">][:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">:]</span> <span class="o">+</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="n">model_kwargs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralForCausalLM.prepare_inputs_for_generation" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">prepare_inputs_for_generation</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the length of the sequence to be generated</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[chex.Array]: Mask the attention
+weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of the past_key_values, attention_mask and</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>position ids</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span>
+<span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        input_ids: Pass in the input tokens</span>
+<span class="sd">        max_length: Set the length of the sequence to be generated</span>
+<span class="sd">        attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">            weights</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">        position ids</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+    <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+        <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+            <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+        <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+        <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralSparseMoeBlock" class="doc doc-heading">
+            <code>FlaxMixtralSparseMoeBlock</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="flax.linen.Module">Module</span></code></p>
+
+
+      <p>This implementation is
+strictly equivalent to standard MoE with full capacity (no
+dropped tokens). It's faster since it formulates MoE operations
+in terms of block-sparse operations to accomodate imbalanced
+assignments of tokens to experts, whereas standard MoE either
+(1) drop tokens at the cost of reduced performance or (2) set
+capacity factor to number of experts and thus waste computation
+and memory on padding.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxMixtralSparseMoeBlock</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;This implementation is</span>
+<span class="sd">    strictly equivalent to standard MoE with full capacity (no</span>
+<span class="sd">    dropped tokens). It&#39;s faster since it formulates MoE operations</span>
+<span class="sd">    in terms of block-sparse operations to accomodate imbalanced</span>
+<span class="sd">    assignments of tokens to experts, whereas standard MoE either</span>
+<span class="sd">    (1) drop tokens at the cost of reduced performance or (2) set</span>
+<span class="sd">    capacity factor to number of experts and thus waste computation</span>
+<span class="sd">    and memory on padding.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">MixtralConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span>
+        <span class="n">Union</span><span class="p">[</span><span class="kc">None</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span>
+    <span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_local_experts</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(),</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">experts</span> <span class="o">=</span> <span class="n">FlaxMixtralBlocKSparesTop2MLPCollection</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">e</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>  <span class="c1"># Ignored</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]:</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">hidden_dim</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">router_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">gate</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span>  <span class="c1"># no reshaping is needed</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">promote_types</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">routing_weights</span><span class="p">,</span> <span class="n">selected_experts</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">top_k</span><span class="p">(</span>
+            <span class="n">router_logits</span><span class="p">,</span>
+            <span class="n">k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_experts_per_tok</span>
+        <span class="p">)</span>
+        <span class="n">routing_weights</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span>
+            <span class="n">routing_weights</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">promote_types</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+            <span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">experts</span><span class="p">(</span>
+            <span class="n">selected_experts</span><span class="o">=</span><span class="n">selected_experts</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span><span class="p">,</span>
+            <span class="n">hidden_dim</span><span class="o">=</span><span class="n">hidden_dim</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">routing_weights</span><span class="o">=</span><span class="n">routing_weights</span>
+        <span class="p">),</span> <span class="n">router_logits</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mixtral.modelling_mixtral_flax.MixtralPreTrainedModel" class="doc doc-heading">
+            <code>MixtralPreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span>
+<span class="normal">914</span>
+<span class="normal">915</span>
+<span class="normal">916</span>
+<span class="normal">917</span>
+<span class="normal">918</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">MixtralPreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span><span class="p">:</span> <span class="n">MixtralConfig</span> <span class="o">=</span> <span class="n">MixtralConfig</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;model&quot;</span>
+
+    <span class="c1"># main_input_name = &quot;input_ids&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">MixtralConfig</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span>
+                <span class="s2">&quot;fastest&quot;</span><span class="p">),</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">,</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">module</span><span class="p">,</span> <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+            <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+<span class="sd">        It takes in a rng, which is a random number generator key that can be used to generate random numbers.</span>
+<span class="sd">        The input_shape parameter specifies the shape of the inputs that will be fed into this model.</span>
+<span class="sd">        The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Initialize the input_ids, attention_mask</span>
+<span class="sd">                and position_ids</span>
+<span class="sd">            params: flax.core.FrozenDict: Pass in the parameters of a</span>
+<span class="sd">                pre-trained model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">True</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">input_shape</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+            <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+                <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+            <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">encoder_hidden_states</span><span class="p">,</span>
+                <span class="n">encoder_attention_mask</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It takes as input:</span>
+<span class="sd">        - The parameters of the model (self.params)</span>
+<span class="sd">        - The inputs to the model (input_ids, attention_mask, position_ids)</span>
+<span class="sd">        - Whether we are training (train=True/False) and whether we want to return all hidden states and</span>
+<span class="sd">        attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: Pass the input sequence to the model</span>
+<span class="sd">            attention_mask: Mask out the padding tokens</span>
+<span class="sd">            position_ids: Specify the position of each token in the</span>
+<span class="sd">                sequence</span>
+<span class="sd">            params: dict: Pass in the parameters of the model</span>
+<span class="sd">            past_key_values: dict: Pass the past key values to the model</span>
+<span class="sd">            dropout_rng: jax.random.PRNGKey: Pass in a random number</span>
+<span class="sd">                generator key to the model</span>
+<span class="sd">            train: bool: Determine whether to use dropout or not</span>
+<span class="sd">            output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the attention weights</span>
+<span class="sd">            output_hidden_states: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the hidden states of all layers</span>
+<span class="sd">            return_dict: Optional[bool]: Return a dictionary of the</span>
+<span class="sd">                outputs</span>
+<span class="sd">            add_params_field: bool: Add a params field to the inputs</span>
+<span class="sd">                dictionary</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (last_hidden_state, past_key_values)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rng_s</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rng_s</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>  <span class="c1"># input_ids: chex.Array</span>
+            <span class="c1"># attention_mask: Optional[chex.Array] = None</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="c1"># position_ids: Optional[chex.Array] = None</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="kc">None</span><span class="p">,</span>  <span class="c1"># inputs_embeds: Optional[chex.Array] = None</span>
+            <span class="n">output_attentions</span><span class="p">,</span>  <span class="c1"># output_attentions: Optional[bool] = None</span>
+            <span class="c1"># output_hidden_states: Optional[bool] = None</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="c1"># output_router_logits: Optional[bool] = None</span>
+            <span class="n">output_router_logits</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>  <span class="c1"># init_cache: bool = False</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>  <span class="c1"># deterministic: bool = True</span>
+            <span class="n">return_dict</span><span class="p">,</span>  <span class="c1"># return_dict: bool = True</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rng_s</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                      <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mixtral.modelling_mixtral_flax.MixtralPreTrainedModel.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">past_key_values</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dropout_rng</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It takes as input:
+- The parameters of the model (self.params)
+- The inputs to the model (input_ids, attention_mask, position_ids)
+- Whether we are training (train=True/False) and whether we want to return all hidden states and
+attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the input sequence to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>past_key_values</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass the past key values to the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dropout_rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Pass in a random number
+generator key to the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>train</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the hidden states of all layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Return a dictionary of the
+outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add a params field to the inputs
+dictionary</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of (last_hidden_state, past_key_values)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span>
+<span class="normal">914</span>
+<span class="normal">915</span>
+<span class="normal">916</span>
+<span class="normal">917</span>
+<span class="normal">918</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It takes as input:</span>
+<span class="sd">    - The parameters of the model (self.params)</span>
+<span class="sd">    - The inputs to the model (input_ids, attention_mask, position_ids)</span>
+<span class="sd">    - Whether we are training (train=True/False) and whether we want to return all hidden states and</span>
+<span class="sd">    attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: Pass the input sequence to the model</span>
+<span class="sd">        attention_mask: Mask out the padding tokens</span>
+<span class="sd">        position_ids: Specify the position of each token in the</span>
+<span class="sd">            sequence</span>
+<span class="sd">        params: dict: Pass in the parameters of the model</span>
+<span class="sd">        past_key_values: dict: Pass the past key values to the model</span>
+<span class="sd">        dropout_rng: jax.random.PRNGKey: Pass in a random number</span>
+<span class="sd">            generator key to the model</span>
+<span class="sd">        train: bool: Determine whether to use dropout or not</span>
+<span class="sd">        output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the attention weights</span>
+<span class="sd">        output_hidden_states: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the hidden states of all layers</span>
+<span class="sd">        return_dict: Optional[bool]: Return a dictionary of the</span>
+<span class="sd">            outputs</span>
+<span class="sd">        add_params_field: bool: Add a params field to the inputs</span>
+<span class="sd">            dictionary</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of (last_hidden_state, past_key_values)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+    <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+    <span class="p">)</span>
+    <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rng_s</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+    <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rng_s</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+        <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+        <span class="n">inputs</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>  <span class="c1"># input_ids: chex.Array</span>
+        <span class="c1"># attention_mask: Optional[chex.Array] = None</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="c1"># position_ids: Optional[chex.Array] = None</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="kc">None</span><span class="p">,</span>  <span class="c1"># inputs_embeds: Optional[chex.Array] = None</span>
+        <span class="n">output_attentions</span><span class="p">,</span>  <span class="c1"># output_attentions: Optional[bool] = None</span>
+        <span class="c1"># output_hidden_states: Optional[bool] = None</span>
+        <span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="c1"># output_router_logits: Optional[bool] = None</span>
+        <span class="n">output_router_logits</span><span class="p">,</span>
+        <span class="kc">False</span><span class="p">,</span>  <span class="c1"># init_cache: bool = False</span>
+        <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>  <span class="c1"># deterministic: bool = True</span>
+        <span class="n">return_dict</span><span class="p">,</span>  <span class="c1"># return_dict: bool = True</span>
+        <span class="n">rngs</span><span class="o">=</span><span class="n">rng_s</span><span class="p">,</span>
+        <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+    <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                  <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mixtral.modelling_mixtral_flax.MixtralPreTrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.
+It takes in a rng, which is a random number generator key that can be used to generate random numbers.
+The input_shape parameter specifies the shape of the inputs that will be fed into this model.
+The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Initialize the input_ids, attention_mask
+and position_ids</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="flax.core.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>flax.core.FrozenDict: Pass in the parameters of a
+pre-trained model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+<span class="sd">    It takes in a rng, which is a random number generator key that can be used to generate random numbers.</span>
+<span class="sd">    The input_shape parameter specifies the shape of the inputs that will be fed into this model.</span>
+<span class="sd">    The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Initialize the input_ids, attention_mask</span>
+<span class="sd">            and position_ids</span>
+<span class="sd">        params: flax.core.FrozenDict: Pass in the parameters of a</span>
+<span class="sd">            pre-trained model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">input_shape</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+        <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+            <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+        <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+    <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initialization_of_moe</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-mosaic_mpt-modelling_mpt_flax/index.html b/generated-modules-mosaic_mpt-modelling_mpt_flax/index.html
new file mode 100644
index 000000000..e6f6eec7e
--- /dev/null
+++ b/generated-modules-mosaic_mpt-modelling_mpt_flax/index.html
@@ -0,0 +1,6796 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-mixtral-modelling_mixtral_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-mosaic_mpt-mosaic_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Mpt Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesmosaic_mptmodelling_mpt_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Mpt Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mosaic_mpt.modelling_mpt_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_mpt_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mosaic_mpt.modelling_mpt_flax.FlaxMptAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMptAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMptAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mosaic_mpt.modelling_mpt_flax.FlaxMptAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mosaic_mpt.modelling_mpt_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_mpt_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mosaic_mpt.modelling_mpt_flax.FlaxMptAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxMptAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxMptAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mosaic_mpt.modelling_mpt_flax.FlaxMptAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesmosaic_mptmodelling_mpt_flax">modules.mosaic_mpt.modelling_mpt_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.mosaic_mpt.modelling_mpt_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.mosaic_mpt.modelling_mpt_flax.FlaxMptAttention" class="doc doc-heading">
+            <code>FlaxMptAttention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/mosaic_mpt/modelling_mpt_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxMptAttention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">MptConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">Wqkv</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">*</span> <span class="mi">3</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_bias</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">out_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_bias</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_config</span><span class="o">.</span><span class="n">attn_pdrop</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">n_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_seq_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_seq_len</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">softmax_scale</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_config</span><span class="o">.</span><span class="n">softmax_scale</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">softmax_scale</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">softmax_scale</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">/</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_config</span><span class="o">.</span><span class="n">attn_pdrop</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span><span class="p">,</span>
+            <span class="n">base_module_class</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_bias</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It takes in inputs and returns outputs, just like any other Python function.</span>
+<span class="sd">        The difference is that __call__ can also take in state (e.g., parameters) from the module itself,</span>
+<span class="sd">        and it can update that state as part of its computation.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the input to the attention</span>
+<span class="sd">                layer</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain positions in</span>
+<span class="sd">                the sequence</span>
+<span class="sd">            position_bias: chex.Array: Add a bias to the attention</span>
+<span class="sd">                scores</span>
+<span class="sd">            causal_mask: chex.Array: Mask out certain positions in the</span>
+<span class="sd">                sequence</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            deterministic: bool: deterministic to activate dropouts and</span>
+<span class="sd">                detect training process</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The output of the attention layer</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">inp_shape</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span>
+        <span class="n">mixed_qkv</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">Wqkv</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">mixed_qkv</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">rearrange</span><span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="s2">&quot;b s (h d) -&gt; b s h d&quot;</span><span class="p">,</span> <span class="n">h</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">n_heads</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">rearrange</span><span class="p">(</span><span class="n">key_states</span><span class="p">,</span> <span class="s2">&quot;b s (h d) -&gt; b s h d&quot;</span><span class="p">,</span> <span class="n">h</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">n_heads</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">rearrange</span><span class="p">(</span><span class="n">value_states</span><span class="p">,</span> <span class="s2">&quot;b s (h d) -&gt; b s h d&quot;</span><span class="p">,</span> <span class="n">h</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">n_heads</span><span class="p">)</span>
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span>
+                <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="n">position_bias</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">key_length</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+            <span class="n">position_bias_query_index</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">position_bias</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">2</span><span class="p">]</span> <span class="o">-</span> <span class="n">query_length</span><span class="p">)</span>
+            <span class="n">position_bias_key_index</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">position_bias</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">3</span><span class="p">]</span> <span class="o">-</span> <span class="n">key_length</span><span class="p">)</span>
+
+            <span class="n">position_bias</span> <span class="o">=</span> <span class="n">position_bias</span><span class="p">[:,</span> <span class="p">:,</span> <span class="n">position_bias_query_index</span><span class="p">:,</span> <span class="n">position_bias_key_index</span><span class="p">:]</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">position_bias</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;bool&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span> <span class="o">+</span> <span class="n">position_bias</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">attention</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">out_proj</span><span class="p">(</span><span class="n">attention</span><span class="o">.</span><span class="n">attention_outputs</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">inp_shape</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="n">attn_output</span><span class="p">,</span> <span class="n">attention</span><span class="o">.</span><span class="n">attention_weights</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.mosaic_mpt.modelling_mpt_flax.FlaxMptAttention.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_bias</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It takes in inputs and returns outputs, just like any other Python function.
+The difference is that <strong>call</strong> can also take in state (e.g., parameters) from the module itself,
+and it can update that state as part of its computation.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input to the attention
+layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain positions in
+the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_bias</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Add a bias to the attention
+scores</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain positions in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: deterministic to activate dropouts and
+detect training process</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The output of the attention layer</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/mosaic_mpt/modelling_mpt_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_bias</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+<span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It takes in inputs and returns outputs, just like any other Python function.</span>
+<span class="sd">    The difference is that __call__ can also take in state (e.g., parameters) from the module itself,</span>
+<span class="sd">    and it can update that state as part of its computation.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the input to the attention</span>
+<span class="sd">            layer</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain positions in</span>
+<span class="sd">            the sequence</span>
+<span class="sd">        position_bias: chex.Array: Add a bias to the attention</span>
+<span class="sd">            scores</span>
+<span class="sd">        causal_mask: chex.Array: Mask out certain positions in the</span>
+<span class="sd">            sequence</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        deterministic: bool: deterministic to activate dropouts and</span>
+<span class="sd">            detect training process</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The output of the attention layer</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">inp_shape</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span>
+    <span class="n">mixed_qkv</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">Wqkv</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">mixed_qkv</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+
+    <span class="n">query_states</span> <span class="o">=</span> <span class="n">rearrange</span><span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="s2">&quot;b s (h d) -&gt; b s h d&quot;</span><span class="p">,</span> <span class="n">h</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">n_heads</span><span class="p">)</span>
+    <span class="n">key_states</span> <span class="o">=</span> <span class="n">rearrange</span><span class="p">(</span><span class="n">key_states</span><span class="p">,</span> <span class="s2">&quot;b s (h d) -&gt; b s h d&quot;</span><span class="p">,</span> <span class="n">h</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">n_heads</span><span class="p">)</span>
+    <span class="n">value_states</span> <span class="o">=</span> <span class="n">rearrange</span><span class="p">(</span><span class="n">value_states</span><span class="p">,</span> <span class="s2">&quot;b s (h d) -&gt; b s h d&quot;</span><span class="p">,</span> <span class="n">h</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">n_heads</span><span class="p">)</span>
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+        <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+        <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+        <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+        <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+        <span class="p">)</span>
+    <span class="k">if</span> <span class="n">position_bias</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">key_length</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">position_bias_query_index</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">position_bias</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">2</span><span class="p">]</span> <span class="o">-</span> <span class="n">query_length</span><span class="p">)</span>
+        <span class="n">position_bias_key_index</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">position_bias</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">3</span><span class="p">]</span> <span class="o">-</span> <span class="n">key_length</span><span class="p">)</span>
+
+        <span class="n">position_bias</span> <span class="o">=</span> <span class="n">position_bias</span><span class="p">[:,</span> <span class="p">:,</span> <span class="n">position_bias_query_index</span><span class="p">:,</span> <span class="n">position_bias_key_index</span><span class="p">:]</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="n">position_bias</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="mi">1</span><span class="p">)</span>
+    <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+        <span class="n">attention_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;bool&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span> <span class="o">+</span> <span class="n">position_bias</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">attention</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+        <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+        <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+        <span class="n">causal</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">out_proj</span><span class="p">(</span><span class="n">attention</span><span class="o">.</span><span class="n">attention_outputs</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">inp_shape</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="n">attn_output</span><span class="p">,</span> <span class="n">attention</span><span class="o">.</span><span class="n">attention_weights</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-mosaic_mpt-mosaic_configuration/index.html b/generated-modules-mosaic_mpt-mosaic_configuration/index.html
new file mode 100644
index 000000000..6823d1e8f
--- /dev/null
+++ b/generated-modules-mosaic_mpt-mosaic_configuration/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-mosaic_mpt-modelling_mpt_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-olmo-modelling_olmo_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Mosaic Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesmosaic_mptmosaic_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Mosaic Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mosaic_mpt.mosaic_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      mosaic_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.mosaic_mpt.mosaic_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      mosaic_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesmosaic_mptmosaic_configuration">modules.mosaic_mpt.mosaic_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.mosaic_mpt.mosaic_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-olmo-modelling_olmo_flax/index.html b/generated-modules-olmo-modelling_olmo_flax/index.html
new file mode 100644
index 000000000..1903a9cc3
--- /dev/null
+++ b/generated-modules-olmo-modelling_olmo_flax/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-mosaic_mpt-mosaic_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-olmo-olmo_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Olmo Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesolmomodelling_olmo_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Olmo Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.olmo.modelling_olmo_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_olmo_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.olmo.modelling_olmo_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_olmo_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesolmomodelling_olmo_flax">modules.olmo.modelling_olmo_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.olmo.modelling_olmo_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-olmo-olmo_configuration/index.html b/generated-modules-olmo-olmo_configuration/index.html
new file mode 100644
index 000000000..e8c14bfd7
--- /dev/null
+++ b/generated-modules-olmo-olmo_configuration/index.html
@@ -0,0 +1,6575 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-olmo-modelling_olmo_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-openelm-modelling_openelm_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Olmo Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesolmoolmo_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Olmo Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.olmo.olmo_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      olmo_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.olmo.olmo_configuration.OLMoConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      OLMoConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="OLMoConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.olmo.olmo_configuration.OLMoConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.olmo.olmo_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      olmo_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.olmo.olmo_configuration.OLMoConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      OLMoConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="OLMoConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.olmo.olmo_configuration.OLMoConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesolmoolmo_configuration">modules.olmo.olmo_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.olmo.olmo_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.olmo.olmo_configuration.OLMoConfig" class="doc doc-heading">
+            <code>OLMoConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+      <p>OLMo (model) configuration.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/olmo/olmo_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">OLMoConfig</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;OLMo (model) configuration.&quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">768</span><span class="p">,</span>
+            <span class="n">n_heads</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">12</span><span class="p">,</span>
+            <span class="n">n_layers</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">12</span><span class="p">,</span>
+            <span class="n">mlp_ratio</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4</span><span class="p">,</span>
+            <span class="n">mlp_hidden_size</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">activation_type</span><span class="p">:</span> <span class="n">ActivationType</span> <span class="o">=</span> <span class="n">ActivationType</span><span class="o">.</span><span class="n">swiglu</span><span class="p">,</span>
+            <span class="n">block_type</span><span class="p">:</span> <span class="n">BlockType</span> <span class="o">=</span> <span class="n">BlockType</span><span class="o">.</span><span class="n">sequential</span><span class="p">,</span>
+            <span class="n">block_group_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">alibi</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">alibi_bias_max</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">8.0</span><span class="p">,</span>
+            <span class="n">rope</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">rope_full_precision</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">flash_attention</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+            <span class="n">multi_query_attention</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">attention_layer_norm</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">residual_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+            <span class="n">embedding_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+            <span class="n">layer_norm_type</span><span class="p">:</span> <span class="n">LayerNormType</span> <span class="o">=</span> <span class="n">LayerNormType</span><span class="o">.</span><span class="n">default</span><span class="p">,</span>
+            <span class="n">layer_norm_with_affine</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">attention_layer_norm_with_affine</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">include_bias</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">bias_for_layer_norm</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">scale_logits</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">50257</span><span class="p">,</span>
+            <span class="n">embedding_size</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">50304</span><span class="p">,</span>
+            <span class="n">weight_tying</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">50256</span><span class="p">,</span>
+            <span class="n">pad_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">50256</span><span class="p">,</span>
+            <span class="n">init_std</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">init_cutoff_factor</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="n">_</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;precision&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="n">_</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;init_fn&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="n">_</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;init_device&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">d_model</span> <span class="o">=</span> <span class="n">d_model</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span> <span class="o">=</span> <span class="n">n_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">n_layers</span> <span class="o">=</span> <span class="n">n_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mlp_ratio</span> <span class="o">=</span> <span class="n">mlp_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mlp_hidden_size</span> <span class="o">=</span> <span class="n">mlp_hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">activation_type</span> <span class="o">=</span> <span class="n">activation_type</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_type</span> <span class="o">=</span> <span class="n">block_type</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">block_group_size</span> <span class="o">=</span> <span class="n">block_group_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">alibi</span> <span class="o">=</span> <span class="n">alibi</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">alibi_bias_max</span> <span class="o">=</span> <span class="n">alibi_bias_max</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope</span> <span class="o">=</span> <span class="n">rope</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_full_precision</span> <span class="o">=</span> <span class="n">rope_full_precision</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">flash_attention</span> <span class="o">=</span> <span class="n">flash_attention</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">multi_query_attention</span> <span class="o">=</span> <span class="n">multi_query_attention</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_layer_norm</span> <span class="o">=</span> <span class="n">attention_layer_norm</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">residual_dropout</span> <span class="o">=</span> <span class="n">residual_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embedding_dropout</span> <span class="o">=</span> <span class="n">embedding_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm_type</span> <span class="o">=</span> <span class="n">layer_norm_type</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm_with_affine</span> <span class="o">=</span> <span class="n">layer_norm_with_affine</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_layer_norm_with_affine</span> <span class="o">=</span> <span class="n">attention_layer_norm_with_affine</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_sequence_length</span> <span class="o">=</span> <span class="n">max_sequence_length</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">include_bias</span> <span class="o">=</span> <span class="n">include_bias</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bias_for_layer_norm</span> <span class="o">=</span> <span class="n">bias_for_layer_norm</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scale_logits</span> <span class="o">=</span> <span class="n">scale_logits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embedding_size</span> <span class="o">=</span> <span class="n">embedding_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">weight_tying</span> <span class="o">=</span> <span class="n">weight_tying</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">init_std</span> <span class="o">=</span> <span class="n">init_std</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">init_cutoff_factor</span> <span class="o">=</span> <span class="n">init_cutoff_factor</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="n">pad_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span>
+    <span class="p">):</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;gradient_checkpointing&quot;</span><span class="p">):</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">            1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">                partition the model fully or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.olmo.olmo_configuration.OLMoConfig.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+    1) A regex string that matches the name of one or more parameters in the model.
+    2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to
+partition the model fully or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/olmo/olmo_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">        1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">            partition the model fully or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-openelm-modelling_openelm_flax/index.html b/generated-modules-openelm-modelling_openelm_flax/index.html
new file mode 100644
index 000000000..718b11639
--- /dev/null
+++ b/generated-modules-openelm-modelling_openelm_flax/index.html
@@ -0,0 +1,10137 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-olmo-olmo_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-openelm-openelm_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Openelm Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesopenelmmodelling_openelm_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Openelm Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_openelm_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxOpenELMForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxOpenELMForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxOpenELMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxOpenELMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMMultiHeadCausalAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxOpenELMMultiHeadCausalAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxOpenELMMultiHeadCausalAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMMultiHeadCausalAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMMultiHeadCausalAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMPretrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxOpenELMPretrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxOpenELMPretrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMPretrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMPretrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_openelm_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxOpenELMForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxOpenELMForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxOpenELMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxOpenELMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMMultiHeadCausalAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxOpenELMMultiHeadCausalAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxOpenELMMultiHeadCausalAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMMultiHeadCausalAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMMultiHeadCausalAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMPretrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxOpenELMPretrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxOpenELMPretrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMPretrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMPretrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesopenelmmodelling_openelm_flax">modules.openelm.modelling_openelm_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.openelm.modelling_openelm_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMForCausalLMModule" class="doc doc-heading">
+            <code>FlaxOpenELMForCausalLMModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span>
+<span class="normal">1054</span>
+<span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span>
+<span class="normal">1065</span>
+<span class="normal">1066</span>
+<span class="normal">1067</span>
+<span class="normal">1068</span>
+<span class="normal">1069</span>
+<span class="normal">1070</span>
+<span class="normal">1071</span>
+<span class="normal">1072</span>
+<span class="normal">1073</span>
+<span class="normal">1074</span>
+<span class="normal">1075</span>
+<span class="normal">1076</span>
+<span class="normal">1077</span>
+<span class="normal">1078</span>
+<span class="normal">1079</span>
+<span class="normal">1080</span>
+<span class="normal">1081</span>
+<span class="normal">1082</span>
+<span class="normal">1083</span>
+<span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxOpenELMForCausalLMModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">OpenELMConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="p">:</span> <span class="n">FlaxOpenELMModule</span> <span class="o">=</span> <span class="n">FlaxOpenELMModule</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It defines how the model will be called,</span>
+<span class="sd">        and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask</span>
+<span class="sd">        as inputs (these are defined in __init__). We also have some optional arguments that can be passed to</span>
+<span class="sd">        the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),</span>
+<span class="sd">        output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in the sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout in the</span>
+<span class="sd">                model</span>
+<span class="sd">            inputs_embeds: chex.Array: Pass in the embeddings of the</span>
+<span class="sd">                input tokens</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            output_hidden_states: bool: Return the hidden states of all</span>
+<span class="sd">                layers</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs or</span>
+<span class="sd">                just the logits</span>
+<span class="sd">        :param : Determine whether to return the logits or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (lm_logits, hidden_states, attentions)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="o">=</span><span class="n">inputs_embeds</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">share_input_output_layers</span><span class="p">:</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;token_embeddings&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+            <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+                <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="n">lm_logits</span><span class="p">[:,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">]</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">(</span><span class="n">lm_logits</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">FlaxCausalLMOutput</span><span class="p">(</span><span class="n">logits</span><span class="o">=</span><span class="n">lm_logits</span><span class="p">,</span> <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMForCausalLMModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">inputs_embeds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax module. It defines how the model will be called,
+and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask
+as inputs (these are defined in <strong>init</strong>). We also have some optional arguments that can be passed to
+the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),
+output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout in the
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>inputs_embeds</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the embeddings of the
+input tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the hidden states of all
+layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs or
+just the logits</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine whether to return the logits or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of (lm_logits, hidden_states, attentions)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span>
+<span class="normal">1054</span>
+<span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span>
+<span class="normal">1065</span>
+<span class="normal">1066</span>
+<span class="normal">1067</span>
+<span class="normal">1068</span>
+<span class="normal">1069</span>
+<span class="normal">1070</span>
+<span class="normal">1071</span>
+<span class="normal">1072</span>
+<span class="normal">1073</span>
+<span class="normal">1074</span>
+<span class="normal">1075</span>
+<span class="normal">1076</span>
+<span class="normal">1077</span>
+<span class="normal">1078</span>
+<span class="normal">1079</span>
+<span class="normal">1080</span>
+<span class="normal">1081</span>
+<span class="normal">1082</span>
+<span class="normal">1083</span>
+<span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It defines how the model will be called,</span>
+<span class="sd">    and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask</span>
+<span class="sd">    as inputs (these are defined in __init__). We also have some optional arguments that can be passed to</span>
+<span class="sd">    the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),</span>
+<span class="sd">    output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in the sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout in the</span>
+<span class="sd">            model</span>
+<span class="sd">        inputs_embeds: chex.Array: Pass in the embeddings of the</span>
+<span class="sd">            input tokens</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        output_hidden_states: bool: Return the hidden states of all</span>
+<span class="sd">            layers</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs or</span>
+<span class="sd">            just the logits</span>
+<span class="sd">    :param : Determine whether to return the logits or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of (lm_logits, hidden_states, attentions)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="p">(</span>
+        <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="o">=</span><span class="n">inputs_embeds</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">share_input_output_layers</span><span class="p">:</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;token_embeddings&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">lm_logits</span> <span class="o">=</span> <span class="n">lm_logits</span><span class="p">[:,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">]</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">lm_logits</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">FlaxCausalLMOutput</span><span class="p">(</span><span class="n">logits</span><span class="o">=</span><span class="n">lm_logits</span><span class="p">,</span> <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMModule" class="doc doc-heading">
+            <code>FlaxOpenELMModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxOpenELMModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">OpenELMConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">token_embeddings</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Embed</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">model_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">layers</span> <span class="o">=</span> <span class="n">FlaxOpenELMDecoderLayerCollection</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">norm</span> <span class="o">=</span> <span class="n">OpenELMRMSNorm</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">model_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">share_input_output_layers</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+                <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_transformer_layers</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_transformer_layers</span>
+
+        <span class="n">initial_rope_kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+            <span class="n">rope_type</span><span class="o">=</span><span class="s2">&quot;none&quot;</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">scaling_type</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">[</span><span class="s2">&quot;type&quot;</span><span class="p">]</span>
+            <span class="n">scaling_factor</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">[</span><span class="s2">&quot;factor&quot;</span><span class="p">]</span>
+            <span class="n">initial_rope_kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+                <span class="n">scaling_factor</span><span class="o">=</span><span class="n">scaling_factor</span><span class="p">,</span>
+                <span class="n">rope_type</span><span class="o">=</span><span class="n">scaling_type</span>
+            <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span> <span class="o">=</span> <span class="n">precompute_freq_cis</span><span class="p">(</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="p">(</span>
+                <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;freq_max_position_embeddings&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_max_length</span><span class="p">)</span>
+            <span class="p">),</span>
+            <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">base</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rope_freq_constant</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">initial_rope_kwargs</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">make_causal_mask</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+                <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;c_max_position_embeddings&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_context_length</span><span class="p">)),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span>
+            <span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Union</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="n">Array</span><span class="p">,</span> <span class="o">...</span><span class="p">],</span> <span class="n">FlaxBaseModelOutput</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax model.</span>
+<span class="sd">        It takes in input_ids, attention_mask, and position_ids as inputs to the model.</span>
+<span class="sd">        The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input ids</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for certain tokens</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            inputs_embeds: chex.Array: Pass in the embedding of the</span>
+<span class="sd">                input_ids</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+<span class="sd">            output_hidden_states: bool: Return all hidden states or just</span>
+<span class="sd">                the last one</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">        :param : Determine whether the model is in training mode or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the hidden states, all hidden states, and</span>
+<span class="sd">            attentions</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">inputs_embeds</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">token_embeddings</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">))</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">b</span><span class="p">,</span> <span class="n">s</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">b</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">s</span><span class="p">)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">inputs_embeds</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">value</span> <span class="k">for</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">outputs</span> <span class="k">if</span> <span class="n">value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">FlaxBaseModelOutput</span><span class="p">(</span>
+            <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+            <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">inputs_embeds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax model.
+It takes in input_ids, attention_mask, and position_ids as inputs to the model.
+The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input ids</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for certain tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>inputs_embeds</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the embedding of the
+input_ids</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return all hidden states or just
+the last one</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine whether the model is in training mode or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="typing.Tuple">Tuple</span>[<span title="jax.Array">Array</span>, ...], <span title="transformers.modeling_flax_outputs.FlaxBaseModelOutput">FlaxBaseModelOutput</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the hidden states, all hidden states, and</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="typing.Tuple">Tuple</span>[<span title="jax.Array">Array</span>, ...], <span title="transformers.modeling_flax_outputs.FlaxBaseModelOutput">FlaxBaseModelOutput</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>attentions</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Union</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="n">Array</span><span class="p">,</span> <span class="o">...</span><span class="p">],</span> <span class="n">FlaxBaseModelOutput</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax model.</span>
+<span class="sd">    It takes in input_ids, attention_mask, and position_ids as inputs to the model.</span>
+<span class="sd">    The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input ids</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for certain tokens</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        inputs_embeds: chex.Array: Pass in the embedding of the</span>
+<span class="sd">            input_ids</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+<span class="sd">        output_hidden_states: bool: Return all hidden states or just</span>
+<span class="sd">            the last one</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">    :param : Determine whether the model is in training mode or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the hidden states, all hidden states, and</span>
+<span class="sd">        attentions</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">inputs_embeds</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">token_embeddings</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">))</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">b</span><span class="p">,</span> <span class="n">s</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">b</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">s</span><span class="p">)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">inputs_embeds</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">value</span> <span class="k">for</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">outputs</span> <span class="k">if</span> <span class="n">value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">FlaxBaseModelOutput</span><span class="p">(</span>
+        <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+        <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMMultiHeadCausalAttention" class="doc doc-heading">
+            <code>FlaxOpenELMMultiHeadCausalAttention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxOpenELMMultiHeadCausalAttention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">OpenELMConfig</span>
+    <span class="n">layer_idx</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="n">layer_idx</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layer_idx</span>
+        <span class="n">head_dim</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="n">q_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_query_heads</span><span class="p">[</span><span class="n">layer_idx</span><span class="p">]</span>
+        <span class="n">k_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_kv_heads</span><span class="p">[</span><span class="n">layer_idx</span><span class="p">]</span>
+        <span class="n">v_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_kv_heads</span><span class="p">[</span><span class="n">layer_idx</span><span class="p">]</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">qkv_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">q_heads</span> <span class="o">+</span> <span class="n">k_heads</span> <span class="o">+</span> <span class="n">v_heads</span><span class="p">)</span> <span class="o">*</span> <span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">normalize_qk_projections</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">q_norm</span> <span class="o">=</span> <span class="n">OpenELMRMSNorm</span><span class="p">(</span>
+                <span class="n">dim</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">k_norm</span> <span class="o">=</span> <span class="n">OpenELMRMSNorm</span><span class="p">(</span>
+                <span class="n">dim</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">q_norm</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">k_norm</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">out_proj</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">model_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="n">head_dim</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span> <span class="o">=</span> <span class="n">FlaxOpenELMRotaryEmbedding</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">use_sharding_constraint</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="n">q_heads</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span><span class="p">,</span>
+            <span class="n">backward_pass_impl</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">flash_attention_backward_pass_impl</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span> <span class="o">=</span> <span class="n">q_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_k_heads</span> <span class="o">=</span> <span class="n">k_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_v_heads</span> <span class="o">=</span> <span class="n">v_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">transformer_dim</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">model_dim</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_groups</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_k_heads</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,))</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _transpose_sequence_head function transposes the query, key and value matrices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            query: Get the attention weights for each of the heads</span>
+<span class="sd">            key: Determine the number of heads</span>
+<span class="sd">            value: Store the values of the input</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The transpose of the query, key and value matrices</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">            sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">            query: Calculate the attention weights</span>
+<span class="sd">            key: Calculate the attention</span>
+<span class="sd">            value: Compute the attention weights</span>
+<span class="sd">            freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">                vocabulary</span>
+<span class="sd">            position_ids: Identify the position of each token in the</span>
+<span class="sd">                sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 tensors: query, key and value</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_k_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_v_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span><span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_groups</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_groups</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">        and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency coefficients for each position</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+<span class="sd">            fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">                and output tokens</span>
+<span class="sd">        :param : Determine if the attention is causal or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two arrays</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="c1"># [B, S, d] --&gt; [B, S, (q_h + k_h + v_h) * h]</span>
+        <span class="n">qkv</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">qkv_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="c1"># [B, S, (q_h + k_h + v_h) * h] --&gt; [B, S, (q_h + k_h + v_h), h]</span>
+        <span class="n">qkv</span> <span class="o">=</span> <span class="n">qkv</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_k_heads</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_v_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="c1"># [B, S, (q_h + k_h + v_h), h] --&gt; [B, (q_h + k_h + v_h), S, h]</span>
+        <span class="n">qkv</span> <span class="o">=</span> <span class="n">qkv</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)</span>
+        <span class="c1"># [B, (q_h + k_h + v_h), S, h] --&gt; [B, q_h, S h], [B, k_h, S, h], [B, v_h, S, h]</span>
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">qkv</span><span class="p">[:,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">qkv</span><span class="p">[:,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">num_k_heads</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">qkv</span><span class="p">[:,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_k_heads</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">:,</span> <span class="p">:,</span> <span class="p">:]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_norm</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">query_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_norm</span><span class="p">(</span><span class="n">query_states</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_norm</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">key_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_norm</span><span class="p">(</span><span class="n">key_states</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="nb">map</span><span class="p">(</span>
+            <span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">x</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">),</span>
+            <span class="p">[</span><span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">]</span>
+        <span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+        <span class="p">)</span>
+
+        <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_k_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                     <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span>
+        <span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">out_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="kc">None</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMMultiHeadCausalAttention.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module. It defines how the module behaves when called
+with inputs. The <strong>call</strong> function can be thought of as a &quot;forward pass&quot; through the model,
+and it should return all outputs that are needed for training or inference.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the hidden states of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency coefficients for each position</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the future tokens in the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the attention weights between the input
+and output tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine if the attention is causal or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two arrays</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">    and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency coefficients for each position</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+<span class="sd">        fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">            and output tokens</span>
+<span class="sd">    :param : Determine if the attention is causal or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two arrays</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+    <span class="n">output_attentions</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="c1"># [B, S, d] --&gt; [B, S, (q_h + k_h + v_h) * h]</span>
+    <span class="n">qkv</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">qkv_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="c1"># [B, S, (q_h + k_h + v_h) * h] --&gt; [B, S, (q_h + k_h + v_h), h]</span>
+    <span class="n">qkv</span> <span class="o">=</span> <span class="n">qkv</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_k_heads</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_v_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="c1"># [B, S, (q_h + k_h + v_h), h] --&gt; [B, (q_h + k_h + v_h), S, h]</span>
+    <span class="n">qkv</span> <span class="o">=</span> <span class="n">qkv</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)</span>
+    <span class="c1"># [B, (q_h + k_h + v_h), S, h] --&gt; [B, q_h, S h], [B, k_h, S, h], [B, v_h, S, h]</span>
+    <span class="n">query_states</span> <span class="o">=</span> <span class="n">qkv</span><span class="p">[:,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+    <span class="n">key_states</span> <span class="o">=</span> <span class="n">qkv</span><span class="p">[:,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">num_k_heads</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+    <span class="n">value_states</span> <span class="o">=</span> <span class="n">qkv</span><span class="p">[:,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_k_heads</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">:,</span> <span class="p">:,</span> <span class="p">:]</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_norm</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">query_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_norm</span><span class="p">(</span><span class="n">query_states</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_norm</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_norm</span><span class="p">(</span><span class="n">key_states</span><span class="p">)</span>
+
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="nb">map</span><span class="p">(</span>
+        <span class="k">lambda</span> <span class="n">x</span><span class="p">:</span> <span class="n">x</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">),</span>
+        <span class="p">[</span><span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">]</span>
+    <span class="p">)</span>
+
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+        <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+    <span class="p">)</span>
+
+    <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_k_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">)</span>
+
+    <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+        <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+        <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                 <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span>
+    <span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+
+    <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+        <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+        <span class="p">)</span>
+
+    <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+        <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+        <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+        <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+    <span class="p">)</span>
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                <span class="s2">&quot;tp&quot;</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">out_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span>
+        <span class="n">attn_output</span><span class="p">,</span> <span class="kc">None</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMMultiHeadCausalAttention.apply_rotary" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rotary</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class.
+The main difference is that it takes in an additional argument, freq_cis, which are used to calculate
+the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sequence_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Compute the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the frequency of each word in the
+vocabulary</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Identify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 tensors: query, key and value</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">        sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">        query: Calculate the attention weights</span>
+<span class="sd">        key: Calculate the attention</span>
+<span class="sd">        value: Compute the attention weights</span>
+<span class="sd">        freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">            vocabulary</span>
+<span class="sd">        position_ids: Identify the position of each token in the</span>
+<span class="sd">            sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 tensors: query, key and value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_q_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_k_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_v_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span><span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_groups</span><span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_groups</span><span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMPretrainedModel" class="doc doc-heading">
+            <code>FlaxOpenELMPretrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 805</span>
+<span class="normal"> 806</span>
+<span class="normal"> 807</span>
+<span class="normal"> 808</span>
+<span class="normal"> 809</span>
+<span class="normal"> 810</span>
+<span class="normal"> 811</span>
+<span class="normal"> 812</span>
+<span class="normal"> 813</span>
+<span class="normal"> 814</span>
+<span class="normal"> 815</span>
+<span class="normal"> 816</span>
+<span class="normal"> 817</span>
+<span class="normal"> 818</span>
+<span class="normal"> 819</span>
+<span class="normal"> 820</span>
+<span class="normal"> 821</span>
+<span class="normal"> 822</span>
+<span class="normal"> 823</span>
+<span class="normal"> 824</span>
+<span class="normal"> 825</span>
+<span class="normal"> 826</span>
+<span class="normal"> 827</span>
+<span class="normal"> 828</span>
+<span class="normal"> 829</span>
+<span class="normal"> 830</span>
+<span class="normal"> 831</span>
+<span class="normal"> 832</span>
+<span class="normal"> 833</span>
+<span class="normal"> 834</span>
+<span class="normal"> 835</span>
+<span class="normal"> 836</span>
+<span class="normal"> 837</span>
+<span class="normal"> 838</span>
+<span class="normal"> 839</span>
+<span class="normal"> 840</span>
+<span class="normal"> 841</span>
+<span class="normal"> 842</span>
+<span class="normal"> 843</span>
+<span class="normal"> 844</span>
+<span class="normal"> 845</span>
+<span class="normal"> 846</span>
+<span class="normal"> 847</span>
+<span class="normal"> 848</span>
+<span class="normal"> 849</span>
+<span class="normal"> 850</span>
+<span class="normal"> 851</span>
+<span class="normal"> 852</span>
+<span class="normal"> 853</span>
+<span class="normal"> 854</span>
+<span class="normal"> 855</span>
+<span class="normal"> 856</span>
+<span class="normal"> 857</span>
+<span class="normal"> 858</span>
+<span class="normal"> 859</span>
+<span class="normal"> 860</span>
+<span class="normal"> 861</span>
+<span class="normal"> 862</span>
+<span class="normal"> 863</span>
+<span class="normal"> 864</span>
+<span class="normal"> 865</span>
+<span class="normal"> 866</span>
+<span class="normal"> 867</span>
+<span class="normal"> 868</span>
+<span class="normal"> 869</span>
+<span class="normal"> 870</span>
+<span class="normal"> 871</span>
+<span class="normal"> 872</span>
+<span class="normal"> 873</span>
+<span class="normal"> 874</span>
+<span class="normal"> 875</span>
+<span class="normal"> 876</span>
+<span class="normal"> 877</span>
+<span class="normal"> 878</span>
+<span class="normal"> 879</span>
+<span class="normal"> 880</span>
+<span class="normal"> 881</span>
+<span class="normal"> 882</span>
+<span class="normal"> 883</span>
+<span class="normal"> 884</span>
+<span class="normal"> 885</span>
+<span class="normal"> 886</span>
+<span class="normal"> 887</span>
+<span class="normal"> 888</span>
+<span class="normal"> 889</span>
+<span class="normal"> 890</span>
+<span class="normal"> 891</span>
+<span class="normal"> 892</span>
+<span class="normal"> 893</span>
+<span class="normal"> 894</span>
+<span class="normal"> 895</span>
+<span class="normal"> 896</span>
+<span class="normal"> 897</span>
+<span class="normal"> 898</span>
+<span class="normal"> 899</span>
+<span class="normal"> 900</span>
+<span class="normal"> 901</span>
+<span class="normal"> 902</span>
+<span class="normal"> 903</span>
+<span class="normal"> 904</span>
+<span class="normal"> 905</span>
+<span class="normal"> 906</span>
+<span class="normal"> 907</span>
+<span class="normal"> 908</span>
+<span class="normal"> 909</span>
+<span class="normal"> 910</span>
+<span class="normal"> 911</span>
+<span class="normal"> 912</span>
+<span class="normal"> 913</span>
+<span class="normal"> 914</span>
+<span class="normal"> 915</span>
+<span class="normal"> 916</span>
+<span class="normal"> 917</span>
+<span class="normal"> 918</span>
+<span class="normal"> 919</span>
+<span class="normal"> 920</span>
+<span class="normal"> 921</span>
+<span class="normal"> 922</span>
+<span class="normal"> 923</span>
+<span class="normal"> 924</span>
+<span class="normal"> 925</span>
+<span class="normal"> 926</span>
+<span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxOpenELMPretrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">OpenELMConfig</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;openelm&quot;</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                 <span class="n">config</span><span class="p">:</span> <span class="n">OpenELMConfig</span><span class="p">,</span>
+                 <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+                 <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+                 <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+                 <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+                 <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+                 <span class="o">**</span><span class="n">kwargs</span>
+                 <span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">config</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span>
+                <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">kwargs</span>
+            <span class="p">),</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+            <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+<span class="sd">        It takes in a rng, which is a random number generator key that can be used to generate random numbers.</span>
+<span class="sd">        The input_shape parameter specifies the shape of the inputs that will be fed into this model.</span>
+<span class="sd">        The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Initialize the input_ids, attention_mask</span>
+<span class="sd">                and position_ids</span>
+<span class="sd">            params: flax.core.FrozenDict: Pass in the parameters of a</span>
+<span class="sd">                pre-trained model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span>
+            <span class="n">input_shape</span>
+        <span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+            <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+                <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+            <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rng_s</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">encoder_hidden_states</span><span class="p">,</span>
+                <span class="n">encoder_attention_mask</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rng_s</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It takes as input:</span>
+<span class="sd">        - The parameters of the model (self.params)</span>
+<span class="sd">        - The inputs to the model (input_ids, attention_mask, position_ids)</span>
+<span class="sd">        - Whether we are training (train=True/False) and whether we want to return all hidden states and</span>
+<span class="sd">        attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: Pass the input sequence to the model</span>
+<span class="sd">            attention_mask: Mask out the padding tokens</span>
+<span class="sd">            position_ids: Specify the position of each token in the</span>
+<span class="sd">                sequence</span>
+<span class="sd">            params: dict: Pass in the parameters of the model</span>
+<span class="sd">            past_key_values: dict: Pass the past key values to the model</span>
+<span class="sd">            dropout_rng: jax.random.PRNGKey: Pass in a random number</span>
+<span class="sd">                generator key to the model</span>
+<span class="sd">            train: bool: Determine whether to use dropout or not</span>
+<span class="sd">            output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the attention weights</span>
+<span class="sd">            output_hidden_states: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the hidden states of all layers</span>
+<span class="sd">            return_dict: Optional[bool]: Return a dictionary of the</span>
+<span class="sd">                outputs</span>
+<span class="sd">            add_params_field: bool: Add a params field to the inputs</span>
+<span class="sd">                dictionary</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (last_hidden_state, past_key_values)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rng_s</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rng_s</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+            <span class="kc">None</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rng_s</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMPretrainedModel.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">past_key_values</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dropout_rng</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It takes as input:
+- The parameters of the model (self.params)
+- The inputs to the model (input_ids, attention_mask, position_ids)
+- Whether we are training (train=True/False) and whether we want to return all hidden states and
+attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the input sequence to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>past_key_values</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass the past key values to the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dropout_rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Pass in a random number
+generator key to the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>train</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the hidden states of all layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Return a dictionary of the
+outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add a params field to the inputs
+dictionary</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of (last_hidden_state, past_key_values)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 911</span>
+<span class="normal"> 912</span>
+<span class="normal"> 913</span>
+<span class="normal"> 914</span>
+<span class="normal"> 915</span>
+<span class="normal"> 916</span>
+<span class="normal"> 917</span>
+<span class="normal"> 918</span>
+<span class="normal"> 919</span>
+<span class="normal"> 920</span>
+<span class="normal"> 921</span>
+<span class="normal"> 922</span>
+<span class="normal"> 923</span>
+<span class="normal"> 924</span>
+<span class="normal"> 925</span>
+<span class="normal"> 926</span>
+<span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It takes as input:</span>
+<span class="sd">    - The parameters of the model (self.params)</span>
+<span class="sd">    - The inputs to the model (input_ids, attention_mask, position_ids)</span>
+<span class="sd">    - Whether we are training (train=True/False) and whether we want to return all hidden states and</span>
+<span class="sd">    attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: Pass the input sequence to the model</span>
+<span class="sd">        attention_mask: Mask out the padding tokens</span>
+<span class="sd">        position_ids: Specify the position of each token in the</span>
+<span class="sd">            sequence</span>
+<span class="sd">        params: dict: Pass in the parameters of the model</span>
+<span class="sd">        past_key_values: dict: Pass the past key values to the model</span>
+<span class="sd">        dropout_rng: jax.random.PRNGKey: Pass in a random number</span>
+<span class="sd">            generator key to the model</span>
+<span class="sd">        train: bool: Determine whether to use dropout or not</span>
+<span class="sd">        output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the attention weights</span>
+<span class="sd">        output_hidden_states: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the hidden states of all layers</span>
+<span class="sd">        return_dict: Optional[bool]: Return a dictionary of the</span>
+<span class="sd">            outputs</span>
+<span class="sd">        add_params_field: bool: Add a params field to the inputs</span>
+<span class="sd">            dictionary</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of (last_hidden_state, past_key_values)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+    <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+    <span class="p">)</span>
+    <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rng_s</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+    <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rng_s</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+        <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+        <span class="n">inputs</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+        <span class="kc">None</span><span class="p">,</span>
+        <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">rngs</span><span class="o">=</span><span class="n">rng_s</span><span class="p">,</span>
+        <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+    <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMPretrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.
+It takes in a rng, which is a random number generator key that can be used to generate random numbers.
+The input_shape parameter specifies the shape of the inputs that will be fed into this model.
+The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Initialize the input_ids, attention_mask
+and position_ids</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="flax.core.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>flax.core.FrozenDict: Pass in the parameters of a
+pre-trained model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+<span class="sd">    It takes in a rng, which is a random number generator key that can be used to generate random numbers.</span>
+<span class="sd">    The input_shape parameter specifies the shape of the inputs that will be fed into this model.</span>
+<span class="sd">    The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Initialize the input_ids, attention_mask</span>
+<span class="sd">            and position_ids</span>
+<span class="sd">        params: flax.core.FrozenDict: Pass in the parameters of a</span>
+<span class="sd">            pre-trained model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span>
+        <span class="n">input_shape</span>
+    <span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+    <span class="n">rng_s</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+        <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+            <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+        <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rng_s</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rng_s</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+
+    <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-openelm-openelm_configuration/index.html b/generated-modules-openelm-openelm_configuration/index.html
new file mode 100644
index 000000000..a83dd4edd
--- /dev/null
+++ b/generated-modules-openelm-openelm_configuration/index.html
@@ -0,0 +1,8042 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-openelm-modelling_openelm_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-opt-modelling_opt_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Openelm Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesopenelmopenelm_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Openelm Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.openelm_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      openelm_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      OpenELMConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="OpenELMConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.openelm_configuration.compute_heads" class="md-nav__link">
+    <span class="md-ellipsis">
+      compute_heads
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.openelm_configuration.make_divisible" class="md-nav__link">
+    <span class="md-ellipsis">
+      make_divisible
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.openelm_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      openelm_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      OpenELMConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="OpenELMConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.openelm_configuration.compute_heads" class="md-nav__link">
+    <span class="md-ellipsis">
+      compute_heads
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.openelm.openelm_configuration.make_divisible" class="md-nav__link">
+    <span class="md-ellipsis">
+      make_divisible
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesopenelmopenelm_configuration">modules.openelm.openelm_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.openelm.openelm_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig" class="doc doc-heading">
+            <code>OpenELMConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/openelm/openelm_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">OpenELMConfig</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;openelm&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32000</span><span class="p">,</span>
+            <span class="n">max_context_length</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2048</span><span class="p">,</span>
+            <span class="n">num_transformer_layers</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">12</span><span class="p">,</span>
+            <span class="n">model_dim</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2048</span><span class="p">,</span>
+            <span class="n">head_dim</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">128</span><span class="p">,</span>
+            <span class="n">qkv_multipliers</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Number</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="n">Number</span><span class="p">]]</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+            <span class="n">num_query_heads</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">num_gqa_groups</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">ffn_multipliers</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Number</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="n">Number</span><span class="p">]]</span> <span class="o">=</span> <span class="mf">4.0</span><span class="p">,</span>
+            <span class="n">ffn_with_glu</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">ffn_dim_divisor</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">256</span><span class="p">,</span>
+            <span class="n">activation_fn_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;swish&quot;</span><span class="p">,</span>
+            <span class="n">normalization_layer_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;rms_norm&quot;</span><span class="p">,</span>
+            <span class="n">normalize_qk_projections</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">share_input_output_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">rope_freq_constant</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10000</span><span class="p">,</span>
+            <span class="n">rope_max_length</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4096</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It allows the class to initialize the attributes of a class.</span>
+<span class="sd">        The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            vocab_size: Define the size of the vocabulary</span>
+<span class="sd">            hidden_size: Determine the size of the embedding layers</span>
+<span class="sd">            intermediate_size: Define the size of the intermediate layer</span>
+<span class="sd">                in each transformer block</span>
+<span class="sd">            num_hidden_layers: Determine the number of layers in the</span>
+<span class="sd">                encoder and decoder</span>
+<span class="sd">            num_attention_heads: Determine the number of attention heads</span>
+<span class="sd">                in each layer</span>
+<span class="sd">            num_key_value_heads: Specify the number of heads for key and</span>
+<span class="sd">                value</span>
+<span class="sd">            hidden_act: Specify the activation function used in the</span>
+<span class="sd">                hidden layers</span>
+<span class="sd">            max_position_embeddings: Set the maximum length of the</span>
+<span class="sd">                sequence</span>
+<span class="sd">            initializer_range: Initialize the weights of the model</span>
+<span class="sd">            rms_norm_eps: Avoid division by zero in the rms</span>
+<span class="sd">                normalization</span>
+<span class="sd">            use_cache: Determine whether to use the cache in the decoder</span>
+<span class="sd">            pad_token_id: Specify the token id of the padding token</span>
+<span class="sd">            bos_token_id: Specify the beginning of sentence token id</span>
+<span class="sd">            eos_token_id: Specify the end of sentence token</span>
+<span class="sd">            tie_word_embeddings: Tie the word embeddings and the output</span>
+<span class="sd">                layer</span>
+<span class="sd">            rope_theta: Control the number of tokens in a rope</span>
+<span class="sd">            sliding_window: Control the number of tokens that are</span>
+<span class="sd">                processed in parallel</span>
+<span class="sd">            gradient_checkpointing: str: Specify whether to use gradient</span>
+<span class="sd">                checkpointing</span>
+<span class="sd">            use_scan_mlp: bool: Determine whether or not to use the</span>
+<span class="sd">                scan_mlp function</span>
+<span class="sd">            scan_mlp_chunk_size: int: Specify the chunk size of the scan</span>
+<span class="sd">                mlp</span>
+<span class="sd">            number_rep_kv: int: Specify the number of times to repeat</span>
+<span class="sd">                the key and value vectors</span>
+<span class="sd">            attention_dropout: float: Set the dropout rate for the</span>
+<span class="sd">                attention layer</span>
+<span class="sd">            bits: Optional[int]: Specify the number of bits used for</span>
+<span class="sd">                quantization</span>
+<span class="sd">            axis_dims: Sequence[int]: Specify the dimension of each axis</span>
+<span class="sd">            axis_names: Sequence[str]: Specify the names of each axis in</span>
+<span class="sd">                the tensor</span>
+<span class="sd">            &amp;quot;mp&amp;quot;): Define the maximum position embeddings</span>
+<span class="sd">            attention_bias: bool: when ever to use attention_bias</span>
+<span class="sd">            **kwargs: Pass a variable number of keyword arguments to a</span>
+<span class="sd">                function</span>
+<span class="sd">        :param : Define the number of layers in the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            An instance of the class</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_context_length</span> <span class="o">=</span> <span class="n">max_context_length</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_transformer_layers</span> <span class="o">=</span> <span class="n">num_transformer_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_dim</span> <span class="o">=</span> <span class="n">model_dim</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="n">head_dim</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">qkv_multipliers</span> <span class="o">=</span> <span class="n">qkv_multipliers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_query_heads</span> <span class="o">=</span> <span class="n">num_query_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_gqa_groups</span> <span class="o">=</span> <span class="n">num_gqa_groups</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ffn_multipliers</span> <span class="o">=</span> <span class="n">ffn_multipliers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ffn_with_glu</span> <span class="o">=</span> <span class="n">ffn_with_glu</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ffn_dim_divisor</span> <span class="o">=</span> <span class="n">ffn_dim_divisor</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">activation_fn_name</span> <span class="o">=</span> <span class="n">activation_fn_name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">normalization_layer_name</span> <span class="o">=</span> <span class="n">normalization_layer_name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">normalize_qk_projections</span> <span class="o">=</span> <span class="n">normalize_qk_projections</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">share_input_output_layers</span> <span class="o">=</span> <span class="n">share_input_output_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_freq_constant</span> <span class="o">=</span> <span class="n">rope_freq_constant</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_max_length</span> <span class="o">=</span> <span class="n">rope_max_length</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_query_heads</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">compute_heads</span><span class="p">(</span><span class="n">model_dim</span><span class="o">=</span><span class="n">model_dim</span><span class="p">,</span> <span class="n">head_dim</span><span class="o">=</span><span class="n">head_dim</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">num_query_heads</span> <span class="ow">is</span> <span class="kc">None</span>
+            <span class="k">else</span> <span class="n">num_query_heads</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="o">=</span><span class="n">use_scan_mlp</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+            <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">          1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">          2) A PartitionScheme object that defines how those parameters should be partitioned.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to use</span>
+<span class="sd">                the fully_sharded_data_parallel partitioning scheme or</span>
+<span class="sd">                not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the model:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Bind the attributes and methods of a class to an</span>
+<span class="sd">                instance of that class</span>
+<span class="sd">            gradient_checkpointing: str: Determine whether to use</span>
+<span class="sd">                gradient checkpointing</span>
+<span class="sd">            use_scan_mlp: bool: Determine whether to use the scan_mlp</span>
+<span class="sd">                function or notn</span>
+<span class="sd">            scan_mlp_chunk_size: int: Chunk the input to the mlp</span>
+<span class="sd">            bits: Optional[int]: Specify the number of bits to use for</span>
+<span class="sd">                quantization</span>
+<span class="sd">            rope_scaling: Dict[str, Union[str, float]]: rope_scaling for</span>
+<span class="sd">                rope</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the following:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_weight_decay_exclusions</span><span class="p">():</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">rng_keys</span><span class="p">():</span>
+        <span class="k">return</span> <span class="s1">&#39;params&#39;</span><span class="p">,</span> <span class="s1">&#39;dropout&#39;</span><span class="p">,</span> <span class="s1">&#39;fcm&#39;</span>
+
+    <span class="k">def</span> <span class="nf">__post_init__</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_gqa_groups</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">head_multiple_of</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_gqa_groups</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">head_multiple_of</span> <span class="o">=</span> <span class="mi">2</span>
+
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">qkv_multipliers</span><span class="p">,</span> <span class="n">Number</span><span class="p">):</span>
+            <span class="c1"># All attention layers have the same latent dimensions, resulting in uniform allocation of parameters.</span>
+            <span class="n">qkv_dim</span> <span class="o">=</span> <span class="n">make_divisible</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model_dim</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">qkv_multipliers</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+                <span class="n">divisor</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">*</span> <span class="n">head_multiple_of</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">query_dims</span> <span class="o">=</span> <span class="p">[</span><span class="nb">int</span><span class="p">(</span><span class="n">qkv_dim</span><span class="p">)]</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_transformer_layers</span>
+
+        <span class="k">elif</span> <span class="p">(</span>
+                <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">qkv_multipliers</span><span class="p">,</span> <span class="p">(</span><span class="nb">tuple</span><span class="p">,</span> <span class="nb">list</span><span class="p">))</span>
+                <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">qkv_multipliers</span><span class="p">)</span> <span class="o">==</span> <span class="mi">2</span>
+        <span class="p">):</span>
+            <span class="c1"># Each attention layer have different latent dimensions assuming qkv_multipliers[0] != qkv_multipliers[1].</span>
+            <span class="c1"># This results in variable allocation of parameters in attention layer.</span>
+            <span class="c1"># This scaling is known as layer-wise or block-wise scaling: https://arxiv.org/abs/2008.00623</span>
+            <span class="n">qkv_multipliers</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="nb">round</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="mi">2</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">jnp</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">qkv_multipliers</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">qkv_multipliers</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+                    <span class="n">num</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">num_transformer_layers</span><span class="p">,</span>
+                    <span class="n">dtype</span><span class="o">=</span><span class="nb">float</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="p">]</span>
+            <span class="c1"># Make sure that scaled model dimension is divisible by scaled head dimension.</span>
+            <span class="n">query_dims</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="nb">int</span><span class="p">(</span>
+                    <span class="n">make_divisible</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model_dim</span> <span class="o">*</span> <span class="n">m</span><span class="p">,</span> <span class="n">divisor</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">*</span> <span class="n">head_multiple_of</span>
+                    <span class="p">)</span>
+                <span class="p">)</span>
+                <span class="k">for</span> <span class="n">m</span> <span class="ow">in</span> <span class="n">qkv_multipliers</span>
+            <span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;QKV multipliers should be a single number or a list containing exactly two numbers. Got: </span><span class="si">{</span><span class="n">qkv_multipliers</span><span class="si">}</span><span class="s2">.&quot;</span>
+            <span class="p">)</span>
+
+        <span class="c1"># compute the number of query, key, and value heads</span>
+        <span class="c1"># For multi-head and multi-query attention, the number of heads for query, key, and value are the same.</span>
+        <span class="c1"># For group query attention, the number of key and value heads are the same.</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_query_heads</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="nb">int</span><span class="p">(</span><span class="n">compute_heads</span><span class="p">(</span><span class="n">q_dim</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">))</span> <span class="k">for</span> <span class="n">q_dim</span> <span class="ow">in</span> <span class="n">query_dims</span>
+        <span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_kv_heads</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">q_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_gqa_groups</span> <span class="k">for</span> <span class="n">q_heads</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_query_heads</span>
+        <span class="p">]</span>
+
+        <span class="c1"># Feed-forward network (FFN) multipliers</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ffn_multipliers</span><span class="p">,</span> <span class="n">Number</span><span class="p">):</span>
+            <span class="c1"># All FFN layers have the same latent dimensions, resulting in uniform allocation of parameters.</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">ffn_multipliers</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">ffn_multipliers</span><span class="p">]</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_transformer_layers</span>
+        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ffn_multipliers</span><span class="p">,</span> <span class="p">(</span><span class="nb">tuple</span><span class="p">,</span> <span class="nb">list</span><span class="p">)):</span>
+            <span class="c1"># Each FFN layer have different latent dimensions assuming ffn_multipliers[0] != ffn_multipliers[1].</span>
+            <span class="c1"># This results in variable allocation of parameters in FFN layer.</span>
+            <span class="c1"># This scaling is known as layer-wise or block-wise scaling: https://arxiv.org/abs/2008.00623</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ffn_multipliers</span><span class="p">)</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">ffn_multipliers</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="nb">round</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="mi">2</span><span class="p">)</span>
+                    <span class="k">for</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">jnp</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">ffn_multipliers</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">ffn_multipliers</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+                        <span class="n">num</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">num_transformer_layers</span><span class="p">,</span>
+                        <span class="n">dtype</span><span class="o">=</span><span class="nb">float</span><span class="p">,</span>
+                    <span class="p">)</span>
+                <span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">assert</span> <span class="p">(</span>
+                        <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ffn_multipliers</span><span class="p">)</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_transformer_layers</span>
+                <span class="p">),</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ffn_multipliers</span><span class="p">)</span><span class="si">=}</span><span class="s2">!=</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_transformer_layers</span><span class="si">=}</span><span class="s2">&quot;</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;FFN multipliers should be a single number or a list containing exactly two numbers. Got: </span><span class="si">{</span><span class="n">qkv_multipliers</span><span class="si">}</span><span class="s2">.&quot;</span>
+            <span class="p">)</span>
+
+        <span class="c1"># check num_query_heads divisible by num_kv_heads for every layer</span>
+        <span class="k">for</span> <span class="n">layer_idx</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">query_dims</span><span class="p">)):</span>
+            <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_query_heads</span><span class="p">[</span><span class="n">layer_idx</span><span class="p">]</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_kv_heads</span><span class="p">[</span><span class="n">layer_idx</span><span class="p">]</span> <span class="o">==</span> <span class="mi">0</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">vocab_size</span><span class="o">=</span><span class="mi">32000</span><span class="p">,</span> <span class="n">max_context_length</span><span class="o">=</span><span class="mi">2048</span><span class="p">,</span> <span class="n">num_transformer_layers</span><span class="o">=</span><span class="mi">12</span><span class="p">,</span> <span class="n">model_dim</span><span class="o">=</span><span class="mi">2048</span><span class="p">,</span> <span class="n">head_dim</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span> <span class="n">qkv_multipliers</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span> <span class="n">num_query_heads</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">num_gqa_groups</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">ffn_multipliers</span><span class="o">=</span><span class="mf">4.0</span><span class="p">,</span> <span class="n">ffn_with_glu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">ffn_dim_divisor</span><span class="o">=</span><span class="mi">256</span><span class="p">,</span> <span class="n">activation_fn_name</span><span class="o">=</span><span class="s1">&#39;swish&#39;</span><span class="p">,</span> <span class="n">normalization_layer_name</span><span class="o">=</span><span class="s1">&#39;rms_norm&#39;</span><span class="p">,</span> <span class="n">normalize_qk_projections</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">share_input_output_layers</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">rope_freq_constant</span><span class="o">=</span><span class="mi">10000</span><span class="p">,</span> <span class="n">rope_max_length</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span> <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span> <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">rope_scaling</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">use_scan_mlp</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="mi">1024</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It allows the class to initialize the attributes of a class.
+The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>vocab_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the size of the vocabulary</p>
+              </div>
+            </td>
+            <td>
+                  <code>32000</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine the size of the embedding layers</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>intermediate_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the size of the intermediate layer
+in each transformer block</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_hidden_layers</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine the number of layers in the
+encoder and decoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_attention_heads</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine the number of attention heads
+in each layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_key_value_heads</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the number of heads for key and
+value</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_act</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the activation function used in the
+hidden layers</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_position_embeddings</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the maximum length of the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>initializer_range</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.02</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rms_norm_eps</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Avoid division by zero in the rms
+normalization</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine whether to use the cache in the decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>pad_token_id</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the token id of the padding token</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bos_token_id</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the beginning of sentence token id</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>eos_token_id</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the end of sentence token</p>
+              </div>
+            </td>
+            <td>
+                  <code>2</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tie_word_embeddings</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tie the word embeddings and the output
+layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rope_theta</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Control the number of tokens in a rope</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sliding_window</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Control the number of tokens that are
+processed in parallel</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Specify whether to use gradient
+checkpointing</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_scan_mlp</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether or not to use the
+scan_mlp function</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_mlp_chunk_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Specify the chunk size of the scan
+mlp</p>
+              </div>
+            </td>
+            <td>
+                  <code>1024</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>number_rep_kv</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Specify the number of times to repeat
+the key and value vectors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_dropout</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the dropout rate for the
+attention layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Specify the number of bits used for
+quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_dims</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[int]: Specify the dimension of each axis</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_names</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[str]: Specify the names of each axis in
+the tensor</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>&amp;quot;mp&amp;quot;)</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the maximum position embeddings</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_bias</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: when ever to use attention_bias</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass a variable number of keyword arguments to a
+function</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Define the number of layers in the model</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>An instance of the class</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/openelm/openelm_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">vocab_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32000</span><span class="p">,</span>
+        <span class="n">max_context_length</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2048</span><span class="p">,</span>
+        <span class="n">num_transformer_layers</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">12</span><span class="p">,</span>
+        <span class="n">model_dim</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2048</span><span class="p">,</span>
+        <span class="n">head_dim</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">128</span><span class="p">,</span>
+        <span class="n">qkv_multipliers</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Number</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="n">Number</span><span class="p">]]</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+        <span class="n">num_query_heads</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="kc">None</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">num_gqa_groups</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">ffn_multipliers</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Number</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="n">Number</span><span class="p">]]</span> <span class="o">=</span> <span class="mf">4.0</span><span class="p">,</span>
+        <span class="n">ffn_with_glu</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">ffn_dim_divisor</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">256</span><span class="p">,</span>
+        <span class="n">activation_fn_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;swish&quot;</span><span class="p">,</span>
+        <span class="n">normalization_layer_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;rms_norm&quot;</span><span class="p">,</span>
+        <span class="n">normalize_qk_projections</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">share_input_output_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">rope_freq_constant</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10000</span><span class="p">,</span>
+        <span class="n">rope_max_length</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4096</span><span class="p">,</span>
+        <span class="n">initializer_range</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.02</span><span class="p">,</span>
+        <span class="n">use_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">bos_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">eos_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>
+        <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It allows the class to initialize the attributes of a class.</span>
+<span class="sd">    The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        vocab_size: Define the size of the vocabulary</span>
+<span class="sd">        hidden_size: Determine the size of the embedding layers</span>
+<span class="sd">        intermediate_size: Define the size of the intermediate layer</span>
+<span class="sd">            in each transformer block</span>
+<span class="sd">        num_hidden_layers: Determine the number of layers in the</span>
+<span class="sd">            encoder and decoder</span>
+<span class="sd">        num_attention_heads: Determine the number of attention heads</span>
+<span class="sd">            in each layer</span>
+<span class="sd">        num_key_value_heads: Specify the number of heads for key and</span>
+<span class="sd">            value</span>
+<span class="sd">        hidden_act: Specify the activation function used in the</span>
+<span class="sd">            hidden layers</span>
+<span class="sd">        max_position_embeddings: Set the maximum length of the</span>
+<span class="sd">            sequence</span>
+<span class="sd">        initializer_range: Initialize the weights of the model</span>
+<span class="sd">        rms_norm_eps: Avoid division by zero in the rms</span>
+<span class="sd">            normalization</span>
+<span class="sd">        use_cache: Determine whether to use the cache in the decoder</span>
+<span class="sd">        pad_token_id: Specify the token id of the padding token</span>
+<span class="sd">        bos_token_id: Specify the beginning of sentence token id</span>
+<span class="sd">        eos_token_id: Specify the end of sentence token</span>
+<span class="sd">        tie_word_embeddings: Tie the word embeddings and the output</span>
+<span class="sd">            layer</span>
+<span class="sd">        rope_theta: Control the number of tokens in a rope</span>
+<span class="sd">        sliding_window: Control the number of tokens that are</span>
+<span class="sd">            processed in parallel</span>
+<span class="sd">        gradient_checkpointing: str: Specify whether to use gradient</span>
+<span class="sd">            checkpointing</span>
+<span class="sd">        use_scan_mlp: bool: Determine whether or not to use the</span>
+<span class="sd">            scan_mlp function</span>
+<span class="sd">        scan_mlp_chunk_size: int: Specify the chunk size of the scan</span>
+<span class="sd">            mlp</span>
+<span class="sd">        number_rep_kv: int: Specify the number of times to repeat</span>
+<span class="sd">            the key and value vectors</span>
+<span class="sd">        attention_dropout: float: Set the dropout rate for the</span>
+<span class="sd">            attention layer</span>
+<span class="sd">        bits: Optional[int]: Specify the number of bits used for</span>
+<span class="sd">            quantization</span>
+<span class="sd">        axis_dims: Sequence[int]: Specify the dimension of each axis</span>
+<span class="sd">        axis_names: Sequence[str]: Specify the names of each axis in</span>
+<span class="sd">            the tensor</span>
+<span class="sd">        &amp;quot;mp&amp;quot;): Define the maximum position embeddings</span>
+<span class="sd">        attention_bias: bool: when ever to use attention_bias</span>
+<span class="sd">        **kwargs: Pass a variable number of keyword arguments to a</span>
+<span class="sd">            function</span>
+<span class="sd">    :param : Define the number of layers in the model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        An instance of the class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_context_length</span> <span class="o">=</span> <span class="n">max_context_length</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_transformer_layers</span> <span class="o">=</span> <span class="n">num_transformer_layers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model_dim</span> <span class="o">=</span> <span class="n">model_dim</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="n">head_dim</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">qkv_multipliers</span> <span class="o">=</span> <span class="n">qkv_multipliers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_query_heads</span> <span class="o">=</span> <span class="n">num_query_heads</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_gqa_groups</span> <span class="o">=</span> <span class="n">num_gqa_groups</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">ffn_multipliers</span> <span class="o">=</span> <span class="n">ffn_multipliers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">ffn_with_glu</span> <span class="o">=</span> <span class="n">ffn_with_glu</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">ffn_dim_divisor</span> <span class="o">=</span> <span class="n">ffn_dim_divisor</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">activation_fn_name</span> <span class="o">=</span> <span class="n">activation_fn_name</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">normalization_layer_name</span> <span class="o">=</span> <span class="n">normalization_layer_name</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">normalize_qk_projections</span> <span class="o">=</span> <span class="n">normalize_qk_projections</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">share_input_output_layers</span> <span class="o">=</span> <span class="n">share_input_output_layers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_freq_constant</span> <span class="o">=</span> <span class="n">rope_freq_constant</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_max_length</span> <span class="o">=</span> <span class="n">rope_max_length</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_query_heads</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">compute_heads</span><span class="p">(</span><span class="n">model_dim</span><span class="o">=</span><span class="n">model_dim</span><span class="p">,</span> <span class="n">head_dim</span><span class="o">=</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">num_query_heads</span> <span class="ow">is</span> <span class="kc">None</span>
+        <span class="k">else</span> <span class="n">num_query_heads</span>
+    <span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+        <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+        <span class="n">use_scan_mlp</span><span class="o">=</span><span class="n">use_scan_mlp</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+        <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig.add_jax_args" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_jax_args</span><span class="p">(</span><span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">use_scan_mlp</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="mi">1024</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rope_scaling</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The add_jax_args function adds the following arguments to the model:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Bind the attributes and methods of a class to an
+instance of that class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Determine whether to use
+gradient checkpointing</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_scan_mlp</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use the scan_mlp
+function or notn</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_mlp_chunk_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Chunk the input to the mlp</p>
+              </div>
+            </td>
+            <td>
+                  <code>1024</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Specify the number of bits to use for
+quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rope_scaling</code></td>
+            <td>
+                  <code><span title="typing.Dict">Dict</span>[str, <span title="typing.Union">Union</span>[str, float]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Dict[str, Union[str, float]]: rope_scaling for
+rope</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the following:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/openelm/openelm_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the model:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Bind the attributes and methods of a class to an</span>
+<span class="sd">            instance of that class</span>
+<span class="sd">        gradient_checkpointing: str: Determine whether to use</span>
+<span class="sd">            gradient checkpointing</span>
+<span class="sd">        use_scan_mlp: bool: Determine whether to use the scan_mlp</span>
+<span class="sd">            function or notn</span>
+<span class="sd">        scan_mlp_chunk_size: int: Chunk the input to the mlp</span>
+<span class="sd">        bits: Optional[int]: Specify the number of bits to use for</span>
+<span class="sd">            quantization</span>
+<span class="sd">        rope_scaling: Dict[str, Union[str, float]]: rope_scaling for</span>
+<span class="sd">            rope</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the following:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+  1) A regex string that matches the name of one or more parameters in the model.
+  2) A PartitionScheme object that defines how those parameters should be partitioned.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use
+the fully_sharded_data_parallel partitioning scheme or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/openelm/openelm_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">      1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">      2) A PartitionScheme object that defines how those parameters should be partitioned.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to use</span>
+<span class="sd">            the fully_sharded_data_parallel partitioning scheme or</span>
+<span class="sd">            not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.openelm.openelm_configuration.compute_heads" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">compute_heads</span><span class="p">(</span><span class="n">model_dim</span><span class="p">,</span> <span class="n">head_dim</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Compute the number of heads.
+Args:
+    model_dim: Model dimension.
+    head_dim: Head dimension.
+Returns:
+    An integer denoting number of heads in multi-head attention is returned.
+Raises:
+    ValueError: if model dimension is not divisible by head dimension.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/openelm/openelm_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">compute_heads</span><span class="p">(</span><span class="n">model_dim</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">head_dim</span><span class="p">:</span> <span class="nb">int</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">int</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Compute the number of heads.</span>
+<span class="sd">    Args:</span>
+<span class="sd">        model_dim: Model dimension.</span>
+<span class="sd">        head_dim: Head dimension.</span>
+<span class="sd">    Returns:</span>
+<span class="sd">        An integer denoting number of heads in multi-head attention is returned.</span>
+<span class="sd">    Raises:</span>
+<span class="sd">        ValueError: if model dimension is not divisible by head dimension.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">model_dim</span> <span class="o">%</span> <span class="n">head_dim</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">model_dim</span> <span class="o">//</span> <span class="n">head_dim</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;Model dimension should be divisible by head dimension. Got: </span><span class="si">{</span><span class="n">model_dim</span><span class="si">}</span><span class="s2"> and </span><span class="si">{</span><span class="n">head_dim</span><span class="si">}</span><span class="s2">.&quot;</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.openelm.openelm_configuration.make_divisible" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">make_divisible</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="n">divisor</span><span class="o">=</span><span class="mi">8</span><span class="p">,</span> <span class="n">min_value</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>This function is taken from the original tf repo.
+It ensures that all layers have a channel number that is divisible by the divisor
+It can be seen at:
+https://github.com/tensorflow/models/blob/2cfc99eff5e5eb729c6793d2f3d03aa1c9be2b15/research/slim/nets/mobilenet/mobilenet.py#L62
+Args:
+    v: input value
+    divisor: default to 8
+    min_value: minimum divisor value
+Returns:
+    new_v: new divisible value</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/openelm/openelm_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 8</span>
+<span class="normal"> 9</span>
+<span class="normal">10</span>
+<span class="normal">11</span>
+<span class="normal">12</span>
+<span class="normal">13</span>
+<span class="normal">14</span>
+<span class="normal">15</span>
+<span class="normal">16</span>
+<span class="normal">17</span>
+<span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">make_divisible</span><span class="p">(</span>
+        <span class="n">v</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span> <span class="nb">int</span><span class="p">],</span>
+        <span class="n">divisor</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">8</span><span class="p">,</span>
+        <span class="n">min_value</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span> <span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="nb">float</span><span class="p">,</span> <span class="nb">int</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;This function is taken from the original tf repo.</span>
+<span class="sd">    It ensures that all layers have a channel number that is divisible by the divisor</span>
+<span class="sd">    It can be seen at:</span>
+<span class="sd">    https://github.com/tensorflow/models/blob/2cfc99eff5e5eb729c6793d2f3d03aa1c9be2b15/research/slim/nets/mobilenet/mobilenet.py#L62</span>
+<span class="sd">    Args:</span>
+<span class="sd">        v: input value</span>
+<span class="sd">        divisor: default to 8</span>
+<span class="sd">        min_value: minimum divisor value</span>
+<span class="sd">    Returns:</span>
+<span class="sd">        new_v: new divisible value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">min_value</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">min_value</span> <span class="o">=</span> <span class="n">divisor</span>
+    <span class="n">new_v</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">min_value</span><span class="p">,</span> <span class="nb">int</span><span class="p">(</span><span class="n">v</span> <span class="o">+</span> <span class="n">divisor</span> <span class="o">/</span> <span class="mi">2</span><span class="p">)</span> <span class="o">//</span> <span class="n">divisor</span> <span class="o">*</span> <span class="n">divisor</span><span class="p">)</span>
+    <span class="c1"># Make sure that round down does not go down by more than 10%.</span>
+    <span class="k">if</span> <span class="n">new_v</span> <span class="o">&lt;</span> <span class="mf">0.9</span> <span class="o">*</span> <span class="n">v</span><span class="p">:</span>
+        <span class="n">new_v</span> <span class="o">+=</span> <span class="n">divisor</span>
+    <span class="k">return</span> <span class="n">new_v</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-opt-modelling_opt_flax/index.html b/generated-modules-opt-modelling_opt_flax/index.html
new file mode 100644
index 000000000..d76cd779f
--- /dev/null
+++ b/generated-modules-opt-modelling_opt_flax/index.html
@@ -0,0 +1,6186 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-openelm-openelm_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-opt-opt_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Opt Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesoptmodelling_opt_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Opt Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.opt.modelling_opt_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_opt_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.opt.modelling_opt_flax.FlaxOPTLearnedPositionalEmbedding" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxOPTLearnedPositionalEmbedding
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxOPTLearnedPositionalEmbedding">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.opt.modelling_opt_flax.FlaxOPTLearnedPositionalEmbedding.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.opt.modelling_opt_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_opt_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.opt.modelling_opt_flax.FlaxOPTLearnedPositionalEmbedding" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxOPTLearnedPositionalEmbedding
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxOPTLearnedPositionalEmbedding">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.opt.modelling_opt_flax.FlaxOPTLearnedPositionalEmbedding.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesoptmodelling_opt_flax">modules.opt.modelling_opt_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.opt.modelling_opt_flax"></a>
+    <div class="doc doc-contents first">
+
+      <p>Flax OPT model.</p>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.opt.modelling_opt_flax.FlaxOPTLearnedPositionalEmbedding" class="doc doc-heading">
+            <code>FlaxOPTLearnedPositionalEmbedding</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Embed">Embed</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/opt/modelling_opt_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxOPTLearnedPositionalEmbedding</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Embed</span><span class="p">):</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">offset</span> <span class="o">=</span> <span class="mi">2</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embedding</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">param</span><span class="p">(</span>
+            <span class="s2">&quot;embedding&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">embedding_init</span><span class="p">,</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_embeddings</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">offset</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">features</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">positions</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;`input_ids_shape` is expected to be [bsz x seqlen].&quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span><span class="n">positions</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">offset</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.opt.modelling_opt_flax.FlaxOPTLearnedPositionalEmbedding.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">positions</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p><code>input_ids_shape</code> is expected to be [bsz x seqlen].</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/opt/modelling_opt_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">positions</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;`input_ids_shape` is expected to be [bsz x seqlen].&quot;&quot;&quot;</span>
+
+    <span class="k">return</span> <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span><span class="n">positions</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">offset</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-opt-opt_configuration/index.html b/generated-modules-opt-opt_configuration/index.html
new file mode 100644
index 000000000..4332cf851
--- /dev/null
+++ b/generated-modules-opt-opt_configuration/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-opt-modelling_opt_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-palm-modelling_palm_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Opt Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesoptopt_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Opt Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.opt.opt_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      opt_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.opt.opt_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      opt_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesoptopt_configuration">modules.opt.opt_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.opt.opt_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-palm-modelling_palm_flax/index.html b/generated-modules-palm-modelling_palm_flax/index.html
new file mode 100644
index 000000000..e6b7be6a2
--- /dev/null
+++ b/generated-modules-palm-modelling_palm_flax/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-opt-opt_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-palm-palm_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Palm Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulespalmmodelling_palm_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Palm Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.palm.modelling_palm_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_palm_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.palm.modelling_palm_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_palm_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulespalmmodelling_palm_flax">modules.palm.modelling_palm_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.palm.modelling_palm_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-palm-palm_configuration/index.html b/generated-modules-palm-palm_configuration/index.html
new file mode 100644
index 000000000..e448247fa
--- /dev/null
+++ b/generated-modules-palm-palm_configuration/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-palm-modelling_palm_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-phi-modelling_phi_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Palm Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulespalmpalm_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Palm Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.palm.palm_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      palm_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.palm.palm_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      palm_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulespalmpalm_configuration">modules.palm.palm_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.palm.palm_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-phi-modelling_phi_flax/index.html b/generated-modules-phi-modelling_phi_flax/index.html
new file mode 100644
index 000000000..c5b261731
--- /dev/null
+++ b/generated-modules-phi-modelling_phi_flax/index.html
@@ -0,0 +1,7579 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-palm-palm_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-phi-phi_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Phi Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesphimodelling_phi_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Phi Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.modelling_phi_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_phi_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxPhiAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxPhiAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiMLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxPhiMLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxPhiMLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiMLP.precision" class="md-nav__link">
+    <span class="md-ellipsis">
+      precision
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxPhiPreTrainedModel
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.modelling_phi_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_phi_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxPhiAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxPhiAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiMLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxPhiMLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxPhiMLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiMLP.precision" class="md-nav__link">
+    <span class="md-ellipsis">
+      precision
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxPhiPreTrainedModel
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesphimodelling_phi_flax">modules.phi.modelling_phi_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.phi.modelling_phi_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiAttention" class="doc doc-heading">
+            <code>FlaxPhiAttention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+      <p>Multi-headed attention from 'Attention Is All You Need' paper</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/phi/modelling_phi_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxPhiAttention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Multi-headed attention from &#39;Attention Is All You Need&#39; paper&quot;&quot;&quot;</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">PhiConfig</span>
+    <span class="n">layer_idx</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">partial_rotary_factor</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">partial_rotary_factor</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">is_causal</span> <span class="o">=</span> <span class="kc">True</span>
+
+        <span class="k">if</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span><span class="p">)</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;hidden_size must be divisible by num_heads (got `hidden_size`: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="si">}</span><span class="s2">&quot;</span>
+                <span class="sa">f</span><span class="s2">&quot; and `num_heads`: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span><span class="si">}</span><span class="s2">).&quot;</span>
+            <span class="p">)</span>
+
+        <span class="n">dense_class</span> <span class="o">=</span> <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+            <span class="n">Linear</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span> <span class="o">=</span> <span class="n">dense_class</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span> <span class="o">=</span> <span class="n">dense_class</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span> <span class="o">=</span> <span class="n">dense_class</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dense</span> <span class="o">=</span> <span class="n">dense_class</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">partial_rotary_factor</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">qk_layernorm</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">qk_layernorm</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">qk_layernorm</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">q_layernorm</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">(</span>
+                <span class="n">epsilon</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">layer_norm_eps</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">use_bias</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">k_layernorm</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">(</span>
+                <span class="n">epsilon</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">layer_norm_eps</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">use_bias</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">use_sharding_constraint</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span><span class="p">,</span>
+            <span class="n">backward_pass_impl</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">flash_attention_backward_pass_impl</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _transpose_sequence_head function transposes the query_states, key and value matrices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            query_states: Get the attention weights for each of the</span>
+<span class="sd">                heads</span>
+<span class="sd">            key: Determine the number of heads</span>
+<span class="sd">            value: Store the values of the input</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The transpose of the query_states, key and value matrices</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span>
+                                                                                                          <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            batch_size: Reshape the query_states, key and value tensors</span>
+<span class="sd">            sequence_length: Reshape the query_states, key and value</span>
+<span class="sd">                tensors</span>
+<span class="sd">            query: Calculate the attention weights</span>
+<span class="sd">            key: Calculate the attention</span>
+<span class="sd">            value: Compute the attention weights</span>
+<span class="sd">            freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">                vocabulary</span>
+<span class="sd">            position_ids: Identify the position of each token in the</span>
+<span class="sd">                sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 tensors: query_states, key and value</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+        <span class="n">sin</span><span class="p">,</span> <span class="n">cos</span> <span class="o">=</span> <span class="n">freq_cis</span>
+
+        <span class="n">sin</span> <span class="o">=</span> <span class="n">sin</span><span class="p">[</span><span class="n">position_ids</span><span class="p">][:,</span> <span class="kc">None</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+        <span class="n">cos</span> <span class="o">=</span> <span class="n">cos</span><span class="p">[</span><span class="n">position_ids</span><span class="p">][:,</span> <span class="kc">None</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+
+        <span class="n">query_rot</span><span class="p">,</span> <span class="n">query_pass</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">query</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">],</span>
+            <span class="n">query</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">:],</span>
+        <span class="p">)</span>
+        <span class="n">key_rot</span><span class="p">,</span> <span class="n">key_pass</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">key</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">],</span>
+            <span class="n">key</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">:],</span>
+        <span class="p">)</span>
+
+        <span class="n">key_rot</span> <span class="o">=</span> <span class="n">apply_rotary_pos_emb</span><span class="p">(</span><span class="n">key_rot</span><span class="p">,</span> <span class="n">sin</span><span class="p">,</span> <span class="n">cos</span><span class="p">)</span>
+        <span class="n">query_rot</span> <span class="o">=</span> <span class="n">apply_rotary_pos_emb</span><span class="p">(</span><span class="n">query_rot</span><span class="p">,</span> <span class="n">sin</span><span class="p">,</span> <span class="n">cos</span><span class="p">)</span>
+
+        <span class="n">query</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">((</span><span class="n">query_rot</span><span class="p">,</span> <span class="n">query_pass</span><span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">((</span><span class="n">key_rot</span><span class="p">,</span> <span class="n">key_pass</span><span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="p">(</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span>
+        <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span>
+            <span class="n">hidden_states</span>
+        <span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span>
+            <span class="n">hidden_states</span>
+        <span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+            <span class="n">hidden_states</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">qk_layernorm</span><span class="p">:</span>
+            <span class="n">query_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_layernorm</span><span class="p">(</span><span class="n">query_states</span><span class="p">)</span>
+            <span class="n">key_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_layernorm</span><span class="p">(</span><span class="n">key_states</span><span class="p">)</span>
+
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+        <span class="p">)</span>
+
+        <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                     <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+        <span class="c1"># if self.config.use_sharding_constraint:</span>
+        <span class="c1">#     query_states = with_sharding_constraint(</span>
+        <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     key_states = with_sharding_constraint(</span>
+        <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     value_states = with_sharding_constraint(</span>
+        <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dense</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span><span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiAttention.apply_rotary" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rotary</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class.
+The main difference is that it takes in an additional argument, freq_cis, which are used to calculate
+the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query_states, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sequence_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query_states, key and value
+tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Compute the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the frequency of each word in the
+vocabulary</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Identify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 tensors: query_states, key and value</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/phi/modelling_phi_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        batch_size: Reshape the query_states, key and value tensors</span>
+<span class="sd">        sequence_length: Reshape the query_states, key and value</span>
+<span class="sd">            tensors</span>
+<span class="sd">        query: Calculate the attention weights</span>
+<span class="sd">        key: Calculate the attention</span>
+<span class="sd">        value: Compute the attention weights</span>
+<span class="sd">        freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">            vocabulary</span>
+<span class="sd">        position_ids: Identify the position of each token in the</span>
+<span class="sd">            sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 tensors: query_states, key and value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="n">sin</span><span class="p">,</span> <span class="n">cos</span> <span class="o">=</span> <span class="n">freq_cis</span>
+
+    <span class="n">sin</span> <span class="o">=</span> <span class="n">sin</span><span class="p">[</span><span class="n">position_ids</span><span class="p">][:,</span> <span class="kc">None</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+    <span class="n">cos</span> <span class="o">=</span> <span class="n">cos</span><span class="p">[</span><span class="n">position_ids</span><span class="p">][:,</span> <span class="kc">None</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+
+    <span class="n">query_rot</span><span class="p">,</span> <span class="n">query_pass</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">query</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">],</span>
+        <span class="n">query</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">:],</span>
+    <span class="p">)</span>
+    <span class="n">key_rot</span><span class="p">,</span> <span class="n">key_pass</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">key</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">],</span>
+        <span class="n">key</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">:],</span>
+    <span class="p">)</span>
+
+    <span class="n">key_rot</span> <span class="o">=</span> <span class="n">apply_rotary_pos_emb</span><span class="p">(</span><span class="n">key_rot</span><span class="p">,</span> <span class="n">sin</span><span class="p">,</span> <span class="n">cos</span><span class="p">)</span>
+    <span class="n">query_rot</span> <span class="o">=</span> <span class="n">apply_rotary_pos_emb</span><span class="p">(</span><span class="n">query_rot</span><span class="p">,</span> <span class="n">sin</span><span class="p">,</span> <span class="n">cos</span><span class="p">)</span>
+
+    <span class="n">query</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">((</span><span class="n">query_rot</span><span class="p">,</span> <span class="n">query_pass</span><span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">((</span><span class="n">key_rot</span><span class="p">,</span> <span class="n">key_pass</span><span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+
+    <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiMLP" class="doc doc-heading">
+            <code>FlaxPhiMLP</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="flax.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/phi/modelling_phi_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span>
+<span class="normal">80</span>
+<span class="normal">81</span>
+<span class="normal">82</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxPhiMLP</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">PhiConfig</span>
+    <span class="n">layer_idx</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Multi-Layer Perceptron.</span>
+<span class="sd">    Reference:</span>
+<span class="sd">        Attention Is All You Need.</span>
+<span class="sd">        https://arxiv.org/pdf/1706.03762.pdf.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span>
+            <span class="bp">self</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fc1</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">intermediate_size</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fc2</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">n_embd</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">act</span> <span class="o">=</span> <span class="n">ACT2FN</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_act</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">e</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>  <span class="c1"># Ignored</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Array</span><span class="p">:</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">fc2</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">act</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">fc1</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)))</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiMLP.precision" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s1">&#39;fastest&#39;</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Multi-Layer Perceptron.
+Reference:
+    Attention Is All You Need.
+    https://arxiv.org/pdf/1706.03762.pdf.</p>
+    </div>
+
+</div>
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiPreTrainedModel" class="doc doc-heading">
+            <code>FlaxPhiPreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+      <p>Phi pre-trained model.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/phi/modelling_phi_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxPhiPreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Phi pre-trained model.&quot;&quot;&quot;</span>
+    <span class="n">module_class</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">PhiConfig</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;transformer&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">PhiConfig</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">),</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">42</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">module</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">,</span>
+            <span class="n">seed</span><span class="o">=</span><span class="n">seed</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span><span class="n">rngs</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">)</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-phi-phi_configuration/index.html b/generated-modules-phi-phi_configuration/index.html
new file mode 100644
index 000000000..2aa195c95
--- /dev/null
+++ b/generated-modules-phi-phi_configuration/index.html
@@ -0,0 +1,6332 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-phi-modelling_phi_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-phi3-modelling_phi3_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Phi Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesphiphi_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Phi Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.phi_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      phi_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.phi_configuration.PhiConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      PhiConfig
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.phi_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      phi_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi.phi_configuration.PhiConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      PhiConfig
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesphiphi_configuration">modules.phi.phi_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.phi.phi_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.phi.phi_configuration.PhiConfig" class="doc doc-heading">
+            <code>PhiConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+      <p>Phi configuration.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/phi/phi_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">PhiConfig</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Phi configuration.&quot;&quot;&quot;</span>
+
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;phi&quot;</span>
+    <span class="n">attribute_map</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;max_position_embeddings&quot;</span><span class="p">:</span> <span class="s2">&quot;n_positions&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;hidden_size&quot;</span><span class="p">:</span> <span class="s2">&quot;n_embd&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;num_attention_heads&quot;</span><span class="p">:</span> <span class="s2">&quot;num_attention_heads&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;num_hidden_layers&quot;</span><span class="p">:</span> <span class="s2">&quot;num_hidden_layers&quot;</span><span class="p">,</span>
+    <span class="p">}</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">51200</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">2048</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">8192</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">24</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">resid_pdrop</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">embd_pdrop</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">hidden_act</span><span class="o">=</span><span class="s2">&quot;gelu_new&quot;</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">2048</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">layer_norm_eps</span><span class="o">=</span><span class="mf">1e-5</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">partial_rotary_factor</span><span class="o">=</span><span class="mf">0.5</span><span class="p">,</span>
+            <span class="n">qk_layernorm</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="k">if</span> <span class="n">num_key_value_heads</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">resid_pdrop</span> <span class="o">=</span> <span class="n">resid_pdrop</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embd_pdrop</span> <span class="o">=</span> <span class="n">embd_pdrop</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm_eps</span> <span class="o">=</span> <span class="n">layer_norm_eps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">partial_rotary_factor</span> <span class="o">=</span> <span class="n">partial_rotary_factor</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">qk_layernorm</span> <span class="o">=</span> <span class="n">qk_layernorm</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="p">):</span>
+                <span class="nb">setattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="p">(</span><span class="s2">&quot;embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;final_layernorm/(scale|bias)&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;final_layernorm/(scale|bias)&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/fc1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/fc1/bias&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/fc2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/fc2/bias&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/dense/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/dense/bias&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/bias&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/bias&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="p">))</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+            <span class="p">(</span><span class="s2">&quot;embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;final_layernorm/(scale|bias)&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;final_layernorm/(scale|bias)&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/fc1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/fc1/bias&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/fc2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/fc2/bias&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/dense/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/dense/bias&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/bias&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/bias&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="p">))</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-phi3-modelling_phi3_flax/index.html b/generated-modules-phi3-modelling_phi3_flax/index.html
new file mode 100644
index 000000000..b7c6e589b
--- /dev/null
+++ b/generated-modules-phi3-modelling_phi3_flax/index.html
@@ -0,0 +1,7431 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-phi-phi_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-phi3-phi3_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Phi3 Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesphi3modelling_phi3_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Phi3 Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.modelling_phi3_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_phi3_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3Attention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxPhi3Attention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxPhi3Attention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3Attention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3MLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxPhi3MLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxPhi3MLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3MLP.precision" class="md-nav__link">
+    <span class="md-ellipsis">
+      precision
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhiPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxPhiPreTrainedModel
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.modelling_phi3_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_phi3_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3Attention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxPhi3Attention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxPhi3Attention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3Attention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3MLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxPhi3MLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxPhi3MLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3MLP.precision" class="md-nav__link">
+    <span class="md-ellipsis">
+      precision
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhiPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxPhiPreTrainedModel
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesphi3modelling_phi3_flax">modules.phi3.modelling_phi3_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.phi3.modelling_phi3_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3Attention" class="doc doc-heading">
+            <code>FlaxPhi3Attention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+      <p>Multi-headed attention from 'Attention Is All You Need' paper</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/phi3/modelling_phi3_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxPhi3Attention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Multi-headed attention from &#39;Attention Is All You Need&#39; paper&quot;&quot;&quot;</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Phi3Config</span>
+    <span class="n">layer_idx</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">original_max_position_embeddings</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">original_max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">is_causal</span> <span class="o">=</span> <span class="kc">True</span>
+
+        <span class="k">if</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span><span class="p">)</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;hidden_size must be divisible by num_heads (got `hidden_size`: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="si">}</span><span class="s2">&quot;</span>
+                <span class="sa">f</span><span class="s2">&quot; and `num_heads`: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span><span class="si">}</span><span class="s2">).&quot;</span>
+            <span class="p">)</span>
+
+        <span class="n">dense_class</span> <span class="o">=</span> <span class="n">functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+            <span class="n">Linear</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="n">op_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">+</span> <span class="mi">2</span> <span class="o">*</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span> <span class="o">=</span> <span class="n">dense_class</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">qkv_proj</span> <span class="o">=</span> <span class="n">dense_class</span><span class="p">(</span><span class="n">op_size</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span> <span class="o">=</span> <span class="n">FlaxPhi3Embedding</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">use_sharding_constraint</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span><span class="p">,</span>
+            <span class="n">backward_pass_impl</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">flash_attention_backward_pass_impl</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _transpose_sequence_head function transposes the query_states, key and value matrices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            query_states: Get the attention weights for each of the</span>
+<span class="sd">                heads</span>
+<span class="sd">            key: Determine the number of heads</span>
+<span class="sd">            value: Store the values of the input</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The transpose of the query_states, key and value matrices</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query_states</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span>
+                                                                                                          <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            batch_size: Reshape the query_states, key and value tensors</span>
+<span class="sd">            sequence_length: Reshape the query_states, key and value</span>
+<span class="sd">                tensors</span>
+<span class="sd">            query: Calculate the attention weights</span>
+<span class="sd">            key: Calculate the attention</span>
+<span class="sd">            value: Compute the attention weights</span>
+<span class="sd">            freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">                vocabulary</span>
+<span class="sd">            position_ids: Identify the position of each token in the</span>
+<span class="sd">                sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 tensors: query_states, key and value</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">)</span>
+
+        <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="p">):</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="n">qkv</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">qkv_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">query_pos</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">qkv</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="n">query_pos</span><span class="p">]</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">qkv</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="n">query_pos</span><span class="p">:</span> <span class="n">query_pos</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">]</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">qkv</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="n">query_pos</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">:]</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+        <span class="p">)</span>
+
+        <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                     <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span><span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3Attention.apply_rotary" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rotary</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class.
+The main difference is that it takes in an additional argument, freq_cis, which are used to calculate
+the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query_states, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sequence_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query_states, key and value
+tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Compute the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the frequency of each word in the
+vocabulary</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Identify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 tensors: query_states, key and value</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/phi3/modelling_phi3_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        batch_size: Reshape the query_states, key and value tensors</span>
+<span class="sd">        sequence_length: Reshape the query_states, key and value</span>
+<span class="sd">            tensors</span>
+<span class="sd">        query: Calculate the attention weights</span>
+<span class="sd">        key: Calculate the attention</span>
+<span class="sd">        value: Compute the attention weights</span>
+<span class="sd">        freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">            vocabulary</span>
+<span class="sd">        position_ids: Identify the position of each token in the</span>
+<span class="sd">            sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 tensors: query_states, key and value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">)</span>
+
+    <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3MLP" class="doc doc-heading">
+            <code>FlaxPhi3MLP</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="flax.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/phi3/modelling_phi3_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxPhi3MLP</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Phi3Config</span>
+    <span class="n">layer_idx</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Multi-Layer Perceptron.</span>
+<span class="sd">    Reference:</span>
+<span class="sd">        Attention Is All You Need.</span>
+<span class="sd">        https://arxiv.org/pdf/1706.03762.pdf.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span>
+            <span class="bp">self</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="mi">2</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">intermediate_size</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">activation_fn</span> <span class="o">=</span> <span class="n">ACT2FN</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_act</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">Array</span><span class="p">,</span>
+            <span class="n">e</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>  <span class="c1"># Ignored</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Array</span><span class="p">:</span>
+        <span class="n">up_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">gate_up_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">gate</span><span class="p">,</span> <span class="n">up_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">up_states</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">up_states</span> <span class="o">=</span> <span class="n">up_states</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">activation_fn</span><span class="p">(</span><span class="n">gate</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">(</span><span class="n">up_states</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3MLP.precision" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s1">&#39;fastest&#39;</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Multi-Layer Perceptron.
+Reference:
+    Attention Is All You Need.
+    https://arxiv.org/pdf/1706.03762.pdf.</p>
+    </div>
+
+</div>
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhiPreTrainedModel" class="doc doc-heading">
+            <code>FlaxPhiPreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+      <p>Phi pre-trained model.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/phi3/modelling_phi3_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxPhiPreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Phi pre-trained model.&quot;&quot;&quot;</span>
+    <span class="n">module_class</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">Phi3Config</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;transformer&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">Phi3Config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">),</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">42</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">module</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">,</span>
+            <span class="n">seed</span><span class="o">=</span><span class="n">seed</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span><span class="n">rngs</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">)</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-phi3-phi3_configuration/index.html b/generated-modules-phi3-phi3_configuration/index.html
new file mode 100644
index 000000000..36abf9ce0
--- /dev/null
+++ b/generated-modules-phi3-phi3_configuration/index.html
@@ -0,0 +1,6400 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-phi3-modelling_phi3_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-qwen1-modelling_qwen1_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Phi3 Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesphi3phi3_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Phi3 Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.phi3_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      phi3_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.phi3_configuration.Phi3Config" class="md-nav__link">
+    <span class="md-ellipsis">
+      Phi3Config
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.phi3_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      phi3_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.phi3.phi3_configuration.Phi3Config" class="md-nav__link">
+    <span class="md-ellipsis">
+      Phi3Config
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesphi3phi3_configuration">modules.phi3.phi3_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.phi3.phi3_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.phi3.phi3_configuration.Phi3Config" class="doc doc-heading">
+            <code>Phi3Config</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+      <p>Phi configuration.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/phi3/phi3_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">Phi3Config</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Phi configuration.&quot;&quot;&quot;</span>
+
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;phi3&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">32064</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">3072</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">8192</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">resid_pdrop</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">embd_pdrop</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">hidden_act</span><span class="o">=</span><span class="s2">&quot;silu&quot;</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">original_max_position_embeddings</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-5</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">32000</span><span class="p">,</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="mi">32000</span><span class="p">,</span>
+            <span class="n">sliding_window</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="k">if</span> <span class="n">num_key_value_heads</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">resid_pdrop</span> <span class="o">=</span> <span class="n">resid_pdrop</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embd_pdrop</span> <span class="o">=</span> <span class="n">embd_pdrop</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">original_max_position_embeddings</span> <span class="o">=</span> <span class="n">original_max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_rope_scaling_validation</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sliding_window</span> <span class="o">=</span> <span class="n">sliding_window</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="p">):</span>
+                <span class="nb">setattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="p">(</span><span class="s2">&quot;embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/qkv_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="p">))</span>
+
+        <span class="p">)</span> <span class="k">if</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+            <span class="p">(</span><span class="s2">&quot;embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/qkv_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="p">))</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_rope_scaling_validation</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Validate the `rope_scaling` configuration.&quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">,</span> <span class="nb">dict</span><span class="p">)</span> <span class="ow">or</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">3</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;`rope_scaling` must be a dictionary with three fields, `type`, `short_factor` and `long_factor`, &quot;</span>
+                <span class="sa">f</span><span class="s2">&quot;got </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="p">)</span>
+        <span class="n">rope_scaling_type</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;type&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="n">rope_scaling_short_factor</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;short_factor&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="n">rope_scaling_long_factor</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;long_factor&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">rope_scaling_type</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">rope_scaling_type</span> <span class="ow">not</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;su&quot;</span><span class="p">,</span> <span class="s2">&quot;yarn&quot;</span><span class="p">]:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;`rope_scaling`&#39;s type field must be one of [&#39;su&#39;, &#39;yarn&#39;], got </span><span class="si">{</span><span class="n">rope_scaling_type</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span>
+                <span class="nb">isinstance</span><span class="p">(</span><span class="n">rope_scaling_short_factor</span><span class="p">,</span> <span class="nb">list</span><span class="p">)</span>
+                <span class="ow">and</span> <span class="nb">all</span><span class="p">(</span><span class="nb">isinstance</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="p">(</span><span class="nb">int</span><span class="p">,</span> <span class="nb">float</span><span class="p">))</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">rope_scaling_short_factor</span><span class="p">)</span>
+        <span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;`rope_scaling`&#39;s short_factor field must be a list of numbers, got </span><span class="si">{</span><span class="n">rope_scaling_short_factor</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">len</span><span class="p">(</span><span class="n">rope_scaling_short_factor</span><span class="p">)</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">//</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;`rope_scaling`&#39;s short_factor field must have length </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="w"> </span><span class="o">//</span><span class="w"> </span><span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="w"> </span><span class="o">//</span><span class="w"> </span><span class="mi">2</span><span class="si">}</span><span class="s2">, got </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">rope_scaling_short_factor</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span>
+                <span class="nb">isinstance</span><span class="p">(</span><span class="n">rope_scaling_long_factor</span><span class="p">,</span> <span class="nb">list</span><span class="p">)</span>
+                <span class="ow">and</span> <span class="nb">all</span><span class="p">(</span><span class="nb">isinstance</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="p">(</span><span class="nb">int</span><span class="p">,</span> <span class="nb">float</span><span class="p">))</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">rope_scaling_long_factor</span><span class="p">)</span>
+        <span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;`rope_scaling`&#39;s long_factor field must be a list of numbers, got </span><span class="si">{</span><span class="n">rope_scaling_long_factor</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">len</span><span class="p">(</span><span class="n">rope_scaling_long_factor</span><span class="p">)</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">//</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;`rope_scaling`&#39;s long_factor field must have length </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="w"> </span><span class="o">//</span><span class="w"> </span><span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="w"> </span><span class="o">//</span><span class="w"> </span><span class="mi">2</span><span class="si">}</span><span class="s2">, got </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">rope_scaling_long_factor</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-qwen1-modelling_qwen1_flax/index.html b/generated-modules-qwen1-modelling_qwen1_flax/index.html
new file mode 100644
index 000000000..b2e7ba64f
--- /dev/null
+++ b/generated-modules-qwen1-modelling_qwen1_flax/index.html
@@ -0,0 +1,13438 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-phi3-phi3_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-qwen1-qwen1_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Qwen1 Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesqwen1modelling_qwen1_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Qwen1 Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_qwen1_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Attention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1Attention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1Attention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Attention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Attention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Block" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1Block
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1Block">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Block.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1BlockCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1BlockCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1BlockCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1BlockCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1ForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1ForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForSequenceClassificationModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1ForSequenceClassificationModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1ForSequenceClassificationModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForSequenceClassificationModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForSequenceClassificationModule.setup" class="md-nav__link">
+    <span class="md-ellipsis">
+      setup
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1MLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1MLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1MLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1MLP.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Module" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1Module
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1Module">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Module.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1PreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1PreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.init_cache" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_cache
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_qwen1_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Attention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1Attention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1Attention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Attention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Attention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Block" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1Block
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1Block">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Block.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1BlockCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1BlockCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1BlockCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1BlockCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1ForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1ForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForSequenceClassificationModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1ForSequenceClassificationModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1ForSequenceClassificationModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForSequenceClassificationModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForSequenceClassificationModule.setup" class="md-nav__link">
+    <span class="md-ellipsis">
+      setup
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1MLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1MLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1MLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1MLP.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Module" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1Module
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1Module">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Module.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen1PreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen1PreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.init_cache" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_cache
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesqwen1modelling_qwen1_flax">modules.qwen1.modelling_qwen1_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.qwen1.modelling_qwen1_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Attention" class="doc doc-heading">
+            <code>FlaxQwen1Attention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen1Attention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen1Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">projection_size</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">kv_channels</span> <span class="o">*</span> <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">projection_size</span> <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">==</span> <span class="mi">0</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size_per_attention_head</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">projection_size</span> <span class="o">//</span> <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">c_attn</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">projection_size</span> <span class="o">*</span> <span class="mi">3</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">c_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">no_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">logn_list</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">math</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">i</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">seq_length</span><span class="p">)</span> <span class="k">if</span> <span class="n">i</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">seq_length</span> <span class="k">else</span> <span class="mi">1</span>
+            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">32768</span><span class="p">)</span>
+        <span class="p">]</span>
+        <span class="n">logn_tensor</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">logn_list</span><span class="p">)[</span><span class="kc">None</span><span class="p">,</span> <span class="p">:,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">logn_tensor</span> <span class="o">=</span> <span class="n">logn_tensor</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span> <span class="o">=</span> <span class="n">FlaxQwen1EmbeddingApplyer</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">use_sharding_constraint</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_dropout_prob</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span><span class="p">,</span>
+            <span class="n">backward_pass_impl</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">flash_attention_backward_pass_impl</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _transpose_sequence_head function transposes the query, key and value matrices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            query: Get the attention weights for each of the heads</span>
+<span class="sd">            key: Determine the number of heads</span>
+<span class="sd">            value: Store the values of the input</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The transpose of the query, key and value matrices</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">rotary_pos_emb_list</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">        The main difference is that it takes in an additional argument, rotary_pos_emb_list, which are used to calculate</span>
+<span class="sd">        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">            sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">            query_states: Calculate the attention weights</span>
+<span class="sd">            key: Calculate the attention</span>
+<span class="sd">            value: Compute the attention weights</span>
+<span class="sd">            rotary_pos_emb_list: Calculate the frequency of each word in</span>
+<span class="sd">                the vocabulary</span>
+<span class="sd">            position_ids: Identify the position of each token in the</span>
+<span class="sd">                sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 tensors: query_states, key and value</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">rotary_pos_emb_list</span><span class="o">=</span><span class="n">rotary_pos_emb_list</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">query_states</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">rotary_pos_emb_list</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">        and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            rotary_pos_emb_list: list[chex.Array]: Pass in the frequency</span>
+<span class="sd">                coefficients for each position</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+<span class="sd">            fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">                and output tokens</span>
+<span class="sd">        :param : Determine if the attention is causal or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two arrays</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="n">mixed_x_layer</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">c_attn</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">mixed_x_layer</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">2</span><span class="p">)</span>
+
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">rotary_pos_emb_list</span><span class="o">=</span><span class="n">rotary_pos_emb_list</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+        <span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                     <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+        <span class="c1"># if self.config.use_sharding_constraint:</span>
+        <span class="c1">#     query_states = with_sharding_constraint(</span>
+        <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     key_states = with_sharding_constraint(</span>
+        <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     value_states = with_sharding_constraint(</span>
+        <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">c_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Attention.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">rotary_pos_emb_list</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">encoder_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">encoder_attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module. It defines how the module behaves when called
+with inputs. The <strong>call</strong> function can be thought of as a &quot;forward pass&quot; through the model,
+and it should return all outputs that are needed for training or inference.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the hidden states of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rotary_pos_emb_list</code></td>
+            <td>
+                  <code>list[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>list[chex.Array]: Pass in the frequency
+coefficients for each position</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the future tokens in the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the attention weights between the input
+and output tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine if the attention is causal or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two arrays</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">rotary_pos_emb_list</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">encoder_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">encoder_attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">    and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        rotary_pos_emb_list: list[chex.Array]: Pass in the frequency</span>
+<span class="sd">            coefficients for each position</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+<span class="sd">        fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">            and output tokens</span>
+<span class="sd">    :param : Determine if the attention is causal or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two arrays</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+    <span class="n">mixed_x_layer</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">c_attn</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">mixed_x_layer</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">2</span><span class="p">)</span>
+
+    <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+        <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">rotary_pos_emb_list</span><span class="o">=</span><span class="n">rotary_pos_emb_list</span><span class="p">,</span>
+        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+    <span class="p">)</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+        <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+        <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                 <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+        <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+    <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+        <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+        <span class="p">)</span>
+    <span class="c1"># if self.config.use_sharding_constraint:</span>
+    <span class="c1">#     query_states = with_sharding_constraint(</span>
+    <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     key_states = with_sharding_constraint(</span>
+    <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     value_states = with_sharding_constraint(</span>
+    <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+        <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+        <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+        <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+    <span class="p">)</span>
+
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                <span class="s2">&quot;tp&quot;</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">c_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span>
+        <span class="n">attn_output</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Attention.apply_rotary" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rotary</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">rotary_pos_emb_list</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class.
+The main difference is that it takes in an additional argument, rotary_pos_emb_list, which are used to calculate
+the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sequence_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query_states</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Compute the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rotary_pos_emb_list</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the frequency of each word in
+the vocabulary</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Identify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 tensors: query_states, key and value</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">rotary_pos_emb_list</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">    The main difference is that it takes in an additional argument, rotary_pos_emb_list, which are used to calculate</span>
+<span class="sd">    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">        sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">        query_states: Calculate the attention weights</span>
+<span class="sd">        key: Calculate the attention</span>
+<span class="sd">        value: Compute the attention weights</span>
+<span class="sd">        rotary_pos_emb_list: Calculate the frequency of each word in</span>
+<span class="sd">            the vocabulary</span>
+<span class="sd">        position_ids: Identify the position of each token in the</span>
+<span class="sd">            sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 tensors: query_states, key and value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">rotary_pos_emb_list</span><span class="o">=</span><span class="n">rotary_pos_emb_list</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">query_states</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Block" class="doc doc-heading">
+            <code>FlaxQwen1Block</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen1Block</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen1Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attn_block</span> <span class="o">=</span> <span class="n">FlaxQwen1Attention</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">attn_block</span> <span class="o">=</span> <span class="n">nn_partitioning</span><span class="o">.</span><span class="n">remat</span><span class="p">(</span>
+                <span class="n">FlaxQwen1Attention</span><span class="p">,</span> <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">6</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">8</span><span class="p">,</span> <span class="mi">9</span><span class="p">,</span> <span class="mi">10</span><span class="p">,</span> <span class="mi">11</span><span class="p">),</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="p">)</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">attn</span> <span class="o">=</span> <span class="n">attn_block</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">FlaxQwen1MLP</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">nn_partitioning</span><span class="o">.</span><span class="n">remat</span><span class="p">(</span>
+                <span class="n">FlaxQwen1MLP</span><span class="p">,</span> <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,),</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="p">)</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span> <span class="o">=</span> <span class="n">mlp_block</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ln_1</span> <span class="o">=</span> <span class="n">Qwen1RMSNorm</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">layer_norm_epsilon</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ln_2</span> <span class="o">=</span> <span class="n">Qwen1RMSNorm</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">layer_norm_epsilon</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">rotary_pos_emb_list</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">        It takes in hidden states, frequency-domain inputs, and masks as input. It then</span>
+<span class="sd">        applies self-attention to the hidden states using those inputs and returns an</span>
+<span class="sd">        output tensor with shape (batch_size, sequence_length, model_dim).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the class instance itself</span>
+<span class="sd">            hidden_states: chex.Array: Pass in the hidden state of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            rotary_pos_emb_list: list[chex.Array]: Pass in the frequency</span>
+<span class="sd">                information</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in the sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">            deterministic: bool: Control whether the dropout is applied</span>
+<span class="sd">                or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache in the attention</span>
+<span class="sd">                layer</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            fcm_mask: Optional[jnp.ndarray]: Mask the self-attention</span>
+<span class="sd">        :param : Control the dropout in the self attention layer</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two items</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># hidden_states: chex.Array</span>
+        <span class="c1"># rotary_pos_emb_list: list[chex.Array]</span>
+        <span class="c1"># attention_mask: chex.Array</span>
+        <span class="c1"># position_ids: chex.Array</span>
+        <span class="c1"># causal_mask: chex.Array</span>
+        <span class="c1"># deterministic: bool = True</span>
+        <span class="c1"># init_cache: bool = False</span>
+        <span class="c1"># output_attentions: bool = False</span>
+        <span class="c1"># encoder_hidden_states: Optional[chex.Array] = None</span>
+        <span class="c1"># encoder_attention_mask: Optional[chex.Array] = None</span>
+        <span class="c1"># fcm_mask = None</span>
+
+        <span class="n">attn_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">ln_1</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span>
+            <span class="n">rotary_pos_emb_list</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">attn_output</span>
+
+        <span class="n">feed_forward_input</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ln_2</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_scan_mlp</span><span class="p">:</span>
+            <span class="n">feed_forward_input</span> <span class="o">=</span> <span class="n">einops</span><span class="o">.</span><span class="n">rearrange</span><span class="p">(</span>
+                <span class="n">feed_forward_input</span><span class="p">,</span>
+                <span class="s1">&#39;... (b s) d -&gt; ... b s d&#39;</span><span class="p">,</span>
+                <span class="n">b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span>
+            <span class="p">)</span>
+
+            <span class="k">def</span> <span class="nf">mlp_forward</span><span class="p">(</span><span class="n">mlp</span><span class="p">,</span> <span class="n">carry</span><span class="p">,</span> <span class="n">x</span><span class="p">):</span>
+                <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="n">mlp</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">)</span>
+
+            <span class="n">scan_axis</span> <span class="o">=</span> <span class="n">feed_forward_input</span><span class="o">.</span><span class="n">ndim</span> <span class="o">-</span> <span class="mi">3</span>
+
+            <span class="n">_</span><span class="p">,</span> <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">scan</span><span class="p">(</span>
+                <span class="n">mlp_forward</span><span class="p">,</span>
+                <span class="n">variable_broadcast</span><span class="o">=</span><span class="s2">&quot;params&quot;</span><span class="p">,</span>
+                <span class="n">split_rngs</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="kc">False</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="kc">True</span><span class="p">},</span>
+                <span class="n">in_axes</span><span class="o">=</span><span class="n">scan_axis</span><span class="p">,</span>
+                <span class="n">out_axes</span><span class="o">=</span><span class="n">scan_axis</span><span class="p">,</span>
+            <span class="p">)(</span><span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="n">feed_forward_input</span><span class="p">)</span>
+            <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="n">einops</span><span class="o">.</span><span class="n">rearrange</span><span class="p">(</span>
+                <span class="n">feed_forward_hidden_states</span><span class="p">,</span>
+                <span class="s1">&#39;... b s d -&gt; ... (b s) d&#39;</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">(</span>
+                <span class="n">feed_forward_input</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="p">,</span>
+            <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">feed_forward_hidden_states</span>
+
+        <span class="k">return</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Block.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">rotary_pos_emb_list</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">encoder_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">encoder_attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a TransformerEncoderLayer.
+It takes in hidden states, frequency-domain inputs, and masks as input. It then
+applies self-attention to the hidden states using those inputs and returns an
+output tensor with shape (batch_size, sequence_length, model_dim).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the class instance itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the hidden state of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rotary_pos_emb_list</code></td>
+            <td>
+                  <code>list[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>list[chex.Array]: Pass in the frequency
+information</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for padding tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the dropout is applied
+or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache in the attention
+layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="jax.numpy.ndarray">ndarray</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[jnp.ndarray]: Mask the self-attention</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Control the dropout in the self attention layer</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two items</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">rotary_pos_emb_list</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">encoder_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">encoder_attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">    It takes in hidden states, frequency-domain inputs, and masks as input. It then</span>
+<span class="sd">    applies self-attention to the hidden states using those inputs and returns an</span>
+<span class="sd">    output tensor with shape (batch_size, sequence_length, model_dim).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the class instance itself</span>
+<span class="sd">        hidden_states: chex.Array: Pass in the hidden state of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        rotary_pos_emb_list: list[chex.Array]: Pass in the frequency</span>
+<span class="sd">            information</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in the sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">        deterministic: bool: Control whether the dropout is applied</span>
+<span class="sd">            or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache in the attention</span>
+<span class="sd">            layer</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        fcm_mask: Optional[jnp.ndarray]: Mask the self-attention</span>
+<span class="sd">    :param : Control the dropout in the self attention layer</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two items</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># hidden_states: chex.Array</span>
+    <span class="c1"># rotary_pos_emb_list: list[chex.Array]</span>
+    <span class="c1"># attention_mask: chex.Array</span>
+    <span class="c1"># position_ids: chex.Array</span>
+    <span class="c1"># causal_mask: chex.Array</span>
+    <span class="c1"># deterministic: bool = True</span>
+    <span class="c1"># init_cache: bool = False</span>
+    <span class="c1"># output_attentions: bool = False</span>
+    <span class="c1"># encoder_hidden_states: Optional[chex.Array] = None</span>
+    <span class="c1"># encoder_attention_mask: Optional[chex.Array] = None</span>
+    <span class="c1"># fcm_mask = None</span>
+
+    <span class="n">attn_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ln_1</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span>
+        <span class="n">rotary_pos_emb_list</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">encoder_attention_mask</span><span class="p">,</span>
+        <span class="n">encoder_hidden_states</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">attn_output</span>
+
+    <span class="n">feed_forward_input</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ln_2</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_scan_mlp</span><span class="p">:</span>
+        <span class="n">feed_forward_input</span> <span class="o">=</span> <span class="n">einops</span><span class="o">.</span><span class="n">rearrange</span><span class="p">(</span>
+            <span class="n">feed_forward_input</span><span class="p">,</span>
+            <span class="s1">&#39;... (b s) d -&gt; ... b s d&#39;</span><span class="p">,</span>
+            <span class="n">b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span>
+        <span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">mlp_forward</span><span class="p">(</span><span class="n">mlp</span><span class="p">,</span> <span class="n">carry</span><span class="p">,</span> <span class="n">x</span><span class="p">):</span>
+            <span class="k">return</span> <span class="kc">None</span><span class="p">,</span> <span class="n">mlp</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">)</span>
+
+        <span class="n">scan_axis</span> <span class="o">=</span> <span class="n">feed_forward_input</span><span class="o">.</span><span class="n">ndim</span> <span class="o">-</span> <span class="mi">3</span>
+
+        <span class="n">_</span><span class="p">,</span> <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">scan</span><span class="p">(</span>
+            <span class="n">mlp_forward</span><span class="p">,</span>
+            <span class="n">variable_broadcast</span><span class="o">=</span><span class="s2">&quot;params&quot;</span><span class="p">,</span>
+            <span class="n">split_rngs</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="kc">False</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="kc">True</span><span class="p">},</span>
+            <span class="n">in_axes</span><span class="o">=</span><span class="n">scan_axis</span><span class="p">,</span>
+            <span class="n">out_axes</span><span class="o">=</span><span class="n">scan_axis</span><span class="p">,</span>
+        <span class="p">)(</span><span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="n">feed_forward_input</span><span class="p">)</span>
+        <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="n">einops</span><span class="o">.</span><span class="n">rearrange</span><span class="p">(</span>
+            <span class="n">feed_forward_hidden_states</span><span class="p">,</span>
+            <span class="s1">&#39;... b s d -&gt; ... (b s) d&#39;</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">(</span>
+            <span class="n">feed_forward_input</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">feed_forward_hidden_states</span>
+
+    <span class="k">return</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1BlockCollection" class="doc doc-heading">
+            <code>FlaxQwen1BlockCollection</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 912</span>
+<span class="normal"> 913</span>
+<span class="normal"> 914</span>
+<span class="normal"> 915</span>
+<span class="normal"> 916</span>
+<span class="normal"> 917</span>
+<span class="normal"> 918</span>
+<span class="normal"> 919</span>
+<span class="normal"> 920</span>
+<span class="normal"> 921</span>
+<span class="normal"> 922</span>
+<span class="normal"> 923</span>
+<span class="normal"> 924</span>
+<span class="normal"> 925</span>
+<span class="normal"> 926</span>
+<span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen1BlockCollection</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen1Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">FlaxQwen1Block</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">name</span><span class="o">=</span><span class="nb">str</span><span class="p">(</span><span class="n">i</span><span class="p">),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+            <span class="p">)</span>
+            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_hidden_layers</span>
+            <span class="p">)</span>
+        <span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">rotary_pos_emb_list</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX nn.Module.</span>
+<span class="sd">        It defines how the module behaves when called as a function, and it&#39;s what you&#39;ll use to call your model</span>
+<span class="sd">         in training loops or inference scripts.</span>
+<span class="sd">        The __call__ method should take all inputs that are necessary for computing outputs from the module,</span>
+<span class="sd">        and return all outputs that are computed by this module.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the input tensor to the</span>
+<span class="sd">                encoder</span>
+<span class="sd">            rotary_pos_emb_list: chex.Array: Pass in the frequency of</span>
+<span class="sd">                each token</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">            deterministic: bool: Determine whether the model is in</span>
+<span class="sd">                training or evaluation mode</span>
+<span class="sd">            init_cache: bool: Initialize the cache for each layer</span>
+<span class="sd">            output_attentions: bool: Determine whether to output the</span>
+<span class="sd">                attention weights</span>
+<span class="sd">            output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">                hidden states of each layer</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs</span>
+<span class="sd">        :param : Determine whether to use the forgetful causal mask</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 values</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">all_attentions</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="c1"># Apply forgetful causal mask</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">fcm_ratio</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span> <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+                <span class="n">minval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_min_ratio</span><span class="p">,</span>
+                <span class="n">maxval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span>
+            <span class="p">)</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span>
+                <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span> <span class="o">&gt;</span> <span class="n">fcm_ratio</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:,</span> <span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s1">&#39;bool&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+                <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+
+            <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+                <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+                <span class="n">rotary_pos_emb_list</span><span class="o">=</span><span class="n">rotary_pos_emb_list</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+                <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+                <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+                <span class="n">fcm_mask</span><span class="o">=</span><span class="n">fcm_mask</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+            <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+                <span class="n">all_attentions</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">,</span> <span class="n">all_attentions</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1BlockCollection.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">rotary_pos_emb_list</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX nn.Module.
+It defines how the module behaves when called as a function, and it's what you'll use to call your model
+ in training loops or inference scripts.
+The <strong>call</strong> method should take all inputs that are necessary for computing outputs from the module,
+and return all outputs that are computed by this module.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input tensor to the
+encoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rotary_pos_emb_list</code></td>
+            <td>
+                  <code>list[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the frequency of
+each token</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether the model is in
+training or evaluation mode</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for each layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to output the
+attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+hidden states of each layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine whether to use the forgetful causal mask</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 values</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">rotary_pos_emb_list</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX nn.Module.</span>
+<span class="sd">    It defines how the module behaves when called as a function, and it&#39;s what you&#39;ll use to call your model</span>
+<span class="sd">     in training loops or inference scripts.</span>
+<span class="sd">    The __call__ method should take all inputs that are necessary for computing outputs from the module,</span>
+<span class="sd">    and return all outputs that are computed by this module.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the input tensor to the</span>
+<span class="sd">            encoder</span>
+<span class="sd">        rotary_pos_emb_list: chex.Array: Pass in the frequency of</span>
+<span class="sd">            each token</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">        deterministic: bool: Determine whether the model is in</span>
+<span class="sd">            training or evaluation mode</span>
+<span class="sd">        init_cache: bool: Initialize the cache for each layer</span>
+<span class="sd">        output_attentions: bool: Determine whether to output the</span>
+<span class="sd">            attention weights</span>
+<span class="sd">        output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">            hidden states of each layer</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs</span>
+<span class="sd">    :param : Determine whether to use the forgetful causal mask</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 values</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">all_attentions</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="c1"># Apply forgetful causal mask</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">fcm_ratio</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span> <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">minval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_min_ratio</span><span class="p">,</span>
+            <span class="n">maxval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span>
+        <span class="p">)</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span>
+            <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span> <span class="o">&gt;</span> <span class="n">fcm_ratio</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:,</span> <span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="kc">True</span><span class="p">)</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s1">&#39;bool&#39;</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+
+        <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">rotary_pos_emb_list</span><span class="o">=</span><span class="n">rotary_pos_emb_list</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="n">fcm_mask</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">all_attentions</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">,</span> <span class="n">all_attentions</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForCausalLMModule" class="doc doc-heading">
+            <code>FlaxQwen1ForCausalLMModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span>
+<span class="normal">1204</span>
+<span class="normal">1205</span>
+<span class="normal">1206</span>
+<span class="normal">1207</span>
+<span class="normal">1208</span>
+<span class="normal">1209</span>
+<span class="normal">1210</span>
+<span class="normal">1211</span>
+<span class="normal">1212</span>
+<span class="normal">1213</span>
+<span class="normal">1214</span>
+<span class="normal">1215</span>
+<span class="normal">1216</span>
+<span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span>
+<span class="normal">1220</span>
+<span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span>
+<span class="normal">1230</span>
+<span class="normal">1231</span>
+<span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span>
+<span class="normal">1241</span>
+<span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen1ForCausalLMModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen1Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span> <span class="o">=</span> <span class="n">FlaxQwen1Module</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            input_ids: chex.Array: Pass the input token ids to the model</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in the input sequence</span>
+<span class="sd">            deterministic: bool: Control whether the model is trained or</span>
+<span class="sd">                not</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">                hidden states</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">                embedding of the word that we want to predict</span>
+<span class="sd">            None]]: Pass in the extra embedding</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The logits and the hidden states</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">tie_word_embeddings</span><span class="p">:</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;wte&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+            <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+                <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="n">lm_logits</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">(</span><span class="n">lm_logits</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">FlaxCausalLMOutput</span><span class="p">(</span><span class="n">logits</span><span class="o">=</span><span class="n">lm_logits</span><span class="p">,</span> <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForCausalLMModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax module. It takes in inputs and returns outputs.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input token ids to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in the input sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the model is trained or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+hidden states</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray: Pass in the
+embedding of the word that we want to predict</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>None]]</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the extra embedding</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The logits and the hidden states</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1211</span>
+<span class="normal">1212</span>
+<span class="normal">1213</span>
+<span class="normal">1214</span>
+<span class="normal">1215</span>
+<span class="normal">1216</span>
+<span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span>
+<span class="normal">1220</span>
+<span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span>
+<span class="normal">1230</span>
+<span class="normal">1231</span>
+<span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span>
+<span class="normal">1241</span>
+<span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        input_ids: chex.Array: Pass the input token ids to the model</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in the input sequence</span>
+<span class="sd">        deterministic: bool: Control whether the model is trained or</span>
+<span class="sd">            not</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">            hidden states</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">            embedding of the word that we want to predict</span>
+<span class="sd">        None]]: Pass in the extra embedding</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The logits and the hidden states</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="p">(</span>
+        <span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">tie_word_embeddings</span><span class="p">:</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;wte&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">lm_logits</span> <span class="o">=</span> <span class="n">lm_logits</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">lm_logits</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">FlaxCausalLMOutput</span><span class="p">(</span><span class="n">logits</span><span class="o">=</span><span class="n">lm_logits</span><span class="p">,</span> <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForSequenceClassificationModule" class="doc doc-heading">
+            <code>FlaxQwen1ForSequenceClassificationModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1305</span>
+<span class="normal">1306</span>
+<span class="normal">1307</span>
+<span class="normal">1308</span>
+<span class="normal">1309</span>
+<span class="normal">1310</span>
+<span class="normal">1311</span>
+<span class="normal">1312</span>
+<span class="normal">1313</span>
+<span class="normal">1314</span>
+<span class="normal">1315</span>
+<span class="normal">1316</span>
+<span class="normal">1317</span>
+<span class="normal">1318</span>
+<span class="normal">1319</span>
+<span class="normal">1320</span>
+<span class="normal">1321</span>
+<span class="normal">1322</span>
+<span class="normal">1323</span>
+<span class="normal">1324</span>
+<span class="normal">1325</span>
+<span class="normal">1326</span>
+<span class="normal">1327</span>
+<span class="normal">1328</span>
+<span class="normal">1329</span>
+<span class="normal">1330</span>
+<span class="normal">1331</span>
+<span class="normal">1332</span>
+<span class="normal">1333</span>
+<span class="normal">1334</span>
+<span class="normal">1335</span>
+<span class="normal">1336</span>
+<span class="normal">1337</span>
+<span class="normal">1338</span>
+<span class="normal">1339</span>
+<span class="normal">1340</span>
+<span class="normal">1341</span>
+<span class="normal">1342</span>
+<span class="normal">1343</span>
+<span class="normal">1344</span>
+<span class="normal">1345</span>
+<span class="normal">1346</span>
+<span class="normal">1347</span>
+<span class="normal">1348</span>
+<span class="normal">1349</span>
+<span class="normal">1350</span>
+<span class="normal">1351</span>
+<span class="normal">1352</span>
+<span class="normal">1353</span>
+<span class="normal">1354</span>
+<span class="normal">1355</span>
+<span class="normal">1356</span>
+<span class="normal">1357</span>
+<span class="normal">1358</span>
+<span class="normal">1359</span>
+<span class="normal">1360</span>
+<span class="normal">1361</span>
+<span class="normal">1362</span>
+<span class="normal">1363</span>
+<span class="normal">1364</span>
+<span class="normal">1365</span>
+<span class="normal">1366</span>
+<span class="normal">1367</span>
+<span class="normal">1368</span>
+<span class="normal">1369</span>
+<span class="normal">1370</span>
+<span class="normal">1371</span>
+<span class="normal">1372</span>
+<span class="normal">1373</span>
+<span class="normal">1374</span>
+<span class="normal">1375</span>
+<span class="normal">1376</span>
+<span class="normal">1377</span>
+<span class="normal">1378</span>
+<span class="normal">1379</span>
+<span class="normal">1380</span>
+<span class="normal">1381</span>
+<span class="normal">1382</span>
+<span class="normal">1383</span>
+<span class="normal">1384</span>
+<span class="normal">1385</span>
+<span class="normal">1386</span>
+<span class="normal">1387</span>
+<span class="normal">1388</span>
+<span class="normal">1389</span>
+<span class="normal">1390</span>
+<span class="normal">1391</span>
+<span class="normal">1392</span>
+<span class="normal">1393</span>
+<span class="normal">1394</span>
+<span class="normal">1395</span>
+<span class="normal">1396</span>
+<span class="normal">1397</span>
+<span class="normal">1398</span>
+<span class="normal">1399</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen1ForSequenceClassificationModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">num_classes</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen1Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The setup function is called once at the beginning of training.</span>
+<span class="sd">        It initializes the model and optimizer, and sets up any other state that needs to be initialized.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the model and the classifier</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">FlaxQwen1Module</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_classes</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module.</span>
+<span class="sd">        It takes in all the inputs to the model and returns all outputs from it.</span>
+<span class="sd">        The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:</span>
+<span class="sd">            &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class</span>
+<span class="sd">            &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the class instance</span>
+<span class="sd">            input_ids: chex.Array: Pass the input to the model</span>
+<span class="sd">            attention_mask: chex.Array: Specify which tokens are masked</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in the sequence</span>
+<span class="sd">            deterministic: bool: Control whether the model is run in</span>
+<span class="sd">                deterministic or stochastic mode</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the transformer</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            output_hidden_states: bool: Return the hidden states of all</span>
+<span class="sd">                h</span>
+<span class="sd">            return_dict: bool: Return a dictionary of outputs</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">                embedding of a new word</span>
+<span class="sd">            None]]: Pass the extra embedding to the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of logits and hidden_states</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">prediction</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">FlaxSequenceClassifierOutput</span><span class="p">(</span>
+                <span class="n">logits</span><span class="o">=</span><span class="n">prediction</span><span class="p">,</span>
+                <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">prediction</span><span class="p">,</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForSequenceClassificationModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax module.
+It takes in all the inputs to the model and returns all outputs from it.
+The <strong>call</strong> function can be called directly on an instance of a class, or by using parentheses after an instance:
+    &gt;&gt;&gt; my_model = MyModel()  # instantiate your model class
+    &gt;&gt;&gt; output = my_model(input)  # call your model with input data as arguments to <strong>call</strong></p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the class instance</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify which tokens are masked</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in the sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the model is run in
+deterministic or stochastic mode</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the transformer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the hidden states of all
+h</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray: Pass in the
+embedding of a new word</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>None]]</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the extra embedding to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of logits and hidden_states</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1333</span>
+<span class="normal">1334</span>
+<span class="normal">1335</span>
+<span class="normal">1336</span>
+<span class="normal">1337</span>
+<span class="normal">1338</span>
+<span class="normal">1339</span>
+<span class="normal">1340</span>
+<span class="normal">1341</span>
+<span class="normal">1342</span>
+<span class="normal">1343</span>
+<span class="normal">1344</span>
+<span class="normal">1345</span>
+<span class="normal">1346</span>
+<span class="normal">1347</span>
+<span class="normal">1348</span>
+<span class="normal">1349</span>
+<span class="normal">1350</span>
+<span class="normal">1351</span>
+<span class="normal">1352</span>
+<span class="normal">1353</span>
+<span class="normal">1354</span>
+<span class="normal">1355</span>
+<span class="normal">1356</span>
+<span class="normal">1357</span>
+<span class="normal">1358</span>
+<span class="normal">1359</span>
+<span class="normal">1360</span>
+<span class="normal">1361</span>
+<span class="normal">1362</span>
+<span class="normal">1363</span>
+<span class="normal">1364</span>
+<span class="normal">1365</span>
+<span class="normal">1366</span>
+<span class="normal">1367</span>
+<span class="normal">1368</span>
+<span class="normal">1369</span>
+<span class="normal">1370</span>
+<span class="normal">1371</span>
+<span class="normal">1372</span>
+<span class="normal">1373</span>
+<span class="normal">1374</span>
+<span class="normal">1375</span>
+<span class="normal">1376</span>
+<span class="normal">1377</span>
+<span class="normal">1378</span>
+<span class="normal">1379</span>
+<span class="normal">1380</span>
+<span class="normal">1381</span>
+<span class="normal">1382</span>
+<span class="normal">1383</span>
+<span class="normal">1384</span>
+<span class="normal">1385</span>
+<span class="normal">1386</span>
+<span class="normal">1387</span>
+<span class="normal">1388</span>
+<span class="normal">1389</span>
+<span class="normal">1390</span>
+<span class="normal">1391</span>
+<span class="normal">1392</span>
+<span class="normal">1393</span>
+<span class="normal">1394</span>
+<span class="normal">1395</span>
+<span class="normal">1396</span>
+<span class="normal">1397</span>
+<span class="normal">1398</span>
+<span class="normal">1399</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module.</span>
+<span class="sd">    It takes in all the inputs to the model and returns all outputs from it.</span>
+<span class="sd">    The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:</span>
+<span class="sd">        &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class</span>
+<span class="sd">        &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the class instance</span>
+<span class="sd">        input_ids: chex.Array: Pass the input to the model</span>
+<span class="sd">        attention_mask: chex.Array: Specify which tokens are masked</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in the sequence</span>
+<span class="sd">        deterministic: bool: Control whether the model is run in</span>
+<span class="sd">            deterministic or stochastic mode</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the transformer</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        output_hidden_states: bool: Return the hidden states of all</span>
+<span class="sd">            h</span>
+<span class="sd">        return_dict: bool: Return a dictionary of outputs</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">            embedding of a new word</span>
+<span class="sd">        None]]: Pass the extra embedding to the model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of logits and hidden_states</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+        <span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">prediction</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">FlaxSequenceClassifierOutput</span><span class="p">(</span>
+            <span class="n">logits</span><span class="o">=</span><span class="n">prediction</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">prediction</span><span class="p">,</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForSequenceClassificationModule.setup" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">setup</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The setup function is called once at the beginning of training.
+It initializes the model and optimizer, and sets up any other state that needs to be initialized.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the model and the classifier</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1312</span>
+<span class="normal">1313</span>
+<span class="normal">1314</span>
+<span class="normal">1315</span>
+<span class="normal">1316</span>
+<span class="normal">1317</span>
+<span class="normal">1318</span>
+<span class="normal">1319</span>
+<span class="normal">1320</span>
+<span class="normal">1321</span>
+<span class="normal">1322</span>
+<span class="normal">1323</span>
+<span class="normal">1324</span>
+<span class="normal">1325</span>
+<span class="normal">1326</span>
+<span class="normal">1327</span>
+<span class="normal">1328</span>
+<span class="normal">1329</span>
+<span class="normal">1330</span>
+<span class="normal">1331</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The setup function is called once at the beginning of training.</span>
+<span class="sd">    It initializes the model and optimizer, and sets up any other state that needs to be initialized.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the model and the classifier</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">FlaxQwen1Module</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_classes</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+        <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+            <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+        <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1MLP" class="doc doc-heading">
+            <code>FlaxQwen1MLP</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen1MLP</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen1Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">w1</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">//</span> <span class="mi">2</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">no_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">w2</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">//</span> <span class="mi">2</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">no_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">c_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">no_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">        It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).</span>
+<span class="sd">        The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            x: jnp.ndarray: Pass in the input to the layer</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tensor that is the result of applying a dropout function</span>
+<span class="sd">            to x</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">c_proj</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">silu</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">w2</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">w1</span><span class="p">(</span><span class="n">x</span><span class="p">))</span>
+        <span class="k">return</span> <span class="n">x</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1MLP.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a class.
+It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).
+The <strong>call</strong> method enables instances of a class to be called like standard Python functions.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>x</code></td>
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.ndarray: Pass in the input to the layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tensor that is the result of applying a dropout function</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>to x</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">    It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).</span>
+<span class="sd">    The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        x: jnp.ndarray: Pass in the input to the layer</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tensor that is the result of applying a dropout function</span>
+<span class="sd">        to x</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">c_proj</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">silu</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">w2</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">w1</span><span class="p">(</span><span class="n">x</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">x</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Module" class="doc doc-heading">
+            <code>FlaxQwen1Module</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span>
+<span class="normal">1054</span>
+<span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span>
+<span class="normal">1065</span>
+<span class="normal">1066</span>
+<span class="normal">1067</span>
+<span class="normal">1068</span>
+<span class="normal">1069</span>
+<span class="normal">1070</span>
+<span class="normal">1071</span>
+<span class="normal">1072</span>
+<span class="normal">1073</span>
+<span class="normal">1074</span>
+<span class="normal">1075</span>
+<span class="normal">1076</span>
+<span class="normal">1077</span>
+<span class="normal">1078</span>
+<span class="normal">1079</span>
+<span class="normal">1080</span>
+<span class="normal">1081</span>
+<span class="normal">1082</span>
+<span class="normal">1083</span>
+<span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span>
+<span class="normal">1119</span>
+<span class="normal">1120</span>
+<span class="normal">1121</span>
+<span class="normal">1122</span>
+<span class="normal">1123</span>
+<span class="normal">1124</span>
+<span class="normal">1125</span>
+<span class="normal">1126</span>
+<span class="normal">1127</span>
+<span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span>
+<span class="normal">1149</span>
+<span class="normal">1150</span>
+<span class="normal">1151</span>
+<span class="normal">1152</span>
+<span class="normal">1153</span>
+<span class="normal">1154</span>
+<span class="normal">1155</span>
+<span class="normal">1156</span>
+<span class="normal">1157</span>
+<span class="normal">1158</span>
+<span class="normal">1159</span>
+<span class="normal">1160</span>
+<span class="normal">1161</span>
+<span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen1Module</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen1Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">wte</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Embed</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">embedding_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">drop</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">rate</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">emb_dropout_prob</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">h</span> <span class="o">=</span> <span class="n">FlaxQwen1BlockCollection</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ln_f</span> <span class="o">=</span> <span class="n">Qwen1RMSNorm</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">layer_norm_epsilon</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">rotary_pct</span> <span class="o">==</span> <span class="mf">1.0</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">rotary_ndims</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="n">config</span><span class="o">.</span><span class="n">rotary_pct</span> <span class="o">&lt;</span> <span class="mi">1</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">rotary_ndims</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">kv_channels</span> <span class="o">*</span> <span class="n">config</span><span class="o">.</span><span class="n">rotary_pct</span>
+            <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span> <span class="o">=</span> <span class="n">make_causal_mask</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+                <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;c_max_position_embeddings&quot;</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">seq_length</span><span class="p">)),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_cache</span> <span class="o">=</span> <span class="n">compute_qwen1_rope</span><span class="p">(</span>
+            <span class="n">dim</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">rotary_ndims</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_ndims</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">config</span><span class="o">.</span><span class="n">kv_channels</span><span class="p">,</span>
+            <span class="n">base</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rotary_emb_base</span><span class="p">,</span>
+            <span class="n">seqlen</span><span class="o">=</span><span class="nb">getattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;freq_max_position_embeddings&quot;</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids</span>
+<span class="sd">        and returns the output of the model. The __call__ function also has optional arguments that can be used to control</span>
+<span class="sd">        the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when</span>
+<span class="sd">        calling a Flax model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input token ids</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            deterministic: bool: Control whether dropout is applied or</span>
+<span class="sd">                not</span>
+<span class="sd">            inputs_embeds: chex.Array: Pass in the embeddings of the</span>
+<span class="sd">                input tokens</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attentions or not</span>
+<span class="sd">            output_hidden_states: bool: Determine whether to return</span>
+<span class="sd">                hidden states</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the output or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray, None]]: Pass in</span>
+<span class="sd">                the embedding of the</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">inputs_embeds</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">wte</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">))</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">inputs_embeds</span><span class="o">.</span><span class="n">shape</span>
+        <span class="n">kv_seq_len</span> <span class="o">=</span> <span class="n">sequence_length</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">h</span><span class="o">.</span><span class="n">blocks</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">attn</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">cache_index</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">h</span><span class="o">.</span><span class="n">blocks</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">attn</span><span class="o">.</span><span class="n">get_variable</span><span class="p">(</span>
+                <span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cache_index&quot;</span><span class="p">,</span> <span class="k">lambda</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">int32</span><span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">kv_seq_len</span> <span class="o">+=</span> <span class="n">cache_index</span>
+
+        <span class="c1"># if deterministic or not self.config.use_dynamic_ntk:</span>
+        <span class="c1">#     ntk_alpha_list = [1.0]</span>
+        <span class="c1"># elif kv_seq_len != inputs_embeds.shape[1]:</span>
+        <span class="c1">#     ntk_alpha_list = self.rotary_emb._ntk_alpha_cached_list</span>
+        <span class="c1"># else:</span>
+        <span class="c1">#     ntk_alpha_list = []</span>
+        <span class="c1">#     if attention_mask is not None and kv_seq_len &gt; self.seq_length:</span>
+        <span class="c1">#         true_seq_lens = jnp.sum(attention_mask.reshape(batch_size, 1, 1, -1) == 0, axis=-1, dtype=jnp.float32)</span>
+        <span class="c1">#         for i in range(inputs_embeds.shape[0]):</span>
+        <span class="c1">#             true_seq_len = true_seq_lens[i].item()</span>
+        <span class="c1">#             ntk_alpha = self.get_ntk_alpha(true_seq_len)</span>
+        <span class="c1">#             ntk_alpha_list.append(ntk_alpha)</span>
+        <span class="c1">#     else:</span>
+        <span class="c1">#         ntk_alpha = self.get_ntk_alpha(kv_seq_len)</span>
+        <span class="c1">#         ntk_alpha_list.append(ntk_alpha)</span>
+        <span class="c1"># self.rotary_emb.set_ntk_alpha_cached_list(ntk_alpha_list)</span>
+        <span class="c1"># rotary_pos_emb_list = []</span>
+        <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">seq_length</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+        <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="n">inputs_embeds</span> <span class="o">+</span> <span class="n">extra_embedding</span> <span class="k">if</span> <span class="n">extra_embedding</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">inputs_embeds</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">drop</span><span class="p">(</span>
+            <span class="n">inputs_embeds</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span>
+        <span class="p">)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">h</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">rotary_pos_emb_list</span><span class="o">=</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">rope_cache</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ln_f</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">v</span> <span class="k">for</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">outputs</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">FlaxBaseModelOutput</span><span class="p">(</span>
+            <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+            <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Module.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">inputs_embeds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids
+and returns the output of the model. The <strong>call</strong> function also has optional arguments that can be used to control
+the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when
+calling a Flax model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input token ids</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Indicate the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether dropout is applied or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>inputs_embeds</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the embeddings of the
+input tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attentions or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return
+hidden states</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the output or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray, None]]: Pass in
+the embedding of the</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1070</span>
+<span class="normal">1071</span>
+<span class="normal">1072</span>
+<span class="normal">1073</span>
+<span class="normal">1074</span>
+<span class="normal">1075</span>
+<span class="normal">1076</span>
+<span class="normal">1077</span>
+<span class="normal">1078</span>
+<span class="normal">1079</span>
+<span class="normal">1080</span>
+<span class="normal">1081</span>
+<span class="normal">1082</span>
+<span class="normal">1083</span>
+<span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span>
+<span class="normal">1119</span>
+<span class="normal">1120</span>
+<span class="normal">1121</span>
+<span class="normal">1122</span>
+<span class="normal">1123</span>
+<span class="normal">1124</span>
+<span class="normal">1125</span>
+<span class="normal">1126</span>
+<span class="normal">1127</span>
+<span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span>
+<span class="normal">1149</span>
+<span class="normal">1150</span>
+<span class="normal">1151</span>
+<span class="normal">1152</span>
+<span class="normal">1153</span>
+<span class="normal">1154</span>
+<span class="normal">1155</span>
+<span class="normal">1156</span>
+<span class="normal">1157</span>
+<span class="normal">1158</span>
+<span class="normal">1159</span>
+<span class="normal">1160</span>
+<span class="normal">1161</span>
+<span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids</span>
+<span class="sd">    and returns the output of the model. The __call__ function also has optional arguments that can be used to control</span>
+<span class="sd">    the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when</span>
+<span class="sd">    calling a Flax model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input token ids</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        deterministic: bool: Control whether dropout is applied or</span>
+<span class="sd">            not</span>
+<span class="sd">        inputs_embeds: chex.Array: Pass in the embeddings of the</span>
+<span class="sd">            input tokens</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attentions or not</span>
+<span class="sd">        output_hidden_states: bool: Determine whether to return</span>
+<span class="sd">            hidden states</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the output or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray, None]]: Pass in</span>
+<span class="sd">            the embedding of the</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">inputs_embeds</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">wte</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">))</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">inputs_embeds</span><span class="o">.</span><span class="n">shape</span>
+    <span class="n">kv_seq_len</span> <span class="o">=</span> <span class="n">sequence_length</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">h</span><span class="o">.</span><span class="n">blocks</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">attn</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+        <span class="n">cache_index</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">h</span><span class="o">.</span><span class="n">blocks</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">attn</span><span class="o">.</span><span class="n">get_variable</span><span class="p">(</span>
+            <span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cache_index&quot;</span><span class="p">,</span> <span class="k">lambda</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">int32</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">kv_seq_len</span> <span class="o">+=</span> <span class="n">cache_index</span>
+
+    <span class="c1"># if deterministic or not self.config.use_dynamic_ntk:</span>
+    <span class="c1">#     ntk_alpha_list = [1.0]</span>
+    <span class="c1"># elif kv_seq_len != inputs_embeds.shape[1]:</span>
+    <span class="c1">#     ntk_alpha_list = self.rotary_emb._ntk_alpha_cached_list</span>
+    <span class="c1"># else:</span>
+    <span class="c1">#     ntk_alpha_list = []</span>
+    <span class="c1">#     if attention_mask is not None and kv_seq_len &gt; self.seq_length:</span>
+    <span class="c1">#         true_seq_lens = jnp.sum(attention_mask.reshape(batch_size, 1, 1, -1) == 0, axis=-1, dtype=jnp.float32)</span>
+    <span class="c1">#         for i in range(inputs_embeds.shape[0]):</span>
+    <span class="c1">#             true_seq_len = true_seq_lens[i].item()</span>
+    <span class="c1">#             ntk_alpha = self.get_ntk_alpha(true_seq_len)</span>
+    <span class="c1">#             ntk_alpha_list.append(ntk_alpha)</span>
+    <span class="c1">#     else:</span>
+    <span class="c1">#         ntk_alpha = self.get_ntk_alpha(kv_seq_len)</span>
+    <span class="c1">#         ntk_alpha_list.append(ntk_alpha)</span>
+    <span class="c1"># self.rotary_emb.set_ntk_alpha_cached_list(ntk_alpha_list)</span>
+    <span class="c1"># rotary_pos_emb_list = []</span>
+    <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">seq_length</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+    <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="n">inputs_embeds</span> <span class="o">+</span> <span class="n">extra_embedding</span> <span class="k">if</span> <span class="n">extra_embedding</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">inputs_embeds</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">drop</span><span class="p">(</span>
+        <span class="n">inputs_embeds</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span>
+    <span class="p">)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">h</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">rotary_pos_emb_list</span><span class="o">=</span><span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">rope_cache</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ln_f</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">v</span> <span class="k">for</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">outputs</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">FlaxBaseModelOutput</span><span class="p">(</span>
+        <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+        <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel" class="doc doc-heading">
+            <code>FlaxQwen1PreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen1PreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">Qwen1Config</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;model&quot;</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">Qwen1Config</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up the instance of the class, and defines what happens when it&#39;s created.</span>
+<span class="sd">        The __init__ function can take arguments, but self is always required (it refers to the instance of the object).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            config: Qwen1Config: Pass the configuration to the module</span>
+<span class="sd">            input_shape: Tuple: Specify the shape of the input to the</span>
+<span class="sd">                model</span>
+<span class="sd">            seed: int: Set the seed for random number generation</span>
+<span class="sd">            dtype: jnp.dtype: Specify the data type of the input</span>
+<span class="sd">            _do_init: bool: Control whether the module is initialized or</span>
+<span class="sd">                not</span>
+<span class="sd">            **kwargs: Pass in any additional parameters that the</span>
+<span class="sd">                module_class might need</span>
+<span class="sd">        :param : Specify the number of h in the network</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The super() of the class</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">            params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">                model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+            <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+                <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+            <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">encoder_hidden_states</span><span class="p">,</span>
+                <span class="n">encoder_attention_mask</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_cache function is used to initialize the cache for a given batch size and sequence length.</span>
+<span class="sd">        The cache is a dictionary that contains all the intermediate states from each layer in the model.</span>
+<span class="sd">        This allows us to run inference on multiple batches without having to re-run forward passes through every layer in</span>
+<span class="sd">        the model, which would be very slow.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the module</span>
+<span class="sd">            batch_size: Define the batch size of the input tensors</span>
+<span class="sd">            max_length: Set the length of the input sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary with the following keys:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="c1"># def init_rope(self, batch_size, max_length):</span>
+    <span class="c1">#     &quot;&quot;&quot;</span>
+    <span class="c1">#     The init_rope function is used to initialize the rope for a given batch size and sequence length.</span>
+    <span class="c1">#     The cache is a dictionary that contains all the intermediate states from each layer in the model.</span>
+    <span class="c1">#</span>
+    <span class="c1">#     :param self: Access the module</span>
+    <span class="c1">#     :param batch_size: Define the batch size of the input tensors</span>
+    <span class="c1">#     :param max_length: Set the length of the input sequence</span>
+    <span class="c1">#     &quot;&quot;&quot;</span>
+    <span class="c1">#     input_ids = jnp.ones((batch_size, max_length))</span>
+    <span class="c1">#     attention_mask = jnp.ones_like(input_ids)</span>
+    <span class="c1">#     position_ids = jnp.broadcast_to(jnp.arange(</span>
+    <span class="c1">#         jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)</span>
+    <span class="c1">#</span>
+    <span class="c1">#     init_variables = self.module.init(</span>
+    <span class="c1">#         jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     return init_variables[&quot;rope_cache&quot;]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="c1"># past_rope_cache: dict = None,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It takes in inputs and returns outputs, but it also has some other important features:</span>
+<span class="sd">        - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.</span>
+<span class="sd">        - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input</span>
+<span class="sd">            position_ids: chex.Array: Create the positional embeddings</span>
+<span class="sd">            params: dict: Pass in the parameters of the model</span>
+<span class="sd">            past_key_values: dict: Pass in the past key values from a</span>
+<span class="sd">                previous call to __call__</span>
+<span class="sd">            dropout_rng: jax.random.PRNGKey: Make sure that the dropout</span>
+<span class="sd">                is applied in a random way</span>
+<span class="sd">            train: bool: Determine whether to use dropout or not</span>
+<span class="sd">            output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the attention weights</span>
+<span class="sd">            output_hidden_states: Optional[bool]: Return the hidden</span>
+<span class="sd">                states of all h</span>
+<span class="sd">            return_dict: Optional[bool]: Determine whether to return a</span>
+<span class="sd">                dictionary or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in</span>
+<span class="sd">                the embedding for the input_ids</span>
+<span class="sd">            add_params_field: bool: Add the params field to the inputs</span>
+<span class="sd">                dictionary</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the following:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">seq_length</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+        <span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+        <span class="c1"># if past_rope_cache is not None:</span>
+        <span class="c1">#     inputs[&quot;rope_cache&quot;] = past_rope_cache</span>
+        <span class="c1"># elif self.config.init_rope_cache_auto:</span>
+        <span class="c1">#     inputs[&quot;rope_cache&quot;] = self.init_rope(batch_size=batch_size, max_length=sequence_length)</span>
+        <span class="c1"># else:</span>
+        <span class="c1">#     raise ValueError(</span>
+        <span class="c1">#         &quot;if you are setting `init_rope_cache_auto=False` you should pass `rope_cache` beside param&quot;</span>
+        <span class="c1">#     )</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+        <span class="c1"># if return_dict:</span>
+        <span class="c1">#     outputs[&quot;past_rope_cache&quot;] = unfreeze(rope_cache[&quot;rope_cache&quot;])</span>
+        <span class="c1"># else:</span>
+        <span class="c1">#     outputs = outputs, unfreeze(rope_cache[&quot;rope_cache&quot;])</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+
+    <span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            input_ids: Pass in the input tokens</span>
+<span class="sd">            max_length: Set the length of the sequence to be generated</span>
+<span class="sd">            attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">                weights</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">            position ids</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+            <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+                <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span>
+            <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+            <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+            <span class="c1"># &quot;past_rope_cache&quot;: self.init_rope(batch_size=batch_size, max_length=max_length)</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">update_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_outputs</span><span class="p">,</span> <span class="n">model_kwargs</span><span class="p">):</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">past_key_values</span>
+        <span class="c1"># model_kwargs[&quot;past_rope_cache&quot;] = model_outputs.past_rope_cache</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">][:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">:]</span> <span class="o">+</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="n">model_kwargs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">past_key_values</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dropout_rng</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It takes in inputs and returns outputs, but it also has some other important features:
+- It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.
+- It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Create the positional embeddings</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>past_key_values</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the past key values from a
+previous call to <strong>call</strong></p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dropout_rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Make sure that the dropout
+is applied in a random way</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>train</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Return the hidden
+states of all h</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to return a
+dictionary or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray,None]]: Pass in
+the embedding for the input_ids</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add the params field to the inputs
+dictionary</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the following:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="c1"># past_rope_cache: dict = None,</span>
+        <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It takes in inputs and returns outputs, but it also has some other important features:</span>
+<span class="sd">    - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.</span>
+<span class="sd">    - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input</span>
+<span class="sd">        position_ids: chex.Array: Create the positional embeddings</span>
+<span class="sd">        params: dict: Pass in the parameters of the model</span>
+<span class="sd">        past_key_values: dict: Pass in the past key values from a</span>
+<span class="sd">            previous call to __call__</span>
+<span class="sd">        dropout_rng: jax.random.PRNGKey: Make sure that the dropout</span>
+<span class="sd">            is applied in a random way</span>
+<span class="sd">        train: bool: Determine whether to use dropout or not</span>
+<span class="sd">        output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the attention weights</span>
+<span class="sd">        output_hidden_states: Optional[bool]: Return the hidden</span>
+<span class="sd">            states of all h</span>
+<span class="sd">        return_dict: Optional[bool]: Determine whether to return a</span>
+<span class="sd">            dictionary or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in</span>
+<span class="sd">            the embedding for the input_ids</span>
+<span class="sd">        add_params_field: bool: Add the params field to the inputs</span>
+<span class="sd">            dictionary</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the following:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+    <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+    <span class="p">)</span>
+    <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">seq_length</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rngs</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+    <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+    <span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+    <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+        <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="c1"># if past_rope_cache is not None:</span>
+    <span class="c1">#     inputs[&quot;rope_cache&quot;] = past_rope_cache</span>
+    <span class="c1"># elif self.config.init_rope_cache_auto:</span>
+    <span class="c1">#     inputs[&quot;rope_cache&quot;] = self.init_rope(batch_size=batch_size, max_length=sequence_length)</span>
+    <span class="c1"># else:</span>
+    <span class="c1">#     raise ValueError(</span>
+    <span class="c1">#         &quot;if you are setting `init_rope_cache_auto=False` you should pass `rope_cache` beside param&quot;</span>
+    <span class="c1">#     )</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+        <span class="n">inputs</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+        <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">,</span>
+        <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+        <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+    <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+    <span class="c1"># if return_dict:</span>
+    <span class="c1">#     outputs[&quot;past_rope_cache&quot;] = unfreeze(rope_cache[&quot;rope_cache&quot;])</span>
+    <span class="c1"># else:</span>
+    <span class="c1">#     outputs = outputs, unfreeze(rope_cache[&quot;rope_cache&quot;])</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">seed</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up the instance of the class, and defines what happens when it's created.
+The <strong>init</strong> function can take arguments, but self is always required (it refers to the instance of the object).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>config</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.qwen1.qwen1_configuration.Qwen1Config" href="../generated-modules-qwen1-qwen1_configuration/#src.python.easydel.modules.qwen1.qwen1_configuration.Qwen1Config">Qwen1Config</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Qwen1Config: Pass the configuration to the module</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Specify the shape of the input to the
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>seed</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the seed for random number generation</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.dtype: Specify the data type of the input</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.float32">float32</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>_do_init</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the module is initialized or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in any additional parameters that the
+module_class might need</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Specify the number of h in the network</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The super() of the class</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">config</span><span class="p">:</span> <span class="n">Qwen1Config</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+        <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up the instance of the class, and defines what happens when it&#39;s created.</span>
+<span class="sd">    The __init__ function can take arguments, but self is always required (it refers to the instance of the object).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        config: Qwen1Config: Pass the configuration to the module</span>
+<span class="sd">        input_shape: Tuple: Specify the shape of the input to the</span>
+<span class="sd">            model</span>
+<span class="sd">        seed: int: Set the seed for random number generation</span>
+<span class="sd">        dtype: jnp.dtype: Specify the data type of the input</span>
+<span class="sd">        _do_init: bool: Control whether the module is initialized or</span>
+<span class="sd">            not</span>
+<span class="sd">        **kwargs: Pass in any additional parameters that the</span>
+<span class="sd">            module_class might need</span>
+<span class="sd">    :param : Specify the number of h in the network</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The super() of the class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.init_cache" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_cache function is used to initialize the cache for a given batch size and sequence length.
+The cache is a dictionary that contains all the intermediate states from each layer in the model.
+This allows us to run inference on multiple batches without having to re-run forward passes through every layer in
+the model, which would be very slow.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access the module</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the batch size of the input tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the length of the input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with the following keys:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_cache function is used to initialize the cache for a given batch size and sequence length.</span>
+<span class="sd">    The cache is a dictionary that contains all the intermediate states from each layer in the model.</span>
+<span class="sd">    This allows us to run inference on multiple batches without having to re-run forward passes through every layer in</span>
+<span class="sd">    the model, which would be very slow.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access the module</span>
+<span class="sd">        batch_size: Define the batch size of the input tensors</span>
+<span class="sd">        max_length: Set the length of the input sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with the following keys:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+    <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+        <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Specify the shape of the input tensor</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>FrozenDict: Pass in the parameters of a pre-trained
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">        params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">            model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+        <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+            <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+        <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+
+    <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.prepare_inputs_for_generation" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">prepare_inputs_for_generation</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the length of the sequence to be generated</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[chex.Array]: Mask the attention
+weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of the past_key_values, attention_mask and</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>position ids</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        input_ids: Pass in the input tokens</span>
+<span class="sd">        max_length: Set the length of the sequence to be generated</span>
+<span class="sd">        attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">            weights</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">        position ids</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+    <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+        <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+            <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span>
+        <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+        <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+        <span class="c1"># &quot;past_rope_cache&quot;: self.init_rope(batch_size=batch_size, max_length=max_length)</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-qwen1-qwen1_configuration/index.html b/generated-modules-qwen1-qwen1_configuration/index.html
new file mode 100644
index 000000000..1e9834a21
--- /dev/null
+++ b/generated-modules-qwen1-qwen1_configuration/index.html
@@ -0,0 +1,6872 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-qwen1-modelling_qwen1_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-qwen2-modelling_qwen_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Qwen1 Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesqwen1qwen1_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Qwen1 Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.qwen1_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      qwen1_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.qwen1_configuration.Qwen1Config" class="md-nav__link">
+    <span class="md-ellipsis">
+      Qwen1Config
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Qwen1Config">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.qwen1_configuration.Qwen1Config.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.qwen1_configuration.Qwen1Config.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.qwen1_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      qwen1_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.qwen1_configuration.Qwen1Config" class="md-nav__link">
+    <span class="md-ellipsis">
+      Qwen1Config
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Qwen1Config">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.qwen1_configuration.Qwen1Config.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen1.qwen1_configuration.Qwen1Config.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesqwen1qwen1_configuration">modules.qwen1.qwen1_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.qwen1.qwen1_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen1.qwen1_configuration.Qwen1Config" class="doc doc-heading">
+            <code>Qwen1Config</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen1/qwen1_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  7</span>
+<span class="normal">  8</span>
+<span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">Qwen1Config</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;qwen&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">151936</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">emb_dropout_prob</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">attn_dropout_prob</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">layer_norm_epsilon</span><span class="o">=</span><span class="mf">1e-6</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">seq_length</span><span class="o">=</span><span class="mi">8192</span><span class="p">,</span>
+            <span class="n">scale_attn_weights</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">kv_channels</span><span class="o">=</span><span class="mi">128</span><span class="p">,</span>
+            <span class="n">rotary_pct</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span>
+            <span class="n">rotary_emb_base</span><span class="o">=</span><span class="mi">10000</span><span class="p">,</span>
+            <span class="n">use_dynamic_ntk</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">use_logn_attn</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">22016</span><span class="p">,</span>
+            <span class="n">no_bias</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">softmax_in_fp32</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">scan_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_rope_cache_auto</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">seq_length</span> <span class="o">=</span> <span class="n">seq_length</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scale_attn_weights</span> <span class="o">=</span> <span class="n">scale_attn_weights</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">no_bias</span> <span class="o">=</span> <span class="n">no_bias</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">kv_channels</span> <span class="o">=</span> <span class="n">kv_channels</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_dynamic_ntk</span> <span class="o">=</span> <span class="n">use_dynamic_ntk</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_logn_attn</span> <span class="o">=</span> <span class="n">use_logn_attn</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_base</span> <span class="o">=</span> <span class="n">rotary_emb_base</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary_pct</span> <span class="o">=</span> <span class="n">rotary_pct</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm_epsilon</span> <span class="o">=</span> <span class="n">layer_norm_epsilon</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">softmax_in_fp32</span> <span class="o">=</span> <span class="n">softmax_in_fp32</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_layers</span> <span class="o">=</span> <span class="n">scan_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">emb_dropout_prob</span> <span class="o">=</span> <span class="n">emb_dropout_prob</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attn_dropout_prob</span> <span class="o">=</span> <span class="n">attn_dropout_prob</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">init_rope_cache_auto</span> <span class="o">=</span> <span class="n">init_rope_cache_auto</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tie_word_embeddings</span> <span class="o">=</span> <span class="n">tie_word_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="o">=</span><span class="n">use_scan_mlp</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+            <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">            1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">                partition the model fully or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/wte/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/c_attn/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/c_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">)),</span> <span class="s2">&quot;tp&quot;</span><span class="p">),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/c_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;ln_1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;ln_2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/ln_f/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/wte/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/c_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;ln_1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;ln_2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/ln_f/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">scan_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_rope_cache_auto</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the current object</span>
+<span class="sd">            gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">                used by jax</span>
+<span class="sd">            use_scan_mlp: bool: Determine whether to use the scan_mlp</span>
+<span class="sd">                function or not</span>
+<span class="sd">            scan_mlp_chunk_size: int: Set the chunk size for scan_mlp</span>
+<span class="sd">            init_rope_cache_auto: bool: Whether to use the</span>
+<span class="sd">                rope_cache_auto in model</span>
+<span class="sd">            bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">                the quantization</span>
+<span class="sd">            scan_layers: bool: Determine whether to use scan layers or</span>
+<span class="sd">                not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The following:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_layers</span> <span class="o">=</span> <span class="n">scan_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">init_rope_cache_auto</span> <span class="o">=</span> <span class="n">init_rope_cache_auto</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_weight_decay_exclusions</span><span class="p">():</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">rng_keys</span><span class="p">():</span>
+        <span class="k">return</span> <span class="s2">&quot;params&quot;</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">,</span> <span class="s2">&quot;fcm&quot;</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.qwen1_configuration.Qwen1Config.add_jax_args" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_jax_args</span><span class="p">(</span><span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">use_scan_mlp</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="mi">1024</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">scan_layers</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_rope_cache_auto</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The add_jax_args function adds the following arguments to the Transformer class:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the current object</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Control the amount of memory
+used by jax</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_scan_mlp</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use the scan_mlp
+function or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_mlp_chunk_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the chunk size for scan_mlp</p>
+              </div>
+            </td>
+            <td>
+                  <code>1024</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_rope_cache_auto</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Whether to use the
+rope_cache_auto in model</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Determine the number of bits used in
+the quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_layers</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use scan layers or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The following:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/qwen1_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">scan_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_rope_cache_auto</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the current object</span>
+<span class="sd">        gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">            used by jax</span>
+<span class="sd">        use_scan_mlp: bool: Determine whether to use the scan_mlp</span>
+<span class="sd">            function or not</span>
+<span class="sd">        scan_mlp_chunk_size: int: Set the chunk size for scan_mlp</span>
+<span class="sd">        init_rope_cache_auto: bool: Whether to use the</span>
+<span class="sd">            rope_cache_auto in model</span>
+<span class="sd">        bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">            the quantization</span>
+<span class="sd">        scan_layers: bool: Determine whether to use scan layers or</span>
+<span class="sd">            not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The following:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_layers</span> <span class="o">=</span> <span class="n">scan_layers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">init_rope_cache_auto</span> <span class="o">=</span> <span class="n">init_rope_cache_auto</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen1.qwen1_configuration.Qwen1Config.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+    1) A regex string that matches the name of one or more parameters in the model.
+    2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to
+partition the model fully or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen1/qwen1_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">        1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">            partition the model fully or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/wte/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/c_attn/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/c_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">)),</span> <span class="s2">&quot;tp&quot;</span><span class="p">),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/c_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;ln_1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;ln_2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/ln_f/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/wte/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/w1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/w2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/c_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;ln_1/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;ln_2/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/ln_f/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-qwen2-modelling_qwen_flax/index.html b/generated-modules-qwen2-modelling_qwen_flax/index.html
new file mode 100644
index 000000000..2bc910bd8
--- /dev/null
+++ b/generated-modules-qwen2-modelling_qwen_flax/index.html
@@ -0,0 +1,13385 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-qwen1-qwen1_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-qwen2-qwen_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Qwen Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesqwen2modelling_qwen_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Qwen Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_qwen_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Attention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2Attention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2Attention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Attention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Attention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Block" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2Block
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2Block">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Block.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2BlockCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2BlockCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2BlockCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2BlockCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2ForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2ForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2ForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2ForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForSequenceClassificationModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2ForSequenceClassificationModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2ForSequenceClassificationModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForSequenceClassificationModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForSequenceClassificationModule.setup" class="md-nav__link">
+    <span class="md-ellipsis">
+      setup
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2MLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2MLP.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Module" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2Module
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2Module">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Module.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2PreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2PreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.init_cache" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_cache
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_qwen_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Attention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2Attention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2Attention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Attention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Attention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Block" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2Block
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2Block">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Block.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2BlockCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2BlockCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2BlockCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2BlockCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2ForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2ForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2ForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2ForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForSequenceClassificationModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2ForSequenceClassificationModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2ForSequenceClassificationModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForSequenceClassificationModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForSequenceClassificationModule.setup" class="md-nav__link">
+    <span class="md-ellipsis">
+      setup
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2MLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2MLP.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Module" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2Module
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2Module">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Module.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2PreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2PreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.init_cache" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_cache
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesqwen2modelling_qwen_flax">modules.qwen2.modelling_qwen_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.qwen2.modelling_qwen_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Attention" class="doc doc-heading">
+            <code>FlaxQwen2Attention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2Attention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span> <span class="o">=</span> <span class="n">FlaxQwen2Embedding</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">use_sharding_constraint</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span><span class="p">,</span>
+            <span class="n">backward_pass_impl</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">flash_attention_backward_pass_impl</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">rate</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">resid_pdrop</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _transpose_sequence_head function transposes the query, key and value matrices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            query: Get the attention weights for each of the heads</span>
+<span class="sd">            key: Determine the number of heads</span>
+<span class="sd">            value: Store the values of the input</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The transpose of the query, key and value matrices</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">            sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">            query: Calculate the attention weights</span>
+<span class="sd">            key: Calculate the attention</span>
+<span class="sd">            value: Compute the attention weights</span>
+<span class="sd">            freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">                vocabulary</span>
+<span class="sd">            position_ids: Identify the position of each token in the</span>
+<span class="sd">                sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 tensors: query, key and value</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">        and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency coefficients for each position</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+<span class="sd">            fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">                and output tokens</span>
+<span class="sd">        :param : Determine if the attention is causal or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two arrays</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+        <span class="p">)</span>
+
+        <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                     <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+        <span class="c1"># if self.config.use_sharding_constraint:</span>
+        <span class="c1">#     query_states = with_sharding_constraint(</span>
+        <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     key_states = with_sharding_constraint(</span>
+        <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     value_states = with_sharding_constraint(</span>
+        <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span><span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Attention.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module. It defines how the module behaves when called
+with inputs. The <strong>call</strong> function can be thought of as a &quot;forward pass&quot; through the model,
+and it should return all outputs that are needed for training or inference.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the hidden states of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency coefficients for each position</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the future tokens in the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the attention weights between the input
+and output tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine if the attention is causal or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two arrays</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">    and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency coefficients for each position</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+<span class="sd">        fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">            and output tokens</span>
+<span class="sd">    :param : Determine if the attention is causal or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two arrays</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+        <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+    <span class="p">)</span>
+
+    <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">)</span>
+
+    <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+        <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+        <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                 <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+        <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+    <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+        <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+        <span class="p">)</span>
+    <span class="c1"># if self.config.use_sharding_constraint:</span>
+    <span class="c1">#     query_states = with_sharding_constraint(</span>
+    <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     key_states = with_sharding_constraint(</span>
+    <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     value_states = with_sharding_constraint(</span>
+    <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+
+    <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+        <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+    <span class="p">)</span>
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+        <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+        <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+    <span class="p">)</span>
+
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                <span class="s2">&quot;tp&quot;</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span><span class="p">(</span>
+        <span class="n">attn_output</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span>
+        <span class="n">attn_output</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Attention.apply_rotary" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rotary</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class.
+The main difference is that it takes in an additional argument, freq_cis, which are used to calculate
+the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sequence_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Compute the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the frequency of each word in the
+vocabulary</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Identify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 tensors: query, key and value</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">        sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">        query: Calculate the attention weights</span>
+<span class="sd">        key: Calculate the attention</span>
+<span class="sd">        value: Compute the attention weights</span>
+<span class="sd">        freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">            vocabulary</span>
+<span class="sd">        position_ids: Identify the position of each token in the</span>
+<span class="sd">            sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 tensors: query, key and value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Block" class="doc doc-heading">
+            <code>FlaxQwen2Block</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2Block</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attn_block</span> <span class="o">=</span> <span class="n">FlaxQwen2Attention</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">attn_block</span> <span class="o">=</span> <span class="n">nn_partitioning</span><span class="o">.</span><span class="n">remat</span><span class="p">(</span>
+                <span class="n">FlaxQwen2Attention</span><span class="p">,</span> <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">6</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">8</span><span class="p">,</span> <span class="mi">9</span><span class="p">),</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="p">)</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span> <span class="o">=</span> <span class="n">attn_block</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">FlaxQwen2MLP</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">nn_partitioning</span><span class="o">.</span><span class="n">remat</span><span class="p">(</span>
+                <span class="n">FlaxQwen2MLP</span><span class="p">,</span> <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,),</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span> <span class="o">=</span> <span class="n">mlp_block</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span> <span class="o">=</span> <span class="n">Qwen2RMSNorm</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span> <span class="o">=</span> <span class="n">Qwen2RMSNorm</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">        It takes in hidden states, frequency-domain inputs, and masks as input. It then</span>
+<span class="sd">        applies self-attention to the hidden states using those inputs and returns an</span>
+<span class="sd">        output tensor with shape (batch_size, sequence_length, model_dim).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the class instance itself</span>
+<span class="sd">            hidden_states: chex.Array: Pass in the hidden state of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency information</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in the sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">            deterministic: bool: Control whether the dropout is applied</span>
+<span class="sd">                or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache in the attention</span>
+<span class="sd">                layer</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            fcm_mask: Optional[jnp.ndarray]: Mask the self-attention</span>
+<span class="sd">        :param : Control the dropout in the self attention layer</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two items</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">attn_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span>
+            <span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">attn_output</span>
+
+        <span class="n">feed_forward_input</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_scan_mlp</span><span class="p">:</span>
+            <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="n">block_wise_ffn</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">,</span>
+                <span class="n">feed_forward_input</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+                <span class="n">deterministic</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">(</span>
+                <span class="n">feed_forward_input</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="p">,</span>
+            <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">feed_forward_hidden_states</span>
+
+        <span class="k">return</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Block.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a TransformerEncoderLayer.
+It takes in hidden states, frequency-domain inputs, and masks as input. It then
+applies self-attention to the hidden states using those inputs and returns an
+output tensor with shape (batch_size, sequence_length, model_dim).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the class instance itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the hidden state of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency information</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for padding tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the dropout is applied
+or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache in the attention
+layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="jax.numpy.ndarray">ndarray</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[jnp.ndarray]: Mask the self-attention</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Control the dropout in the self attention layer</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two items</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">    It takes in hidden states, frequency-domain inputs, and masks as input. It then</span>
+<span class="sd">    applies self-attention to the hidden states using those inputs and returns an</span>
+<span class="sd">    output tensor with shape (batch_size, sequence_length, model_dim).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the class instance itself</span>
+<span class="sd">        hidden_states: chex.Array: Pass in the hidden state of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency information</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in the sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">        deterministic: bool: Control whether the dropout is applied</span>
+<span class="sd">            or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache in the attention</span>
+<span class="sd">            layer</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        fcm_mask: Optional[jnp.ndarray]: Mask the self-attention</span>
+<span class="sd">    :param : Control the dropout in the self attention layer</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two items</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">attn_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span>
+        <span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">attn_output</span>
+
+    <span class="n">feed_forward_input</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_scan_mlp</span><span class="p">:</span>
+        <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="n">block_wise_ffn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">,</span>
+            <span class="n">feed_forward_input</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+            <span class="n">deterministic</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">(</span>
+            <span class="n">feed_forward_input</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">feed_forward_hidden_states</span>
+
+    <span class="k">return</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2BlockCollection" class="doc doc-heading">
+            <code>FlaxQwen2BlockCollection</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2BlockCollection</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">FlaxQwen2Block</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">name</span><span class="o">=</span><span class="nb">str</span><span class="p">(</span><span class="n">i</span><span class="p">),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+            <span class="p">)</span>
+            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_hidden_layers</span>
+            <span class="p">)</span>
+        <span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX nn.Module.</span>
+<span class="sd">        It defines how the module behaves when called as a function, and it&#39;s what you&#39;ll use to call your model</span>
+<span class="sd">         in training loops or inference scripts.</span>
+<span class="sd">        The __call__ method should take all inputs that are necessary for computing outputs from the module,</span>
+<span class="sd">        and return all outputs that are computed by this module.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the input tensor to the</span>
+<span class="sd">                encoder</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency of each token</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">            deterministic: bool: Determine whether the model is in</span>
+<span class="sd">                training or evaluation mode</span>
+<span class="sd">            init_cache: bool: Initialize the cache for each layer</span>
+<span class="sd">            output_attentions: bool: Determine whether to output the</span>
+<span class="sd">                attention weights</span>
+<span class="sd">            output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">                hidden states of each layer</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs</span>
+<span class="sd">        :param : Determine whether to use the forgetful causal mask</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 values</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">all_attentions</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="c1"># Apply forgetful causal mask</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">fcm_ratio</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span> <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+                <span class="n">minval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_min_ratio</span><span class="p">,</span>
+                <span class="n">maxval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span>
+            <span class="p">)</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span>
+                <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span> <span class="o">&gt;</span> <span class="n">fcm_ratio</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:,</span> <span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s1">&#39;bool&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+                <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+
+            <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+                <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+                <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+                <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+                <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+                <span class="n">fcm_mask</span><span class="o">=</span><span class="n">fcm_mask</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+            <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+                <span class="n">all_attentions</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">,</span> <span class="n">all_attentions</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2BlockCollection.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX nn.Module.
+It defines how the module behaves when called as a function, and it's what you'll use to call your model
+ in training loops or inference scripts.
+The <strong>call</strong> method should take all inputs that are necessary for computing outputs from the module,
+and return all outputs that are computed by this module.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input tensor to the
+encoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency of each token</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether the model is in
+training or evaluation mode</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for each layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to output the
+attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+hidden states of each layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine whether to use the forgetful causal mask</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 values</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX nn.Module.</span>
+<span class="sd">    It defines how the module behaves when called as a function, and it&#39;s what you&#39;ll use to call your model</span>
+<span class="sd">     in training loops or inference scripts.</span>
+<span class="sd">    The __call__ method should take all inputs that are necessary for computing outputs from the module,</span>
+<span class="sd">    and return all outputs that are computed by this module.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the input tensor to the</span>
+<span class="sd">            encoder</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency of each token</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">        deterministic: bool: Determine whether the model is in</span>
+<span class="sd">            training or evaluation mode</span>
+<span class="sd">        init_cache: bool: Initialize the cache for each layer</span>
+<span class="sd">        output_attentions: bool: Determine whether to output the</span>
+<span class="sd">            attention weights</span>
+<span class="sd">        output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">            hidden states of each layer</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs</span>
+<span class="sd">    :param : Determine whether to use the forgetful causal mask</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 values</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">all_attentions</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="c1"># Apply forgetful causal mask</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">fcm_ratio</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span> <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">minval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_min_ratio</span><span class="p">,</span>
+            <span class="n">maxval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span>
+        <span class="p">)</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span>
+            <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span> <span class="o">&gt;</span> <span class="n">fcm_ratio</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:,</span> <span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="kc">True</span><span class="p">)</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s1">&#39;bool&#39;</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+
+        <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="n">fcm_mask</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">all_attentions</span> <span class="o">+=</span> <span class="p">(</span><span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">,</span> <span class="n">all_attentions</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLM" class="doc doc-heading">
+            <code>FlaxQwen2ForCausalLM</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel" href="#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel">FlaxQwen2PreTrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1151</span>
+<span class="normal">1152</span>
+<span class="normal">1153</span>
+<span class="normal">1154</span>
+<span class="normal">1155</span>
+<span class="normal">1156</span>
+<span class="normal">1157</span>
+<span class="normal">1158</span>
+<span class="normal">1159</span>
+<span class="normal">1160</span>
+<span class="normal">1161</span>
+<span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span>
+<span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span>
+<span class="normal">1204</span>
+<span class="normal">1205</span>
+<span class="normal">1206</span>
+<span class="normal">1207</span>
+<span class="normal">1208</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2ForCausalLM</span><span class="p">(</span><span class="n">FlaxQwen2PreTrainedModel</span><span class="p">):</span>
+    <span class="n">module_class</span> <span class="o">=</span> <span class="n">FlaxQwen2ForCausalLMModule</span>
+
+    <span class="k">def</span> <span class="nf">set_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">embed_tokens</span> <span class="o">=</span> <span class="n">value</span>
+
+    <span class="k">def</span> <span class="nf">get_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">embed_tokens</span>
+
+    <span class="k">def</span> <span class="nf">set_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">decoder</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">decoder</span>
+
+    <span class="k">def</span> <span class="nf">get_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span>
+
+    <span class="k">def</span> <span class="nf">get_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">lm_head</span>
+
+    <span class="k">def</span> <span class="nf">set_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">new_embeddings</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">lm_head</span> <span class="o">=</span> <span class="n">new_embeddings</span>
+
+    <span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            input_ids: Pass in the input tokens</span>
+<span class="sd">            max_length: Set the length of the sequence to be generated</span>
+<span class="sd">            attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">                weights</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">            position ids</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+            <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+                <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+            <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+            <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">update_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_outputs</span><span class="p">,</span> <span class="n">model_kwargs</span><span class="p">):</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">past_key_values</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">][:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">:]</span> <span class="o">+</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="n">model_kwargs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLM.prepare_inputs_for_generation" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">prepare_inputs_for_generation</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the length of the sequence to be generated</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[chex.Array]: Mask the attention
+weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of the past_key_values, attention_mask and</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>position ids</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span>
+<span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        input_ids: Pass in the input tokens</span>
+<span class="sd">        max_length: Set the length of the sequence to be generated</span>
+<span class="sd">        attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">            weights</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">        position ids</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+    <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+        <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+            <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+        <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+        <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLMModule" class="doc doc-heading">
+            <code>FlaxQwen2ForCausalLMModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span>
+<span class="normal">1065</span>
+<span class="normal">1066</span>
+<span class="normal">1067</span>
+<span class="normal">1068</span>
+<span class="normal">1069</span>
+<span class="normal">1070</span>
+<span class="normal">1071</span>
+<span class="normal">1072</span>
+<span class="normal">1073</span>
+<span class="normal">1074</span>
+<span class="normal">1075</span>
+<span class="normal">1076</span>
+<span class="normal">1077</span>
+<span class="normal">1078</span>
+<span class="normal">1079</span>
+<span class="normal">1080</span>
+<span class="normal">1081</span>
+<span class="normal">1082</span>
+<span class="normal">1083</span>
+<span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span>
+<span class="normal">1119</span>
+<span class="normal">1120</span>
+<span class="normal">1121</span>
+<span class="normal">1122</span>
+<span class="normal">1123</span>
+<span class="normal">1124</span>
+<span class="normal">1125</span>
+<span class="normal">1126</span>
+<span class="normal">1127</span>
+<span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2ForCausalLMModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">FlaxQwen2Module</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            input_ids: chex.Array: Pass the input token ids to the model</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in the input sequence</span>
+<span class="sd">            deterministic: bool: Control whether the model is trained or</span>
+<span class="sd">                not</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">                hidden states</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">                embedding of the word that we want to predict</span>
+<span class="sd">            None]]: Pass in the extra embedding</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The logits and the hidden states</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">tie_word_embeddings</span><span class="p">:</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+            <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+                <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="n">lm_logits</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">(</span><span class="n">lm_logits</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">FlaxCausalLMOutput</span><span class="p">(</span><span class="n">logits</span><span class="o">=</span><span class="n">lm_logits</span><span class="p">,</span> <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLMModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax module. It takes in inputs and returns outputs.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input token ids to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in the input sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the model is trained or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+hidden states</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray: Pass in the
+embedding of the word that we want to predict</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>None]]</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the extra embedding</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The logits and the hidden states</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1079</span>
+<span class="normal">1080</span>
+<span class="normal">1081</span>
+<span class="normal">1082</span>
+<span class="normal">1083</span>
+<span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span>
+<span class="normal">1119</span>
+<span class="normal">1120</span>
+<span class="normal">1121</span>
+<span class="normal">1122</span>
+<span class="normal">1123</span>
+<span class="normal">1124</span>
+<span class="normal">1125</span>
+<span class="normal">1126</span>
+<span class="normal">1127</span>
+<span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        input_ids: chex.Array: Pass the input token ids to the model</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in the input sequence</span>
+<span class="sd">        deterministic: bool: Control whether the model is trained or</span>
+<span class="sd">            not</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">            hidden states</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">            embedding of the word that we want to predict</span>
+<span class="sd">        None]]: Pass in the extra embedding</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The logits and the hidden states</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+        <span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">tie_word_embeddings</span><span class="p">:</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">lm_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">lm_logits</span> <span class="o">=</span> <span class="n">lm_logits</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">lm_logits</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">FlaxCausalLMOutput</span><span class="p">(</span><span class="n">logits</span><span class="o">=</span><span class="n">lm_logits</span><span class="p">,</span> <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForSequenceClassificationModule" class="doc doc-heading">
+            <code>FlaxQwen2ForSequenceClassificationModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1211</span>
+<span class="normal">1212</span>
+<span class="normal">1213</span>
+<span class="normal">1214</span>
+<span class="normal">1215</span>
+<span class="normal">1216</span>
+<span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span>
+<span class="normal">1220</span>
+<span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span>
+<span class="normal">1230</span>
+<span class="normal">1231</span>
+<span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span>
+<span class="normal">1241</span>
+<span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span>
+<span class="normal">1281</span>
+<span class="normal">1282</span>
+<span class="normal">1283</span>
+<span class="normal">1284</span>
+<span class="normal">1285</span>
+<span class="normal">1286</span>
+<span class="normal">1287</span>
+<span class="normal">1288</span>
+<span class="normal">1289</span>
+<span class="normal">1290</span>
+<span class="normal">1291</span>
+<span class="normal">1292</span>
+<span class="normal">1293</span>
+<span class="normal">1294</span>
+<span class="normal">1295</span>
+<span class="normal">1296</span>
+<span class="normal">1297</span>
+<span class="normal">1298</span>
+<span class="normal">1299</span>
+<span class="normal">1300</span>
+<span class="normal">1301</span>
+<span class="normal">1302</span>
+<span class="normal">1303</span>
+<span class="normal">1304</span>
+<span class="normal">1305</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2ForSequenceClassificationModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">num_classes</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The setup function is called once at the beginning of training.</span>
+<span class="sd">        It initializes the model and optimizer, and sets up any other state that needs to be initialized.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the model and the classifier</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">FlaxQwen2Module</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_classes</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module.</span>
+<span class="sd">        It takes in all the inputs to the model and returns all outputs from it.</span>
+<span class="sd">        The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:</span>
+<span class="sd">            &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class</span>
+<span class="sd">            &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the class instance</span>
+<span class="sd">            input_ids: chex.Array: Pass the input to the model</span>
+<span class="sd">            attention_mask: chex.Array: Specify which tokens are masked</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in the sequence</span>
+<span class="sd">            deterministic: bool: Control whether the model is run in</span>
+<span class="sd">                deterministic or stochastic mode</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the transformer</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            output_hidden_states: bool: Return the hidden states of all</span>
+<span class="sd">                layers</span>
+<span class="sd">            return_dict: bool: Return a dictionary of outputs</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">                embedding of a new word</span>
+<span class="sd">            None]]: Pass the extra embedding to the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of logits and hidden_states</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">prediction</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">FlaxSequenceClassifierOutput</span><span class="p">(</span>
+                <span class="n">logits</span><span class="o">=</span><span class="n">prediction</span><span class="p">,</span>
+                <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">prediction</span><span class="p">,</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForSequenceClassificationModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax module.
+It takes in all the inputs to the model and returns all outputs from it.
+The <strong>call</strong> function can be called directly on an instance of a class, or by using parentheses after an instance:
+    &gt;&gt;&gt; my_model = MyModel()  # instantiate your model class
+    &gt;&gt;&gt; output = my_model(input)  # call your model with input data as arguments to <strong>call</strong></p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the class instance</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify which tokens are masked</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in the sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the model is run in
+deterministic or stochastic mode</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the transformer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the hidden states of all
+layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray: Pass in the
+embedding of a new word</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>None]]</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the extra embedding to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of logits and hidden_states</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1239</span>
+<span class="normal">1240</span>
+<span class="normal">1241</span>
+<span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span>
+<span class="normal">1281</span>
+<span class="normal">1282</span>
+<span class="normal">1283</span>
+<span class="normal">1284</span>
+<span class="normal">1285</span>
+<span class="normal">1286</span>
+<span class="normal">1287</span>
+<span class="normal">1288</span>
+<span class="normal">1289</span>
+<span class="normal">1290</span>
+<span class="normal">1291</span>
+<span class="normal">1292</span>
+<span class="normal">1293</span>
+<span class="normal">1294</span>
+<span class="normal">1295</span>
+<span class="normal">1296</span>
+<span class="normal">1297</span>
+<span class="normal">1298</span>
+<span class="normal">1299</span>
+<span class="normal">1300</span>
+<span class="normal">1301</span>
+<span class="normal">1302</span>
+<span class="normal">1303</span>
+<span class="normal">1304</span>
+<span class="normal">1305</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module.</span>
+<span class="sd">    It takes in all the inputs to the model and returns all outputs from it.</span>
+<span class="sd">    The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:</span>
+<span class="sd">        &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class</span>
+<span class="sd">        &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the class instance</span>
+<span class="sd">        input_ids: chex.Array: Pass the input to the model</span>
+<span class="sd">        attention_mask: chex.Array: Specify which tokens are masked</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in the sequence</span>
+<span class="sd">        deterministic: bool: Control whether the model is run in</span>
+<span class="sd">            deterministic or stochastic mode</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the transformer</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        output_hidden_states: bool: Return the hidden states of all</span>
+<span class="sd">            layers</span>
+<span class="sd">        return_dict: bool: Return a dictionary of outputs</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">            embedding of a new word</span>
+<span class="sd">        None]]: Pass the extra embedding to the model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of logits and hidden_states</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+        <span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">prediction</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">FlaxSequenceClassifierOutput</span><span class="p">(</span>
+            <span class="n">logits</span><span class="o">=</span><span class="n">prediction</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">prediction</span><span class="p">,</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForSequenceClassificationModule.setup" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">setup</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The setup function is called once at the beginning of training.
+It initializes the model and optimizer, and sets up any other state that needs to be initialized.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the model and the classifier</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1218</span>
+<span class="normal">1219</span>
+<span class="normal">1220</span>
+<span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span>
+<span class="normal">1230</span>
+<span class="normal">1231</span>
+<span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The setup function is called once at the beginning of training.</span>
+<span class="sd">    It initializes the model and optimizer, and sets up any other state that needs to be initialized.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the model and the classifier</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">FlaxQwen2Module</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_classes</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+        <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+            <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+        <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2MLP" class="doc doc-heading">
+            <code>FlaxQwen2MLP</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2MLP</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">intermediate_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">intermediate_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">rate</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">resid_pdrop</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">        It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).</span>
+<span class="sd">        The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            x: jnp.ndarray: Pass in the input to the layer</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tensor that is the result of applying a dropout function</span>
+<span class="sd">            to x</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">silu</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span>
+        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">x</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2MLP.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a class.
+It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).
+The <strong>call</strong> method enables instances of a class to be called like standard Python functions.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>x</code></td>
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.ndarray: Pass in the input to the layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tensor that is the result of applying a dropout function</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>to x</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">    It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).</span>
+<span class="sd">    The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        x: jnp.ndarray: Pass in the input to the layer</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tensor that is the result of applying a dropout function</span>
+<span class="sd">        to x</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">silu</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">x</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Module" class="doc doc-heading">
+            <code>FlaxQwen2Module</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 906</span>
+<span class="normal"> 907</span>
+<span class="normal"> 908</span>
+<span class="normal"> 909</span>
+<span class="normal"> 910</span>
+<span class="normal"> 911</span>
+<span class="normal"> 912</span>
+<span class="normal"> 913</span>
+<span class="normal"> 914</span>
+<span class="normal"> 915</span>
+<span class="normal"> 916</span>
+<span class="normal"> 917</span>
+<span class="normal"> 918</span>
+<span class="normal"> 919</span>
+<span class="normal"> 920</span>
+<span class="normal"> 921</span>
+<span class="normal"> 922</span>
+<span class="normal"> 923</span>
+<span class="normal"> 924</span>
+<span class="normal"> 925</span>
+<span class="normal"> 926</span>
+<span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2Module</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2Config</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Embed</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">embedding_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">rate</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">embd_pdrop</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">layers</span> <span class="o">=</span> <span class="n">FlaxQwen2BlockCollection</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">norm</span> <span class="o">=</span> <span class="n">Qwen2RMSNorm</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="p">)</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span> <span class="o">=</span> <span class="n">make_causal_mask</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+                <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;c_max_position_embeddings&quot;</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">)),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span>
+            <span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span>
+        <span class="p">)</span>
+
+        <span class="n">initial_rope_kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+            <span class="n">rope_type</span><span class="o">=</span><span class="s2">&quot;none&quot;</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">scaling_type</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">[</span><span class="s2">&quot;type&quot;</span><span class="p">]</span>
+            <span class="n">scaling_factor</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">rope_scaling</span><span class="p">[</span><span class="s2">&quot;factor&quot;</span><span class="p">]</span>
+            <span class="n">initial_rope_kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+                <span class="n">scaling_factor</span><span class="o">=</span><span class="n">scaling_factor</span><span class="p">,</span>
+                <span class="n">rope_type</span><span class="o">=</span><span class="n">scaling_type</span>
+            <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span> <span class="o">=</span> <span class="n">precompute_freq_cis</span><span class="p">(</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="p">(</span>
+                <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;freq_max_position_embeddings&quot;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">)</span>
+            <span class="p">),</span>
+            <span class="n">dim</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">base</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">rope_theta</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">initial_rope_kwargs</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids</span>
+<span class="sd">        and returns the output of the model. The __call__ function also has optional arguments that can be used to control</span>
+<span class="sd">        the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when</span>
+<span class="sd">        calling a Flax model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input token ids</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            deterministic: bool: Control whether dropout is applied or</span>
+<span class="sd">                not</span>
+<span class="sd">            inputs_embeds: chex.Array: Pass in the embeddings of the</span>
+<span class="sd">                input tokens</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attentions or not</span>
+<span class="sd">            output_hidden_states: bool: Determine whether to return</span>
+<span class="sd">                hidden states</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the output or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">                embedding of the</span>
+<span class="sd">            None]]: Pass in the extra embedding</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">inputs_embeds</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">))</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">inputs_embeds</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+        <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="n">inputs_embeds</span> <span class="o">+</span> <span class="n">extra_embedding</span> <span class="k">if</span> <span class="n">extra_embedding</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">inputs_embeds</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span>
+            <span class="n">inputs_embeds</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">v</span> <span class="k">for</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">outputs</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">FlaxBaseModelOutput</span><span class="p">(</span>
+            <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+            <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Module.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">inputs_embeds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids
+and returns the output of the model. The <strong>call</strong> function also has optional arguments that can be used to control
+the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when
+calling a Flax model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input token ids</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Indicate the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether dropout is applied or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>inputs_embeds</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the embeddings of the
+input tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attentions or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return
+hidden states</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the output or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray: Pass in the
+embedding of the</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>None]]</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the extra embedding</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">inputs_embeds</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids</span>
+<span class="sd">    and returns the output of the model. The __call__ function also has optional arguments that can be used to control</span>
+<span class="sd">    the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when</span>
+<span class="sd">    calling a Flax model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input token ids</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Indicate the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        deterministic: bool: Control whether dropout is applied or</span>
+<span class="sd">            not</span>
+<span class="sd">        inputs_embeds: chex.Array: Pass in the embeddings of the</span>
+<span class="sd">            input tokens</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attentions or not</span>
+<span class="sd">        output_hidden_states: bool: Determine whether to return</span>
+<span class="sd">            hidden states</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the output or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">            embedding of the</span>
+<span class="sd">        None]]: Pass in the extra embedding</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">inputs_embeds</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">embed_tokens</span><span class="p">(</span><span class="n">input_ids</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">))</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">inputs_embeds</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+    <span class="n">inputs_embeds</span> <span class="o">=</span> <span class="n">inputs_embeds</span> <span class="o">+</span> <span class="n">extra_embedding</span> <span class="k">if</span> <span class="n">extra_embedding</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">inputs_embeds</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span>
+        <span class="n">inputs_embeds</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">v</span> <span class="k">for</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">outputs</span> <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">FlaxBaseModelOutput</span><span class="p">(</span>
+        <span class="n">last_hidden_state</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+        <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel" class="doc doc-heading">
+            <code>FlaxQwen2PreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2PreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">Qwen2Config</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;model&quot;</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2Config</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up the instance of the class, and defines what happens when it&#39;s created.</span>
+<span class="sd">        The __init__ function can take arguments, but self is always required (it refers to the instance of the object).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            config: Qwen2Config: Pass the configuration to the module</span>
+<span class="sd">            input_shape: Tuple: Specify the shape of the input to the</span>
+<span class="sd">                model</span>
+<span class="sd">            seed: int: Set the seed for random number generation</span>
+<span class="sd">            dtype: jnp.dtype: Specify the data type of the input</span>
+<span class="sd">            _do_init: bool: Control whether the module is initialized or</span>
+<span class="sd">                not</span>
+<span class="sd">            **kwargs: Pass in any additional parameters that the</span>
+<span class="sd">                module_class might need</span>
+<span class="sd">        :param : Specify the number of layers in the network</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The super() of the class</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">            params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">                model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+            <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+                <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+            <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">encoder_hidden_states</span><span class="p">,</span>
+                <span class="n">encoder_attention_mask</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_cache function is used to initialize the cache for a given batch size and sequence length.</span>
+<span class="sd">        The cache is a dictionary that contains all the intermediate states from each layer in the model.</span>
+<span class="sd">        This allows us to run inference on multiple batches without having to re-run forward passes through every layer in</span>
+<span class="sd">        the model, which would be very slow.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the module</span>
+<span class="sd">            batch_size: Define the batch size of the input tensors</span>
+<span class="sd">            max_length: Set the length of the input sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary with the following keys:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It takes in inputs and returns outputs, but it also has some other important features:</span>
+<span class="sd">        - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.</span>
+<span class="sd">        - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input</span>
+<span class="sd">            position_ids: chex.Array: Create the positional embeddings</span>
+<span class="sd">            params: dict: Pass in the parameters of the model</span>
+<span class="sd">            past_key_values: dict: Pass in the past key values from a</span>
+<span class="sd">                previous call to __call__</span>
+<span class="sd">            dropout_rng: jax.random.PRNGKey: Make sure that the dropout</span>
+<span class="sd">                is applied in a random way</span>
+<span class="sd">            train: bool: Determine whether to use dropout or not</span>
+<span class="sd">            output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the attention weights</span>
+<span class="sd">            output_hidden_states: Optional[bool]: Return the hidden</span>
+<span class="sd">                states of all layers</span>
+<span class="sd">            return_dict: Optional[bool]: Determine whether to return a</span>
+<span class="sd">                dictionary or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in</span>
+<span class="sd">                the embedding for the input_ids</span>
+<span class="sd">            add_params_field: bool: Add the params field to the inputs</span>
+<span class="sd">                dictionary</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the following:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+        <span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                      <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">past_key_values</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dropout_rng</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It takes in inputs and returns outputs, but it also has some other important features:
+- It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.
+- It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Create the positional embeddings</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>past_key_values</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the past key values from a
+previous call to <strong>call</strong></p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dropout_rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Make sure that the dropout
+is applied in a random way</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>train</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Return the hidden
+states of all layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to return a
+dictionary or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray,None]]: Pass in
+the embedding for the input_ids</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add the params field to the inputs
+dictionary</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the following:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It takes in inputs and returns outputs, but it also has some other important features:</span>
+<span class="sd">    - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.</span>
+<span class="sd">    - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input</span>
+<span class="sd">        position_ids: chex.Array: Create the positional embeddings</span>
+<span class="sd">        params: dict: Pass in the parameters of the model</span>
+<span class="sd">        past_key_values: dict: Pass in the past key values from a</span>
+<span class="sd">            previous call to __call__</span>
+<span class="sd">        dropout_rng: jax.random.PRNGKey: Make sure that the dropout</span>
+<span class="sd">            is applied in a random way</span>
+<span class="sd">        train: bool: Determine whether to use dropout or not</span>
+<span class="sd">        output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the attention weights</span>
+<span class="sd">        output_hidden_states: Optional[bool]: Return the hidden</span>
+<span class="sd">            states of all layers</span>
+<span class="sd">        return_dict: Optional[bool]: Determine whether to return a</span>
+<span class="sd">            dictionary or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in</span>
+<span class="sd">            the embedding for the input_ids</span>
+<span class="sd">        add_params_field: bool: Add the params field to the inputs</span>
+<span class="sd">            dictionary</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the following:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+    <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+    <span class="p">)</span>
+    <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rngs</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+    <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+    <span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+        <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+        <span class="n">inputs</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+        <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">,</span>
+        <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+        <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+    <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                  <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">seed</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up the instance of the class, and defines what happens when it's created.
+The <strong>init</strong> function can take arguments, but self is always required (it refers to the instance of the object).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>config</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.qwen2.qwen_configuration.Qwen2Config" href="../generated-modules-qwen2-qwen_configuration/#src.python.easydel.modules.qwen2.qwen_configuration.Qwen2Config">Qwen2Config</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Qwen2Config: Pass the configuration to the module</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Specify the shape of the input to the
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>seed</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the seed for random number generation</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.dtype: Specify the data type of the input</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.float32">float32</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>_do_init</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the module is initialized or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in any additional parameters that the
+module_class might need</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Specify the number of layers in the network</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The super() of the class</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2Config</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+        <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up the instance of the class, and defines what happens when it&#39;s created.</span>
+<span class="sd">    The __init__ function can take arguments, but self is always required (it refers to the instance of the object).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        config: Qwen2Config: Pass the configuration to the module</span>
+<span class="sd">        input_shape: Tuple: Specify the shape of the input to the</span>
+<span class="sd">            model</span>
+<span class="sd">        seed: int: Set the seed for random number generation</span>
+<span class="sd">        dtype: jnp.dtype: Specify the data type of the input</span>
+<span class="sd">        _do_init: bool: Control whether the module is initialized or</span>
+<span class="sd">            not</span>
+<span class="sd">        **kwargs: Pass in any additional parameters that the</span>
+<span class="sd">            module_class might need</span>
+<span class="sd">    :param : Specify the number of layers in the network</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The super() of the class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.init_cache" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_cache function is used to initialize the cache for a given batch size and sequence length.
+The cache is a dictionary that contains all the intermediate states from each layer in the model.
+This allows us to run inference on multiple batches without having to re-run forward passes through every layer in
+the model, which would be very slow.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access the module</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the batch size of the input tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the length of the input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with the following keys:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_cache function is used to initialize the cache for a given batch size and sequence length.</span>
+<span class="sd">    The cache is a dictionary that contains all the intermediate states from each layer in the model.</span>
+<span class="sd">    This allows us to run inference on multiple batches without having to re-run forward passes through every layer in</span>
+<span class="sd">    the model, which would be very slow.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access the module</span>
+<span class="sd">        batch_size: Define the batch size of the input tensors</span>
+<span class="sd">        max_length: Set the length of the input sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with the following keys:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+    <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+        <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Specify the shape of the input tensor</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>FrozenDict: Pass in the parameters of a pre-trained
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">        params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">            model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+        <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+            <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+        <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+
+    <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-qwen2-qwen_configuration/index.html b/generated-modules-qwen2-qwen_configuration/index.html
new file mode 100644
index 000000000..4a69c4848
--- /dev/null
+++ b/generated-modules-qwen2-qwen_configuration/index.html
@@ -0,0 +1,7136 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-qwen2-modelling_qwen_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-qwen2_moe-configuration_qwen2_moe/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Qwen Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesqwen2qwen_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Qwen Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.qwen_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      qwen_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.qwen_configuration.Qwen2Config" class="md-nav__link">
+    <span class="md-ellipsis">
+      Qwen2Config
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Qwen2Config">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.qwen_configuration.Qwen2Config.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.qwen_configuration.Qwen2Config.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.qwen_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      qwen_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.qwen_configuration.Qwen2Config" class="md-nav__link">
+    <span class="md-ellipsis">
+      Qwen2Config
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Qwen2Config">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.qwen_configuration.Qwen2Config.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2.qwen_configuration.Qwen2Config.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesqwen2qwen_configuration">modules.qwen2.qwen_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.qwen2.qwen_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2.qwen_configuration.Qwen2Config" class="doc doc-heading">
+            <code>Qwen2Config</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2/qwen_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  7</span>
+<span class="normal">  8</span>
+<span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">Qwen2Config</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;qwen2&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">151936</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">22016</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">hidden_act</span><span class="o">=</span><span class="s2">&quot;silu&quot;</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">32768</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-6</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span>
+            <span class="n">use_sliding_window</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">sliding_window</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">max_window_layers</span><span class="o">=</span><span class="mi">28</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">resid_pdrop</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">embd_pdrop</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">fcm_min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">fcm_max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">scan_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span> <span class="o">|</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_sliding_window</span> <span class="o">=</span> <span class="n">use_sliding_window</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sliding_window</span> <span class="o">=</span> <span class="n">sliding_window</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_window_layers</span> <span class="o">=</span> <span class="n">max_window_layers</span>
+
+        <span class="c1"># for backward compatibility</span>
+        <span class="k">if</span> <span class="n">num_key_value_heads</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_layers</span> <span class="o">=</span> <span class="n">scan_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embd_pdrop</span> <span class="o">=</span> <span class="n">embd_pdrop</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">resid_pdrop</span> <span class="o">=</span> <span class="n">resid_pdrop</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tie_word_embeddings</span> <span class="o">=</span> <span class="n">tie_word_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fcm_min_ratio</span> <span class="o">=</span> <span class="n">fcm_min_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">=</span> <span class="n">fcm_max_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="o">=</span><span class="n">use_scan_mlp</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="n">scan_mlp_chunk_size</span><span class="p">,</span>
+            <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">            1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">                partition the model fully or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">resid_pdrop</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">embd_pdrop</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">fcm_min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">fcm_max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">10000.</span><span class="p">,</span>
+            <span class="n">hidden_act</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;silu&quot;</span><span class="p">,</span>
+            <span class="n">scan_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span> <span class="o">|</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the current object</span>
+<span class="sd">            resid_pdrop: float: Set the dropout rate for residual</span>
+<span class="sd">                connections</span>
+<span class="sd">            embd_pdrop: float: Set the probability of dropping an</span>
+<span class="sd">                embedding</span>
+<span class="sd">            attention_dropout: float: Set the probability of dropping</span>
+<span class="sd">                out the attention layer</span>
+<span class="sd">            tie_word_embeddings: bool: Tie the word embeddings to the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">                used by jax</span>
+<span class="sd">            fcm_min_ratio: float: Control the minimum ratio of the</span>
+<span class="sd">                number of chunks to be used in flash-based computation</span>
+<span class="sd">            fcm_max_ratio: float: Set the maximum ratio of the number of</span>
+<span class="sd">                input tokens to output tokens</span>
+<span class="sd">            use_scan_mlp: bool: Determine whether to use the scan_mlp</span>
+<span class="sd">                function or not</span>
+<span class="sd">            scan_mlp_chunk_size: int: Set the chunk size for scan_mlp</span>
+<span class="sd">            number_rep_kv: int: Determine how many times the key and</span>
+<span class="sd">                value vectors are repeated</span>
+<span class="sd">            bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">                the quantization</span>
+<span class="sd">            rope_theta: float : rope_theta for compute rope</span>
+<span class="sd">            hidden_act: str : hidden_act for mlp</span>
+<span class="sd">            scan_layers: bool: Determine whether to use scan layers or</span>
+<span class="sd">                not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The following:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_layers</span> <span class="o">=</span> <span class="n">scan_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">embd_pdrop</span> <span class="o">=</span> <span class="n">embd_pdrop</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">resid_pdrop</span> <span class="o">=</span> <span class="n">resid_pdrop</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tie_word_embeddings</span> <span class="o">=</span> <span class="n">tie_word_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fcm_min_ratio</span> <span class="o">=</span> <span class="n">fcm_min_ratio</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">=</span> <span class="n">fcm_max_ratio</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_weight_decay_exclusions</span><span class="p">():</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">rng_keys</span><span class="p">():</span>
+        <span class="k">return</span> <span class="s2">&quot;params&quot;</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">,</span> <span class="s2">&quot;fcm&quot;</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.qwen_configuration.Qwen2Config.add_jax_args" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_jax_args</span><span class="p">(</span><span class="n">resid_pdrop</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">embd_pdrop</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">fcm_min_ratio</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">fcm_max_ratio</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">use_scan_mlp</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">scan_mlp_chunk_size</span><span class="o">=</span><span class="mi">1024</span><span class="p">,</span> <span class="n">number_rep_kv</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span> <span class="n">hidden_act</span><span class="o">=</span><span class="s1">&#39;silu&#39;</span><span class="p">,</span> <span class="n">scan_layers</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">rope_scaling</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The add_jax_args function adds the following arguments to the Transformer class:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the current object</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>resid_pdrop</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the dropout rate for residual
+connections</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>embd_pdrop</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the probability of dropping an
+embedding</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_dropout</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the probability of dropping
+out the attention layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tie_word_embeddings</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Tie the word embeddings to the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Control the amount of memory
+used by jax</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_min_ratio</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Control the minimum ratio of the
+number of chunks to be used in flash-based computation</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_max_ratio</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the maximum ratio of the number of
+input tokens to output tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_scan_mlp</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use the scan_mlp
+function or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_mlp_chunk_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the chunk size for scan_mlp</p>
+              </div>
+            </td>
+            <td>
+                  <code>1024</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>number_rep_kv</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Determine how many times the key and
+value vectors are repeated</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Determine the number of bits used in
+the quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rope_theta</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float : rope_theta for compute rope</p>
+              </div>
+            </td>
+            <td>
+                  <code>10000.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_act</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str : hidden_act for mlp</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;silu&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scan_layers</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use scan layers or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The following:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/qwen_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">resid_pdrop</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">embd_pdrop</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">attention_dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">tie_word_embeddings</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">fcm_min_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">fcm_max_ratio</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">use_scan_mlp</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">scan_mlp_chunk_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+        <span class="n">number_rep_kv</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">rope_theta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">10000.</span><span class="p">,</span>
+        <span class="n">hidden_act</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;silu&quot;</span><span class="p">,</span>
+        <span class="n">scan_layers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">rope_scaling</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="nb">str</span> <span class="o">|</span> <span class="nb">float</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the current object</span>
+<span class="sd">        resid_pdrop: float: Set the dropout rate for residual</span>
+<span class="sd">            connections</span>
+<span class="sd">        embd_pdrop: float: Set the probability of dropping an</span>
+<span class="sd">            embedding</span>
+<span class="sd">        attention_dropout: float: Set the probability of dropping</span>
+<span class="sd">            out the attention layer</span>
+<span class="sd">        tie_word_embeddings: bool: Tie the word embeddings to the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">            used by jax</span>
+<span class="sd">        fcm_min_ratio: float: Control the minimum ratio of the</span>
+<span class="sd">            number of chunks to be used in flash-based computation</span>
+<span class="sd">        fcm_max_ratio: float: Set the maximum ratio of the number of</span>
+<span class="sd">            input tokens to output tokens</span>
+<span class="sd">        use_scan_mlp: bool: Determine whether to use the scan_mlp</span>
+<span class="sd">            function or not</span>
+<span class="sd">        scan_mlp_chunk_size: int: Set the chunk size for scan_mlp</span>
+<span class="sd">        number_rep_kv: int: Determine how many times the key and</span>
+<span class="sd">            value vectors are repeated</span>
+<span class="sd">        bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">            the quantization</span>
+<span class="sd">        rope_theta: float : rope_theta for compute rope</span>
+<span class="sd">        hidden_act: str : hidden_act for mlp</span>
+<span class="sd">        scan_layers: bool: Determine whether to use scan layers or</span>
+<span class="sd">            not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The following:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_layers</span> <span class="o">=</span> <span class="n">scan_layers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">embd_pdrop</span> <span class="o">=</span> <span class="n">embd_pdrop</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">number_rep_kv</span> <span class="o">=</span> <span class="n">number_rep_kv</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">resid_pdrop</span> <span class="o">=</span> <span class="n">resid_pdrop</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tie_word_embeddings</span> <span class="o">=</span> <span class="n">tie_word_embeddings</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">fcm_min_ratio</span> <span class="o">=</span> <span class="n">fcm_min_ratio</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">=</span> <span class="n">fcm_max_ratio</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_scan_mlp</span> <span class="o">=</span> <span class="n">use_scan_mlp</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scan_mlp_chunk_size</span> <span class="o">=</span> <span class="n">scan_mlp_chunk_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2.qwen_configuration.Qwen2Config.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+    1) A regex string that matches the name of one or more parameters in the model.
+    2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to
+partition the model fully or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2/qwen_configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">        1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">            partition the model fully or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-qwen2_moe-configuration_qwen2_moe/index.html b/generated-modules-qwen2_moe-configuration_qwen2_moe/index.html
new file mode 100644
index 000000000..2188bed84
--- /dev/null
+++ b/generated-modules-qwen2_moe-configuration_qwen2_moe/index.html
@@ -0,0 +1,6767 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-qwen2-qwen_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Configuration Qwen2 Moe - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesqwen2_moeconfiguration_qwen2_moe" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Configuration Qwen2 Moe
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe" class="md-nav__link">
+    <span class="md-ellipsis">
+      configuration_qwen2_moe
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe.Qwen2MoeConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      Qwen2MoeConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Qwen2MoeConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe.Qwen2MoeConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe.Qwen2MoeConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe" class="md-nav__link">
+    <span class="md-ellipsis">
+      configuration_qwen2_moe
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe.Qwen2MoeConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      Qwen2MoeConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Qwen2MoeConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe.Qwen2MoeConfig.add_jax_args" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_jax_args
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe.Qwen2MoeConfig.get_partition_rules" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partition_rules
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesqwen2_moeconfiguration_qwen2_moe">modules.qwen2_moe.configuration_qwen2_moe</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe.Qwen2MoeConfig" class="doc doc-heading">
+            <code>Qwen2MoeConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/configuration_qwen2_moe.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  6</span>
+<span class="normal">  7</span>
+<span class="normal">  8</span>
+<span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">Qwen2MoeConfig</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;qwen2_moe&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">151936</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">2048</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">5632</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">24</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">16</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">16</span><span class="p">,</span>
+            <span class="n">hidden_act</span><span class="o">=</span><span class="s2">&quot;silu&quot;</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">32768</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">rms_norm_eps</span><span class="o">=</span><span class="mf">1e-6</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="o">=</span><span class="mf">10000.0</span><span class="p">,</span>
+            <span class="n">use_sliding_window</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">sliding_window</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">max_window_layers</span><span class="o">=</span><span class="mi">28</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">decoder_sparse_step</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="n">moe_intermediate_size</span><span class="o">=</span><span class="mi">1408</span><span class="p">,</span>
+            <span class="n">shared_expert_intermediate_size</span><span class="o">=</span><span class="mi">5632</span><span class="p">,</span>
+            <span class="n">num_experts_per_tok</span><span class="o">=</span><span class="mi">4</span><span class="p">,</span>
+            <span class="n">num_experts</span><span class="o">=</span><span class="mi">60</span><span class="p">,</span>
+            <span class="n">norm_topk_prob</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">router_aux_loss_coef</span><span class="o">=</span><span class="mf">0.001</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_sliding_window</span> <span class="o">=</span> <span class="n">use_sliding_window</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sliding_window</span> <span class="o">=</span> <span class="n">sliding_window</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_window_layers</span> <span class="o">=</span> <span class="n">max_window_layers</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rms_norm_eps</span> <span class="o">=</span> <span class="n">rms_norm_eps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+
+        <span class="c1"># MoE arguments</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">decoder_sparse_step</span> <span class="o">=</span> <span class="n">decoder_sparse_step</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">moe_intermediate_size</span> <span class="o">=</span> <span class="n">moe_intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">shared_expert_intermediate_size</span> <span class="o">=</span> <span class="n">shared_expert_intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_experts_per_tok</span> <span class="o">=</span> <span class="n">num_experts_per_tok</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_experts</span> <span class="o">=</span> <span class="n">num_experts</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">norm_topk_prob</span> <span class="o">=</span> <span class="n">norm_topk_prob</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">output_router_logits</span> <span class="o">=</span> <span class="n">output_router_logits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">router_aux_loss_coef</span> <span class="o">=</span> <span class="n">router_aux_loss_coef</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">        It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">            1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">                partition the model fully or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A list of tuples</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;shared_expert_gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;shared_expert_gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the current object</span>
+<span class="sd">            gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">                used by jax</span>
+<span class="sd">            bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">                the quantization</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The following:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_weight_decay_exclusions</span><span class="p">():</span>
+        <span class="k">return</span> <span class="nb">tuple</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">rng_keys</span><span class="p">():</span>
+        <span class="k">return</span> <span class="s2">&quot;params&quot;</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe.Qwen2MoeConfig.add_jax_args" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_jax_args</span><span class="p">(</span><span class="n">gradient_checkpointing</span><span class="o">=</span><span class="s1">&#39;nothing_saveable&#39;</span><span class="p">,</span> <span class="n">bits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The add_jax_args function adds the following arguments to the Transformer class:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the current object</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Control the amount of memory
+used by jax</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;nothing_saveable&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>bits</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Determine the number of bits used in
+the quantization</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The following:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/configuration_qwen2_moe.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+        <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The add_jax_args function adds the following arguments to the Transformer class:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the current object</span>
+<span class="sd">        gradient_checkpointing: str: Control the amount of memory</span>
+<span class="sd">            used by jax</span>
+<span class="sd">        bits: Optional[int]: Determine the number of bits used in</span>
+<span class="sd">            the quantization</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The following:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe.Qwen2MoeConfig.get_partition_rules" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partition_rules</span><span class="p">(</span><span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partition_rules function is used to define the partitioning scheme for a model.
+It returns a list of tuples, where each tuple contains two elements:
+    1) A regex string that matches the name of one or more parameters in the model.
+    2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to
+partition the model fully or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A list of tuples</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/configuration_qwen2_moe.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partition_rules function is used to define the partitioning scheme for a model.</span>
+<span class="sd">    It returns a list of tuples, where each tuple contains two elements:</span>
+<span class="sd">        1) A regex string that matches the name of one or more parameters in the model.</span>
+<span class="sd">        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine whether to</span>
+<span class="sd">            partition the model fully or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A list of tuples</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;shared_expert_gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;shared_expert_gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">(</span><span class="s2">&quot;gate/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+        <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+        <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+        <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-qwen2_moe-modeling_qwen2_moe_flax/index.html b/generated-modules-qwen2_moe-modeling_qwen2_moe_flax/index.html
new file mode 100644
index 000000000..2e64a0aa4
--- /dev/null
+++ b/generated-modules-qwen2_moe-modeling_qwen2_moe_flax/index.html
@@ -0,0 +1,12998 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-qwen2_moe-configuration_qwen2_moe/">
+      
+      
+        <link rel="next" href="../generated-modules-roberta-modelling_roberta_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modeling Qwen2 Moe Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesqwen2_moemodeling_qwen2_moe_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modeling Qwen2 Moe Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modeling_qwen2_moe_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoeAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlock" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeBlock
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoeBlock">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlock.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlockCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeBlockCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoeBlockCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlockCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoeForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoeForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForSequenceClassificationModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeForSequenceClassificationModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoeForSequenceClassificationModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForSequenceClassificationModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForSequenceClassificationModule.setup" class="md-nav__link">
+    <span class="md-ellipsis">
+      setup
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeMLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeMLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoeMLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeMLP.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoePreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoePreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.init_cache" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_cache
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeSparseMoeBlock" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeSparseMoeBlock
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modeling_qwen2_moe_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoeAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlock" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeBlock
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoeBlock">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlock.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlockCollection" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeBlockCollection
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoeBlockCollection">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlockCollection.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeForCausalLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoeForCausalLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLM.prepare_inputs_for_generation" class="md-nav__link">
+    <span class="md-ellipsis">
+      prepare_inputs_for_generation
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLMModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeForCausalLMModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoeForCausalLMModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLMModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForSequenceClassificationModule" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeForSequenceClassificationModule
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoeForSequenceClassificationModule">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForSequenceClassificationModule.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForSequenceClassificationModule.setup" class="md-nav__link">
+    <span class="md-ellipsis">
+      setup
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeMLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeMLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoeMLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeMLP.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoePreTrainedModel
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxQwen2MoePreTrainedModel">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.init_cache" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_cache
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.init_weights" class="md-nav__link">
+    <span class="md-ellipsis">
+      init_weights
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeSparseMoeBlock" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxQwen2MoeSparseMoeBlock
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesqwen2_moemodeling_qwen2_moe_flax">modules.qwen2_moe.modeling_qwen2_moe_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeAttention" class="doc doc-heading">
+            <code>FlaxQwen2MoeAttention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2MoeAttention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2MoeConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span> <span class="o">=</span> <span class="n">FlaxQwen2MoeEmbedding</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">use_sharding_constraint</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span><span class="p">,</span>
+            <span class="n">backward_pass_impl</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">flash_attention_backward_pass_impl</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">rate</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _transpose_sequence_head function transposes the query, key and value matrices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            query: Get the attention weights for each of the heads</span>
+<span class="sd">            key: Determine the number of heads</span>
+<span class="sd">            value: Store the values of the input</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The transpose of the query, key and value matrices</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">            sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">            query: Calculate the attention weights</span>
+<span class="sd">            key: Calculate the attention</span>
+<span class="sd">            value: Compute the attention weights</span>
+<span class="sd">            freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">                vocabulary</span>
+<span class="sd">            position_ids: Identify the position of each token in the</span>
+<span class="sd">                sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 tensors: query, key and value</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">        and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency coefficients for each position</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+<span class="sd">            fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">                and output tokens</span>
+<span class="sd">        :param : Determine if the attention is causal or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two arrays</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+        <span class="p">)</span>
+
+        <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                     <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">:</span>
+            <span class="n">query_states</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">jax</span><span class="o">.</span><span class="n">sharding</span><span class="o">.</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">key_states</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">key_states</span><span class="p">,</span>
+                                                  <span class="n">jax</span><span class="o">.</span><span class="n">sharding</span><span class="o">.</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">))</span>
+            <span class="n">value_states</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">value_states</span><span class="p">,</span>
+                                                    <span class="n">jax</span><span class="o">.</span><span class="n">sharding</span><span class="o">.</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">))</span>
+        <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span><span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeAttention.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module. It defines how the module behaves when called
+with inputs. The <strong>call</strong> function can be thought of as a &quot;forward pass&quot; through the model,
+and it should return all outputs that are needed for training or inference.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the hidden states of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency coefficients for each position</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the future tokens in the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the attention weights between the input
+and output tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine if the attention is causal or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two arrays</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">    and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency coefficients for each position</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+<span class="sd">        fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">            and output tokens</span>
+<span class="sd">    :param : Determine if the attention is causal or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two arrays</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+        <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+    <span class="p">)</span>
+
+    <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">)</span>
+
+    <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+        <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+        <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span>
+                                                 <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+        <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+    <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+        <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+        <span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">:</span>
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">sharding</span><span class="o">.</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">key_states</span><span class="p">,</span>
+                                              <span class="n">jax</span><span class="o">.</span><span class="n">sharding</span><span class="o">.</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">))</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">value_states</span><span class="p">,</span>
+                                                <span class="n">jax</span><span class="o">.</span><span class="n">sharding</span><span class="o">.</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">))</span>
+    <span class="n">attention_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+        <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+    <span class="p">)</span>
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+        <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">bias</span><span class="o">=</span><span class="n">attention_bias</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+        <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+    <span class="p">)</span>
+
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                <span class="s2">&quot;tp&quot;</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">resid_dropout</span><span class="p">(</span>
+        <span class="n">attn_output</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span>
+        <span class="n">attn_output</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeAttention.apply_rotary" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rotary</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class.
+The main difference is that it takes in an additional argument, freq_cis, which are used to calculate
+the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sequence_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Compute the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the frequency of each word in the
+vocabulary</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Identify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 tensors: query, key and value</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        batch_size: Reshape the query, key and value tensors</span>
+<span class="sd">        sequence_length: Reshape the query, key and value tensors</span>
+<span class="sd">        query: Calculate the attention weights</span>
+<span class="sd">        key: Calculate the attention</span>
+<span class="sd">        value: Compute the attention weights</span>
+<span class="sd">        freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">            vocabulary</span>
+<span class="sd">        position_ids: Identify the position of each token in the</span>
+<span class="sd">            sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 tensors: query, key and value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary</span><span class="p">(</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">query</span><span class="o">=</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">key</span><span class="p">,</span> <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlock" class="doc doc-heading">
+            <code>FlaxQwen2MoeBlock</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2MoeBlock</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2MoeConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attn_block</span> <span class="o">=</span> <span class="n">FlaxQwen2MoeAttention</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">attn_block</span> <span class="o">=</span> <span class="n">nn_partitioning</span><span class="o">.</span><span class="n">remat</span><span class="p">(</span>
+                <span class="n">FlaxQwen2MoeAttention</span><span class="p">,</span> <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">6</span><span class="p">,</span> <span class="mi">7</span><span class="p">,</span> <span class="mi">8</span><span class="p">,</span> <span class="mi">9</span><span class="p">),</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="p">)</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span> <span class="o">=</span> <span class="n">attn_block</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">FlaxQwen2MoeSparseMoeBlock</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_experts</span> <span class="o">&gt;</span> <span class="mi">0</span> <span class="k">else</span> <span class="n">FlaxQwen2MoeMLP</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">mlp_block</span> <span class="o">=</span> <span class="n">nn_partitioning</span><span class="o">.</span><span class="n">remat</span><span class="p">(</span>
+                <span class="n">mlp_block</span><span class="p">,</span> <span class="n">static_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,),</span>
+                <span class="n">policy</span><span class="o">=</span><span class="n">get_gradient_checkpoint_policy</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">gradient_checkpointing</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span> <span class="o">=</span> <span class="n">mlp_block</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span> <span class="o">=</span> <span class="n">Qwen2MoeRMSNorm</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span> <span class="o">=</span> <span class="n">Qwen2MoeRMSNorm</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">eps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">rms_norm_eps</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">        It takes in hidden states, frequency-domain inputs, and masks as input. It then</span>
+<span class="sd">        applies self-attention to the hidden states using those inputs and returns an</span>
+<span class="sd">        output tensor with shape (batch_size, sequence_length, model_dim).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the class instance itself</span>
+<span class="sd">            hidden_states: chex.Array: Pass in the hidden state of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency information</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">                for padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in the sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">            deterministic: bool: Control whether the dropout is applied</span>
+<span class="sd">                or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache in the attention</span>
+<span class="sd">                layer</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            fcm_mask: Optional[jnp.ndarray]: Mask the self-attention</span>
+<span class="sd">        :param : Control the dropout in the self attention layer</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two items</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">attn_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span>
+            <span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">attn_output</span>
+
+        <span class="n">feed_forward_input</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">mlp_out</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">(</span>
+            <span class="n">feed_forward_input</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_experts</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">feed_forward_hidden_states</span><span class="p">,</span> <span class="n">router_logits</span> <span class="o">=</span> <span class="n">mlp_out</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="n">mlp_out</span>
+            <span class="n">router_logits</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">feed_forward_hidden_states</span>
+
+        <span class="k">return</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span> <span class="o">+</span> <span class="p">(</span><span class="n">router_logits</span><span class="p">,)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlock.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a TransformerEncoderLayer.
+It takes in hidden states, frequency-domain inputs, and masks as input. It then
+applies self-attention to the hidden states using those inputs and returns an
+output tensor with shape (batch_size, sequence_length, model_dim).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the class instance itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the hidden state of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency information</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the attention weights
+for padding tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in the sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the dropout is applied
+or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache in the attention
+layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="jax.numpy.ndarray">ndarray</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[jnp.ndarray]: Mask the self-attention</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Control the dropout in the self attention layer</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two items</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a TransformerEncoderLayer.</span>
+<span class="sd">    It takes in hidden states, frequency-domain inputs, and masks as input. It then</span>
+<span class="sd">    applies self-attention to the hidden states using those inputs and returns an</span>
+<span class="sd">    output tensor with shape (batch_size, sequence_length, model_dim).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the class instance itself</span>
+<span class="sd">        hidden_states: chex.Array: Pass in the hidden state of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency information</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the attention weights</span>
+<span class="sd">            for padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in the sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">        deterministic: bool: Control whether the dropout is applied</span>
+<span class="sd">            or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache in the attention</span>
+<span class="sd">            layer</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        fcm_mask: Optional[jnp.ndarray]: Mask the self-attention</span>
+<span class="sd">    :param : Control the dropout in the self attention layer</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two items</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">attn_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">input_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span>
+        <span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">attn_output</span>
+
+    <span class="n">feed_forward_input</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">post_attention_layernorm</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">mlp_out</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">mlp</span><span class="p">(</span>
+        <span class="n">feed_forward_input</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_experts</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="n">feed_forward_hidden_states</span><span class="p">,</span> <span class="n">router_logits</span> <span class="o">=</span> <span class="n">mlp_out</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">feed_forward_hidden_states</span> <span class="o">=</span> <span class="n">mlp_out</span>
+        <span class="n">router_logits</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">hidden_states</span> <span class="o">+</span> <span class="n">feed_forward_hidden_states</span>
+
+    <span class="k">return</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span> <span class="o">+</span> <span class="n">attn_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span> <span class="o">+</span> <span class="p">(</span><span class="n">router_logits</span><span class="p">,)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlockCollection" class="doc doc-heading">
+            <code>FlaxQwen2MoeBlockCollection</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span>
+<span class="normal">1054</span>
+<span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span>
+<span class="normal">1065</span>
+<span class="normal">1066</span>
+<span class="normal">1067</span>
+<span class="normal">1068</span>
+<span class="normal">1069</span>
+<span class="normal">1070</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2MoeBlockCollection</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2MoeConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">FlaxQwen2MoeBlock</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">name</span><span class="o">=</span><span class="nb">str</span><span class="p">(</span><span class="n">i</span><span class="p">),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+            <span class="p">)</span>
+            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_hidden_layers</span>
+            <span class="p">)</span>
+        <span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX nn.Module.</span>
+<span class="sd">        It defines how the module behaves when called as a function, and it&#39;s what you&#39;ll use to call your model</span>
+<span class="sd">         in training loops or inference scripts.</span>
+<span class="sd">        The __call__ method should take all inputs that are necessary for computing outputs from the module,</span>
+<span class="sd">        and return all outputs that are computed by this module.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the input tensor to the</span>
+<span class="sd">                encoder</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency of each token</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">            deterministic: bool: Determine whether the model is in</span>
+<span class="sd">                training or evaluation mode</span>
+<span class="sd">            init_cache: bool: Initialize the cache for each layer</span>
+<span class="sd">            output_attentions: bool: Determine whether to output the</span>
+<span class="sd">                attention weights</span>
+<span class="sd">            output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">                hidden states of each layer</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs</span>
+<span class="sd">        :param : Determine whether to use the forgetful causal mask</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 values</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">all_attentions</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="n">all_router_logits</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_router_logits</span> <span class="k">else</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="c1"># Apply forgetful causal mask</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">fcm_ratio</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span> <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+                <span class="n">minval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_min_ratio</span><span class="p">,</span>
+                <span class="n">maxval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span>
+            <span class="p">)</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span>
+                <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span> <span class="o">&gt;</span> <span class="n">fcm_ratio</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:,</span> <span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s1">&#39;bool&#39;</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">fcm_mask</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+                <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+
+            <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+                <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+                <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+                <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+                <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+                <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+                <span class="n">fcm_mask</span><span class="o">=</span><span class="n">fcm_mask</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+            <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+                <span class="n">all_attentions</span> <span class="o">+=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+            <span class="k">if</span> <span class="n">output_router_logits</span><span class="p">:</span>
+                <span class="n">all_router_logits</span> <span class="o">+=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">,</span> <span class="n">all_attentions</span><span class="p">,</span> <span class="n">all_router_logits</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlockCollection.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX nn.Module.
+It defines how the module behaves when called as a function, and it's what you'll use to call your model
+ in training loops or inference scripts.
+The <strong>call</strong> method should take all inputs that are necessary for computing outputs from the module,
+and return all outputs that are computed by this module.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input tensor to the
+encoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency of each token</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether the model is in
+training or evaluation mode</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for each layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to output the
+attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+hidden states of each layer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine whether to use the forgetful causal mask</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 values</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span>
+<span class="normal">1054</span>
+<span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span>
+<span class="normal">1065</span>
+<span class="normal">1066</span>
+<span class="normal">1067</span>
+<span class="normal">1068</span>
+<span class="normal">1069</span>
+<span class="normal">1070</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX nn.Module.</span>
+<span class="sd">    It defines how the module behaves when called as a function, and it&#39;s what you&#39;ll use to call your model</span>
+<span class="sd">     in training loops or inference scripts.</span>
+<span class="sd">    The __call__ method should take all inputs that are necessary for computing outputs from the module,</span>
+<span class="sd">    and return all outputs that are computed by this module.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the input tensor to the</span>
+<span class="sd">            encoder</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency of each token</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask the attention weights</span>
+<span class="sd">        deterministic: bool: Determine whether the model is in</span>
+<span class="sd">            training or evaluation mode</span>
+<span class="sd">        init_cache: bool: Initialize the cache for each layer</span>
+<span class="sd">        output_attentions: bool: Determine whether to output the</span>
+<span class="sd">            attention weights</span>
+<span class="sd">        output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">            hidden states of each layer</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs</span>
+<span class="sd">    :param : Determine whether to use the forgetful causal mask</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 values</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">all_attentions</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="n">all_hidden_states</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="n">all_router_logits</span> <span class="o">=</span> <span class="p">()</span> <span class="k">if</span> <span class="n">output_router_logits</span> <span class="k">else</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="c1"># Apply forgetful causal mask</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">fcm_ratio</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span> <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">minval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_min_ratio</span><span class="p">,</span>
+            <span class="n">maxval</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">fcm_max_ratio</span>
+        <span class="p">)</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">uniform</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s1">&#39;fcm&#39;</span><span class="p">),</span>
+            <span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span> <span class="o">&gt;</span> <span class="n">fcm_ratio</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:,</span> <span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="kc">True</span><span class="p">)</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="n">fcm_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s1">&#39;bool&#39;</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">fcm_mask</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">blocks</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">output_hidden_states</span><span class="p">:</span>
+            <span class="n">all_hidden_states</span> <span class="o">+=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,)</span>
+
+        <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">block</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="n">fcm_mask</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">all_attentions</span> <span class="o">+=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span>
+        <span class="k">if</span> <span class="n">output_router_logits</span><span class="p">:</span>
+            <span class="n">all_router_logits</span> <span class="o">+=</span> <span class="n">layer_outputs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">all_hidden_states</span><span class="p">,</span> <span class="n">all_attentions</span><span class="p">,</span> <span class="n">all_router_logits</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLM" class="doc doc-heading">
+            <code>FlaxQwen2MoeForCausalLM</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel" href="#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel">FlaxQwen2MoePreTrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1331</span>
+<span class="normal">1332</span>
+<span class="normal">1333</span>
+<span class="normal">1334</span>
+<span class="normal">1335</span>
+<span class="normal">1336</span>
+<span class="normal">1337</span>
+<span class="normal">1338</span>
+<span class="normal">1339</span>
+<span class="normal">1340</span>
+<span class="normal">1341</span>
+<span class="normal">1342</span>
+<span class="normal">1343</span>
+<span class="normal">1344</span>
+<span class="normal">1345</span>
+<span class="normal">1346</span>
+<span class="normal">1347</span>
+<span class="normal">1348</span>
+<span class="normal">1349</span>
+<span class="normal">1350</span>
+<span class="normal">1351</span>
+<span class="normal">1352</span>
+<span class="normal">1353</span>
+<span class="normal">1354</span>
+<span class="normal">1355</span>
+<span class="normal">1356</span>
+<span class="normal">1357</span>
+<span class="normal">1358</span>
+<span class="normal">1359</span>
+<span class="normal">1360</span>
+<span class="normal">1361</span>
+<span class="normal">1362</span>
+<span class="normal">1363</span>
+<span class="normal">1364</span>
+<span class="normal">1365</span>
+<span class="normal">1366</span>
+<span class="normal">1367</span>
+<span class="normal">1368</span>
+<span class="normal">1369</span>
+<span class="normal">1370</span>
+<span class="normal">1371</span>
+<span class="normal">1372</span>
+<span class="normal">1373</span>
+<span class="normal">1374</span>
+<span class="normal">1375</span>
+<span class="normal">1376</span>
+<span class="normal">1377</span>
+<span class="normal">1378</span>
+<span class="normal">1379</span>
+<span class="normal">1380</span>
+<span class="normal">1381</span>
+<span class="normal">1382</span>
+<span class="normal">1383</span>
+<span class="normal">1384</span>
+<span class="normal">1385</span>
+<span class="normal">1386</span>
+<span class="normal">1387</span>
+<span class="normal">1388</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2MoeForCausalLM</span><span class="p">(</span><span class="n">FlaxQwen2MoePreTrainedModel</span><span class="p">):</span>
+    <span class="n">module_class</span> <span class="o">=</span> <span class="n">FlaxQwen2MoeForCausalLMModule</span>
+
+    <span class="k">def</span> <span class="nf">set_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">embed_tokens</span> <span class="o">=</span> <span class="n">value</span>
+
+    <span class="k">def</span> <span class="nf">get_input_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">embed_tokens</span>
+
+    <span class="k">def</span> <span class="nf">set_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">decoder</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">decoder</span>
+
+    <span class="k">def</span> <span class="nf">get_decoder</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">model</span>
+
+    <span class="k">def</span> <span class="nf">get_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">lm_head</span>
+
+    <span class="k">def</span> <span class="nf">set_output_embeddings</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">new_embeddings</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">lm_head</span> <span class="o">=</span> <span class="n">new_embeddings</span>
+
+    <span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            input_ids: Pass in the input tokens</span>
+<span class="sd">            max_length: Set the length of the sequence to be generated</span>
+<span class="sd">            attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">                weights</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">            position ids</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+            <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+                <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+            <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+            <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">update_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_outputs</span><span class="p">,</span> <span class="n">model_kwargs</span><span class="p">):</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">past_key_values</span>
+        <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_kwargs</span><span class="p">[</span><span class="s2">&quot;position_ids&quot;</span><span class="p">][:,</span> <span class="o">-</span><span class="mi">1</span><span class="p">:]</span> <span class="o">+</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="n">model_kwargs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLM.prepare_inputs_for_generation" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">prepare_inputs_for_generation</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the length of the sequence to be generated</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[chex.Array]: Mask the attention
+weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of the past_key_values, attention_mask and</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>position ids</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1352</span>
+<span class="normal">1353</span>
+<span class="normal">1354</span>
+<span class="normal">1355</span>
+<span class="normal">1356</span>
+<span class="normal">1357</span>
+<span class="normal">1358</span>
+<span class="normal">1359</span>
+<span class="normal">1360</span>
+<span class="normal">1361</span>
+<span class="normal">1362</span>
+<span class="normal">1363</span>
+<span class="normal">1364</span>
+<span class="normal">1365</span>
+<span class="normal">1366</span>
+<span class="normal">1367</span>
+<span class="normal">1368</span>
+<span class="normal">1369</span>
+<span class="normal">1370</span>
+<span class="normal">1371</span>
+<span class="normal">1372</span>
+<span class="normal">1373</span>
+<span class="normal">1374</span>
+<span class="normal">1375</span>
+<span class="normal">1376</span>
+<span class="normal">1377</span>
+<span class="normal">1378</span>
+<span class="normal">1379</span>
+<span class="normal">1380</span>
+<span class="normal">1381</span>
+<span class="normal">1382</span>
+<span class="normal">1383</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">prepare_inputs_for_generation</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        input_ids: Pass in the input tokens</span>
+<span class="sd">        max_length: Set the length of the sequence to be generated</span>
+<span class="sd">        attention_mask: Optional[chex.Array]: Mask the attention</span>
+<span class="sd">            weights</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of the past_key_values, attention_mask and</span>
+<span class="sd">        position ids</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="n">past_key_values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span>
+    <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+        <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
+        <span class="n">extended_attention_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_update_slice</span><span class="p">(</span>
+            <span class="n">extended_attention_mask</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">seq_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">))</span>
+
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;past_key_values&quot;</span><span class="p">:</span> <span class="n">past_key_values</span><span class="p">,</span>
+        <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">extended_attention_mask</span><span class="p">,</span>
+        <span class="s2">&quot;position_ids&quot;</span><span class="p">:</span> <span class="n">position_ids</span><span class="p">,</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLMModule" class="doc doc-heading">
+            <code>FlaxQwen2MoeForCausalLMModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1213</span>
+<span class="normal">1214</span>
+<span class="normal">1215</span>
+<span class="normal">1216</span>
+<span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span>
+<span class="normal">1220</span>
+<span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span>
+<span class="normal">1230</span>
+<span class="normal">1231</span>
+<span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span>
+<span class="normal">1241</span>
+<span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span>
+<span class="normal">1281</span>
+<span class="normal">1282</span>
+<span class="normal">1283</span>
+<span class="normal">1284</span>
+<span class="normal">1285</span>
+<span class="normal">1286</span>
+<span class="normal">1287</span>
+<span class="normal">1288</span>
+<span class="normal">1289</span>
+<span class="normal">1290</span>
+<span class="normal">1291</span>
+<span class="normal">1292</span>
+<span class="normal">1293</span>
+<span class="normal">1294</span>
+<span class="normal">1295</span>
+<span class="normal">1296</span>
+<span class="normal">1297</span>
+<span class="normal">1298</span>
+<span class="normal">1299</span>
+<span class="normal">1300</span>
+<span class="normal">1301</span>
+<span class="normal">1302</span>
+<span class="normal">1303</span>
+<span class="normal">1304</span>
+<span class="normal">1305</span>
+<span class="normal">1306</span>
+<span class="normal">1307</span>
+<span class="normal">1308</span>
+<span class="normal">1309</span>
+<span class="normal">1310</span>
+<span class="normal">1311</span>
+<span class="normal">1312</span>
+<span class="normal">1313</span>
+<span class="normal">1314</span>
+<span class="normal">1315</span>
+<span class="normal">1316</span>
+<span class="normal">1317</span>
+<span class="normal">1318</span>
+<span class="normal">1319</span>
+<span class="normal">1320</span>
+<span class="normal">1321</span>
+<span class="normal">1322</span>
+<span class="normal">1323</span>
+<span class="normal">1324</span>
+<span class="normal">1325</span>
+<span class="normal">1326</span>
+<span class="normal">1327</span>
+<span class="normal">1328</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2MoeForCausalLMModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2MoeConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">FlaxQwen2MoeModule</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">vocab_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            input_ids: chex.Array: Pass the input token ids to the model</span>
+<span class="sd">            attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in the input sequence</span>
+<span class="sd">            deterministic: bool: Control whether the model is trained or</span>
+<span class="sd">                not</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">                hidden states</span>
+<span class="sd">            return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">                embedding of the word that we want to predict</span>
+<span class="sd">            None]]: Pass in the extra embedding</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The logits and the hidden states</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">output_router_logits</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">output_router_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_router_logits</span>
+        <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">output_attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="o">=</span><span class="n">output_router_logits</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">last_hidden_state</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">tie_word_embeddings</span><span class="p">:</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+            <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+            <span class="n">logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+                <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">logits</span> <span class="o">=</span> <span class="n">logits</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">hd</span> <span class="o">=</span> <span class="n">logits</span><span class="o">.</span><span class="n">shape</span>
+        <span class="n">aux_loss</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">if</span> <span class="n">output_router_logits</span> <span class="ow">and</span> <span class="n">outputs</span><span class="o">.</span><span class="n">router_logits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">aux_loss</span> <span class="o">=</span> <span class="n">auxiliary_load_balancing_loss_func</span><span class="p">(</span>
+                <span class="n">gate_logits</span><span class="o">=</span><span class="nb">tuple</span><span class="p">([</span><span class="n">logit</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span> <span class="o">*</span> <span class="n">seq_length</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span> <span class="k">for</span> <span class="n">logit</span> <span class="ow">in</span> <span class="n">outputs</span><span class="o">.</span><span class="n">router_logits</span><span class="p">]),</span>
+                <span class="n">num_experts</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_experts</span><span class="p">,</span>
+                <span class="n">top_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_experts_per_tok</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span>
+            <span class="p">)</span>
+            <span class="n">aux_loss</span> <span class="o">=</span> <span class="n">aux_loss</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">router_aux_loss_coef</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">logits</span><span class="p">,)</span> <span class="o">+</span> <span class="nb">tuple</span><span class="p">(</span>
+                <span class="n">v</span>
+                <span class="k">for</span> <span class="n">v</span> <span class="ow">in</span> <span class="p">[</span>
+                    <span class="n">aux_loss</span><span class="p">,</span>
+                    <span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span>
+                    <span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">,</span>
+                    <span class="n">outputs</span><span class="o">.</span><span class="n">router_logits</span>
+                <span class="p">]</span>
+                <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+            <span class="p">)</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+
+        <span class="k">return</span> <span class="n">MoeCausalLMOutput</span><span class="p">(</span>
+            <span class="n">aux_loss</span><span class="o">=</span><span class="n">aux_loss</span><span class="p">,</span>
+            <span class="n">logits</span><span class="o">=</span><span class="n">logits</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">,</span>
+            <span class="n">router_logits</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">router_logits</span><span class="p">,</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLMModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax module. It takes in inputs and returns outputs.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input token ids to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in the input sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the model is trained or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the decoder</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+hidden states</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of the outputs or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray: Pass in the
+embedding of the word that we want to predict</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>None]]</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the extra embedding</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The logits and the hidden states</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span>
+<span class="normal">1241</span>
+<span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span>
+<span class="normal">1275</span>
+<span class="normal">1276</span>
+<span class="normal">1277</span>
+<span class="normal">1278</span>
+<span class="normal">1279</span>
+<span class="normal">1280</span>
+<span class="normal">1281</span>
+<span class="normal">1282</span>
+<span class="normal">1283</span>
+<span class="normal">1284</span>
+<span class="normal">1285</span>
+<span class="normal">1286</span>
+<span class="normal">1287</span>
+<span class="normal">1288</span>
+<span class="normal">1289</span>
+<span class="normal">1290</span>
+<span class="normal">1291</span>
+<span class="normal">1292</span>
+<span class="normal">1293</span>
+<span class="normal">1294</span>
+<span class="normal">1295</span>
+<span class="normal">1296</span>
+<span class="normal">1297</span>
+<span class="normal">1298</span>
+<span class="normal">1299</span>
+<span class="normal">1300</span>
+<span class="normal">1301</span>
+<span class="normal">1302</span>
+<span class="normal">1303</span>
+<span class="normal">1304</span>
+<span class="normal">1305</span>
+<span class="normal">1306</span>
+<span class="normal">1307</span>
+<span class="normal">1308</span>
+<span class="normal">1309</span>
+<span class="normal">1310</span>
+<span class="normal">1311</span>
+<span class="normal">1312</span>
+<span class="normal">1313</span>
+<span class="normal">1314</span>
+<span class="normal">1315</span>
+<span class="normal">1316</span>
+<span class="normal">1317</span>
+<span class="normal">1318</span>
+<span class="normal">1319</span>
+<span class="normal">1320</span>
+<span class="normal">1321</span>
+<span class="normal">1322</span>
+<span class="normal">1323</span>
+<span class="normal">1324</span>
+<span class="normal">1325</span>
+<span class="normal">1326</span>
+<span class="normal">1327</span>
+<span class="normal">1328</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        input_ids: chex.Array: Pass the input token ids to the model</span>
+<span class="sd">        attention_mask: chex.Array: Mask out the padding tokens</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in the input sequence</span>
+<span class="sd">        deterministic: bool: Control whether the model is trained or</span>
+<span class="sd">            not</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the decoder</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        output_hidden_states: bool: Determine whether to return the</span>
+<span class="sd">            hidden states</span>
+<span class="sd">        return_dict: bool: Return a dictionary of the outputs or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">            embedding of the word that we want to predict</span>
+<span class="sd">        None]]: Pass in the extra embedding</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The logits and the hidden states</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">output_router_logits</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">output_router_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_router_logits</span>
+    <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+    <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+        <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="o">=</span><span class="n">output_router_logits</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">last_hidden_state</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">tie_word_embeddings</span><span class="p">:</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">][</span><span class="s2">&quot;embed_tokens&quot;</span><span class="p">][</span><span class="s2">&quot;embedding&quot;</span><span class="p">]</span>
+        <span class="n">shared_kernel</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">control_quantization</span><span class="p">(</span><span class="n">shared_kernel</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">)</span><span class="o">.</span><span class="n">T</span>
+        <span class="n">logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="p">{</span><span class="s2">&quot;kernel&quot;</span><span class="p">:</span> <span class="n">shared_kernel</span><span class="p">}},</span> <span class="n">hidden_states</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lm_head</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">logits</span> <span class="o">=</span> <span class="n">logits</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">hd</span> <span class="o">=</span> <span class="n">logits</span><span class="o">.</span><span class="n">shape</span>
+    <span class="n">aux_loss</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="k">if</span> <span class="n">output_router_logits</span> <span class="ow">and</span> <span class="n">outputs</span><span class="o">.</span><span class="n">router_logits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">aux_loss</span> <span class="o">=</span> <span class="n">auxiliary_load_balancing_loss_func</span><span class="p">(</span>
+            <span class="n">gate_logits</span><span class="o">=</span><span class="nb">tuple</span><span class="p">([</span><span class="n">logit</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch_size</span> <span class="o">*</span> <span class="n">seq_length</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span> <span class="k">for</span> <span class="n">logit</span> <span class="ow">in</span> <span class="n">outputs</span><span class="o">.</span><span class="n">router_logits</span><span class="p">]),</span>
+            <span class="n">num_experts</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_experts</span><span class="p">,</span>
+            <span class="n">top_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_experts_per_tok</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span>
+        <span class="p">)</span>
+        <span class="n">aux_loss</span> <span class="o">=</span> <span class="n">aux_loss</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">router_aux_loss_coef</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">logits</span><span class="p">,)</span> <span class="o">+</span> <span class="nb">tuple</span><span class="p">(</span>
+            <span class="n">v</span>
+            <span class="k">for</span> <span class="n">v</span> <span class="ow">in</span> <span class="p">[</span>
+                <span class="n">aux_loss</span><span class="p">,</span>
+                <span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span>
+                <span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">,</span>
+                <span class="n">outputs</span><span class="o">.</span><span class="n">router_logits</span>
+            <span class="p">]</span>
+            <span class="k">if</span> <span class="n">v</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+
+    <span class="k">return</span> <span class="n">MoeCausalLMOutput</span><span class="p">(</span>
+        <span class="n">aux_loss</span><span class="o">=</span><span class="n">aux_loss</span><span class="p">,</span>
+        <span class="n">logits</span><span class="o">=</span><span class="n">logits</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">hidden_states</span><span class="p">,</span>
+        <span class="n">attentions</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">attentions</span><span class="p">,</span>
+        <span class="n">router_logits</span><span class="o">=</span><span class="n">outputs</span><span class="o">.</span><span class="n">router_logits</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForSequenceClassificationModule" class="doc doc-heading">
+            <code>FlaxQwen2MoeForSequenceClassificationModule</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1391</span>
+<span class="normal">1392</span>
+<span class="normal">1393</span>
+<span class="normal">1394</span>
+<span class="normal">1395</span>
+<span class="normal">1396</span>
+<span class="normal">1397</span>
+<span class="normal">1398</span>
+<span class="normal">1399</span>
+<span class="normal">1400</span>
+<span class="normal">1401</span>
+<span class="normal">1402</span>
+<span class="normal">1403</span>
+<span class="normal">1404</span>
+<span class="normal">1405</span>
+<span class="normal">1406</span>
+<span class="normal">1407</span>
+<span class="normal">1408</span>
+<span class="normal">1409</span>
+<span class="normal">1410</span>
+<span class="normal">1411</span>
+<span class="normal">1412</span>
+<span class="normal">1413</span>
+<span class="normal">1414</span>
+<span class="normal">1415</span>
+<span class="normal">1416</span>
+<span class="normal">1417</span>
+<span class="normal">1418</span>
+<span class="normal">1419</span>
+<span class="normal">1420</span>
+<span class="normal">1421</span>
+<span class="normal">1422</span>
+<span class="normal">1423</span>
+<span class="normal">1424</span>
+<span class="normal">1425</span>
+<span class="normal">1426</span>
+<span class="normal">1427</span>
+<span class="normal">1428</span>
+<span class="normal">1429</span>
+<span class="normal">1430</span>
+<span class="normal">1431</span>
+<span class="normal">1432</span>
+<span class="normal">1433</span>
+<span class="normal">1434</span>
+<span class="normal">1435</span>
+<span class="normal">1436</span>
+<span class="normal">1437</span>
+<span class="normal">1438</span>
+<span class="normal">1439</span>
+<span class="normal">1440</span>
+<span class="normal">1441</span>
+<span class="normal">1442</span>
+<span class="normal">1443</span>
+<span class="normal">1444</span>
+<span class="normal">1445</span>
+<span class="normal">1446</span>
+<span class="normal">1447</span>
+<span class="normal">1448</span>
+<span class="normal">1449</span>
+<span class="normal">1450</span>
+<span class="normal">1451</span>
+<span class="normal">1452</span>
+<span class="normal">1453</span>
+<span class="normal">1454</span>
+<span class="normal">1455</span>
+<span class="normal">1456</span>
+<span class="normal">1457</span>
+<span class="normal">1458</span>
+<span class="normal">1459</span>
+<span class="normal">1460</span>
+<span class="normal">1461</span>
+<span class="normal">1462</span>
+<span class="normal">1463</span>
+<span class="normal">1464</span>
+<span class="normal">1465</span>
+<span class="normal">1466</span>
+<span class="normal">1467</span>
+<span class="normal">1468</span>
+<span class="normal">1469</span>
+<span class="normal">1470</span>
+<span class="normal">1471</span>
+<span class="normal">1472</span>
+<span class="normal">1473</span>
+<span class="normal">1474</span>
+<span class="normal">1475</span>
+<span class="normal">1476</span>
+<span class="normal">1477</span>
+<span class="normal">1478</span>
+<span class="normal">1479</span>
+<span class="normal">1480</span>
+<span class="normal">1481</span>
+<span class="normal">1482</span>
+<span class="normal">1483</span>
+<span class="normal">1484</span>
+<span class="normal">1485</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2MoeForSequenceClassificationModule</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">num_classes</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2MoeConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The setup function is called once at the beginning of training.</span>
+<span class="sd">        It initializes the model and optimizer, and sets up any other state that needs to be initialized.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the model and the classifier</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">FlaxQwen2MoeModule</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">num_classes</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module.</span>
+<span class="sd">        It takes in all the inputs to the model and returns all outputs from it.</span>
+<span class="sd">        The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:</span>
+<span class="sd">            &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class</span>
+<span class="sd">            &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the class instance</span>
+<span class="sd">            input_ids: chex.Array: Pass the input to the model</span>
+<span class="sd">            attention_mask: chex.Array: Specify which tokens are masked</span>
+<span class="sd">            position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">                in the sequence</span>
+<span class="sd">            deterministic: bool: Control whether the model is run in</span>
+<span class="sd">                deterministic or stochastic mode</span>
+<span class="sd">            init_cache: bool: Initialize the cache for the transformer</span>
+<span class="sd">            output_attentions: bool: Return the attention weights</span>
+<span class="sd">            output_hidden_states: bool: Return the hidden states of all</span>
+<span class="sd">                layers</span>
+<span class="sd">            return_dict: bool: Return a dictionary of outputs</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">                embedding of a new word</span>
+<span class="sd">            None]]: Pass the extra embedding to the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of logits and hidden_states</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+        <span class="p">)</span>
+
+        <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">prediction</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">FlaxSequenceClassifierOutput</span><span class="p">(</span>
+                <span class="n">logits</span><span class="o">=</span><span class="n">prediction</span><span class="p">,</span>
+                <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">prediction</span><span class="p">,</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForSequenceClassificationModule.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a Flax module.
+It takes in all the inputs to the model and returns all outputs from it.
+The <strong>call</strong> function can be called directly on an instance of a class, or by using parentheses after an instance:
+    &gt;&gt;&gt; my_model = MyModel()  # instantiate your model class
+    &gt;&gt;&gt; output = my_model(input)  # call your model with input data as arguments to <strong>call</strong></p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the class instance</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify which tokens are masked</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Specify the position of each token
+in the sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the model is run in
+deterministic or stochastic mode</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache for the transformer</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return the hidden states of all
+layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Return a dictionary of outputs</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray: Pass in the
+embedding of a new word</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>None]]</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the extra embedding to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of logits and hidden_states</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1419</span>
+<span class="normal">1420</span>
+<span class="normal">1421</span>
+<span class="normal">1422</span>
+<span class="normal">1423</span>
+<span class="normal">1424</span>
+<span class="normal">1425</span>
+<span class="normal">1426</span>
+<span class="normal">1427</span>
+<span class="normal">1428</span>
+<span class="normal">1429</span>
+<span class="normal">1430</span>
+<span class="normal">1431</span>
+<span class="normal">1432</span>
+<span class="normal">1433</span>
+<span class="normal">1434</span>
+<span class="normal">1435</span>
+<span class="normal">1436</span>
+<span class="normal">1437</span>
+<span class="normal">1438</span>
+<span class="normal">1439</span>
+<span class="normal">1440</span>
+<span class="normal">1441</span>
+<span class="normal">1442</span>
+<span class="normal">1443</span>
+<span class="normal">1444</span>
+<span class="normal">1445</span>
+<span class="normal">1446</span>
+<span class="normal">1447</span>
+<span class="normal">1448</span>
+<span class="normal">1449</span>
+<span class="normal">1450</span>
+<span class="normal">1451</span>
+<span class="normal">1452</span>
+<span class="normal">1453</span>
+<span class="normal">1454</span>
+<span class="normal">1455</span>
+<span class="normal">1456</span>
+<span class="normal">1457</span>
+<span class="normal">1458</span>
+<span class="normal">1459</span>
+<span class="normal">1460</span>
+<span class="normal">1461</span>
+<span class="normal">1462</span>
+<span class="normal">1463</span>
+<span class="normal">1464</span>
+<span class="normal">1465</span>
+<span class="normal">1466</span>
+<span class="normal">1467</span>
+<span class="normal">1468</span>
+<span class="normal">1469</span>
+<span class="normal">1470</span>
+<span class="normal">1471</span>
+<span class="normal">1472</span>
+<span class="normal">1473</span>
+<span class="normal">1474</span>
+<span class="normal">1475</span>
+<span class="normal">1476</span>
+<span class="normal">1477</span>
+<span class="normal">1478</span>
+<span class="normal">1479</span>
+<span class="normal">1480</span>
+<span class="normal">1481</span>
+<span class="normal">1482</span>
+<span class="normal">1483</span>
+<span class="normal">1484</span>
+<span class="normal">1485</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a Flax module.</span>
+<span class="sd">    It takes in all the inputs to the model and returns all outputs from it.</span>
+<span class="sd">    The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:</span>
+<span class="sd">        &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class</span>
+<span class="sd">        &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the class instance</span>
+<span class="sd">        input_ids: chex.Array: Pass the input to the model</span>
+<span class="sd">        attention_mask: chex.Array: Specify which tokens are masked</span>
+<span class="sd">        position_ids: chex.Array: Specify the position of each token</span>
+<span class="sd">            in the sequence</span>
+<span class="sd">        deterministic: bool: Control whether the model is run in</span>
+<span class="sd">            deterministic or stochastic mode</span>
+<span class="sd">        init_cache: bool: Initialize the cache for the transformer</span>
+<span class="sd">        output_attentions: bool: Return the attention weights</span>
+<span class="sd">        output_hidden_states: bool: Return the hidden states of all</span>
+<span class="sd">            layers</span>
+<span class="sd">        return_dict: bool: Return a dictionary of outputs</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray: Pass in the</span>
+<span class="sd">            embedding of a new word</span>
+<span class="sd">        None]]: Pass the extra embedding to the model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of logits and hidden_states</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">cumsum</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span><span class="p">,</span> <span class="n">a_min</span><span class="o">=</span><span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span>
+        <span class="n">input_ids</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="o">=</span><span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span>
+    <span class="p">)</span>
+
+    <span class="n">hidden_states</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">prediction</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">FlaxSequenceClassifierOutput</span><span class="p">(</span>
+            <span class="n">logits</span><span class="o">=</span><span class="n">prediction</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">prediction</span><span class="p">,</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForSequenceClassificationModule.setup" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">setup</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The setup function is called once at the beginning of training.
+It initializes the model and optimizer, and sets up any other state that needs to be initialized.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the model and the classifier</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1398</span>
+<span class="normal">1399</span>
+<span class="normal">1400</span>
+<span class="normal">1401</span>
+<span class="normal">1402</span>
+<span class="normal">1403</span>
+<span class="normal">1404</span>
+<span class="normal">1405</span>
+<span class="normal">1406</span>
+<span class="normal">1407</span>
+<span class="normal">1408</span>
+<span class="normal">1409</span>
+<span class="normal">1410</span>
+<span class="normal">1411</span>
+<span class="normal">1412</span>
+<span class="normal">1413</span>
+<span class="normal">1414</span>
+<span class="normal">1415</span>
+<span class="normal">1416</span>
+<span class="normal">1417</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The setup function is called once at the beginning of training.</span>
+<span class="sd">    It initializes the model and optimizer, and sets up any other state that needs to be initialized.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the model and the classifier</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">FlaxQwen2MoeModule</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">classifier</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_classes</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+        <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+            <span class="n">stddev</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+        <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeMLP" class="doc doc-heading">
+            <code>FlaxQwen2MoeMLP</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2MoeMLP</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2MoeConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">intermediate_size</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="n">intermediate_size</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">config</span><span class="o">.</span><span class="n">moe_intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">intermediate_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span>
+            <span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">intermediate_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">        It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).</span>
+<span class="sd">        The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            x: jnp.ndarray: Pass in the input to the layer</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tensor that is the result of applying a dropout function</span>
+<span class="sd">            to x</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">silu</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span>
+        <span class="k">return</span> <span class="n">x</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeMLP.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a class.
+It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).
+The <strong>call</strong> method enables instances of a class to be called like standard Python functions.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>x</code></td>
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.ndarray: Pass in the input to the layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tensor that is the result of applying a dropout function</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>to x</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">    It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).</span>
+<span class="sd">    The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        x: jnp.ndarray: Pass in the input to the layer</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tensor that is the result of applying a dropout function</span>
+<span class="sd">        to x</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">silu</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span>
+    <span class="k">return</span> <span class="n">x</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel" class="doc doc-heading">
+            <code>FlaxQwen2MoePreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span>
+<span class="normal">914</span>
+<span class="normal">915</span>
+<span class="normal">916</span>
+<span class="normal">917</span>
+<span class="normal">918</span>
+<span class="normal">919</span>
+<span class="normal">920</span>
+<span class="normal">921</span>
+<span class="normal">922</span>
+<span class="normal">923</span>
+<span class="normal">924</span>
+<span class="normal">925</span>
+<span class="normal">926</span>
+<span class="normal">927</span>
+<span class="normal">928</span>
+<span class="normal">929</span>
+<span class="normal">930</span>
+<span class="normal">931</span>
+<span class="normal">932</span>
+<span class="normal">933</span>
+<span class="normal">934</span>
+<span class="normal">935</span>
+<span class="normal">936</span>
+<span class="normal">937</span>
+<span class="normal">938</span>
+<span class="normal">939</span>
+<span class="normal">940</span>
+<span class="normal">941</span>
+<span class="normal">942</span>
+<span class="normal">943</span>
+<span class="normal">944</span>
+<span class="normal">945</span>
+<span class="normal">946</span>
+<span class="normal">947</span>
+<span class="normal">948</span>
+<span class="normal">949</span>
+<span class="normal">950</span>
+<span class="normal">951</span>
+<span class="normal">952</span>
+<span class="normal">953</span>
+<span class="normal">954</span>
+<span class="normal">955</span>
+<span class="normal">956</span>
+<span class="normal">957</span>
+<span class="normal">958</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2MoePreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">Qwen2MoeConfig</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;model&quot;</span>
+    <span class="n">module_class</span><span class="p">:</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2MoeConfig</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up the instance of the class, and defines what happens when it&#39;s created.</span>
+<span class="sd">        The __init__ function can take arguments, but self is always required (it refers to the instance of the object).</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            config: Qwen2MoeConfig: Pass the configuration to the module</span>
+<span class="sd">            input_shape: Tuple: Specify the shape of the input to the</span>
+<span class="sd">                model</span>
+<span class="sd">            seed: int: Set the seed for random number generation</span>
+<span class="sd">            dtype: jnp.dtype: Specify the data type of the input</span>
+<span class="sd">            _do_init: bool: Control whether the module is initialized or</span>
+<span class="sd">                not</span>
+<span class="sd">            **kwargs: Pass in any additional parameters that the</span>
+<span class="sd">                module_class might need</span>
+<span class="sd">        :param : Specify the number of layers in the network</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The super() of the class</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">            input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">            params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">                model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A frozendict of parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+            <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+                <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+            <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">position_ids</span><span class="p">,</span>
+                <span class="n">encoder_hidden_states</span><span class="p">,</span>
+                <span class="n">encoder_attention_mask</span><span class="p">,</span>
+                <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+                <span class="n">rngs</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The init_cache function is used to initialize the cache for a given batch size and sequence length.</span>
+<span class="sd">        The cache is a dictionary that contains all the intermediate states from each layer in the model.</span>
+<span class="sd">        This allows us to run inference on multiple batches without having to re-run forward passes through every layer in</span>
+<span class="sd">        the model, which would be very slow.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the module</span>
+<span class="sd">            batch_size: Define the batch size of the input tensors</span>
+<span class="sd">            max_length: Set the length of the input sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary with the following keys:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">        It takes in inputs and returns outputs, but it also has some other important features:</span>
+<span class="sd">        - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.</span>
+<span class="sd">        - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input</span>
+<span class="sd">            position_ids: chex.Array: Create the positional embeddings</span>
+<span class="sd">            params: dict: Pass in the parameters of the model</span>
+<span class="sd">            past_key_values: dict: Pass in the past key values from a</span>
+<span class="sd">                previous call to __call__</span>
+<span class="sd">            dropout_rng: jax.random.PRNGKey: Make sure that the dropout</span>
+<span class="sd">                is applied in a random way</span>
+<span class="sd">            train: bool: Determine whether to use dropout or not</span>
+<span class="sd">            output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">                return the attention weights</span>
+<span class="sd">            output_hidden_states: Optional[bool]: Return the hidden</span>
+<span class="sd">                states of all layers</span>
+<span class="sd">            return_dict: Optional[bool]: Determine whether to return a</span>
+<span class="sd">                dictionary or not</span>
+<span class="sd">            extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in</span>
+<span class="sd">                the embedding for the input_ids</span>
+<span class="sd">            add_params_field: bool: Add the params field to the inputs</span>
+<span class="sd">                dictionary</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of the following:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">output_router_logits</span> <span class="o">=</span> <span class="n">output_router_logits</span> <span class="k">if</span> <span class="n">output_router_logits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_router_logits</span>
+
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+
+        <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+            <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                            <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+        <span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+            <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">output_router_logits</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                      <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">position_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">past_key_values</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dropout_rng</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_hidden_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">output_router_logits</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">extra_embedding</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module.
+It takes in inputs and returns outputs, but it also has some other important features:
+- It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.
+- It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Create the positional embeddings</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>past_key_values</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass in the past key values from a
+previous call to <strong>call</strong></p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dropout_rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Make sure that the dropout
+is applied in a random way</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>train</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to
+return the attention weights</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_hidden_states</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Return the hidden
+states of all layers</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>return_dict</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine whether to return a
+dictionary or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_embedding</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Union">Union</span>[<span title="jax.numpy.ndarray">ndarray</span>, None]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Union[jnp.ndarray,None]]: Pass in
+the embedding for the input_ids</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add the params field to the inputs
+dictionary</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of the following:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span>
+<span class="normal">914</span>
+<span class="normal">915</span>
+<span class="normal">916</span>
+<span class="normal">917</span>
+<span class="normal">918</span>
+<span class="normal">919</span>
+<span class="normal">920</span>
+<span class="normal">921</span>
+<span class="normal">922</span>
+<span class="normal">923</span>
+<span class="normal">924</span>
+<span class="normal">925</span>
+<span class="normal">926</span>
+<span class="normal">927</span>
+<span class="normal">928</span>
+<span class="normal">929</span>
+<span class="normal">930</span>
+<span class="normal">931</span>
+<span class="normal">932</span>
+<span class="normal">933</span>
+<span class="normal">934</span>
+<span class="normal">935</span>
+<span class="normal">936</span>
+<span class="normal">937</span>
+<span class="normal">938</span>
+<span class="normal">939</span>
+<span class="normal">940</span>
+<span class="normal">941</span>
+<span class="normal">942</span>
+<span class="normal">943</span>
+<span class="normal">944</span>
+<span class="normal">945</span>
+<span class="normal">946</span>
+<span class="normal">947</span>
+<span class="normal">948</span>
+<span class="normal">949</span>
+<span class="normal">950</span>
+<span class="normal">951</span>
+<span class="normal">952</span>
+<span class="normal">953</span>
+<span class="normal">954</span>
+<span class="normal">955</span>
+<span class="normal">956</span>
+<span class="normal">957</span>
+<span class="normal">958</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module.</span>
+<span class="sd">    It takes in inputs and returns outputs, but it also has some other important features:</span>
+<span class="sd">    - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.</span>
+<span class="sd">    - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input tokens</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input</span>
+<span class="sd">        position_ids: chex.Array: Create the positional embeddings</span>
+<span class="sd">        params: dict: Pass in the parameters of the model</span>
+<span class="sd">        past_key_values: dict: Pass in the past key values from a</span>
+<span class="sd">            previous call to __call__</span>
+<span class="sd">        dropout_rng: jax.random.PRNGKey: Make sure that the dropout</span>
+<span class="sd">            is applied in a random way</span>
+<span class="sd">        train: bool: Determine whether to use dropout or not</span>
+<span class="sd">        output_attentions: Optional[bool]: Determine whether to</span>
+<span class="sd">            return the attention weights</span>
+<span class="sd">        output_hidden_states: Optional[bool]: Return the hidden</span>
+<span class="sd">            states of all layers</span>
+<span class="sd">        return_dict: Optional[bool]: Determine whether to return a</span>
+<span class="sd">            dictionary or not</span>
+<span class="sd">        extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in</span>
+<span class="sd">            the embedding for the input_ids</span>
+<span class="sd">        add_params_field: bool: Add the params field to the inputs</span>
+<span class="sd">            dictionary</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of the following:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+    <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+    <span class="p">)</span>
+    <span class="n">output_router_logits</span> <span class="o">=</span> <span class="n">output_router_logits</span> <span class="k">if</span> <span class="n">output_router_logits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_router_logits</span>
+
+    <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+    <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+
+    <span class="k">if</span> <span class="n">position_ids</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;Make sure to provide `position_ids` when passing `past_key_values`.&quot;</span><span class="p">)</span>
+
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">sequence_length</span><span class="p">)[</span>
+                                        <span class="kc">None</span><span class="p">,</span> <span class="p">:],</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">rngs</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+    <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+    <span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+        <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+        <span class="n">inputs</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">position_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+        <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">,</span>
+        <span class="n">output_hidden_states</span><span class="p">,</span>
+        <span class="n">output_router_logits</span><span class="p">,</span>
+        <span class="n">return_dict</span><span class="p">,</span>
+        <span class="n">extra_embedding</span><span class="p">,</span>
+        <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+        <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+    <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+        <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> \
+                  <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">seed</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up the instance of the class, and defines what happens when it's created.
+The <strong>init</strong> function can take arguments, but self is always required (it refers to the instance of the object).</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>config</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe.Qwen2MoeConfig" href="../generated-modules-qwen2_moe-configuration_qwen2_moe/#src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe.Qwen2MoeConfig">Qwen2MoeConfig</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Qwen2MoeConfig: Pass the configuration to the module</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Specify the shape of the input to the
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>seed</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the seed for random number generation</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.dtype: Specify the data type of the input</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.float32">float32</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>_do_init</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Control whether the module is initialized or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in any additional parameters that the
+module_class might need</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Specify the number of layers in the network</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The super() of the class</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2MoeConfig</span><span class="p">,</span>
+        <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+        <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up the instance of the class, and defines what happens when it&#39;s created.</span>
+<span class="sd">    The __init__ function can take arguments, but self is always required (it refers to the instance of the object).</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        config: Qwen2MoeConfig: Pass the configuration to the module</span>
+<span class="sd">        input_shape: Tuple: Specify the shape of the input to the</span>
+<span class="sd">            model</span>
+<span class="sd">        seed: int: Set the seed for random number generation</span>
+<span class="sd">        dtype: jnp.dtype: Specify the data type of the input</span>
+<span class="sd">        _do_init: bool: Control whether the module is initialized or</span>
+<span class="sd">            not</span>
+<span class="sd">        **kwargs: Pass in any additional parameters that the</span>
+<span class="sd">            module_class might need</span>
+<span class="sd">    :param : Specify the number of layers in the network</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The super() of the class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="n">module</span><span class="p">,</span> <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="n">seed</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span> <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.init_cache" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_cache</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_cache function is used to initialize the cache for a given batch size and sequence length.
+The cache is a dictionary that contains all the intermediate states from each layer in the model.
+This allows us to run inference on multiple batches without having to re-run forward passes through every layer in
+the model, which would be very slow.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access the module</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Define the batch size of the input tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Set the length of the input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with the following keys:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_cache function is used to initialize the cache for a given batch size and sequence length.</span>
+<span class="sd">    The cache is a dictionary that contains all the intermediate states from each layer in the model.</span>
+<span class="sd">    This allows us to run inference on multiple batches without having to re-run forward passes through every layer in</span>
+<span class="sd">    the model, which would be very slow.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access the module</span>
+<span class="sd">        batch_size: Define the batch size of the input tensors</span>
+<span class="sd">        max_length: Set the length of the input sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with the following keys:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+    <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+        <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.init_weights" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">init_weights</span><span class="p">(</span><span class="n">rng</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The init_weights function is used to initialize the weights of a model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rng</code></td>
+            <td>
+                  <code><span title="jax.random.PRNGKey">PRNGKey</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.random.PRNGKey: Initialize the weights of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple: Specify the shape of the input tensor</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>FrozenDict: Pass in the parameters of a pre-trained
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="flax.core.frozen_dict.FrozenDict">FrozenDict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A frozendict of parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The init_weights function is used to initialize the weights of a model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        rng: jax.random.PRNGKey: Initialize the weights of the model</span>
+<span class="sd">        input_shape: Tuple: Specify the shape of the input tensor</span>
+<span class="sd">        params: FrozenDict: Pass in the parameters of a pre-trained</span>
+<span class="sd">            model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A frozendict of parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_shape</span><span class="p">)</span>
+    <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+    <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">add_cross_attention</span><span class="p">:</span>
+        <span class="n">encoder_hidden_states</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span>
+            <span class="n">input_shape</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+        <span class="n">encoder_attention_mask</span> <span class="o">=</span> <span class="n">attention_mask</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">encoder_hidden_states</span><span class="p">,</span>
+            <span class="n">encoder_attention_mask</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">rngs</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+
+    <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+            <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">random_params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeSparseMoeBlock" class="doc doc-heading">
+            <code>FlaxQwen2MoeSparseMoeBlock</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+      <p>This implementation is
+strictly equivalent to standard MoE with full capacity (no
+dropped tokens). It's faster since it formulates MoE operations
+in terms of block-sparse operations to accomodate imbalanced
+assignments of tokens to experts, whereas standard MoE either
+(1) drop tokens at the cost of reduced performance or (2) set
+capacity factor to number of experts and thus waste computation
+and memory on padding.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxQwen2MoeSparseMoeBlock</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;This implementation is</span>
+<span class="sd">    strictly equivalent to standard MoE with full capacity (no</span>
+<span class="sd">    dropped tokens). It&#39;s faster since it formulates MoE operations</span>
+<span class="sd">    in terms of block-sparse operations to accomodate imbalanced</span>
+<span class="sd">    assignments of tokens to experts, whereas standard MoE either</span>
+<span class="sd">    (1) drop tokens at the cost of reduced performance or (2) set</span>
+<span class="sd">    capacity factor to number of experts and thus waste computation</span>
+<span class="sd">    and memory on padding.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">Qwen2MoeConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span>
+        <span class="n">Union</span><span class="p">[</span><span class="kc">None</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span>
+    <span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_experts</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(),</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">experts</span> <span class="o">=</span> <span class="n">FlaxQwen2MoeBlocKSparesTop2MLPCollection</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">shared_expert</span> <span class="o">=</span> <span class="n">FlaxQwen2MoeMLP</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shared_expert_intermediate_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">shared_expert_gate</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="mi">1</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">e</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>  <span class="c1"># Ignored</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]:</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">hidden_dim</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="n">router_logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">gate</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">promote_types</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="n">routing_weights</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span>
+            <span class="n">router_logits</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">promote_types</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+            <span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)</span>
+
+        <span class="n">routing_weights</span><span class="p">,</span> <span class="n">selected_experts</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">top_k</span><span class="p">(</span>
+            <span class="n">routing_weights</span><span class="p">,</span>
+            <span class="n">k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_experts_per_tok</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">norm_topk_prob</span><span class="p">:</span>
+            <span class="n">routing_weights</span> <span class="o">/=</span> <span class="n">routing_weights</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">,</span> <span class="n">keepdims</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="n">final_hidden_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">experts</span><span class="p">(</span>
+            <span class="n">selected_experts</span><span class="o">=</span><span class="n">selected_experts</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span><span class="p">,</span>
+            <span class="n">hidden_dim</span><span class="o">=</span><span class="n">hidden_dim</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="o">=</span><span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">routing_weights</span><span class="o">=</span><span class="n">routing_weights</span>
+        <span class="p">)</span>
+        <span class="n">shared_expert_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">shared_expert</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="n">shared_expert_output</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">sigmoid</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">shared_expert_gate</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>
+        <span class="p">)</span> <span class="o">*</span> <span class="n">shared_expert_output</span>
+        <span class="n">final_hidden_state</span> <span class="o">=</span> <span class="n">final_hidden_state</span> <span class="o">+</span> <span class="n">shared_expert_output</span>
+
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">final_hidden_state</span><span class="p">,</span>
+            <span class="n">router_logits</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-roberta-modelling_roberta_flax/index.html b/generated-modules-roberta-modelling_roberta_flax/index.html
new file mode 100644
index 000000000..c15f569cc
--- /dev/null
+++ b/generated-modules-roberta-modelling_roberta_flax/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-roberta-roberta_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Roberta Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesrobertamodelling_roberta_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Roberta Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.roberta.modelling_roberta_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_roberta_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.roberta.modelling_roberta_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_roberta_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesrobertamodelling_roberta_flax">modules.roberta.modelling_roberta_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.roberta.modelling_roberta_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-roberta-roberta_configuration/index.html b/generated-modules-roberta-roberta_configuration/index.html
new file mode 100644
index 000000000..2449ac68f
--- /dev/null
+++ b/generated-modules-roberta-roberta_configuration/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-roberta-modelling_roberta_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-rwkv-modelling_rwkv_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Roberta Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesrobertaroberta_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Roberta Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.roberta.roberta_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      roberta_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.roberta.roberta_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      roberta_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesrobertaroberta_configuration">modules.roberta.roberta_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.roberta.roberta_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-rwkv-modelling_rwkv_flax/index.html b/generated-modules-rwkv-modelling_rwkv_flax/index.html
new file mode 100644
index 000000000..efb7deca4
--- /dev/null
+++ b/generated-modules-rwkv-modelling_rwkv_flax/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-roberta-roberta_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-rwkv-rwkv_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Rwkv Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesrwkvmodelling_rwkv_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Rwkv Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.rwkv.modelling_rwkv_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_rwkv_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.rwkv.modelling_rwkv_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_rwkv_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesrwkvmodelling_rwkv_flax">modules.rwkv.modelling_rwkv_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.rwkv.modelling_rwkv_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-rwkv-rwkv_configuration/index.html b/generated-modules-rwkv-rwkv_configuration/index.html
new file mode 100644
index 000000000..7ab8e494d
--- /dev/null
+++ b/generated-modules-rwkv-rwkv_configuration/index.html
@@ -0,0 +1,6236 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-rwkv-modelling_rwkv_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-stablelm-modelling_stablelm_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Rwkv Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesrwkvrwkv_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Rwkv Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.rwkv.rwkv_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      rwkv_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.rwkv.rwkv_configuration.RwkvConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      RwkvConfig
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.rwkv.rwkv_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      rwkv_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.rwkv.rwkv_configuration.RwkvConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      RwkvConfig
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesrwkvrwkv_configuration">modules.rwkv.rwkv_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.rwkv.rwkv_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.rwkv.rwkv_configuration.RwkvConfig" class="doc doc-heading">
+            <code>RwkvConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+      <p>RWKV configuration.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/rwkv/rwkv_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 8</span>
+<span class="normal"> 9</span>
+<span class="normal">10</span>
+<span class="normal">11</span>
+<span class="normal">12</span>
+<span class="normal">13</span>
+<span class="normal">14</span>
+<span class="normal">15</span>
+<span class="normal">16</span>
+<span class="normal">17</span>
+<span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">RwkvConfig</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;RWKV configuration.&quot;&quot;&quot;</span>
+
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;rwkv&quot;</span>
+    <span class="n">attribute_map</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;max_position_embeddings&quot;</span><span class="p">:</span> <span class="s2">&quot;context_length&quot;</span><span class="p">}</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">50277</span><span class="p">,</span>
+            <span class="n">context_length</span><span class="o">=</span><span class="mi">1024</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">attention_hidden_size</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">layer_norm_epsilon</span><span class="o">=</span><span class="mf">1e-5</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="n">rescale_every</span><span class="o">=</span><span class="mi">6</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">context_length</span> <span class="o">=</span> <span class="n">context_length</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_hidden_size</span> <span class="o">=</span> <span class="n">attention_hidden_size</span> <span class="k">if</span> <span class="n">attention_hidden_size</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span> <span class="k">if</span> <span class="n">intermediate_size</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="mi">4</span> <span class="o">*</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm_epsilon</span> <span class="o">=</span> <span class="n">layer_norm_epsilon</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rescale_every</span> <span class="o">=</span> <span class="n">rescale_every</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">bos_token_id</span> <span class="o">=</span> <span class="n">bos_token_id</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="o">=</span> <span class="n">eos_token_id</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="p">):</span>
+                <span class="nb">setattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-stablelm-modelling_stablelm_flax/index.html b/generated-modules-stablelm-modelling_stablelm_flax/index.html
new file mode 100644
index 000000000..05fc91509
--- /dev/null
+++ b/generated-modules-stablelm-modelling_stablelm_flax/index.html
@@ -0,0 +1,8279 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-rwkv-rwkv_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-stablelm-stablelm_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Stablelm Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesstablelmmodelling_stablelm_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Stablelm Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.modelling_stablelm_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_stablelm_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxStableLmAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxStableLmAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmMLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxStableLmMLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxStableLmMLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmMLP.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxStableLmPreTrainedModel
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.modelling_stablelm_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_stablelm_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmAttention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxStableLmAttention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxStableLmAttention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmAttention.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmAttention.apply_rotary" class="md-nav__link">
+    <span class="md-ellipsis">
+      apply_rotary
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmMLP" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxStableLmMLP
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxStableLmMLP">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmMLP.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmPreTrainedModel" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxStableLmPreTrainedModel
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesstablelmmodelling_stablelm_flax">modules.stablelm.modelling_stablelm_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.stablelm.modelling_stablelm_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmAttention" class="doc doc-heading">
+            <code>FlaxStableLmAttention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/stablelm/modelling_stablelm_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxStableLmAttention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">StableLmConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">config</span><span class="p">:</span> <span class="n">StableLmConfig</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_heads</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">partial_rotary_factor</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">partial_rotary_factor</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_qkv_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_qkv_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_qkv_bias</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">partial_rotary_factor</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span> <span class="o">=</span> <span class="n">AttentionModule</span><span class="p">(</span>
+            <span class="n">use_sharding_constraint</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">use_sharding_constraint</span><span class="p">,</span>
+            <span class="n">block_k_major</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major</span><span class="p">,</span>
+            <span class="n">block_b</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_b</span><span class="p">,</span>
+            <span class="n">block_q</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q</span><span class="p">,</span>
+            <span class="n">block_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k</span><span class="p">,</span>
+            <span class="n">block_q_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dkv</span><span class="p">,</span>
+            <span class="n">block_k_major_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_major_dq</span><span class="p">,</span>
+            <span class="n">block_k_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dkv</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dkv</span><span class="p">,</span>
+            <span class="n">block_q_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_q_dq</span><span class="p">,</span>
+            <span class="n">block_k_dq</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">block_k_dq</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span><span class="p">,</span>
+            <span class="n">head_dims</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">force_float32_tpu</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">attn_mechanism</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attn_mechanism</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_attention_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">generation_attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">scan_ring_attention</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">scan_ring_attention</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">(),</span>
+            <span class="n">sm_scale</span><span class="o">=</span><span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">),</span>
+            <span class="n">axis_name</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_axis_name</span><span class="p">,</span>
+            <span class="n">backward_pass_impl</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">flash_attention_backward_pass_impl</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,))</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _transpose_sequence_head function transposes the query, key and value matrices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            query: Get the attention weights for each of the heads</span>
+<span class="sd">            key: Determine the number of heads</span>
+<span class="sd">            value: Store the values of the input</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The transpose of the query, key and value matrices</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">)),</span> <span class="n">jnp</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">3</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            batch_size: Reshape the query_states, key and value tensors</span>
+<span class="sd">            sequence_length: Reshape the query_states, key and value</span>
+<span class="sd">                tensors</span>
+<span class="sd">            query: Calculate the attention weights</span>
+<span class="sd">            key: Calculate the attention</span>
+<span class="sd">            value: Compute the attention weights</span>
+<span class="sd">            freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">                vocabulary</span>
+<span class="sd">            position_ids: Identify the position of each token in the</span>
+<span class="sd">                sequence</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of 3 tensors: query_states, key and value</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+        <span class="p">)</span>
+
+        <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+        <span class="n">sin</span><span class="p">,</span> <span class="n">cos</span> <span class="o">=</span> <span class="n">freq_cis</span>
+
+        <span class="n">sin</span> <span class="o">=</span> <span class="n">sin</span><span class="p">[</span><span class="n">position_ids</span><span class="p">][:,</span> <span class="kc">None</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+        <span class="n">cos</span> <span class="o">=</span> <span class="n">cos</span><span class="p">[</span><span class="n">position_ids</span><span class="p">][:,</span> <span class="kc">None</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+
+        <span class="n">query_rot</span><span class="p">,</span> <span class="n">query_pass</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">query</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">],</span>
+            <span class="n">query</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">:],</span>
+        <span class="p">)</span>
+        <span class="n">key_rot</span><span class="p">,</span> <span class="n">key_pass</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">key</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">],</span>
+            <span class="n">key</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">:],</span>
+        <span class="p">)</span>
+
+        <span class="n">key_rot</span> <span class="o">=</span> <span class="n">apply_rotary_pos_emb</span><span class="p">(</span><span class="n">key_rot</span><span class="p">,</span> <span class="n">sin</span><span class="p">,</span> <span class="n">cos</span><span class="p">)</span>
+        <span class="n">query_rot</span> <span class="o">=</span> <span class="n">apply_rotary_pos_emb</span><span class="p">(</span><span class="n">query_rot</span><span class="p">,</span> <span class="n">sin</span><span class="p">,</span> <span class="n">cos</span><span class="p">)</span>
+
+        <span class="n">query</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">((</span><span class="n">query_rot</span><span class="p">,</span> <span class="n">query_pass</span><span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">key</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">((</span><span class="n">key_rot</span><span class="p">,</span> <span class="n">key_pass</span><span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">        and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">                frequency coefficients for each position</span>
+<span class="sd">            attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">                input sequence</span>
+<span class="sd">            position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">                token in a sequence</span>
+<span class="sd">            causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">                decoder</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">            init_cache: bool: Initialize the cache</span>
+<span class="sd">            output_attentions: bool: Determine whether to return the</span>
+<span class="sd">                attention weights or not</span>
+<span class="sd">            fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">                and output tokens</span>
+<span class="sd">        :param : Determine if the attention is causal or not</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of two arrays</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+            <span class="n">hidden_states</span><span class="p">)</span>
+
+        <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+        <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+            <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+        <span class="p">)</span>
+
+        <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+        <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+            <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">causal_mask</span><span class="p">,</span>
+                <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+        <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span>
+                <span class="n">value_states</span><span class="p">,</span>
+                <span class="n">query_states</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+        <span class="c1"># if self.config.use_sharding_constraint:</span>
+        <span class="c1">#     query_states = with_sharding_constraint(</span>
+        <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     key_states = with_sharding_constraint(</span>
+        <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     value_states = with_sharding_constraint(</span>
+        <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="n">use_qkv_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+            <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">use_qkv_bias</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+            <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+            <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+            <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+            <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+        <span class="p">)</span>
+
+
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span><span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,)</span>
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmAttention.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">segment_ids</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a JAX module. It defines how the module behaves when called
+with inputs. The <strong>call</strong> function can be thought of as a &quot;forward pass&quot; through the model,
+and it should return all outputs that are needed for training or inference.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the hidden states of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[chex.Array, chex.Array],: Pass in the
+frequency coefficients for each position</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out certain tokens in the
+input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Determine the position of each
+token in a sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>causal_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask out the future tokens in the
+decoder</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_cache</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the cache</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>output_attentions</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to return the
+attention weights or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fcm_mask</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mask out the attention weights between the input
+and output tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine if the attention is causal or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of two arrays</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/stablelm/modelling_stablelm_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_cache</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">output_attentions</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">fcm_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a JAX module. It defines how the module behaves when called</span>
+<span class="sd">    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,</span>
+<span class="sd">    and it should return all outputs that are needed for training or inference.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the</span>
+<span class="sd">            frequency coefficients for each position</span>
+<span class="sd">        attention_mask: chex.Array: Mask out certain tokens in the</span>
+<span class="sd">            input sequence</span>
+<span class="sd">        position_ids: chex.Array: Determine the position of each</span>
+<span class="sd">            token in a sequence</span>
+<span class="sd">        causal_mask: chex.Array: Mask out the future tokens in the</span>
+<span class="sd">            decoder</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout or not</span>
+<span class="sd">        init_cache: bool: Initialize the cache</span>
+<span class="sd">        output_attentions: bool: Determine whether to return the</span>
+<span class="sd">            attention weights or not</span>
+<span class="sd">        fcm_mask: Mask out the attention weights between the input</span>
+<span class="sd">            and output tokens</span>
+<span class="sd">    :param : Determine if the attention is causal or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of two arrays</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">k_proj</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">v_proj</span><span class="p">(</span>
+        <span class="n">hidden_states</span><span class="p">)</span>
+
+    <span class="n">query_states</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">key_states</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+    <span class="n">value_states</span> <span class="o">=</span> <span class="n">value_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span><span class="p">)</span>
+
+    <span class="n">query_states</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">apply_rotary</span><span class="p">(</span>
+        <span class="n">query</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+        <span class="n">freq_cis</span><span class="o">=</span><span class="n">freq_cis</span><span class="p">,</span>
+        <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="o">=</span><span class="n">sequence_length</span>
+    <span class="p">)</span>
+
+    <span class="n">assert_msg</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="s2">&quot;num_attention_heads repeat wont work likely</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;INFO :</span><span class="se">\n\t</span><span class="s2">repeat_kv_bnsh Used with num_key_value_groups = </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="si">}</span><span class="se">\n\t</span><span class="s2">&quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;NH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2"> KVH : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">)</span>
+
+    <span class="k">assert</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+    <span class="k">assert</span> <span class="n">value_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">2</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span> <span class="n">assert_msg</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+        <span class="n">mask_shift</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span>
+        <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+            <span class="n">causal_mask</span><span class="p">,</span>
+            <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+            <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">causal_mask</span><span class="p">[:,</span> <span class="p">:,</span> <span class="p">:</span><span class="n">query_length</span><span class="p">,</span> <span class="p">:</span><span class="n">key_length</span><span class="p">]</span>
+
+    <span class="n">batch_size</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+    <span class="n">causal_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+        <span class="n">causal_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:])</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span>
+        <span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_mask</span><span class="p">,</span> <span class="n">fcm_mask</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">attention_mask</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+    <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">:</span>
+        <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">value_states</span><span class="p">,</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+        <span class="p">)</span>
+    <span class="c1"># if self.config.use_sharding_constraint:</span>
+    <span class="c1">#     query_states = with_sharding_constraint(</span>
+    <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     key_states = with_sharding_constraint(</span>
+    <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="c1">#     value_states = with_sharding_constraint(</span>
+    <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+    <span class="c1">#     )</span>
+    <span class="n">use_qkv_bias</span> <span class="o">=</span> <span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+        <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span> <span class="o">=</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+    <span class="n">attentions</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attention_performer</span><span class="o">.</span><span class="fm">__call__</span><span class="p">(</span>
+        <span class="n">query_states</span><span class="o">=</span><span class="n">query_states</span><span class="p">,</span>
+        <span class="n">key_states</span><span class="o">=</span><span class="n">key_states</span><span class="p">,</span>
+        <span class="n">value_states</span><span class="o">=</span><span class="n">value_states</span><span class="p">,</span>
+        <span class="n">bias</span><span class="o">=</span><span class="n">use_qkv_bias</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+        <span class="n">causal</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+        <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+        <span class="n">query_sequence_length</span><span class="o">=</span><span class="n">query_length</span><span class="p">,</span>
+        <span class="n">key_value_sequence_length</span><span class="o">=</span><span class="n">key_length</span><span class="p">,</span>
+        <span class="n">uses_cache</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">,</span>
+        <span class="n">segment_ids</span><span class="o">=</span><span class="n">segment_ids</span><span class="p">,</span>
+        <span class="n">causal_mask</span><span class="o">=</span><span class="n">causal_mask</span>
+    <span class="p">)</span>
+
+
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attentions</span><span class="o">.</span><span class="n">attention_outputs</span><span class="p">)</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                <span class="s2">&quot;tp&quot;</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o_proj</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+    <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">attentions</span><span class="o">.</span><span class="n">attention_weights</span><span class="p">)</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="k">else</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,)</span>
+    <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmAttention.apply_rotary" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">apply_rotary</span><span class="p">(</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class.
+The main difference is that it takes in an additional argument, freq_cis, which are used to calculate
+the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query_states, key and value tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sequence_length</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reshape the query_states, key and value
+tensors</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>key</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the attention</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Compute the attention weights</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>freq_cis</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Calculate the frequency of each word in the
+vocabulary</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>position_ids</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Identify the position of each token in the
+sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of 3 tensors: query_states, key and value</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/stablelm/modelling_stablelm_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">apply_rotary</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">,</span> <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">freq_cis</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The apply_rotary function is a modified version of the apply_attention function in the BertModel class.</span>
+<span class="sd">    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate</span>
+<span class="sd">    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        batch_size: Reshape the query_states, key and value tensors</span>
+<span class="sd">        sequence_length: Reshape the query_states, key and value</span>
+<span class="sd">            tensors</span>
+<span class="sd">        query: Calculate the attention weights</span>
+<span class="sd">        key: Calculate the attention</span>
+<span class="sd">        value: Compute the attention weights</span>
+<span class="sd">        freq_cis: Calculate the frequency of each word in the</span>
+<span class="sd">            vocabulary</span>
+<span class="sd">        position_ids: Identify the position of each token in the</span>
+<span class="sd">            sequence</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of 3 tensors: query_states, key and value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">query</span> <span class="o">=</span> <span class="n">query</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_attention_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">value</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+        <span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">sequence_length</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_key_value_heads</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">head_dim</span>
+    <span class="p">)</span>
+
+    <span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+
+    <span class="n">sin</span><span class="p">,</span> <span class="n">cos</span> <span class="o">=</span> <span class="n">freq_cis</span>
+
+    <span class="n">sin</span> <span class="o">=</span> <span class="n">sin</span><span class="p">[</span><span class="n">position_ids</span><span class="p">][:,</span> <span class="kc">None</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+    <span class="n">cos</span> <span class="o">=</span> <span class="n">cos</span><span class="p">[</span><span class="n">position_ids</span><span class="p">][:,</span> <span class="kc">None</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span>
+
+    <span class="n">query_rot</span><span class="p">,</span> <span class="n">query_pass</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">query</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">],</span>
+        <span class="n">query</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">:],</span>
+    <span class="p">)</span>
+    <span class="n">key_rot</span><span class="p">,</span> <span class="n">key_pass</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">key</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">],</span>
+        <span class="n">key</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">rotary_emb_dim</span><span class="p">:],</span>
+    <span class="p">)</span>
+
+    <span class="n">key_rot</span> <span class="o">=</span> <span class="n">apply_rotary_pos_emb</span><span class="p">(</span><span class="n">key_rot</span><span class="p">,</span> <span class="n">sin</span><span class="p">,</span> <span class="n">cos</span><span class="p">)</span>
+    <span class="n">query_rot</span> <span class="o">=</span> <span class="n">apply_rotary_pos_emb</span><span class="p">(</span><span class="n">query_rot</span><span class="p">,</span> <span class="n">sin</span><span class="p">,</span> <span class="n">cos</span><span class="p">)</span>
+
+    <span class="n">query</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">((</span><span class="n">query_rot</span><span class="p">,</span> <span class="n">query_pass</span><span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+    <span class="n">key</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">((</span><span class="n">key_rot</span><span class="p">,</span> <span class="n">key_pass</span><span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+
+    <span class="n">key</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="n">value</span> <span class="o">=</span> <span class="n">repeat_kv_bnsh</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_groups</span><span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_transpose_sequence_head</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmMLP" class="doc doc-heading">
+            <code>FlaxStableLmMLP</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="fjformer.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/stablelm/modelling_stablelm_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxStableLmMLP</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">StableLmConfig</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">,</span> <span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">intermediate_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">hidden_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">intermediate_size</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_range</span><span class="p">),</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">get_dot_general_by_bits</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">easy_method</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">act_fn</span> <span class="o">=</span> <span class="n">ACT2FN</span><span class="p">[</span><span class="n">config</span><span class="o">.</span><span class="n">hidden_act</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">        It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).</span>
+<span class="sd">        The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            x: jnp.ndarray: Pass in the input to the layer</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout #</span>
+<span class="sd">                Ignored</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tensor that is the result of function to x</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">act_fn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmMLP.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a class.
+It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).
+The <strong>call</strong> method enables instances of a class to be called like standard Python functions.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>x</code></td>
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.ndarray: Pass in the input to the layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout #
+Ignored</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="jax.numpy.ndarray">ndarray</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tensor that is the result of function to x</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/stablelm/modelling_stablelm_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">    It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).</span>
+<span class="sd">    The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        x: jnp.ndarray: Pass in the input to the layer</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout #</span>
+<span class="sd">            Ignored</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tensor that is the result of function to x</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">down_proj</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">act_fn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">gate_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">up_proj</span><span class="p">(</span><span class="n">x</span><span class="p">))</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmPreTrainedModel" class="doc doc-heading">
+            <code>FlaxStableLmPreTrainedModel</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code></p>
+
+
+      <p>StableLm pre-trained model.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/stablelm/modelling_stablelm_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span>
+<span class="normal">914</span>
+<span class="normal">915</span>
+<span class="normal">916</span>
+<span class="normal">917</span>
+<span class="normal">918</span>
+<span class="normal">919</span>
+<span class="normal">920</span>
+<span class="normal">921</span>
+<span class="normal">922</span>
+<span class="normal">923</span>
+<span class="normal">924</span>
+<span class="normal">925</span>
+<span class="normal">926</span>
+<span class="normal">927</span>
+<span class="normal">928</span>
+<span class="normal">929</span>
+<span class="normal">930</span>
+<span class="normal">931</span>
+<span class="normal">932</span>
+<span class="normal">933</span>
+<span class="normal">934</span>
+<span class="normal">935</span>
+<span class="normal">936</span>
+<span class="normal">937</span>
+<span class="normal">938</span>
+<span class="normal">939</span>
+<span class="normal">940</span>
+<span class="normal">941</span>
+<span class="normal">942</span>
+<span class="normal">943</span>
+<span class="normal">944</span>
+<span class="normal">945</span>
+<span class="normal">946</span>
+<span class="normal">947</span>
+<span class="normal">948</span>
+<span class="normal">949</span>
+<span class="normal">950</span>
+<span class="normal">951</span>
+<span class="normal">952</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxStableLmPreTrainedModel</span><span class="p">(</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;StableLm pre-trained model.&quot;&quot;&quot;</span>
+    <span class="n">module_class</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">config_class</span> <span class="o">=</span> <span class="n">StableLmConfig</span>
+    <span class="n">base_model_prefix</span> <span class="o">=</span> <span class="s2">&quot;model&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">config</span><span class="p">:</span> <span class="n">StableLmConfig</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">),</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">42</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">module</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module_class</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="n">precision</span>
+        <span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">module</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="o">=</span><span class="n">_do_init</span><span class="p">,</span>
+            <span class="n">seed</span><span class="o">=</span><span class="n">seed</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">init_cache</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">):</span>
+
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">max_length</span><span class="p">))</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">position_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">atleast_2d</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]),</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span>
+
+        <span class="n">init_variables</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">position_ids</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">init_cache</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">init_variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="nf">init_weights</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">,</span> <span class="n">input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">params</span><span class="p">:</span> <span class="n">FrozenDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">FrozenDict</span><span class="p">:</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">input_shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+        <span class="n">params_rng</span><span class="p">,</span> <span class="n">dropout_rng</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">rng</span><span class="p">)</span>
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params_rng</span><span class="p">,</span> <span class="s2">&quot;dropout&quot;</span><span class="p">:</span> <span class="n">dropout_rng</span><span class="p">}</span>
+
+        <span class="n">module_init_outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">init</span><span class="p">(</span><span class="n">rngs</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">)</span>
+
+        <span class="n">random_params</span> <span class="o">=</span> <span class="n">module_init_outputs</span><span class="p">[</span><span class="s2">&quot;params&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="n">params</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">random_params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">random_params</span><span class="p">))</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+            <span class="k">for</span> <span class="n">missing_key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span><span class="p">:</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_params</span><span class="p">[</span><span class="n">missing_key</span><span class="p">]</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_missing_keys</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+            <span class="k">return</span> <span class="n">freeze</span><span class="p">(</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">))</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">random_params</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">past_key_values</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">ndarray</span><span class="p">,</span> <span class="kc">None</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+
+        <span class="n">output_attentions</span> <span class="o">=</span> <span class="n">output_attentions</span> <span class="k">if</span> <span class="n">output_attentions</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_attentions</span>
+        <span class="n">output_hidden_states</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">output_hidden_states</span> <span class="k">if</span> <span class="n">output_hidden_states</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">output_hidden_states</span>
+        <span class="p">)</span>
+        <span class="n">return_dict</span> <span class="o">=</span> <span class="n">return_dict</span> <span class="k">if</span> <span class="n">return_dict</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">return_dict</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span> <span class="o">=</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span>
+
+        <span class="k">assert</span> <span class="n">sequence_length</span> <span class="o">&lt;=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">max_position_embeddings</span><span class="p">,</span> <span class="s2">&quot;Maximum Position Embedding Reached !&quot;</span>
+
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">sequence_length</span><span class="p">))</span>
+
+        <span class="n">rngs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">dropout_rng</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s2">&quot;dropout&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">dropout_rng</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">bits</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">rngs</span><span class="p">[</span><span class="s1">&#39;params&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span><span class="p">:</span>
+            <span class="n">inputs</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">past_key_values</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">mutable</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">apply</span><span class="p">(</span>
+            <span class="n">inputs</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">inputs_embeds</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">position_ids</span><span class="o">=</span><span class="n">position_ids</span><span class="p">,</span>
+            <span class="n">extra_embedding</span><span class="o">=</span><span class="n">extra_embedding</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="ow">not</span> <span class="n">train</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="n">output_attentions</span><span class="p">,</span>
+            <span class="n">output_hidden_states</span><span class="o">=</span><span class="n">output_hidden_states</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_dict</span><span class="o">=</span><span class="n">return_dict</span><span class="p">,</span>
+            <span class="n">rngs</span><span class="o">=</span><span class="n">rngs</span><span class="p">,</span>
+            <span class="n">mutable</span><span class="o">=</span><span class="n">mutable</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;past_key_values&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">outputs</span>
+        <span class="k">elif</span> <span class="n">past_key_values</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">return_dict</span><span class="p">:</span>
+            <span class="n">outputs</span><span class="p">,</span> <span class="n">past_key_values</span> <span class="o">=</span> <span class="n">outputs</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span><span class="p">[:</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">past_key_values</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">]),)</span> <span class="o">+</span> <span class="n">outputs</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-stablelm-stablelm_configuration/index.html b/generated-modules-stablelm-stablelm_configuration/index.html
new file mode 100644
index 000000000..967f8a013
--- /dev/null
+++ b/generated-modules-stablelm-stablelm_configuration/index.html
@@ -0,0 +1,6324 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-stablelm-modelling_stablelm_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-t5-modelling_t5_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Stablelm Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulesstablelmstablelm_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Stablelm Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.stablelm_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      stablelm_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.stablelm_configuration.StableLmConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      StableLmConfig
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.stablelm_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      stablelm_configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.stablelm.stablelm_configuration.StableLmConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      StableLmConfig
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulesstablelmstablelm_configuration">modules.stablelm.stablelm_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.stablelm.stablelm_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.stablelm.stablelm_configuration.StableLmConfig" class="doc doc-heading">
+            <code>StableLmConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig">EasyDeLPretrainedConfig</a></code></p>
+
+
+      <p>Phi configuration.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/stablelm/stablelm_configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">StableLmConfig</span><span class="p">(</span><span class="n">EasyDeLPretrainedConfig</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Phi configuration.&quot;&quot;&quot;</span>
+
+    <span class="n">model_type</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;stablelm&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">vocab_size</span><span class="o">=</span><span class="mi">50304</span><span class="p">,</span>
+            <span class="n">intermediate_size</span><span class="o">=</span><span class="mi">6912</span><span class="p">,</span>
+            <span class="n">hidden_size</span><span class="o">=</span><span class="mi">2560</span><span class="p">,</span>
+            <span class="n">num_hidden_layers</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_attention_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">num_key_value_heads</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span>
+            <span class="n">hidden_act</span><span class="o">=</span><span class="s2">&quot;silu&quot;</span><span class="p">,</span>
+            <span class="n">max_position_embeddings</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span>
+            <span class="n">initializer_range</span><span class="o">=</span><span class="mf">0.02</span><span class="p">,</span>
+            <span class="n">layer_norm_eps</span><span class="o">=</span><span class="mf">1.0e-5</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">rope_theta</span><span class="o">=</span><span class="mi">10_000</span><span class="p">,</span>
+            <span class="n">rope_scaling</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">use_qkv_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">hidden_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">attention_dropout</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">partial_rotary_factor</span><span class="o">=</span><span class="mf">0.25</span><span class="p">,</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vocab_size</span> <span class="o">=</span> <span class="n">vocab_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_size</span> <span class="o">=</span> <span class="n">hidden_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">intermediate_size</span> <span class="o">=</span> <span class="n">intermediate_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="o">=</span> <span class="n">num_hidden_layers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_attention_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="k">if</span> <span class="n">num_key_value_heads</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_attention_heads</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_key_value_heads</span> <span class="o">=</span> <span class="n">num_key_value_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_qkv_bias</span> <span class="o">=</span> <span class="n">use_qkv_bias</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_dropout</span> <span class="o">=</span> <span class="n">hidden_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">attention_dropout</span> <span class="o">=</span> <span class="n">attention_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hidden_act</span> <span class="o">=</span> <span class="n">hidden_act</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_position_embeddings</span> <span class="o">=</span> <span class="n">max_position_embeddings</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initializer_range</span> <span class="o">=</span> <span class="n">initializer_range</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm_eps</span> <span class="o">=</span> <span class="n">layer_norm_eps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_cache</span> <span class="o">=</span> <span class="n">use_cache</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_theta</span> <span class="o">=</span> <span class="n">rope_theta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rope_scaling</span> <span class="o">=</span> <span class="n">rope_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">partial_rotary_factor</span> <span class="o">=</span> <span class="n">partial_rotary_factor</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">bos_token_id</span><span class="o">=</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">eos_token_id</span><span class="o">=</span><span class="n">eos_token_id</span><span class="p">,</span>
+            <span class="n">tie_word_embeddings</span><span class="o">=</span><span class="n">tie_word_embeddings</span><span class="p">,</span>
+            <span class="n">bits</span><span class="o">=</span><span class="n">bits</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_jax_args</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">bits</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;nothing_saveable&quot;</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">bits</span> <span class="o">=</span> <span class="n">bits</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="p">):</span>
+                <span class="nb">setattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+        <span class="k">return</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">fully_sharded_data_parallel</span> <span class="k">else</span> <span class="p">(</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/embed_tokens/embedding&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;self_attn/(q_proj|k_proj|v_proj)/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;self_attn/o_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="p">(</span><span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;mlp/gate_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/down_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;mlp/up_proj/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+
+            <span class="p">(</span><span class="s2">&quot;input_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;post_attention_layernorm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+
+            <span class="p">(</span><span class="s2">&quot;model/norm/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">)),</span>
+            <span class="p">(</span><span class="s2">&quot;lm_head/kernel&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+            <span class="p">(</span><span class="s2">&quot;.*&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">))),</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-t5-modelling_t5_flax/index.html b/generated-modules-t5-modelling_t5_flax/index.html
new file mode 100644
index 000000000..5a3931d76
--- /dev/null
+++ b/generated-modules-t5-modelling_t5_flax/index.html
@@ -0,0 +1,6756 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-stablelm-stablelm_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-t5-t5_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling T5 Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulest5modelling_t5_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling T5 Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.t5.modelling_t5_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_t5_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.t5.modelling_t5_flax.FlaxT5Attention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxT5Attention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxT5Attention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.t5.modelling_t5_flax.FlaxT5Attention.compute_bias" class="md-nav__link">
+    <span class="md-ellipsis">
+      compute_bias
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.t5.modelling_t5_flax.shift_tokens_right" class="md-nav__link">
+    <span class="md-ellipsis">
+      shift_tokens_right
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.t5.modelling_t5_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_t5_flax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.t5.modelling_t5_flax.FlaxT5Attention" class="md-nav__link">
+    <span class="md-ellipsis">
+      FlaxT5Attention
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="FlaxT5Attention">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.t5.modelling_t5_flax.FlaxT5Attention.compute_bias" class="md-nav__link">
+    <span class="md-ellipsis">
+      compute_bias
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.t5.modelling_t5_flax.shift_tokens_right" class="md-nav__link">
+    <span class="md-ellipsis">
+      shift_tokens_right
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulest5modelling_t5_flax">modules.t5.modelling_t5_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.t5.modelling_t5_flax"></a>
+    <div class="doc doc-contents first">
+
+      <p>Flax T5 model.</p>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.modules.t5.modelling_t5_flax.FlaxT5Attention" class="doc doc-heading">
+            <code>FlaxT5Attention</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule" href="../generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule">BaseJAXAttentionModule</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/modules/t5/modelling_t5_flax.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">FlaxT5Attention</span><span class="p">(</span><span class="n">BaseJAXAttentionModule</span><span class="p">):</span>
+    <span class="n">config</span><span class="p">:</span> <span class="n">T5Config</span>
+    <span class="n">has_relative_attention_bias</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="n">causal</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span>  <span class="c1"># the dtype of the computation</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">relative_attention_num_buckets</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">relative_attention_num_buckets</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">relative_attention_max_distance</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">relative_attention_max_distance</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">d_model</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">d_model</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">key_value_proj_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">d_kv</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">num_heads</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">dropout_rate</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">inner_dim</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">key_value_proj_dim</span>
+
+        <span class="n">q_init_std</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_factor</span> <span class="o">*</span> <span class="p">((</span><span class="bp">self</span><span class="o">.</span><span class="n">inner_dim</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">key_value_proj_dim</span><span class="p">)</span> <span class="o">**</span> <span class="o">-</span><span class="mf">0.5</span><span class="p">)</span>
+        <span class="n">kv_init_std</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_factor</span> <span class="o">*</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">inner_dim</span> <span class="o">**</span> <span class="o">-</span><span class="mf">0.5</span><span class="p">)</span>
+        <span class="n">o_init_std</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">initializer_factor</span> <span class="o">*</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">inner_dim</span> <span class="o">**</span> <span class="o">-</span><span class="mf">0.5</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">q</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">inner_dim</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="n">q_init_std</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">k</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">inner_dim</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="n">kv_init_std</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">inner_dim</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="n">kv_init_std</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">o</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="n">o_init_std</span><span class="p">),</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_relative_attention_bias</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">relative_attention_bias</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Embed</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">relative_attention_num_buckets</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span><span class="p">,</span>
+                <span class="n">embedding_init</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">normal</span><span class="p">(</span><span class="n">kv_init_std</span><span class="p">),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="p">)</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_relative_position_bucket</span><span class="p">(</span><span class="n">relative_position</span><span class="p">,</span> <span class="n">bidirectional</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">num_buckets</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span> <span class="n">max_distance</span><span class="o">=</span><span class="mi">128</span><span class="p">):</span>
+
+        <span class="n">relative_buckets</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="k">if</span> <span class="n">bidirectional</span><span class="p">:</span>
+            <span class="n">num_buckets</span> <span class="o">//=</span> <span class="mi">2</span>
+            <span class="n">relative_buckets</span> <span class="o">+=</span> <span class="p">(</span><span class="n">relative_position</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">)</span> <span class="o">*</span> <span class="n">num_buckets</span>
+            <span class="n">relative_position</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">relative_position</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">relative_position</span> <span class="o">=</span> <span class="o">-</span><span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">relative_position</span><span class="p">,</span> <span class="n">a_max</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+        <span class="c1"># now relative_position is in the range [0, inf)</span>
+
+        <span class="c1"># half of the buckets are for exact increments in positions</span>
+        <span class="n">max_exact</span> <span class="o">=</span> <span class="n">num_buckets</span> <span class="o">//</span> <span class="mi">2</span>
+        <span class="n">is_small</span> <span class="o">=</span> <span class="n">relative_position</span> <span class="o">&lt;</span> <span class="n">max_exact</span>
+
+        <span class="n">relative_position_if_large</span> <span class="o">=</span> <span class="n">max_exact</span> <span class="o">+</span> <span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">relative_position</span> <span class="o">/</span> <span class="n">max_exact</span><span class="p">)</span> <span class="o">/</span> <span class="n">jnp</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">max_distance</span> <span class="o">/</span> <span class="n">max_exact</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="n">num_buckets</span> <span class="o">-</span> <span class="n">max_exact</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">relative_position_if_large</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">clip</span><span class="p">(</span><span class="n">relative_position_if_large</span><span class="p">,</span> <span class="n">a_max</span><span class="o">=</span><span class="n">num_buckets</span> <span class="o">-</span> <span class="mi">1</span><span class="p">)</span>
+
+        <span class="n">relative_buckets</span> <span class="o">+=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">is_small</span><span class="p">,</span> <span class="n">relative_position</span><span class="p">,</span> <span class="n">relative_position_if_large</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">relative_buckets</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">compute_bias</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Compute binned relative position bias&quot;&quot;&quot;</span>
+        <span class="n">context_position</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">query_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[:,</span> <span class="kc">None</span><span class="p">]</span>
+        <span class="n">memory_position</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">key_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span><span class="kc">None</span><span class="p">,</span> <span class="p">:]</span>
+
+        <span class="n">relative_position</span> <span class="o">=</span> <span class="n">memory_position</span> <span class="o">-</span> <span class="n">context_position</span>
+        <span class="n">relative_position_bucket</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_relative_position_bucket</span><span class="p">(</span>
+            <span class="n">relative_position</span><span class="p">,</span>
+            <span class="n">bidirectional</span><span class="o">=</span><span class="p">(</span><span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">causal</span><span class="p">),</span>
+            <span class="n">num_buckets</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">relative_attention_num_buckets</span><span class="p">,</span>
+            <span class="n">max_distance</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">relative_attention_max_distance</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">relative_attention_bias</span><span class="p">(</span><span class="n">relative_position_bucket</span><span class="p">)</span>
+        <span class="n">values</span> <span class="o">=</span> <span class="n">values</span><span class="o">.</span><span class="n">transpose</span><span class="p">((</span><span class="mi">2</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">))[</span><span class="kc">None</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:,</span> <span class="p">:]</span>
+        <span class="k">return</span> <span class="n">values</span>
+
+    <span class="k">def</span> <span class="nf">_split_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">key_value_proj_dim</span><span class="p">))</span>
+
+    <span class="k">def</span> <span class="nf">_merge_heads</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span> <span class="o">+</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">inner_dim</span><span class="p">,))</span>
+
+    <span class="k">def</span> <span class="nf">_create_position_bias</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span> <span class="n">key_states</span><span class="p">,</span> <span class="n">query_states</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">init_cache</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">causal_attention_mask_shift</span>
+    <span class="p">):</span>
+        <span class="n">cache_is_filled</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">causal</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">and</span> <span class="p">(</span><span class="ow">not</span> <span class="n">init_cache</span><span class="p">)</span>
+        <span class="n">key_length</span> <span class="o">=</span> <span class="n">key_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">query_length</span> <span class="o">=</span> <span class="n">key_length</span> <span class="k">if</span> <span class="n">cache_is_filled</span> <span class="k">else</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_relative_attention_bias</span><span class="p">:</span>
+            <span class="n">position_bias</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">compute_bias</span><span class="p">(</span><span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">position_bias</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">position_bias</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">((</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span>
+
+        <span class="c1"># if key and values are already calculated, only the last query position bias should be taken</span>
+        <span class="k">if</span> <span class="n">cache_is_filled</span><span class="p">:</span>
+            <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">position_bias</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                <span class="n">position_bias</span><span class="p">,</span>
+                <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">causal_attention_mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+                <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_heads</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">),</span>
+            <span class="p">)</span>
+        <span class="k">return</span> <span class="n">position_bias</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">hidden_states</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">key_value_states</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">position_bias</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">use_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">output_attentions</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_cache</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+    <span class="p">):</span>
+
+        <span class="n">batch_size</span><span class="p">,</span> <span class="n">seq_length</span> <span class="o">=</span> <span class="n">hidden_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="mi">2</span><span class="p">]</span>
+
+        <span class="c1"># q, k, v projections</span>
+        <span class="n">query_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span>  <span class="c1"># (batch_size, n_heads, seq_length, dim_per_head)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span> <span class="k">if</span> <span class="n">key_value_states</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">k</span><span class="p">(</span><span class="n">key_value_states</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">v</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">)</span> <span class="k">if</span> <span class="n">key_value_states</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">v</span><span class="p">(</span><span class="n">key_value_states</span><span class="p">)</span>
+
+        <span class="c1"># reshape to (batch_size, seq_length, n_heads, head_dim)</span>
+        <span class="n">query_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_split_heads</span><span class="p">(</span><span class="n">query_states</span><span class="p">)</span>
+        <span class="n">key_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_split_heads</span><span class="p">(</span><span class="n">key_states</span><span class="p">)</span>
+        <span class="n">value_states</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_split_heads</span><span class="p">(</span><span class="n">value_states</span><span class="p">)</span>
+        <span class="c1"># if self.config.use_sharding_constraint:</span>
+        <span class="c1">#     query_states = with_sharding_constraint(</span>
+        <span class="c1">#         query_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot; if query_states.shape[1] != 1 else None, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     key_states = with_sharding_constraint(</span>
+        <span class="c1">#         key_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1">#     value_states = with_sharding_constraint(</span>
+        <span class="c1">#         value_states, PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;, &quot;tp&quot;, None)</span>
+        <span class="c1">#     )</span>
+        <span class="c1"># counter-act scaling in dot_product_attention_weights function</span>
+        <span class="n">query_states</span> <span class="o">*=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">])</span>
+
+        <span class="c1"># for fast decoding causal attention mask should be shifted</span>
+        <span class="n">causal_attention_mask_shift</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cache_index&quot;</span><span class="p">]</span> <span class="k">if</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">causal</span><span class="p">)</span> <span class="k">else</span> <span class="mi">0</span>
+        <span class="p">)</span>
+        <span class="c1"># create causal attention_mask; attention_mask has to be defined when model is causal</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">causal</span><span class="p">:</span>
+            <span class="n">causal_attention_mask</span> <span class="o">=</span> <span class="n">make_causal_mask</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;bool&quot;</span><span class="p">)</span>
+
+            <span class="c1"># fast decoding for generate requires special attention_mask</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">):</span>
+                <span class="n">max_decoder_length</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">variables</span><span class="p">[</span><span class="s2">&quot;cache&quot;</span><span class="p">][</span><span class="s2">&quot;cached_key&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+                <span class="n">causal_attention_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">dynamic_slice</span><span class="p">(</span>
+                    <span class="n">causal_attention_mask</span><span class="p">,</span>
+                    <span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">causal_attention_mask_shift</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+                    <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">max_decoder_length</span><span class="p">),</span>
+                <span class="p">)</span>
+
+            <span class="c1"># broadcast causal attention mask &amp; attention mask to fit for merge</span>
+            <span class="n">causal_attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+                <span class="n">causal_attention_mask</span><span class="p">,</span> <span class="p">(</span><span class="n">batch_size</span><span class="p">,)</span> <span class="o">+</span> <span class="n">causal_attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">:]</span>
+            <span class="p">)</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">broadcast_to</span><span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">)),</span> <span class="n">causal_attention_mask</span><span class="o">.</span><span class="n">shape</span>
+            <span class="p">)</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">combine_masks</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">causal_attention_mask</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">expand_dims</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=</span><span class="p">(</span><span class="o">-</span><span class="mi">3</span><span class="p">,</span> <span class="o">-</span><span class="mi">2</span><span class="p">))</span>
+
+        <span class="c1"># During fast autoregressive decoding, we feed one position at a time,</span>
+        <span class="c1"># and cache the keys and values step by step.</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">causal</span> <span class="ow">and</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">has_variable</span><span class="p">(</span><span class="s2">&quot;cache&quot;</span><span class="p">,</span> <span class="s2">&quot;cached_key&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">init_cache</span><span class="p">):</span>
+            <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">attention_attention_mask</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_concatenate_to_cache</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span> <span class="n">value_states</span><span class="p">,</span> <span class="n">query_states</span><span class="p">,</span> <span class="n">attention_mask</span>
+            <span class="p">)</span>
+
+        <span class="c1"># replace masked positions with -10_000</span>
+        <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">mask_value</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">finfo</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">)</span><span class="o">.</span><span class="n">min</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+                <span class="n">attention_mask</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">mask_value</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+            <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">position_bias</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="c1"># compute position bias (only for first layer)</span>
+            <span class="n">position_bias</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_create_position_bias</span><span class="p">(</span>
+                <span class="n">key_states</span><span class="p">,</span> <span class="n">query_states</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">,</span> <span class="n">init_cache</span><span class="p">,</span> <span class="n">seq_length</span><span class="p">,</span> <span class="n">causal_attention_mask_shift</span>
+            <span class="p">)</span>
+
+            <span class="k">if</span> <span class="n">attention_mask</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">position_bias</span> <span class="o">=</span> <span class="n">position_bias</span> <span class="o">+</span> <span class="n">attention_mask</span>
+
+        <span class="c1"># create dropout rng</span>
+        <span class="n">dropout_rng</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">deterministic</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">&gt;</span> <span class="mf">0.0</span><span class="p">:</span>
+            <span class="n">dropout_rng</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">make_rng</span><span class="p">(</span><span class="s2">&quot;dropout&quot;</span><span class="p">)</span>
+
+        <span class="c1"># Softmax(QK^T)</span>
+        <span class="n">attn_weights</span> <span class="o">=</span> <span class="n">dot_product_attention_weights</span><span class="p">(</span>
+            <span class="n">query_states</span><span class="p">,</span>
+            <span class="n">key_states</span><span class="p">,</span>
+            <span class="n">bias</span><span class="o">=</span><span class="n">position_bias</span><span class="p">,</span>
+            <span class="n">dropout_rng</span><span class="o">=</span><span class="n">dropout_rng</span><span class="p">,</span>
+            <span class="n">dropout_rate</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">,</span>
+            <span class="n">broadcast_dropout</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">attn_weights</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">attn_weights</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+            <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">query_states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span>
+        <span class="p">))</span>
+
+        <span class="c1"># multiply with value states</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">einsum</span><span class="p">(</span><span class="s2">&quot;...hqk,...khd-&gt;...qhd&quot;</span><span class="p">,</span> <span class="n">attn_weights</span><span class="p">,</span> <span class="n">value_states</span><span class="p">)</span>
+
+        <span class="c1"># bring back to (batch_size, seq_length, d_model)</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_merge_heads</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">shard_attention_computation</span><span class="p">:</span>
+            <span class="n">attn_output</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+                <span class="n">attn_output</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span>
+                    <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;sp&quot;</span> <span class="k">if</span> <span class="n">attn_output</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="mi">1</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                    <span class="s2">&quot;tp&quot;</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="c1"># apply output matrix</span>
+        <span class="n">attn_output</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">o</span><span class="p">(</span><span class="n">attn_output</span><span class="p">)</span>
+
+        <span class="n">outputs</span> <span class="o">=</span> <span class="p">(</span><span class="n">attn_output</span><span class="p">,</span> <span class="n">position_bias</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">output_attentions</span><span class="p">:</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">outputs</span> <span class="o">+</span> <span class="p">(</span><span class="n">attn_weights</span><span class="p">,)</span>
+
+        <span class="k">return</span> <span class="n">outputs</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.modules.t5.modelling_t5_flax.FlaxT5Attention.compute_bias" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">compute_bias</span><span class="p">(</span><span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Compute binned relative position bias</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/t5/modelling_t5_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">compute_bias</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">query_length</span><span class="p">,</span> <span class="n">key_length</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Compute binned relative position bias&quot;&quot;&quot;</span>
+    <span class="n">context_position</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">query_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[:,</span> <span class="kc">None</span><span class="p">]</span>
+    <span class="n">memory_position</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="n">key_length</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)[</span><span class="kc">None</span><span class="p">,</span> <span class="p">:]</span>
+
+    <span class="n">relative_position</span> <span class="o">=</span> <span class="n">memory_position</span> <span class="o">-</span> <span class="n">context_position</span>
+    <span class="n">relative_position_bucket</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_relative_position_bucket</span><span class="p">(</span>
+        <span class="n">relative_position</span><span class="p">,</span>
+        <span class="n">bidirectional</span><span class="o">=</span><span class="p">(</span><span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">causal</span><span class="p">),</span>
+        <span class="n">num_buckets</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">relative_attention_num_buckets</span><span class="p">,</span>
+        <span class="n">max_distance</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">relative_attention_max_distance</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="n">values</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">relative_attention_bias</span><span class="p">(</span><span class="n">relative_position_bucket</span><span class="p">)</span>
+    <span class="n">values</span> <span class="o">=</span> <span class="n">values</span><span class="o">.</span><span class="n">transpose</span><span class="p">((</span><span class="mi">2</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">))[</span><span class="kc">None</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:,</span> <span class="p">:]</span>
+    <span class="k">return</span> <span class="n">values</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.modules.t5.modelling_t5_flax.shift_tokens_right" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">shift_tokens_right</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">pad_token_id</span><span class="p">,</span> <span class="n">decoder_start_token_id</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Shift input ids one token to the right.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/modules/t5/modelling_t5_flax.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">shift_tokens_right</span><span class="p">(</span><span class="n">input_ids</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">,</span> <span class="n">pad_token_id</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">decoder_start_token_id</span><span class="p">:</span> <span class="nb">int</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Shift input ids one token to the right.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">shifted_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">input_ids</span><span class="p">)</span>
+    <span class="n">shifted_input_ids</span> <span class="o">=</span> <span class="n">shifted_input_ids</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="mi">1</span><span class="p">:]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="n">input_ids</span><span class="p">[:,</span> <span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">])</span>
+    <span class="n">shifted_input_ids</span> <span class="o">=</span> <span class="n">shifted_input_ids</span><span class="o">.</span><span class="n">at</span><span class="p">[:,</span> <span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="n">decoder_start_token_id</span><span class="p">)</span>
+
+    <span class="n">shifted_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">shifted_input_ids</span> <span class="o">==</span> <span class="o">-</span><span class="mi">100</span><span class="p">,</span> <span class="n">pad_token_id</span><span class="p">,</span> <span class="n">shifted_input_ids</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">shifted_input_ids</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-t5-t5_configuration/index.html b/generated-modules-t5-t5_configuration/index.html
new file mode 100644
index 000000000..cad0786e9
--- /dev/null
+++ b/generated-modules-t5-t5_configuration/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-t5-modelling_t5_flax/">
+      
+      
+        <link rel="next" href="../generated-modules-whisper-modelling_whisper_flax/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>T5 Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#modulest5t5_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              T5 Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.t5.t5_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      t5_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.t5.t5_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      t5_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="modulest5t5_configuration">modules.t5.t5_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.t5.t5_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-whisper-modelling_whisper_flax/index.html b/generated-modules-whisper-modelling_whisper_flax/index.html
new file mode 100644
index 000000000..f7b4da0c0
--- /dev/null
+++ b/generated-modules-whisper-modelling_whisper_flax/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-t5-t5_configuration/">
+      
+      
+        <link rel="next" href="../generated-modules-whisper-whisper_configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Whisper Flax - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#moduleswhispermodelling_whisper_flax" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Whisper Flax
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.whisper.modelling_whisper_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_whisper_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.whisper.modelling_whisper_flax" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_whisper_flax
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="moduleswhispermodelling_whisper_flax">modules.whisper.modelling_whisper_flax</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.whisper.modelling_whisper_flax"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-modules-whisper-whisper_configuration/index.html b/generated-modules-whisper-whisper_configuration/index.html
new file mode 100644
index 000000000..872d780b1
--- /dev/null
+++ b/generated-modules-whisper-whisper_configuration/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-whisper-modelling_whisper_flax/">
+      
+      
+        <link rel="next" href="../generated-partitioning-partitioner/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Whisper Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#moduleswhisperwhisper_configuration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Whisper Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.whisper.whisper_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      whisper_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.modules.whisper.whisper_configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      whisper_configuration
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="moduleswhisperwhisper_configuration">modules.whisper.whisper_configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.modules.whisper.whisper_configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-partitioning-partitioner/index.html b/generated-partitioning-partitioner/index.html
new file mode 100644
index 000000000..bc1001370
--- /dev/null
+++ b/generated-partitioning-partitioner/index.html
@@ -0,0 +1,6280 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-modules-whisper-whisper_configuration/">
+      
+      
+        <link rel="next" href="../generated-reinforcement_learning-core/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Partitioner - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#partitioningpartitioner" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Partitioner
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.partitioning.partitioner" class="md-nav__link">
+    <span class="md-ellipsis">
+      partitioner
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.partitioning.partitioner.get_partitions" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partitions
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.partitioning.partitioner" class="md-nav__link">
+    <span class="md-ellipsis">
+      partitioner
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.partitioning.partitioner.get_partitions" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partitions
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="partitioningpartitioner">partitioning.partitioner</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.partitioning.partitioner"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.partitioning.partitioner.get_partitions" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partitions</span><span class="p">(</span><span class="n">jax_attn_format</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">fsdp_on_batch</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_partitions function is a helper function that returns an EasyDeLPartitions object.
+The EasyDeLPartitions object contains the PartitionSpec objects for each of the five tensors in
+the attention computation: query, key, value, bias and attention. The PartitionSpec objects are
+used to specify how each tensor should be partitioned across devices (i.e., which dimensions of
+each tensor should be split across devices). For example, if we want to split the batch dimension
+of all five tensors across two devices then we would set ``query_partition_spec=key_partition_spec=value_partition_spec=</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>jax_attn_format</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Specify whether the attention</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fsdp_on_batch</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether the batch dimension is
+partitioned</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="src.python.easydel.partitioning.partitioner.EasyDeLPartitions">EasyDeLPartitions</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A easydelpartitions object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/partitioning/partitioner.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">16</span>
+<span class="normal">17</span>
+<span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partitions</span><span class="p">(</span>
+        <span class="n">jax_attn_format</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">fsdp_on_batch</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">EasyDeLPartitions</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_partitions function is a helper function that returns an EasyDeLPartitions object.</span>
+<span class="sd">    The EasyDeLPartitions object contains the PartitionSpec objects for each of the five tensors in</span>
+<span class="sd">    the attention computation: query, key, value, bias and attention. The PartitionSpec objects are</span>
+<span class="sd">    used to specify how each tensor should be partitioned across devices (i.e., which dimensions of</span>
+<span class="sd">    each tensor should be split across devices). For example, if we want to split the batch dimension</span>
+<span class="sd">    of all five tensors across two devices then we would set ``query_partition_spec=key_partition_spec=value_partition_spec=</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        jax_attn_format: bool: Specify whether the attention</span>
+<span class="sd">        fsdp_on_batch: bool: Determine whether the batch dimension is</span>
+<span class="sd">            partitioned</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A easydelpartitions object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">jax_attn_format</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">fsdp_on_batch</span><span class="p">:</span>
+            <span class="n">query_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">key_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">value_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">bias_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">attention_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">generation_bias_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">query_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">key_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">value_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">bias_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">attention_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+            <span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">fsdp_on_batch</span><span class="p">:</span>
+            <span class="n">query_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">key_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">value_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">bias_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">attention_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+            <span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">query_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">key_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">value_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">bias_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">attention_partition_spec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">EasyDeLPartitions</span><span class="p">(</span>
+        <span class="n">query_partition_spec</span><span class="o">=</span><span class="n">query_partition_spec</span><span class="p">,</span>
+        <span class="n">key_partition_spec</span><span class="o">=</span><span class="n">key_partition_spec</span><span class="p">,</span>
+        <span class="n">value_partition_spec</span><span class="o">=</span><span class="n">value_partition_spec</span><span class="p">,</span>
+        <span class="n">bias_partition_spec</span><span class="o">=</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+        <span class="n">attention_partition_spec</span><span class="o">=</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+        <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+        <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="n">generation_bias_partition_spec</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-reinforcement_learning-core/index.html b/generated-reinforcement_learning-core/index.html
new file mode 100644
index 000000000..6fa39eb25
--- /dev/null
+++ b/generated-reinforcement_learning-core/index.html
@@ -0,0 +1,6228 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-partitioning-partitioner/">
+      
+      
+        <link rel="next" href="../generated-reinforcement_learning-models-modelling_casual_language_rl/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Core - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#reinforcement_learningcore" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Core
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.core" class="md-nav__link">
+    <span class="md-ellipsis">
+      core
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.core.add_suffix" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_suffix
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.core.multinomial" class="md-nav__link">
+    <span class="md-ellipsis">
+      multinomial
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.core" class="md-nav__link">
+    <span class="md-ellipsis">
+      core
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.core.add_suffix" class="md-nav__link">
+    <span class="md-ellipsis">
+      add_suffix
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.core.multinomial" class="md-nav__link">
+    <span class="md-ellipsis">
+      multinomial
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="reinforcement_learningcore">reinforcement_learning.core</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.reinforcement_learning.core"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.reinforcement_learning.core.add_suffix" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">add_suffix</span><span class="p">(</span><span class="n">input_dict</span><span class="p">,</span> <span class="n">suffix</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Add suffix to dict keys.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/reinforcement_learning/core.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">92</span>
+<span class="normal">93</span>
+<span class="normal">94</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">add_suffix</span><span class="p">(</span><span class="n">input_dict</span><span class="p">,</span> <span class="n">suffix</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Add suffix to dict keys.&quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="nb">dict</span><span class="p">((</span><span class="n">k</span> <span class="o">+</span> <span class="n">suffix</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">input_dict</span><span class="o">.</span><span class="n">items</span><span class="p">())</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.reinforcement_learning.core.multinomial" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">multinomial</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="n">num_samples</span><span class="p">,</span> <span class="n">replacement</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Implements the <code>torch.multinomial</code> function in JAX.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>logits</code></td>
+            <td>
+                  <code><span title="jax.numpy.array">array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The unnormalized log probabilities of the events.</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_samples</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The number of samples to draw.</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>replacement</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Don't use this ;</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>Returns:
+    jnp.array: A matrix of shape (num_samples, batch_size) containing the
+        sampled indices.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/reinforcement_learning/core.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">multinomial</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="n">num_samples</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">replacement</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Implements the `torch.multinomial` function in JAX.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        logits (jnp.array): The unnormalized log probabilities of the events.</span>
+<span class="sd">        num_samples (int): The number of samples to draw.</span>
+<span class="sd">        replacement (bool): Don&#39;t use this ;\</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        jnp.array: A matrix of shape (num_samples, batch_size) containing the</span>
+<span class="sd">            sampled indices.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">logits</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">log_softmax</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">replacement</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">categorical</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="n">num_samples</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">samples</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_samples</span><span class="p">):</span>
+            <span class="n">sample</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">categorical</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+            <span class="n">samples</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">sample</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+            <span class="n">logits</span> <span class="o">=</span> <span class="n">logits</span><span class="o">.</span><span class="n">at</span><span class="p">[</span><span class="n">sample</span><span class="p">[</span><span class="mi">0</span><span class="p">]]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="o">-</span><span class="n">jnp</span><span class="o">.</span><span class="n">inf</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">samples</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-reinforcement_learning-models-modelling_casual_language_rl/index.html b/generated-reinforcement_learning-models-modelling_casual_language_rl/index.html
new file mode 100644
index 000000000..c93f8c90b
--- /dev/null
+++ b/generated-reinforcement_learning-models-modelling_casual_language_rl/index.html
@@ -0,0 +1,6454 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-reinforcement_learning-core/">
+      
+      
+        <link rel="next" href="../generated-reinforcement_learning-trainer-partitioner_config/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Casual Language Rl - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#reinforcement_learningmodelsmodelling_casual_language_rl" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Casual Language Rl
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_casual_language_rl
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl.ValueHead" class="md-nav__link">
+    <span class="md-ellipsis">
+      ValueHead
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="ValueHead">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl.ValueHead.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl.ValueHead.setup" class="md-nav__link">
+    <span class="md-ellipsis">
+      setup
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_casual_language_rl
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl.ValueHead" class="md-nav__link">
+    <span class="md-ellipsis">
+      ValueHead
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="ValueHead">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl.ValueHead.__call__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __call__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl.ValueHead.setup" class="md-nav__link">
+    <span class="md-ellipsis">
+      setup
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="reinforcement_learningmodelsmodelling_casual_language_rl">reinforcement_learning.models.modelling_casual_language_rl</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl.ValueHead" class="doc doc-heading">
+            <code>ValueHead</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="flax.linen.Module">Module</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/reinforcement_learning/models/modelling_casual_language_rl.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">ValueHead</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+    <span class="n">summary_dropout_prob</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float32</span>
+    <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">)</span>
+    <span class="n">kernel_init</span><span class="p">:</span> <span class="n">Callable</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">initializers</span><span class="o">.</span><span class="n">orthogonal</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The setup function is called by the model&#39;s constructor.</span>
+<span class="sd">        It initializes all the layers in your model, and assigns them to member variables.</span>
+<span class="sd">        The setup function should be used for any initialization that needs to happen before running forward().</span>
+<span class="sd">        This includes things like loading weights from a file, or setting up an optimizer.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">summary_dropout_prob</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">summary</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+            <span class="mi">1</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">kernel_init</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">kernel_init</span><span class="p">,</span>
+            <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">        It is called when an instance of the class (an object) is invoked as a function, e.g., x(arg).</span>
+<span class="sd">        The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">                previous layer</span>
+<span class="sd">            deterministic: bool: Determine whether to use dropout</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tensor of shape (batch_size, num_classes)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">summary</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">))</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl.ValueHead.__call__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__call__</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>call</strong> function is the main function of a class.
+It is called when an instance of the class (an object) is invoked as a function, e.g., x(arg).
+The <strong>call</strong> method enables instances of a class to be called like standard Python functions.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>hidden_states</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the hidden states of the
+previous layer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>deterministic</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use dropout</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tensor of shape (batch_size, num_classes)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/reinforcement_learning/models/modelling_casual_language_rl.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">hidden_states</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">deterministic</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __call__ function is the main function of a class.</span>
+<span class="sd">    It is called when an instance of the class (an object) is invoked as a function, e.g., x(arg).</span>
+<span class="sd">    The __call__ method enables instances of a class to be called like standard Python functions.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        hidden_states: chex.Array: Pass the hidden states of the</span>
+<span class="sd">            previous layer</span>
+<span class="sd">        deterministic: bool: Determine whether to use dropout</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tensor of shape (batch_size, num_classes)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">summary</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">hidden_states</span><span class="p">,</span> <span class="n">deterministic</span><span class="o">=</span><span class="n">deterministic</span><span class="p">))</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl.ValueHead.setup" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">setup</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The setup function is called by the model's constructor.
+It initializes all the layers in your model, and assigns them to member variables.
+The setup function should be used for any initialization that needs to happen before running forward().
+This includes things like loading weights from a file, or setting up an optimizer.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/reinforcement_learning/models/modelling_casual_language_rl.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">setup</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The setup function is called by the model&#39;s constructor.</span>
+<span class="sd">    It initializes all the layers in your model, and assigns them to member variables.</span>
+<span class="sd">    The setup function should be used for any initialization that needs to happen before running forward().</span>
+<span class="sd">    This includes things like loading weights from a file, or setting up an optimizer.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">summary_dropout_prob</span><span class="p">)</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">summary</span> <span class="o">=</span> <span class="n">Linear</span><span class="p">(</span>
+        <span class="mi">1</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+        <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+        <span class="n">precision</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">precision</span><span class="p">,</span>
+        <span class="n">kernel_init</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">kernel_init</span><span class="p">,</span>
+        <span class="n">use_bias</span><span class="o">=</span><span class="kc">False</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-reinforcement_learning-trainer-partitioner_config/index.html b/generated-reinforcement_learning-trainer-partitioner_config/index.html
new file mode 100644
index 000000000..0420fbbd4
--- /dev/null
+++ b/generated-reinforcement_learning-trainer-partitioner_config/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-reinforcement_learning-models-modelling_casual_language_rl/">
+      
+      
+        <link rel="next" href="../generated-reinforcement_learning-trainer-ppo_config/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Partitioner Config - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#reinforcement_learningtrainerpartitioner_config" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Partitioner Config
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.partitioner_config" class="md-nav__link">
+    <span class="md-ellipsis">
+      partitioner_config
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.partitioner_config" class="md-nav__link">
+    <span class="md-ellipsis">
+      partitioner_config
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="reinforcement_learningtrainerpartitioner_config">reinforcement_learning.trainer.partitioner_config</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.reinforcement_learning.trainer.partitioner_config"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-reinforcement_learning-trainer-ppo_config/index.html b/generated-reinforcement_learning-trainer-ppo_config/index.html
new file mode 100644
index 000000000..ed0a12d38
--- /dev/null
+++ b/generated-reinforcement_learning-trainer-ppo_config/index.html
@@ -0,0 +1,7419 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-reinforcement_learning-trainer-partitioner_config/">
+      
+      
+        <link rel="next" href="../generated-reinforcement_learning-trainer-ppo_trainer/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Ppo Config - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#reinforcement_learningtrainerppo_config" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Ppo Config
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.ppo_config" class="md-nav__link">
+    <span class="md-ellipsis">
+      ppo_config
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.ppo_config.PPOConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      PPOConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="PPOConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.ppo_config.PPOConfig.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.ppo_config" class="md-nav__link">
+    <span class="md-ellipsis">
+      ppo_config
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.ppo_config.PPOConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      PPOConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="PPOConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.ppo_config.PPOConfig.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="reinforcement_learningtrainerppo_config">reinforcement_learning.trainer.ppo_config</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.reinforcement_learning.trainer.ppo_config"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.reinforcement_learning.trainer.ppo_config.PPOConfig" class="doc doc-heading">
+            <code>PPOConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/reinforcement_learning/trainer/ppo_config.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">PPOConfig</span><span class="p">:</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">exp_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">sys</span><span class="o">.</span><span class="n">argv</span><span class="p">[</span><span class="mi">0</span><span class="p">])[:</span> <span class="o">-</span><span class="nb">len</span><span class="p">(</span><span class="s2">&quot;.py&quot;</span><span class="p">)],</span>
+            <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">task_name</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">model_name</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">query_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">reward_model</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">remove_unused_columns</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">tracker_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">accelerator_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">project_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">tracker_project_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;trl&quot;</span><span class="p">,</span>
+            <span class="n">push_to_hub_if_best_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">20000</span><span class="p">,</span>
+            <span class="n">learning_rate</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1e-5</span><span class="p">,</span>
+            <span class="n">adap_kl_ctrl</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_kl_coef</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">0.2</span><span class="p">,</span>
+            <span class="n">kl_penalty</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;kl&quot;</span><span class="p">,</span> <span class="s2">&quot;abs&quot;</span><span class="p">,</span> <span class="s2">&quot;mse&quot;</span><span class="p">,</span> <span class="s2">&quot;full&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;kl&quot;</span><span class="p">,</span>
+            <span class="n">target</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mi">6</span><span class="p">,</span>
+            <span class="n">horizon</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mi">10000</span><span class="p">,</span>
+            <span class="n">gamma</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">lam</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.95</span><span class="p">,</span>
+            <span class="n">cliprange</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.2</span><span class="p">,</span>
+            <span class="n">cliprange_value</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.2</span><span class="p">,</span>
+            <span class="n">vf_coef</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">256</span><span class="p">,</span>
+            <span class="n">gradient_accumulation_steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">ppo_epochs</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4</span><span class="p">,</span>
+            <span class="n">max_grad_norm</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">target_kl</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">compare_steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">ratio_threshold</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">10.0</span><span class="p">,</span>
+            <span class="n">use_score_scaling</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">use_score_norm</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">score_clip</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">whiten_rewards</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">is_encoder_decoder</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">warmup_steps</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">learning_rate_end</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1e-5</span><span class="p">,</span>
+            <span class="n">extra_optimizer_kwargs</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">weight_decay</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">0.01</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Configuration class for PPOTrainer</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            exp_name: str : the name of this experiment (by default is</span>
+<span class="sd">                the file name without the extension name)</span>
+<span class="sd">            seed: int :Seed value for random generations</span>
+<span class="sd">            task_name: Optional[str] : Name of task to use - used only</span>
+<span class="sd">                for tracking purposes</span>
+<span class="sd">            model_name: Optional[str] :Name of model to use - used only</span>
+<span class="sd">                for tracking purposes</span>
+<span class="sd">            query_dataset: Optional[str] :Name of dataset to query -</span>
+<span class="sd">                used only for tracking purposes</span>
+<span class="sd">            reward_model: Optional[str] :The reward model to use - used</span>
+<span class="sd">                only for tracking purposes</span>
+<span class="sd">            remove_unused_columns: bool : Remove unused columns from the</span>
+<span class="sd">                dataset if `datasets.Dataset` is used</span>
+<span class="sd">            tracker_kwargs: Optional[dict] : Keyword arguments for the</span>
+<span class="sd">                tracker</span>
+<span class="sd">            accelerator_kwargs: Optional[dict] :Keyword arguments for</span>
+<span class="sd">                the accelerator</span>
+<span class="sd">            project_kwargs: Optional[dict] : Keyword arguments for the</span>
+<span class="sd">                accelerator project config (e.g. `logging_dir`)</span>
+<span class="sd">            tracker_project_name: str :Name of project to use for</span>
+<span class="sd">                tracking</span>
+<span class="sd">            push_to_hub_if_best_kwargs: Optional[dict] :Keyword</span>
+<span class="sd">                arguments for pushing model to the hub during training</span>
+<span class="sd">            steps: int : Number of training steps</span>
+<span class="sd">            learning_rate: float :Adam learning rate</span>
+<span class="sd">            adap_kl_ctrl: bool :Use adaptive KL control, otherwise</span>
+<span class="sd">                linear</span>
+<span class="sd">            init_kl_coef: Optional[float] : Initial KL penalty</span>
+<span class="sd">                coefficient (used for adaptive and linear control)</span>
+<span class="sd">            kl_penalty: Literal[&quot;kl&quot;, &quot;abs&quot;, &quot;mse&quot;, &quot;full&quot;] : kl penalty</span>
+<span class="sd">                options: &#39;kl&#39;: model_logp - ref_logp,</span>
+<span class="sd">            target: Optional[float] :Target KL value for adaptive KL</span>
+<span class="sd">                control</span>
+<span class="sd">            horizon: Optional[float] :Horizon for adaptive KL control</span>
+<span class="sd">            gamma: float :Gamma parameter for advantage calculation</span>
+<span class="sd">            lam: float : Lambda parameter for advantage calculation</span>
+<span class="sd">            cliprange: float : Range for clipping in PPO policy gradient</span>
+<span class="sd">                loss</span>
+<span class="sd">            cliprange_value: float : Range for clipping values in loss</span>
+<span class="sd">                calculation</span>
+<span class="sd">            vf_coef: float : Scaling factor for value loss</span>
+<span class="sd">            batch_size: int :Number of samples per optimisation step</span>
+<span class="sd">            gradient_accumulation_steps: int :The number of gradient</span>
+<span class="sd">                accumulation steps</span>
+<span class="sd">            ppo_epochs: int : Number of optimisation epochs per batch of</span>
+<span class="sd">                samples</span>
+<span class="sd">            max_grad_norm: Optional[float] :Maximum gradient norm for</span>
+<span class="sd">                gradient clipping</span>
+<span class="sd">            target_kl: float :Stop early if we exceed this value by over</span>
+<span class="sd">                50%</span>
+<span class="sd">            compare_steps: int : Number of steps between comparison of</span>
+<span class="sd">                the current reward with the best seen so far</span>
+<span class="sd">            ratio_threshold: float :Skip mini-batches with high PPO</span>
+<span class="sd">                ratios that can cause loss spikes</span>
+<span class="sd">            use_score_scaling: bool : Use score scaling</span>
+<span class="sd">            use_score_norm: bool : Use score normalization. Only</span>
+<span class="sd">                applicable if use_score_scaling is True</span>
+<span class="sd">            score_clip: Optional[float] :Score clipping</span>
+<span class="sd">            whiten_rewards: bool :Whiten the rewards before compute</span>
+<span class="sd">                advantages</span>
+<span class="sd">            is_encoder_decoder: Optional[bool] :TO BE FILLED In RUNTIME:</span>
+<span class="sd">                Whether the model is an encoder-decoder model</span>
+<span class="sd">            warmup_steps: Optional[int]:</span>
+<span class="sd">            learning_rate_end: float :</span>
+<span class="sd">            extra_optimizer_kwargs: dict | None :</span>
+<span class="sd">            weight_decay: Optional[float] : Weight decay is Optimizer</span>
+<span class="sd">                Weight decay :\</span>
+<span class="sd">        (e.g. pretrained_model_name_or_path).</span>
+<span class="sd">        &#39;abs&#39;: abs(kl),  &#39;mse&#39;: mean squared error mse(kl) and &#39;full&#39;: the actual kl for all tokens in the distribution</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">tracker_kwargs</span> <span class="o">=</span> <span class="n">tracker_kwargs</span> <span class="k">if</span> <span class="n">tracker_kwargs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">{}</span>
+        <span class="n">accelerator_kwargs</span> <span class="o">=</span> <span class="n">accelerator_kwargs</span> <span class="k">if</span> <span class="n">accelerator_kwargs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">{}</span>
+        <span class="n">project_kwargs</span> <span class="o">=</span> <span class="n">project_kwargs</span> <span class="k">if</span> <span class="n">project_kwargs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">{}</span>
+        <span class="n">push_to_hub_if_best_kwargs</span> <span class="o">=</span> <span class="n">push_to_hub_if_best_kwargs</span> <span class="k">if</span> <span class="n">push_to_hub_if_best_kwargs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">{}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">exp_name</span> <span class="o">=</span> <span class="n">exp_name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">seed</span> <span class="o">=</span> <span class="n">seed</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">task_name</span> <span class="o">=</span> <span class="n">task_name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_name</span> <span class="o">=</span> <span class="n">model_name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">query_dataset</span> <span class="o">=</span> <span class="n">query_dataset</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reward_model</span> <span class="o">=</span> <span class="n">reward_model</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">remove_unused_columns</span> <span class="o">=</span> <span class="n">remove_unused_columns</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tracker_kwargs</span> <span class="o">=</span> <span class="n">tracker_kwargs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">accelerator_kwargs</span> <span class="o">=</span> <span class="n">accelerator_kwargs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">project_kwargs</span> <span class="o">=</span> <span class="n">project_kwargs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tracker_project_name</span> <span class="o">=</span> <span class="n">tracker_project_name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">push_to_hub_if_best_kwargs</span> <span class="o">=</span> <span class="n">push_to_hub_if_best_kwargs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">steps</span> <span class="o">=</span> <span class="n">steps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">learning_rate</span> <span class="o">=</span> <span class="n">learning_rate</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">adap_kl_ctrl</span> <span class="o">=</span> <span class="n">adap_kl_ctrl</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">init_kl_coef</span> <span class="o">=</span> <span class="n">init_kl_coef</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">kl_penalty</span> <span class="o">=</span> <span class="n">kl_penalty</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">target</span> <span class="o">=</span> <span class="n">target</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">horizon</span> <span class="o">=</span> <span class="n">horizon</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gamma</span> <span class="o">=</span> <span class="n">gamma</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lam</span> <span class="o">=</span> <span class="n">lam</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">cliprange</span> <span class="o">=</span> <span class="n">cliprange</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">cliprange_value</span> <span class="o">=</span> <span class="n">cliprange_value</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">vf_coef</span> <span class="o">=</span> <span class="n">vf_coef</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span> <span class="o">=</span> <span class="n">batch_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_accumulation_steps</span> <span class="o">=</span> <span class="n">gradient_accumulation_steps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ppo_epochs</span> <span class="o">=</span> <span class="n">ppo_epochs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_grad_norm</span> <span class="o">=</span> <span class="n">max_grad_norm</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">target_kl</span> <span class="o">=</span> <span class="n">target_kl</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">compare_steps</span> <span class="o">=</span> <span class="n">compare_steps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ratio_threshold</span> <span class="o">=</span> <span class="n">ratio_threshold</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_score_scaling</span> <span class="o">=</span> <span class="n">use_score_scaling</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_score_norm</span> <span class="o">=</span> <span class="n">use_score_norm</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">score_clip</span> <span class="o">=</span> <span class="n">score_clip</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">whiten_rewards</span> <span class="o">=</span> <span class="n">whiten_rewards</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">is_encoder_decoder</span> <span class="o">=</span> <span class="n">is_encoder_decoder</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">warmup_steps</span> <span class="o">=</span> <span class="n">warmup_steps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">learning_rate_end</span> <span class="o">=</span> <span class="n">learning_rate_end</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_optimizer_kwargs</span> <span class="o">=</span> <span class="n">extra_optimizer_kwargs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">weight_decay</span> <span class="o">=</span> <span class="n">weight_decay</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">total_ppo_epochs</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">ceil</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">steps</span> <span class="o">/</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">gradient_accumulation_steps</span><span class="p">)))</span>
+        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">kl_penalty</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;kl&quot;</span><span class="p">,</span> <span class="s2">&quot;abs&quot;</span><span class="p">,</span> <span class="s2">&quot;mse&quot;</span><span class="p">,</span> <span class="s2">&quot;full&quot;</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="nf">to_dict</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">output_dict</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="n">output_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+        <span class="k">return</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">output_dict</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.reinforcement_learning.trainer.ppo_config.PPOConfig.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">exp_name</span><span class="o">=</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">sys</span><span class="o">.</span><span class="n">argv</span><span class="p">[</span><span class="mi">0</span><span class="p">])[:</span><span class="o">-</span><span class="nb">len</span><span class="p">(</span><span class="s1">&#39;.py&#39;</span><span class="p">)],</span> <span class="n">seed</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">task_name</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">model_name</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">query_dataset</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">reward_model</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">remove_unused_columns</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">tracker_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">accelerator_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">project_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tracker_project_name</span><span class="o">=</span><span class="s1">&#39;trl&#39;</span><span class="p">,</span> <span class="n">push_to_hub_if_best_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">steps</span><span class="o">=</span><span class="mi">20000</span><span class="p">,</span> <span class="n">learning_rate</span><span class="o">=</span><span class="mf">1e-05</span><span class="p">,</span> <span class="n">adap_kl_ctrl</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_kl_coef</span><span class="o">=</span><span class="mf">0.2</span><span class="p">,</span> <span class="n">kl_penalty</span><span class="o">=</span><span class="s1">&#39;kl&#39;</span><span class="p">,</span> <span class="n">target</span><span class="o">=</span><span class="mi">6</span><span class="p">,</span> <span class="n">horizon</span><span class="o">=</span><span class="mi">10000</span><span class="p">,</span> <span class="n">gamma</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">lam</span><span class="o">=</span><span class="mf">0.95</span><span class="p">,</span> <span class="n">cliprange</span><span class="o">=</span><span class="mf">0.2</span><span class="p">,</span> <span class="n">cliprange_value</span><span class="o">=</span><span class="mf">0.2</span><span class="p">,</span> <span class="n">vf_coef</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="mi">256</span><span class="p">,</span> <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">ppo_epochs</span><span class="o">=</span><span class="mi">4</span><span class="p">,</span> <span class="n">max_grad_norm</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">target_kl</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">compare_steps</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">ratio_threshold</span><span class="o">=</span><span class="mf">10.0</span><span class="p">,</span> <span class="n">use_score_scaling</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">use_score_norm</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">score_clip</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">whiten_rewards</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">warmup_steps</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">learning_rate_end</span><span class="o">=</span><span class="mf">1e-05</span><span class="p">,</span> <span class="n">extra_optimizer_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">weight_decay</span><span class="o">=</span><span class="mf">0.01</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Configuration class for PPOTrainer</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>exp_name</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str : the name of this experiment (by default is
+the file name without the extension name)</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="os.path.basename">basename</span>(<span title="sys.argv">argv</span>[0])[:-len(&#39;.py&#39;)]</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>seed</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int :Seed value for random generations</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>task_name</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[str] : Name of task to use - used only
+for tracking purposes</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>model_name</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[str] :Name of model to use - used only
+for tracking purposes</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>query_dataset</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[str] :Name of dataset to query -
+used only for tracking purposes</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>reward_model</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[str] :The reward model to use - used
+only for tracking purposes</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>remove_unused_columns</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool : Remove unused columns from the
+dataset if <code>datasets.Dataset</code> is used</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tracker_kwargs</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict] : Keyword arguments for the
+tracker</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>accelerator_kwargs</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict] :Keyword arguments for
+the accelerator</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>project_kwargs</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict] : Keyword arguments for the
+accelerator project config (e.g. <code>logging_dir</code>)</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tracker_project_name</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str :Name of project to use for
+tracking</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;trl&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>push_to_hub_if_best_kwargs</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict] :Keyword
+arguments for pushing model to the hub during training</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>steps</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int : Number of training steps</p>
+              </div>
+            </td>
+            <td>
+                  <code>20000</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>learning_rate</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float :Adam learning rate</p>
+              </div>
+            </td>
+            <td>
+                  <code>1e-05</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>adap_kl_ctrl</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool :Use adaptive KL control, otherwise
+linear</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_kl_coef</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[float]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[float] : Initial KL penalty
+coefficient (used for adaptive and linear control)</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.2</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>kl_penalty</code></td>
+            <td>
+                  <code><span title="typing.Literal">Literal</span>[&#39;kl&#39;, &#39;abs&#39;, &#39;mse&#39;, &#39;full&#39;]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Literal["kl", "abs", "mse", "full"] : kl penalty
+options: 'kl': model_logp - ref_logp,</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;kl&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>target</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[float]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[float] :Target KL value for adaptive KL
+control</p>
+              </div>
+            </td>
+            <td>
+                  <code>6</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>horizon</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[float]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[float] :Horizon for adaptive KL control</p>
+              </div>
+            </td>
+            <td>
+                  <code>10000</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gamma</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float :Gamma parameter for advantage calculation</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>lam</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float : Lambda parameter for advantage calculation</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.95</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>cliprange</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float : Range for clipping in PPO policy gradient
+loss</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.2</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>cliprange_value</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float : Range for clipping values in loss
+calculation</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.2</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>vf_coef</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float : Scaling factor for value loss</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int :Number of samples per optimisation step</p>
+              </div>
+            </td>
+            <td>
+                  <code>256</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_accumulation_steps</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int :The number of gradient
+accumulation steps</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>ppo_epochs</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int : Number of optimisation epochs per batch of
+samples</p>
+              </div>
+            </td>
+            <td>
+                  <code>4</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_grad_norm</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[float]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[float] :Maximum gradient norm for
+gradient clipping</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>target_kl</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float :Stop early if we exceed this value by over
+50%</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>compare_steps</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int : Number of steps between comparison of
+the current reward with the best seen so far</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>ratio_threshold</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float :Skip mini-batches with high PPO
+ratios that can cause loss spikes</p>
+              </div>
+            </td>
+            <td>
+                  <code>10.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_score_scaling</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool : Use score scaling</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_score_norm</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool : Use score normalization. Only
+applicable if use_score_scaling is True</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>score_clip</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[float]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[float] :Score clipping</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>whiten_rewards</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool :Whiten the rewards before compute
+advantages</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>is_encoder_decoder</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool] :TO BE FILLED In RUNTIME:
+Whether the model is an encoder-decoder model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>warmup_steps</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]:</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>learning_rate_end</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float :</p>
+              </div>
+            </td>
+            <td>
+                  <code>1e-05</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_optimizer_kwargs</code></td>
+            <td>
+                  <code>dict | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict | None :</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>weight_decay</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[float]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[float] : Weight decay is Optimizer
+Weight decay :        (e.g. pretrained_model_name_or_path).</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.01</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>'abs': abs(kl),  'mse': mean squared error mse(kl) and 'full': the actual kl for all tokens in the distribution</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/reinforcement_learning/trainer/ppo_config.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">exp_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">basename</span><span class="p">(</span><span class="n">sys</span><span class="o">.</span><span class="n">argv</span><span class="p">[</span><span class="mi">0</span><span class="p">])[:</span> <span class="o">-</span><span class="nb">len</span><span class="p">(</span><span class="s2">&quot;.py&quot;</span><span class="p">)],</span>
+        <span class="n">seed</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">task_name</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">model_name</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">query_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">reward_model</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">remove_unused_columns</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">tracker_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">accelerator_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">project_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">tracker_project_name</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;trl&quot;</span><span class="p">,</span>
+        <span class="n">push_to_hub_if_best_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">20000</span><span class="p">,</span>
+        <span class="n">learning_rate</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1e-5</span><span class="p">,</span>
+        <span class="n">adap_kl_ctrl</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_kl_coef</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">0.2</span><span class="p">,</span>
+        <span class="n">kl_penalty</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;kl&quot;</span><span class="p">,</span> <span class="s2">&quot;abs&quot;</span><span class="p">,</span> <span class="s2">&quot;mse&quot;</span><span class="p">,</span> <span class="s2">&quot;full&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;kl&quot;</span><span class="p">,</span>
+        <span class="n">target</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mi">6</span><span class="p">,</span>
+        <span class="n">horizon</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mi">10000</span><span class="p">,</span>
+        <span class="n">gamma</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">lam</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.95</span><span class="p">,</span>
+        <span class="n">cliprange</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.2</span><span class="p">,</span>
+        <span class="n">cliprange_value</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.2</span><span class="p">,</span>
+        <span class="n">vf_coef</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+        <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">256</span><span class="p">,</span>
+        <span class="n">gradient_accumulation_steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">ppo_epochs</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4</span><span class="p">,</span>
+        <span class="n">max_grad_norm</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">target_kl</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">compare_steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">ratio_threshold</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">10.0</span><span class="p">,</span>
+        <span class="n">use_score_scaling</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">use_score_norm</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">score_clip</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">whiten_rewards</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">is_encoder_decoder</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">warmup_steps</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">learning_rate_end</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1e-5</span><span class="p">,</span>
+        <span class="n">extra_optimizer_kwargs</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">weight_decay</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">0.01</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Configuration class for PPOTrainer</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        exp_name: str : the name of this experiment (by default is</span>
+<span class="sd">            the file name without the extension name)</span>
+<span class="sd">        seed: int :Seed value for random generations</span>
+<span class="sd">        task_name: Optional[str] : Name of task to use - used only</span>
+<span class="sd">            for tracking purposes</span>
+<span class="sd">        model_name: Optional[str] :Name of model to use - used only</span>
+<span class="sd">            for tracking purposes</span>
+<span class="sd">        query_dataset: Optional[str] :Name of dataset to query -</span>
+<span class="sd">            used only for tracking purposes</span>
+<span class="sd">        reward_model: Optional[str] :The reward model to use - used</span>
+<span class="sd">            only for tracking purposes</span>
+<span class="sd">        remove_unused_columns: bool : Remove unused columns from the</span>
+<span class="sd">            dataset if `datasets.Dataset` is used</span>
+<span class="sd">        tracker_kwargs: Optional[dict] : Keyword arguments for the</span>
+<span class="sd">            tracker</span>
+<span class="sd">        accelerator_kwargs: Optional[dict] :Keyword arguments for</span>
+<span class="sd">            the accelerator</span>
+<span class="sd">        project_kwargs: Optional[dict] : Keyword arguments for the</span>
+<span class="sd">            accelerator project config (e.g. `logging_dir`)</span>
+<span class="sd">        tracker_project_name: str :Name of project to use for</span>
+<span class="sd">            tracking</span>
+<span class="sd">        push_to_hub_if_best_kwargs: Optional[dict] :Keyword</span>
+<span class="sd">            arguments for pushing model to the hub during training</span>
+<span class="sd">        steps: int : Number of training steps</span>
+<span class="sd">        learning_rate: float :Adam learning rate</span>
+<span class="sd">        adap_kl_ctrl: bool :Use adaptive KL control, otherwise</span>
+<span class="sd">            linear</span>
+<span class="sd">        init_kl_coef: Optional[float] : Initial KL penalty</span>
+<span class="sd">            coefficient (used for adaptive and linear control)</span>
+<span class="sd">        kl_penalty: Literal[&quot;kl&quot;, &quot;abs&quot;, &quot;mse&quot;, &quot;full&quot;] : kl penalty</span>
+<span class="sd">            options: &#39;kl&#39;: model_logp - ref_logp,</span>
+<span class="sd">        target: Optional[float] :Target KL value for adaptive KL</span>
+<span class="sd">            control</span>
+<span class="sd">        horizon: Optional[float] :Horizon for adaptive KL control</span>
+<span class="sd">        gamma: float :Gamma parameter for advantage calculation</span>
+<span class="sd">        lam: float : Lambda parameter for advantage calculation</span>
+<span class="sd">        cliprange: float : Range for clipping in PPO policy gradient</span>
+<span class="sd">            loss</span>
+<span class="sd">        cliprange_value: float : Range for clipping values in loss</span>
+<span class="sd">            calculation</span>
+<span class="sd">        vf_coef: float : Scaling factor for value loss</span>
+<span class="sd">        batch_size: int :Number of samples per optimisation step</span>
+<span class="sd">        gradient_accumulation_steps: int :The number of gradient</span>
+<span class="sd">            accumulation steps</span>
+<span class="sd">        ppo_epochs: int : Number of optimisation epochs per batch of</span>
+<span class="sd">            samples</span>
+<span class="sd">        max_grad_norm: Optional[float] :Maximum gradient norm for</span>
+<span class="sd">            gradient clipping</span>
+<span class="sd">        target_kl: float :Stop early if we exceed this value by over</span>
+<span class="sd">            50%</span>
+<span class="sd">        compare_steps: int : Number of steps between comparison of</span>
+<span class="sd">            the current reward with the best seen so far</span>
+<span class="sd">        ratio_threshold: float :Skip mini-batches with high PPO</span>
+<span class="sd">            ratios that can cause loss spikes</span>
+<span class="sd">        use_score_scaling: bool : Use score scaling</span>
+<span class="sd">        use_score_norm: bool : Use score normalization. Only</span>
+<span class="sd">            applicable if use_score_scaling is True</span>
+<span class="sd">        score_clip: Optional[float] :Score clipping</span>
+<span class="sd">        whiten_rewards: bool :Whiten the rewards before compute</span>
+<span class="sd">            advantages</span>
+<span class="sd">        is_encoder_decoder: Optional[bool] :TO BE FILLED In RUNTIME:</span>
+<span class="sd">            Whether the model is an encoder-decoder model</span>
+<span class="sd">        warmup_steps: Optional[int]:</span>
+<span class="sd">        learning_rate_end: float :</span>
+<span class="sd">        extra_optimizer_kwargs: dict | None :</span>
+<span class="sd">        weight_decay: Optional[float] : Weight decay is Optimizer</span>
+<span class="sd">            Weight decay :\</span>
+<span class="sd">    (e.g. pretrained_model_name_or_path).</span>
+<span class="sd">    &#39;abs&#39;: abs(kl),  &#39;mse&#39;: mean squared error mse(kl) and &#39;full&#39;: the actual kl for all tokens in the distribution</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">tracker_kwargs</span> <span class="o">=</span> <span class="n">tracker_kwargs</span> <span class="k">if</span> <span class="n">tracker_kwargs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">{}</span>
+    <span class="n">accelerator_kwargs</span> <span class="o">=</span> <span class="n">accelerator_kwargs</span> <span class="k">if</span> <span class="n">accelerator_kwargs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">{}</span>
+    <span class="n">project_kwargs</span> <span class="o">=</span> <span class="n">project_kwargs</span> <span class="k">if</span> <span class="n">project_kwargs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">{}</span>
+    <span class="n">push_to_hub_if_best_kwargs</span> <span class="o">=</span> <span class="n">push_to_hub_if_best_kwargs</span> <span class="k">if</span> <span class="n">push_to_hub_if_best_kwargs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">{}</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">exp_name</span> <span class="o">=</span> <span class="n">exp_name</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">seed</span> <span class="o">=</span> <span class="n">seed</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">task_name</span> <span class="o">=</span> <span class="n">task_name</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model_name</span> <span class="o">=</span> <span class="n">model_name</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">query_dataset</span> <span class="o">=</span> <span class="n">query_dataset</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">reward_model</span> <span class="o">=</span> <span class="n">reward_model</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">remove_unused_columns</span> <span class="o">=</span> <span class="n">remove_unused_columns</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tracker_kwargs</span> <span class="o">=</span> <span class="n">tracker_kwargs</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">accelerator_kwargs</span> <span class="o">=</span> <span class="n">accelerator_kwargs</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">project_kwargs</span> <span class="o">=</span> <span class="n">project_kwargs</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tracker_project_name</span> <span class="o">=</span> <span class="n">tracker_project_name</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">push_to_hub_if_best_kwargs</span> <span class="o">=</span> <span class="n">push_to_hub_if_best_kwargs</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">steps</span> <span class="o">=</span> <span class="n">steps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">learning_rate</span> <span class="o">=</span> <span class="n">learning_rate</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">adap_kl_ctrl</span> <span class="o">=</span> <span class="n">adap_kl_ctrl</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">init_kl_coef</span> <span class="o">=</span> <span class="n">init_kl_coef</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">kl_penalty</span> <span class="o">=</span> <span class="n">kl_penalty</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">target</span> <span class="o">=</span> <span class="n">target</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">horizon</span> <span class="o">=</span> <span class="n">horizon</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gamma</span> <span class="o">=</span> <span class="n">gamma</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">lam</span> <span class="o">=</span> <span class="n">lam</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">cliprange</span> <span class="o">=</span> <span class="n">cliprange</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">cliprange_value</span> <span class="o">=</span> <span class="n">cliprange_value</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">vf_coef</span> <span class="o">=</span> <span class="n">vf_coef</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span> <span class="o">=</span> <span class="n">batch_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_accumulation_steps</span> <span class="o">=</span> <span class="n">gradient_accumulation_steps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">ppo_epochs</span> <span class="o">=</span> <span class="n">ppo_epochs</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_grad_norm</span> <span class="o">=</span> <span class="n">max_grad_norm</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">target_kl</span> <span class="o">=</span> <span class="n">target_kl</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">compare_steps</span> <span class="o">=</span> <span class="n">compare_steps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">ratio_threshold</span> <span class="o">=</span> <span class="n">ratio_threshold</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_score_scaling</span> <span class="o">=</span> <span class="n">use_score_scaling</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_score_norm</span> <span class="o">=</span> <span class="n">use_score_norm</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">score_clip</span> <span class="o">=</span> <span class="n">score_clip</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">whiten_rewards</span> <span class="o">=</span> <span class="n">whiten_rewards</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">is_encoder_decoder</span> <span class="o">=</span> <span class="n">is_encoder_decoder</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">warmup_steps</span> <span class="o">=</span> <span class="n">warmup_steps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">learning_rate_end</span> <span class="o">=</span> <span class="n">learning_rate_end</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">extra_optimizer_kwargs</span> <span class="o">=</span> <span class="n">extra_optimizer_kwargs</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">weight_decay</span> <span class="o">=</span> <span class="n">weight_decay</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">total_ppo_epochs</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">np</span><span class="o">.</span><span class="n">ceil</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">steps</span> <span class="o">/</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">batch_size</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">gradient_accumulation_steps</span><span class="p">)))</span>
+    <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">kl_penalty</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;kl&quot;</span><span class="p">,</span> <span class="s2">&quot;abs&quot;</span><span class="p">,</span> <span class="s2">&quot;mse&quot;</span><span class="p">,</span> <span class="s2">&quot;full&quot;</span><span class="p">]</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-reinforcement_learning-trainer-ppo_trainer/index.html b/generated-reinforcement_learning-trainer-ppo_trainer/index.html
new file mode 100644
index 000000000..2d6f6f1e1
--- /dev/null
+++ b/generated-reinforcement_learning-trainer-ppo_trainer/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-reinforcement_learning-trainer-ppo_config/">
+      
+      
+        <link rel="next" href="../generated-reinforcement_learning-trainer-training_configs/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Ppo Trainer - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#reinforcement_learningtrainerppo_trainer" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Ppo Trainer
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.ppo_trainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      ppo_trainer
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.ppo_trainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      ppo_trainer
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="reinforcement_learningtrainerppo_trainer">reinforcement_learning.trainer.ppo_trainer</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.reinforcement_learning.trainer.ppo_trainer"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-reinforcement_learning-trainer-training_configs/index.html b/generated-reinforcement_learning-trainer-training_configs/index.html
new file mode 100644
index 000000000..a7480634e
--- /dev/null
+++ b/generated-reinforcement_learning-trainer-training_configs/index.html
@@ -0,0 +1,6259 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-reinforcement_learning-trainer-ppo_trainer/">
+      
+      
+        <link rel="next" href="../generated-reinforcement_learning-trainer-utils/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Training Configs - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#reinforcement_learningtrainertraining_configs" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Training Configs
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.training_configs" class="md-nav__link">
+    <span class="md-ellipsis">
+      training_configs
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      RewardConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="RewardConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig.gradient_checkpointing" class="md-nav__link">
+    <span class="md-ellipsis">
+      gradient_checkpointing
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig.gradient_checkpointing_kwargs" class="md-nav__link">
+    <span class="md-ellipsis">
+      gradient_checkpointing_kwargs
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig.max_length" class="md-nav__link">
+    <span class="md-ellipsis">
+      max_length
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.training_configs" class="md-nav__link">
+    <span class="md-ellipsis">
+      training_configs
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      RewardConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="RewardConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig.gradient_checkpointing" class="md-nav__link">
+    <span class="md-ellipsis">
+      gradient_checkpointing
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig.gradient_checkpointing_kwargs" class="md-nav__link">
+    <span class="md-ellipsis">
+      gradient_checkpointing_kwargs
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig.max_length" class="md-nav__link">
+    <span class="md-ellipsis">
+      max_length
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="reinforcement_learningtrainertraining_configs">reinforcement_learning.trainer.training_configs</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.reinforcement_learning.trainer.training_configs"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig" class="doc doc-heading">
+            <code>RewardConfig</code>
+
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-dataclass"><code>dataclass</code></small>
+  </span>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/reinforcement_learning/trainer/training_configs.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 5</span>
+<span class="normal"> 6</span>
+<span class="normal"> 7</span>
+<span class="normal"> 8</span>
+<span class="normal"> 9</span>
+<span class="normal">10</span>
+<span class="normal">11</span>
+<span class="normal">12</span>
+<span class="normal">13</span>
+<span class="normal">14</span>
+<span class="normal">15</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@dataclass</span>
+<span class="k">class</span> <span class="nc">RewardConfig</span><span class="p">:</span>
+    <span class="n">max_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The maximum length of the sequences in the batch. This argument is </span>
+<span class="sd">    required if you want to use the default data collator.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;If True, use gradient checkpointing to save memory at the expense of slower backward pass.&quot;&quot;&quot;</span>
+    <span class="n">gradient_checkpointing_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Keyword arguments to pass to the gradient checkpointing function.&quot;&quot;&quot;</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig.gradient_checkpointing" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>If True, use gradient checkpointing to save memory at the expense of slower backward pass.</p>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig.gradient_checkpointing_kwargs" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">gradient_checkpointing_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Keyword arguments to pass to the gradient checkpointing function.</p>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-attribute">
+
+
+
+<h3 id="src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig.max_length" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">max_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-class-attribute"><code>class-attribute</code></small>
+      <small class="doc doc-label doc-label-instance-attribute"><code>instance-attribute</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The maximum length of the sequences in the batch. This argument is 
+required if you want to use the default data collator.</p>
+    </div>
+
+</div>
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-reinforcement_learning-trainer-utils/index.html b/generated-reinforcement_learning-trainer-utils/index.html
new file mode 100644
index 000000000..13af550be
--- /dev/null
+++ b/generated-reinforcement_learning-trainer-utils/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-reinforcement_learning-trainer-training_configs/">
+      
+      
+        <link rel="next" href="../generated-reinforcement_learning-utils-collectors/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Utils - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#reinforcement_learningtrainerutils" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Utils
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.trainer.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="reinforcement_learningtrainerutils">reinforcement_learning.trainer.utils</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.reinforcement_learning.trainer.utils"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-reinforcement_learning-utils-collectors/index.html b/generated-reinforcement_learning-utils-collectors/index.html
new file mode 100644
index 000000000..c8ab9e3f3
--- /dev/null
+++ b/generated-reinforcement_learning-utils-collectors/index.html
@@ -0,0 +1,6268 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-reinforcement_learning-trainer-utils/">
+      
+      
+        <link rel="next" href="../generated-serve-gradio_user_interface_base/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Collectors - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#reinforcement_learningutilscollectors" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Collectors
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.utils.collectors" class="md-nav__link">
+    <span class="md-ellipsis">
+      collectors
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.utils.collectors.DPODataCollatorWithPadding" class="md-nav__link">
+    <span class="md-ellipsis">
+      DPODataCollatorWithPadding
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.utils.collectors" class="md-nav__link">
+    <span class="md-ellipsis">
+      collectors
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.reinforcement_learning.utils.collectors.DPODataCollatorWithPadding" class="md-nav__link">
+    <span class="md-ellipsis">
+      DPODataCollatorWithPadding
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="reinforcement_learningutilscollectors">reinforcement_learning.utils.collectors</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.reinforcement_learning.utils.collectors"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.reinforcement_learning.utils.collectors.DPODataCollatorWithPadding" class="doc doc-heading">
+            <code>DPODataCollatorWithPadding</code>
+
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-dataclass"><code>dataclass</code></small>
+  </span>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+      <p>DPO DataCollator class that pads the tokenized inputs to the maximum length of the batch.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>pad_token_id</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: The tokenizers pad_token_id.</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>label_pad_token_id</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: The label used for masking.</p>
+              </div>
+            </td>
+            <td>
+                  <code>-100</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>is_encoder_decoder</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Whether you model has an
+encoder_decoder architecture</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/reinforcement_learning/utils/collectors.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 8</span>
+<span class="normal"> 9</span>
+<span class="normal">10</span>
+<span class="normal">11</span>
+<span class="normal">12</span>
+<span class="normal">13</span>
+<span class="normal">14</span>
+<span class="normal">15</span>
+<span class="normal">16</span>
+<span class="normal">17</span>
+<span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@dataclass</span>
+<span class="k">class</span> <span class="nc">DPODataCollatorWithPadding</span><span class="p">:</span>
+<span class="w">    </span><span class="sa">r</span><span class="sd">&quot;&quot;&quot;DPO DataCollator class that pads the tokenized inputs to the maximum length of the batch.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        pad_token_id: int: The tokenizers pad_token_id.</span>
+<span class="sd">        label_pad_token_id: int: The label used for masking.</span>
+<span class="sd">        is_encoder_decoder: Optional[bool]: Whether you model has an</span>
+<span class="sd">            encoder_decoder architecture</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">pad_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span>
+    <span class="n">label_pad_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">100</span>
+    <span class="n">is_encoder_decoder</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">features</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]])</span> <span class="o">-&gt;</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]:</span>
+        <span class="n">padded_batch</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">features</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
+            <span class="k">if</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_input_ids&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_labels&quot;</span><span class="p">):</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">is_encoder_decoder</span><span class="p">:</span>
+                    <span class="n">to_pad</span> <span class="o">=</span> <span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">ex</span><span class="p">[</span><span class="n">k</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span> <span class="k">for</span> <span class="n">ex</span> <span class="ow">in</span> <span class="n">features</span><span class="p">]</span>
+
+                    <span class="k">if</span> <span class="p">(</span><span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;prompt&quot;</span><span class="p">))</span> <span class="ow">and</span> <span class="p">(</span><span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;input_ids&quot;</span><span class="p">)):</span>
+                        <span class="n">padding_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pad_token_id</span>
+                    <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">):</span>
+                        <span class="n">padding_value</span> <span class="o">=</span> <span class="mi">0</span>
+                    <span class="k">elif</span> <span class="p">(</span><span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;chosen&quot;</span><span class="p">))</span> <span class="ow">or</span> <span class="p">(</span><span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;rejected&quot;</span><span class="p">))</span> <span class="ow">or</span> <span class="p">(</span><span class="s2">&quot;decoder&quot;</span> <span class="ow">in</span> <span class="n">k</span><span class="p">):</span>
+                        <span class="n">padding_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Unexpected key in batch &#39;</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&#39;&quot;</span><span class="p">)</span>
+                    <span class="n">padded_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">pad_sequence</span><span class="p">(</span><span class="n">to_pad</span><span class="p">,</span> <span class="n">batch_first</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">padding_value</span><span class="o">=</span><span class="n">padding_value</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="s2">&quot;prompt&quot;</span> <span class="ow">in</span> <span class="n">k</span><span class="p">:</span>
+                        <span class="n">to_pad</span> <span class="o">=</span> <span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">ex</span><span class="p">[</span><span class="n">k</span><span class="p">][::</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span> <span class="k">for</span> <span class="n">ex</span> <span class="ow">in</span> <span class="n">features</span><span class="p">]</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">to_pad</span> <span class="o">=</span> <span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">ex</span><span class="p">[</span><span class="n">k</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span> <span class="k">for</span> <span class="n">ex</span> <span class="ow">in</span> <span class="n">features</span><span class="p">]</span>
+                    <span class="k">if</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_input_ids&quot;</span><span class="p">):</span>
+                        <span class="n">padding_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pad_token_id</span>
+                    <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_labels&quot;</span><span class="p">):</span>
+                        <span class="n">padding_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span>
+                    <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">):</span>
+                        <span class="n">padding_value</span> <span class="o">=</span> <span class="mi">0</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Unexpected key in batch &#39;</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&#39;&quot;</span><span class="p">)</span>
+                    <span class="n">padded_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">pad_sequence</span><span class="p">(</span><span class="n">to_pad</span><span class="p">,</span> <span class="n">batch_first</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">padding_value</span><span class="o">=</span><span class="n">padding_value</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="s2">&quot;prompt&quot;</span> <span class="ow">in</span> <span class="n">k</span><span class="p">:</span>
+                        <span class="n">padded_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">flip</span><span class="p">(</span><span class="n">padded_batch</span><span class="p">[</span><span class="n">k</span><span class="p">],</span> <span class="n">axis</span><span class="o">=</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span>
+            <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_logps&quot;</span><span class="p">):</span>
+                <span class="n">padded_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">([</span><span class="n">ex</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="k">for</span> <span class="n">ex</span> <span class="ow">in</span> <span class="n">features</span><span class="p">])</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">padded_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">ex</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="k">for</span> <span class="n">ex</span> <span class="ow">in</span> <span class="n">features</span><span class="p">]</span>
+        <span class="k">return</span> <span class="n">padded_batch</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-gradio_user_interface_base/index.html b/generated-serve-gradio_user_interface_base/index.html
new file mode 100644
index 000000000..805c3d92f
--- /dev/null
+++ b/generated-serve-gradio_user_interface_base/index.html
@@ -0,0 +1,7238 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-reinforcement_learning-utils-collectors/">
+      
+      
+        <link rel="next" href="../generated-serve-jax_serve/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Gradio User Interface Base - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#servegradio_user_interface_base" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Gradio User Interface Base
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.gradio_user_interface_base" class="md-nav__link">
+    <span class="md-ellipsis">
+      gradio_user_interface_base
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference" class="md-nav__link">
+    <span class="md-ellipsis">
+      GradioUserInference
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="GradioUserInference">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.build_inference" class="md-nav__link">
+    <span class="md-ellipsis">
+      build_inference
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.chat_interface_components" class="md-nav__link">
+    <span class="md-ellipsis">
+      chat_interface_components
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.gradio_user_interface_base" class="md-nav__link">
+    <span class="md-ellipsis">
+      gradio_user_interface_base
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference" class="md-nav__link">
+    <span class="md-ellipsis">
+      GradioUserInference
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="GradioUserInference">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.build_inference" class="md-nav__link">
+    <span class="md-ellipsis">
+      build_inference
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.chat_interface_components" class="md-nav__link">
+    <span class="md-ellipsis">
+      chat_interface_components
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="servegradio_user_interface_base">serve.gradio_user_interface_base</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.gradio_user_interface_base"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.serve.gradio_user_interface_base.GradioUserInference" class="doc doc-heading">
+            <code>GradioUserInference</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/serve/gradio_user_interface_base.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  8</span>
+<span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">GradioUserInference</span><span class="p">:</span>
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">chat_interface_components</span><span class="p">(</span>
+            <span class="n">sample_func</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Callable</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">max_compile_tokens</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The function `chat_interface_components` creates the components for a chat interface, including</span>
+<span class="sd">        a chat history, message box, buttons for submitting, stopping, and clearing the conversation,</span>
+<span class="sd">        and sliders for advanced options.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">_max_length</span> <span class="o">=</span> <span class="n">max_sequence_length</span>
+        <span class="n">_max_new_tokens</span> <span class="o">=</span> <span class="n">max_new_tokens</span>
+        <span class="n">_max_compile_tokens</span> <span class="o">=</span> <span class="n">max_compile_tokens</span>
+
+        <span class="k">with</span> <span class="n">gr</span><span class="o">.</span><span class="n">Column</span><span class="p">(</span><span class="s2">&quot;100%&quot;</span><span class="p">):</span>
+            <span class="n">gr</span><span class="o">.</span><span class="n">Markdown</span><span class="p">(</span>
+                <span class="s2">&quot;# &lt;h1&gt;&lt;center style=&#39;color:white;&#39;&gt;Powered by &quot;</span>
+                <span class="s2">&quot;[EasyDeL](https://github.com/erfanzar/EasyDeL)&lt;/center&gt;&lt;/h1&gt;&quot;</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">history</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Chatbot</span><span class="p">(</span>
+                <span class="n">elem_id</span><span class="o">=</span><span class="s2">&quot;easydel&quot;</span><span class="p">,</span>
+                <span class="n">label</span><span class="o">=</span><span class="s2">&quot;easydel&quot;</span><span class="p">,</span>
+                <span class="n">container</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">height</span><span class="o">=</span><span class="s2">&quot;65vh&quot;</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">prompt</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Textbox</span><span class="p">(</span>
+                <span class="n">show_label</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">placeholder</span><span class="o">=</span><span class="s1">&#39;Enter Your Prompt Here.&#39;</span><span class="p">,</span> <span class="n">container</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+            <span class="k">with</span> <span class="n">gr</span><span class="o">.</span><span class="n">Row</span><span class="p">():</span>
+                <span class="n">submit</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Button</span><span class="p">(</span>
+                    <span class="n">value</span><span class="o">=</span><span class="s2">&quot;Run&quot;</span><span class="p">,</span>
+                    <span class="n">variant</span><span class="o">=</span><span class="s2">&quot;primary&quot;</span>
+                <span class="p">)</span>
+                <span class="n">stop</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Button</span><span class="p">(</span>
+                    <span class="n">value</span><span class="o">=</span><span class="s1">&#39;Stop&#39;</span>
+                <span class="p">)</span>
+                <span class="n">clear</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Button</span><span class="p">(</span>
+                    <span class="n">value</span><span class="o">=</span><span class="s1">&#39;Clear Conversation&#39;</span>
+                <span class="p">)</span>
+            <span class="k">with</span> <span class="n">gr</span><span class="o">.</span><span class="n">Accordion</span><span class="p">(</span><span class="nb">open</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">label</span><span class="o">=</span><span class="s2">&quot;Advanced Options&quot;</span><span class="p">):</span>
+                <span class="n">system_prompt</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Textbox</span><span class="p">(</span>
+                    <span class="n">value</span><span class="o">=</span><span class="s2">&quot;&quot;</span><span class="p">,</span>
+                    <span class="n">show_label</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                    <span class="n">label</span><span class="o">=</span><span class="s2">&quot;System Prompt&quot;</span><span class="p">,</span>
+                    <span class="n">placeholder</span><span class="o">=</span><span class="s1">&#39;System Prompt&#39;</span><span class="p">,</span>
+                    <span class="n">container</span><span class="o">=</span><span class="kc">False</span>
+                <span class="p">)</span>
+
+                <span class="n">max_sequence_length</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Slider</span><span class="p">(</span>
+                    <span class="n">value</span><span class="o">=</span><span class="n">_max_length</span><span class="p">,</span>
+                    <span class="n">maximum</span><span class="o">=</span><span class="mi">10000</span><span class="p">,</span>
+                    <span class="n">minimum</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                    <span class="n">label</span><span class="o">=</span><span class="s1">&#39;Max Tokens&#39;</span><span class="p">,</span>
+                    <span class="n">step</span><span class="o">=</span><span class="mi">1</span>
+                <span class="p">)</span>
+
+                <span class="n">max_new_tokens</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Slider</span><span class="p">(</span>
+                    <span class="n">value</span><span class="o">=</span><span class="n">_max_new_tokens</span><span class="p">,</span>
+                    <span class="n">maximum</span><span class="o">=</span><span class="mi">10000</span><span class="p">,</span>
+                    <span class="n">minimum</span><span class="o">=</span><span class="n">_max_compile_tokens</span><span class="p">,</span>
+                    <span class="n">label</span><span class="o">=</span><span class="s1">&#39;Max New Tokens&#39;</span><span class="p">,</span>
+                    <span class="n">step</span><span class="o">=</span><span class="n">_max_compile_tokens</span>
+                <span class="p">)</span>
+
+                <span class="n">max_compile_tokens</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Slider</span><span class="p">(</span>
+                    <span class="n">value</span><span class="o">=</span><span class="n">_max_compile_tokens</span><span class="p">,</span>
+                    <span class="n">maximum</span><span class="o">=</span><span class="n">_max_compile_tokens</span><span class="p">,</span>
+                    <span class="n">minimum</span><span class="o">=</span><span class="n">_max_compile_tokens</span><span class="p">,</span>
+                    <span class="n">label</span><span class="o">=</span><span class="s1">&#39;Max Compile Tokens&#39;</span><span class="p">,</span>
+                    <span class="n">step</span><span class="o">=</span><span class="n">_max_compile_tokens</span>
+                <span class="p">)</span>
+
+                <span class="n">temperature</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Slider</span><span class="p">(</span>
+                    <span class="n">value</span><span class="o">=</span><span class="mf">0.8</span><span class="p">,</span>
+                    <span class="n">maximum</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                    <span class="n">minimum</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span>
+                    <span class="n">label</span><span class="o">=</span><span class="s1">&#39;Temperature&#39;</span><span class="p">,</span>
+                    <span class="n">step</span><span class="o">=</span><span class="mf">0.01</span>
+                <span class="p">)</span>
+                <span class="n">top_p</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Slider</span><span class="p">(</span>
+                    <span class="n">value</span><span class="o">=</span><span class="mf">0.9</span><span class="p">,</span>
+                    <span class="n">maximum</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                    <span class="n">minimum</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span>
+                    <span class="n">label</span><span class="o">=</span><span class="s1">&#39;Top P&#39;</span><span class="p">,</span>
+                    <span class="n">step</span><span class="o">=</span><span class="mf">0.01</span>
+                <span class="p">)</span>
+                <span class="n">top_k</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Slider</span><span class="p">(</span>
+                    <span class="n">value</span><span class="o">=</span><span class="mi">50</span><span class="p">,</span>
+                    <span class="n">maximum</span><span class="o">=</span><span class="mi">100</span><span class="p">,</span>
+                    <span class="n">minimum</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                    <span class="n">label</span><span class="o">=</span><span class="s1">&#39;Top K&#39;</span><span class="p">,</span>
+                    <span class="n">step</span><span class="o">=</span><span class="mi">1</span>
+                <span class="p">)</span>
+                <span class="n">repetition_penalty</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Slider</span><span class="p">(</span>
+                    <span class="n">value</span><span class="o">=</span><span class="mf">1.2</span><span class="p">,</span>
+                    <span class="n">maximum</span><span class="o">=</span><span class="mi">5</span><span class="p">,</span>
+                    <span class="n">minimum</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span>
+                    <span class="n">label</span><span class="o">=</span><span class="s1">&#39;Repetition Penalty&#39;</span>
+                <span class="p">)</span>
+                <span class="n">greedy</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Radio</span><span class="p">(</span>
+                    <span class="n">value</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                    <span class="n">label</span><span class="o">=</span><span class="s2">&quot;Do Sample or Greedy Generation&quot;</span>
+                <span class="p">)</span>
+
+                <span class="n">mode</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Dropdown</span><span class="p">(</span>
+                    <span class="n">choices</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;Chat&quot;</span><span class="p">,</span> <span class="s2">&quot;Instruct&quot;</span><span class="p">],</span>
+                    <span class="n">value</span><span class="o">=</span><span class="s2">&quot;Chat&quot;</span><span class="p">,</span>
+                    <span class="n">label</span><span class="o">=</span><span class="s2">&quot;Mode&quot;</span><span class="p">,</span>
+                    <span class="n">multiselect</span><span class="o">=</span><span class="kc">False</span>
+                <span class="p">)</span>
+
+        <span class="n">inputs</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="n">prompt</span><span class="p">,</span>
+            <span class="n">history</span><span class="p">,</span>
+            <span class="n">system_prompt</span><span class="p">,</span>
+            <span class="n">mode</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="p">,</span>
+            <span class="n">max_compile_tokens</span><span class="p">,</span>
+            <span class="n">greedy</span><span class="p">,</span>
+            <span class="n">temperature</span><span class="p">,</span>
+            <span class="n">top_p</span><span class="p">,</span>
+            <span class="n">top_k</span><span class="p">,</span>
+            <span class="n">repetition_penalty</span>
+        <span class="p">]</span>
+
+        <span class="n">clear</span><span class="o">.</span><span class="n">click</span><span class="p">(</span><span class="n">fn</span><span class="o">=</span><span class="k">lambda</span><span class="p">:</span> <span class="p">[],</span> <span class="n">outputs</span><span class="o">=</span><span class="p">[</span><span class="n">history</span><span class="p">])</span>
+        <span class="n">sub_event</span> <span class="o">=</span> <span class="n">submit</span><span class="o">.</span><span class="n">click</span><span class="p">(</span>
+            <span class="n">fn</span><span class="o">=</span><span class="n">sample_func</span><span class="p">,</span> <span class="n">inputs</span><span class="o">=</span><span class="n">inputs</span><span class="p">,</span> <span class="n">outputs</span><span class="o">=</span><span class="p">[</span><span class="n">prompt</span><span class="p">,</span> <span class="n">history</span><span class="p">]</span>
+        <span class="p">)</span>
+        <span class="n">txt_event</span> <span class="o">=</span> <span class="n">prompt</span><span class="o">.</span><span class="n">submit</span><span class="p">(</span>
+            <span class="n">fn</span><span class="o">=</span><span class="n">sample_func</span><span class="p">,</span> <span class="n">inputs</span><span class="o">=</span><span class="n">inputs</span><span class="p">,</span> <span class="n">outputs</span><span class="o">=</span><span class="p">[</span><span class="n">prompt</span><span class="p">,</span> <span class="n">history</span><span class="p">]</span>
+        <span class="p">)</span>
+        <span class="n">stop</span><span class="o">.</span><span class="n">click</span><span class="p">(</span>
+            <span class="n">fn</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">inputs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">outputs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">cancels</span><span class="o">=</span><span class="p">[</span><span class="n">txt_event</span><span class="p">,</span> <span class="n">sub_event</span><span class="p">]</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">sample_gradio</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">prompt</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">history</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
+            <span class="n">system_prompt</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
+            <span class="n">mode</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">max_compile_tokens</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">greedy</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>
+            <span class="n">temperature</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+            <span class="n">top_p</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+            <span class="n">top_k</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">repetition_penalty</span><span class="p">:</span> <span class="nb">float</span>
+    <span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">build_inference</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">sample_func</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Callable</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">max_compile_tokens</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">gr</span><span class="o">.</span><span class="n">Blocks</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The function &quot;build_inference&quot; returns a gr.Blocks object that model</span>
+<span class="sd">        interface components.</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            a gr.Blocks object.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">with</span> <span class="n">gr</span><span class="o">.</span><span class="n">Blocks</span><span class="p">(</span>
+                <span class="n">theme</span><span class="o">=</span><span class="n">seafoam</span>
+        <span class="p">)</span> <span class="k">as</span> <span class="n">block</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">chat_interface_components</span><span class="p">(</span>
+                <span class="n">sample_func</span><span class="o">=</span><span class="n">sample_func</span><span class="p">,</span>
+                <span class="n">max_sequence_length</span><span class="o">=</span><span class="n">max_sequence_length</span><span class="p">,</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">max_new_tokens</span><span class="p">,</span>
+                <span class="n">max_compile_tokens</span><span class="o">=</span><span class="n">max_compile_tokens</span>
+            <span class="p">)</span>
+        <span class="k">return</span> <span class="n">block</span>
+
+    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">        This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">        to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">        object, or when you type its name in the REPL.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A string representation of the object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                    <span class="o">...</span>
+
+        <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">        It should return a string representation of the object.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The object&#39;s string representation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.__repr__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__repr__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>repr</strong> function is used to generate a string representation of an object.
+This function should return a string that can be parsed by the Python interpreter
+to recreate the object. The <strong>repr</strong> function is called when you use print() on an
+object, or when you type its name in the REPL.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A string representation of the object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/gradio_user_interface_base.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">    This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">    to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">    object, or when you type its name in the REPL.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A string representation of the object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                <span class="o">...</span>
+
+    <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.__str__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__str__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>str</strong> function is called when you use the print function or when str() is used.
+It should return a string representation of the object.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The object's string representation</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/gradio_user_interface_base.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">    It should return a string representation of the object.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The object&#39;s string representation</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.build_inference" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">build_inference</span><span class="p">(</span><span class="n">sample_func</span><span class="p">,</span> <span class="n">max_sequence_length</span><span class="p">,</span> <span class="n">max_new_tokens</span><span class="p">,</span> <span class="n">max_compile_tokens</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The function "build_inference" returns a gr.Blocks object that model
+interface components.</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="gradio.Blocks">Blocks</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>a gr.Blocks object.</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/gradio_user_interface_base.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">build_inference</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">sample_func</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Callable</span><span class="p">,</span>
+        <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+        <span class="n">max_new_tokens</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+        <span class="n">max_compile_tokens</span><span class="p">:</span> <span class="nb">int</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">gr</span><span class="o">.</span><span class="n">Blocks</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The function &quot;build_inference&quot; returns a gr.Blocks object that model</span>
+<span class="sd">    interface components.</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        a gr.Blocks object.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">with</span> <span class="n">gr</span><span class="o">.</span><span class="n">Blocks</span><span class="p">(</span>
+            <span class="n">theme</span><span class="o">=</span><span class="n">seafoam</span>
+    <span class="p">)</span> <span class="k">as</span> <span class="n">block</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">chat_interface_components</span><span class="p">(</span>
+            <span class="n">sample_func</span><span class="o">=</span><span class="n">sample_func</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="o">=</span><span class="n">max_sequence_length</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">max_new_tokens</span><span class="p">,</span>
+            <span class="n">max_compile_tokens</span><span class="o">=</span><span class="n">max_compile_tokens</span>
+        <span class="p">)</span>
+    <span class="k">return</span> <span class="n">block</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.chat_interface_components" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">chat_interface_components</span><span class="p">(</span><span class="n">sample_func</span><span class="p">,</span> <span class="n">max_sequence_length</span><span class="p">,</span> <span class="n">max_new_tokens</span><span class="p">,</span> <span class="n">max_compile_tokens</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-staticmethod"><code>staticmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The function <code>chat_interface_components</code> creates the components for a chat interface, including
+a chat history, message box, buttons for submitting, stopping, and clearing the conversation,
+and sliders for advanced options.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/gradio_user_interface_base.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@staticmethod</span>
+<span class="k">def</span> <span class="nf">chat_interface_components</span><span class="p">(</span>
+        <span class="n">sample_func</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Callable</span><span class="p">,</span>
+        <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+        <span class="n">max_new_tokens</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+        <span class="n">max_compile_tokens</span><span class="p">:</span> <span class="nb">int</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The function `chat_interface_components` creates the components for a chat interface, including</span>
+<span class="sd">    a chat history, message box, buttons for submitting, stopping, and clearing the conversation,</span>
+<span class="sd">    and sliders for advanced options.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">_max_length</span> <span class="o">=</span> <span class="n">max_sequence_length</span>
+    <span class="n">_max_new_tokens</span> <span class="o">=</span> <span class="n">max_new_tokens</span>
+    <span class="n">_max_compile_tokens</span> <span class="o">=</span> <span class="n">max_compile_tokens</span>
+
+    <span class="k">with</span> <span class="n">gr</span><span class="o">.</span><span class="n">Column</span><span class="p">(</span><span class="s2">&quot;100%&quot;</span><span class="p">):</span>
+        <span class="n">gr</span><span class="o">.</span><span class="n">Markdown</span><span class="p">(</span>
+            <span class="s2">&quot;# &lt;h1&gt;&lt;center style=&#39;color:white;&#39;&gt;Powered by &quot;</span>
+            <span class="s2">&quot;[EasyDeL](https://github.com/erfanzar/EasyDeL)&lt;/center&gt;&lt;/h1&gt;&quot;</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">history</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Chatbot</span><span class="p">(</span>
+            <span class="n">elem_id</span><span class="o">=</span><span class="s2">&quot;easydel&quot;</span><span class="p">,</span>
+            <span class="n">label</span><span class="o">=</span><span class="s2">&quot;easydel&quot;</span><span class="p">,</span>
+            <span class="n">container</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">height</span><span class="o">=</span><span class="s2">&quot;65vh&quot;</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">prompt</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Textbox</span><span class="p">(</span>
+            <span class="n">show_label</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">placeholder</span><span class="o">=</span><span class="s1">&#39;Enter Your Prompt Here.&#39;</span><span class="p">,</span> <span class="n">container</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+        <span class="k">with</span> <span class="n">gr</span><span class="o">.</span><span class="n">Row</span><span class="p">():</span>
+            <span class="n">submit</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Button</span><span class="p">(</span>
+                <span class="n">value</span><span class="o">=</span><span class="s2">&quot;Run&quot;</span><span class="p">,</span>
+                <span class="n">variant</span><span class="o">=</span><span class="s2">&quot;primary&quot;</span>
+            <span class="p">)</span>
+            <span class="n">stop</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Button</span><span class="p">(</span>
+                <span class="n">value</span><span class="o">=</span><span class="s1">&#39;Stop&#39;</span>
+            <span class="p">)</span>
+            <span class="n">clear</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Button</span><span class="p">(</span>
+                <span class="n">value</span><span class="o">=</span><span class="s1">&#39;Clear Conversation&#39;</span>
+            <span class="p">)</span>
+        <span class="k">with</span> <span class="n">gr</span><span class="o">.</span><span class="n">Accordion</span><span class="p">(</span><span class="nb">open</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">label</span><span class="o">=</span><span class="s2">&quot;Advanced Options&quot;</span><span class="p">):</span>
+            <span class="n">system_prompt</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Textbox</span><span class="p">(</span>
+                <span class="n">value</span><span class="o">=</span><span class="s2">&quot;&quot;</span><span class="p">,</span>
+                <span class="n">show_label</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="n">label</span><span class="o">=</span><span class="s2">&quot;System Prompt&quot;</span><span class="p">,</span>
+                <span class="n">placeholder</span><span class="o">=</span><span class="s1">&#39;System Prompt&#39;</span><span class="p">,</span>
+                <span class="n">container</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+
+            <span class="n">max_sequence_length</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Slider</span><span class="p">(</span>
+                <span class="n">value</span><span class="o">=</span><span class="n">_max_length</span><span class="p">,</span>
+                <span class="n">maximum</span><span class="o">=</span><span class="mi">10000</span><span class="p">,</span>
+                <span class="n">minimum</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                <span class="n">label</span><span class="o">=</span><span class="s1">&#39;Max Tokens&#39;</span><span class="p">,</span>
+                <span class="n">step</span><span class="o">=</span><span class="mi">1</span>
+            <span class="p">)</span>
+
+            <span class="n">max_new_tokens</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Slider</span><span class="p">(</span>
+                <span class="n">value</span><span class="o">=</span><span class="n">_max_new_tokens</span><span class="p">,</span>
+                <span class="n">maximum</span><span class="o">=</span><span class="mi">10000</span><span class="p">,</span>
+                <span class="n">minimum</span><span class="o">=</span><span class="n">_max_compile_tokens</span><span class="p">,</span>
+                <span class="n">label</span><span class="o">=</span><span class="s1">&#39;Max New Tokens&#39;</span><span class="p">,</span>
+                <span class="n">step</span><span class="o">=</span><span class="n">_max_compile_tokens</span>
+            <span class="p">)</span>
+
+            <span class="n">max_compile_tokens</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Slider</span><span class="p">(</span>
+                <span class="n">value</span><span class="o">=</span><span class="n">_max_compile_tokens</span><span class="p">,</span>
+                <span class="n">maximum</span><span class="o">=</span><span class="n">_max_compile_tokens</span><span class="p">,</span>
+                <span class="n">minimum</span><span class="o">=</span><span class="n">_max_compile_tokens</span><span class="p">,</span>
+                <span class="n">label</span><span class="o">=</span><span class="s1">&#39;Max Compile Tokens&#39;</span><span class="p">,</span>
+                <span class="n">step</span><span class="o">=</span><span class="n">_max_compile_tokens</span>
+            <span class="p">)</span>
+
+            <span class="n">temperature</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Slider</span><span class="p">(</span>
+                <span class="n">value</span><span class="o">=</span><span class="mf">0.8</span><span class="p">,</span>
+                <span class="n">maximum</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                <span class="n">minimum</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span>
+                <span class="n">label</span><span class="o">=</span><span class="s1">&#39;Temperature&#39;</span><span class="p">,</span>
+                <span class="n">step</span><span class="o">=</span><span class="mf">0.01</span>
+            <span class="p">)</span>
+            <span class="n">top_p</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Slider</span><span class="p">(</span>
+                <span class="n">value</span><span class="o">=</span><span class="mf">0.9</span><span class="p">,</span>
+                <span class="n">maximum</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                <span class="n">minimum</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span>
+                <span class="n">label</span><span class="o">=</span><span class="s1">&#39;Top P&#39;</span><span class="p">,</span>
+                <span class="n">step</span><span class="o">=</span><span class="mf">0.01</span>
+            <span class="p">)</span>
+            <span class="n">top_k</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Slider</span><span class="p">(</span>
+                <span class="n">value</span><span class="o">=</span><span class="mi">50</span><span class="p">,</span>
+                <span class="n">maximum</span><span class="o">=</span><span class="mi">100</span><span class="p">,</span>
+                <span class="n">minimum</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                <span class="n">label</span><span class="o">=</span><span class="s1">&#39;Top K&#39;</span><span class="p">,</span>
+                <span class="n">step</span><span class="o">=</span><span class="mi">1</span>
+            <span class="p">)</span>
+            <span class="n">repetition_penalty</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Slider</span><span class="p">(</span>
+                <span class="n">value</span><span class="o">=</span><span class="mf">1.2</span><span class="p">,</span>
+                <span class="n">maximum</span><span class="o">=</span><span class="mi">5</span><span class="p">,</span>
+                <span class="n">minimum</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span>
+                <span class="n">label</span><span class="o">=</span><span class="s1">&#39;Repetition Penalty&#39;</span>
+            <span class="p">)</span>
+            <span class="n">greedy</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Radio</span><span class="p">(</span>
+                <span class="n">value</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">label</span><span class="o">=</span><span class="s2">&quot;Do Sample or Greedy Generation&quot;</span>
+            <span class="p">)</span>
+
+            <span class="n">mode</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">Dropdown</span><span class="p">(</span>
+                <span class="n">choices</span><span class="o">=</span><span class="p">[</span><span class="s2">&quot;Chat&quot;</span><span class="p">,</span> <span class="s2">&quot;Instruct&quot;</span><span class="p">],</span>
+                <span class="n">value</span><span class="o">=</span><span class="s2">&quot;Chat&quot;</span><span class="p">,</span>
+                <span class="n">label</span><span class="o">=</span><span class="s2">&quot;Mode&quot;</span><span class="p">,</span>
+                <span class="n">multiselect</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+
+    <span class="n">inputs</span> <span class="o">=</span> <span class="p">[</span>
+        <span class="n">prompt</span><span class="p">,</span>
+        <span class="n">history</span><span class="p">,</span>
+        <span class="n">system_prompt</span><span class="p">,</span>
+        <span class="n">mode</span><span class="p">,</span>
+        <span class="n">max_sequence_length</span><span class="p">,</span>
+        <span class="n">max_new_tokens</span><span class="p">,</span>
+        <span class="n">max_compile_tokens</span><span class="p">,</span>
+        <span class="n">greedy</span><span class="p">,</span>
+        <span class="n">temperature</span><span class="p">,</span>
+        <span class="n">top_p</span><span class="p">,</span>
+        <span class="n">top_k</span><span class="p">,</span>
+        <span class="n">repetition_penalty</span>
+    <span class="p">]</span>
+
+    <span class="n">clear</span><span class="o">.</span><span class="n">click</span><span class="p">(</span><span class="n">fn</span><span class="o">=</span><span class="k">lambda</span><span class="p">:</span> <span class="p">[],</span> <span class="n">outputs</span><span class="o">=</span><span class="p">[</span><span class="n">history</span><span class="p">])</span>
+    <span class="n">sub_event</span> <span class="o">=</span> <span class="n">submit</span><span class="o">.</span><span class="n">click</span><span class="p">(</span>
+        <span class="n">fn</span><span class="o">=</span><span class="n">sample_func</span><span class="p">,</span> <span class="n">inputs</span><span class="o">=</span><span class="n">inputs</span><span class="p">,</span> <span class="n">outputs</span><span class="o">=</span><span class="p">[</span><span class="n">prompt</span><span class="p">,</span> <span class="n">history</span><span class="p">]</span>
+    <span class="p">)</span>
+    <span class="n">txt_event</span> <span class="o">=</span> <span class="n">prompt</span><span class="o">.</span><span class="n">submit</span><span class="p">(</span>
+        <span class="n">fn</span><span class="o">=</span><span class="n">sample_func</span><span class="p">,</span> <span class="n">inputs</span><span class="o">=</span><span class="n">inputs</span><span class="p">,</span> <span class="n">outputs</span><span class="o">=</span><span class="p">[</span><span class="n">prompt</span><span class="p">,</span> <span class="n">history</span><span class="p">]</span>
+    <span class="p">)</span>
+    <span class="n">stop</span><span class="o">.</span><span class="n">click</span><span class="p">(</span>
+        <span class="n">fn</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">inputs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">outputs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">cancels</span><span class="o">=</span><span class="p">[</span><span class="n">txt_event</span><span class="p">,</span> <span class="n">sub_event</span><span class="p">]</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-jax_serve/index.html b/generated-serve-jax_serve/index.html
new file mode 100644
index 000000000..6d8e01e2a
--- /dev/null
+++ b/generated-serve-jax_serve/index.html
@@ -0,0 +1,12200 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-gradio_user_interface_base/">
+      
+      
+        <link rel="next" href="../generated-serve-prompters-base_prompter/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Jax Serve - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#servejax_serve" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Jax Serve
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve" class="md-nav__link">
+    <span class="md-ellipsis">
+      jax_serve
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer" class="md-nav__link">
+    <span class="md-ellipsis">
+      JAXServer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="JAXServer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.auto_configure" class="md-nav__link">
+    <span class="md-ellipsis">
+      auto_configure
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.compile" class="md-nav__link">
+    <span class="md-ellipsis">
+      compile
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.configure_generate_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_generate_functions
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.end" class="md-nav__link">
+    <span class="md-ellipsis">
+      end
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.fire" class="md-nav__link">
+    <span class="md-ellipsis">
+      fire
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.format_chat" class="md-nav__link">
+    <span class="md-ellipsis">
+      format_chat
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.format_instruct" class="md-nav__link">
+    <span class="md-ellipsis">
+      format_instruct
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.forward_chat" class="md-nav__link">
+    <span class="md-ellipsis">
+      forward_chat
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.forward_chat_non_api" class="md-nav__link">
+    <span class="md-ellipsis">
+      forward_chat_non_api
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.forward_instruct" class="md-nav__link">
+    <span class="md-ellipsis">
+      forward_instruct
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.forward_instruct_non_api" class="md-nav__link">
+    <span class="md-ellipsis">
+      forward_instruct_non_api
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.from_parameters" class="md-nav__link">
+    <span class="md-ellipsis">
+      from_parameters
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.generate" class="md-nav__link">
+    <span class="md-ellipsis">
+      generate
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.get_memory" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_memory
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.greedy_generate" class="md-nav__link">
+    <span class="md-ellipsis">
+      greedy_generate
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.load" class="md-nav__link">
+    <span class="md-ellipsis">
+      load
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.sample" class="md-nav__link">
+    <span class="md-ellipsis">
+      sample
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.shard_params" class="md-nav__link">
+    <span class="md-ellipsis">
+      shard_params
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.status" class="md-nav__link">
+    <span class="md-ellipsis">
+      status
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServerConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      JAXServerConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="JAXServerConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServerConfig.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServerConfig.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve" class="md-nav__link">
+    <span class="md-ellipsis">
+      jax_serve
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer" class="md-nav__link">
+    <span class="md-ellipsis">
+      JAXServer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="JAXServer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.auto_configure" class="md-nav__link">
+    <span class="md-ellipsis">
+      auto_configure
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.compile" class="md-nav__link">
+    <span class="md-ellipsis">
+      compile
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.configure_generate_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_generate_functions
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.end" class="md-nav__link">
+    <span class="md-ellipsis">
+      end
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.fire" class="md-nav__link">
+    <span class="md-ellipsis">
+      fire
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.format_chat" class="md-nav__link">
+    <span class="md-ellipsis">
+      format_chat
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.format_instruct" class="md-nav__link">
+    <span class="md-ellipsis">
+      format_instruct
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.forward_chat" class="md-nav__link">
+    <span class="md-ellipsis">
+      forward_chat
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.forward_chat_non_api" class="md-nav__link">
+    <span class="md-ellipsis">
+      forward_chat_non_api
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.forward_instruct" class="md-nav__link">
+    <span class="md-ellipsis">
+      forward_instruct
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.forward_instruct_non_api" class="md-nav__link">
+    <span class="md-ellipsis">
+      forward_instruct_non_api
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.from_parameters" class="md-nav__link">
+    <span class="md-ellipsis">
+      from_parameters
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.generate" class="md-nav__link">
+    <span class="md-ellipsis">
+      generate
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.get_memory" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_memory
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.greedy_generate" class="md-nav__link">
+    <span class="md-ellipsis">
+      greedy_generate
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.load" class="md-nav__link">
+    <span class="md-ellipsis">
+      load
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.sample" class="md-nav__link">
+    <span class="md-ellipsis">
+      sample
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.shard_params" class="md-nav__link">
+    <span class="md-ellipsis">
+      shard_params
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServer.status" class="md-nav__link">
+    <span class="md-ellipsis">
+      status
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServerConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      JAXServerConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="JAXServerConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServerConfig.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.jax_serve.JAXServerConfig.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="servejax_serve">serve.jax_serve</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.jax_serve"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.serve.jax_serve.JAXServer" class="doc doc-heading">
+            <code>JAXServer</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.serve.gradio_user_interface_base.GradioUserInference" href="../generated-serve-gradio_user_interface_base/#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference">GradioUserInference</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 130</span>
+<span class="normal"> 131</span>
+<span class="normal"> 132</span>
+<span class="normal"> 133</span>
+<span class="normal"> 134</span>
+<span class="normal"> 135</span>
+<span class="normal"> 136</span>
+<span class="normal"> 137</span>
+<span class="normal"> 138</span>
+<span class="normal"> 139</span>
+<span class="normal"> 140</span>
+<span class="normal"> 141</span>
+<span class="normal"> 142</span>
+<span class="normal"> 143</span>
+<span class="normal"> 144</span>
+<span class="normal"> 145</span>
+<span class="normal"> 146</span>
+<span class="normal"> 147</span>
+<span class="normal"> 148</span>
+<span class="normal"> 149</span>
+<span class="normal"> 150</span>
+<span class="normal"> 151</span>
+<span class="normal"> 152</span>
+<span class="normal"> 153</span>
+<span class="normal"> 154</span>
+<span class="normal"> 155</span>
+<span class="normal"> 156</span>
+<span class="normal"> 157</span>
+<span class="normal"> 158</span>
+<span class="normal"> 159</span>
+<span class="normal"> 160</span>
+<span class="normal"> 161</span>
+<span class="normal"> 162</span>
+<span class="normal"> 163</span>
+<span class="normal"> 164</span>
+<span class="normal"> 165</span>
+<span class="normal"> 166</span>
+<span class="normal"> 167</span>
+<span class="normal"> 168</span>
+<span class="normal"> 169</span>
+<span class="normal"> 170</span>
+<span class="normal"> 171</span>
+<span class="normal"> 172</span>
+<span class="normal"> 173</span>
+<span class="normal"> 174</span>
+<span class="normal"> 175</span>
+<span class="normal"> 176</span>
+<span class="normal"> 177</span>
+<span class="normal"> 178</span>
+<span class="normal"> 179</span>
+<span class="normal"> 180</span>
+<span class="normal"> 181</span>
+<span class="normal"> 182</span>
+<span class="normal"> 183</span>
+<span class="normal"> 184</span>
+<span class="normal"> 185</span>
+<span class="normal"> 186</span>
+<span class="normal"> 187</span>
+<span class="normal"> 188</span>
+<span class="normal"> 189</span>
+<span class="normal"> 190</span>
+<span class="normal"> 191</span>
+<span class="normal"> 192</span>
+<span class="normal"> 193</span>
+<span class="normal"> 194</span>
+<span class="normal"> 195</span>
+<span class="normal"> 196</span>
+<span class="normal"> 197</span>
+<span class="normal"> 198</span>
+<span class="normal"> 199</span>
+<span class="normal"> 200</span>
+<span class="normal"> 201</span>
+<span class="normal"> 202</span>
+<span class="normal"> 203</span>
+<span class="normal"> 204</span>
+<span class="normal"> 205</span>
+<span class="normal"> 206</span>
+<span class="normal"> 207</span>
+<span class="normal"> 208</span>
+<span class="normal"> 209</span>
+<span class="normal"> 210</span>
+<span class="normal"> 211</span>
+<span class="normal"> 212</span>
+<span class="normal"> 213</span>
+<span class="normal"> 214</span>
+<span class="normal"> 215</span>
+<span class="normal"> 216</span>
+<span class="normal"> 217</span>
+<span class="normal"> 218</span>
+<span class="normal"> 219</span>
+<span class="normal"> 220</span>
+<span class="normal"> 221</span>
+<span class="normal"> 222</span>
+<span class="normal"> 223</span>
+<span class="normal"> 224</span>
+<span class="normal"> 225</span>
+<span class="normal"> 226</span>
+<span class="normal"> 227</span>
+<span class="normal"> 228</span>
+<span class="normal"> 229</span>
+<span class="normal"> 230</span>
+<span class="normal"> 231</span>
+<span class="normal"> 232</span>
+<span class="normal"> 233</span>
+<span class="normal"> 234</span>
+<span class="normal"> 235</span>
+<span class="normal"> 236</span>
+<span class="normal"> 237</span>
+<span class="normal"> 238</span>
+<span class="normal"> 239</span>
+<span class="normal"> 240</span>
+<span class="normal"> 241</span>
+<span class="normal"> 242</span>
+<span class="normal"> 243</span>
+<span class="normal"> 244</span>
+<span class="normal"> 245</span>
+<span class="normal"> 246</span>
+<span class="normal"> 247</span>
+<span class="normal"> 248</span>
+<span class="normal"> 249</span>
+<span class="normal"> 250</span>
+<span class="normal"> 251</span>
+<span class="normal"> 252</span>
+<span class="normal"> 253</span>
+<span class="normal"> 254</span>
+<span class="normal"> 255</span>
+<span class="normal"> 256</span>
+<span class="normal"> 257</span>
+<span class="normal"> 258</span>
+<span class="normal"> 259</span>
+<span class="normal"> 260</span>
+<span class="normal"> 261</span>
+<span class="normal"> 262</span>
+<span class="normal"> 263</span>
+<span class="normal"> 264</span>
+<span class="normal"> 265</span>
+<span class="normal"> 266</span>
+<span class="normal"> 267</span>
+<span class="normal"> 268</span>
+<span class="normal"> 269</span>
+<span class="normal"> 270</span>
+<span class="normal"> 271</span>
+<span class="normal"> 272</span>
+<span class="normal"> 273</span>
+<span class="normal"> 274</span>
+<span class="normal"> 275</span>
+<span class="normal"> 276</span>
+<span class="normal"> 277</span>
+<span class="normal"> 278</span>
+<span class="normal"> 279</span>
+<span class="normal"> 280</span>
+<span class="normal"> 281</span>
+<span class="normal"> 282</span>
+<span class="normal"> 283</span>
+<span class="normal"> 284</span>
+<span class="normal"> 285</span>
+<span class="normal"> 286</span>
+<span class="normal"> 287</span>
+<span class="normal"> 288</span>
+<span class="normal"> 289</span>
+<span class="normal"> 290</span>
+<span class="normal"> 291</span>
+<span class="normal"> 292</span>
+<span class="normal"> 293</span>
+<span class="normal"> 294</span>
+<span class="normal"> 295</span>
+<span class="normal"> 296</span>
+<span class="normal"> 297</span>
+<span class="normal"> 298</span>
+<span class="normal"> 299</span>
+<span class="normal"> 300</span>
+<span class="normal"> 301</span>
+<span class="normal"> 302</span>
+<span class="normal"> 303</span>
+<span class="normal"> 304</span>
+<span class="normal"> 305</span>
+<span class="normal"> 306</span>
+<span class="normal"> 307</span>
+<span class="normal"> 308</span>
+<span class="normal"> 309</span>
+<span class="normal"> 310</span>
+<span class="normal"> 311</span>
+<span class="normal"> 312</span>
+<span class="normal"> 313</span>
+<span class="normal"> 314</span>
+<span class="normal"> 315</span>
+<span class="normal"> 316</span>
+<span class="normal"> 317</span>
+<span class="normal"> 318</span>
+<span class="normal"> 319</span>
+<span class="normal"> 320</span>
+<span class="normal"> 321</span>
+<span class="normal"> 322</span>
+<span class="normal"> 323</span>
+<span class="normal"> 324</span>
+<span class="normal"> 325</span>
+<span class="normal"> 326</span>
+<span class="normal"> 327</span>
+<span class="normal"> 328</span>
+<span class="normal"> 329</span>
+<span class="normal"> 330</span>
+<span class="normal"> 331</span>
+<span class="normal"> 332</span>
+<span class="normal"> 333</span>
+<span class="normal"> 334</span>
+<span class="normal"> 335</span>
+<span class="normal"> 336</span>
+<span class="normal"> 337</span>
+<span class="normal"> 338</span>
+<span class="normal"> 339</span>
+<span class="normal"> 340</span>
+<span class="normal"> 341</span>
+<span class="normal"> 342</span>
+<span class="normal"> 343</span>
+<span class="normal"> 344</span>
+<span class="normal"> 345</span>
+<span class="normal"> 346</span>
+<span class="normal"> 347</span>
+<span class="normal"> 348</span>
+<span class="normal"> 349</span>
+<span class="normal"> 350</span>
+<span class="normal"> 351</span>
+<span class="normal"> 352</span>
+<span class="normal"> 353</span>
+<span class="normal"> 354</span>
+<span class="normal"> 355</span>
+<span class="normal"> 356</span>
+<span class="normal"> 357</span>
+<span class="normal"> 358</span>
+<span class="normal"> 359</span>
+<span class="normal"> 360</span>
+<span class="normal"> 361</span>
+<span class="normal"> 362</span>
+<span class="normal"> 363</span>
+<span class="normal"> 364</span>
+<span class="normal"> 365</span>
+<span class="normal"> 366</span>
+<span class="normal"> 367</span>
+<span class="normal"> 368</span>
+<span class="normal"> 369</span>
+<span class="normal"> 370</span>
+<span class="normal"> 371</span>
+<span class="normal"> 372</span>
+<span class="normal"> 373</span>
+<span class="normal"> 374</span>
+<span class="normal"> 375</span>
+<span class="normal"> 376</span>
+<span class="normal"> 377</span>
+<span class="normal"> 378</span>
+<span class="normal"> 379</span>
+<span class="normal"> 380</span>
+<span class="normal"> 381</span>
+<span class="normal"> 382</span>
+<span class="normal"> 383</span>
+<span class="normal"> 384</span>
+<span class="normal"> 385</span>
+<span class="normal"> 386</span>
+<span class="normal"> 387</span>
+<span class="normal"> 388</span>
+<span class="normal"> 389</span>
+<span class="normal"> 390</span>
+<span class="normal"> 391</span>
+<span class="normal"> 392</span>
+<span class="normal"> 393</span>
+<span class="normal"> 394</span>
+<span class="normal"> 395</span>
+<span class="normal"> 396</span>
+<span class="normal"> 397</span>
+<span class="normal"> 398</span>
+<span class="normal"> 399</span>
+<span class="normal"> 400</span>
+<span class="normal"> 401</span>
+<span class="normal"> 402</span>
+<span class="normal"> 403</span>
+<span class="normal"> 404</span>
+<span class="normal"> 405</span>
+<span class="normal"> 406</span>
+<span class="normal"> 407</span>
+<span class="normal"> 408</span>
+<span class="normal"> 409</span>
+<span class="normal"> 410</span>
+<span class="normal"> 411</span>
+<span class="normal"> 412</span>
+<span class="normal"> 413</span>
+<span class="normal"> 414</span>
+<span class="normal"> 415</span>
+<span class="normal"> 416</span>
+<span class="normal"> 417</span>
+<span class="normal"> 418</span>
+<span class="normal"> 419</span>
+<span class="normal"> 420</span>
+<span class="normal"> 421</span>
+<span class="normal"> 422</span>
+<span class="normal"> 423</span>
+<span class="normal"> 424</span>
+<span class="normal"> 425</span>
+<span class="normal"> 426</span>
+<span class="normal"> 427</span>
+<span class="normal"> 428</span>
+<span class="normal"> 429</span>
+<span class="normal"> 430</span>
+<span class="normal"> 431</span>
+<span class="normal"> 432</span>
+<span class="normal"> 433</span>
+<span class="normal"> 434</span>
+<span class="normal"> 435</span>
+<span class="normal"> 436</span>
+<span class="normal"> 437</span>
+<span class="normal"> 438</span>
+<span class="normal"> 439</span>
+<span class="normal"> 440</span>
+<span class="normal"> 441</span>
+<span class="normal"> 442</span>
+<span class="normal"> 443</span>
+<span class="normal"> 444</span>
+<span class="normal"> 445</span>
+<span class="normal"> 446</span>
+<span class="normal"> 447</span>
+<span class="normal"> 448</span>
+<span class="normal"> 449</span>
+<span class="normal"> 450</span>
+<span class="normal"> 451</span>
+<span class="normal"> 452</span>
+<span class="normal"> 453</span>
+<span class="normal"> 454</span>
+<span class="normal"> 455</span>
+<span class="normal"> 456</span>
+<span class="normal"> 457</span>
+<span class="normal"> 458</span>
+<span class="normal"> 459</span>
+<span class="normal"> 460</span>
+<span class="normal"> 461</span>
+<span class="normal"> 462</span>
+<span class="normal"> 463</span>
+<span class="normal"> 464</span>
+<span class="normal"> 465</span>
+<span class="normal"> 466</span>
+<span class="normal"> 467</span>
+<span class="normal"> 468</span>
+<span class="normal"> 469</span>
+<span class="normal"> 470</span>
+<span class="normal"> 471</span>
+<span class="normal"> 472</span>
+<span class="normal"> 473</span>
+<span class="normal"> 474</span>
+<span class="normal"> 475</span>
+<span class="normal"> 476</span>
+<span class="normal"> 477</span>
+<span class="normal"> 478</span>
+<span class="normal"> 479</span>
+<span class="normal"> 480</span>
+<span class="normal"> 481</span>
+<span class="normal"> 482</span>
+<span class="normal"> 483</span>
+<span class="normal"> 484</span>
+<span class="normal"> 485</span>
+<span class="normal"> 486</span>
+<span class="normal"> 487</span>
+<span class="normal"> 488</span>
+<span class="normal"> 489</span>
+<span class="normal"> 490</span>
+<span class="normal"> 491</span>
+<span class="normal"> 492</span>
+<span class="normal"> 493</span>
+<span class="normal"> 494</span>
+<span class="normal"> 495</span>
+<span class="normal"> 496</span>
+<span class="normal"> 497</span>
+<span class="normal"> 498</span>
+<span class="normal"> 499</span>
+<span class="normal"> 500</span>
+<span class="normal"> 501</span>
+<span class="normal"> 502</span>
+<span class="normal"> 503</span>
+<span class="normal"> 504</span>
+<span class="normal"> 505</span>
+<span class="normal"> 506</span>
+<span class="normal"> 507</span>
+<span class="normal"> 508</span>
+<span class="normal"> 509</span>
+<span class="normal"> 510</span>
+<span class="normal"> 511</span>
+<span class="normal"> 512</span>
+<span class="normal"> 513</span>
+<span class="normal"> 514</span>
+<span class="normal"> 515</span>
+<span class="normal"> 516</span>
+<span class="normal"> 517</span>
+<span class="normal"> 518</span>
+<span class="normal"> 519</span>
+<span class="normal"> 520</span>
+<span class="normal"> 521</span>
+<span class="normal"> 522</span>
+<span class="normal"> 523</span>
+<span class="normal"> 524</span>
+<span class="normal"> 525</span>
+<span class="normal"> 526</span>
+<span class="normal"> 527</span>
+<span class="normal"> 528</span>
+<span class="normal"> 529</span>
+<span class="normal"> 530</span>
+<span class="normal"> 531</span>
+<span class="normal"> 532</span>
+<span class="normal"> 533</span>
+<span class="normal"> 534</span>
+<span class="normal"> 535</span>
+<span class="normal"> 536</span>
+<span class="normal"> 537</span>
+<span class="normal"> 538</span>
+<span class="normal"> 539</span>
+<span class="normal"> 540</span>
+<span class="normal"> 541</span>
+<span class="normal"> 542</span>
+<span class="normal"> 543</span>
+<span class="normal"> 544</span>
+<span class="normal"> 545</span>
+<span class="normal"> 546</span>
+<span class="normal"> 547</span>
+<span class="normal"> 548</span>
+<span class="normal"> 549</span>
+<span class="normal"> 550</span>
+<span class="normal"> 551</span>
+<span class="normal"> 552</span>
+<span class="normal"> 553</span>
+<span class="normal"> 554</span>
+<span class="normal"> 555</span>
+<span class="normal"> 556</span>
+<span class="normal"> 557</span>
+<span class="normal"> 558</span>
+<span class="normal"> 559</span>
+<span class="normal"> 560</span>
+<span class="normal"> 561</span>
+<span class="normal"> 562</span>
+<span class="normal"> 563</span>
+<span class="normal"> 564</span>
+<span class="normal"> 565</span>
+<span class="normal"> 566</span>
+<span class="normal"> 567</span>
+<span class="normal"> 568</span>
+<span class="normal"> 569</span>
+<span class="normal"> 570</span>
+<span class="normal"> 571</span>
+<span class="normal"> 572</span>
+<span class="normal"> 573</span>
+<span class="normal"> 574</span>
+<span class="normal"> 575</span>
+<span class="normal"> 576</span>
+<span class="normal"> 577</span>
+<span class="normal"> 578</span>
+<span class="normal"> 579</span>
+<span class="normal"> 580</span>
+<span class="normal"> 581</span>
+<span class="normal"> 582</span>
+<span class="normal"> 583</span>
+<span class="normal"> 584</span>
+<span class="normal"> 585</span>
+<span class="normal"> 586</span>
+<span class="normal"> 587</span>
+<span class="normal"> 588</span>
+<span class="normal"> 589</span>
+<span class="normal"> 590</span>
+<span class="normal"> 591</span>
+<span class="normal"> 592</span>
+<span class="normal"> 593</span>
+<span class="normal"> 594</span>
+<span class="normal"> 595</span>
+<span class="normal"> 596</span>
+<span class="normal"> 597</span>
+<span class="normal"> 598</span>
+<span class="normal"> 599</span>
+<span class="normal"> 600</span>
+<span class="normal"> 601</span>
+<span class="normal"> 602</span>
+<span class="normal"> 603</span>
+<span class="normal"> 604</span>
+<span class="normal"> 605</span>
+<span class="normal"> 606</span>
+<span class="normal"> 607</span>
+<span class="normal"> 608</span>
+<span class="normal"> 609</span>
+<span class="normal"> 610</span>
+<span class="normal"> 611</span>
+<span class="normal"> 612</span>
+<span class="normal"> 613</span>
+<span class="normal"> 614</span>
+<span class="normal"> 615</span>
+<span class="normal"> 616</span>
+<span class="normal"> 617</span>
+<span class="normal"> 618</span>
+<span class="normal"> 619</span>
+<span class="normal"> 620</span>
+<span class="normal"> 621</span>
+<span class="normal"> 622</span>
+<span class="normal"> 623</span>
+<span class="normal"> 624</span>
+<span class="normal"> 625</span>
+<span class="normal"> 626</span>
+<span class="normal"> 627</span>
+<span class="normal"> 628</span>
+<span class="normal"> 629</span>
+<span class="normal"> 630</span>
+<span class="normal"> 631</span>
+<span class="normal"> 632</span>
+<span class="normal"> 633</span>
+<span class="normal"> 634</span>
+<span class="normal"> 635</span>
+<span class="normal"> 636</span>
+<span class="normal"> 637</span>
+<span class="normal"> 638</span>
+<span class="normal"> 639</span>
+<span class="normal"> 640</span>
+<span class="normal"> 641</span>
+<span class="normal"> 642</span>
+<span class="normal"> 643</span>
+<span class="normal"> 644</span>
+<span class="normal"> 645</span>
+<span class="normal"> 646</span>
+<span class="normal"> 647</span>
+<span class="normal"> 648</span>
+<span class="normal"> 649</span>
+<span class="normal"> 650</span>
+<span class="normal"> 651</span>
+<span class="normal"> 652</span>
+<span class="normal"> 653</span>
+<span class="normal"> 654</span>
+<span class="normal"> 655</span>
+<span class="normal"> 656</span>
+<span class="normal"> 657</span>
+<span class="normal"> 658</span>
+<span class="normal"> 659</span>
+<span class="normal"> 660</span>
+<span class="normal"> 661</span>
+<span class="normal"> 662</span>
+<span class="normal"> 663</span>
+<span class="normal"> 664</span>
+<span class="normal"> 665</span>
+<span class="normal"> 666</span>
+<span class="normal"> 667</span>
+<span class="normal"> 668</span>
+<span class="normal"> 669</span>
+<span class="normal"> 670</span>
+<span class="normal"> 671</span>
+<span class="normal"> 672</span>
+<span class="normal"> 673</span>
+<span class="normal"> 674</span>
+<span class="normal"> 675</span>
+<span class="normal"> 676</span>
+<span class="normal"> 677</span>
+<span class="normal"> 678</span>
+<span class="normal"> 679</span>
+<span class="normal"> 680</span>
+<span class="normal"> 681</span>
+<span class="normal"> 682</span>
+<span class="normal"> 683</span>
+<span class="normal"> 684</span>
+<span class="normal"> 685</span>
+<span class="normal"> 686</span>
+<span class="normal"> 687</span>
+<span class="normal"> 688</span>
+<span class="normal"> 689</span>
+<span class="normal"> 690</span>
+<span class="normal"> 691</span>
+<span class="normal"> 692</span>
+<span class="normal"> 693</span>
+<span class="normal"> 694</span>
+<span class="normal"> 695</span>
+<span class="normal"> 696</span>
+<span class="normal"> 697</span>
+<span class="normal"> 698</span>
+<span class="normal"> 699</span>
+<span class="normal"> 700</span>
+<span class="normal"> 701</span>
+<span class="normal"> 702</span>
+<span class="normal"> 703</span>
+<span class="normal"> 704</span>
+<span class="normal"> 705</span>
+<span class="normal"> 706</span>
+<span class="normal"> 707</span>
+<span class="normal"> 708</span>
+<span class="normal"> 709</span>
+<span class="normal"> 710</span>
+<span class="normal"> 711</span>
+<span class="normal"> 712</span>
+<span class="normal"> 713</span>
+<span class="normal"> 714</span>
+<span class="normal"> 715</span>
+<span class="normal"> 716</span>
+<span class="normal"> 717</span>
+<span class="normal"> 718</span>
+<span class="normal"> 719</span>
+<span class="normal"> 720</span>
+<span class="normal"> 721</span>
+<span class="normal"> 722</span>
+<span class="normal"> 723</span>
+<span class="normal"> 724</span>
+<span class="normal"> 725</span>
+<span class="normal"> 726</span>
+<span class="normal"> 727</span>
+<span class="normal"> 728</span>
+<span class="normal"> 729</span>
+<span class="normal"> 730</span>
+<span class="normal"> 731</span>
+<span class="normal"> 732</span>
+<span class="normal"> 733</span>
+<span class="normal"> 734</span>
+<span class="normal"> 735</span>
+<span class="normal"> 736</span>
+<span class="normal"> 737</span>
+<span class="normal"> 738</span>
+<span class="normal"> 739</span>
+<span class="normal"> 740</span>
+<span class="normal"> 741</span>
+<span class="normal"> 742</span>
+<span class="normal"> 743</span>
+<span class="normal"> 744</span>
+<span class="normal"> 745</span>
+<span class="normal"> 746</span>
+<span class="normal"> 747</span>
+<span class="normal"> 748</span>
+<span class="normal"> 749</span>
+<span class="normal"> 750</span>
+<span class="normal"> 751</span>
+<span class="normal"> 752</span>
+<span class="normal"> 753</span>
+<span class="normal"> 754</span>
+<span class="normal"> 755</span>
+<span class="normal"> 756</span>
+<span class="normal"> 757</span>
+<span class="normal"> 758</span>
+<span class="normal"> 759</span>
+<span class="normal"> 760</span>
+<span class="normal"> 761</span>
+<span class="normal"> 762</span>
+<span class="normal"> 763</span>
+<span class="normal"> 764</span>
+<span class="normal"> 765</span>
+<span class="normal"> 766</span>
+<span class="normal"> 767</span>
+<span class="normal"> 768</span>
+<span class="normal"> 769</span>
+<span class="normal"> 770</span>
+<span class="normal"> 771</span>
+<span class="normal"> 772</span>
+<span class="normal"> 773</span>
+<span class="normal"> 774</span>
+<span class="normal"> 775</span>
+<span class="normal"> 776</span>
+<span class="normal"> 777</span>
+<span class="normal"> 778</span>
+<span class="normal"> 779</span>
+<span class="normal"> 780</span>
+<span class="normal"> 781</span>
+<span class="normal"> 782</span>
+<span class="normal"> 783</span>
+<span class="normal"> 784</span>
+<span class="normal"> 785</span>
+<span class="normal"> 786</span>
+<span class="normal"> 787</span>
+<span class="normal"> 788</span>
+<span class="normal"> 789</span>
+<span class="normal"> 790</span>
+<span class="normal"> 791</span>
+<span class="normal"> 792</span>
+<span class="normal"> 793</span>
+<span class="normal"> 794</span>
+<span class="normal"> 795</span>
+<span class="normal"> 796</span>
+<span class="normal"> 797</span>
+<span class="normal"> 798</span>
+<span class="normal"> 799</span>
+<span class="normal"> 800</span>
+<span class="normal"> 801</span>
+<span class="normal"> 802</span>
+<span class="normal"> 803</span>
+<span class="normal"> 804</span>
+<span class="normal"> 805</span>
+<span class="normal"> 806</span>
+<span class="normal"> 807</span>
+<span class="normal"> 808</span>
+<span class="normal"> 809</span>
+<span class="normal"> 810</span>
+<span class="normal"> 811</span>
+<span class="normal"> 812</span>
+<span class="normal"> 813</span>
+<span class="normal"> 814</span>
+<span class="normal"> 815</span>
+<span class="normal"> 816</span>
+<span class="normal"> 817</span>
+<span class="normal"> 818</span>
+<span class="normal"> 819</span>
+<span class="normal"> 820</span>
+<span class="normal"> 821</span>
+<span class="normal"> 822</span>
+<span class="normal"> 823</span>
+<span class="normal"> 824</span>
+<span class="normal"> 825</span>
+<span class="normal"> 826</span>
+<span class="normal"> 827</span>
+<span class="normal"> 828</span>
+<span class="normal"> 829</span>
+<span class="normal"> 830</span>
+<span class="normal"> 831</span>
+<span class="normal"> 832</span>
+<span class="normal"> 833</span>
+<span class="normal"> 834</span>
+<span class="normal"> 835</span>
+<span class="normal"> 836</span>
+<span class="normal"> 837</span>
+<span class="normal"> 838</span>
+<span class="normal"> 839</span>
+<span class="normal"> 840</span>
+<span class="normal"> 841</span>
+<span class="normal"> 842</span>
+<span class="normal"> 843</span>
+<span class="normal"> 844</span>
+<span class="normal"> 845</span>
+<span class="normal"> 846</span>
+<span class="normal"> 847</span>
+<span class="normal"> 848</span>
+<span class="normal"> 849</span>
+<span class="normal"> 850</span>
+<span class="normal"> 851</span>
+<span class="normal"> 852</span>
+<span class="normal"> 853</span>
+<span class="normal"> 854</span>
+<span class="normal"> 855</span>
+<span class="normal"> 856</span>
+<span class="normal"> 857</span>
+<span class="normal"> 858</span>
+<span class="normal"> 859</span>
+<span class="normal"> 860</span>
+<span class="normal"> 861</span>
+<span class="normal"> 862</span>
+<span class="normal"> 863</span>
+<span class="normal"> 864</span>
+<span class="normal"> 865</span>
+<span class="normal"> 866</span>
+<span class="normal"> 867</span>
+<span class="normal"> 868</span>
+<span class="normal"> 869</span>
+<span class="normal"> 870</span>
+<span class="normal"> 871</span>
+<span class="normal"> 872</span>
+<span class="normal"> 873</span>
+<span class="normal"> 874</span>
+<span class="normal"> 875</span>
+<span class="normal"> 876</span>
+<span class="normal"> 877</span>
+<span class="normal"> 878</span>
+<span class="normal"> 879</span>
+<span class="normal"> 880</span>
+<span class="normal"> 881</span>
+<span class="normal"> 882</span>
+<span class="normal"> 883</span>
+<span class="normal"> 884</span>
+<span class="normal"> 885</span>
+<span class="normal"> 886</span>
+<span class="normal"> 887</span>
+<span class="normal"> 888</span>
+<span class="normal"> 889</span>
+<span class="normal"> 890</span>
+<span class="normal"> 891</span>
+<span class="normal"> 892</span>
+<span class="normal"> 893</span>
+<span class="normal"> 894</span>
+<span class="normal"> 895</span>
+<span class="normal"> 896</span>
+<span class="normal"> 897</span>
+<span class="normal"> 898</span>
+<span class="normal"> 899</span>
+<span class="normal"> 900</span>
+<span class="normal"> 901</span>
+<span class="normal"> 902</span>
+<span class="normal"> 903</span>
+<span class="normal"> 904</span>
+<span class="normal"> 905</span>
+<span class="normal"> 906</span>
+<span class="normal"> 907</span>
+<span class="normal"> 908</span>
+<span class="normal"> 909</span>
+<span class="normal"> 910</span>
+<span class="normal"> 911</span>
+<span class="normal"> 912</span>
+<span class="normal"> 913</span>
+<span class="normal"> 914</span>
+<span class="normal"> 915</span>
+<span class="normal"> 916</span>
+<span class="normal"> 917</span>
+<span class="normal"> 918</span>
+<span class="normal"> 919</span>
+<span class="normal"> 920</span>
+<span class="normal"> 921</span>
+<span class="normal"> 922</span>
+<span class="normal"> 923</span>
+<span class="normal"> 924</span>
+<span class="normal"> 925</span>
+<span class="normal"> 926</span>
+<span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">JAXServer</span><span class="p">(</span><span class="n">GradioUserInference</span><span class="p">):</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">server_config</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up all the attributes that will be used by other methods in the class.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the current instance of a class</span>
+<span class="sd">            server_config: Pass the JAXServerConfig object</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A fastapi object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">partition_specs</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">generate_function</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">greedy_generate_function</span>
+        <span class="p">)</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">*</span> <span class="mi">8</span>
+        <span class="k">assert</span> <span class="n">server_config</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">server_config</span><span class="p">,</span>
+                                                   <span class="n">JAXServerConfig</span><span class="p">),</span> <span class="s2">&quot;server_config can be None or JAXServerConfig Type&quot;</span>
+        <span class="k">if</span> <span class="n">server_config</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">server_config</span> <span class="o">=</span> <span class="n">JAXServerConfig</span><span class="p">()</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span> <span class="o">=</span> <span class="n">server_config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">number_of_served_request_until_last_up_time</span> <span class="o">=</span> <span class="mi">0</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">rng_generator</span> <span class="o">=</span> <span class="n">RNG</span><span class="p">(</span><span class="mi">42</span><span class="p">)</span>
+        <span class="n">initialise_tracking</span><span class="p">(</span><span class="mf">0.5</span><span class="p">)</span>
+        <span class="n">array</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="nb">len</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">()),</span> <span class="mi">1</span><span class="p">))</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">mesh_axes_shape</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="n">Mesh</span><span class="p">(</span><span class="n">mesh_utils</span><span class="o">.</span><span class="n">create_device_mesh</span><span class="p">(</span><span class="n">array</span><span class="o">.</span><span class="n">shape</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">mesh_axes_names</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">app</span> <span class="o">=</span> <span class="n">FastAPI</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="o">.</span><span class="n">post</span><span class="p">(</span><span class="s2">&quot;/chat&quot;</span><span class="p">)(</span><span class="bp">self</span><span class="o">.</span><span class="n">forward_chat</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="o">.</span><span class="n">post</span><span class="p">(</span><span class="s2">&quot;/instruct&quot;</span><span class="p">)(</span><span class="bp">self</span><span class="o">.</span><span class="n">forward_instruct</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;/status&quot;</span><span class="p">)(</span><span class="bp">self</span><span class="o">.</span><span class="n">status</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">app</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">mount_gradio_app</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">gradio_inference</span><span class="p">(),</span> <span class="s2">&quot;/gradio_chat&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">status</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The status function returns a dictionary with the following keys:</span>
+<span class="sd">            server_config: A dictionary containing all the configuration parameters for this server.</span>
+<span class="sd">            devices: A string describing which devices are available to JAX.</span>
+<span class="sd">            number_of_backends: The number of backends available to JAX.  This is usually equal to the number of GPUs</span>
+<span class="sd">            on your machine, but can be less if you have not installed CUDA or if you have disabled some GPUs in your</span>
+<span class="sd">             system BIOS settings (e.g., because they are defective).  It can also be more than one if you have multiple</span>
+<span class="sd">              machines connected via MPI and running under Horov</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary with the following keys:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;server_config&quot;</span><span class="p">:</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">()},</span>
+            <span class="s2">&quot;devices&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">()</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;number_of_backends&quot;</span><span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">()),</span>
+            <span class="s2">&quot;status&quot;</span><span class="p">:</span> <span class="s2">&quot;Ready&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;number_of_served_request_until_last_up_time&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">number_of_served_request_until_last_up_time</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;memory&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">get_mem</span><span class="p">()</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">}</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_memory</span><span class="p">():</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_memory function returns the total memory of the system in bytes.</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The amount of memory used by the program</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">get_mem</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">configure_generate_functions</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The configure_generate_functions function is used to configure the generation functions for a given model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables within the class</span>
+<span class="sd">            model: Generate the model</span>
+<span class="sd">            tokenizer: Get the eos_token_id, pad_token_id and bos token</span>
+<span class="sd">                id</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A function that takes in three parameters:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">partition_specs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;you should first shard params with using ``shard_params`` method&quot;</span>
+
+        <span class="k">if</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                <span class="s2">&quot;Tokenizer does not contain padding token setting padding token to eos token for open end generation&quot;</span><span class="p">)</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span>
+        <span class="k">except</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;The class Model of Tokenizer </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span><span class="si">}</span><span class="s2"> do not support deepcopy option &quot;</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">use_prefix_tokenizer</span><span class="p">:</span>
+                <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+                <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+                <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+
+        <span class="nd">@functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+            <span class="n">pjit</span><span class="p">,</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">partition_specs</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">())</span>
+        <span class="p">)</span>
+        <span class="k">def</span> <span class="nf">greedy_generate</span><span class="p">(</span><span class="n">parameters</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">):</span>
+            <span class="n">input_ids</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+            <span class="n">predict</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">generation_config</span><span class="o">=</span><span class="n">GenerationConfig</span><span class="p">(</span>
+                    <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+
+                    <span class="n">eos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span>
+                    <span class="n">pad_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+                    <span class="n">bos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">bos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+
+                    <span class="n">do_sample</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                    <span class="n">num_beams</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">sequences</span><span class="p">[:,</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]:]</span>
+            <span class="k">return</span> <span class="n">predict</span>
+
+        <span class="nd">@functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+            <span class="n">pjit</span><span class="p">,</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">partition_specs</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">())</span>
+        <span class="p">)</span>
+        <span class="k">def</span> <span class="nf">generate</span><span class="p">(</span><span class="n">parameters</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">):</span>
+            <span class="n">input_ids</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+            <span class="n">predict</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">generation_config</span><span class="o">=</span><span class="n">GenerationConfig</span><span class="p">(</span>
+                    <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+
+                    <span class="n">eos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span>
+                    <span class="n">pad_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+                    <span class="n">bos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">bos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+
+                    <span class="n">temperature</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">temperature</span><span class="p">,</span>
+                    <span class="n">do_sample</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                    <span class="n">num_beams</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                    <span class="n">top_p</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">top_p</span><span class="p">,</span>
+                    <span class="n">top_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">top_k</span><span class="p">,</span>
+                    <span class="n">repetition_penalty</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">repetition_penalty</span>
+                <span class="p">)</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">sequences</span><span class="p">[:,</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]:]</span>
+            <span class="k">return</span> <span class="n">predict</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">generate_function</span> <span class="o">=</span> <span class="n">generate</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">greedy_generate_function</span> <span class="o">=</span> <span class="n">greedy_generate</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span> <span class="o">=</span> <span class="kc">True</span>
+
+    <span class="k">def</span> <span class="nf">auto_configure</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="n">params</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">,</span> <span class="n">partition_rules</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The auto_configure function is a helper function that will automatically configure the model for distributed training.</span>
+<span class="sd">        It does this by:</span>
+<span class="sd">            1) sharding the parameters of the model based on partition_rules, and then</span>
+<span class="sd">            2) configuring generate functions to be used in distributed training.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            model: Configure the model</span>
+<span class="sd">            params: Store the parameters that are used to configure the</span>
+<span class="sd">                model</span>
+<span class="sd">            tokenizer: Tokenize the input text</span>
+<span class="sd">            partition_rules: Specify how the parameters should be</span>
+<span class="sd">                partitioned</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary with the following keys:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">shard_params</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span> <span class="n">partition_rules</span><span class="o">=</span><span class="n">partition_rules</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">configure_generate_functions</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">generate</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">,</span> <span class="nb">dict</span><span class="p">],</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The generate function is used to generate a sequence of tokens from the model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access variables that belong to the class</span>
+<span class="sd">            params: Union[flax.core.FrozenDict, dict]: Pass the</span>
+<span class="sd">                parameters of the model to be used in generating text</span>
+<span class="sd">            input_ids: chex.Array: Pass the input to the model</span>
+<span class="sd">            attention_mask: chex.Array: Mask the padding tokens</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The logits of the model</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
+                <span class="s2">&quot;this method will be implemented automatically after using ``configure_generate_functions`` function&quot;</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+                <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">generate_function</span><span class="p">(</span>
+                    <span class="n">params</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span>
+                <span class="p">)</span>
+
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">load</span><span class="p">(</span>
+            <span class="bp">cls</span><span class="p">,</span>
+            <span class="n">model</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">FlaxPreTrainedModel</span><span class="p">,</span>
+            <span class="n">config_model</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">PretrainedConfig</span><span class="p">,</span>
+            <span class="n">tokenizer</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">PreTrainedTokenizer</span><span class="p">,</span>
+            <span class="n">path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">os</span><span class="o">.</span><span class="n">PathLike</span><span class="p">],</span>
+            <span class="n">server_config</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">init_shape</span><span class="p">:</span> <span class="nb">tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">do_memory_log</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;JAXServer&quot;</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The load function is used to load a pretrained model from disk.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            cls: Refer to the class itself</span>
+<span class="sd">            model: transformers.FlaxPreTrainedModel: Initialize the</span>
+<span class="sd">                server</span>
+<span class="sd">            config_model: transformers.PretrainedConfig: Get the</span>
+<span class="sd">                partition rules</span>
+<span class="sd">            tokenizer: transformers.PreTrainedTokenizer: Load the</span>
+<span class="sd">                tokenizer from the model</span>
+<span class="sd">            path: Union[str, os.PathLike]: Specify the path to the</span>
+<span class="sd">                checkpoint file</span>
+<span class="sd">            server_config: Configure the server</span>
+<span class="sd">            add_params_field: bool: Add a params field to the server</span>
+<span class="sd">            init_shape: tuple: Specify the shape of the input to be used</span>
+<span class="sd">                for generating shard_fns</span>
+<span class="sd">            do_memory_log: bool: Log the memory usage of the server</span>
+<span class="sd">            verbose: bool: Print the compilation process</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A server</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">model</span><span class="p">,</span>
+                       <span class="s2">&quot;init_weights&quot;</span><span class="p">),</span> <span class="s2">&quot;model must contain init_weights func in order to init params for shard_fns&quot;</span>
+        <span class="k">assert</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config_model</span><span class="p">,</span>
+                       <span class="s2">&quot;get_partition_rules&quot;</span><span class="p">),</span> <span class="s2">&quot;config_model must contain get_partition_rules functions&quot;</span>
+        <span class="n">server</span> <span class="o">=</span> <span class="bp">cls</span><span class="p">(</span><span class="n">server_config</span><span class="o">=</span><span class="n">server_config</span><span class="p">)</span>
+        <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+            <span class="s2">&quot;running _init() func in order to make shard_fns&quot;</span>
+        <span class="p">)</span>
+        <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="s2">&quot;cpu&quot;</span><span class="p">)[</span><span class="mi">0</span><span class="p">]):</span>
+            <span class="k">def</span> <span class="nf">_init</span><span class="p">():</span>
+                <span class="k">return</span> <span class="n">model</span><span class="o">.</span><span class="n">init_weights</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">init_shape</span><span class="p">)</span>
+
+            <span class="n">shape</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="n">_init</span><span class="p">)</span>
+        <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+            <span class="s2">&quot;matching partition rules&quot;</span>
+        <span class="p">)</span>
+        <span class="n">rules</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">shape</span><span class="p">,</span> <span class="n">rules</span><span class="o">=</span><span class="n">config_model</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span><span class="kc">True</span><span class="p">))</span>
+
+        <span class="k">with</span> <span class="n">server</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="n">shard_fns</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span><span class="n">rules</span><span class="p">,</span> <span class="n">get_dtype</span><span class="p">(</span><span class="n">server</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">dtype</span><span class="p">))</span>
+            <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                <span class="s2">&quot;loading checkpoints&quot;</span>
+            <span class="p">)</span>
+
+            <span class="n">shard_fns</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">traverse_util</span><span class="o">.</span><span class="n">flatten_dict</span><span class="p">(</span><span class="n">shard_fns</span><span class="p">)</span>
+            <span class="n">server</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="p">{}</span>
+            <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="s2">&quot;rb&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">stream</span><span class="p">:</span>
+                <span class="n">unpacker</span> <span class="o">=</span> <span class="n">msgpack</span><span class="o">.</span><span class="n">Unpacker</span><span class="p">(</span><span class="n">stream</span><span class="p">,</span> <span class="n">read_size</span><span class="o">=</span><span class="mi">83886080</span><span class="p">,</span> <span class="n">max_buffer_size</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+                <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="o">.</span><span class="n">tqdm</span><span class="p">(</span><span class="n">unpacker</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">pbar</span><span class="p">:</span>
+                    <span class="n">key</span> <span class="o">=</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">key</span><span class="p">)</span>
+                    <span class="n">tensor</span> <span class="o">=</span> <span class="n">from_bytes</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+                    <span class="n">tensor</span> <span class="o">=</span> <span class="n">shard_fns</span><span class="p">[</span><span class="n">key</span><span class="p">](</span><span class="n">tensor</span><span class="p">)</span>
+                    <span class="n">server</span><span class="o">.</span><span class="n">params</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">tensor</span>
+                    <span class="k">if</span> <span class="n">do_memory_log</span><span class="p">:</span>
+                        <span class="n">pbar</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">server</span><span class="o">.</span><span class="n">get_memory</span><span class="p">())</span>
+                    <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Sharding Params&quot;</span><span class="p">)</span>
+        <span class="n">server</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">traverse_util</span><span class="o">.</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">server</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+        <span class="n">server</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">server</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">server</span><span class="o">.</span><span class="n">params</span>
+
+        <span class="n">server</span><span class="o">.</span><span class="n">rules</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">rules</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">rules</span>
+        <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+            <span class="s2">&quot;configuring generate functions for the server&quot;</span>
+        <span class="p">)</span>
+        <span class="n">server</span><span class="o">.</span><span class="n">configure_generate_functions</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">server</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">pre_compile</span><span class="p">:</span>
+            <span class="n">server</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="n">verbose</span><span class="o">=</span><span class="n">verbose</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">server</span>
+
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">from_torch_pretrained</span><span class="p">(</span>
+            <span class="bp">cls</span><span class="p">,</span>
+            <span class="n">server_config</span><span class="p">:</span> <span class="n">JAXServerConfig</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">device</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="s1">&#39;cpu&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">],</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+            <span class="n">precision</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">]</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">Precision</span><span class="p">(</span><span class="s2">&quot;fastest&quot;</span><span class="p">),</span>
+            <span class="n">sharding_axis_dims</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">sharding_axis_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span>
+            <span class="n">query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">generation_query_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">key_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">value_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">generation_bias_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">attention_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="n">shard_attention_computation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">shard_fns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">tuple</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">backend</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">do_memory_log</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">model_config_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;JAXServer&quot;</span><span class="p">:</span>
+
+        <span class="n">model</span><span class="p">,</span> <span class="n">params</span> <span class="o">=</span> <span class="n">AutoEasyDeLModelForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="o">=</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+            <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">precision</span><span class="o">=</span><span class="n">precision</span><span class="p">,</span>
+            <span class="n">sharding_axis_names</span><span class="o">=</span><span class="n">sharding_axis_names</span><span class="p">,</span>
+            <span class="n">sharding_axis_dims</span><span class="o">=</span><span class="n">sharding_axis_dims</span><span class="p">,</span>
+            <span class="n">query_partition_spec</span><span class="o">=</span><span class="n">query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_query_partition_spec</span><span class="o">=</span><span class="n">generation_query_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_bias_partition_spec</span><span class="o">=</span><span class="n">generation_bias_partition_spec</span><span class="p">,</span>
+            <span class="n">attention_partition_spec</span><span class="o">=</span><span class="n">attention_partition_spec</span><span class="p">,</span>
+            <span class="n">value_partition_spec</span><span class="o">=</span><span class="n">value_partition_spec</span><span class="p">,</span>
+            <span class="n">key_partition_spec</span><span class="o">=</span><span class="n">key_partition_spec</span><span class="p">,</span>
+            <span class="n">bias_partition_spec</span><span class="o">=</span><span class="n">bias_partition_spec</span><span class="p">,</span>
+            <span class="n">shard_attention_computation</span><span class="o">=</span><span class="n">shard_attention_computation</span><span class="p">,</span>
+            <span class="n">shard_fns</span><span class="o">=</span><span class="n">shard_fns</span><span class="p">,</span>
+            <span class="n">input_shape</span><span class="o">=</span><span class="n">input_shape</span><span class="p">,</span>
+            <span class="n">backend</span><span class="o">=</span><span class="n">backend</span><span class="p">,</span>
+            <span class="n">config_kwargs</span><span class="o">=</span><span class="n">model_config_kwargs</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+
+        <span class="k">return</span> <span class="bp">cls</span><span class="o">.</span><span class="n">from_parameters</span><span class="p">(</span>
+            <span class="n">model</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+            <span class="n">config_model</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">tokenizer</span><span class="o">=</span><span class="n">transformers</span><span class="o">.</span><span class="n">AutoTokenizer</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">),</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+            <span class="n">server_config</span><span class="o">=</span><span class="n">server_config</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="o">=</span><span class="n">verbose</span><span class="p">,</span>
+            <span class="n">do_memory_log</span><span class="o">=</span><span class="n">do_memory_log</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="o">=</span><span class="n">add_params_field</span><span class="p">,</span>
+            <span class="n">shard_parameters</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">from_parameters</span><span class="p">(</span>
+            <span class="bp">cls</span><span class="p">,</span>
+            <span class="n">model</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">FlaxPreTrainedModel</span><span class="p">,</span>
+            <span class="n">config_model</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">PretrainedConfig</span><span class="p">,</span>
+            <span class="n">tokenizer</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">PreTrainedTokenizer</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">Dict</span><span class="p">,</span>
+            <span class="n">server_config</span><span class="p">:</span> <span class="n">JAXServerConfig</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">do_memory_log</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">shard_parameters</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;JAXServer&quot;</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The from_parameters function is used to load a model from the parameters of a pretrained model.</span>
+<span class="sd">        It takes in the following arguments:</span>
+<span class="sd">            - cls: The class of the server you are loading, this should be Server or TPU_Server depending on</span>
+<span class="sd">            what backend you want to use.</span>
+<span class="sd">            - model: A FlaxPreTrainedModel object that contains all of your models functions and parameters. This can</span>
+<span class="sd">             be found in transformers/flax_utils/models/*model*.py</span>
+<span class="sd">                where *model* is replaced with whatever transformer you are using (e.g., bert). You can also create</span>
+<span class="sd">                 your own custom</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            cls: Create a new instance of the class</span>
+<span class="sd">            model: transformers.FlaxPreTrainedModel: Load the model</span>
+<span class="sd">            config_model: transformers.PretrainedConfig: Get the</span>
+<span class="sd">                partition rules</span>
+<span class="sd">            tokenizer: transformers.PreTrainedTokenizer: Tokenize the</span>
+<span class="sd">                input text</span>
+<span class="sd">            params: Dict: Pass in the parameters of the model</span>
+<span class="sd">            server_config: Pass in the server_config file for the server</span>
+<span class="sd">            add_params_field: bool: Add a params field to the server</span>
+<span class="sd">            do_memory_log: bool: Log the memory usage of the server</span>
+<span class="sd">            shard_parameters: bool: whenever a shard model parameters.</span>
+<span class="sd">            verbose: bool: Print out the status of the compilation</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A server object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="s2">&quot;init_weights&quot;</span><span class="p">),</span> <span class="p">(</span>
+            <span class="s2">&quot;model must contain init_weights func in order to init params for shard_fns&quot;</span>
+        <span class="p">)</span>
+        <span class="k">assert</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config_model</span><span class="p">,</span> <span class="s2">&quot;get_partition_rules&quot;</span><span class="p">),</span> <span class="p">(</span>
+            <span class="s2">&quot;config_model must contain get_partition_rules functions&quot;</span>
+        <span class="p">)</span>
+        <span class="n">server</span> <span class="o">=</span> <span class="bp">cls</span><span class="p">(</span><span class="n">server_config</span><span class="o">=</span><span class="n">server_config</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">shard_parameters</span><span class="p">:</span>
+            <span class="k">with</span> <span class="n">server</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+
+                <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                    <span class="s2">&quot;matching partition rules&quot;</span>
+                <span class="p">)</span>
+                <span class="n">partition_specs</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span> <span class="n">rules</span><span class="o">=</span><span class="n">config_model</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span><span class="kc">True</span><span class="p">))</span>
+                <span class="n">shard_fns</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span><span class="n">partition_specs</span><span class="p">,</span> <span class="n">get_dtype</span><span class="p">(</span><span class="n">server</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">dtype</span><span class="p">))</span>
+                <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                    <span class="s2">&quot;sharding parameters across all of the chosen backend(tpu/gpu/cpu)s&quot;</span>
+                <span class="p">)</span>
+                <span class="n">params</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">traverse_util</span><span class="o">.</span><span class="n">flatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">)</span>
+                <span class="n">shard_fns</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">traverse_util</span><span class="o">.</span><span class="n">flatten_dict</span><span class="p">(</span><span class="n">shard_fns</span><span class="p">)</span>
+                <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="o">.</span><span class="n">tqdm</span><span class="p">(</span><span class="n">params</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+                <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">pbar</span><span class="p">:</span>
+                    <span class="n">key</span> <span class="o">=</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">key</span><span class="p">)</span>
+                    <span class="n">params</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">shard_fns</span><span class="p">[</span><span class="n">key</span><span class="p">](</span><span class="n">params</span><span class="p">[</span><span class="n">key</span><span class="p">])</span>
+                    <span class="k">if</span> <span class="n">do_memory_log</span><span class="p">:</span>
+                        <span class="n">pbar</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">server</span><span class="o">.</span><span class="n">get_memory</span><span class="p">())</span>
+                    <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Sharding Params&quot;</span><span class="p">)</span>
+                <span class="n">params</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">traverse_util</span><span class="o">.</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">partition_specs</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span><span class="n">get_partitions</span><span class="p">,</span> <span class="n">params</span><span class="p">)</span>
+        <span class="n">server</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span>
+        <span class="n">server</span><span class="o">.</span><span class="n">partition_specs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">partition_specs</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">partition_specs</span>
+        <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+            <span class="s2">&quot;configuring generate functions for the server&quot;</span>
+        <span class="p">)</span>
+        <span class="n">server</span><span class="o">.</span><span class="n">configure_generate_functions</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">server</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">pre_compile</span><span class="p">:</span>
+            <span class="n">server</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="n">verbose</span><span class="o">=</span><span class="n">verbose</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">server</span>
+
+    <span class="k">def</span> <span class="nf">compile</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The compile function is used to compile the model for use in inference.</span>
+<span class="sd">        It does this by running through all possible combinations of rules and actions,</span>
+<span class="sd">        and compiling them into functions that can be called later on during inference.</span>
+<span class="sd">        This allows us to avoid having to recompile the model every time we want to run it,</span>
+<span class="sd">        which would be very slow.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            verbose: bool: Print out the compiling process</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            True, but what does it do?</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span><span class="p">,</span> <span class="s2">&quot;funcs are not generated yet&quot;</span>
+        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">partition_specs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;rules should not be None&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">use_prefix_tokenizer</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">verbose</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Compiling greedy generate function&quot;</span><span class="p">)</span>
+
+            <span class="n">r</span><span class="p">,</span> <span class="n">a</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">*</span> <span class="mi">2</span>
+            <span class="k">for</span> <span class="n">r</span><span class="p">,</span> <span class="n">a</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                    <span class="n">string</span><span class="o">=</span><span class="s2">&quot;&quot;</span><span class="p">,</span>
+                    <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+                    <span class="n">greedy</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">):</span>
+                <span class="o">...</span>
+            <span class="k">if</span> <span class="n">verbose</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Compiling non-greedy generate function&quot;</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">r</span><span class="p">,</span> <span class="n">a</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                    <span class="n">string</span><span class="o">=</span><span class="s2">&quot;&quot;</span><span class="p">,</span>
+                    <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+                    <span class="n">greedy</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">):</span>
+                <span class="o">...</span>
+
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;Skip Compiling the compiling process is useless &quot;</span>
+                <span class="s2">&quot;when you are not using prefix tokenizer&quot;</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">return</span> <span class="kc">True</span>
+
+    <span class="k">def</span> <span class="nf">greedy_generate</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                        <span class="n">params</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">,</span> <span class="nb">dict</span><span class="p">],</span>
+                        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+                        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+                        <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The greedy_generate function is a helper function that takes in the model parameters, input_ids and attention_mask</span>
+<span class="sd">        and returns the generated tokens. It uses greedy search to generate tokens one at a time.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            params: Union[flax.core.FrozenDict, dict]: Pass the</span>
+<span class="sd">                parameters to the model</span>
+<span class="sd">            input_ids: chex.Array: Pass in the input sequence</span>
+<span class="sd">            attention_mask: chex.Array: Mask the input tokens</span>
+<span class="sd">        :param : Specify the parameters of the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            generated_ids</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
+                <span class="s2">&quot;this method will be implemented automatically after using ``configure_generate_functions`` function&quot;</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+                <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">greedy_generate_function</span><span class="p">(</span>
+                    <span class="n">params</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span>
+                <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">shard_params</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">params</span><span class="p">,</span> <span class="n">partition_rules</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The shard_params function takes in a set of parameters and a partition rule.</span>
+<span class="sd">        The partition rule is used to determine how the parameters should be sharded across devices.</span>
+<span class="sd">        For example, if we have two devices, one with 4GB of memory and another with 8GB of memory,</span>
+<span class="sd">        we may want to shard our model such that the device with more memory has more parameters on it.</span>
+<span class="sd">        This function returns an updated version of params where each parameter is now stored on its own device.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Bind the instance of the class to a method</span>
+<span class="sd">            params: Pass the parameters of the model to be sharded</span>
+<span class="sd">            partition_rules: Specify how the parameters should be</span>
+<span class="sd">                partitioned</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The sharded parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">logging</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+            <span class="n">logging</span><span class="o">.</span><span class="n">INFO</span><span class="p">,</span>
+            <span class="s2">&quot;the parameters will be sharded and ba saved inside server you can access them by ``JAXServer.params``&quot;</span><span class="p">)</span>
+        <span class="n">rules</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span> <span class="n">rules</span><span class="o">=</span><span class="n">partition_rules</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">partition_specs</span> <span class="o">=</span> <span class="n">rules</span>
+        <span class="n">shard_fns</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span><span class="n">rules</span><span class="p">,</span> <span class="n">get_dtype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">dtype</span><span class="p">))</span>
+
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">p</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">p</span><span class="p">),</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="n">params</span>
+            <span class="p">)</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="k">def</span> <span class="nf">forward_chat</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">:</span> <span class="n">ChatRequest</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The forward_chat function is the main function of this class.</span>
+<span class="sd">        It takes in a ChatRequest object, which contains a prompt and history.</span>
+<span class="sd">        The prompt is the user&quot;s input to be processed by the chatbot, while history</span>
+<span class="sd">        is an array of previous inputs and outputs from both sides (user and bot).</span>
+<span class="sd">        The forward_chat function then formats these inputs into one string that can be processed by our model.</span>
+<span class="sd">        This formatted string is then passed through our sample() method, which returns an output response as well as</span>
+<span class="sd">        how many tokens were used to generate it.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the attributes and methods of the class</span>
+<span class="sd">            data: ChatRequest: Pass in the data from the request</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary with the following keys:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">{</span>
+                <span class="s2">&quot;status&quot;</span><span class="p">:</span> <span class="s2">&quot;down&quot;</span>
+            <span class="p">}</span>
+
+        <span class="n">string</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_chat</span><span class="p">(</span>
+            <span class="n">prompt</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">prompt</span><span class="p">,</span>
+            <span class="n">system</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">history</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">history</span>
+        <span class="p">)</span>
+
+        <span class="n">response</span><span class="p">,</span> <span class="n">used_tokens</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">*</span> <span class="mi">2</span>
+        <span class="k">for</span> <span class="n">response</span><span class="p">,</span> <span class="n">used_tokens</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                <span class="n">string</span><span class="o">=</span><span class="n">string</span><span class="p">,</span>
+                <span class="n">greedy</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">greedy</span><span class="p">,</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="kc">None</span>
+        <span class="p">):</span>
+            <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">number_of_served_request_until_last_up_time</span> <span class="o">+=</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;input&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">string</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;response&quot;</span><span class="p">:</span> <span class="n">response</span><span class="p">,</span>
+            <span class="s2">&quot;tokens_used&quot;</span><span class="p">:</span> <span class="n">used_tokens</span><span class="p">,</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">format_instruct</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">system</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">instruction</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Here you will get the system and instruction from user, and you can apply your prompting style&quot;&quot;&quot;</span>
+        <span class="n">conversation</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="n">system</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">system</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">({</span>
+                <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;system&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">system</span>
+            <span class="p">})</span>
+        <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">({</span>
+            <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;user&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">instruction</span>
+        <span class="p">})</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span>
+            <span class="n">conversation</span><span class="p">,</span>
+            <span class="n">tokenize</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">add_generation_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">format_chat</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">history</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span> <span class="n">prompt</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">system</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="kc">None</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Here you will get the system, prompt and history from user, and you can apply your prompting style&quot;&quot;&quot;</span>
+        <span class="n">conversation</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="n">system</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">system</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">({</span>
+                <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;system&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">system</span>
+            <span class="p">})</span>
+        <span class="k">for</span> <span class="n">conv</span> <span class="ow">in</span> <span class="n">history</span><span class="p">:</span>
+            <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="p">{</span>
+                    <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;user&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">conv</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+                <span class="p">}</span>
+            <span class="p">)</span>
+            <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="p">{</span>
+                    <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;assistant&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">conv</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+                <span class="p">}</span>
+            <span class="p">)</span>
+
+        <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+            <span class="p">{</span>
+                <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;user&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">prompt</span>
+            <span class="p">}</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span>
+            <span class="n">conversation</span><span class="p">,</span>
+            <span class="n">tokenize</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">add_generation_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">forward_instruct</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">:</span> <span class="n">InstructRequest</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The forward_instruct function is the main function of this class.</span>
+<span class="sd">        It takes in a InstructRequest object, which contains the system and instruction to be processed.</span>
+<span class="sd">        The function then formats the input string using format_instruct, and passes it into sample().</span>
+<span class="sd">        sample() returns a tuple containing (response, used_tokens). The response is returned as part of</span>
+<span class="sd">        the response dictionary. If no valid responses are found by sample(), None will be returned instead.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Bind the method to the object</span>
+<span class="sd">            data: InstructRequest: Pass the system and instruction to</span>
+<span class="sd">                the function</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary with three keys:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">{</span>
+                <span class="s2">&quot;status&quot;</span><span class="p">:</span> <span class="s2">&quot;down&quot;</span>
+            <span class="p">}</span>
+
+        <span class="n">response</span><span class="p">,</span> <span class="n">used_tokens</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">*</span> <span class="mi">2</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_instruct</span><span class="p">(</span>
+            <span class="n">system</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">system</span><span class="p">,</span>
+            <span class="n">instruction</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">instruction</span>
+        <span class="p">)</span>
+        <span class="k">for</span> <span class="n">response</span><span class="p">,</span> <span class="n">used_tokens</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                <span class="n">string</span><span class="o">=</span><span class="n">string</span><span class="p">,</span>
+                <span class="n">greedy</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">greedy</span><span class="p">,</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="kc">None</span>
+        <span class="p">):</span>
+            <span class="o">...</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">number_of_served_request_until_last_up_time</span> <span class="o">+=</span> <span class="mi">1</span>
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;input&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">string</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;response&quot;</span><span class="p">:</span> <span class="n">response</span><span class="p">,</span>
+            <span class="s2">&quot;tokens_used&quot;</span><span class="p">:</span> <span class="n">used_tokens</span><span class="p">,</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">forward_instruct_non_api</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">prompt</span><span class="p">,</span> <span class="n">system</span><span class="p">,</span> <span class="n">greedy</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The forward_instruct_non_api function is a wrapper for the forward_instruct function.</span>
+<span class="sd">        It takes in a prompt, system, and greedy flag as arguments and returns the response from</span>
+<span class="sd">        the forward_instruct function. The purpose of this wrapper is to allow users to call</span>
+<span class="sd">        forward_instruct without having to create an InstructRequest object.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            prompt: Pass the instruction to the system</span>
+<span class="sd">            system: Specify which system to use for the instruction</span>
+<span class="sd">            greedy: Determine whether the system should return</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The response from the forward_instruct function</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">data</span> <span class="o">=</span> <span class="n">InstructRequest</span><span class="p">(</span>
+            <span class="n">prompt</span><span class="o">=</span><span class="n">prompt</span><span class="p">,</span>
+            <span class="n">system</span><span class="o">=</span><span class="n">system</span><span class="p">,</span>
+            <span class="n">greedy</span><span class="o">=</span><span class="n">greedy</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">forward_instruct</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">forward_chat_non_api</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">prompt</span><span class="p">,</span> <span class="n">history</span><span class="p">,</span> <span class="n">greedy</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The forward_chat_non_api function is a wrapper for the forward_chat function.</span>
+<span class="sd">        It takes in a prompt, history, and greedy parameter and returns the response from</span>
+<span class="sd">        the forward_chat function. The purpose of this wrapper is to allow users to use</span>
+<span class="sd">        the chatbot without having to create ChatRequest objects.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            prompt: Pass the user&#39;s input to the model</span>
+<span class="sd">            history: Pass the history of the conversation to the model</span>
+<span class="sd">            greedy: Determine whether the model should use a greedy</span>
+<span class="sd">                search</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A chat-response object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">data</span> <span class="o">=</span> <span class="n">ChatRequest</span><span class="p">(</span>
+            <span class="n">prompt</span><span class="o">=</span><span class="n">prompt</span><span class="p">,</span>
+            <span class="n">history</span><span class="o">=</span><span class="n">history</span><span class="p">,</span>
+            <span class="n">greedy</span><span class="o">=</span><span class="n">greedy</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">forward_chat</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">sample_gradio</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">prompt</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">history</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
+            <span class="n">system_prompt</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="kc">None</span><span class="p">],</span>
+            <span class="n">mode</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">max_compile_tokens</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">greedy</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>
+            <span class="n">temperature</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+            <span class="n">top_p</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+            <span class="n">top_k</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">repetition_penalty</span><span class="p">:</span> <span class="nb">float</span>
+    <span class="p">):</span>
+        <span class="k">if</span> <span class="n">mode</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="o">==</span> <span class="s2">&quot;chat&quot;</span><span class="p">:</span>
+            <span class="n">string</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_chat</span><span class="p">(</span>
+                <span class="n">history</span><span class="o">=</span><span class="n">history</span><span class="p">,</span>
+                <span class="n">system</span><span class="o">=</span><span class="n">system_prompt</span><span class="p">,</span>
+                <span class="n">prompt</span><span class="o">=</span><span class="n">prompt</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="n">mode</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="o">==</span> <span class="s2">&quot;instruct&quot;</span><span class="p">:</span>
+            <span class="n">history</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">string</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_instruct</span><span class="p">(</span>
+                <span class="n">system</span><span class="o">=</span><span class="n">system_prompt</span><span class="p">,</span>
+                <span class="n">instruction</span><span class="o">=</span><span class="n">prompt</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;UnKnown Mode for sample_gradio available modes are only Chat or Instruct&quot;</span><span class="p">)</span>
+        <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">([</span><span class="n">prompt</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">])</span>
+        <span class="k">for</span> <span class="n">response</span><span class="p">,</span> <span class="n">_</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                <span class="n">string</span><span class="o">=</span><span class="n">string</span><span class="p">,</span>
+                <span class="n">greedy</span><span class="o">=</span><span class="n">greedy</span><span class="p">,</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">max_new_tokens</span><span class="p">,</span>
+        <span class="p">):</span>
+            <span class="n">history</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">][</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">=</span> <span class="n">response</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="k">yield</span> <span class="s2">&quot;&quot;</span><span class="p">,</span> <span class="n">history</span>
+
+    <span class="k">def</span> <span class="nf">sample</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+               <span class="n">string</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+               <span class="o">*</span><span class="p">,</span>
+               <span class="n">greedy</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+               <span class="n">max_new_tokens</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+               <span class="o">**</span><span class="n">kwargs</span>
+               <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The sample function is the main function of a model. It takes in an input string and returns a list of strings</span>
+<span class="sd">        that are generated from that input string. The sample function can be called multiple times with different inputs,</span>
+<span class="sd">        and each time it will return a new set of outputs based on those inputs.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the class attributes</span>
+<span class="sd">            string: str: Pass the string that we want to generate</span>
+<span class="sd">            : Pass a variable number of arguments to a function</span>
+<span class="sd">            greedy: bool: Determine whether to use the greedy or non-</span>
+<span class="sd">                greedy version of the generate function</span>
+<span class="sd">            max_new_tokens: int: Set the number of tokens to generate</span>
+<span class="sd">            **kwargs: Pass any additional parameters to the sample</span>
+<span class="sd">                function</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A generator that yields the predicted text and the number of</span>
+<span class="sd">            tokens generated</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">fixed_pad</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_sequence_length</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span>
+        <span class="n">tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span><span class="p">(</span>
+            <span class="p">[</span><span class="n">string</span><span class="p">]</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">max_length</span><span class="o">=</span><span class="n">fixed_pad</span><span class="p">,</span>
+            <span class="n">padding</span><span class="o">=</span><span class="s2">&quot;max_length&quot;</span><span class="p">,</span>
+            <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;jax&quot;</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">use_prefix_tokenizer</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
+            <span class="p">[</span><span class="n">string</span><span class="p">]</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;jax&quot;</span>
+        <span class="p">)</span>
+
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">input_ids</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">attention_mask</span>
+        <span class="n">num_generated_tokens</span> <span class="o">=</span> <span class="mi">0</span>
+
+        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">((</span><span class="n">max_new_tokens</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_new_tokens</span><span class="p">)</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">):</span>
+            <span class="n">inputs_to_gen</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+                <span class="n">params</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span>
+            <span class="p">)</span>
+            <span class="n">predicted_token</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">greedy_generate</span><span class="p">(</span><span class="o">**</span><span class="n">inputs_to_gen</span><span class="p">)</span> <span class="k">if</span> <span class="n">greedy</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span><span class="o">**</span><span class="n">inputs_to_gen</span><span class="p">)</span>
+            <span class="n">predicted_token</span> <span class="o">=</span> <span class="n">predicted_token</span><span class="p">[</span>
+                <span class="n">predicted_token</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="k">if</span> <span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="ow">is</span> <span class="kc">None</span>
+                <span class="p">)</span> <span class="k">else</span> <span class="n">predicted_token</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">pad_token_id</span>
+            <span class="p">]</span>
+            <span class="k">if</span> <span class="n">predicted_token</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+                <span class="n">predicted_token</span> <span class="o">=</span> <span class="n">predicted_token</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+            <span class="n">num_generated_tokens</span> <span class="o">+=</span> <span class="n">predicted_token</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">plus_attn_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="nb">len</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">int32</span><span class="p">)</span>
+
+            <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">predicted_token</span><span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+            <span class="p">)[:,</span> <span class="o">-</span><span class="n">fixed_pad</span><span class="p">:]</span>
+
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">plus_attn_mask</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">int32</span><span class="p">,</span>
+                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+            <span class="p">)[:,</span> <span class="o">-</span><span class="n">fixed_pad</span><span class="p">:]</span>
+
+            <span class="n">returns</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">batch_decode</span><span class="p">(</span><span class="n">input_ids</span><span class="p">[:,</span> <span class="o">-</span><span class="n">num_generated_tokens</span><span class="p">:],</span> <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+                <span class="n">num_generated_tokens</span>
+            <span class="p">)</span>
+
+            <span class="k">yield</span> <span class="n">returns</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">use_mxn_break_point</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">predicted_token</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">:</span>
+                    <span class="k">break</span>
+
+            <span class="k">if</span> <span class="p">(</span>
+                    <span class="n">predicted_token</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">)</span>
+                    <span class="ow">or</span>
+                    <span class="n">predicted_token</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">)</span>
+            <span class="p">):</span>
+                <span class="k">break</span>
+
+    <span class="k">def</span> <span class="nf">fire</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The fire function is a wrapper around the uvicorn.run function that allows you</span>
+<span class="sd">         to run your model in a separate process</span>
+<span class="sd">        from the main one. This is useful for running models on GPUs, as it prevents any</span>
+<span class="sd">        other processes from using them while</span>
+<span class="sd">        the model is being served.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A process, which is a child of the main process</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span><span class="p">,</span> <span class="s2">&quot;you have to first add your model and parameters into server before using fire &quot;</span> \
+                                      <span class="s2">&quot;with using ``configure_generate_functions``&quot;</span>
+
+        <span class="k">def</span> <span class="nf">run</span><span class="p">():</span>
+            <span class="n">uvicorn</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="p">,</span> <span class="n">host</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">host</span><span class="p">,</span> <span class="n">port</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">port</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span> <span class="o">=</span> <span class="n">mp</span><span class="o">.</span><span class="n">Process</span><span class="p">(</span><span class="n">target</span><span class="o">=</span><span class="n">run</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">end</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The end function is used to stop the server.</span>
+<span class="sd">            It will wait for the process to end before returning.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The process_uvicorn</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span><span class="o">.</span><span class="n">join</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">logging</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s2">&quot;you have to fire server before ending that this command will be ignored&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">gradio_inference</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_inference</span><span class="p">(</span>
+            <span class="n">sample_func</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">sample_gradio</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_new_tokens</span><span class="p">,</span>
+            <span class="n">max_compile_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">server_config</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up all the attributes that will be used by other methods in the class.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the current instance of a class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>server_config</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the JAXServerConfig object</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A fastapi object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">server_config</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up all the attributes that will be used by other methods in the class.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the current instance of a class</span>
+<span class="sd">        server_config: Pass the JAXServerConfig object</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A fastapi object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">partition_specs</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">generate_function</span><span class="p">,</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">greedy_generate_function</span>
+    <span class="p">)</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">*</span> <span class="mi">8</span>
+    <span class="k">assert</span> <span class="n">server_config</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">server_config</span><span class="p">,</span>
+                                               <span class="n">JAXServerConfig</span><span class="p">),</span> <span class="s2">&quot;server_config can be None or JAXServerConfig Type&quot;</span>
+    <span class="k">if</span> <span class="n">server_config</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">server_config</span> <span class="o">=</span> <span class="n">JAXServerConfig</span><span class="p">()</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span> <span class="o">=</span> <span class="n">server_config</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">number_of_served_request_until_last_up_time</span> <span class="o">=</span> <span class="mi">0</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">rng_generator</span> <span class="o">=</span> <span class="n">RNG</span><span class="p">(</span><span class="mi">42</span><span class="p">)</span>
+    <span class="n">initialise_tracking</span><span class="p">(</span><span class="mf">0.5</span><span class="p">)</span>
+    <span class="n">array</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="nb">len</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">()),</span> <span class="mi">1</span><span class="p">))</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">mesh_axes_shape</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="n">Mesh</span><span class="p">(</span><span class="n">mesh_utils</span><span class="o">.</span><span class="n">create_device_mesh</span><span class="p">(</span><span class="n">array</span><span class="o">.</span><span class="n">shape</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">mesh_axes_names</span><span class="p">)</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">app</span> <span class="o">=</span> <span class="n">FastAPI</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="o">.</span><span class="n">post</span><span class="p">(</span><span class="s2">&quot;/chat&quot;</span><span class="p">)(</span><span class="bp">self</span><span class="o">.</span><span class="n">forward_chat</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="o">.</span><span class="n">post</span><span class="p">(</span><span class="s2">&quot;/instruct&quot;</span><span class="p">)(</span><span class="bp">self</span><span class="o">.</span><span class="n">forward_instruct</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;/status&quot;</span><span class="p">)(</span><span class="bp">self</span><span class="o">.</span><span class="n">status</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">app</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">mount_gradio_app</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">gradio_inference</span><span class="p">(),</span> <span class="s2">&quot;/gradio_chat&quot;</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.auto_configure" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">auto_configure</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">params</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">,</span> <span class="n">partition_rules</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The auto_configure function is a helper function that will automatically configure the model for distributed training.
+It does this by:
+    1) sharding the parameters of the model based on partition_rules, and then
+    2) configuring generate functions to be used in distributed training.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>model</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Configure the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Store the parameters that are used to configure the
+model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tokenizer</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tokenize the input text</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>partition_rules</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify how the parameters should be
+partitioned</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with the following keys:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">auto_configure</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="n">params</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">,</span> <span class="n">partition_rules</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The auto_configure function is a helper function that will automatically configure the model for distributed training.</span>
+<span class="sd">    It does this by:</span>
+<span class="sd">        1) sharding the parameters of the model based on partition_rules, and then</span>
+<span class="sd">        2) configuring generate functions to be used in distributed training.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        model: Configure the model</span>
+<span class="sd">        params: Store the parameters that are used to configure the</span>
+<span class="sd">            model</span>
+<span class="sd">        tokenizer: Tokenize the input text</span>
+<span class="sd">        partition_rules: Specify how the parameters should be</span>
+<span class="sd">            partitioned</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with the following keys:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">shard_params</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span> <span class="n">partition_rules</span><span class="o">=</span><span class="n">partition_rules</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">configure_generate_functions</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.compile" class="doc doc-heading">
+            <code class="highlight language-python"><span class="nb">compile</span><span class="p">(</span><span class="n">verbose</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The compile function is used to compile the model for use in inference.
+It does this by running through all possible combinations of rules and actions,
+and compiling them into functions that can be called later on during inference.
+This allows us to avoid having to recompile the model every time we want to run it,
+which would be very slow.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>verbose</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Print out the compiling process</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>True, but what does it do?</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">compile</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The compile function is used to compile the model for use in inference.</span>
+<span class="sd">    It does this by running through all possible combinations of rules and actions,</span>
+<span class="sd">    and compiling them into functions that can be called later on during inference.</span>
+<span class="sd">    This allows us to avoid having to recompile the model every time we want to run it,</span>
+<span class="sd">    which would be very slow.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        verbose: bool: Print out the compiling process</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        True, but what does it do?</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span><span class="p">,</span> <span class="s2">&quot;funcs are not generated yet&quot;</span>
+    <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">partition_specs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;rules should not be None&quot;</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">use_prefix_tokenizer</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">verbose</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Compiling greedy generate function&quot;</span><span class="p">)</span>
+
+        <span class="n">r</span><span class="p">,</span> <span class="n">a</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">*</span> <span class="mi">2</span>
+        <span class="k">for</span> <span class="n">r</span><span class="p">,</span> <span class="n">a</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                <span class="n">string</span><span class="o">=</span><span class="s2">&quot;&quot;</span><span class="p">,</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+                <span class="n">greedy</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">):</span>
+            <span class="o">...</span>
+        <span class="k">if</span> <span class="n">verbose</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Compiling non-greedy generate function&quot;</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">r</span><span class="p">,</span> <span class="n">a</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                <span class="n">string</span><span class="o">=</span><span class="s2">&quot;&quot;</span><span class="p">,</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+                <span class="n">greedy</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">):</span>
+            <span class="o">...</span>
+
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;Skip Compiling the compiling process is useless &quot;</span>
+            <span class="s2">&quot;when you are not using prefix tokenizer&quot;</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">return</span> <span class="kc">True</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.configure_generate_functions" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">configure_generate_functions</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The configure_generate_functions function is used to configure the generation functions for a given model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables within the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>model</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Generate the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tokenizer</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Get the eos_token_id, pad_token_id and bos token
+id</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A function that takes in three parameters:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">configure_generate_functions</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The configure_generate_functions function is used to configure the generation functions for a given model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables within the class</span>
+<span class="sd">        model: Generate the model</span>
+<span class="sd">        tokenizer: Get the eos_token_id, pad_token_id and bos token</span>
+<span class="sd">            id</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A function that takes in three parameters:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">partition_specs</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;you should first shard params with using ``shard_params`` method&quot;</span>
+
+    <span class="k">if</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+            <span class="s2">&quot;Tokenizer does not contain padding token setting padding token to eos token for open end generation&quot;</span><span class="p">)</span>
+        <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token</span>
+
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+        <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span>
+        <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+        <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span>
+    <span class="k">except</span><span class="p">:</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;The class Model of Tokenizer </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span><span class="si">}</span><span class="s2"> do not support deepcopy option &quot;</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">use_prefix_tokenizer</span><span class="p">:</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+
+    <span class="nd">@functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+        <span class="n">pjit</span><span class="p">,</span>
+        <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">partition_specs</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">())</span>
+    <span class="p">)</span>
+    <span class="k">def</span> <span class="nf">greedy_generate</span><span class="p">(</span><span class="n">parameters</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">):</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+        <span class="n">predict</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+            <span class="n">generation_config</span><span class="o">=</span><span class="n">GenerationConfig</span><span class="p">(</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+
+                <span class="n">eos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span>
+                <span class="n">pad_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+                <span class="n">bos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">bos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+
+                <span class="n">do_sample</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="n">num_beams</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">sequences</span><span class="p">[:,</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]:]</span>
+        <span class="k">return</span> <span class="n">predict</span>
+
+    <span class="nd">@functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+        <span class="n">pjit</span><span class="p">,</span>
+        <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">partition_specs</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">())</span>
+    <span class="p">)</span>
+    <span class="k">def</span> <span class="nf">generate</span><span class="p">(</span><span class="n">parameters</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">):</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+        <span class="n">predict</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+            <span class="n">generation_config</span><span class="o">=</span><span class="n">GenerationConfig</span><span class="p">(</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+
+                <span class="n">eos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span>
+                <span class="n">pad_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+                <span class="n">bos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">bos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+
+                <span class="n">temperature</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">temperature</span><span class="p">,</span>
+                <span class="n">do_sample</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">num_beams</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                <span class="n">top_p</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">top_p</span><span class="p">,</span>
+                <span class="n">top_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">top_k</span><span class="p">,</span>
+                <span class="n">repetition_penalty</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">repetition_penalty</span>
+            <span class="p">)</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">sequences</span><span class="p">[:,</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]:]</span>
+        <span class="k">return</span> <span class="n">predict</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">generate_function</span> <span class="o">=</span> <span class="n">generate</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">greedy_generate_function</span> <span class="o">=</span> <span class="n">greedy_generate</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span> <span class="o">=</span> <span class="kc">True</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.end" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">end</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The end function is used to stop the server.
+    It will wait for the process to end before returning.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The process_uvicorn</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">end</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The end function is used to stop the server.</span>
+<span class="sd">        It will wait for the process to end before returning.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The process_uvicorn</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span><span class="o">.</span><span class="n">join</span><span class="p">()</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">logging</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s2">&quot;you have to fire server before ending that this command will be ignored&quot;</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.fire" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">fire</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The fire function is a wrapper around the uvicorn.run function that allows you
+ to run your model in a separate process
+from the main one. This is useful for running models on GPUs, as it prevents any
+other processes from using them while
+the model is being served.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A process, which is a child of the main process</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">978</span>
+<span class="normal">979</span>
+<span class="normal">980</span>
+<span class="normal">981</span>
+<span class="normal">982</span>
+<span class="normal">983</span>
+<span class="normal">984</span>
+<span class="normal">985</span>
+<span class="normal">986</span>
+<span class="normal">987</span>
+<span class="normal">988</span>
+<span class="normal">989</span>
+<span class="normal">990</span>
+<span class="normal">991</span>
+<span class="normal">992</span>
+<span class="normal">993</span>
+<span class="normal">994</span>
+<span class="normal">995</span>
+<span class="normal">996</span>
+<span class="normal">997</span>
+<span class="normal">998</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">fire</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The fire function is a wrapper around the uvicorn.run function that allows you</span>
+<span class="sd">     to run your model in a separate process</span>
+<span class="sd">    from the main one. This is useful for running models on GPUs, as it prevents any</span>
+<span class="sd">    other processes from using them while</span>
+<span class="sd">    the model is being served.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A process, which is a child of the main process</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span><span class="p">,</span> <span class="s2">&quot;you have to first add your model and parameters into server before using fire &quot;</span> \
+                                  <span class="s2">&quot;with using ``configure_generate_functions``&quot;</span>
+
+    <span class="k">def</span> <span class="nf">run</span><span class="p">():</span>
+        <span class="n">uvicorn</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="p">,</span> <span class="n">host</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">host</span><span class="p">,</span> <span class="n">port</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">port</span><span class="p">)</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span> <span class="o">=</span> <span class="n">mp</span><span class="o">.</span><span class="n">Process</span><span class="p">(</span><span class="n">target</span><span class="o">=</span><span class="n">run</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.format_chat" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">format_chat</span><span class="p">(</span><span class="n">history</span><span class="p">,</span> <span class="n">prompt</span><span class="p">,</span> <span class="n">system</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Here you will get the system, prompt and history from user, and you can apply your prompting style</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">format_chat</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">history</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span> <span class="n">prompt</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">system</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="kc">None</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Here you will get the system, prompt and history from user, and you can apply your prompting style&quot;&quot;&quot;</span>
+    <span class="n">conversation</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">if</span> <span class="n">system</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">system</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+        <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">({</span>
+            <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;system&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">system</span>
+        <span class="p">})</span>
+    <span class="k">for</span> <span class="n">conv</span> <span class="ow">in</span> <span class="n">history</span><span class="p">:</span>
+        <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+            <span class="p">{</span>
+                <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;user&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">conv</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="p">}</span>
+        <span class="p">)</span>
+        <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+            <span class="p">{</span>
+                <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;assistant&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">conv</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="p">}</span>
+        <span class="p">)</span>
+
+    <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+        <span class="p">{</span>
+            <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;user&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">prompt</span>
+        <span class="p">}</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span>
+        <span class="n">conversation</span><span class="p">,</span>
+        <span class="n">tokenize</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">add_generation_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.format_instruct" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">format_instruct</span><span class="p">(</span><span class="n">system</span><span class="p">,</span> <span class="n">instruction</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Here you will get the system and instruction from user, and you can apply your prompting style</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">format_instruct</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">system</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">instruction</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Here you will get the system and instruction from user, and you can apply your prompting style&quot;&quot;&quot;</span>
+    <span class="n">conversation</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">if</span> <span class="n">system</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">system</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+        <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">({</span>
+            <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;system&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">system</span>
+        <span class="p">})</span>
+    <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">({</span>
+        <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;user&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">instruction</span>
+    <span class="p">})</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span>
+        <span class="n">conversation</span><span class="p">,</span>
+        <span class="n">tokenize</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">add_generation_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.forward_chat" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">forward_chat</span><span class="p">(</span><span class="n">data</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The forward_chat function is the main function of this class.
+It takes in a ChatRequest object, which contains a prompt and history.
+The prompt is the user"s input to be processed by the chatbot, while history
+is an array of previous inputs and outputs from both sides (user and bot).
+The forward_chat function then formats these inputs into one string that can be processed by our model.
+This formatted string is then passed through our sample() method, which returns an output response as well as
+how many tokens were used to generate it.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access the attributes and methods of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>data</code></td>
+            <td>
+                  <code><span title="src.python.easydel.serve.utils.ChatRequest">ChatRequest</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>ChatRequest: Pass in the data from the request</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with the following keys:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">forward_chat</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">:</span> <span class="n">ChatRequest</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The forward_chat function is the main function of this class.</span>
+<span class="sd">    It takes in a ChatRequest object, which contains a prompt and history.</span>
+<span class="sd">    The prompt is the user&quot;s input to be processed by the chatbot, while history</span>
+<span class="sd">    is an array of previous inputs and outputs from both sides (user and bot).</span>
+<span class="sd">    The forward_chat function then formats these inputs into one string that can be processed by our model.</span>
+<span class="sd">    This formatted string is then passed through our sample() method, which returns an output response as well as</span>
+<span class="sd">    how many tokens were used to generate it.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access the attributes and methods of the class</span>
+<span class="sd">        data: ChatRequest: Pass in the data from the request</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with the following keys:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;status&quot;</span><span class="p">:</span> <span class="s2">&quot;down&quot;</span>
+        <span class="p">}</span>
+
+    <span class="n">string</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_chat</span><span class="p">(</span>
+        <span class="n">prompt</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">prompt</span><span class="p">,</span>
+        <span class="n">system</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">history</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">history</span>
+    <span class="p">)</span>
+
+    <span class="n">response</span><span class="p">,</span> <span class="n">used_tokens</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">*</span> <span class="mi">2</span>
+    <span class="k">for</span> <span class="n">response</span><span class="p">,</span> <span class="n">used_tokens</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+            <span class="n">string</span><span class="o">=</span><span class="n">string</span><span class="p">,</span>
+            <span class="n">greedy</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">greedy</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="o">=</span><span class="kc">None</span>
+    <span class="p">):</span>
+        <span class="o">...</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">number_of_served_request_until_last_up_time</span> <span class="o">+=</span> <span class="mi">1</span>
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;input&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">string</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;response&quot;</span><span class="p">:</span> <span class="n">response</span><span class="p">,</span>
+        <span class="s2">&quot;tokens_used&quot;</span><span class="p">:</span> <span class="n">used_tokens</span><span class="p">,</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.forward_chat_non_api" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">forward_chat_non_api</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">history</span><span class="p">,</span> <span class="n">greedy</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The forward_chat_non_api function is a wrapper for the forward_chat function.
+It takes in a prompt, history, and greedy parameter and returns the response from
+the forward_chat function. The purpose of this wrapper is to allow users to use
+the chatbot without having to create ChatRequest objects.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>prompt</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the user's input to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>history</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the history of the conversation to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>greedy</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine whether the model should use a greedy
+search</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A chat-response object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">forward_chat_non_api</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">prompt</span><span class="p">,</span> <span class="n">history</span><span class="p">,</span> <span class="n">greedy</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The forward_chat_non_api function is a wrapper for the forward_chat function.</span>
+<span class="sd">    It takes in a prompt, history, and greedy parameter and returns the response from</span>
+<span class="sd">    the forward_chat function. The purpose of this wrapper is to allow users to use</span>
+<span class="sd">    the chatbot without having to create ChatRequest objects.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        prompt: Pass the user&#39;s input to the model</span>
+<span class="sd">        history: Pass the history of the conversation to the model</span>
+<span class="sd">        greedy: Determine whether the model should use a greedy</span>
+<span class="sd">            search</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A chat-response object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">data</span> <span class="o">=</span> <span class="n">ChatRequest</span><span class="p">(</span>
+        <span class="n">prompt</span><span class="o">=</span><span class="n">prompt</span><span class="p">,</span>
+        <span class="n">history</span><span class="o">=</span><span class="n">history</span><span class="p">,</span>
+        <span class="n">greedy</span><span class="o">=</span><span class="n">greedy</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">forward_chat</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.forward_instruct" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">forward_instruct</span><span class="p">(</span><span class="n">data</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The forward_instruct function is the main function of this class.
+It takes in a InstructRequest object, which contains the system and instruction to be processed.
+The function then formats the input string using format_instruct, and passes it into sample().
+sample() returns a tuple containing (response, used_tokens). The response is returned as part of
+the response dictionary. If no valid responses are found by sample(), None will be returned instead.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Bind the method to the object</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>data</code></td>
+            <td>
+                  <code><span title="src.python.easydel.serve.utils.InstructRequest">InstructRequest</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>InstructRequest: Pass the system and instruction to
+the function</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with three keys:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">forward_instruct</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">:</span> <span class="n">InstructRequest</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The forward_instruct function is the main function of this class.</span>
+<span class="sd">    It takes in a InstructRequest object, which contains the system and instruction to be processed.</span>
+<span class="sd">    The function then formats the input string using format_instruct, and passes it into sample().</span>
+<span class="sd">    sample() returns a tuple containing (response, used_tokens). The response is returned as part of</span>
+<span class="sd">    the response dictionary. If no valid responses are found by sample(), None will be returned instead.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Bind the method to the object</span>
+<span class="sd">        data: InstructRequest: Pass the system and instruction to</span>
+<span class="sd">            the function</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with three keys:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;status&quot;</span><span class="p">:</span> <span class="s2">&quot;down&quot;</span>
+        <span class="p">}</span>
+
+    <span class="n">response</span><span class="p">,</span> <span class="n">used_tokens</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">*</span> <span class="mi">2</span>
+    <span class="n">string</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_instruct</span><span class="p">(</span>
+        <span class="n">system</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">system</span><span class="p">,</span>
+        <span class="n">instruction</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">instruction</span>
+    <span class="p">)</span>
+    <span class="k">for</span> <span class="n">response</span><span class="p">,</span> <span class="n">used_tokens</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+            <span class="n">string</span><span class="o">=</span><span class="n">string</span><span class="p">,</span>
+            <span class="n">greedy</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">greedy</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="o">=</span><span class="kc">None</span>
+    <span class="p">):</span>
+        <span class="o">...</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">number_of_served_request_until_last_up_time</span> <span class="o">+=</span> <span class="mi">1</span>
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;input&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">string</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;response&quot;</span><span class="p">:</span> <span class="n">response</span><span class="p">,</span>
+        <span class="s2">&quot;tokens_used&quot;</span><span class="p">:</span> <span class="n">used_tokens</span><span class="p">,</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.forward_instruct_non_api" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">forward_instruct_non_api</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">system</span><span class="p">,</span> <span class="n">greedy</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The forward_instruct_non_api function is a wrapper for the forward_instruct function.
+It takes in a prompt, system, and greedy flag as arguments and returns the response from
+the forward_instruct function. The purpose of this wrapper is to allow users to call
+forward_instruct without having to create an InstructRequest object.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>prompt</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the instruction to the system</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>system</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify which system to use for the instruction</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>greedy</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine whether the system should return</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The response from the forward_instruct function</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">forward_instruct_non_api</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">prompt</span><span class="p">,</span> <span class="n">system</span><span class="p">,</span> <span class="n">greedy</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The forward_instruct_non_api function is a wrapper for the forward_instruct function.</span>
+<span class="sd">    It takes in a prompt, system, and greedy flag as arguments and returns the response from</span>
+<span class="sd">    the forward_instruct function. The purpose of this wrapper is to allow users to call</span>
+<span class="sd">    forward_instruct without having to create an InstructRequest object.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        prompt: Pass the instruction to the system</span>
+<span class="sd">        system: Specify which system to use for the instruction</span>
+<span class="sd">        greedy: Determine whether the system should return</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The response from the forward_instruct function</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">data</span> <span class="o">=</span> <span class="n">InstructRequest</span><span class="p">(</span>
+        <span class="n">prompt</span><span class="o">=</span><span class="n">prompt</span><span class="p">,</span>
+        <span class="n">system</span><span class="o">=</span><span class="n">system</span><span class="p">,</span>
+        <span class="n">greedy</span><span class="o">=</span><span class="n">greedy</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">forward_instruct</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.from_parameters" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">from_parameters</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">config_model</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">,</span> <span class="n">params</span><span class="p">,</span> <span class="n">server_config</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">do_memory_log</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">shard_parameters</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">verbose</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-classmethod"><code>classmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The from_parameters function is used to load a model from the parameters of a pretrained model.
+It takes in the following arguments:
+    - cls: The class of the server you are loading, this should be Server or TPU_Server depending on
+    what backend you want to use.
+    - model: A FlaxPreTrainedModel object that contains all of your models functions and parameters. This can
+     be found in transformers/flax_utils/models/<em>model</em>.py
+        where <em>model</em> is replaced with whatever transformer you are using (e.g., bert). You can also create
+         your own custom</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>cls</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Create a new instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>model</code></td>
+            <td>
+                  <code><span title="transformers.FlaxPreTrainedModel">FlaxPreTrainedModel</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>transformers.FlaxPreTrainedModel: Load the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>config_model</code></td>
+            <td>
+                  <code><span title="transformers.PretrainedConfig">PretrainedConfig</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>transformers.PretrainedConfig: Get the
+partition rules</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tokenizer</code></td>
+            <td>
+                  <code><span title="transformers.PreTrainedTokenizer">PreTrainedTokenizer</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>transformers.PreTrainedTokenizer: Tokenize the
+input text</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="typing.Dict">Dict</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Dict: Pass in the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>server_config</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.serve.jax_serve.JAXServerConfig" href="#src.python.easydel.serve.jax_serve.JAXServerConfig">JAXServerConfig</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the server_config file for the server</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add a params field to the server</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>do_memory_log</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Log the memory usage of the server</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>shard_parameters</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: whenever a shard model parameters.</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>verbose</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Print out the status of the compilation</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.serve.jax_serve.JAXServer" href="#src.python.easydel.serve.jax_serve.JAXServer">JAXServer</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A server object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@classmethod</span>
+<span class="k">def</span> <span class="nf">from_parameters</span><span class="p">(</span>
+        <span class="bp">cls</span><span class="p">,</span>
+        <span class="n">model</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">FlaxPreTrainedModel</span><span class="p">,</span>
+        <span class="n">config_model</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">PretrainedConfig</span><span class="p">,</span>
+        <span class="n">tokenizer</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">PreTrainedTokenizer</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="n">Dict</span><span class="p">,</span>
+        <span class="n">server_config</span><span class="p">:</span> <span class="n">JAXServerConfig</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">do_memory_log</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">shard_parameters</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;JAXServer&quot;</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The from_parameters function is used to load a model from the parameters of a pretrained model.</span>
+<span class="sd">    It takes in the following arguments:</span>
+<span class="sd">        - cls: The class of the server you are loading, this should be Server or TPU_Server depending on</span>
+<span class="sd">        what backend you want to use.</span>
+<span class="sd">        - model: A FlaxPreTrainedModel object that contains all of your models functions and parameters. This can</span>
+<span class="sd">         be found in transformers/flax_utils/models/*model*.py</span>
+<span class="sd">            where *model* is replaced with whatever transformer you are using (e.g., bert). You can also create</span>
+<span class="sd">             your own custom</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        cls: Create a new instance of the class</span>
+<span class="sd">        model: transformers.FlaxPreTrainedModel: Load the model</span>
+<span class="sd">        config_model: transformers.PretrainedConfig: Get the</span>
+<span class="sd">            partition rules</span>
+<span class="sd">        tokenizer: transformers.PreTrainedTokenizer: Tokenize the</span>
+<span class="sd">            input text</span>
+<span class="sd">        params: Dict: Pass in the parameters of the model</span>
+<span class="sd">        server_config: Pass in the server_config file for the server</span>
+<span class="sd">        add_params_field: bool: Add a params field to the server</span>
+<span class="sd">        do_memory_log: bool: Log the memory usage of the server</span>
+<span class="sd">        shard_parameters: bool: whenever a shard model parameters.</span>
+<span class="sd">        verbose: bool: Print out the status of the compilation</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A server object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="s2">&quot;init_weights&quot;</span><span class="p">),</span> <span class="p">(</span>
+        <span class="s2">&quot;model must contain init_weights func in order to init params for shard_fns&quot;</span>
+    <span class="p">)</span>
+    <span class="k">assert</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config_model</span><span class="p">,</span> <span class="s2">&quot;get_partition_rules&quot;</span><span class="p">),</span> <span class="p">(</span>
+        <span class="s2">&quot;config_model must contain get_partition_rules functions&quot;</span>
+    <span class="p">)</span>
+    <span class="n">server</span> <span class="o">=</span> <span class="bp">cls</span><span class="p">(</span><span class="n">server_config</span><span class="o">=</span><span class="n">server_config</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">shard_parameters</span><span class="p">:</span>
+        <span class="k">with</span> <span class="n">server</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+
+            <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                <span class="s2">&quot;matching partition rules&quot;</span>
+            <span class="p">)</span>
+            <span class="n">partition_specs</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span> <span class="n">rules</span><span class="o">=</span><span class="n">config_model</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span><span class="kc">True</span><span class="p">))</span>
+            <span class="n">shard_fns</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span><span class="n">partition_specs</span><span class="p">,</span> <span class="n">get_dtype</span><span class="p">(</span><span class="n">server</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">dtype</span><span class="p">))</span>
+            <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                <span class="s2">&quot;sharding parameters across all of the chosen backend(tpu/gpu/cpu)s&quot;</span>
+            <span class="p">)</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">traverse_util</span><span class="o">.</span><span class="n">flatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">)</span>
+            <span class="n">shard_fns</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">traverse_util</span><span class="o">.</span><span class="n">flatten_dict</span><span class="p">(</span><span class="n">shard_fns</span><span class="p">)</span>
+            <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="o">.</span><span class="n">tqdm</span><span class="p">(</span><span class="n">params</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">pbar</span><span class="p">:</span>
+                <span class="n">key</span> <span class="o">=</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">key</span><span class="p">)</span>
+                <span class="n">params</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">shard_fns</span><span class="p">[</span><span class="n">key</span><span class="p">](</span><span class="n">params</span><span class="p">[</span><span class="n">key</span><span class="p">])</span>
+                <span class="k">if</span> <span class="n">do_memory_log</span><span class="p">:</span>
+                    <span class="n">pbar</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">server</span><span class="o">.</span><span class="n">get_memory</span><span class="p">())</span>
+                <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Sharding Params&quot;</span><span class="p">)</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">traverse_util</span><span class="o">.</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">params</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">partition_specs</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span><span class="n">get_partitions</span><span class="p">,</span> <span class="n">params</span><span class="p">)</span>
+    <span class="n">server</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">params</span>
+    <span class="n">server</span><span class="o">.</span><span class="n">partition_specs</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">partition_specs</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">partition_specs</span>
+    <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+        <span class="s2">&quot;configuring generate functions for the server&quot;</span>
+    <span class="p">)</span>
+    <span class="n">server</span><span class="o">.</span><span class="n">configure_generate_functions</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">server</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">pre_compile</span><span class="p">:</span>
+        <span class="n">server</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="n">verbose</span><span class="o">=</span><span class="n">verbose</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">server</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.generate" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">generate</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The generate function is used to generate a sequence of tokens from the model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access variables that belong to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="flax.core.FrozenDict">FrozenDict</span>, dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Union[flax.core.FrozenDict, dict]: Pass the
+parameters of the model to be used in generating text</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass the input to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the padding tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The logits of the model</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">generate</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">,</span> <span class="nb">dict</span><span class="p">],</span>
+        <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The generate function is used to generate a sequence of tokens from the model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access variables that belong to the class</span>
+<span class="sd">        params: Union[flax.core.FrozenDict, dict]: Pass the</span>
+<span class="sd">            parameters of the model to be used in generating text</span>
+<span class="sd">        input_ids: chex.Array: Pass the input to the model</span>
+<span class="sd">        attention_mask: chex.Array: Mask the padding tokens</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The logits of the model</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
+            <span class="s2">&quot;this method will be implemented automatically after using ``configure_generate_functions`` function&quot;</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">generate_function</span><span class="p">(</span>
+                <span class="n">params</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span>
+            <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.get_memory" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_memory</span><span class="p">()</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-staticmethod"><code>staticmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_memory function returns the total memory of the system in bytes.</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The amount of memory used by the program</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@staticmethod</span>
+<span class="k">def</span> <span class="nf">get_memory</span><span class="p">():</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_memory function returns the total memory of the system in bytes.</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The amount of memory used by the program</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="n">get_mem</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.greedy_generate" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">greedy_generate</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The greedy_generate function is a helper function that takes in the model parameters, input_ids and attention_mask
+and returns the generated tokens. It uses greedy search to generate tokens one at a time.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="flax.core.FrozenDict">FrozenDict</span>, dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Union[flax.core.FrozenDict, dict]: Pass the
+parameters to the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>input_ids</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Pass in the input sequence</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>attention_mask</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the input tokens</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Specify the parameters of the model</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>generated_ids</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">greedy_generate</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+                    <span class="n">params</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">,</span> <span class="nb">dict</span><span class="p">],</span>
+                    <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+                    <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+                    <span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The greedy_generate function is a helper function that takes in the model parameters, input_ids and attention_mask</span>
+<span class="sd">    and returns the generated tokens. It uses greedy search to generate tokens one at a time.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        params: Union[flax.core.FrozenDict, dict]: Pass the</span>
+<span class="sd">            parameters to the model</span>
+<span class="sd">        input_ids: chex.Array: Pass in the input sequence</span>
+<span class="sd">        attention_mask: chex.Array: Mask the input tokens</span>
+<span class="sd">    :param : Specify the parameters of the model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        generated_ids</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_funcs_generated</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span>
+            <span class="s2">&quot;this method will be implemented automatically after using ``configure_generate_functions`` function&quot;</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">greedy_generate_function</span><span class="p">(</span>
+                <span class="n">params</span><span class="p">,</span> <span class="n">input_ids</span><span class="p">,</span> <span class="n">attention_mask</span>
+            <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.load" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">load</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">config_model</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">,</span> <span class="n">path</span><span class="p">,</span> <span class="n">server_config</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_params_field</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">init_shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">do_memory_log</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">verbose</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-classmethod"><code>classmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The load function is used to load a pretrained model from disk.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>cls</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the class itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>model</code></td>
+            <td>
+                  <code><span title="transformers.FlaxPreTrainedModel">FlaxPreTrainedModel</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>transformers.FlaxPreTrainedModel: Initialize the
+server</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>config_model</code></td>
+            <td>
+                  <code><span title="transformers.PretrainedConfig">PretrainedConfig</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>transformers.PretrainedConfig: Get the
+partition rules</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tokenizer</code></td>
+            <td>
+                  <code><span title="transformers.PreTrainedTokenizer">PreTrainedTokenizer</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>transformers.PreTrainedTokenizer: Load the
+tokenizer from the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>path</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[str, <span title="os.PathLike">PathLike</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Union[str, os.PathLike]: Specify the path to the
+checkpoint file</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>server_config</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Configure the server</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_params_field</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Add a params field to the server</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_shape</code></td>
+            <td>
+                  <code>tuple</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>tuple: Specify the shape of the input to be used
+for generating shard_fns</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>do_memory_log</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Log the memory usage of the server</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>verbose</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Print the compilation process</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.serve.jax_serve.JAXServer" href="#src.python.easydel.serve.jax_serve.JAXServer">JAXServer</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A server</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@classmethod</span>
+<span class="k">def</span> <span class="nf">load</span><span class="p">(</span>
+        <span class="bp">cls</span><span class="p">,</span>
+        <span class="n">model</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">FlaxPreTrainedModel</span><span class="p">,</span>
+        <span class="n">config_model</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">PretrainedConfig</span><span class="p">,</span>
+        <span class="n">tokenizer</span><span class="p">:</span> <span class="n">transformers</span><span class="o">.</span><span class="n">PreTrainedTokenizer</span><span class="p">,</span>
+        <span class="n">path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">os</span><span class="o">.</span><span class="n">PathLike</span><span class="p">],</span>
+        <span class="n">server_config</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">add_params_field</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">init_shape</span><span class="p">:</span> <span class="nb">tuple</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">do_memory_log</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="s2">&quot;JAXServer&quot;</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The load function is used to load a pretrained model from disk.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        cls: Refer to the class itself</span>
+<span class="sd">        model: transformers.FlaxPreTrainedModel: Initialize the</span>
+<span class="sd">            server</span>
+<span class="sd">        config_model: transformers.PretrainedConfig: Get the</span>
+<span class="sd">            partition rules</span>
+<span class="sd">        tokenizer: transformers.PreTrainedTokenizer: Load the</span>
+<span class="sd">            tokenizer from the model</span>
+<span class="sd">        path: Union[str, os.PathLike]: Specify the path to the</span>
+<span class="sd">            checkpoint file</span>
+<span class="sd">        server_config: Configure the server</span>
+<span class="sd">        add_params_field: bool: Add a params field to the server</span>
+<span class="sd">        init_shape: tuple: Specify the shape of the input to be used</span>
+<span class="sd">            for generating shard_fns</span>
+<span class="sd">        do_memory_log: bool: Log the memory usage of the server</span>
+<span class="sd">        verbose: bool: Print the compilation process</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A server</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">model</span><span class="p">,</span>
+                   <span class="s2">&quot;init_weights&quot;</span><span class="p">),</span> <span class="s2">&quot;model must contain init_weights func in order to init params for shard_fns&quot;</span>
+    <span class="k">assert</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config_model</span><span class="p">,</span>
+                   <span class="s2">&quot;get_partition_rules&quot;</span><span class="p">),</span> <span class="s2">&quot;config_model must contain get_partition_rules functions&quot;</span>
+    <span class="n">server</span> <span class="o">=</span> <span class="bp">cls</span><span class="p">(</span><span class="n">server_config</span><span class="o">=</span><span class="n">server_config</span><span class="p">)</span>
+    <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+        <span class="s2">&quot;running _init() func in order to make shard_fns&quot;</span>
+    <span class="p">)</span>
+    <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="s2">&quot;cpu&quot;</span><span class="p">)[</span><span class="mi">0</span><span class="p">]):</span>
+        <span class="k">def</span> <span class="nf">_init</span><span class="p">():</span>
+            <span class="k">return</span> <span class="n">model</span><span class="o">.</span><span class="n">init_weights</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="n">init_shape</span><span class="p">)</span>
+
+        <span class="n">shape</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="n">_init</span><span class="p">)</span>
+    <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+        <span class="s2">&quot;matching partition rules&quot;</span>
+    <span class="p">)</span>
+    <span class="n">rules</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">shape</span><span class="p">,</span> <span class="n">rules</span><span class="o">=</span><span class="n">config_model</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span><span class="kc">True</span><span class="p">))</span>
+
+    <span class="k">with</span> <span class="n">server</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+        <span class="n">shard_fns</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span><span class="n">rules</span><span class="p">,</span> <span class="n">get_dtype</span><span class="p">(</span><span class="n">server</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">dtype</span><span class="p">))</span>
+        <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+            <span class="s2">&quot;loading checkpoints&quot;</span>
+        <span class="p">)</span>
+
+        <span class="n">shard_fns</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">traverse_util</span><span class="o">.</span><span class="n">flatten_dict</span><span class="p">(</span><span class="n">shard_fns</span><span class="p">)</span>
+        <span class="n">server</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="s2">&quot;rb&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">stream</span><span class="p">:</span>
+            <span class="n">unpacker</span> <span class="o">=</span> <span class="n">msgpack</span><span class="o">.</span><span class="n">Unpacker</span><span class="p">(</span><span class="n">stream</span><span class="p">,</span> <span class="n">read_size</span><span class="o">=</span><span class="mi">83886080</span><span class="p">,</span> <span class="n">max_buffer_size</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+            <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="o">.</span><span class="n">tqdm</span><span class="p">(</span><span class="n">unpacker</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">pbar</span><span class="p">:</span>
+                <span class="n">key</span> <span class="o">=</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">key</span><span class="p">)</span>
+                <span class="n">tensor</span> <span class="o">=</span> <span class="n">from_bytes</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+                <span class="n">tensor</span> <span class="o">=</span> <span class="n">shard_fns</span><span class="p">[</span><span class="n">key</span><span class="p">](</span><span class="n">tensor</span><span class="p">)</span>
+                <span class="n">server</span><span class="o">.</span><span class="n">params</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">tensor</span>
+                <span class="k">if</span> <span class="n">do_memory_log</span><span class="p">:</span>
+                    <span class="n">pbar</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">server</span><span class="o">.</span><span class="n">get_memory</span><span class="p">())</span>
+                <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Sharding Params&quot;</span><span class="p">)</span>
+    <span class="n">server</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">traverse_util</span><span class="o">.</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">server</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+    <span class="n">server</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">server</span><span class="o">.</span><span class="n">params</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">server</span><span class="o">.</span><span class="n">params</span>
+
+    <span class="n">server</span><span class="o">.</span><span class="n">rules</span> <span class="o">=</span> <span class="p">{</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">rules</span><span class="p">}</span> <span class="k">if</span> <span class="n">add_params_field</span> <span class="k">else</span> <span class="n">rules</span>
+    <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+        <span class="s2">&quot;configuring generate functions for the server&quot;</span>
+    <span class="p">)</span>
+    <span class="n">server</span><span class="o">.</span><span class="n">configure_generate_functions</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">server</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">pre_compile</span><span class="p">:</span>
+        <span class="n">server</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="n">verbose</span><span class="o">=</span><span class="n">verbose</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">server</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.sample" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">sample</span><span class="p">(</span><span class="n">string</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">greedy</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">max_new_tokens</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The sample function is the main function of a model. It takes in an input string and returns a list of strings
+that are generated from that input string. The sample function can be called multiple times with different inputs,
+and each time it will return a new set of outputs based on those inputs.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access the class attributes</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>string</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Pass the string that we want to generate</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code></code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass a variable number of arguments to a function</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>greedy</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use the greedy or non-
+greedy version of the generate function</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_new_tokens</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the number of tokens to generate</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass any additional parameters to the sample
+function</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A generator that yields the predicted text and the number of</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>tokens generated</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span>
+<span class="normal">914</span>
+<span class="normal">915</span>
+<span class="normal">916</span>
+<span class="normal">917</span>
+<span class="normal">918</span>
+<span class="normal">919</span>
+<span class="normal">920</span>
+<span class="normal">921</span>
+<span class="normal">922</span>
+<span class="normal">923</span>
+<span class="normal">924</span>
+<span class="normal">925</span>
+<span class="normal">926</span>
+<span class="normal">927</span>
+<span class="normal">928</span>
+<span class="normal">929</span>
+<span class="normal">930</span>
+<span class="normal">931</span>
+<span class="normal">932</span>
+<span class="normal">933</span>
+<span class="normal">934</span>
+<span class="normal">935</span>
+<span class="normal">936</span>
+<span class="normal">937</span>
+<span class="normal">938</span>
+<span class="normal">939</span>
+<span class="normal">940</span>
+<span class="normal">941</span>
+<span class="normal">942</span>
+<span class="normal">943</span>
+<span class="normal">944</span>
+<span class="normal">945</span>
+<span class="normal">946</span>
+<span class="normal">947</span>
+<span class="normal">948</span>
+<span class="normal">949</span>
+<span class="normal">950</span>
+<span class="normal">951</span>
+<span class="normal">952</span>
+<span class="normal">953</span>
+<span class="normal">954</span>
+<span class="normal">955</span>
+<span class="normal">956</span>
+<span class="normal">957</span>
+<span class="normal">958</span>
+<span class="normal">959</span>
+<span class="normal">960</span>
+<span class="normal">961</span>
+<span class="normal">962</span>
+<span class="normal">963</span>
+<span class="normal">964</span>
+<span class="normal">965</span>
+<span class="normal">966</span>
+<span class="normal">967</span>
+<span class="normal">968</span>
+<span class="normal">969</span>
+<span class="normal">970</span>
+<span class="normal">971</span>
+<span class="normal">972</span>
+<span class="normal">973</span>
+<span class="normal">974</span>
+<span class="normal">975</span>
+<span class="normal">976</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">sample</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span>
+           <span class="n">string</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+           <span class="o">*</span><span class="p">,</span>
+           <span class="n">greedy</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+           <span class="n">max_new_tokens</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+           <span class="o">**</span><span class="n">kwargs</span>
+           <span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The sample function is the main function of a model. It takes in an input string and returns a list of strings</span>
+<span class="sd">    that are generated from that input string. The sample function can be called multiple times with different inputs,</span>
+<span class="sd">    and each time it will return a new set of outputs based on those inputs.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access the class attributes</span>
+<span class="sd">        string: str: Pass the string that we want to generate</span>
+<span class="sd">        : Pass a variable number of arguments to a function</span>
+<span class="sd">        greedy: bool: Determine whether to use the greedy or non-</span>
+<span class="sd">            greedy version of the generate function</span>
+<span class="sd">        max_new_tokens: int: Set the number of tokens to generate</span>
+<span class="sd">        **kwargs: Pass any additional parameters to the sample</span>
+<span class="sd">            function</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A generator that yields the predicted text and the number of</span>
+<span class="sd">        tokens generated</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">fixed_pad</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_sequence_length</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span>
+    <span class="n">tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span><span class="p">(</span>
+        <span class="p">[</span><span class="n">string</span><span class="p">]</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">max_length</span><span class="o">=</span><span class="n">fixed_pad</span><span class="p">,</span>
+        <span class="n">padding</span><span class="o">=</span><span class="s2">&quot;max_length&quot;</span><span class="p">,</span>
+        <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;jax&quot;</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">use_prefix_tokenizer</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
+        <span class="p">[</span><span class="n">string</span><span class="p">]</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+        <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;jax&quot;</span>
+    <span class="p">)</span>
+
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">input_ids</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">attention_mask</span>
+    <span class="n">num_generated_tokens</span> <span class="o">=</span> <span class="mi">0</span>
+
+    <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">((</span><span class="n">max_new_tokens</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_new_tokens</span><span class="p">)</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">):</span>
+        <span class="n">inputs_to_gen</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+            <span class="n">params</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span>
+        <span class="p">)</span>
+        <span class="n">predicted_token</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">greedy_generate</span><span class="p">(</span><span class="o">**</span><span class="n">inputs_to_gen</span><span class="p">)</span> <span class="k">if</span> <span class="n">greedy</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span><span class="o">**</span><span class="n">inputs_to_gen</span><span class="p">)</span>
+        <span class="n">predicted_token</span> <span class="o">=</span> <span class="n">predicted_token</span><span class="p">[</span>
+            <span class="n">predicted_token</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="k">if</span> <span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="ow">is</span> <span class="kc">None</span>
+            <span class="p">)</span> <span class="k">else</span> <span class="n">predicted_token</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">pad_token_id</span>
+        <span class="p">]</span>
+        <span class="k">if</span> <span class="n">predicted_token</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="n">predicted_token</span> <span class="o">=</span> <span class="n">predicted_token</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">num_generated_tokens</span> <span class="o">+=</span> <span class="n">predicted_token</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+        <span class="n">plus_attn_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="nb">len</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">int32</span><span class="p">)</span>
+
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">predicted_token</span><span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)[:,</span> <span class="o">-</span><span class="n">fixed_pad</span><span class="p">:]</span>
+
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">plus_attn_mask</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">int32</span><span class="p">,</span>
+            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)[:,</span> <span class="o">-</span><span class="n">fixed_pad</span><span class="p">:]</span>
+
+        <span class="n">returns</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">batch_decode</span><span class="p">(</span><span class="n">input_ids</span><span class="p">[:,</span> <span class="o">-</span><span class="n">num_generated_tokens</span><span class="p">:],</span> <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+            <span class="n">num_generated_tokens</span>
+        <span class="p">)</span>
+
+        <span class="k">yield</span> <span class="n">returns</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">use_mxn_break_point</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">predicted_token</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">:</span>
+                <span class="k">break</span>
+
+        <span class="k">if</span> <span class="p">(</span>
+                <span class="n">predicted_token</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">)</span>
+                <span class="ow">or</span>
+                <span class="n">predicted_token</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">)</span>
+        <span class="p">):</span>
+            <span class="k">break</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.shard_params" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">shard_params</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">partition_rules</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The shard_params function takes in a set of parameters and a partition rule.
+The partition rule is used to determine how the parameters should be sharded across devices.
+For example, if we have two devices, one with 4GB of memory and another with 8GB of memory,
+we may want to shard our model such that the device with more memory has more parameters on it.
+This function returns an updated version of params where each parameter is now stored on its own device.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Bind the instance of the class to a method</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the parameters of the model to be sharded</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>partition_rules</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify how the parameters should be
+partitioned</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The sharded parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">shard_params</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">params</span><span class="p">,</span> <span class="n">partition_rules</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The shard_params function takes in a set of parameters and a partition rule.</span>
+<span class="sd">    The partition rule is used to determine how the parameters should be sharded across devices.</span>
+<span class="sd">    For example, if we have two devices, one with 4GB of memory and another with 8GB of memory,</span>
+<span class="sd">    we may want to shard our model such that the device with more memory has more parameters on it.</span>
+<span class="sd">    This function returns an updated version of params where each parameter is now stored on its own device.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Bind the instance of the class to a method</span>
+<span class="sd">        params: Pass the parameters of the model to be sharded</span>
+<span class="sd">        partition_rules: Specify how the parameters should be</span>
+<span class="sd">            partitioned</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The sharded parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">logging</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+        <span class="n">logging</span><span class="o">.</span><span class="n">INFO</span><span class="p">,</span>
+        <span class="s2">&quot;the parameters will be sharded and ba saved inside server you can access them by ``JAXServer.params``&quot;</span><span class="p">)</span>
+    <span class="n">rules</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span> <span class="n">rules</span><span class="o">=</span><span class="n">partition_rules</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">partition_specs</span> <span class="o">=</span> <span class="n">rules</span>
+    <span class="n">shard_fns</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span><span class="n">rules</span><span class="p">,</span> <span class="n">get_dtype</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">dtype</span><span class="p">))</span>
+
+    <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+            <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">p</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">p</span><span class="p">),</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="n">params</span>
+        <span class="p">)</span>
+
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServer.status" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">status</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+
+
+<details class="the-status-function-returns-a-dictionary-with-the-following-keys" open>
+  <summary>The status function returns a dictionary with the following keys</summary>
+  <p>server_config: A dictionary containing all the configuration parameters for this server.
+devices: A string describing which devices are available to JAX.
+number_of_backends: The number of backends available to JAX.  This is usually equal to the number of GPUs
+on your machine, but can be less if you have not installed CUDA or if you have disabled some GPUs in your
+ system BIOS settings (e.g., because they are defective).  It can also be more than one if you have multiple
+  machines connected via MPI and running under Horov</p>
+</details>
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with the following keys:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">status</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The status function returns a dictionary with the following keys:</span>
+<span class="sd">        server_config: A dictionary containing all the configuration parameters for this server.</span>
+<span class="sd">        devices: A string describing which devices are available to JAX.</span>
+<span class="sd">        number_of_backends: The number of backends available to JAX.  This is usually equal to the number of GPUs</span>
+<span class="sd">        on your machine, but can be less if you have not installed CUDA or if you have disabled some GPUs in your</span>
+<span class="sd">         system BIOS settings (e.g., because they are defective).  It can also be more than one if you have multiple</span>
+<span class="sd">          machines connected via MPI and running under Horov</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with the following keys:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;server_config&quot;</span><span class="p">:</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">()},</span>
+        <span class="s2">&quot;devices&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">()</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;number_of_backends&quot;</span><span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">()),</span>
+        <span class="s2">&quot;status&quot;</span><span class="p">:</span> <span class="s2">&quot;Ready&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;number_of_served_request_until_last_up_time&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">number_of_served_request_until_last_up_time</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;memory&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">get_mem</span><span class="p">()</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.serve.jax_serve.JAXServerConfig" class="doc doc-heading">
+            <code>JAXServerConfig</code>
+
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-dataclass"><code>dataclass</code></small>
+  </span>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+      <p>:param host: str: Set the host address of the server
+:param port: int: Specify the port number that the server will run on
+:param batch_size: int: Set the batch size of the model
+:param max_sequence_length: int: Set the maximum length of the text that can be generated
+:param max_new_tokens: int: Determine how many tokens can be added to the vocabulary
+:param max_compile_tokens: int: Set the maximum number of tokens that can be streamed at a time
+:param generation_ps: PartitionSpec : PartitionSpec to use for sharding data
+:param temperature: float: Control the randomness of the output
+:param top_p: float: Control the diversity of the text generated
+:param top_k: int: Limit the number of tokens that can be generated
+:param logging: bool: Print out the progress of the server
+:param mesh_axes_names: Sequence[str]: Specify the names of the axes in the mesh tensor
+:param mesh_axes_shape: Sequence[int]: Specify the shape of the mesh
+:param dtype: str: Specify the data type of the model
+:param stream_tokens_for_gradio: bool: Determine whether the stream tokens
+:param use_prefix_tokenizer: bool: Determine if the tokenizer should be used to generate tokens
+:param pre_compile: bool: Pre-compile the model</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@dataclass</span>
+<span class="k">class</span> <span class="nc">JAXServerConfig</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    :param host: str: Set the host address of the server</span>
+<span class="sd">    :param port: int: Specify the port number that the server will run on</span>
+<span class="sd">    :param batch_size: int: Set the batch size of the model</span>
+<span class="sd">    :param max_sequence_length: int: Set the maximum length of the text that can be generated</span>
+<span class="sd">    :param max_new_tokens: int: Determine how many tokens can be added to the vocabulary</span>
+<span class="sd">    :param max_compile_tokens: int: Set the maximum number of tokens that can be streamed at a time</span>
+<span class="sd">    :param generation_ps: PartitionSpec : PartitionSpec to use for sharding data</span>
+<span class="sd">    :param temperature: float: Control the randomness of the output</span>
+<span class="sd">    :param top_p: float: Control the diversity of the text generated</span>
+<span class="sd">    :param top_k: int: Limit the number of tokens that can be generated</span>
+<span class="sd">    :param logging: bool: Print out the progress of the server</span>
+<span class="sd">    :param mesh_axes_names: Sequence[str]: Specify the names of the axes in the mesh tensor</span>
+<span class="sd">    :param mesh_axes_shape: Sequence[int]: Specify the shape of the mesh</span>
+<span class="sd">    :param dtype: str: Specify the data type of the model</span>
+<span class="sd">    :param stream_tokens_for_gradio: bool: Determine whether the stream tokens</span>
+<span class="sd">    :param use_prefix_tokenizer: bool: Determine if the tokenizer should be used to generate tokens</span>
+<span class="sd">    :param pre_compile: bool: Pre-compile the model</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">host</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;0.0.0.0&quot;</span>
+    <span class="n">port</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2059</span>
+    <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span>
+
+    <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4096</span>
+    <span class="n">max_new_tokens</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4096</span>
+    <span class="n">max_compile_tokens</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span>
+    <span class="n">temperature</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.4</span>
+    <span class="n">top_p</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.95</span>
+    <span class="n">top_k</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">50</span>
+    <span class="n">repetition_penalty</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.2</span>
+
+    <span class="n">eos_token_id</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">pad_token_id</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">bos_token_id</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="n">logging</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+
+    <span class="n">mesh_axes_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">)</span>
+    <span class="n">mesh_axes_shape</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+    <span class="n">generation_ps</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">)</span>
+
+    <span class="n">dtype</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;fp16&quot;</span>
+
+    <span class="n">stream_tokens_for_gradio</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="n">use_prefix_tokenizer</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="n">pre_compile</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+
+    <span class="n">use_mxn_break_point</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+
+    <span class="k">def</span> <span class="nf">__post_init__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_new_tokens</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_compile_tokens</span> <span class="o">==</span> <span class="mi">0</span><span class="p">,</span> <span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;max_new_tokens should be divisible by max_compile_tokens  </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_new_tokens</span><span class="w"> </span><span class="o">%</span><span class="w"> </span><span class="bp">self</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">        This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">        to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">        object, or when you type its name in the REPL.</span>
+
+<span class="sd">        :param self: Refer to the instance of the class</span>
+<span class="sd">        :return: A string representation of the object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                    <span class="o">...</span>
+
+        <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">        It should return a string representation of the object.</span>
+
+<span class="sd">        :param self: Refer to the instance of the class</span>
+<span class="sd">        :return: The object&#39;s string representation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServerConfig.__repr__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__repr__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>repr</strong> function is used to generate a string representation of an object.
+This function should return a string that can be parsed by the Python interpreter
+to recreate the object. The <strong>repr</strong> function is called when you use print() on an
+object, or when you type its name in the REPL.</p>
+<p>:param self: Refer to the instance of the class
+:return: A string representation of the object</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">    This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">    to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">    object, or when you type its name in the REPL.</span>
+
+<span class="sd">    :param self: Refer to the instance of the class</span>
+<span class="sd">    :return: A string representation of the object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                <span class="o">...</span>
+
+    <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.jax_serve.JAXServerConfig.__str__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__str__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>str</strong> function is called when you use the print function or when str() is used.
+It should return a string representation of the object.</p>
+<p>:param self: Refer to the instance of the class
+:return: The object's string representation</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/jax_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">    It should return a string representation of the object.</span>
+
+<span class="sd">    :param self: Refer to the instance of the class</span>
+<span class="sd">    :return: The object&#39;s string representation</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-prompters-base_prompter/index.html b/generated-serve-prompters-base_prompter/index.html
new file mode 100644
index 000000000..f25af7719
--- /dev/null
+++ b/generated-serve-prompters-base_prompter/index.html
@@ -0,0 +1,6580 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-jax_serve/">
+      
+      
+        <link rel="next" href="../generated-serve-prompters-cargo_prompter/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Base Prompter - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#servepromptersbase_prompter" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Base Prompter
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.base_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      base_prompter
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.base_prompter.BasePrompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      BasePrompter
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="BasePrompter">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.base_prompter.BasePrompter.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.base_prompter.BasePrompter.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.base_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      base_prompter
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.base_prompter.BasePrompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      BasePrompter
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="BasePrompter">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.base_prompter.BasePrompter.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.base_prompter.BasePrompter.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="servepromptersbase_prompter">serve.prompters.base_prompter</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.prompters.base_prompter"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.serve.prompters.base_prompter.BasePrompter" class="doc doc-heading">
+            <code>BasePrompter</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="abc.ABC">ABC</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/serve/prompters/base_prompter.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  7</span>
+<span class="normal">  8</span>
+<span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">BasePrompter</span><span class="p">(</span><span class="n">abc</span><span class="o">.</span><span class="n">ABC</span><span class="p">):</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">prompter_type</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">user_message_token</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">assistant_message_token</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">end_of_turn_token</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prompter_type</span> <span class="o">=</span> <span class="n">prompter_type</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">user_message_token</span> <span class="o">=</span> <span class="n">user_message_token</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">assistant_message_token</span> <span class="o">=</span> <span class="n">assistant_message_token</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">end_of_turn_token</span> <span class="o">=</span> <span class="n">end_of_turn_token</span>
+
+    <span class="nd">@abstractmethod</span>
+    <span class="k">def</span> <span class="nf">format_history_prefix</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">history</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
+            <span class="n">system_message</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span><span class="s2">&quot;NotImplementedYet !&quot;</span><span class="p">)</span>
+
+    <span class="nd">@abstractmethod</span>
+    <span class="k">def</span> <span class="nf">format_message</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">prompt</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">history</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
+            <span class="n">system_message</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
+            <span class="n">prefix</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span><span class="s2">&quot;NotImplementedYet !&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">content_finder</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">prompt</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">formatted_prompt</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">history</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
+            <span class="n">system_message</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">external_data</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span><span class="p">(</span><span class="s2">&quot;NotImplementedYet !&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">filter_response</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">response</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+        <span class="n">response</span> <span class="o">=</span> <span class="n">response</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">user_message_token</span><span class="p">,</span> <span class="s2">&quot;&quot;</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">assistant_message_token</span><span class="p">,</span> <span class="s2">&quot;&quot;</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">response</span>
+
+    <span class="k">def</span> <span class="nf">get_stop_signs</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]:</span>
+        <span class="k">return</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">user_message_token</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">end_of_turn_token</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">assistant_message_token</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="nf">retrival_qa_template</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">question</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">contexts</span><span class="p">:</span> <span class="nb">list</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
+            <span class="n">base_question</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">context_seperator_char</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+    <span class="p">):</span>
+        <span class="n">base_question</span> <span class="o">=</span> <span class="n">base_question</span> <span class="ow">or</span> <span class="p">(</span>
+            <span class="s2">&quot;Use the following pieces of context to answer the question at the end. If you don&#39;t know the answer, &quot;</span>
+            <span class="s2">&quot;just say that you don&#39;t know, don&#39;t try to make up an answer.</span><span class="se">\n\n</span><span class="si">{context}</span><span class="se">\n\n</span><span class="s2">Question: </span><span class="si">{question}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+        <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">contexts</span><span class="p">,</span> <span class="nb">list</span><span class="p">),</span> <span class="s2">&quot;provide a list of strings&quot;</span>
+        <span class="n">context</span> <span class="o">=</span> <span class="n">context_seperator_char</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">context</span> <span class="k">for</span> <span class="n">context</span> <span class="ow">in</span> <span class="n">contexts</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">user_message_token</span> <span class="o">+</span> <span class="n">base_question</span><span class="o">.</span><span class="n">format</span><span class="p">(</span>
+            <span class="n">context</span><span class="o">=</span><span class="n">context</span><span class="p">,</span>
+            <span class="n">question</span><span class="o">=</span><span class="n">question</span>
+        <span class="p">)</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">assistant_message_token</span>
+
+    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">        This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">        to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">        object, or when you type its name in the REPL.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A string representation of the object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> \
+                               <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span>
+                        <span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                    <span class="o">...</span>
+        <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">        It should return a string representation of the object.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The object&#39;s string representation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.prompters.base_prompter.BasePrompter.__repr__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__repr__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>repr</strong> function is used to generate a string representation of an object.
+This function should return a string that can be parsed by the Python interpreter
+to recreate the object. The <strong>repr</strong> function is called when you use print() on an
+object, or when you type its name in the REPL.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A string representation of the object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/prompters/base_prompter.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">    This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">    to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">    object, or when you type its name in the REPL.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A string representation of the object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> \
+                           <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span>
+                    <span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                <span class="o">...</span>
+    <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.prompters.base_prompter.BasePrompter.__str__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__str__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>str</strong> function is called when you use the print function or when str() is used.
+It should return a string representation of the object.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The object's string representation</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/prompters/base_prompter.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">    It should return a string representation of the object.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The object&#39;s string representation</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-prompters-cargo_prompter/index.html b/generated-serve-prompters-cargo_prompter/index.html
new file mode 100644
index 000000000..911cfc181
--- /dev/null
+++ b/generated-serve-prompters-cargo_prompter/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-prompters-base_prompter/">
+      
+      
+        <link rel="next" href="../generated-serve-prompters-chatml_prompter/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Cargo Prompter - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#serveprompterscargo_prompter" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Cargo Prompter
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.cargo_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      cargo_prompter
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.cargo_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      cargo_prompter
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="serveprompterscargo_prompter">serve.prompters.cargo_prompter</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.prompters.cargo_prompter"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-prompters-chatml_prompter/index.html b/generated-serve-prompters-chatml_prompter/index.html
new file mode 100644
index 000000000..f334cfbcf
--- /dev/null
+++ b/generated-serve-prompters-chatml_prompter/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-prompters-cargo_prompter/">
+      
+      
+        <link rel="next" href="../generated-serve-prompters-gemma_prompter/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Chatml Prompter - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#serveprompterschatml_prompter" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Chatml Prompter
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.chatml_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      chatml_prompter
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.chatml_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      chatml_prompter
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="serveprompterschatml_prompter">serve.prompters.chatml_prompter</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.prompters.chatml_prompter"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-prompters-gemma_prompter/index.html b/generated-serve-prompters-gemma_prompter/index.html
new file mode 100644
index 000000000..1153192ae
--- /dev/null
+++ b/generated-serve-prompters-gemma_prompter/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-prompters-chatml_prompter/">
+      
+      
+        <link rel="next" href="../generated-serve-prompters-guanaco_prompter/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Gemma Prompter - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#servepromptersgemma_prompter" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Gemma Prompter
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.gemma_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      gemma_prompter
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.gemma_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      gemma_prompter
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="servepromptersgemma_prompter">serve.prompters.gemma_prompter</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.prompters.gemma_prompter"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-prompters-guanaco_prompter/index.html b/generated-serve-prompters-guanaco_prompter/index.html
new file mode 100644
index 000000000..22156290a
--- /dev/null
+++ b/generated-serve-prompters-guanaco_prompter/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-prompters-gemma_prompter/">
+      
+      
+        <link rel="next" href="../generated-serve-prompters-llama2_prompter/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Guanaco Prompter - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#servepromptersguanaco_prompter" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Guanaco Prompter
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.guanaco_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      guanaco_prompter
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.guanaco_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      guanaco_prompter
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="servepromptersguanaco_prompter">serve.prompters.guanaco_prompter</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.prompters.guanaco_prompter"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-prompters-llama2_prompter/index.html b/generated-serve-prompters-llama2_prompter/index.html
new file mode 100644
index 000000000..3ba387010
--- /dev/null
+++ b/generated-serve-prompters-llama2_prompter/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-prompters-guanaco_prompter/">
+      
+      
+        <link rel="next" href="../generated-serve-prompters-openchat_prompter/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Llama2 Prompter - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#servepromptersllama2_prompter" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Llama2 Prompter
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.llama2_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      llama2_prompter
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.llama2_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      llama2_prompter
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="servepromptersllama2_prompter">serve.prompters.llama2_prompter</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.prompters.llama2_prompter"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-prompters-openchat_prompter/index.html b/generated-serve-prompters-openchat_prompter/index.html
new file mode 100644
index 000000000..62f712aec
--- /dev/null
+++ b/generated-serve-prompters-openchat_prompter/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-prompters-llama2_prompter/">
+      
+      
+        <link rel="next" href="../generated-serve-prompters-zephyr_prompter/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Openchat Prompter - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#servepromptersopenchat_prompter" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Openchat Prompter
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.openchat_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      openchat_prompter
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.openchat_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      openchat_prompter
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="servepromptersopenchat_prompter">serve.prompters.openchat_prompter</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.prompters.openchat_prompter"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-prompters-zephyr_prompter/index.html b/generated-serve-prompters-zephyr_prompter/index.html
new file mode 100644
index 000000000..6db174f8f
--- /dev/null
+++ b/generated-serve-prompters-zephyr_prompter/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-prompters-openchat_prompter/">
+      
+      
+        <link rel="next" href="../generated-serve-serve_engine-client/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Zephyr Prompter - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#serveprompterszephyr_prompter" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Zephyr Prompter
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.zephyr_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      zephyr_prompter
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.prompters.zephyr_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      zephyr_prompter
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="serveprompterszephyr_prompter">serve.prompters.zephyr_prompter</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.prompters.zephyr_prompter"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-serve_engine-client/index.html b/generated-serve-serve_engine-client/index.html
new file mode 100644
index 000000000..e64f32835
--- /dev/null
+++ b/generated-serve-serve_engine-client/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-prompters-zephyr_prompter/">
+      
+      
+        <link rel="next" href="../generated-serve-serve_engine-configuration/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Client - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#serveserve_engineclient" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Client
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.client" class="md-nav__link">
+    <span class="md-ellipsis">
+      client
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.client" class="md-nav__link">
+    <span class="md-ellipsis">
+      client
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="serveserve_engineclient">serve.serve_engine.client</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.serve_engine.client"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-serve_engine-configuration/index.html b/generated-serve-serve_engine-configuration/index.html
new file mode 100644
index 000000000..12dd3800e
--- /dev/null
+++ b/generated-serve-serve_engine-configuration/index.html
@@ -0,0 +1,6832 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-serve_engine-client/">
+      
+      
+        <link rel="next" href="../generated-serve-serve_engine-serve/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Configuration - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#serveserve_engineconfiguration" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Configuration
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.configuration.EasyServeConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyServeConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="EasyServeConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.configuration.EasyServeConfig.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.configuration.EasyServeConfig.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.configuration" class="md-nav__link">
+    <span class="md-ellipsis">
+      configuration
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.configuration.EasyServeConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyServeConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="EasyServeConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.configuration.EasyServeConfig.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.configuration.EasyServeConfig.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="serveserve_engineconfiguration">serve.serve_engine.configuration</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.serve_engine.configuration"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.serve.serve_engine.configuration.EasyServeConfig" class="doc doc-heading">
+            <code>EasyServeConfig</code>
+
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-dataclass"><code>dataclass</code></small>
+  </span>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>host</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Set the host address of the server</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;0.0.0.0&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>port</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Specify the port number that the server will run on</p>
+              </div>
+            </td>
+            <td>
+                  <code>2059</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the batch size of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_sequence_length</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the maximum length of the text
+that can be generated</p>
+              </div>
+            </td>
+            <td>
+                  <code>4096</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_new_tokens</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Determine how many tokens can be added to
+the vocabulary</p>
+              </div>
+            </td>
+            <td>
+                  <code>4096</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_compile_tokens</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the maximum number of tokens that
+can be streamed at a time</p>
+              </div>
+            </td>
+            <td>
+                  <code>64</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>generation_ps</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.sharding.PartitionSpec : PartitionSpec to use
+for sharding data</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>(&#39;dp&#39;, &#39;fsdp&#39;)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>temperature</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Control the randomness of the output</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>top_p</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Control the diversity of the text generated</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.95</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>top_k</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Limit the number of tokens that can be generated</p>
+              </div>
+            </td>
+            <td>
+                  <code>50</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>logging</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Print out the progress of the server</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>mesh_axes_names</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[str]: Specify the names of the axes in
+the mesh tensor</p>
+              </div>
+            </td>
+            <td>
+                  <code>(&#39;dp&#39;, &#39;fsdp&#39;, &#39;tp&#39;, &#39;sp&#39;)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>mesh_axes_shape</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Sequence[int]: Specify the shape of the mesh</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, -1, 1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dtype</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Specify the data type of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;fp16&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_prefix_tokenizer</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine if the tokenizer should be
+used to generate tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>pre_compile</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Pre-compile the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Nothing</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/serve/serve_engine/configuration.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  6</span>
+<span class="normal">  7</span>
+<span class="normal">  8</span>
+<span class="normal">  9</span>
+<span class="normal"> 10</span>
+<span class="normal"> 11</span>
+<span class="normal"> 12</span>
+<span class="normal"> 13</span>
+<span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@dataclass</span>
+<span class="k">class</span> <span class="nc">EasyServeConfig</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Args:</span>
+<span class="sd">        host: str: Set the host address of the server</span>
+<span class="sd">        port: int: Specify the port number that the server will run on</span>
+<span class="sd">        batch_size: int: Set the batch size of the model</span>
+<span class="sd">        max_sequence_length: int: Set the maximum length of the text</span>
+<span class="sd">            that can be generated</span>
+<span class="sd">        max_new_tokens: int: Determine how many tokens can be added to</span>
+<span class="sd">            the vocabulary</span>
+<span class="sd">        max_compile_tokens: int: Set the maximum number of tokens that</span>
+<span class="sd">            can be streamed at a time</span>
+<span class="sd">        generation_ps: jax.sharding.PartitionSpec : PartitionSpec to use</span>
+<span class="sd">            for sharding data</span>
+<span class="sd">        temperature: float: Control the randomness of the output</span>
+<span class="sd">        top_p: float: Control the diversity of the text generated</span>
+<span class="sd">        top_k: int: Limit the number of tokens that can be generated</span>
+<span class="sd">        logging: bool: Print out the progress of the server</span>
+<span class="sd">        mesh_axes_names: Sequence[str]: Specify the names of the axes in</span>
+<span class="sd">            the mesh tensor</span>
+<span class="sd">        mesh_axes_shape: Sequence[int]: Specify the shape of the mesh</span>
+<span class="sd">        dtype: str: Specify the data type of the model</span>
+<span class="sd">        use_prefix_tokenizer: bool: Determine if the tokenizer should be</span>
+<span class="sd">            used to generate tokens</span>
+<span class="sd">        pre_compile: bool: Pre-compile the model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        Nothing</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">host</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;0.0.0.0&quot;</span>
+    <span class="n">port</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2059</span>
+
+    <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span>
+    <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4096</span>
+    <span class="n">max_new_tokens</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4096</span>
+    <span class="n">max_compile_tokens</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span>
+    <span class="n">temperature</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span>
+    <span class="n">top_p</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.95</span>
+    <span class="n">top_k</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">50</span>
+    <span class="n">repetition_penalty</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.2</span>
+    <span class="n">greedy</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="n">logging</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+
+    <span class="n">mesh_axes_names</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">)</span>
+    <span class="n">mesh_axes_shape</span><span class="p">:</span> <span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+    <span class="n">generation_ps</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">)</span>
+    <span class="n">dtype</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;fp16&quot;</span>
+
+    <span class="n">eos_token_id</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">pad_token_id</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">bos_token_id</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="n">use_prefix_tokenizer</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="n">pre_compile</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+
+    <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+
+    <span class="n">use_mxn_break_point</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+
+    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">        This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">        to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">        object, or when you type its name in the REPL.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A string representation of the object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                    <span class="o">...</span>
+
+        <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">        It should return a string representation of the object.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The object&#39;s string representation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.serve_engine.configuration.EasyServeConfig.__repr__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__repr__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>repr</strong> function is used to generate a string representation of an object.
+This function should return a string that can be parsed by the Python interpreter
+to recreate the object. The <strong>repr</strong> function is called when you use print() on an
+object, or when you type its name in the REPL.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A string representation of the object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/serve_engine/configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span>
+<span class="normal">80</span>
+<span class="normal">81</span>
+<span class="normal">82</span>
+<span class="normal">83</span>
+<span class="normal">84</span>
+<span class="normal">85</span>
+<span class="normal">86</span>
+<span class="normal">87</span>
+<span class="normal">88</span>
+<span class="normal">89</span>
+<span class="normal">90</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">    This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">    to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">    object, or when you type its name in the REPL.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A string representation of the object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                <span class="o">...</span>
+
+    <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.serve_engine.configuration.EasyServeConfig.__str__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__str__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>str</strong> function is called when you use the print function or when str() is used.
+It should return a string representation of the object.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The object's string representation</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/serve_engine/configuration.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">    It should return a string representation of the object.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The object&#39;s string representation</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-serve_engine-serve/index.html b/generated-serve-serve_engine-serve/index.html
new file mode 100644
index 000000000..832e9ab3e
--- /dev/null
+++ b/generated-serve-serve_engine-serve/index.html
@@ -0,0 +1,9114 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-serve_engine-configuration/">
+      
+      
+        <link rel="next" href="../generated-serve-torch_serve/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Serve - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#serveserve_engineserve" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Serve
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve" class="md-nav__link">
+    <span class="md-ellipsis">
+      serve
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyServe
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="EasyServe">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.compile" class="md-nav__link">
+    <span class="md-ellipsis">
+      compile
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.conversation_template" class="md-nav__link">
+    <span class="md-ellipsis">
+      conversation_template
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.create_generation_functions_and_tokenizers" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_generation_functions_and_tokenizers
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.create_shard_and_gather_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_shard_and_gather_functions
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.from_parameters" class="md-nav__link">
+    <span class="md-ellipsis">
+      from_parameters
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.sample" class="md-nav__link">
+    <span class="md-ellipsis">
+      sample
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.shard_parameters" class="md-nav__link">
+    <span class="md-ellipsis">
+      shard_parameters
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve" class="md-nav__link">
+    <span class="md-ellipsis">
+      serve
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyServe
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="EasyServe">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.compile" class="md-nav__link">
+    <span class="md-ellipsis">
+      compile
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.conversation_template" class="md-nav__link">
+    <span class="md-ellipsis">
+      conversation_template
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.create_generation_functions_and_tokenizers" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_generation_functions_and_tokenizers
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.create_shard_and_gather_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_shard_and_gather_functions
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.from_parameters" class="md-nav__link">
+    <span class="md-ellipsis">
+      from_parameters
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.sample" class="md-nav__link">
+    <span class="md-ellipsis">
+      sample
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.serve_engine.serve.EasyServe.shard_parameters" class="md-nav__link">
+    <span class="md-ellipsis">
+      shard_parameters
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="serveserve_engineserve">serve.serve_engine.serve</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.serve_engine.serve"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.serve.serve_engine.serve.EasyServe" class="doc doc-heading">
+            <code>EasyServe</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">EasyServe</span><span class="p">:</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">llm</span><span class="p">:</span> <span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">FrozenDict</span><span class="p">,</span> <span class="nb">dict</span><span class="p">],</span>
+            <span class="n">tokenizer</span><span class="p">:</span> <span class="n">PreTrainedTokenizerBase</span><span class="p">,</span>
+            <span class="n">prefix_tokenizer</span><span class="p">:</span> <span class="n">PreTrainedTokenizerBase</span><span class="p">,</span>
+            <span class="n">greedy_generate_function</span><span class="p">:</span> <span class="n">Callable</span><span class="p">,</span>
+            <span class="n">non_greedy_generate_function</span><span class="p">:</span> <span class="n">Callable</span><span class="p">,</span>
+            <span class="n">serve_config</span><span class="p">:</span> <span class="n">EasyServeConfig</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">llm</span> <span class="o">=</span> <span class="n">llm</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="n">params</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span> <span class="o">=</span> <span class="n">prefix_tokenizer</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">greedy_generate_function</span> <span class="o">=</span> <span class="n">greedy_generate_function</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">non_greedy_generate_function</span> <span class="o">=</span> <span class="n">non_greedy_generate_function</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span> <span class="o">=</span> <span class="n">serve_config</span>
+        <span class="k">if</span> <span class="n">serve_config</span><span class="o">.</span><span class="n">pre_compile</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span><span class="n">verbose</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">verbose</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_generation_function</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">greedy</span><span class="p">:</span> <span class="nb">bool</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">greedy_generate_function</span> <span class="k">if</span> <span class="n">greedy</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">non_greedy_generate_function</span>
+
+    <span class="k">def</span> <span class="nf">conversation_template</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">conversation</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Dict</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The conversation_template function takes a list of ConversationItem objects and returns a string.</span>
+<span class="sd">        where system message, user message, and assistant message are the content fields of the ConversationItem objects.</span>
+<span class="sd">        If there is no system message in the conversation, then it will be omitted from the template.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the current instance of a class</span>
+<span class="sd">            conversation: List[ConversationItem]: Pass in the</span>
+<span class="sd">                conversation items</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A string that is a concatenation of the messages in the</span>
+<span class="sd">            conversation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span>
+            <span class="n">conversation</span><span class="o">=</span><span class="n">conversation</span><span class="p">,</span>
+            <span class="n">add_generation_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">tokenize</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+
+    <span class="k">async</span> <span class="k">def</span> <span class="nf">generate</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">socket</span><span class="p">):</span>
+        <span class="n">data</span> <span class="o">=</span> <span class="n">json</span><span class="o">.</span><span class="n">loads</span><span class="p">(</span><span class="k">await</span> <span class="n">socket</span><span class="o">.</span><span class="n">recv</span><span class="p">())</span>
+        <span class="n">prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">conversation_template</span><span class="p">(</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;conversation&quot;</span><span class="p">])</span>
+        <span class="n">max_new_tokens</span> <span class="o">=</span> <span class="n">data</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;max_new_tokens&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_new_tokens</span>
+        <span class="n">greedy</span> <span class="o">=</span> <span class="n">data</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;greedy&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">greedy</span>
+        <span class="n">start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+        <span class="n">send_data</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">prl_res</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="k">for</span> <span class="n">response</span><span class="p">,</span> <span class="n">num_token_generated</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                <span class="n">string</span><span class="o">=</span><span class="n">prompt</span><span class="p">,</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">max_new_tokens</span><span class="p">,</span>
+                <span class="n">greedy</span><span class="o">=</span><span class="n">greedy</span><span class="p">,</span>
+
+        <span class="p">):</span>
+            <span class="n">generation_duration</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">start</span>
+            <span class="n">tokens_pre_second</span> <span class="o">=</span> <span class="n">num_token_generated</span> <span class="o">/</span> <span class="n">generation_duration</span>
+
+            <span class="n">send_data</span> <span class="o">=</span> <span class="p">{</span>
+                <span class="s2">&quot;response&quot;</span><span class="p">:</span> <span class="n">response</span><span class="p">[</span><span class="n">prl_res</span><span class="p">:],</span>
+                <span class="s2">&quot;num_token_generated&quot;</span><span class="p">:</span> <span class="n">num_token_generated</span><span class="p">,</span>
+                <span class="s2">&quot;greedy&quot;</span><span class="p">:</span> <span class="n">greedy</span><span class="p">,</span>
+                <span class="s2">&quot;model_prompt&quot;</span><span class="p">:</span> <span class="n">prompt</span><span class="p">,</span>
+                <span class="s2">&quot;generation_duration&quot;</span><span class="p">:</span> <span class="n">generation_duration</span><span class="p">,</span>
+                <span class="s2">&quot;tokens_pre_second&quot;</span><span class="p">:</span> <span class="n">tokens_pre_second</span><span class="p">,</span>
+                <span class="s2">&quot;done&quot;</span><span class="p">:</span> <span class="kc">False</span>
+            <span class="p">}</span>
+            <span class="n">prl_res</span> <span class="o">+=</span> <span class="nb">len</span><span class="p">(</span><span class="n">response</span><span class="p">)</span>
+            <span class="k">await</span> <span class="n">socket</span><span class="o">.</span><span class="n">send</span><span class="p">(</span><span class="n">json</span><span class="o">.</span><span class="n">dumps</span><span class="p">(</span><span class="n">send_data</span><span class="p">))</span>
+
+        <span class="n">send_data</span><span class="p">[</span><span class="s2">&quot;done&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="kc">True</span>
+        <span class="n">send_data</span><span class="p">[</span><span class="s2">&quot;response&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;&quot;</span>
+        <span class="k">await</span> <span class="n">socket</span><span class="o">.</span><span class="n">send</span><span class="p">(</span><span class="n">json</span><span class="o">.</span><span class="n">dumps</span><span class="p">(</span><span class="n">send_data</span><span class="p">))</span>
+
+    <span class="k">async</span> <span class="k">def</span> <span class="nf">handle_client</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">socket</span><span class="p">:</span> <span class="n">websocket</span><span class="o">.</span><span class="n">WebSocket</span><span class="p">,</span> <span class="n">path</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;connection open&quot;</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">path</span> <span class="o">==</span> <span class="s2">&quot;/stream/v1/conversation&quot;</span><span class="p">:</span>
+                <span class="k">await</span> <span class="bp">self</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span><span class="n">socket</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="n">path</span> <span class="o">==</span> <span class="s2">&quot;/&quot;</span><span class="p">:</span>
+                <span class="k">await</span> <span class="n">socket</span><span class="o">.</span><span class="n">send</span><span class="p">(</span><span class="n">json</span><span class="o">.</span><span class="n">dumps</span><span class="p">({</span><span class="s2">&quot;status&quot;</span><span class="p">:</span> <span class="s2">&quot;AgentX server is Running...&quot;</span><span class="p">}))</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">await</span> <span class="n">socket</span><span class="o">.</span><span class="n">send</span><span class="p">(</span><span class="n">json</span><span class="o">.</span><span class="n">dumps</span><span class="p">({</span><span class="s2">&quot;error&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;invalid path </span><span class="si">{</span><span class="n">path</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">}))</span>
+        <span class="k">except</span> <span class="n">websockets</span><span class="o">.</span><span class="n">ConnectionClosed</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;connection closed&quot;</span><span class="p">)</span>
+        <span class="k">except</span> <span class="ne">Exception</span> <span class="k">as</span> <span class="n">e</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Error: </span><span class="si">{</span><span class="n">e</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">create_shard_and_gather_functions</span><span class="p">(</span>
+            <span class="n">parameters</span><span class="p">:</span> <span class="nb">dict</span><span class="p">,</span>
+            <span class="n">partition_rules</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">]],</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;fp16&quot;</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The create_shard_and_gather_functions function takes in a dictionary of parameters,</span>
+<span class="sd">        a tuple of partition rules, and an optional dtype. It then matches the partition rules to the</span>
+<span class="sd">        parameters and creates shard functions for each parameter. The shard functions are used to</span>
+<span class="sd">        split up a parameter into shards (or partitions) that can be stored on different devices.</span>
+<span class="sd">        The gather function is used to combine all the shards back together again.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            parameters: dict: Specify the parameters of the model</span>
+<span class="sd">            partition_rules: Tuple[Tuple[str,  PartitionSpec]]: Specify</span>
+<span class="sd">                which parameters to partition</span>
+<span class="sd">            dtype: jax.numpy.dtype | str: Specify the data type of the</span>
+<span class="sd">                parameters</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of three elements:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">partition_specs</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span><span class="n">partition_rules</span><span class="p">,</span> <span class="n">parameters</span><span class="p">)</span>
+        <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span>
+            <span class="n">partition_specs</span><span class="o">=</span><span class="n">partition_specs</span><span class="p">,</span>
+            <span class="n">dtype_specs</span><span class="o">=</span><span class="n">get_dtype</span><span class="p">(</span><span class="n">dtype</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span><span class="p">,</span> <span class="n">partition_specs</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">shard_parameters</span><span class="p">(</span>
+            <span class="n">mesh</span><span class="p">:</span> <span class="n">Mesh</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">FrozenDict</span><span class="p">,</span> <span class="nb">dict</span><span class="p">],</span>
+            <span class="n">partition_rules</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">]],</span>
+            <span class="n">serve_config</span><span class="p">:</span> <span class="n">EasyServeConfig</span><span class="p">,</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The shard_parameters function takes a set of parameters and partitions them according to the partition_rules.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            mesh: Mesh: Create a mesh object that is used to shard the</span>
+<span class="sd">                parameters</span>
+<span class="sd">            params: FrozenDict | dict: Pass in the parameters of the</span>
+<span class="sd">                model</span>
+<span class="sd">            partition_rules: Tuple[Tuple[str, PartitionSpec]]: Specify</span>
+<span class="sd">                the partitioning rules for each parameter</span>
+<span class="sd">            serve_config: EasyServeConfig: Specify the dtype of the</span>
+<span class="sd">                parameters</span>
+<span class="sd">        :param : Create a mesh of devices</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            sharded parameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">partition_specs</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span> <span class="n">rules</span><span class="o">=</span><span class="n">partition_rules</span><span class="p">)</span>
+        <span class="n">shard_fns</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span><span class="n">partition_specs</span><span class="p">,</span> <span class="n">get_dtype</span><span class="p">(</span><span class="n">serve_config</span><span class="o">.</span><span class="n">dtype</span><span class="p">))</span>
+
+        <span class="k">with</span> <span class="n">mesh</span><span class="p">:</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                <span class="k">lambda</span> <span class="n">func</span><span class="p">,</span> <span class="n">param</span><span class="p">:</span> <span class="n">func</span><span class="p">(</span><span class="n">param</span><span class="p">),</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="n">params</span>
+            <span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">params</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">create_generation_functions_and_tokenizers</span><span class="p">(</span>
+            <span class="n">model</span><span class="p">:</span> <span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">,</span>
+            <span class="n">tokenizer</span><span class="p">:</span> <span class="n">PreTrainedTokenizerBase</span><span class="p">,</span>
+            <span class="n">serve_config</span><span class="p">:</span> <span class="n">EasyServeConfig</span><span class="p">,</span>
+            <span class="n">partition_specs</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">]</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">LLMBaseReq</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The create_generation_functions_and_tokenizers function is used to create the functions that will be used for</span>
+<span class="sd">        generation. It also creates a tokenizer object that can be used to encode and decode text. The function takes in</span>
+<span class="sd">        a model, a tokenizer, an EasyServeConfig object (which contains all the parameters needed for generation), and</span>
+<span class="sd">        partition_specs which are specifications about how data should be partitioned across devices.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            model: EasyDeLFlaxPretrainedModel: Create the model and</span>
+<span class="sd">                tokenizer</span>
+<span class="sd">            tokenizer: PreTrainedTokenizerBase: Create a tokenizer</span>
+<span class="sd">                object</span>
+<span class="sd">            serve_config: EasyServeConfig: Create the generation</span>
+<span class="sd">                function</span>
+<span class="sd">            partition_specs: dict[str, PartitionSpec]: Specify the</span>
+<span class="sd">                sharding of the model parameters</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            An LLMBaseReq object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                <span class="s2">&quot;Tokenizer does not contain padding token setting padding token to eos token for open end generation&quot;</span><span class="p">)</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+            <span class="n">prefix_tokenizer</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+            <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span>
+
+        <span class="k">except</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;The class Model of Tokenizer </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span><span class="si">}</span><span class="s2"> do not support deepcopy option &quot;</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="n">serve_config</span><span class="o">.</span><span class="n">use_prefix_tokenizer</span><span class="p">:</span>
+                <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+                <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+                <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+            <span class="n">prefix_tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+
+        <span class="nd">@functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+            <span class="n">pjit</span><span class="p">,</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">partition_specs</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">())</span>
+        <span class="p">)</span>
+        <span class="k">def</span> <span class="nf">greedy_generate_function</span><span class="p">(</span>
+                <span class="n">parameters</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+        <span class="p">):</span>
+            <span class="n">input_ids</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">serve_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">serve_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+            <span class="n">predict</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">generation_config</span><span class="o">=</span><span class="n">GenerationConfig</span><span class="p">(</span>
+                    <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+
+                    <span class="n">eos_token_id</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span>
+                    <span class="n">pad_token_id</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+                    <span class="n">bos_token_id</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">bos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+
+                    <span class="n">do_sample</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                    <span class="n">num_beams</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">sequences</span><span class="p">[:,</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]:]</span>
+            <span class="k">return</span> <span class="n">predict</span>
+
+        <span class="nd">@functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+            <span class="n">pjit</span><span class="p">,</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">partition_specs</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">())</span>
+        <span class="p">)</span>
+        <span class="k">def</span> <span class="nf">non_greedy_generate_function</span><span class="p">(</span>
+                <span class="n">parameters</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+        <span class="p">):</span>
+            <span class="n">input_ids</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">serve_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">serve_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+            <span class="n">predict</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">generation_config</span><span class="o">=</span><span class="n">GenerationConfig</span><span class="p">(</span>
+                    <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+
+                    <span class="n">eos_token_id</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span>
+                    <span class="n">pad_token_id</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+                    <span class="n">bos_token_id</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">bos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+
+                    <span class="n">temperature</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">temperature</span><span class="p">,</span>
+                    <span class="n">repetition_penalty</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">repetition_penalty</span><span class="p">,</span>
+                    <span class="n">do_sample</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                    <span class="n">num_beams</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                    <span class="n">top_p</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">top_p</span><span class="p">,</span>
+                    <span class="n">top_k</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">top_k</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">sequences</span><span class="p">[:,</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]:]</span>
+            <span class="k">return</span> <span class="n">predict</span>
+
+        <span class="k">return</span> <span class="n">LLMBaseReq</span><span class="p">(</span>
+            <span class="n">greedy_generate_function</span><span class="o">=</span><span class="n">greedy_generate_function</span><span class="p">,</span>
+            <span class="n">non_greedy_generate_function</span><span class="o">=</span><span class="n">non_greedy_generate_function</span><span class="p">,</span>
+            <span class="n">tokenizer</span><span class="o">=</span><span class="n">tokenizer</span><span class="p">,</span>
+            <span class="n">prefix_tokenizer</span><span class="o">=</span><span class="n">prefix_tokenizer</span>
+        <span class="p">)</span>
+
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">from_parameters</span><span class="p">(</span>
+            <span class="bp">cls</span><span class="p">,</span>
+            <span class="n">llm</span><span class="p">:</span> <span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span><span class="p">,</span>
+            <span class="n">tokenizer</span><span class="p">:</span> <span class="n">PreTrainedTokenizerBase</span><span class="p">,</span>
+            <span class="n">serve_config</span><span class="p">:</span> <span class="n">EasyServeConfig</span><span class="p">,</span>
+            <span class="n">partition_rules</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">]],</span>
+            <span class="n">shard_parameters</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The from_parameters function is the main entry point for creating a model that can be served.</span>
+<span class="sd">        It takes in a pretrained model, parameters, tokenizer and serve_config as input and returns an object of type</span>
+<span class="sd">        EasyServe.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            cls: Create a new instance of the class</span>
+<span class="sd">            llm: EasyDeLFlaxPretrainedModel: Pass the model to the class</span>
+<span class="sd">            params: dict: Pass the parameters of the model</span>
+<span class="sd">            tokenizer: PreTrainedTokenizerBase: Create the tokenizer and</span>
+<span class="sd">                prefix_tokenizer</span>
+<span class="sd">            serve_config: EasyServeConfig: Configure the model for</span>
+<span class="sd">                serving</span>
+<span class="sd">            partition_rules: Tuple[Tuple[str, PartitionSpec]]: Partition</span>
+<span class="sd">                the parameters of the model</span>
+<span class="sd">            shard_parameters: bool: Specify whether the parameters</span>
+<span class="sd">                should be sharded or not</span>
+<span class="sd">        :param : Shard the parameters of the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A EasyServe object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span><span class="p">,</span> <span class="n">partition_specs</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">create_shard_and_gather_functions</span><span class="p">(</span>
+            <span class="n">parameters</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+            <span class="n">partition_rules</span><span class="o">=</span><span class="n">partition_rules</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">dtype</span>
+        <span class="p">)</span>
+        <span class="n">llm_base_req</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">create_generation_functions_and_tokenizers</span><span class="p">(</span>
+            <span class="n">model</span><span class="o">=</span><span class="n">llm</span><span class="p">,</span>
+            <span class="n">tokenizer</span><span class="o">=</span><span class="n">tokenizer</span><span class="p">,</span>
+            <span class="n">partition_specs</span><span class="o">=</span><span class="n">partition_specs</span><span class="p">,</span>
+            <span class="n">serve_config</span><span class="o">=</span><span class="n">serve_config</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">shard_parameters</span><span class="p">:</span>
+            <span class="n">params</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">shard_parameters</span><span class="p">(</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+                <span class="n">partition_rules</span><span class="o">=</span><span class="n">partition_rules</span><span class="p">,</span>
+                <span class="n">serve_config</span><span class="o">=</span><span class="n">serve_config</span><span class="p">,</span>
+                <span class="n">mesh</span><span class="o">=</span><span class="n">llm</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">()</span>
+            <span class="p">)</span>
+
+        <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span>
+            <span class="n">llm</span><span class="o">=</span><span class="n">llm</span><span class="p">,</span>
+            <span class="n">serve_config</span><span class="o">=</span><span class="n">serve_config</span><span class="p">,</span>
+            <span class="n">tokenizer</span><span class="o">=</span><span class="n">llm_base_req</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">,</span>
+            <span class="n">prefix_tokenizer</span><span class="o">=</span><span class="n">llm_base_req</span><span class="o">.</span><span class="n">prefix_tokenizer</span><span class="p">,</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+            <span class="n">greedy_generate_function</span><span class="o">=</span><span class="n">llm_base_req</span><span class="o">.</span><span class="n">greedy_generate_function</span><span class="p">,</span>
+            <span class="n">non_greedy_generate_function</span><span class="o">=</span><span class="n">llm_base_req</span><span class="o">.</span><span class="n">non_greedy_generate_function</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">sample</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">string</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="o">*</span><span class="p">,</span>
+            <span class="n">greedy</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The process function is the main function of a model. It takes in an input string and returns a list of strings</span>
+<span class="sd">        that are generated from that input string. The process function can be called multiple times with different inputs,</span>
+<span class="sd">        and each time it will return a new set of outputs based on those inputs.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the class attributes</span>
+<span class="sd">            string: str: Pass the string that we want to generate</span>
+<span class="sd">            greedy: bool: Determine whether to use the greedy or non-</span>
+<span class="sd">                greedy version of the generate function</span>
+<span class="sd">            max_new_tokens: int: Set the number of tokens to generate</span>
+<span class="sd">            **kwargs: Pass any additional parameters to the process</span>
+<span class="sd">                function</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A generator that yields the predicted text and the number of</span>
+<span class="sd">            tokens generated</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">llm</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">():</span>
+            <span class="n">fixed_pad</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_sequence_length</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span>
+            <span class="n">tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span><span class="p">(</span>
+                <span class="n">string</span><span class="p">,</span>
+                <span class="n">max_length</span><span class="o">=</span><span class="n">fixed_pad</span><span class="p">,</span>
+                <span class="n">padding</span><span class="o">=</span><span class="s2">&quot;max_length&quot;</span><span class="p">,</span>
+                <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;jax&quot;</span>
+            <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">use_prefix_tokenizer</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
+                <span class="n">string</span><span class="p">,</span>
+                <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;jax&quot;</span>
+            <span class="p">)</span>
+
+            <span class="n">input_ids</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">input_ids</span>
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">attention_mask</span>
+            <span class="n">num_generated_tokens</span> <span class="o">=</span> <span class="mi">0</span>
+
+            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span>
+                    <span class="p">(</span><span class="n">max_new_tokens</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_new_tokens</span><span class="p">)</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">):</span>
+
+                <span class="n">predicted_token</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_generation_function</span><span class="p">(</span><span class="n">greedy</span><span class="o">=</span><span class="n">greedy</span><span class="p">)(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                    <span class="n">input_ids</span><span class="p">,</span>
+                    <span class="n">attention_mask</span>
+                <span class="p">)</span>
+
+                <span class="n">num_generated_tokens</span> <span class="o">+=</span> <span class="n">predicted_token</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+                <span class="n">plus_attn_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+                    <span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">),</span>
+                    <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span>
+                <span class="p">)</span>
+
+                <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                    <span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">predicted_token</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">,</span>
+                    <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                <span class="p">)[:,</span> <span class="o">-</span><span class="n">fixed_pad</span><span class="p">:]</span>
+
+                <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                    <span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">plus_attn_mask</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">,</span>
+                    <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                <span class="p">)[:,</span> <span class="o">-</span><span class="n">fixed_pad</span><span class="p">:]</span>
+
+                <span class="n">returns</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span>
+                        <span class="n">input_ids</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="o">-</span><span class="n">num_generated_tokens</span><span class="p">:],</span>  <span class="c1"># type:ignore</span>
+                        <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span>
+                    <span class="p">),</span>
+                    <span class="n">num_generated_tokens</span>
+                <span class="p">)</span>
+
+                <span class="k">yield</span> <span class="n">returns</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">use_mxn_break_point</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span> <span class="o">!=</span> <span class="n">predicted_token</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]:</span>
+                        <span class="k">break</span>
+                <span class="k">if</span> <span class="p">(</span>
+                        <span class="n">predicted_token</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">)</span>
+                        <span class="ow">or</span>
+                        <span class="n">predicted_token</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">)</span>
+                <span class="p">):</span>
+                    <span class="k">break</span>
+
+    <span class="k">def</span> <span class="nf">compile</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The compile function is used to compile the model for use in inference.</span>
+<span class="sd">        It does this by running through all possible combinations of rules and actions,</span>
+<span class="sd">        and compiling them into functions that can be called later on during inference.</span>
+<span class="sd">        This allows us to avoid having to recompile the model every time we want to run it,</span>
+<span class="sd">        which would be very slow.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            verbose: bool: Print out the compiling process</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            True, but what does it do?</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">use_prefix_tokenizer</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">verbose</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Compiling greedy generate function&quot;</span><span class="p">)</span>
+            <span class="n">response</span><span class="p">,</span> <span class="n">tokens</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">*</span> <span class="mi">2</span>
+            <span class="k">for</span> <span class="n">response</span><span class="p">,</span> <span class="n">tokens</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                    <span class="n">string</span><span class="o">=</span><span class="s2">&quot;&quot;</span><span class="p">,</span>
+                    <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+                    <span class="n">greedy</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">):</span>
+                <span class="o">...</span>
+            <span class="k">if</span> <span class="n">verbose</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Compiling non-greedy generate function&quot;</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">response</span><span class="p">,</span> <span class="n">tokens</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                    <span class="n">string</span><span class="o">=</span><span class="s2">&quot;&quot;</span><span class="p">,</span>
+                    <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+                    <span class="n">greedy</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">):</span>
+                <span class="o">...</span>
+
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;Skip Compiling the compiling process is useless &quot;</span>
+                <span class="s2">&quot;when you are not using prefix tokenizer&quot;</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">return</span> <span class="kc">True</span>
+
+    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">        This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">        to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">        object, or when you type its name in the REPL.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A string representation of the object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                    <span class="o">...</span>
+        <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">        It should return a string representation of the object.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The object&#39;s string representation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">fire</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">async</span> <span class="k">def</span> <span class="nf">run_engine</span><span class="p">():</span>
+            <span class="k">async</span> <span class="k">with</span> <span class="n">websockets</span><span class="o">.</span><span class="n">serve</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">handle_client</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">host</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">port</span><span class="p">)</span> <span class="k">as</span> <span class="n">ws</span><span class="p">:</span>
+                <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Starting EasyDeL websocket server on </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">host</span><span class="si">}</span><span class="s2">:</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">port</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+                <span class="k">await</span> <span class="n">ws</span><span class="o">.</span><span class="n">wait_closed</span><span class="p">()</span>
+
+        <span class="n">asyncio</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="n">run_engine</span><span class="p">())</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.serve_engine.serve.EasyServe.__repr__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__repr__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>repr</strong> function is used to generate a string representation of an object.
+This function should return a string that can be parsed by the Python interpreter
+to recreate the object. The <strong>repr</strong> function is called when you use print() on an
+object, or when you type its name in the REPL.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A string representation of the object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">    This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">    to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">    object, or when you type its name in the REPL.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A string representation of the object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                <span class="o">...</span>
+    <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.serve_engine.serve.EasyServe.__str__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__str__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>str</strong> function is called when you use the print function or when str() is used.
+It should return a string representation of the object.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The object's string representation</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">    It should return a string representation of the object.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The object&#39;s string representation</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.serve_engine.serve.EasyServe.compile" class="doc doc-heading">
+            <code class="highlight language-python"><span class="nb">compile</span><span class="p">(</span><span class="n">verbose</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The compile function is used to compile the model for use in inference.
+It does this by running through all possible combinations of rules and actions,
+and compiling them into functions that can be called later on during inference.
+This allows us to avoid having to recompile the model every time we want to run it,
+which would be very slow.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>verbose</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Print out the compiling process</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>True, but what does it do?</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">compile</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">bool</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The compile function is used to compile the model for use in inference.</span>
+<span class="sd">    It does this by running through all possible combinations of rules and actions,</span>
+<span class="sd">    and compiling them into functions that can be called later on during inference.</span>
+<span class="sd">    This allows us to avoid having to recompile the model every time we want to run it,</span>
+<span class="sd">    which would be very slow.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        verbose: bool: Print out the compiling process</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        True, but what does it do?</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">use_prefix_tokenizer</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">verbose</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Compiling greedy generate function&quot;</span><span class="p">)</span>
+        <span class="n">response</span><span class="p">,</span> <span class="n">tokens</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">*</span> <span class="mi">2</span>
+        <span class="k">for</span> <span class="n">response</span><span class="p">,</span> <span class="n">tokens</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                <span class="n">string</span><span class="o">=</span><span class="s2">&quot;&quot;</span><span class="p">,</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+                <span class="n">greedy</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">):</span>
+            <span class="o">...</span>
+        <span class="k">if</span> <span class="n">verbose</span><span class="p">:</span>
+            <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Compiling non-greedy generate function&quot;</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">response</span><span class="p">,</span> <span class="n">tokens</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                <span class="n">string</span><span class="o">=</span><span class="s2">&quot;&quot;</span><span class="p">,</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+                <span class="n">greedy</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">):</span>
+            <span class="o">...</span>
+
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;Skip Compiling the compiling process is useless &quot;</span>
+            <span class="s2">&quot;when you are not using prefix tokenizer&quot;</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">return</span> <span class="kc">True</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.serve_engine.serve.EasyServe.conversation_template" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">conversation_template</span><span class="p">(</span><span class="n">conversation</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The conversation_template function takes a list of ConversationItem objects and returns a string.
+where system message, user message, and assistant message are the content fields of the ConversationItem objects.
+If there is no system message in the conversation, then it will be omitted from the template.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the current instance of a class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>conversation</code></td>
+            <td>
+                  <code><span title="typing.List">List</span>[<span title="typing.Dict">Dict</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>List[ConversationItem]: Pass in the
+conversation items</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A string that is a concatenation of the messages in the</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>conversation</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">conversation_template</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">conversation</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Dict</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The conversation_template function takes a list of ConversationItem objects and returns a string.</span>
+<span class="sd">    where system message, user message, and assistant message are the content fields of the ConversationItem objects.</span>
+<span class="sd">    If there is no system message in the conversation, then it will be omitted from the template.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the current instance of a class</span>
+<span class="sd">        conversation: List[ConversationItem]: Pass in the</span>
+<span class="sd">            conversation items</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A string that is a concatenation of the messages in the</span>
+<span class="sd">        conversation</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span>
+        <span class="n">conversation</span><span class="o">=</span><span class="n">conversation</span><span class="p">,</span>
+        <span class="n">add_generation_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">tokenize</span><span class="o">=</span><span class="kc">False</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.serve_engine.serve.EasyServe.create_generation_functions_and_tokenizers" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_generation_functions_and_tokenizers</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">,</span> <span class="n">serve_config</span><span class="p">,</span> <span class="n">partition_specs</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-staticmethod"><code>staticmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The create_generation_functions_and_tokenizers function is used to create the functions that will be used for
+generation. It also creates a tokenizer object that can be used to encode and decode text. The function takes in
+a model, a tokenizer, an EasyServeConfig object (which contains all the parameters needed for generation), and
+partition_specs which are specifications about how data should be partitioned across devices.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>model</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>EasyDeLFlaxPretrainedModel: Create the model and
+tokenizer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tokenizer</code></td>
+            <td>
+                  <code><span title="transformers.PreTrainedTokenizerBase">PreTrainedTokenizerBase</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PreTrainedTokenizerBase: Create a tokenizer
+object</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>serve_config</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.serve.serve_engine.configuration.EasyServeConfig" href="../generated-serve-serve_engine-configuration/#src.python.easydel.serve.serve_engine.configuration.EasyServeConfig">EasyServeConfig</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>EasyServeConfig: Create the generation
+function</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>partition_specs</code></td>
+            <td>
+                  <code>dict[str, <span title="jax.sharding.PartitionSpec">PartitionSpec</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict[str, PartitionSpec]: Specify the
+sharding of the model parameters</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="src.python.easydel.serve.serve_engine.serve.LLMBaseReq">LLMBaseReq</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>An LLMBaseReq object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@staticmethod</span>
+<span class="k">def</span> <span class="nf">create_generation_functions_and_tokenizers</span><span class="p">(</span>
+        <span class="n">model</span><span class="p">:</span> <span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">,</span>
+        <span class="n">tokenizer</span><span class="p">:</span> <span class="n">PreTrainedTokenizerBase</span><span class="p">,</span>
+        <span class="n">serve_config</span><span class="p">:</span> <span class="n">EasyServeConfig</span><span class="p">,</span>
+        <span class="n">partition_specs</span><span class="p">:</span> <span class="nb">dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">]</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">LLMBaseReq</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The create_generation_functions_and_tokenizers function is used to create the functions that will be used for</span>
+<span class="sd">    generation. It also creates a tokenizer object that can be used to encode and decode text. The function takes in</span>
+<span class="sd">    a model, a tokenizer, an EasyServeConfig object (which contains all the parameters needed for generation), and</span>
+<span class="sd">    partition_specs which are specifications about how data should be partitioned across devices.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        model: EasyDeLFlaxPretrainedModel: Create the model and</span>
+<span class="sd">            tokenizer</span>
+<span class="sd">        tokenizer: PreTrainedTokenizerBase: Create a tokenizer</span>
+<span class="sd">            object</span>
+<span class="sd">        serve_config: EasyServeConfig: Create the generation</span>
+<span class="sd">            function</span>
+<span class="sd">        partition_specs: dict[str, PartitionSpec]: Specify the</span>
+<span class="sd">            sharding of the model parameters</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        An LLMBaseReq object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+            <span class="s2">&quot;Tokenizer does not contain padding token setting padding token to eos token for open end generation&quot;</span><span class="p">)</span>
+        <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token</span>
+
+    <span class="k">try</span><span class="p">:</span>
+        <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+        <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+        <span class="n">prefix_tokenizer</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span>
+        <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+        <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+        <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span>
+
+    <span class="k">except</span><span class="p">:</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;The class Model of Tokenizer </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span><span class="si">}</span><span class="s2"> do not support deepcopy option &quot;</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">serve_config</span><span class="o">.</span><span class="n">use_prefix_tokenizer</span><span class="p">:</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;left&quot;</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">truncation_side</span> <span class="o">=</span> <span class="s2">&quot;right&quot;</span>
+        <span class="n">prefix_tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+
+    <span class="nd">@functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+        <span class="n">pjit</span><span class="p">,</span>
+        <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">partition_specs</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">())</span>
+    <span class="p">)</span>
+    <span class="k">def</span> <span class="nf">greedy_generate_function</span><span class="p">(</span>
+            <span class="n">parameters</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+    <span class="p">):</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">serve_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">serve_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+        <span class="n">predict</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+            <span class="n">generation_config</span><span class="o">=</span><span class="n">GenerationConfig</span><span class="p">(</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+
+                <span class="n">eos_token_id</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span>
+                <span class="n">pad_token_id</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+                <span class="n">bos_token_id</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">bos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+
+                <span class="n">do_sample</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="n">num_beams</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">sequences</span><span class="p">[:,</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]:]</span>
+        <span class="k">return</span> <span class="n">predict</span>
+
+    <span class="nd">@functools</span><span class="o">.</span><span class="n">partial</span><span class="p">(</span>
+        <span class="n">pjit</span><span class="p">,</span>
+        <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">partition_specs</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">())</span>
+    <span class="p">)</span>
+    <span class="k">def</span> <span class="nf">non_greedy_generate_function</span><span class="p">(</span>
+            <span class="n">parameters</span><span class="p">,</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span>
+    <span class="p">):</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">serve_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">serve_config</span><span class="o">.</span><span class="n">generation_ps</span><span class="p">)</span>
+        <span class="n">predict</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+            <span class="n">generation_config</span><span class="o">=</span><span class="n">GenerationConfig</span><span class="p">(</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">,</span>
+
+                <span class="n">eos_token_id</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span>
+                <span class="n">pad_token_id</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+                <span class="n">bos_token_id</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">bos_token_id</span> <span class="ow">or</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+
+                <span class="n">temperature</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">temperature</span><span class="p">,</span>
+                <span class="n">repetition_penalty</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">repetition_penalty</span><span class="p">,</span>
+                <span class="n">do_sample</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">num_beams</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                <span class="n">top_p</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">top_p</span><span class="p">,</span>
+                <span class="n">top_k</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">top_k</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">sequences</span><span class="p">[:,</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]:]</span>
+        <span class="k">return</span> <span class="n">predict</span>
+
+    <span class="k">return</span> <span class="n">LLMBaseReq</span><span class="p">(</span>
+        <span class="n">greedy_generate_function</span><span class="o">=</span><span class="n">greedy_generate_function</span><span class="p">,</span>
+        <span class="n">non_greedy_generate_function</span><span class="o">=</span><span class="n">non_greedy_generate_function</span><span class="p">,</span>
+        <span class="n">tokenizer</span><span class="o">=</span><span class="n">tokenizer</span><span class="p">,</span>
+        <span class="n">prefix_tokenizer</span><span class="o">=</span><span class="n">prefix_tokenizer</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.serve_engine.serve.EasyServe.create_shard_and_gather_functions" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_shard_and_gather_functions</span><span class="p">(</span><span class="n">parameters</span><span class="p">,</span> <span class="n">partition_rules</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s1">&#39;fp16&#39;</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-staticmethod"><code>staticmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The create_shard_and_gather_functions function takes in a dictionary of parameters,
+a tuple of partition rules, and an optional dtype. It then matches the partition rules to the
+parameters and creates shard functions for each parameter. The shard functions are used to
+split up a parameter into shards (or partitions) that can be stored on different devices.
+The gather function is used to combine all the shards back together again.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>parameters</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Specify the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>partition_rules</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="typing.Tuple">Tuple</span>[str, <span title="jax.sharding.PartitionSpec">PartitionSpec</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[Tuple[str,  PartitionSpec]]: Specify
+which parameters to partition</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dtype</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="jax.numpy.dtype">dtype</span>, str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.numpy.dtype | str: Specify the data type of the
+parameters</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;fp16&#39;</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of three elements:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@staticmethod</span>
+<span class="k">def</span> <span class="nf">create_shard_and_gather_functions</span><span class="p">(</span>
+        <span class="n">parameters</span><span class="p">:</span> <span class="nb">dict</span><span class="p">,</span>
+        <span class="n">partition_rules</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">]],</span>
+        <span class="n">dtype</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;fp16&quot;</span>
+<span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The create_shard_and_gather_functions function takes in a dictionary of parameters,</span>
+<span class="sd">    a tuple of partition rules, and an optional dtype. It then matches the partition rules to the</span>
+<span class="sd">    parameters and creates shard functions for each parameter. The shard functions are used to</span>
+<span class="sd">    split up a parameter into shards (or partitions) that can be stored on different devices.</span>
+<span class="sd">    The gather function is used to combine all the shards back together again.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        parameters: dict: Specify the parameters of the model</span>
+<span class="sd">        partition_rules: Tuple[Tuple[str,  PartitionSpec]]: Specify</span>
+<span class="sd">            which parameters to partition</span>
+<span class="sd">        dtype: jax.numpy.dtype | str: Specify the data type of the</span>
+<span class="sd">            parameters</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of three elements:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">partition_specs</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span><span class="n">partition_rules</span><span class="p">,</span> <span class="n">parameters</span><span class="p">)</span>
+    <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span>
+        <span class="n">partition_specs</span><span class="o">=</span><span class="n">partition_specs</span><span class="p">,</span>
+        <span class="n">dtype_specs</span><span class="o">=</span><span class="n">get_dtype</span><span class="p">(</span><span class="n">dtype</span><span class="p">)</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span><span class="p">,</span> <span class="n">partition_specs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.serve_engine.serve.EasyServe.from_parameters" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">from_parameters</span><span class="p">(</span><span class="n">llm</span><span class="p">,</span> <span class="n">params</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">,</span> <span class="n">serve_config</span><span class="p">,</span> <span class="n">partition_rules</span><span class="p">,</span> <span class="n">shard_parameters</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-classmethod"><code>classmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The from_parameters function is the main entry point for creating a model that can be served.
+It takes in a pretrained model, parameters, tokenizer and serve_config as input and returns an object of type
+EasyServe.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>cls</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Create a new instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>llm</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>EasyDeLFlaxPretrainedModel: Pass the model to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tokenizer</code></td>
+            <td>
+                  <code><span title="transformers.PreTrainedTokenizerBase">PreTrainedTokenizerBase</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PreTrainedTokenizerBase: Create the tokenizer and
+prefix_tokenizer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>serve_config</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.serve.serve_engine.configuration.EasyServeConfig" href="../generated-serve-serve_engine-configuration/#src.python.easydel.serve.serve_engine.configuration.EasyServeConfig">EasyServeConfig</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>EasyServeConfig: Configure the model for
+serving</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>partition_rules</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="typing.Tuple">Tuple</span>[str, <span title="jax.sharding.PartitionSpec">PartitionSpec</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[Tuple[str, PartitionSpec]]: Partition
+the parameters of the model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>shard_parameters</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Specify whether the parameters
+should be sharded or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Shard the parameters of the model</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A EasyServe object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@classmethod</span>
+<span class="k">def</span> <span class="nf">from_parameters</span><span class="p">(</span>
+        <span class="bp">cls</span><span class="p">,</span>
+        <span class="n">llm</span><span class="p">:</span> <span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span><span class="p">,</span>
+        <span class="n">tokenizer</span><span class="p">:</span> <span class="n">PreTrainedTokenizerBase</span><span class="p">,</span>
+        <span class="n">serve_config</span><span class="p">:</span> <span class="n">EasyServeConfig</span><span class="p">,</span>
+        <span class="n">partition_rules</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">]],</span>
+        <span class="n">shard_parameters</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The from_parameters function is the main entry point for creating a model that can be served.</span>
+<span class="sd">    It takes in a pretrained model, parameters, tokenizer and serve_config as input and returns an object of type</span>
+<span class="sd">    EasyServe.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        cls: Create a new instance of the class</span>
+<span class="sd">        llm: EasyDeLFlaxPretrainedModel: Pass the model to the class</span>
+<span class="sd">        params: dict: Pass the parameters of the model</span>
+<span class="sd">        tokenizer: PreTrainedTokenizerBase: Create the tokenizer and</span>
+<span class="sd">            prefix_tokenizer</span>
+<span class="sd">        serve_config: EasyServeConfig: Configure the model for</span>
+<span class="sd">            serving</span>
+<span class="sd">        partition_rules: Tuple[Tuple[str, PartitionSpec]]: Partition</span>
+<span class="sd">            the parameters of the model</span>
+<span class="sd">        shard_parameters: bool: Specify whether the parameters</span>
+<span class="sd">            should be sharded or not</span>
+<span class="sd">    :param : Shard the parameters of the model</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A EasyServe object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span><span class="p">,</span> <span class="n">partition_specs</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">create_shard_and_gather_functions</span><span class="p">(</span>
+        <span class="n">parameters</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+        <span class="n">partition_rules</span><span class="o">=</span><span class="n">partition_rules</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="o">=</span><span class="n">serve_config</span><span class="o">.</span><span class="n">dtype</span>
+    <span class="p">)</span>
+    <span class="n">llm_base_req</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">create_generation_functions_and_tokenizers</span><span class="p">(</span>
+        <span class="n">model</span><span class="o">=</span><span class="n">llm</span><span class="p">,</span>
+        <span class="n">tokenizer</span><span class="o">=</span><span class="n">tokenizer</span><span class="p">,</span>
+        <span class="n">partition_specs</span><span class="o">=</span><span class="n">partition_specs</span><span class="p">,</span>
+        <span class="n">serve_config</span><span class="o">=</span><span class="n">serve_config</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">shard_parameters</span><span class="p">:</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">shard_parameters</span><span class="p">(</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+            <span class="n">partition_rules</span><span class="o">=</span><span class="n">partition_rules</span><span class="p">,</span>
+            <span class="n">serve_config</span><span class="o">=</span><span class="n">serve_config</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="n">llm</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">()</span>
+        <span class="p">)</span>
+
+    <span class="k">return</span> <span class="bp">cls</span><span class="p">(</span>
+        <span class="n">llm</span><span class="o">=</span><span class="n">llm</span><span class="p">,</span>
+        <span class="n">serve_config</span><span class="o">=</span><span class="n">serve_config</span><span class="p">,</span>
+        <span class="n">tokenizer</span><span class="o">=</span><span class="n">llm_base_req</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">,</span>
+        <span class="n">prefix_tokenizer</span><span class="o">=</span><span class="n">llm_base_req</span><span class="o">.</span><span class="n">prefix_tokenizer</span><span class="p">,</span>
+        <span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+        <span class="n">greedy_generate_function</span><span class="o">=</span><span class="n">llm_base_req</span><span class="o">.</span><span class="n">greedy_generate_function</span><span class="p">,</span>
+        <span class="n">non_greedy_generate_function</span><span class="o">=</span><span class="n">llm_base_req</span><span class="o">.</span><span class="n">non_greedy_generate_function</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.serve_engine.serve.EasyServe.sample" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">sample</span><span class="p">(</span><span class="n">string</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">greedy</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">max_new_tokens</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The process function is the main function of a model. It takes in an input string and returns a list of strings
+that are generated from that input string. The process function can be called multiple times with different inputs,
+and each time it will return a new set of outputs based on those inputs.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access the class attributes</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>string</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Pass the string that we want to generate</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>greedy</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to use the greedy or non-
+greedy version of the generate function</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_new_tokens</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the number of tokens to generate</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass any additional parameters to the process
+function</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A generator that yields the predicted text and the number of</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>tokens generated</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">sample</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">string</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+        <span class="o">*</span><span class="p">,</span>
+        <span class="n">greedy</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">max_new_tokens</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The process function is the main function of a model. It takes in an input string and returns a list of strings</span>
+<span class="sd">    that are generated from that input string. The process function can be called multiple times with different inputs,</span>
+<span class="sd">    and each time it will return a new set of outputs based on those inputs.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access the class attributes</span>
+<span class="sd">        string: str: Pass the string that we want to generate</span>
+<span class="sd">        greedy: bool: Determine whether to use the greedy or non-</span>
+<span class="sd">            greedy version of the generate function</span>
+<span class="sd">        max_new_tokens: int: Set the number of tokens to generate</span>
+<span class="sd">        **kwargs: Pass any additional parameters to the process</span>
+<span class="sd">            function</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A generator that yields the predicted text and the number of</span>
+<span class="sd">        tokens generated</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">llm</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">jax_mesh</span><span class="p">():</span>
+        <span class="n">fixed_pad</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_sequence_length</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span>
+        <span class="n">tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span><span class="p">(</span>
+            <span class="n">string</span><span class="p">,</span>
+            <span class="n">max_length</span><span class="o">=</span><span class="n">fixed_pad</span><span class="p">,</span>
+            <span class="n">padding</span><span class="o">=</span><span class="s2">&quot;max_length&quot;</span><span class="p">,</span>
+            <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;jax&quot;</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">use_prefix_tokenizer</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
+            <span class="n">string</span><span class="p">,</span>
+            <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;jax&quot;</span>
+        <span class="p">)</span>
+
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">input_ids</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">attention_mask</span>
+        <span class="n">num_generated_tokens</span> <span class="o">=</span> <span class="mi">0</span>
+
+        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span>
+                <span class="p">(</span><span class="n">max_new_tokens</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_new_tokens</span><span class="p">)</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">):</span>
+
+            <span class="n">predicted_token</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_generation_function</span><span class="p">(</span><span class="n">greedy</span><span class="o">=</span><span class="n">greedy</span><span class="p">)(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                <span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span>
+            <span class="p">)</span>
+
+            <span class="n">num_generated_tokens</span> <span class="o">+=</span> <span class="n">predicted_token</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+            <span class="n">plus_attn_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span>
+                <span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">attention_mask</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span><span class="p">),</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span>
+            <span class="p">)</span>
+
+            <span class="n">input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="n">predicted_token</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">,</span>
+                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+            <span class="p">)[:,</span> <span class="o">-</span><span class="n">fixed_pad</span><span class="p">:]</span>
+
+            <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span><span class="n">attention_mask</span><span class="p">,</span> <span class="n">plus_attn_mask</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">,</span>
+                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+            <span class="p">)[:,</span> <span class="o">-</span><span class="n">fixed_pad</span><span class="p">:]</span>
+
+            <span class="n">returns</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span>
+                    <span class="n">input_ids</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="o">-</span><span class="n">num_generated_tokens</span><span class="p">:],</span>  <span class="c1"># type:ignore</span>
+                    <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">),</span>
+                <span class="n">num_generated_tokens</span>
+            <span class="p">)</span>
+
+            <span class="k">yield</span> <span class="n">returns</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">use_mxn_break_point</span><span class="p">:</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">max_compile_tokens</span> <span class="o">!=</span> <span class="n">predicted_token</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]:</span>
+                    <span class="k">break</span>
+            <span class="k">if</span> <span class="p">(</span>
+                    <span class="n">predicted_token</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">)</span>
+                    <span class="ow">or</span>
+                    <span class="n">predicted_token</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">==</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">serve_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">prefix_tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">)</span>
+            <span class="p">):</span>
+                <span class="k">break</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.serve_engine.serve.EasyServe.shard_parameters" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">shard_parameters</span><span class="p">(</span><span class="n">mesh</span><span class="p">,</span> <span class="n">params</span><span class="p">,</span> <span class="n">partition_rules</span><span class="p">,</span> <span class="n">serve_config</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-staticmethod"><code>staticmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The shard_parameters function takes a set of parameters and partitions them according to the partition_rules.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>mesh</code></td>
+            <td>
+                  <code><span title="jax.sharding.Mesh">Mesh</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mesh: Create a mesh object that is used to shard the
+parameters</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="flax.core.FrozenDict">FrozenDict</span>, dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>FrozenDict | dict: Pass in the parameters of the
+model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>partition_rules</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[<span title="typing.Tuple">Tuple</span>[str, <span title="jax.sharding.PartitionSpec">PartitionSpec</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[Tuple[str, PartitionSpec]]: Specify
+the partitioning rules for each parameter</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>serve_config</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.serve.serve_engine.configuration.EasyServeConfig" href="../generated-serve-serve_engine-configuration/#src.python.easydel.serve.serve_engine.configuration.EasyServeConfig">EasyServeConfig</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>EasyServeConfig: Specify the dtype of the
+parameters</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Create a mesh of devices</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>sharded parameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@staticmethod</span>
+<span class="k">def</span> <span class="nf">shard_parameters</span><span class="p">(</span>
+        <span class="n">mesh</span><span class="p">:</span> <span class="n">Mesh</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">FrozenDict</span><span class="p">,</span> <span class="nb">dict</span><span class="p">],</span>
+        <span class="n">partition_rules</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">Tuple</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">]],</span>
+        <span class="n">serve_config</span><span class="p">:</span> <span class="n">EasyServeConfig</span><span class="p">,</span>
+<span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The shard_parameters function takes a set of parameters and partitions them according to the partition_rules.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        mesh: Mesh: Create a mesh object that is used to shard the</span>
+<span class="sd">            parameters</span>
+<span class="sd">        params: FrozenDict | dict: Pass in the parameters of the</span>
+<span class="sd">            model</span>
+<span class="sd">        partition_rules: Tuple[Tuple[str, PartitionSpec]]: Specify</span>
+<span class="sd">            the partitioning rules for each parameter</span>
+<span class="sd">        serve_config: EasyServeConfig: Specify the dtype of the</span>
+<span class="sd">            parameters</span>
+<span class="sd">    :param : Create a mesh of devices</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        sharded parameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">partition_specs</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span> <span class="n">rules</span><span class="o">=</span><span class="n">partition_rules</span><span class="p">)</span>
+    <span class="n">shard_fns</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span><span class="n">partition_specs</span><span class="p">,</span> <span class="n">get_dtype</span><span class="p">(</span><span class="n">serve_config</span><span class="o">.</span><span class="n">dtype</span><span class="p">))</span>
+
+    <span class="k">with</span> <span class="n">mesh</span><span class="p">:</span>
+        <span class="n">params</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+            <span class="k">lambda</span> <span class="n">func</span><span class="p">,</span> <span class="n">param</span><span class="p">:</span> <span class="n">func</span><span class="p">(</span><span class="n">param</span><span class="p">),</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="n">params</span>
+        <span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">params</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-torch_serve/index.html b/generated-serve-torch_serve/index.html
new file mode 100644
index 000000000..99aadf2ba
--- /dev/null
+++ b/generated-serve-torch_serve/index.html
@@ -0,0 +1,9394 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-serve_engine-serve/">
+      
+      
+        <link rel="next" href="../generated-serve-utils/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Torch Serve - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#servetorch_serve" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Torch Serve
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve" class="md-nav__link">
+    <span class="md-ellipsis">
+      torch_serve
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer" class="md-nav__link">
+    <span class="md-ellipsis">
+      PyTorchServer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="PyTorchServer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.end" class="md-nav__link">
+    <span class="md-ellipsis">
+      end
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.fire" class="md-nav__link">
+    <span class="md-ellipsis">
+      fire
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.format_chat" class="md-nav__link">
+    <span class="md-ellipsis">
+      format_chat
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.format_instruct" class="md-nav__link">
+    <span class="md-ellipsis">
+      format_instruct
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.forward_chat_fast_api" class="md-nav__link">
+    <span class="md-ellipsis">
+      forward_chat_fast_api
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.forward_instruct_fast_api" class="md-nav__link">
+    <span class="md-ellipsis">
+      forward_instruct_fast_api
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.get_gpu_memory" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_gpu_memory
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.get_model_load_kwargs" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_model_load_kwargs
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.load" class="md-nav__link">
+    <span class="md-ellipsis">
+      load
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.sample" class="md-nav__link">
+    <span class="md-ellipsis">
+      sample
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.status" class="md-nav__link">
+    <span class="md-ellipsis">
+      status
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServerConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      PyTorchServerConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="PyTorchServerConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServerConfig.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServerConfig.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve" class="md-nav__link">
+    <span class="md-ellipsis">
+      torch_serve
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer" class="md-nav__link">
+    <span class="md-ellipsis">
+      PyTorchServer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="PyTorchServer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.end" class="md-nav__link">
+    <span class="md-ellipsis">
+      end
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.fire" class="md-nav__link">
+    <span class="md-ellipsis">
+      fire
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.format_chat" class="md-nav__link">
+    <span class="md-ellipsis">
+      format_chat
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.format_instruct" class="md-nav__link">
+    <span class="md-ellipsis">
+      format_instruct
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.forward_chat_fast_api" class="md-nav__link">
+    <span class="md-ellipsis">
+      forward_chat_fast_api
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.forward_instruct_fast_api" class="md-nav__link">
+    <span class="md-ellipsis">
+      forward_instruct_fast_api
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.get_gpu_memory" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_gpu_memory
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.get_model_load_kwargs" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_model_load_kwargs
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.load" class="md-nav__link">
+    <span class="md-ellipsis">
+      load
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.sample" class="md-nav__link">
+    <span class="md-ellipsis">
+      sample
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServer.status" class="md-nav__link">
+    <span class="md-ellipsis">
+      status
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServerConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      PyTorchServerConfig
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="PyTorchServerConfig">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServerConfig.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.torch_serve.PyTorchServerConfig.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="servetorch_serve">serve.torch_serve</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.torch_serve"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.serve.torch_serve.PyTorchServer" class="doc doc-heading">
+            <code>PyTorchServer</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.serve.gradio_user_interface_base.GradioUserInference" href="../generated-serve-gradio_user_interface_base/#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference">GradioUserInference</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">PyTorchServer</span><span class="p">(</span><span class="n">GradioUserInference</span><span class="p">):</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">server_config</span><span class="p">:</span> <span class="n">PyTorchServerConfig</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up the instance of the class, and defines all its attributes.</span>
+<span class="sd">        The __init__ function can accept arguments, which are passed at instantiation.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            server_config: PyTorchServerConfig: Pass the configuration</span>
+<span class="sd">                parameters to the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The app, which is a fastapi object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">*</span> <span class="mi">2</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span> <span class="o">=</span> <span class="n">server_config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">app</span> <span class="o">=</span> <span class="n">FastAPI</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">number_of_served_request_until_last_up_time</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">device_rolling</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_gpu_memory</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_number_of_gpus</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dict_max_memory_sharding</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="n">i</span><span class="p">:</span> <span class="nb">str</span><span class="p">(</span>
+                <span class="nb">int</span><span class="p">(</span>
+                    <span class="n">mem</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_gpu_perc_to_use</span>
+                <span class="p">)</span>
+            <span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;GiB&quot;</span> <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">mem</span> <span class="ow">in</span>
+            <span class="nb">enumerate</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device_rolling</span><span class="p">)</span>
+        <span class="p">}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="o">.</span><span class="n">post</span><span class="p">(</span><span class="s2">&quot;/chat&quot;</span><span class="p">)(</span><span class="bp">self</span><span class="o">.</span><span class="n">forward_chat_fast_api</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="o">.</span><span class="n">post</span><span class="p">(</span><span class="s2">&quot;/instruct&quot;</span><span class="p">)(</span><span class="bp">self</span><span class="o">.</span><span class="n">forward_instruct_fast_api</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;/status&quot;</span><span class="p">)(</span><span class="bp">self</span><span class="o">.</span><span class="n">status</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">app</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">mount_gradio_app</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">gradio_inference</span><span class="p">(),</span> <span class="s2">&quot;/gradio_chat&quot;</span><span class="p">)</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_gpu_memory</span><span class="p">(</span><span class="n">num_gpus_req</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_gpu_memory function returns the amount of available GPU memory in GB.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            num_gpus_req: Specify the number of gpus to be used</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The amount of free memory on each gpu</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">gpu_m</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">dc</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">device_count</span><span class="p">()</span>
+        <span class="n">num_gpus</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">device_count</span><span class="p">()</span> <span class="k">if</span> <span class="n">num_gpus_req</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="nb">min</span><span class="p">(</span><span class="n">num_gpus_req</span><span class="p">,</span> <span class="n">dc</span><span class="p">)</span>
+
+        <span class="k">for</span> <span class="n">gpu_id</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_gpus</span><span class="p">):</span>
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="n">gpu_id</span><span class="p">):</span>
+                <span class="n">gpu_properties</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">get_device_properties</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">current_device</span><span class="p">())</span>
+                <span class="n">gpu_m</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                    <span class="p">(</span><span class="n">gpu_properties</span><span class="o">.</span><span class="n">total_memory</span> <span class="o">/</span> <span class="p">(</span><span class="mi">1024</span> <span class="o">**</span> <span class="mi">3</span><span class="p">))</span> <span class="o">-</span> <span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">memory_allocated</span><span class="p">()</span> <span class="o">/</span> <span class="p">(</span><span class="mi">1024</span> <span class="o">**</span> <span class="mi">3</span><span class="p">)))</span>
+        <span class="k">return</span> <span class="n">gpu_m</span>
+
+    <span class="k">def</span> <span class="nf">get_model_load_kwargs</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_model_load_kwargs function is used to set the torch_dtype, device_map and max_memory parameters for loading a model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Bind the method to an object</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary with the following keys:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="s2">&quot;fp16&quot;</span><span class="p">:</span>
+            <span class="n">dtype</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">float16</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="s2">&quot;fp32&quot;</span><span class="p">:</span>
+            <span class="n">dtype</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">float32</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="s2">&quot;bf16&quot;</span><span class="p">:</span>
+            <span class="n">dtype</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">bfloat16</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;unknown type available types are [fp32 fp16 bf16]&quot;</span><span class="p">)</span>
+        <span class="n">load_kwargs</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;torch_dtype&quot;</span><span class="p">:</span> <span class="n">dtype</span><span class="p">,</span>
+            <span class="s2">&quot;device_map&quot;</span><span class="p">:</span> <span class="s2">&quot;auto&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;max_memory&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">dict_max_memory_sharding</span>
+        <span class="p">}</span>
+        <span class="k">return</span> <span class="n">load_kwargs</span>
+
+    <span class="k">def</span> <span class="nf">status</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The status function returns a dictionary with the following keys:</span>
+<span class="sd">            server_config: A dictionary of configuration parameters.</span>
+<span class="sd">            devices: The number of GPUs available to the server.</span>
+<span class="sd">            device_sharding: Whether device sharding is enabled. If True, then each request will be served by</span>
+<span class="sd">            a different GPU (if multiple GPUs are available). If False, then all requests will be served by</span>
+<span class="sd">            the same GPU (or CPU if no GPUs are available). This parameter can also be set in your client&quot;s</span>
+<span class="sd">            initialization function via torch-serve&quot;s DeviceShardingStrategy</span>
+<span class="sd">            class. See https://pytorch-lightning.readthedoc</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary with the following keys:</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;server_config&quot;</span><span class="p">:</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">()},</span>
+            <span class="s2">&quot;devices&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">device_count</span><span class="p">()</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;device_sharding&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">device_rolling</span><span class="p">,</span>
+            <span class="s2">&quot;max_memory&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">dict_max_memory_sharding</span><span class="p">,</span>
+            <span class="s2">&quot;status&quot;</span><span class="p">:</span> <span class="s2">&quot;Ready&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;number_of_served_request_until_last_up_time&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">number_of_served_request_until_last_up_time</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">forward_instruct_fast_api</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">:</span> <span class="n">InstructRequest</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The forward_instruct_fast_api function is a ReST API endpoint that takes in an InstructRequest object and returns</span>
+<span class="sd">        a response. The InstructRequest object contains the following fields:</span>
+<span class="sd">            - system (str): A string representing the name of the system to be instructed. This should match one of the</span>
+<span class="sd">                systems defined in your server_config file, or else it will default to &amp;quot;default&amp;quot;. If you want to instruct multiple</span>
+<span class="sd">                systems at once, use forward_instruct_fast instead.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            data: InstructRequest: Pass in the data that is used to</span>
+<span class="sd">                generate the response</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary with a single key, response</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_instruct</span><span class="p">(</span>
+            <span class="n">system</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">system</span><span class="p">,</span>
+            <span class="n">instruction</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">instruction</span>
+        <span class="p">)</span>
+        <span class="n">response</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+            <span class="n">string</span><span class="o">=</span><span class="n">string</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+            <span class="n">temperature</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">temperature</span><span class="p">,</span>
+            <span class="n">stream</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">top_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">top_k</span><span class="p">,</span>
+            <span class="n">top_p</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">top_p</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_new_tokens</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;response&quot;</span><span class="p">:</span> <span class="n">response</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">forward_chat_fast_api</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">:</span> <span class="n">ChatRequest</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The forward_chat_fast_api function is a ReST API endpoint that takes in a ChatRequest object and returns the</span>
+<span class="sd">        response from the model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+<span class="sd">            data: ChatRequest: Pass the data from the serve_engine to</span>
+<span class="sd">                the function</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary with a single key, response</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_chat</span><span class="p">(</span>
+            <span class="n">system</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">system</span><span class="p">,</span>
+            <span class="n">history</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">history</span><span class="p">,</span>
+            <span class="n">prompt</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">prompt</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">response</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+            <span class="n">string</span><span class="o">=</span><span class="n">string</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+            <span class="n">temperature</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">temperature</span><span class="p">,</span>
+            <span class="n">stream</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">top_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">top_k</span><span class="p">,</span>
+            <span class="n">top_p</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">top_p</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_new_tokens</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="s2">&quot;response&quot;</span><span class="p">:</span> <span class="n">response</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">format_instruct</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">system</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">instruction</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Here you will get the system and instruction from user, and you can apply your prompting style&quot;&quot;&quot;</span>
+        <span class="n">conversation</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="n">system</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">system</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">({</span>
+                <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;system&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">system</span>
+            <span class="p">})</span>
+        <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">({</span>
+            <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;user&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">instruction</span>
+        <span class="p">})</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span>
+            <span class="n">conversation</span><span class="p">,</span>
+            <span class="n">tokenize</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">add_generation_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">format_chat</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">history</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span> <span class="n">prompt</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">system</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="kc">None</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Here you will get the system, prompt and history from user, and you can apply your prompting style&quot;&quot;&quot;</span>
+        <span class="n">conversation</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="n">system</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">system</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+            <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">({</span>
+                <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;system&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">system</span>
+            <span class="p">})</span>
+        <span class="k">for</span> <span class="n">conv</span> <span class="ow">in</span> <span class="n">history</span><span class="p">:</span>
+            <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="p">{</span>
+                    <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;user&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">conv</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+                <span class="p">}</span>
+            <span class="p">)</span>
+            <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="p">{</span>
+                    <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;assistant&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">conv</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+                <span class="p">}</span>
+            <span class="p">)</span>
+
+        <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+            <span class="p">{</span>
+                <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;user&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">prompt</span>
+            <span class="p">}</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span>
+            <span class="n">conversation</span><span class="p">,</span>
+            <span class="n">tokenize</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">add_generation_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">sample</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">string</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">temperature</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">0.6</span><span class="p">,</span>
+            <span class="n">top_k</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">50</span><span class="p">,</span>
+            <span class="n">top_p</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">0.9</span><span class="p">,</span>
+            <span class="n">repetition_penalty</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">1.2</span><span class="p">,</span>
+            <span class="n">stream</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The sample function is the main function of this class. It takes a string as input and returns a generator that yields strings.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            string: str: Pass the string to be generated</span>
+<span class="sd">            max_new_tokens: Optional[int]: Limit the number of new</span>
+<span class="sd">                tokens that can be generated</span>
+<span class="sd">            max_sequence_length: Optional[int]: Set the maximum length</span>
+<span class="sd">                of the generated text</span>
+<span class="sd">            temperature: Optional[float]: Control the randomness of the</span>
+<span class="sd">                text generation</span>
+<span class="sd">            top_k: Optional[int]: Filter out the top k tokens with the</span>
+<span class="sd">                highest probability</span>
+<span class="sd">            top_p: Optional[int]: Control the probability of sampling</span>
+<span class="sd">                from the top n tokens</span>
+<span class="sd">            repetition_penalty: optional[float]: repetition penalty for</span>
+<span class="sd">                generation</span>
+<span class="sd">            stream: bool: Determine whether to stream the output or not</span>
+<span class="sd">            sample: optional[bool]: Indicate whether to sample from the</span>
+<span class="sd">                distribution or take the argmax</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A generator</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;you should first load model with ``load`` method&quot;</span>
+        <span class="n">tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
+            <span class="n">string</span><span class="p">,</span>
+            <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;pt&quot;</span>
+        <span class="p">)</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">input_ids</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+
+        <span class="n">iterator_streamer</span> <span class="o">=</span> <span class="n">TextIteratorStreamer</span><span class="p">(</span>
+            <span class="n">tokenizer</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">,</span>
+            <span class="n">skip_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">stream</span><span class="p">:</span>
+            <span class="n">kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+                <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">streamer</span><span class="o">=</span><span class="n">iterator_streamer</span><span class="p">,</span>
+                <span class="n">generation_config</span><span class="o">=</span><span class="n">transformers</span><span class="o">.</span><span class="n">GenerationConfig</span><span class="p">(</span>
+                    <span class="n">bos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">bos_token_id</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+                    <span class="n">eos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span>
+                    <span class="n">pad_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+                    <span class="n">max_length</span><span class="o">=</span><span class="n">max_sequence_length</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+                    <span class="n">temperature</span><span class="o">=</span><span class="n">temperature</span><span class="p">,</span>
+                    <span class="n">top_k</span><span class="o">=</span><span class="n">top_k</span><span class="p">,</span>
+                    <span class="n">top_p</span><span class="o">=</span><span class="n">top_p</span><span class="p">,</span>
+                    <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">max_new_tokens</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_new_tokens</span><span class="p">,</span>
+                    <span class="n">num_beams</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                    <span class="n">do_sample</span><span class="o">=</span><span class="n">sample</span><span class="p">,</span>
+                    <span class="n">repetition_penalty</span><span class="o">=</span><span class="n">repetition_penalty</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">repetition_penalty</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">thread_</span> <span class="o">=</span> <span class="n">threading</span><span class="o">.</span><span class="n">Thread</span><span class="p">(</span>
+                <span class="n">target</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">,</span>
+                <span class="n">kwargs</span><span class="o">=</span><span class="n">kwargs</span>
+            <span class="p">)</span>
+            <span class="n">thread_</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+            <span class="k">for</span> <span class="n">string</span> <span class="ow">in</span> <span class="n">iterator_streamer</span><span class="p">:</span>
+                <span class="k">yield</span> <span class="n">string</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+                <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+                <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+                <span class="n">generation_config</span><span class="o">=</span><span class="n">transformers</span><span class="o">.</span><span class="n">GenerationConfig</span><span class="p">(</span>
+                    <span class="n">bos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+                    <span class="n">eos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span>
+                    <span class="n">pad_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+                    <span class="n">max_length</span><span class="o">=</span><span class="n">max_sequence_length</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+                    <span class="n">temperature</span><span class="o">=</span><span class="n">temperature</span><span class="p">,</span>
+                    <span class="n">top_k</span><span class="o">=</span><span class="n">top_k</span><span class="p">,</span>
+                    <span class="n">top_p</span><span class="o">=</span><span class="n">top_p</span><span class="p">,</span>
+                    <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">max_new_tokens</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_new_tokens</span><span class="p">,</span>
+                    <span class="n">num_beams</span><span class="o">=</span><span class="mi">1</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">pred</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span>
+                <span class="o">**</span><span class="n">kwargs</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">logits</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+            <span class="k">return</span> <span class="n">pred</span>
+
+    <span class="k">def</span> <span class="nf">load</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">pretrained_model_name_or_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">tokenizer_repo</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="n">auto_config</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The load function is used to load a model from the HuggingFace Model Hub.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            pretrained_model_name_or_path: str: Specify the name of the</span>
+<span class="sd">                model to be loaded</span>
+<span class="sd">            tokenizer_repo: str: Specify the repo id of the tokenizer</span>
+<span class="sd">            auto_config: bool: Determine whether the model should be</span>
+<span class="sd">                loaded with a server_config file or not</span>
+<span class="sd">            **kwargs: Pass a variable number of keyword arguments to the</span>
+<span class="sd">                function</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of model and tokenizer</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">load_kwargs</span> <span class="o">=</span> <span class="n">kwargs</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">auto_config</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_model_load_kwargs</span><span class="p">()</span>
+        <span class="n">load_kwargs</span> <span class="o">=</span> <span class="n">load_kwargs</span> <span class="o">|</span> <span class="n">kwargs</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoModelForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+            <span class="n">trust_remote_code</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">load_kwargs</span>
+        <span class="p">)</span>
+        <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoTokenizer</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="n">tokenizer_repo</span> <span class="ow">or</span> <span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+            <span class="n">trust_remote_code</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+
+    <span class="k">def</span> <span class="nf">sample_gradio</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">prompt</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">history</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span>
+            <span class="n">system_prompt</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
+            <span class="n">mode</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">max_compile_tokens</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">greedy</span><span class="p">:</span> <span class="nb">bool</span><span class="p">,</span>
+            <span class="n">temperature</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+            <span class="n">top_p</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+            <span class="n">top_k</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">repetition_penalty</span><span class="p">:</span> <span class="nb">float</span>
+    <span class="p">):</span>
+
+        <span class="k">if</span> <span class="n">mode</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="o">==</span> <span class="s2">&quot;chat&quot;</span><span class="p">:</span>
+            <span class="n">string</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_chat</span><span class="p">(</span>
+                <span class="n">history</span><span class="o">=</span><span class="n">history</span><span class="p">,</span>
+                <span class="n">system</span><span class="o">=</span><span class="n">system_prompt</span><span class="p">,</span>
+                <span class="n">prompt</span><span class="o">=</span><span class="n">prompt</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="n">mode</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span> <span class="o">==</span> <span class="s2">&quot;instruct&quot;</span><span class="p">:</span>
+            <span class="n">history</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">string</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_instruct</span><span class="p">(</span>
+                <span class="n">system</span><span class="o">=</span><span class="n">system_prompt</span><span class="p">,</span>
+                <span class="n">instruction</span><span class="o">=</span><span class="n">prompt</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;UnKnown Mode for sample_gradio available modes are only Chat or Instruct&quot;</span><span class="p">)</span>
+        <span class="n">history</span><span class="o">.</span><span class="n">append</span><span class="p">([</span><span class="n">prompt</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">])</span>
+        <span class="n">responses</span> <span class="o">=</span> <span class="s2">&quot;&quot;</span>
+        <span class="k">for</span> <span class="n">response</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                <span class="n">string</span><span class="o">=</span><span class="n">string</span><span class="p">,</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">max_new_tokens</span><span class="p">,</span>
+                <span class="n">temperature</span><span class="o">=</span><span class="n">temperature</span><span class="p">,</span>
+                <span class="n">max_sequence_length</span><span class="o">=</span><span class="n">max_sequence_length</span><span class="p">,</span>
+                <span class="n">top_p</span><span class="o">=</span><span class="n">top_p</span><span class="p">,</span>
+                <span class="n">top_k</span><span class="o">=</span><span class="n">top_k</span><span class="p">,</span>
+                <span class="n">repetition_penalty</span><span class="o">=</span><span class="n">repetition_penalty</span><span class="p">,</span>
+                <span class="n">stream</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">):</span>
+            <span class="n">responses</span> <span class="o">+=</span> <span class="n">response</span>
+            <span class="n">history</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">][</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">=</span> <span class="n">responses</span>
+            <span class="k">yield</span> <span class="s2">&quot;&quot;</span><span class="p">,</span> <span class="n">history</span>
+
+    <span class="k">def</span> <span class="nf">gradio_inference</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_inference</span><span class="p">(</span>
+            <span class="n">sample_func</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">sample_gradio</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+            <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_new_tokens</span><span class="p">,</span>
+            <span class="n">max_compile_tokens</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">fire</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The fire function starts the uvicorn server in a separate process.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A process that runs the uvicorn server</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">def</span> <span class="nf">run</span><span class="p">():</span>
+            <span class="n">uvicorn</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="p">,</span> <span class="n">host</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">host</span><span class="p">,</span> <span class="n">port</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">port</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span> <span class="o">=</span> <span class="n">mp</span><span class="o">.</span><span class="n">Process</span><span class="p">(</span><span class="n">target</span><span class="o">=</span><span class="n">run</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">end</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The end function is used to stop the server.</span>
+<span class="sd">            It will wait for the process to end before returning.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A boolean value</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span><span class="o">.</span><span class="n">join</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">logging</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s2">&quot;you have to fire server before ending that this command will be ignored&quot;</span><span class="p">)</span>
+
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">from_huggingface</span><span class="p">(</span>
+            <span class="bp">cls</span><span class="p">,</span>
+            <span class="n">server_config</span><span class="p">:</span> <span class="n">PyTorchServerConfig</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path_model</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">pretrained_model_name_or_path_tokenizer</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">model_kwarguments</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">tokenizer_kwarguments</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">auto_config</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="p">):</span>
+
+        <span class="kn">from</span> <span class="nn">transformers</span> <span class="kn">import</span> <span class="n">AutoModelForCausalLM</span><span class="p">,</span> <span class="n">AutoTokenizer</span>
+
+        <span class="n">server</span> <span class="o">=</span> <span class="bp">cls</span><span class="p">(</span><span class="n">server_config</span><span class="o">=</span><span class="n">server_config</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">model_kwarguments</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">model_kwarguments</span> <span class="o">=</span> <span class="p">{}</span>
+
+        <span class="k">if</span> <span class="n">tokenizer_kwarguments</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">tokenizer_kwarguments</span> <span class="o">=</span> <span class="p">{}</span>
+
+        <span class="k">if</span> <span class="n">pretrained_model_name_or_path_tokenizer</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">pretrained_model_name_or_path_tokenizer</span> <span class="o">=</span> <span class="n">pretrained_model_name_or_path_model</span>
+
+        <span class="k">if</span> <span class="n">auto_config</span><span class="p">:</span>
+            <span class="n">config_a</span> <span class="o">=</span> <span class="n">server</span><span class="o">.</span><span class="n">get_model_load_kwargs</span><span class="p">()</span>
+            <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">model_kwarguments</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+                <span class="k">if</span> <span class="n">k</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">config_a</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+                    <span class="n">_</span> <span class="o">=</span> <span class="n">config_a</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">k</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+                    <span class="n">logger</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Key </span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> is removed from AutoConfig [Using Given Value]&quot;</span><span class="p">)</span>
+            <span class="n">model_kwarguments</span> <span class="o">=</span> <span class="n">model_kwarguments</span> <span class="o">|</span> <span class="n">config_a</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">AutoModelForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="n">pretrained_model_name_or_path_model</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">model_kwarguments</span>
+        <span class="p">)</span>
+        <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">AutoTokenizer</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="n">pretrained_model_name_or_path_tokenizer</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">tokenizer_kwarguments</span>
+        <span class="p">)</span>
+
+        <span class="n">server</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+        <span class="n">server</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+        <span class="k">return</span> <span class="n">server</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.torch_serve.PyTorchServer.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">server_config</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up the instance of the class, and defines all its attributes.
+The <strong>init</strong> function can accept arguments, which are passed at instantiation.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>server_config</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.serve.torch_serve.PyTorchServerConfig" href="#src.python.easydel.serve.torch_serve.PyTorchServerConfig">PyTorchServerConfig</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PyTorchServerConfig: Pass the configuration
+parameters to the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The app, which is a fastapi object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">server_config</span><span class="p">:</span> <span class="n">PyTorchServerConfig</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up the instance of the class, and defines all its attributes.</span>
+<span class="sd">    The __init__ function can accept arguments, which are passed at instantiation.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        server_config: PyTorchServerConfig: Pass the configuration</span>
+<span class="sd">            parameters to the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The app, which is a fastapi object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="p">[</span><span class="kc">None</span><span class="p">]</span> <span class="o">*</span> <span class="mi">2</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span> <span class="o">=</span> <span class="n">server_config</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">app</span> <span class="o">=</span> <span class="n">FastAPI</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">number_of_served_request_until_last_up_time</span> <span class="o">=</span> <span class="mi">0</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">device_rolling</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_gpu_memory</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_number_of_gpus</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dict_max_memory_sharding</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="n">i</span><span class="p">:</span> <span class="nb">str</span><span class="p">(</span>
+            <span class="nb">int</span><span class="p">(</span>
+                <span class="n">mem</span> <span class="o">*</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_gpu_perc_to_use</span>
+            <span class="p">)</span>
+        <span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;GiB&quot;</span> <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">mem</span> <span class="ow">in</span>
+        <span class="nb">enumerate</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device_rolling</span><span class="p">)</span>
+    <span class="p">}</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="o">.</span><span class="n">post</span><span class="p">(</span><span class="s2">&quot;/chat&quot;</span><span class="p">)(</span><span class="bp">self</span><span class="o">.</span><span class="n">forward_chat_fast_api</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="o">.</span><span class="n">post</span><span class="p">(</span><span class="s2">&quot;/instruct&quot;</span><span class="p">)(</span><span class="bp">self</span><span class="o">.</span><span class="n">forward_instruct_fast_api</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;/status&quot;</span><span class="p">)(</span><span class="bp">self</span><span class="o">.</span><span class="n">status</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">app</span> <span class="o">=</span> <span class="n">gr</span><span class="o">.</span><span class="n">mount_gradio_app</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">gradio_inference</span><span class="p">(),</span> <span class="s2">&quot;/gradio_chat&quot;</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.torch_serve.PyTorchServer.end" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">end</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The end function is used to stop the server.
+    It will wait for the process to end before returning.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A boolean value</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">end</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The end function is used to stop the server.</span>
+<span class="sd">        It will wait for the process to end before returning.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A boolean value</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span><span class="o">.</span><span class="n">join</span><span class="p">()</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">logging</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span><span class="s2">&quot;you have to fire server before ending that this command will be ignored&quot;</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.torch_serve.PyTorchServer.fire" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">fire</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The fire function starts the uvicorn server in a separate process.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A process that runs the uvicorn server</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">fire</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The fire function starts the uvicorn server in a separate process.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A process that runs the uvicorn server</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">run</span><span class="p">():</span>
+        <span class="n">uvicorn</span><span class="o">.</span><span class="n">run</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">app</span><span class="p">,</span> <span class="n">host</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">host</span><span class="p">,</span> <span class="n">port</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">port</span><span class="p">)</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span> <span class="o">=</span> <span class="n">mp</span><span class="o">.</span><span class="n">Process</span><span class="p">(</span><span class="n">target</span><span class="o">=</span><span class="n">run</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">process_uvicorn</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.torch_serve.PyTorchServer.format_chat" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">format_chat</span><span class="p">(</span><span class="n">history</span><span class="p">,</span> <span class="n">prompt</span><span class="p">,</span> <span class="n">system</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Here you will get the system, prompt and history from user, and you can apply your prompting style</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">format_chat</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">history</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]],</span> <span class="n">prompt</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">system</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="kc">None</span><span class="p">])</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Here you will get the system, prompt and history from user, and you can apply your prompting style&quot;&quot;&quot;</span>
+    <span class="n">conversation</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">if</span> <span class="n">system</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">system</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+        <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">({</span>
+            <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;system&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">system</span>
+        <span class="p">})</span>
+    <span class="k">for</span> <span class="n">conv</span> <span class="ow">in</span> <span class="n">history</span><span class="p">:</span>
+        <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+            <span class="p">{</span>
+                <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;user&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">conv</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="p">}</span>
+        <span class="p">)</span>
+        <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+            <span class="p">{</span>
+                <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;assistant&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">conv</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="p">}</span>
+        <span class="p">)</span>
+
+    <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+        <span class="p">{</span>
+            <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;user&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">prompt</span>
+        <span class="p">}</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span>
+        <span class="n">conversation</span><span class="p">,</span>
+        <span class="n">tokenize</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">add_generation_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.torch_serve.PyTorchServer.format_instruct" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">format_instruct</span><span class="p">(</span><span class="n">system</span><span class="p">,</span> <span class="n">instruction</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Here you will get the system and instruction from user, and you can apply your prompting style</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">format_instruct</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">system</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">instruction</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Here you will get the system and instruction from user, and you can apply your prompting style&quot;&quot;&quot;</span>
+    <span class="n">conversation</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">if</span> <span class="n">system</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">system</span> <span class="o">!=</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+        <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">({</span>
+            <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;system&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">system</span>
+        <span class="p">})</span>
+    <span class="n">conversation</span><span class="o">.</span><span class="n">append</span><span class="p">({</span>
+        <span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;user&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">instruction</span>
+    <span class="p">})</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span>
+        <span class="n">conversation</span><span class="p">,</span>
+        <span class="n">tokenize</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">add_generation_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.torch_serve.PyTorchServer.forward_chat_fast_api" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">forward_chat_fast_api</span><span class="p">(</span><span class="n">data</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The forward_chat_fast_api function is a ReST API endpoint that takes in a ChatRequest object and returns the
+response from the model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>data</code></td>
+            <td>
+                  <code><span title="src.python.easydel.serve.utils.ChatRequest">ChatRequest</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>ChatRequest: Pass the data from the serve_engine to
+the function</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with a single key, response</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">forward_chat_fast_api</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">:</span> <span class="n">ChatRequest</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The forward_chat_fast_api function is a ReST API endpoint that takes in a ChatRequest object and returns the</span>
+<span class="sd">    response from the model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        data: ChatRequest: Pass the data from the serve_engine to</span>
+<span class="sd">            the function</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with a single key, response</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">string</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_chat</span><span class="p">(</span>
+        <span class="n">system</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">system</span><span class="p">,</span>
+        <span class="n">history</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">history</span><span class="p">,</span>
+        <span class="n">prompt</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">prompt</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">response</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+        <span class="n">string</span><span class="o">=</span><span class="n">string</span><span class="p">,</span>
+        <span class="n">max_sequence_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+        <span class="n">temperature</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">temperature</span><span class="p">,</span>
+        <span class="n">stream</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">top_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">top_k</span><span class="p">,</span>
+        <span class="n">top_p</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">top_p</span><span class="p">,</span>
+        <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_new_tokens</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;response&quot;</span><span class="p">:</span> <span class="n">response</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.torch_serve.PyTorchServer.forward_instruct_fast_api" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">forward_instruct_fast_api</span><span class="p">(</span><span class="n">data</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The forward_instruct_fast_api function is a ReST API endpoint that takes in an InstructRequest object and returns
+a response. The InstructRequest object contains the following fields:
+    - system (str): A string representing the name of the system to be instructed. This should match one of the
+        systems defined in your server_config file, or else it will default to &quot;default&quot;. If you want to instruct multiple
+        systems at once, use forward_instruct_fast instead.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>data</code></td>
+            <td>
+                  <code><span title="src.python.easydel.serve.utils.InstructRequest">InstructRequest</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>InstructRequest: Pass in the data that is used to
+generate the response</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with a single key, response</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">forward_instruct_fast_api</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">data</span><span class="p">:</span> <span class="n">InstructRequest</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The forward_instruct_fast_api function is a ReST API endpoint that takes in an InstructRequest object and returns</span>
+<span class="sd">    a response. The InstructRequest object contains the following fields:</span>
+<span class="sd">        - system (str): A string representing the name of the system to be instructed. This should match one of the</span>
+<span class="sd">            systems defined in your server_config file, or else it will default to &amp;quot;default&amp;quot;. If you want to instruct multiple</span>
+<span class="sd">            systems at once, use forward_instruct_fast instead.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+<span class="sd">        data: InstructRequest: Pass in the data that is used to</span>
+<span class="sd">            generate the response</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with a single key, response</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">string</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">format_instruct</span><span class="p">(</span>
+        <span class="n">system</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">system</span><span class="p">,</span>
+        <span class="n">instruction</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">instruction</span>
+    <span class="p">)</span>
+    <span class="n">response</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+        <span class="n">string</span><span class="o">=</span><span class="n">string</span><span class="p">,</span>
+        <span class="n">max_sequence_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+        <span class="n">temperature</span><span class="o">=</span><span class="n">data</span><span class="o">.</span><span class="n">temperature</span><span class="p">,</span>
+        <span class="n">stream</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">top_k</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">top_k</span><span class="p">,</span>
+        <span class="n">top_p</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">top_p</span><span class="p">,</span>
+        <span class="n">max_new_tokens</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_new_tokens</span>
+    <span class="p">)</span>
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;response&quot;</span><span class="p">:</span> <span class="n">response</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.torch_serve.PyTorchServer.get_gpu_memory" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_gpu_memory</span><span class="p">(</span><span class="n">num_gpus_req</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-staticmethod"><code>staticmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_gpu_memory function returns the amount of available GPU memory in GB.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>num_gpus_req</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the number of gpus to be used</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The amount of free memory on each gpu</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@staticmethod</span>
+<span class="k">def</span> <span class="nf">get_gpu_memory</span><span class="p">(</span><span class="n">num_gpus_req</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_gpu_memory function returns the amount of available GPU memory in GB.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        num_gpus_req: Specify the number of gpus to be used</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The amount of free memory on each gpu</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">gpu_m</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="n">dc</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">device_count</span><span class="p">()</span>
+    <span class="n">num_gpus</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">device_count</span><span class="p">()</span> <span class="k">if</span> <span class="n">num_gpus_req</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="nb">min</span><span class="p">(</span><span class="n">num_gpus_req</span><span class="p">,</span> <span class="n">dc</span><span class="p">)</span>
+
+    <span class="k">for</span> <span class="n">gpu_id</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_gpus</span><span class="p">):</span>
+        <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="n">gpu_id</span><span class="p">):</span>
+            <span class="n">gpu_properties</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">get_device_properties</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">current_device</span><span class="p">())</span>
+            <span class="n">gpu_m</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="p">(</span><span class="n">gpu_properties</span><span class="o">.</span><span class="n">total_memory</span> <span class="o">/</span> <span class="p">(</span><span class="mi">1024</span> <span class="o">**</span> <span class="mi">3</span><span class="p">))</span> <span class="o">-</span> <span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">memory_allocated</span><span class="p">()</span> <span class="o">/</span> <span class="p">(</span><span class="mi">1024</span> <span class="o">**</span> <span class="mi">3</span><span class="p">)))</span>
+    <span class="k">return</span> <span class="n">gpu_m</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.torch_serve.PyTorchServer.get_model_load_kwargs" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_model_load_kwargs</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_model_load_kwargs function is used to set the torch_dtype, device_map and max_memory parameters for loading a model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Bind the method to an object</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with the following keys:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_model_load_kwargs</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_model_load_kwargs function is used to set the torch_dtype, device_map and max_memory parameters for loading a model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Bind the method to an object</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with the following keys:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="s2">&quot;fp16&quot;</span><span class="p">:</span>
+        <span class="n">dtype</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">float16</span>
+    <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="s2">&quot;fp32&quot;</span><span class="p">:</span>
+        <span class="n">dtype</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">float32</span>
+    <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="s2">&quot;bf16&quot;</span><span class="p">:</span>
+        <span class="n">dtype</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">bfloat16</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;unknown type available types are [fp32 fp16 bf16]&quot;</span><span class="p">)</span>
+    <span class="n">load_kwargs</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="s2">&quot;torch_dtype&quot;</span><span class="p">:</span> <span class="n">dtype</span><span class="p">,</span>
+        <span class="s2">&quot;device_map&quot;</span><span class="p">:</span> <span class="s2">&quot;auto&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;max_memory&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">dict_max_memory_sharding</span>
+    <span class="p">}</span>
+    <span class="k">return</span> <span class="n">load_kwargs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.torch_serve.PyTorchServer.load" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">load</span><span class="p">(</span><span class="n">pretrained_model_name_or_path</span><span class="p">,</span> <span class="n">tokenizer_repo</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">auto_config</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The load function is used to load a model from the HuggingFace Model Hub.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>pretrained_model_name_or_path</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Specify the name of the
+model to be loaded</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tokenizer_repo</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Specify the repo id of the tokenizer</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>auto_config</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether the model should be
+loaded with a server_config file or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass a variable number of keyword arguments to the
+function</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of model and tokenizer</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">load</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">pretrained_model_name_or_path</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span> <span class="n">tokenizer_repo</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="n">auto_config</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The load function is used to load a model from the HuggingFace Model Hub.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        pretrained_model_name_or_path: str: Specify the name of the</span>
+<span class="sd">            model to be loaded</span>
+<span class="sd">        tokenizer_repo: str: Specify the repo id of the tokenizer</span>
+<span class="sd">        auto_config: bool: Determine whether the model should be</span>
+<span class="sd">            loaded with a server_config file or not</span>
+<span class="sd">        **kwargs: Pass a variable number of keyword arguments to the</span>
+<span class="sd">            function</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of model and tokenizer</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">load_kwargs</span> <span class="o">=</span> <span class="n">kwargs</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">auto_config</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_model_load_kwargs</span><span class="p">()</span>
+    <span class="n">load_kwargs</span> <span class="o">=</span> <span class="n">load_kwargs</span> <span class="o">|</span> <span class="n">kwargs</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoModelForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+        <span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+        <span class="n">trust_remote_code</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">load_kwargs</span>
+    <span class="p">)</span>
+    <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">transformers</span><span class="o">.</span><span class="n">AutoTokenizer</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+        <span class="n">tokenizer_repo</span> <span class="ow">or</span> <span class="n">pretrained_model_name_or_path</span><span class="p">,</span>
+        <span class="n">trust_remote_code</span><span class="o">=</span><span class="kc">True</span>
+    <span class="p">)</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.torch_serve.PyTorchServer.sample" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">sample</span><span class="p">(</span><span class="n">string</span><span class="p">,</span> <span class="n">max_new_tokens</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">max_sequence_length</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">temperature</span><span class="o">=</span><span class="mf">0.6</span><span class="p">,</span> <span class="n">top_k</span><span class="o">=</span><span class="mi">50</span><span class="p">,</span> <span class="n">top_p</span><span class="o">=</span><span class="mf">0.9</span><span class="p">,</span> <span class="n">repetition_penalty</span><span class="o">=</span><span class="mf">1.2</span><span class="p">,</span> <span class="n">stream</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">sample</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The sample function is the main function of this class. It takes a string as input and returns a generator that yields strings.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>string</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Pass the string to be generated</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_new_tokens</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Limit the number of new
+tokens that can be generated</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_sequence_length</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Set the maximum length
+of the generated text</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>temperature</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[float]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[float]: Control the randomness of the
+text generation</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.6</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>top_k</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Filter out the top k tokens with the
+highest probability</p>
+              </div>
+            </td>
+            <td>
+                  <code>50</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>top_p</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[float]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Control the probability of sampling
+from the top n tokens</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.9</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>repetition_penalty</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[float]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>optional[float]: repetition penalty for
+generation</p>
+              </div>
+            </td>
+            <td>
+                  <code>1.2</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>stream</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to stream the output or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sample</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>optional[bool]: Indicate whether to sample from the
+distribution or take the argmax</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A generator</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">sample</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">string</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+        <span class="n">max_new_tokens</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">max_sequence_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">temperature</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">0.6</span><span class="p">,</span>
+        <span class="n">top_k</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">50</span><span class="p">,</span>
+        <span class="n">top_p</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">0.9</span><span class="p">,</span>
+        <span class="n">repetition_penalty</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">1.2</span><span class="p">,</span>
+        <span class="n">stream</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The sample function is the main function of this class. It takes a string as input and returns a generator that yields strings.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        string: str: Pass the string to be generated</span>
+<span class="sd">        max_new_tokens: Optional[int]: Limit the number of new</span>
+<span class="sd">            tokens that can be generated</span>
+<span class="sd">        max_sequence_length: Optional[int]: Set the maximum length</span>
+<span class="sd">            of the generated text</span>
+<span class="sd">        temperature: Optional[float]: Control the randomness of the</span>
+<span class="sd">            text generation</span>
+<span class="sd">        top_k: Optional[int]: Filter out the top k tokens with the</span>
+<span class="sd">            highest probability</span>
+<span class="sd">        top_p: Optional[int]: Control the probability of sampling</span>
+<span class="sd">            from the top n tokens</span>
+<span class="sd">        repetition_penalty: optional[float]: repetition penalty for</span>
+<span class="sd">            generation</span>
+<span class="sd">        stream: bool: Determine whether to stream the output or not</span>
+<span class="sd">        sample: optional[bool]: Indicate whether to sample from the</span>
+<span class="sd">            distribution or take the argmax</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A generator</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;you should first load model with ``load`` method&quot;</span>
+    <span class="n">tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
+        <span class="n">string</span><span class="p">,</span>
+        <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;pt&quot;</span>
+    <span class="p">)</span>
+    <span class="n">input_ids</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">input_ids</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+    <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">attention_mask</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+
+    <span class="n">iterator_streamer</span> <span class="o">=</span> <span class="n">TextIteratorStreamer</span><span class="p">(</span>
+        <span class="n">tokenizer</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">,</span>
+        <span class="n">skip_prompt</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">skip_special_tokens</span><span class="o">=</span><span class="kc">True</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">stream</span><span class="p">:</span>
+        <span class="n">kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">streamer</span><span class="o">=</span><span class="n">iterator_streamer</span><span class="p">,</span>
+            <span class="n">generation_config</span><span class="o">=</span><span class="n">transformers</span><span class="o">.</span><span class="n">GenerationConfig</span><span class="p">(</span>
+                <span class="n">bos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">bos_token_id</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+                <span class="n">eos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">eos_token_id</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span>
+                <span class="n">pad_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+                <span class="n">max_length</span><span class="o">=</span><span class="n">max_sequence_length</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+                <span class="n">temperature</span><span class="o">=</span><span class="n">temperature</span><span class="p">,</span>
+                <span class="n">top_k</span><span class="o">=</span><span class="n">top_k</span><span class="p">,</span>
+                <span class="n">top_p</span><span class="o">=</span><span class="n">top_p</span><span class="p">,</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">max_new_tokens</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_new_tokens</span><span class="p">,</span>
+                <span class="n">num_beams</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span>
+                <span class="n">do_sample</span><span class="o">=</span><span class="n">sample</span><span class="p">,</span>
+                <span class="n">repetition_penalty</span><span class="o">=</span><span class="n">repetition_penalty</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">repetition_penalty</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">thread_</span> <span class="o">=</span> <span class="n">threading</span><span class="o">.</span><span class="n">Thread</span><span class="p">(</span>
+            <span class="n">target</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">,</span>
+            <span class="n">kwargs</span><span class="o">=</span><span class="n">kwargs</span>
+        <span class="p">)</span>
+        <span class="n">thread_</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+        <span class="k">for</span> <span class="n">string</span> <span class="ow">in</span> <span class="n">iterator_streamer</span><span class="p">:</span>
+            <span class="k">yield</span> <span class="n">string</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">generation_config</span><span class="o">=</span><span class="n">transformers</span><span class="o">.</span><span class="n">GenerationConfig</span><span class="p">(</span>
+                <span class="n">bos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+                <span class="n">eos_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span>
+                <span class="n">pad_token_id</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+                <span class="n">max_length</span><span class="o">=</span><span class="n">max_sequence_length</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+                <span class="n">temperature</span><span class="o">=</span><span class="n">temperature</span><span class="p">,</span>
+                <span class="n">top_k</span><span class="o">=</span><span class="n">top_k</span><span class="p">,</span>
+                <span class="n">top_p</span><span class="o">=</span><span class="n">top_p</span><span class="p">,</span>
+                <span class="n">max_new_tokens</span><span class="o">=</span><span class="n">max_new_tokens</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="n">max_new_tokens</span><span class="p">,</span>
+                <span class="n">num_beams</span><span class="o">=</span><span class="mi">1</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">pred</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">logits</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+        <span class="k">return</span> <span class="n">pred</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.torch_serve.PyTorchServer.status" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">status</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+
+
+<details class="the-status-function-returns-a-dictionary-with-the-following-keys" open>
+  <summary>The status function returns a dictionary with the following keys</summary>
+  <p>server_config: A dictionary of configuration parameters.
+devices: The number of GPUs available to the server.
+device_sharding: Whether device sharding is enabled. If True, then each request will be served by
+a different GPU (if multiple GPUs are available). If False, then all requests will be served by
+the same GPU (or CPU if no GPUs are available). This parameter can also be set in your client"s
+initialization function via torch-serve"s DeviceShardingStrategy
+class. See https://pytorch-lightning.readthedoc</p>
+</details>
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary with the following keys:</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">status</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The status function returns a dictionary with the following keys:</span>
+<span class="sd">        server_config: A dictionary of configuration parameters.</span>
+<span class="sd">        devices: The number of GPUs available to the server.</span>
+<span class="sd">        device_sharding: Whether device sharding is enabled. If True, then each request will be served by</span>
+<span class="sd">        a different GPU (if multiple GPUs are available). If False, then all requests will be served by</span>
+<span class="sd">        the same GPU (or CPU if no GPUs are available). This parameter can also be set in your client&quot;s</span>
+<span class="sd">        initialization function via torch-serve&quot;s DeviceShardingStrategy</span>
+<span class="sd">        class. See https://pytorch-lightning.readthedoc</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary with the following keys:</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="s2">&quot;server_config&quot;</span><span class="p">:</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">server_config</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">()},</span>
+        <span class="s2">&quot;devices&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">torch</span><span class="o">.</span><span class="n">cuda</span><span class="o">.</span><span class="n">device_count</span><span class="p">()</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;device_sharding&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">device_rolling</span><span class="p">,</span>
+        <span class="s2">&quot;max_memory&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">dict_max_memory_sharding</span><span class="p">,</span>
+        <span class="s2">&quot;status&quot;</span><span class="p">:</span> <span class="s2">&quot;Ready&quot;</span><span class="p">,</span>
+        <span class="s2">&quot;number_of_served_request_until_last_up_time&quot;</span><span class="p">:</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">number_of_served_request_until_last_up_time</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.serve.torch_serve.PyTorchServerConfig" class="doc doc-heading">
+            <code>PyTorchServerConfig</code>
+
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-dataclass"><code>dataclass</code></small>
+  </span>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+      <p>It sets up the instance of the class, and defines all its attributes.</p>
+<p>:param host: Specify the ip address of the server
+:param port: Specify the port number that will be used by the server
+:param batch_size: Determine the number of samples to be generated in a single batch
+:param max_sequence_length: Set the maximum length of a sentence
+:param max_new_tokens: Limit the number of new tokens that can be generated in a single batch
+:param temperature: Control the randomness of the generated text
+:param pad_token_id: Optional[int]: The id of the Padding Token
+:param bos_token_id: Optional[int]: The id of the Start of sentence Token
+:param eos_token_id: Optional[int]: The id of the End of sentence Token
+:param top_p: Control the probability of sampling from the top candidates
+:param top_k: Limit the number of tokens that are considered for each token
+:param logging: Control whether the server will print out
+:param dtype: Specify the data type of the tensors
+:param max_number_of_gpus: Limit the number of gpus used by the server
+:param max_gpu_perc_to_use: Specify the maximum percentage of gpu memory that can be used by the server
+:param max_compile_tokens: int: Limit the number of tokens that can be streamed to a single client</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@dataclass</span>
+<span class="k">class</span> <span class="nc">PyTorchServerConfig</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    It sets up the instance of the class, and defines all its attributes.</span>
+
+<span class="sd">    :param host: Specify the ip address of the server</span>
+<span class="sd">    :param port: Specify the port number that will be used by the server</span>
+<span class="sd">    :param batch_size: Determine the number of samples to be generated in a single batch</span>
+<span class="sd">    :param max_sequence_length: Set the maximum length of a sentence</span>
+<span class="sd">    :param max_new_tokens: Limit the number of new tokens that can be generated in a single batch</span>
+<span class="sd">    :param temperature: Control the randomness of the generated text</span>
+<span class="sd">    :param pad_token_id: Optional[int]: The id of the Padding Token</span>
+<span class="sd">    :param bos_token_id: Optional[int]: The id of the Start of sentence Token</span>
+<span class="sd">    :param eos_token_id: Optional[int]: The id of the End of sentence Token</span>
+<span class="sd">    :param top_p: Control the probability of sampling from the top candidates</span>
+<span class="sd">    :param top_k: Limit the number of tokens that are considered for each token</span>
+<span class="sd">    :param logging: Control whether the server will print out</span>
+<span class="sd">    :param dtype: Specify the data type of the tensors</span>
+<span class="sd">    :param max_number_of_gpus: Limit the number of gpus used by the server</span>
+<span class="sd">    :param max_gpu_perc_to_use: Specify the maximum percentage of gpu memory that can be used by the server</span>
+<span class="sd">    :param max_compile_tokens: int: Limit the number of tokens that can be streamed to a single client</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">host</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;0.0.0.0&quot;</span>
+    <span class="n">port</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">2059</span>
+    <span class="n">batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span>
+
+    <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4096</span>
+    <span class="n">max_new_tokens</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4096</span>
+    <span class="n">max_compile_tokens</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span>
+    <span class="n">temperature</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.8</span>
+    <span class="n">top_p</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.95</span>
+    <span class="n">top_k</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">50</span>
+    <span class="n">sample</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="n">repetition_penalty</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.2</span>
+
+    <span class="n">eos_token_id</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">pad_token_id</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">bos_token_id</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="n">logging</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+
+    <span class="n">dtype</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;fp16&quot;</span>
+
+    <span class="n">stream_tokens_for_gradio</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="n">use_prefix_tokenizer</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="n">pre_compile</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+
+    <span class="n">use_mxn_break_point</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="n">max_number_of_gpus</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">max_gpu_perc_to_use</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.95</span>
+
+    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">        This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">        to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">        object, or when you type its name in the REPL.</span>
+
+<span class="sd">        :param self: Refer to the instance of the class</span>
+<span class="sd">        :return: A string representation of the object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                    <span class="o">...</span>
+
+        <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">        It should return a string representation of the object.</span>
+
+<span class="sd">        :param self: Refer to the instance of the class</span>
+<span class="sd">        :return: The object&#39;s string representation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.torch_serve.PyTorchServerConfig.__repr__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__repr__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>repr</strong> function is used to generate a string representation of an object.
+This function should return a string that can be parsed by the Python interpreter
+to recreate the object. The <strong>repr</strong> function is called when you use print() on an
+object, or when you type its name in the REPL.</p>
+<p>:param self: Refer to the instance of the class
+:return: A string representation of the object</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span>
+<span class="normal">80</span>
+<span class="normal">81</span>
+<span class="normal">82</span>
+<span class="normal">83</span>
+<span class="normal">84</span>
+<span class="normal">85</span>
+<span class="normal">86</span>
+<span class="normal">87</span>
+<span class="normal">88</span>
+<span class="normal">89</span>
+<span class="normal">90</span>
+<span class="normal">91</span>
+<span class="normal">92</span>
+<span class="normal">93</span>
+<span class="normal">94</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">    This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">    to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">    object, or when you type its name in the REPL.</span>
+
+<span class="sd">    :param self: Refer to the instance of the class</span>
+<span class="sd">    :return: A string representation of the object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">500</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                <span class="o">...</span>
+
+    <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.torch_serve.PyTorchServerConfig.__str__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__str__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>str</strong> function is called when you use the print function or when str() is used.
+It should return a string representation of the object.</p>
+<p>:param self: Refer to the instance of the class
+:return: The object's string representation</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/torch_serve.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">    It should return a string representation of the object.</span>
+
+<span class="sd">    :param self: Refer to the instance of the class</span>
+<span class="sd">    :return: The object&#39;s string representation</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-serve-utils/index.html b/generated-serve-utils/index.html
new file mode 100644
index 000000000..06420b67f
--- /dev/null
+++ b/generated-serve-utils/index.html
@@ -0,0 +1,6910 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-torch_serve/">
+      
+      
+        <link rel="next" href="../generated-smi-smi/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Utils - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#serveutils" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Utils
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.utils.Seafoam" class="md-nav__link">
+    <span class="md-ellipsis">
+      Seafoam
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Seafoam">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.utils.Seafoam.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.utils.create_generate_function" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_generate_function
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.utils.get_partitions" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partitions
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.utils.Seafoam" class="md-nav__link">
+    <span class="md-ellipsis">
+      Seafoam
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Seafoam">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.utils.Seafoam.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.utils.create_generate_function" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_generate_function
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.serve.utils.get_partitions" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_partitions
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="serveutils">serve.utils</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.serve.utils"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.serve.utils.Seafoam" class="doc doc-heading">
+            <code>Seafoam</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="gradio.themes.base.Base">Base</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/serve/utils.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">Seafoam</span><span class="p">(</span><span class="n">Base</span><span class="p">):</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="o">*</span><span class="p">,</span>
+            <span class="n">primary_hue</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">colors</span><span class="o">.</span><span class="n">Color</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">colors</span><span class="o">.</span><span class="n">emerald</span><span class="p">,</span>
+            <span class="n">secondary_hue</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">colors</span><span class="o">.</span><span class="n">Color</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">colors</span><span class="o">.</span><span class="n">blue</span><span class="p">,</span>
+            <span class="n">neutral_hue</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">colors</span><span class="o">.</span><span class="n">Color</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">colors</span><span class="o">.</span><span class="n">gray</span><span class="p">,</span>
+            <span class="n">spacing_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">sizes</span><span class="o">.</span><span class="n">Size</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">sizes</span><span class="o">.</span><span class="n">spacing_md</span><span class="p">,</span>
+            <span class="n">radius_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">sizes</span><span class="o">.</span><span class="n">Size</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">sizes</span><span class="o">.</span><span class="n">radius_md</span><span class="p">,</span>
+            <span class="n">text_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">sizes</span><span class="o">.</span><span class="n">Size</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">sizes</span><span class="o">.</span><span class="n">text_lg</span><span class="p">,</span>
+            <span class="n">font</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">fonts</span><span class="o">.</span><span class="n">Font</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span>
+            <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">fonts</span><span class="o">.</span><span class="n">GoogleFont</span><span class="p">(</span><span class="s2">&quot;Quicksand&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;ui-sans-serif&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;sans-serif&quot;</span><span class="p">,</span>
+            <span class="p">),</span>
+            <span class="n">font_mono</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">fonts</span><span class="o">.</span><span class="n">Font</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span>
+            <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">fonts</span><span class="o">.</span><span class="n">GoogleFont</span><span class="p">(</span><span class="s2">&quot;IBM Plex Mono&quot;</span><span class="p">),</span>
+                    <span class="s2">&quot;ui-monospace&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;monospace&quot;</span><span class="p">,</span>
+            <span class="p">),</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up the object with all of its instance variables and other things it needs to function properly.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the object</span>
+<span class="sd">            : Unpack the list of parameters into a tuple</span>
+<span class="sd">            primary_hue: Union[colors.Color,str]: Set the primary color</span>
+<span class="sd">                of the theme</span>
+<span class="sd">            secondary_hue: Union[colors.Color,str]: Set the secondary</span>
+<span class="sd">                color of the theme</span>
+<span class="sd">            neutral_hue: Union[colors.Color,str]: Set the neutral color</span>
+<span class="sd">                of the theme</span>
+<span class="sd">            spacing_size: Union[sizes.Size,str]: Set the spacing size of</span>
+<span class="sd">                the theme</span>
+<span class="sd">            radius_size: Union[sizes.Size,str]: Set the radius of the</span>
+<span class="sd">                buttons and other elements</span>
+<span class="sd">            text_size: Union[sizes.Size,str]: Set the size of the text</span>
+<span class="sd">                in the app</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The class object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">primary_hue</span><span class="o">=</span><span class="n">primary_hue</span><span class="p">,</span>
+            <span class="n">secondary_hue</span><span class="o">=</span><span class="n">secondary_hue</span><span class="p">,</span>
+            <span class="n">neutral_hue</span><span class="o">=</span><span class="n">neutral_hue</span><span class="p">,</span>
+            <span class="n">spacing_size</span><span class="o">=</span><span class="n">spacing_size</span><span class="p">,</span>
+            <span class="n">radius_size</span><span class="o">=</span><span class="n">radius_size</span><span class="p">,</span>
+            <span class="n">text_size</span><span class="o">=</span><span class="n">text_size</span><span class="p">,</span>
+            <span class="n">font</span><span class="o">=</span><span class="n">font</span><span class="p">,</span>
+            <span class="n">font_mono</span><span class="o">=</span><span class="n">font_mono</span><span class="p">,</span>
+
+        <span class="p">)</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">set</span><span class="p">(</span>
+            <span class="n">body_background_fill</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *secondary_800, *neutral_900)&quot;</span><span class="p">,</span>
+            <span class="n">body_background_fill_dark</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *secondary_800, *neutral_900)&quot;</span><span class="p">,</span>
+            <span class="n">button_primary_background_fill</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_300, *secondary_400)&quot;</span><span class="p">,</span>
+            <span class="n">button_primary_background_fill_hover</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_200, *secondary_300)&quot;</span><span class="p">,</span>
+            <span class="n">button_primary_text_color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span>
+            <span class="n">button_primary_background_fill_dark</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+            <span class="n">slider_color</span><span class="o">=</span><span class="s2">&quot;*secondary_300&quot;</span><span class="p">,</span>
+            <span class="n">slider_color_dark</span><span class="o">=</span><span class="s2">&quot;*secondary_400&quot;</span><span class="p">,</span>
+            <span class="n">block_title_text_weight</span><span class="o">=</span><span class="s2">&quot;600&quot;</span><span class="p">,</span>
+            <span class="n">block_border_width</span><span class="o">=</span><span class="s2">&quot;0px&quot;</span><span class="p">,</span>
+            <span class="n">block_shadow</span><span class="o">=</span><span class="s2">&quot;*shadow_drop_lg&quot;</span><span class="p">,</span>
+            <span class="n">button_shadow</span><span class="o">=</span><span class="s2">&quot;*shadow_drop_lg&quot;</span><span class="p">,</span>
+            <span class="n">button_large_padding</span><span class="o">=</span><span class="s2">&quot;4px&quot;</span><span class="p">,</span>
+            <span class="n">border_color_primary</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+            <span class="n">border_color_primary_dark</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+            <span class="n">table_border_color</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+            <span class="n">table_border_color_dark</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+            <span class="n">button_primary_border_color</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+            <span class="n">button_primary_border_color_dark</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+            <span class="n">panel_border_color</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+            <span class="n">panel_border_color_dark</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+            <span class="n">block_border_color</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+            <span class="n">block_border_color_dark</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.serve.utils.Seafoam.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="o">*</span><span class="p">,</span> <span class="n">primary_hue</span><span class="o">=</span><span class="n">colors</span><span class="o">.</span><span class="n">emerald</span><span class="p">,</span> <span class="n">secondary_hue</span><span class="o">=</span><span class="n">colors</span><span class="o">.</span><span class="n">blue</span><span class="p">,</span> <span class="n">neutral_hue</span><span class="o">=</span><span class="n">colors</span><span class="o">.</span><span class="n">gray</span><span class="p">,</span> <span class="n">spacing_size</span><span class="o">=</span><span class="n">sizes</span><span class="o">.</span><span class="n">spacing_md</span><span class="p">,</span> <span class="n">radius_size</span><span class="o">=</span><span class="n">sizes</span><span class="o">.</span><span class="n">radius_md</span><span class="p">,</span> <span class="n">text_size</span><span class="o">=</span><span class="n">sizes</span><span class="o">.</span><span class="n">text_lg</span><span class="p">,</span> <span class="n">font</span><span class="o">=</span><span class="p">(</span><span class="n">fonts</span><span class="o">.</span><span class="n">GoogleFont</span><span class="p">(</span><span class="s1">&#39;Quicksand&#39;</span><span class="p">),</span> <span class="s1">&#39;ui-sans-serif&#39;</span><span class="p">,</span> <span class="s1">&#39;sans-serif&#39;</span><span class="p">),</span> <span class="n">font_mono</span><span class="o">=</span><span class="p">(</span><span class="n">fonts</span><span class="o">.</span><span class="n">GoogleFont</span><span class="p">(</span><span class="s1">&#39;IBM Plex Mono&#39;</span><span class="p">),</span> <span class="s1">&#39;ui-monospace&#39;</span><span class="p">,</span> <span class="s1">&#39;monospace&#39;</span><span class="p">))</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up the object with all of its instance variables and other things it needs to function properly.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the object</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code></code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Unpack the list of parameters into a tuple</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>primary_hue</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="gradio.themes.utils.colors.Color">Color</span>, str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Union[colors.Color,str]: Set the primary color
+of the theme</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="gradio.themes.utils.colors.emerald">emerald</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>secondary_hue</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="gradio.themes.utils.colors.Color">Color</span>, str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Union[colors.Color,str]: Set the secondary
+color of the theme</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="gradio.themes.utils.colors.blue">blue</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>neutral_hue</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="gradio.themes.utils.colors.Color">Color</span>, str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Union[colors.Color,str]: Set the neutral color
+of the theme</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="gradio.themes.utils.colors.gray">gray</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>spacing_size</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="gradio.themes.utils.sizes.Size">Size</span>, str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Union[sizes.Size,str]: Set the spacing size of
+the theme</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="gradio.themes.utils.sizes.spacing_md">spacing_md</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>radius_size</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="gradio.themes.utils.sizes.Size">Size</span>, str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Union[sizes.Size,str]: Set the radius of the
+buttons and other elements</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="gradio.themes.utils.sizes.radius_md">radius_md</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>text_size</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[<span title="gradio.themes.utils.sizes.Size">Size</span>, str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Union[sizes.Size,str]: Set the size of the text
+in the app</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="gradio.themes.utils.sizes.text_lg">text_lg</span></code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The class object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="o">*</span><span class="p">,</span>
+        <span class="n">primary_hue</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">colors</span><span class="o">.</span><span class="n">Color</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">colors</span><span class="o">.</span><span class="n">emerald</span><span class="p">,</span>
+        <span class="n">secondary_hue</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">colors</span><span class="o">.</span><span class="n">Color</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">colors</span><span class="o">.</span><span class="n">blue</span><span class="p">,</span>
+        <span class="n">neutral_hue</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">colors</span><span class="o">.</span><span class="n">Color</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">colors</span><span class="o">.</span><span class="n">gray</span><span class="p">,</span>
+        <span class="n">spacing_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">sizes</span><span class="o">.</span><span class="n">Size</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">sizes</span><span class="o">.</span><span class="n">spacing_md</span><span class="p">,</span>
+        <span class="n">radius_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">sizes</span><span class="o">.</span><span class="n">Size</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">sizes</span><span class="o">.</span><span class="n">radius_md</span><span class="p">,</span>
+        <span class="n">text_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">sizes</span><span class="o">.</span><span class="n">Size</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="n">sizes</span><span class="o">.</span><span class="n">text_lg</span><span class="p">,</span>
+        <span class="n">font</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">fonts</span><span class="o">.</span><span class="n">Font</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span>
+        <span class="o">=</span> <span class="p">(</span>
+                <span class="n">fonts</span><span class="o">.</span><span class="n">GoogleFont</span><span class="p">(</span><span class="s2">&quot;Quicksand&quot;</span><span class="p">),</span>
+                <span class="s2">&quot;ui-sans-serif&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;sans-serif&quot;</span><span class="p">,</span>
+        <span class="p">),</span>
+        <span class="n">font_mono</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">fonts</span><span class="o">.</span><span class="n">Font</span><span class="p">,</span> <span class="nb">str</span><span class="p">]</span>
+        <span class="o">=</span> <span class="p">(</span>
+                <span class="n">fonts</span><span class="o">.</span><span class="n">GoogleFont</span><span class="p">(</span><span class="s2">&quot;IBM Plex Mono&quot;</span><span class="p">),</span>
+                <span class="s2">&quot;ui-monospace&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;monospace&quot;</span><span class="p">,</span>
+        <span class="p">),</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up the object with all of its instance variables and other things it needs to function properly.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the object</span>
+<span class="sd">        : Unpack the list of parameters into a tuple</span>
+<span class="sd">        primary_hue: Union[colors.Color,str]: Set the primary color</span>
+<span class="sd">            of the theme</span>
+<span class="sd">        secondary_hue: Union[colors.Color,str]: Set the secondary</span>
+<span class="sd">            color of the theme</span>
+<span class="sd">        neutral_hue: Union[colors.Color,str]: Set the neutral color</span>
+<span class="sd">            of the theme</span>
+<span class="sd">        spacing_size: Union[sizes.Size,str]: Set the spacing size of</span>
+<span class="sd">            the theme</span>
+<span class="sd">        radius_size: Union[sizes.Size,str]: Set the radius of the</span>
+<span class="sd">            buttons and other elements</span>
+<span class="sd">        text_size: Union[sizes.Size,str]: Set the size of the text</span>
+<span class="sd">            in the app</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The class object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="n">primary_hue</span><span class="o">=</span><span class="n">primary_hue</span><span class="p">,</span>
+        <span class="n">secondary_hue</span><span class="o">=</span><span class="n">secondary_hue</span><span class="p">,</span>
+        <span class="n">neutral_hue</span><span class="o">=</span><span class="n">neutral_hue</span><span class="p">,</span>
+        <span class="n">spacing_size</span><span class="o">=</span><span class="n">spacing_size</span><span class="p">,</span>
+        <span class="n">radius_size</span><span class="o">=</span><span class="n">radius_size</span><span class="p">,</span>
+        <span class="n">text_size</span><span class="o">=</span><span class="n">text_size</span><span class="p">,</span>
+        <span class="n">font</span><span class="o">=</span><span class="n">font</span><span class="p">,</span>
+        <span class="n">font_mono</span><span class="o">=</span><span class="n">font_mono</span><span class="p">,</span>
+
+    <span class="p">)</span>
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">set</span><span class="p">(</span>
+        <span class="n">body_background_fill</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *secondary_800, *neutral_900)&quot;</span><span class="p">,</span>
+        <span class="n">body_background_fill_dark</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *secondary_800, *neutral_900)&quot;</span><span class="p">,</span>
+        <span class="n">button_primary_background_fill</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_300, *secondary_400)&quot;</span><span class="p">,</span>
+        <span class="n">button_primary_background_fill_hover</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_200, *secondary_300)&quot;</span><span class="p">,</span>
+        <span class="n">button_primary_text_color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span>
+        <span class="n">button_primary_background_fill_dark</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+        <span class="n">slider_color</span><span class="o">=</span><span class="s2">&quot;*secondary_300&quot;</span><span class="p">,</span>
+        <span class="n">slider_color_dark</span><span class="o">=</span><span class="s2">&quot;*secondary_400&quot;</span><span class="p">,</span>
+        <span class="n">block_title_text_weight</span><span class="o">=</span><span class="s2">&quot;600&quot;</span><span class="p">,</span>
+        <span class="n">block_border_width</span><span class="o">=</span><span class="s2">&quot;0px&quot;</span><span class="p">,</span>
+        <span class="n">block_shadow</span><span class="o">=</span><span class="s2">&quot;*shadow_drop_lg&quot;</span><span class="p">,</span>
+        <span class="n">button_shadow</span><span class="o">=</span><span class="s2">&quot;*shadow_drop_lg&quot;</span><span class="p">,</span>
+        <span class="n">button_large_padding</span><span class="o">=</span><span class="s2">&quot;4px&quot;</span><span class="p">,</span>
+        <span class="n">border_color_primary</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+        <span class="n">border_color_primary_dark</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+        <span class="n">table_border_color</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+        <span class="n">table_border_color_dark</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+        <span class="n">button_primary_border_color</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+        <span class="n">button_primary_border_color_dark</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+        <span class="n">panel_border_color</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+        <span class="n">panel_border_color_dark</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+        <span class="n">block_border_color</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span><span class="p">,</span>
+        <span class="n">block_border_color_dark</span><span class="o">=</span><span class="s2">&quot;linear-gradient(90deg, *primary_600, *secondary_800)&quot;</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.serve.utils.create_generate_function" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_generate_function</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">generation_config</span><span class="p">,</span> <span class="n">params</span><span class="p">,</span> <span class="n">generation_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">),</span> <span class="n">output_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">),</span> <span class="n">logits_processor</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">return_prediction_only</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Create a sharded function for text generation using a Flax model.</p>
+<pre><code>:param model :EasyDeLFlaxPretrainedModel: The Flax model used for text generation.
+:param generation_config :GenerationConfig: Configuration for text generation.
+:param params :dict or jax.tree_util.PyTreeDef: Parameters of the model or a PyTree representing the model's
+    parameters.
+:param generation_partition_spec :PartitionSpec: Sharding specification for generation inputs. Defaults to
+    PartitionSpec(("dp", "fsdp"), "sp").
+:param output_partition_spec: PartitionSpec: Sharding specification for output sequences. Defaults to
+    PartitionSpec(("dp", "fsdp"), "sp").
+:param logits_processor :LogitsProcessor: Processor for model logits. Defaults to None.
+:param return_prediction_only :bool: Whether to return only the generated sequences. Defaults to True.
+</code></pre>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="typing.Callable">Callable</span>[[<span title="typing.Union">Union</span>[dict, <span title="jax.tree_util.PyTreeDef">PyTreeDef</span>], <span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>], <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Callable[[Any, chex.Array, chex.Array], chex.Array]: Sharded</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="typing.Callable">Callable</span>[[<span title="typing.Union">Union</span>[dict, <span title="jax.tree_util.PyTreeDef">PyTreeDef</span>], <span title="chex.Array">Array</span>, <span title="chex.Array">Array</span>], <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>function for text generation.</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">create_generate_function</span><span class="p">(</span>
+        <span class="n">model</span><span class="p">:</span> <span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">,</span>
+        <span class="n">generation_config</span><span class="p">:</span> <span class="n">GenerationConfig</span><span class="p">,</span>
+        <span class="n">params</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">dict</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">PyTreeDef</span><span class="p">],</span>
+        <span class="n">generation_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span>
+        <span class="n">output_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span>
+        <span class="n">logits_processor</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">LogitsProcessor</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">return_prediction_only</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Callable</span><span class="p">[[</span><span class="n">Union</span><span class="p">[</span><span class="nb">dict</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">PyTreeDef</span><span class="p">],</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">],</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Create a sharded function for text generation using a Flax model.</span>
+
+<span class="sd">        :param model :EasyDeLFlaxPretrainedModel: The Flax model used for text generation.</span>
+<span class="sd">        :param generation_config :GenerationConfig: Configuration for text generation.</span>
+<span class="sd">        :param params :dict or jax.tree_util.PyTreeDef: Parameters of the model or a PyTree representing the model&#39;s</span>
+<span class="sd">            parameters.</span>
+<span class="sd">        :param generation_partition_spec :PartitionSpec: Sharding specification for generation inputs. Defaults to</span>
+<span class="sd">            PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;).</span>
+<span class="sd">        :param output_partition_spec: PartitionSpec: Sharding specification for output sequences. Defaults to</span>
+<span class="sd">            PartitionSpec((&quot;dp&quot;, &quot;fsdp&quot;), &quot;sp&quot;).</span>
+<span class="sd">        :param logits_processor :LogitsProcessor: Processor for model logits. Defaults to None.</span>
+<span class="sd">        :param return_prediction_only :bool: Whether to return only the generated sequences. Defaults to True.</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        Callable[[Any, chex.Array, chex.Array], chex.Array]: Sharded</span>
+<span class="sd">        function for text generation.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">generate_fn</span><span class="p">(</span>
+            <span class="n">parameters</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">dict</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">PyTreeDef</span><span class="p">],</span>
+            <span class="n">input_ids</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Generate text sequences using the provided model and parameters.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            parameters: Union[dict, jax.tree_util.PyTreeDef]: Model</span>
+<span class="sd">                parameters.</span>
+<span class="sd">            input_ids: chex.Array: Input token IDs.</span>
+<span class="sd">            attention_mask: chex.Array: Attention mask.</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            Generated array sequences.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">input_ids</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">generation_partition_spec</span>
+        <span class="p">)</span>
+        <span class="n">attention_mask</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span>
+            <span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">generation_partition_spec</span>
+        <span class="p">)</span>
+        <span class="n">predict</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">generate</span><span class="p">(</span>
+            <span class="n">input_ids</span><span class="p">,</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">attention_mask</span><span class="p">,</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+            <span class="n">generation_config</span><span class="o">=</span><span class="n">generation_config</span><span class="p">,</span>
+            <span class="n">logits_processor</span><span class="o">=</span><span class="n">logits_processor</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">predict</span><span class="o">.</span><span class="n">sequences</span><span class="p">[:,</span> <span class="n">input_ids</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]:]</span> <span class="k">if</span> <span class="n">return_prediction_only</span> <span class="k">else</span> <span class="n">predict</span><span class="o">.</span><span class="n">sequences</span>
+
+    <span class="k">return</span> <span class="n">pjit</span><span class="p">(</span>
+        <span class="n">generate_fn</span><span class="p">,</span>
+        <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span><span class="n">get_partitions</span><span class="p">,</span> <span class="n">params</span><span class="p">),</span>
+            <span class="n">generation_partition_spec</span><span class="p">,</span>
+            <span class="n">generation_partition_spec</span>
+        <span class="p">),</span>
+        <span class="n">out_shardings</span><span class="o">=</span><span class="n">output_partition_spec</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.serve.utils.get_partitions" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_partitions</span><span class="p">(</span><span class="n">tree</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Retrieve sharding specifications for model parameters.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/serve/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_partitions</span><span class="p">(</span><span class="n">tree</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Retrieve sharding specifications for model parameters.&quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">tree</span><span class="p">,</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">LinearBitKernel</span><span class="p">):</span>
+        <span class="k">return</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">tree</span><span class="o">.</span><span class="n">sharding</span><span class="p">,</span> <span class="s2">&quot;spec&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">))</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">kernel_sharding</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">tree</span><span class="o">.</span><span class="n">kernel</span><span class="o">.</span><span class="n">sharding</span><span class="p">,</span> <span class="s2">&quot;spec&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">))</span>
+        <span class="n">scale_sharding</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">tree</span><span class="o">.</span><span class="n">scale</span><span class="o">.</span><span class="n">sharding</span><span class="p">,</span> <span class="s2">&quot;spec&quot;</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(</span><span class="kc">None</span><span class="p">))</span>
+        <span class="k">return</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">LinearBitKernel</span><span class="p">(</span>
+            <span class="n">kernel</span><span class="o">=</span><span class="n">kernel_sharding</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+            <span class="n">scale</span><span class="o">=</span><span class="n">scale_sharding</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-smi-smi/index.html b/generated-smi-smi/index.html
new file mode 100644
index 000000000..01062937e
--- /dev/null
+++ b/generated-smi-smi/index.html
@@ -0,0 +1,6547 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-serve-utils/">
+      
+      
+        <link rel="next" href="../generated-trainer-base_trainer/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Smi - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#smismi" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Smi
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.smi.smi" class="md-nav__link">
+    <span class="md-ellipsis">
+      smi
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.smi.smi.get_mem" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_mem
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.smi.smi.initialise_tracking" class="md-nav__link">
+    <span class="md-ellipsis">
+      initialise_tracking
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.smi.smi.run" class="md-nav__link">
+    <span class="md-ellipsis">
+      run
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.smi.smi" class="md-nav__link">
+    <span class="md-ellipsis">
+      smi
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.smi.smi.get_mem" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_mem
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.smi.smi.initialise_tracking" class="md-nav__link">
+    <span class="md-ellipsis">
+      initialise_tracking
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.smi.smi.run" class="md-nav__link">
+    <span class="md-ellipsis">
+      run
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="smismi">smi.smi</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.smi.smi"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.smi.smi.get_mem" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_mem</span><span class="p">(</span><span class="n">dir_prefix</span><span class="o">=</span><span class="s1">&#39;/dev/shm&#39;</span> <span class="k">if</span> <span class="n">sys</span><span class="o">.</span><span class="n">platform</span> <span class="o">!=</span> <span class="s1">&#39;win32&#39;</span> <span class="k">else</span> <span class="s1">&#39;.&#39;</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_mem function is a wrapper around the go tool pprof command.
+It takes in an optional argument, dir_prefix, which defaults to /dev/shm.
+The function then runs the go tool pprof command with arguments -tags and dir_prefix/memory.prof,
+and returns its stdout as a string.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>dir_prefix</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Specify the directory where</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;/dev/shm&#39; if <span title="sys.platform">platform</span> != &#39;win32&#39; else &#39;.&#39;</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A string of the memory profile</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/smi/smi.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span>
+<span class="normal">80</span>
+<span class="normal">81</span>
+<span class="normal">82</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_mem</span><span class="p">(</span><span class="n">dir_prefix</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;/dev/shm&quot;</span> <span class="k">if</span> <span class="n">sys</span><span class="o">.</span><span class="n">platform</span> <span class="o">!=</span> <span class="s2">&quot;win32&quot;</span> <span class="k">else</span> <span class="s2">&quot;.&quot;</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_mem function is a wrapper around the go tool pprof command.</span>
+<span class="sd">    It takes in an optional argument, dir_prefix, which defaults to /dev/shm.</span>
+<span class="sd">    The function then runs the go tool pprof command with arguments -tags and dir_prefix/memory.prof,</span>
+<span class="sd">    and returns its stdout as a string.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        dir_prefix: str: Specify the directory where</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A string of the memory profile</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="n">subprocess</span><span class="o">.</span><span class="n">run</span><span class="p">(</span>
+        <span class="n">args</span><span class="o">=</span><span class="p">[</span><span class="s1">&#39;go&#39;</span><span class="p">,</span> <span class="s1">&#39;tool&#39;</span><span class="p">,</span> <span class="s1">&#39;pprof&#39;</span><span class="p">,</span> <span class="s1">&#39;-tags&#39;</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">dir_prefix</span><span class="si">}</span><span class="s1">/memory.prof&#39;</span><span class="p">],</span>
+        <span class="n">stdout</span><span class="o">=</span><span class="n">subprocess</span><span class="o">.</span><span class="n">PIPE</span><span class="p">,</span>
+        <span class="n">stderr</span><span class="o">=</span><span class="n">subprocess</span><span class="o">.</span><span class="n">DEVNULL</span><span class="p">,</span>
+    <span class="p">)</span><span class="o">.</span><span class="n">stdout</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.smi.smi.initialise_tracking" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">initialise_tracking</span><span class="p">(</span><span class="n">interval</span><span class="o">=</span><span class="mf">0.5</span><span class="p">,</span> <span class="n">dir_prefix</span><span class="o">=</span><span class="s1">&#39;/dev/shm&#39;</span> <span class="k">if</span> <span class="n">sys</span><span class="o">.</span><span class="n">platform</span> <span class="o">!=</span> <span class="s1">&#39;win32&#39;</span> <span class="k">else</span> <span class="s1">&#39;.&#39;</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The initialise_tracking function starts a daemon thread that periodically saves the current memory profile to disk.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>interval</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Specify the time interval between each memory
+profile</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.5</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dir_prefix</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Specify the directory where the memory profile
+will be saved</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;/dev/shm&#39; if <span title="sys.platform">platform</span> != &#39;win32&#39; else &#39;.&#39;</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code>None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Nothing, but it starts a thread that</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/smi/smi.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">initialise_tracking</span><span class="p">(</span><span class="n">interval</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.5</span><span class="p">,</span>
+                        <span class="n">dir_prefix</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;/dev/shm&quot;</span> <span class="k">if</span> <span class="n">sys</span><span class="o">.</span><span class="n">platform</span> <span class="o">!=</span> <span class="s2">&quot;win32&quot;</span> <span class="k">else</span> <span class="s2">&quot;.&quot;</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The initialise_tracking function starts a daemon thread that periodically saves the current memory profile to disk.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        interval: float: Specify the time interval between each memory</span>
+<span class="sd">            profile</span>
+<span class="sd">        dir_prefix: str: Specify the directory where the memory profile</span>
+<span class="sd">            will be saved</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        Nothing, but it starts a thread that</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">inner</span><span class="p">():</span>
+        <span class="k">while</span> <span class="kc">True</span><span class="p">:</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">profiler</span><span class="o">.</span><span class="n">save_device_memory_profile</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">dir_prefix</span><span class="si">}</span><span class="s1">/memory.prof.new&#39;</span><span class="p">)</span>
+            <span class="n">os</span><span class="o">.</span><span class="n">rename</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">dir_prefix</span><span class="si">}</span><span class="s1">/memory.prof.new&#39;</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">dir_prefix</span><span class="si">}</span><span class="s1">/memory.prof&#39;</span><span class="p">)</span>
+            <span class="n">time</span><span class="o">.</span><span class="n">sleep</span><span class="p">(</span><span class="n">interval</span><span class="p">)</span>
+
+    <span class="n">thread</span> <span class="o">=</span> <span class="n">threading</span><span class="o">.</span><span class="n">Thread</span><span class="p">(</span><span class="n">target</span><span class="o">=</span><span class="n">inner</span><span class="p">,</span> <span class="n">daemon</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="n">thread</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.smi.smi.run" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">run</span><span class="p">(</span><span class="n">note_book</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">interval</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">dir_prefix</span><span class="o">=</span><span class="s1">&#39;/dev/shm&#39;</span><span class="p">,</span> <span class="n">dpr</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The run function is a simple wrapper around the go tool pprof command.
+It runs the command every interval seconds and prints out its output to stdout.
+If you are running this in a notebook, it will print to IPython's display instead of stdout.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>note_book</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine whether the program is running in a
+notebook or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>interval</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Specify the time interval between each refresh</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dir_prefix</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Specify the directory where the memory</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;/dev/shm&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dpr</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Control whether the output is displayed in a notebook or
+not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The output of the pprof command</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/smi/smi.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">16</span>
+<span class="normal">17</span>
+<span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">run</span><span class="p">(</span><span class="n">note_book</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">interval</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span> <span class="n">dir_prefix</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s1">&#39;/dev/shm&#39;</span><span class="p">,</span> <span class="n">dpr</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The run function is a simple wrapper around the go tool pprof command.</span>
+<span class="sd">    It runs the command every interval seconds and prints out its output to stdout.</span>
+<span class="sd">    If you are running this in a notebook, it will print to IPython&#39;s display instead of stdout.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        note_book: Determine whether the program is running in a</span>
+<span class="sd">            notebook or not</span>
+<span class="sd">        interval: float: Specify the time interval between each refresh</span>
+<span class="sd">        dir_prefix: str: Specify the directory where the memory</span>
+<span class="sd">        dpr: Control whether the output is displayed in a notebook or</span>
+<span class="sd">            not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The output of the pprof command</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">note_book</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="kn">import</span> <span class="nn">os</span>
+
+        <span class="k">def</span> <span class="nf">is_notebook</span><span class="p">():</span>
+<span class="w">            </span><span class="sd">&quot;&quot;&quot;Returns True if the code is being run in a notebook, False otherwise.&quot;&quot;&quot;</span>
+            <span class="k">return</span> <span class="n">os</span><span class="o">.</span><span class="n">environ</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;IPYTHON&quot;</span><span class="p">)</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+
+        <span class="n">note_book</span> <span class="o">=</span> <span class="n">is_notebook</span><span class="p">()</span>
+    <span class="n">std</span> <span class="o">=</span> <span class="n">curses</span><span class="o">.</span><span class="n">initscr</span><span class="p">()</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">note_book</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="k">try</span><span class="p">:</span>
+        <span class="k">while</span> <span class="kc">True</span><span class="p">:</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">note_book</span> <span class="ow">and</span> <span class="n">dpr</span><span class="p">:</span>
+                <span class="n">std</span><span class="o">.</span><span class="n">clear</span><span class="p">()</span>
+            <span class="n">output</span> <span class="o">=</span> <span class="n">subprocess</span><span class="o">.</span><span class="n">run</span><span class="p">(</span>
+                <span class="n">args</span><span class="o">=</span><span class="p">[</span><span class="s1">&#39;go&#39;</span><span class="p">,</span> <span class="s1">&#39;tool&#39;</span><span class="p">,</span> <span class="s1">&#39;pprof&#39;</span><span class="p">,</span> <span class="s1">&#39;-tags&#39;</span><span class="p">,</span> <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">dir_prefix</span><span class="si">}</span><span class="s1">/memory.prof&#39;</span><span class="p">],</span>
+                <span class="n">stdout</span><span class="o">=</span><span class="n">subprocess</span><span class="o">.</span><span class="n">PIPE</span><span class="p">,</span>
+                <span class="n">stderr</span><span class="o">=</span><span class="n">subprocess</span><span class="o">.</span><span class="n">DEVNULL</span><span class="p">,</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">stdout</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="s1">&#39;utf-8&#39;</span><span class="p">)</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">note_book</span> <span class="ow">and</span> <span class="n">dpr</span><span class="p">:</span>
+                <span class="n">std</span><span class="o">.</span><span class="n">addstr</span><span class="p">(</span><span class="n">output</span><span class="p">)</span>
+                <span class="n">std</span><span class="o">.</span><span class="n">refresh</span><span class="p">()</span>
+            <span class="k">if</span> <span class="n">note_book</span> <span class="ow">and</span> <span class="n">dpr</span><span class="p">:</span>
+                <span class="n">IPython</span><span class="o">.</span><span class="n">display</span><span class="o">.</span><span class="n">clear_output</span><span class="p">(</span><span class="kc">True</span><span class="p">)</span>
+                <span class="nb">print</span><span class="p">(</span><span class="n">output</span><span class="p">)</span>
+
+            <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">dir_prefix</span><span class="si">}</span><span class="s1">/memory.json&#39;</span><span class="p">,</span> <span class="s1">&#39;w&#39;</span><span class="p">)</span> <span class="k">as</span> <span class="n">fin</span><span class="p">:</span>
+                <span class="n">json</span><span class="o">.</span><span class="n">dump</span><span class="p">({</span>
+                    <span class="s1">&#39;log&#39;</span><span class="p">:</span> <span class="n">output</span>
+                <span class="p">},</span> <span class="n">fin</span><span class="p">)</span>
+            <span class="n">time</span><span class="o">.</span><span class="n">sleep</span><span class="p">(</span><span class="n">interval</span><span class="p">)</span>
+    <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+        <span class="n">curses</span><span class="o">.</span><span class="n">endwin</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-base_trainer/index.html b/generated-trainer-base_trainer/index.html
new file mode 100644
index 000000000..88b98f696
--- /dev/null
+++ b/generated-trainer-base_trainer/index.html
@@ -0,0 +1,8532 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-smi-smi/">
+      
+      
+        <link rel="next" href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Base Trainer - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainerbase_trainer" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Base Trainer
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      base_trainer
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      BaseTrainer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="BaseTrainer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.configure_dataloader" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_dataloader
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.configure_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_functions
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.configure_model" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_model
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.eval" class="md-nav__link">
+    <span class="md-ellipsis">
+      eval
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.finish" class="md-nav__link">
+    <span class="md-ellipsis">
+      finish
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.initialize_trainer_utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      initialize_trainer_utils
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.train" class="md-nav__link">
+    <span class="md-ellipsis">
+      train
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      base_trainer
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      BaseTrainer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="BaseTrainer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.configure_dataloader" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_dataloader
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.configure_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_functions
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.configure_model" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_model
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.eval" class="md-nav__link">
+    <span class="md-ellipsis">
+      eval
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.finish" class="md-nav__link">
+    <span class="md-ellipsis">
+      finish
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.initialize_trainer_utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      initialize_trainer_utils
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.base_trainer.BaseTrainer.train" class="md-nav__link">
+    <span class="md-ellipsis">
+      train
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainerbase_trainer">trainer.base_trainer</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.base_trainer"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.trainer.base_trainer.BaseTrainer" class="doc doc-heading">
+            <code>BaseTrainer</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/trainer/base_trainer.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">BaseTrainer</span><span class="p">:</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">arguments</span><span class="p">:</span> <span class="n">TrainArguments</span><span class="p">,</span>
+            <span class="n">dataset_train</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
+            <span class="n">dataset_eval</span><span class="p">:</span> <span class="n">Dataset</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">finetune</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">checkpoint_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">os</span><span class="o">.</span><span class="n">PathLike</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">_do_init_fns</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up all the variables that are needed for training, including:</span>
+<span class="sd">        - The timer to keep track of how long each epoch takes.</span>
+<span class="sd">        - The dataloaders for both training and evaluation (if provided).</span>
+<span class="sd">        - The model itself, which will be created from a checkpoint if one was provided.  Otherwise,</span>
+<span class="sd">         it will be created from scratch using the arguments passed in by the user.</span>
+<span class="sd">         Note that this function also handles creating a mesh if one was not already specified in arguments</span>
+<span class="sd">         or loaded from a checkpoint file (see below).</span>
+<span class="sd">          This means that you can pass in either</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            arguments: TrainArguments: Pass the arguments to the trainer</span>
+<span class="sd">            dataset_train: Dataset: Pass the training dataset to the</span>
+<span class="sd">                trainer</span>
+<span class="sd">            dataset_eval: Dataset: Pass the validation dataset</span>
+<span class="sd">            finetune: bool: Load the model from a checkpoint</span>
+<span class="sd">            checkpoint_path: Union[str,os.PathLike] : Load the</span>
+<span class="sd">                checkpoint path</span>
+<span class="sd">            _do_init_fns: bool: Initialize the functions</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            Nothing, it just initializes the class</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="c1"># Loggers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;timer&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="p">:</span> <span class="n">Run</span> <span class="o">|</span> <span class="n">RunDisabled</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;wandb_runtime&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="c1"># Data</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;dataloader_train&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;dataloader_eval&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;max_training_steps&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;max_evaluation_steps&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataset_train</span> <span class="o">=</span> <span class="n">dataset_train</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataset_eval</span> <span class="o">=</span> <span class="n">dataset_eval</span>
+
+        <span class="c1"># Model Related</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;model&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;config&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;scheduler&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tx</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;tx&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;model_state&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="c1"># LoRA Related</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="o">=</span> <span class="n">arguments</span><span class="o">.</span><span class="n">rapture</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;lora_parameters&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;lora_model&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;lora_tx&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;lora_opt_state&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;lora_apply_fn&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="c1"># PJit functions</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="s2">&quot;create_sharded_state_from_params_function&quot;</span><span class="p">,</span>
+            <span class="kc">None</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;sharded_train_step_function&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;sharded_eval_step_function&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state_function</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;initialize_state_function&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;mesh&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="c1"># Checkpoint Managers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_manager</span><span class="p">:</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">CheckpointManager</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;checkpoint_manager&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="c1"># EasyState</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">state_shape</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;state_shape&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;state_partition_spec&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_state</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;sharded_state&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+        <span class="c1"># Rest</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span> <span class="o">=</span> <span class="n">arguments</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">finetune</span> <span class="o">=</span> <span class="n">finetune</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="o">=</span> <span class="n">checkpoint_path</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span> <span class="o">=</span> <span class="n">arguments</span><span class="o">.</span><span class="n">param_dtype</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">track_memory</span><span class="p">:</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">performance_mode</span><span class="p">:</span>
+                <span class="n">initialise_tracking</span><span class="p">()</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">_stop_capturing_memory</span> <span class="o">=</span> <span class="kc">False</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">_start_capturing_memory</span><span class="p">()</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+        <span class="k">if</span> <span class="n">finetune</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">prefix_print</span><span class="p">(</span>
+                    <span class="s2">&quot;Warning&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;In case of using `finetune = True` and Passing `checkpoint_path = None`&quot;</span>
+                    <span class="s2">&quot; you should pass parameters in train function&quot;</span>
+                <span class="p">)</span>
+        <span class="k">if</span> <span class="n">_do_init_fns</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">initialize_trainer_utils</span><span class="p">()</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">prefix_print</span><span class="p">(</span>
+                <span class="s2">&quot;Warning&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;you have set `_do_init_fns = False` so function will not me initialized you have &quot;</span>
+                <span class="sa">f</span><span class="s2">&quot;to do in manually (simply with `trainer.initialize_trainer_utils()` )&quot;</span>
+            <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(&quot;</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">string</span> <span class="o">+=</span> <span class="n">value</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span>
+            <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                <span class="o">...</span>
+        <span class="n">string</span> <span class="o">+=</span> <span class="s2">&quot;)&quot;</span>
+        <span class="k">return</span> <span class="n">string</span>
+
+    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">finish</span><span class="p">():</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The finish function is called when the experiment ends.</span>
+<span class="sd">        It can be used to save data, upload files, or do any other cleanup tasks.</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary of the run&#39;s metadata</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">wandb</span><span class="o">.</span><span class="n">finish</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">_start_capturing_memory</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">dir_prefix</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;/dev/shm&quot;</span> <span class="k">if</span> <span class="n">sys</span><span class="o">.</span><span class="n">platform</span> <span class="o">!=</span> <span class="s2">&quot;win32&quot;</span> <span class="k">else</span> <span class="s2">&quot;.&quot;</span><span class="p">):</span>
+        <span class="k">def</span> <span class="nf">_start</span><span class="p">():</span>
+            <span class="k">while</span> <span class="kc">True</span><span class="p">:</span>
+                <span class="n">information_queries</span> <span class="o">=</span> <span class="p">{}</span>
+                <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;Used&quot;</span><span class="p">,</span> <span class="s2">&quot;Usage Percent&quot;</span><span class="p">]:</span>
+                    <span class="k">for</span> <span class="n">device</span><span class="p">,</span> <span class="n">info</span> <span class="ow">in</span> <span class="n">get_capacity_matrix</span><span class="p">(</span><span class="n">dir_prefix</span><span class="o">=</span><span class="n">dir_prefix</span><span class="p">)</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                        <span class="n">information_queries</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;accelerators/</span><span class="si">{</span><span class="n">device</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;_&#39;</span><span class="p">,</span><span class="w"> </span><span class="s1">&#39; &#39;</span><span class="p">)</span><span class="si">}</span><span class="s2"> (</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s2">)&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">float</span><span class="p">(</span>
+                            <span class="n">info</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;%&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;GB&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">)</span>
+                        <span class="p">)</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">_captured_memory</span> <span class="o">=</span> <span class="n">information_queries</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">stop_capturing_memory</span><span class="p">:</span>
+                    <span class="k">break</span>
+                <span class="n">time</span><span class="o">.</span><span class="n">sleep</span><span class="p">(</span><span class="mf">1.5</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">threading</span><span class="o">.</span><span class="n">Thread</span><span class="p">(</span><span class="n">target</span><span class="o">=</span><span class="n">_start</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">initialize_trainer_utils</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The initialize_trainer_utils function is responsible for initializing the following:</span>
+<span class="sd">            - wandb_runtime (if you use_wandb is True)</span>
+<span class="sd">            - timer object (for logging time taken by various functions)</span>
+<span class="sd">            - dataloader objects for training and evaluation data, along with max steps per epoch.</span>
+<span class="sd">              The configure_dataloader function accomplishes this task.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of functions</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">use_wandb</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_wandb_init</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span> <span class="o">=</span> <span class="n">Timers</span><span class="p">(</span>
+            <span class="n">use_wandb</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">tensorboard_writer</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_board</span><span class="p">()</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+        <span class="n">dataset_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_dataloader</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">dataloader_train</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">max_training_steps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">dataloader_eval</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">max_evaluation_steps</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">])</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+        <span class="n">model_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_model</span><span class="p">()</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">model</span>
+        <span class="n">tx</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">tx</span>
+        <span class="n">scheduler</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">scheduler</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tx</span> <span class="o">=</span> <span class="n">tx</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span> <span class="o">=</span> <span class="n">scheduler</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">lora_modules</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span><span class="o">.</span><span class="n">apply_lora</span><span class="p">(</span>
+                <span class="n">module</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+                <span class="n">parameters</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">rapture_config</span><span class="o">.</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_parameters</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_module</span><span class="o">.</span><span class="fm">__call__</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_opt_state</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_module</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_tx</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">])</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+        <span class="n">function_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_functions</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> \
+            <span class="n">function_configurations</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">sharded_train_step_function</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">sharded_eval_step_function</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">mesh</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_manager</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">checkpoint_manager</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">initialize_state_function</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">])</span>
+
+    <span class="nd">@abstractmethod</span>
+    <span class="k">def</span> <span class="nf">create_collate_function</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">truncation_mode</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;keep_end&quot;</span><span class="p">,</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">]</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Callable</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+
+    <span class="nd">@abc</span><span class="o">.</span><span class="n">abstractmethod</span>
+    <span class="k">def</span> <span class="nf">configure_functions</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The configure_functions function is responsible for configuring the functions that will be used in training.</span>
+<span class="sd">        It does this by first defining a function called function_configurations, which initializes the model parameters and returns</span>
+<span class="sd">        them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate</span>
+<span class="sd">        on a batch of data, including:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the class attributes</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A TrainerConfigureFunctionFuncOutput object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+
+    <span class="k">def</span> <span class="nf">configure_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureDataloaderFuncOutput</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The configure_dataloader function is used to configure the dataloader for training and evaluation.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the class instance itself</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A TrainerConfigureDataloaderFuncOutput object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">def</span> <span class="nf">create_tf_dataset</span><span class="p">(</span><span class="n">dataset</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span> <span class="n">is_train</span><span class="p">:</span> <span class="nb">bool</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Iterator</span><span class="p">[</span><span class="n">ndarray</span><span class="p">[</span><span class="n">Any</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]:</span>
+            <span class="k">return</span> <span class="p">(</span>
+                <span class="n">dataset</span><span class="o">.</span><span class="n">to_tf_dataset</span><span class="p">(</span>
+                    <span class="n">collate_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">create_collate_function</span><span class="p">(</span>
+                        <span class="n">max_sequence_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+                        <span class="n">truncation_mode</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">truncation_mode</span>
+                    <span class="p">),</span>
+                    <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span>
+                    <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                    <span class="n">shuffle</span><span class="o">=</span><span class="ow">not</span> <span class="n">is_train</span><span class="p">,</span>
+                    <span class="n">num_workers</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dataloader_num_workers</span>
+                <span class="p">)</span>
+                <span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span> <span class="k">if</span> <span class="n">is_train</span> <span class="k">else</span> <span class="mi">1</span><span class="p">)</span>
+                <span class="o">.</span><span class="n">prefetch</span><span class="p">(</span><span class="n">tf</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">experimental</span><span class="o">.</span><span class="n">AUTOTUNE</span><span class="p">)</span>
+                <span class="o">.</span><span class="n">as_numpy_iterator</span><span class="p">()</span>
+            <span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">create_tf_dataset_from_iterable</span><span class="p">(</span><span class="n">dataset</span><span class="p">:</span> <span class="n">IterableDataset</span><span class="p">,</span> <span class="n">is_train</span><span class="p">:</span> <span class="nb">bool</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Iterator</span><span class="p">[</span><span class="n">ndarray</span><span class="p">[</span><span class="n">Any</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]:</span>
+            <span class="k">return</span> <span class="p">(</span>
+                <span class="n">tf</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">Dataset</span><span class="o">.</span><span class="n">from_generator</span><span class="p">(</span>
+                    <span class="k">lambda</span><span class="p">:</span> <span class="n">dataset</span><span class="p">,</span>
+                    <span class="n">output_signature</span><span class="o">=</span><span class="p">{</span>
+                        <span class="n">col</span><span class="p">:</span> <span class="n">tf</span><span class="o">.</span><span class="n">TensorSpec</span><span class="p">(</span><span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">tf</span><span class="o">.</span><span class="n">int32</span><span class="p">)</span>
+                        <span class="k">for</span> <span class="n">col</span> <span class="ow">in</span> <span class="nb">next</span><span class="p">(</span><span class="nb">iter</span><span class="p">(</span><span class="n">dataset</span><span class="p">))</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+                    <span class="p">}</span>
+                <span class="p">)</span>
+                <span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span> <span class="k">if</span> <span class="n">is_train</span> <span class="k">else</span> <span class="mi">1</span><span class="p">)</span>
+                <span class="o">.</span><span class="n">batch</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span> <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+                <span class="o">.</span><span class="n">prefetch</span><span class="p">(</span><span class="n">tf</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">experimental</span><span class="o">.</span><span class="n">AUTOTUNE</span><span class="p">)</span>
+                <span class="o">.</span><span class="n">as_numpy_iterator</span><span class="p">()</span>
+            <span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">calculate_steps</span><span class="p">(</span><span class="n">dataset</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Dataset</span><span class="p">,</span> <span class="n">IterableDataset</span><span class="p">],</span> <span class="n">is_train</span><span class="p">:</span> <span class="nb">bool</span><span class="p">):</span>
+<span class="w">            </span><span class="sd">&quot;&quot;&quot;Return total number of steps to train or evaluate on.&quot;&quot;&quot;</span>
+            <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="s2">&quot;__len__&quot;</span><span class="p">):</span>
+                <span class="n">num_steps</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span> <span class="k">if</span> <span class="n">is_train</span> <span class="k">else</span> <span class="mi">1</span><span class="p">)</span>
+                <span class="n">max_steps</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="k">if</span> <span class="n">is_train</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_evaluation_steps</span>
+                <span class="k">return</span> <span class="nb">min</span><span class="p">(</span><span class="n">num_steps</span><span class="p">,</span> <span class="n">max_steps</span><span class="p">)</span> <span class="k">if</span> <span class="n">max_steps</span> <span class="k">else</span> <span class="n">num_steps</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">num_steps</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="k">if</span> <span class="n">is_train</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_evaluation_steps</span>
+                <span class="k">if</span> <span class="ow">not</span> <span class="n">num_steps</span><span class="p">:</span>
+                    <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Specify the number of </span><span class="si">{</span><span class="s1">&#39;training&#39;</span><span class="w"> </span><span class="k">if</span><span class="w"> </span><span class="n">is_train</span><span class="w"> </span><span class="k">else</span><span class="w"> </span><span class="s1">&#39;evaluation&#39;</span><span class="si">}</span><span class="s2"> steps for a generator/streaming dataset.&quot;</span><span class="p">)</span>
+                <span class="k">return</span> <span class="n">num_steps</span>
+
+        <span class="k">def</span> <span class="nf">to_tf_dataloader</span><span class="p">(</span><span class="n">dataset</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Dataset</span><span class="p">,</span> <span class="n">IterableDataset</span><span class="p">],</span> <span class="n">is_train</span><span class="p">:</span> <span class="nb">bool</span><span class="p">):</span>
+            <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="s2">&quot;__len__&quot;</span><span class="p">):</span>
+                <span class="k">return</span> <span class="n">create_tf_dataset</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">is_train</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">create_tf_dataset_from_iterable</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">is_train</span><span class="p">)</span>
+
+        <span class="n">max_training_steps</span> <span class="o">=</span> <span class="n">calculate_steps</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset_train</span><span class="p">,</span> <span class="n">is_train</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="n">dataloader_train</span> <span class="o">=</span> <span class="n">to_tf_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset_train</span><span class="p">,</span> <span class="n">is_train</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataset_eval</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_eval</span><span class="p">:</span>
+            <span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="n">calculate_steps</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset_eval</span><span class="p">,</span> <span class="n">is_train</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+            <span class="n">dataloader_eval</span> <span class="o">=</span> <span class="n">to_tf_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset_eval</span><span class="p">,</span> <span class="n">is_train</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">dataloader_eval</span><span class="p">,</span> <span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="mi">0</span>
+
+        <span class="k">return</span> <span class="n">TrainerConfigureDataloaderFuncOutput</span><span class="p">(</span>
+            <span class="n">dataloader_train</span><span class="o">=</span><span class="n">dataloader_train</span><span class="p">,</span>
+            <span class="n">max_training_steps</span><span class="o">=</span><span class="n">max_training_steps</span><span class="p">,</span>
+            <span class="n">dataloader_eval</span><span class="o">=</span><span class="n">dataloader_eval</span><span class="p">,</span>
+            <span class="n">max_evaluation_steps</span><span class="o">=</span><span class="n">max_evaluation_steps</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">configure_model</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureModelFuncOutput</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The configure_model function is responsible for creating the model, optimizer and scheduler.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A model, optimizer, scheduler and config  in</span>
+<span class="sd">            TrainerConfigureModelFuncOutput Object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">extra_configs</span> <span class="o">=</span> <span class="p">{}</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">extra_configs</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">extra_configs</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_class</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+
+            <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">configs_to_initialize_model_class</span><span class="p">[</span><span class="s2">&quot;config&quot;</span><span class="p">],</span> <span class="s2">&quot;get_partition_rules&quot;</span><span class="p">):</span>
+                <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="p">(</span>
+                    <span class="s2">&quot;if you are using custom model to init you must&quot;</span>
+                    <span class="s2">&quot; pass custom_rule for partition rules &quot;</span>
+                <span class="p">)</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">configs_to_initialize_model_class</span><span class="p">[</span><span class="s2">&quot;config&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">axis_dims</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">sharding_array</span>
+
+            <span class="n">model</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_class</span><span class="p">(</span>
+                <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">configs_to_initialize_model_class</span><span class="p">,</span>
+                <span class="n">_do_init</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+
+            <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">configs_to_initialize_model_class</span><span class="p">[</span><span class="s2">&quot;config&quot;</span><span class="p">]</span>
+
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">extra_configs</span><span class="p">[</span><span class="s2">&quot;gradient_checkpointing&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">gradient_checkpointing</span>
+
+            <span class="n">model</span> <span class="o">=</span> <span class="n">AutoEasyDeLModelForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_huggingface_repo_id</span><span class="p">,</span>
+                <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+                <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+                <span class="n">_do_init</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="s2">&quot;config&quot;</span><span class="p">):</span>
+                <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">extra_configs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                    <span class="nb">setattr</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span>
+                <span class="n">config</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">config</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">config</span> <span class="o">=</span> <span class="kc">None</span>
+                <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                    <span class="s2">&quot;Config is being set to None due to not detecting Model Configuration from taken Model &quot;</span>
+                    <span class="s2">&quot;this will cause errors later.&quot;</span>
+                <span class="p">)</span>
+        <span class="n">tx</span><span class="p">,</span> <span class="n">scheduler</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_optimizer_and_scheduler</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">TrainerConfigureModelFuncOutput</span><span class="p">(</span>
+            <span class="n">model</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+            <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+            <span class="n">scheduler</span><span class="o">=</span><span class="n">scheduler</span><span class="p">,</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_save_state</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">state</span><span class="p">:</span> <span class="s2">&quot;EasyDeLState&quot;</span><span class="p">,</span>  <span class="c1"># type: ignore</span>
+            <span class="n">gather_fns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Any</span> <span class="o">|</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]</span> <span class="o">|</span> <span class="nb">dict</span><span class="p">[</span><span class="n">Callable</span><span class="p">]],</span>
+            <span class="n">milestone</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">save_dir</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+        <span class="n">step</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">device_get</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">.</span><span class="n">step</span>
+            <span class="p">)</span>
+        <span class="p">)</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="nb">int</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">device_get</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">.</span><span class="n">step</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">checkpoint_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_name</span><span class="si">}</span><span class="s2">-S</span><span class="si">{</span><span class="n">step</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="n">filename</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">checkpoint_name</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">step</span><span class="si">}</span><span class="s2">&quot;</span> <span class="k">if</span> <span class="n">milestone</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">checkpoint_name</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="n">filename</span> <span class="o">+=</span> <span class="s2">&quot;.easy&quot;</span>
+        <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Saving Model </span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+        <span class="n">checkpoint_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_dir</span><span class="p">,</span>
+                                      <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_name</span><span class="p">)</span> <span class="k">if</span> <span class="n">save_dir</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">save_dir</span>
+        <span class="n">state</span><span class="o">.</span><span class="n">save_state</span><span class="p">(</span>
+            <span class="n">filename</span><span class="o">=</span><span class="n">filename</span><span class="p">,</span>
+            <span class="n">checkpoint_dir</span><span class="o">=</span><span class="n">checkpoint_dir</span><span class="p">,</span>
+            <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+            <span class="n">float_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">verbose</span><span class="p">,</span>
+            <span class="n">save_optimizer</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_optimizer_state</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="nb">open</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">checkpoint_dir</span><span class="p">,</span> <span class="s2">&quot;README.md&quot;</span><span class="p">),</span> <span class="s2">&quot;w&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_get_information</span><span class="p">())</span>
+        <span class="k">return</span> <span class="n">filename</span>
+
+    <span class="nd">@abc</span><span class="o">.</span><span class="n">abstractmethod</span>
+    <span class="k">def</span> <span class="nf">train</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;abstract of Train Function to train model&quot;&quot;&quot;</span>
+
+    <span class="nd">@abc</span><span class="o">.</span><span class="n">abstractmethod</span>
+    <span class="k">def</span> <span class="nf">eval</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;abstract of Eval Function to evaluate model&quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">_get_information</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">makrdown</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&quot;&quot;</span>
+<span class="s2">---</span>
+<span class="s2">tags:</span>
+<span class="s2">- EasyDeL</span>
+<span class="s2">- </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_class</span><span class="o">.</span><span class="n">config_class</span><span class="o">.</span><span class="n">model_type</span><span class="si">}</span>
+<span class="s2">---</span>
+<span class="s2"># </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_name</span><span class="si">}</span>
+
+<span class="s2">## Trained With [EasyDeL](https://github.com/erfanzar/EasyDeL)</span>
+
+<span class="s2">EasyDeL is an open-source framework designed to enhance and streamline the training process of machine learning</span>
+<span class="s2">models. With a primary focus on Jax, EasyDeL aims to provide convenient and effective solutions for </span>
+<span class="s2">training Flax/Jax models on TPU/GPU for both serving and training purposes.</span>
+
+<span class="s2">## Training Detail</span>
+
+<span class="s2">- Model Architecture : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_class</span><span class="o">.</span><span class="n">config_class</span><span class="o">.</span><span class="n">model_type</span><span class="si">}</span>
+<span class="s2">- Platform : </span><span class="si">{</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">()[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">platform</span><span class="o">.</span><span class="n">upper</span><span class="p">()</span><span class="si">}</span>
+<span class="s2">- Number of Devices : </span><span class="si">{</span><span class="nb">len</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">())</span><span class="si">}</span>
+<span class="s2">- Learning Rate Start : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">learning_rate</span><span class="si">}</span>
+<span class="s2">- Learning Rate End : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">learning_rate_end</span><span class="si">}</span>
+<span class="s2">- Optimizer : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer</span><span class="si">}</span>
+<span class="s2">- Scheduler : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">scheduler</span><span class="si">}</span>
+<span class="s2">- Warmup Steps : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">warmup_steps</span><span class="si">}</span>
+<span class="s2">- Weight Decay : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">weight_decay</span><span class="si">}</span>
+<span class="s2">- Z Loss : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">z_loss</span><span class="si">}</span>
+<span class="s2">- Epoch : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span><span class="si">}</span>
+<span class="s2">- Batch size : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="si">}</span>
+<span class="s2">- Sequence Length : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="si">}</span>
+<span class="s2">- EasyDeL init InputShape : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">init_input_shape</span><span class="si">}</span>
+<span class="s2">- Dtype : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span><span class="si">}</span>
+<span class="s2">- Params Dtype : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">param_dtype</span><span class="si">}</span>
+<span class="s2">- Gradient checkpointing : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">gradient_checkpointing</span><span class="si">}</span>
+<span class="s2">- Fully Sharded Data Parallel : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span><span class="si">}</span>
+<span class="s2">- Force batch GradientAccumulation : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">force_batch_and_gradient_accumulation_steps_calculation</span><span class="si">}</span>
+<span class="s2">- Gradient Accumulation Steps : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">gradient_accumulation_steps</span><span class="si">}</span>
+<span class="s2">- Max Training Steps : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span><span class="si">}</span>
+<span class="s2">- Max Evaluation Steps : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_evaluation_steps</span><span class="si">}</span>
+<span class="s2">- Training Time : </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">training_time</span><span class="si">}</span>
+
+<span class="s2">#### Sharding Partition Rules</span>
+<span class="s2">```python</span>
+<span class="s2">partition_rules = </span><span class="si">{</span>
+<span class="w">        </span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="w"> </span><span class="k">if</span><span class="w"> </span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="w"> </span><span class="ow">is</span><span class="w"> </span><span class="ow">not</span><span class="w"> </span><span class="kc">None</span><span class="w"> </span><span class="k">else</span>
+<span class="w">        </span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_class</span><span class="o">.</span><span class="n">config_class</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span><span class="p">)</span>
+<span class="w">        </span><span class="si">}</span>
+<span class="s2">```</span>
+<span class="s2">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">makrdown</span>
+
+    <span class="k">def</span> <span class="nf">save_pretrained</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">state</span><span class="p">:</span> <span class="s2">&quot;EasyDeLState&quot;</span><span class="p">,</span>  <span class="c1"># type: ignore</span>
+            <span class="n">save_dir</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">gather_fns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Any</span> <span class="o">|</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]</span> <span class="o">|</span> <span class="nb">dict</span><span class="p">[</span><span class="n">Callable</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">to_torch</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">base_hf_auto_class</span><span class="o">=</span><span class="n">AutoModelForCausalLM</span><span class="p">,</span>
+            <span class="n">easystate_to_huggingface_model_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_params_field_to_torch_convertation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">torch_save_pretrained_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+        <span class="k">if</span> <span class="n">torch_save_pretrained_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">torch_save_pretrained_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">easystate_to_huggingface_model_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">easystate_to_huggingface_model_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">save_dir</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">save_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_dir</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_name</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">to_torch</span><span class="p">:</span>
+            <span class="kn">from</span> <span class="nn">..transform.easydel_transform</span> <span class="kn">import</span> <span class="n">easystate_to_huggingface_model</span>
+
+            <span class="k">if</span> <span class="n">easystate_to_huggingface_model_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">easystate_to_huggingface_model_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+
+            <span class="n">model_config</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">module_config</span>
+            <span class="k">if</span> <span class="n">model_config</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">model_config</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config_class</span>
+            <span class="n">model_type</span> <span class="o">=</span> <span class="n">model_config</span><span class="o">.</span><span class="n">model_type</span>
+
+            <span class="n">model_class</span> <span class="o">=</span> <span class="n">base_hf_auto_class</span><span class="o">.</span><span class="n">_model_mapping</span><span class="p">[</span><span class="nb">type</span><span class="p">(</span><span class="n">model_config</span><span class="p">)]</span>  <span class="c1"># noqa</span>
+
+            <span class="n">unsafe_dict</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">unsafe_dict</span><span class="p">(</span><span class="n">model_config</span><span class="o">.</span><span class="vm">__dict__</span><span class="p">)</span>
+            <span class="n">hf_model_config</span> <span class="o">=</span> <span class="n">AutoConfig</span><span class="o">.</span><span class="n">for_model</span><span class="p">(</span><span class="n">model_type</span><span class="o">=</span><span class="n">model_type</span><span class="p">)</span>
+            <span class="n">blocked_statics</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;torch_dtype&quot;</span><span class="p">]</span>
+            <span class="n">kss</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="n">hf_model_config</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">keys</span><span class="p">())</span>
+            <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">unsafe_dict</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">)</span> <span class="ow">and</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">kss</span> <span class="ow">and</span> <span class="n">k</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">blocked_statics</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+                        <span class="k">if</span> <span class="n">v</span><span class="o">.</span><span class="n">isnumeric</span><span class="p">():</span>
+                            <span class="n">v</span> <span class="o">=</span> <span class="nb">float</span><span class="p">(</span><span class="n">v</span><span class="p">)</span>
+                            <span class="k">if</span> <span class="n">v</span><span class="o">.</span><span class="n">is_integer</span><span class="p">():</span>
+                                <span class="n">v</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">v</span><span class="p">)</span>
+
+                    <span class="nb">setattr</span><span class="p">(</span><span class="n">hf_model_config</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span>
+            <span class="n">hf_model</span> <span class="o">=</span> <span class="n">easystate_to_huggingface_model</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">=</span><span class="n">state</span><span class="p">,</span>
+                <span class="n">base_huggingface_module</span><span class="o">=</span><span class="n">model_class</span><span class="p">,</span>
+                <span class="n">config</span><span class="o">=</span><span class="n">hf_model_config</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">easystate_to_huggingface_model_kwargs</span>
+            <span class="p">)</span>
+
+            <span class="nb">open</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">save_dir</span><span class="p">,</span> <span class="s2">&quot;README.md&quot;</span><span class="p">),</span> <span class="s2">&quot;w&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_get_information</span><span class="p">())</span>
+            <span class="n">hf_model</span><span class="o">.</span><span class="n">save_pretrained</span><span class="p">(</span><span class="n">save_dir</span><span class="p">,</span> <span class="o">**</span><span class="n">torch_save_pretrained_kwargs</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">hf_model</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_save_state</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">=</span><span class="n">state</span><span class="p">,</span>
+                <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+                <span class="n">save_dir</span><span class="o">=</span><span class="n">save_dir</span>
+            <span class="p">)</span>
+            <span class="k">return</span> <span class="n">state</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.base_trainer.BaseTrainer.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">arguments</span><span class="p">,</span> <span class="n">dataset_train</span><span class="p">,</span> <span class="n">dataset_eval</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">finetune</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">checkpoint_path</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">_do_init_fns</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up all the variables that are needed for training, including:
+- The timer to keep track of how long each epoch takes.
+- The dataloaders for both training and evaluation (if provided).
+- The model itself, which will be created from a checkpoint if one was provided.  Otherwise,
+ it will be created from scratch using the arguments passed in by the user.
+ Note that this function also handles creating a mesh if one was not already specified in arguments
+ or loaded from a checkpoint file (see below).
+  This means that you can pass in either</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>arguments</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.trainer.training_configurations.TrainArguments" href="../generated-trainer-training_configurations/#src.python.easydel.trainer.training_configurations.TrainArguments">TrainArguments</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>TrainArguments: Pass the arguments to the trainer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dataset_train</code></td>
+            <td>
+                  <code><span title="datasets.Dataset">Dataset</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Dataset: Pass the training dataset to the
+trainer</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dataset_eval</code></td>
+            <td>
+                  <code><span title="datasets.Dataset">Dataset</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Dataset: Pass the validation dataset</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>finetune</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Load the model from a checkpoint</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>checkpoint_path</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[str, <span title="os.PathLike">PathLike</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Union[str,os.PathLike] : Load the
+checkpoint path</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>_do_init_fns</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Initialize the functions</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Nothing, it just initializes the class</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/base_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">arguments</span><span class="p">:</span> <span class="n">TrainArguments</span><span class="p">,</span>
+        <span class="n">dataset_train</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span>
+        <span class="n">dataset_eval</span><span class="p">:</span> <span class="n">Dataset</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">finetune</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">checkpoint_path</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">os</span><span class="o">.</span><span class="n">PathLike</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">_do_init_fns</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up all the variables that are needed for training, including:</span>
+<span class="sd">    - The timer to keep track of how long each epoch takes.</span>
+<span class="sd">    - The dataloaders for both training and evaluation (if provided).</span>
+<span class="sd">    - The model itself, which will be created from a checkpoint if one was provided.  Otherwise,</span>
+<span class="sd">     it will be created from scratch using the arguments passed in by the user.</span>
+<span class="sd">     Note that this function also handles creating a mesh if one was not already specified in arguments</span>
+<span class="sd">     or loaded from a checkpoint file (see below).</span>
+<span class="sd">      This means that you can pass in either</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        arguments: TrainArguments: Pass the arguments to the trainer</span>
+<span class="sd">        dataset_train: Dataset: Pass the training dataset to the</span>
+<span class="sd">            trainer</span>
+<span class="sd">        dataset_eval: Dataset: Pass the validation dataset</span>
+<span class="sd">        finetune: bool: Load the model from a checkpoint</span>
+<span class="sd">        checkpoint_path: Union[str,os.PathLike] : Load the</span>
+<span class="sd">            checkpoint path</span>
+<span class="sd">        _do_init_fns: bool: Initialize the functions</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        Nothing, it just initializes the class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="c1"># Loggers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;timer&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="p">:</span> <span class="n">Run</span> <span class="o">|</span> <span class="n">RunDisabled</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;wandb_runtime&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="c1"># Data</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;dataloader_train&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;dataloader_eval&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;max_training_steps&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;max_evaluation_steps&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dataset_train</span> <span class="o">=</span> <span class="n">dataset_train</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dataset_eval</span> <span class="o">=</span> <span class="n">dataset_eval</span>
+
+    <span class="c1"># Model Related</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;model&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;config&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;scheduler&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tx</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;tx&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;model_state&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="c1"># LoRA Related</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="o">=</span> <span class="n">arguments</span><span class="o">.</span><span class="n">rapture</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;lora_parameters&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;lora_model&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;lora_tx&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;lora_opt_state&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;lora_apply_fn&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="c1"># PJit functions</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="s2">&quot;create_sharded_state_from_params_function&quot;</span><span class="p">,</span>
+        <span class="kc">None</span>
+    <span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;sharded_train_step_function&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;sharded_eval_step_function&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state_function</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;initialize_state_function&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;mesh&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="c1"># Checkpoint Managers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_manager</span><span class="p">:</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">CheckpointManager</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;checkpoint_manager&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="c1"># EasyState</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">state_shape</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;state_shape&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;state_partition_spec&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">sharded_state</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="s2">&quot;sharded_state&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+    <span class="c1"># Rest</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span> <span class="o">=</span> <span class="n">arguments</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">finetune</span> <span class="o">=</span> <span class="n">finetune</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="o">=</span> <span class="n">checkpoint_path</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span> <span class="o">=</span> <span class="n">arguments</span><span class="o">.</span><span class="n">param_dtype</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">track_memory</span><span class="p">:</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">performance_mode</span><span class="p">:</span>
+            <span class="n">initialise_tracking</span><span class="p">()</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">_stop_capturing_memory</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_start_capturing_memory</span><span class="p">()</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+    <span class="k">if</span> <span class="n">finetune</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">prefix_print</span><span class="p">(</span>
+                <span class="s2">&quot;Warning&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;In case of using `finetune = True` and Passing `checkpoint_path = None`&quot;</span>
+                <span class="s2">&quot; you should pass parameters in train function&quot;</span>
+            <span class="p">)</span>
+    <span class="k">if</span> <span class="n">_do_init_fns</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initialize_trainer_utils</span><span class="p">()</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">prefix_print</span><span class="p">(</span>
+            <span class="s2">&quot;Warning&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;you have set `_do_init_fns = False` so function will not me initialized you have &quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;to do in manually (simply with `trainer.initialize_trainer_utils()` )&quot;</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.base_trainer.BaseTrainer.configure_dataloader" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">configure_dataloader</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The configure_dataloader function is used to configure the dataloader for training and evaluation.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the class instance itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="src.python.easydel.trainer.base_trainer.TrainerConfigureDataloaderFuncOutput">TrainerConfigureDataloaderFuncOutput</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A TrainerConfigureDataloaderFuncOutput object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/base_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">configure_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureDataloaderFuncOutput</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The configure_dataloader function is used to configure the dataloader for training and evaluation.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the class instance itself</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A TrainerConfigureDataloaderFuncOutput object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">create_tf_dataset</span><span class="p">(</span><span class="n">dataset</span><span class="p">:</span> <span class="n">Dataset</span><span class="p">,</span> <span class="n">is_train</span><span class="p">:</span> <span class="nb">bool</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Iterator</span><span class="p">[</span><span class="n">ndarray</span><span class="p">[</span><span class="n">Any</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]:</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">dataset</span><span class="o">.</span><span class="n">to_tf_dataset</span><span class="p">(</span>
+                <span class="n">collate_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">create_collate_function</span><span class="p">(</span>
+                    <span class="n">max_sequence_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+                    <span class="n">truncation_mode</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">truncation_mode</span>
+                <span class="p">),</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span>
+                <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="ow">not</span> <span class="n">is_train</span><span class="p">,</span>
+                <span class="n">num_workers</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dataloader_num_workers</span>
+            <span class="p">)</span>
+            <span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span> <span class="k">if</span> <span class="n">is_train</span> <span class="k">else</span> <span class="mi">1</span><span class="p">)</span>
+            <span class="o">.</span><span class="n">prefetch</span><span class="p">(</span><span class="n">tf</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">experimental</span><span class="o">.</span><span class="n">AUTOTUNE</span><span class="p">)</span>
+            <span class="o">.</span><span class="n">as_numpy_iterator</span><span class="p">()</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">create_tf_dataset_from_iterable</span><span class="p">(</span><span class="n">dataset</span><span class="p">:</span> <span class="n">IterableDataset</span><span class="p">,</span> <span class="n">is_train</span><span class="p">:</span> <span class="nb">bool</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Iterator</span><span class="p">[</span><span class="n">ndarray</span><span class="p">[</span><span class="n">Any</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]:</span>
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">tf</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">Dataset</span><span class="o">.</span><span class="n">from_generator</span><span class="p">(</span>
+                <span class="k">lambda</span><span class="p">:</span> <span class="n">dataset</span><span class="p">,</span>
+                <span class="n">output_signature</span><span class="o">=</span><span class="p">{</span>
+                    <span class="n">col</span><span class="p">:</span> <span class="n">tf</span><span class="o">.</span><span class="n">TensorSpec</span><span class="p">(</span><span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">tf</span><span class="o">.</span><span class="n">int32</span><span class="p">)</span>
+                    <span class="k">for</span> <span class="n">col</span> <span class="ow">in</span> <span class="nb">next</span><span class="p">(</span><span class="nb">iter</span><span class="p">(</span><span class="n">dataset</span><span class="p">))</span><span class="o">.</span><span class="n">keys</span><span class="p">()</span>
+                <span class="p">}</span>
+            <span class="p">)</span>
+            <span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span> <span class="k">if</span> <span class="n">is_train</span> <span class="k">else</span> <span class="mi">1</span><span class="p">)</span>
+            <span class="o">.</span><span class="n">batch</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span> <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+            <span class="o">.</span><span class="n">prefetch</span><span class="p">(</span><span class="n">tf</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">experimental</span><span class="o">.</span><span class="n">AUTOTUNE</span><span class="p">)</span>
+            <span class="o">.</span><span class="n">as_numpy_iterator</span><span class="p">()</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">calculate_steps</span><span class="p">(</span><span class="n">dataset</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Dataset</span><span class="p">,</span> <span class="n">IterableDataset</span><span class="p">],</span> <span class="n">is_train</span><span class="p">:</span> <span class="nb">bool</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Return total number of steps to train or evaluate on.&quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="s2">&quot;__len__&quot;</span><span class="p">):</span>
+            <span class="n">num_steps</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataset</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span> <span class="k">if</span> <span class="n">is_train</span> <span class="k">else</span> <span class="mi">1</span><span class="p">)</span>
+            <span class="n">max_steps</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="k">if</span> <span class="n">is_train</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_evaluation_steps</span>
+            <span class="k">return</span> <span class="nb">min</span><span class="p">(</span><span class="n">num_steps</span><span class="p">,</span> <span class="n">max_steps</span><span class="p">)</span> <span class="k">if</span> <span class="n">max_steps</span> <span class="k">else</span> <span class="n">num_steps</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">num_steps</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="k">if</span> <span class="n">is_train</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_evaluation_steps</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">num_steps</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="sa">f</span><span class="s2">&quot;Specify the number of </span><span class="si">{</span><span class="s1">&#39;training&#39;</span><span class="w"> </span><span class="k">if</span><span class="w"> </span><span class="n">is_train</span><span class="w"> </span><span class="k">else</span><span class="w"> </span><span class="s1">&#39;evaluation&#39;</span><span class="si">}</span><span class="s2"> steps for a generator/streaming dataset.&quot;</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">num_steps</span>
+
+    <span class="k">def</span> <span class="nf">to_tf_dataloader</span><span class="p">(</span><span class="n">dataset</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Dataset</span><span class="p">,</span> <span class="n">IterableDataset</span><span class="p">],</span> <span class="n">is_train</span><span class="p">:</span> <span class="nb">bool</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="s2">&quot;__len__&quot;</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">create_tf_dataset</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">is_train</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">create_tf_dataset_from_iterable</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">is_train</span><span class="p">)</span>
+
+    <span class="n">max_training_steps</span> <span class="o">=</span> <span class="n">calculate_steps</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset_train</span><span class="p">,</span> <span class="n">is_train</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+    <span class="n">dataloader_train</span> <span class="o">=</span> <span class="n">to_tf_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset_train</span><span class="p">,</span> <span class="n">is_train</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataset_eval</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_eval</span><span class="p">:</span>
+        <span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="n">calculate_steps</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset_eval</span><span class="p">,</span> <span class="n">is_train</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+        <span class="n">dataloader_eval</span> <span class="o">=</span> <span class="n">to_tf_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset_eval</span><span class="p">,</span> <span class="n">is_train</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">dataloader_eval</span><span class="p">,</span> <span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="mi">0</span>
+
+    <span class="k">return</span> <span class="n">TrainerConfigureDataloaderFuncOutput</span><span class="p">(</span>
+        <span class="n">dataloader_train</span><span class="o">=</span><span class="n">dataloader_train</span><span class="p">,</span>
+        <span class="n">max_training_steps</span><span class="o">=</span><span class="n">max_training_steps</span><span class="p">,</span>
+        <span class="n">dataloader_eval</span><span class="o">=</span><span class="n">dataloader_eval</span><span class="p">,</span>
+        <span class="n">max_evaluation_steps</span><span class="o">=</span><span class="n">max_evaluation_steps</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.base_trainer.BaseTrainer.configure_functions" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">configure_functions</span><span class="p">()</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-abstractmethod"><code>abstractmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The configure_functions function is responsible for configuring the functions that will be used in training.
+It does this by first defining a function called function_configurations, which initializes the model parameters and returns
+them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate
+on a batch of data, including:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access the class attributes</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="src.python.easydel.trainer.base_trainer.TrainerConfigureFunctionFuncOutput">TrainerConfigureFunctionFuncOutput</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A TrainerConfigureFunctionFuncOutput object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/base_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@abc</span><span class="o">.</span><span class="n">abstractmethod</span>
+<span class="k">def</span> <span class="nf">configure_functions</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The configure_functions function is responsible for configuring the functions that will be used in training.</span>
+<span class="sd">    It does this by first defining a function called function_configurations, which initializes the model parameters and returns</span>
+<span class="sd">    them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate</span>
+<span class="sd">    on a batch of data, including:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access the class attributes</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A TrainerConfigureFunctionFuncOutput object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.base_trainer.BaseTrainer.configure_model" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">configure_model</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The configure_model function is responsible for creating the model, optimizer and scheduler.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="src.python.easydel.trainer.base_trainer.TrainerConfigureModelFuncOutput">TrainerConfigureModelFuncOutput</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A model, optimizer, scheduler and config  in</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="src.python.easydel.trainer.base_trainer.TrainerConfigureModelFuncOutput">TrainerConfigureModelFuncOutput</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>TrainerConfigureModelFuncOutput Object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/base_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">configure_model</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureModelFuncOutput</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The configure_model function is responsible for creating the model, optimizer and scheduler.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A model, optimizer, scheduler and config  in</span>
+<span class="sd">        TrainerConfigureModelFuncOutput Object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">extra_configs</span> <span class="o">=</span> <span class="p">{}</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">extra_configs</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">extra_configs</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_class</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">configs_to_initialize_model_class</span><span class="p">[</span><span class="s2">&quot;config&quot;</span><span class="p">],</span> <span class="s2">&quot;get_partition_rules&quot;</span><span class="p">):</span>
+            <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="p">(</span>
+                <span class="s2">&quot;if you are using custom model to init you must&quot;</span>
+                <span class="s2">&quot; pass custom_rule for partition rules &quot;</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">configs_to_initialize_model_class</span><span class="p">[</span><span class="s2">&quot;config&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">axis_dims</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">sharding_array</span>
+
+        <span class="n">model</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_class</span><span class="p">(</span>
+            <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">configs_to_initialize_model_class</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">configs_to_initialize_model_class</span><span class="p">[</span><span class="s2">&quot;config&quot;</span><span class="p">]</span>
+
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">extra_configs</span><span class="p">[</span><span class="s2">&quot;gradient_checkpointing&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">gradient_checkpointing</span>
+
+        <span class="n">model</span> <span class="o">=</span> <span class="n">AutoEasyDeLModelForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_huggingface_repo_id</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">param_dtype</span><span class="p">,</span>
+            <span class="n">_do_init</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="s2">&quot;config&quot;</span><span class="p">):</span>
+            <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">extra_configs</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                <span class="nb">setattr</span><span class="p">(</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span><span class="p">)</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">config</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;Config is being set to None due to not detecting Model Configuration from taken Model &quot;</span>
+                <span class="s2">&quot;this will cause errors later.&quot;</span>
+            <span class="p">)</span>
+    <span class="n">tx</span><span class="p">,</span> <span class="n">scheduler</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_optimizer_and_scheduler</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">TrainerConfigureModelFuncOutput</span><span class="p">(</span>
+        <span class="n">model</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+        <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+        <span class="n">scheduler</span><span class="o">=</span><span class="n">scheduler</span><span class="p">,</span>
+        <span class="n">config</span><span class="o">=</span><span class="n">config</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.base_trainer.BaseTrainer.eval" class="doc doc-heading">
+            <code class="highlight language-python"><span class="nb">eval</span><span class="p">(</span><span class="n">state</span><span class="p">)</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-abstractmethod"><code>abstractmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>abstract of Eval Function to evaluate model</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/base_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@abc</span><span class="o">.</span><span class="n">abstractmethod</span>
+<span class="k">def</span> <span class="nf">eval</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;abstract of Eval Function to evaluate model&quot;&quot;&quot;</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.base_trainer.BaseTrainer.finish" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">finish</span><span class="p">()</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-staticmethod"><code>staticmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The finish function is called when the experiment ends.
+It can be used to save data, upload files, or do any other cleanup tasks.</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of the run's metadata</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/base_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@staticmethod</span>
+<span class="k">def</span> <span class="nf">finish</span><span class="p">():</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The finish function is called when the experiment ends.</span>
+<span class="sd">    It can be used to save data, upload files, or do any other cleanup tasks.</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of the run&#39;s metadata</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">wandb</span><span class="o">.</span><span class="n">finish</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.base_trainer.BaseTrainer.initialize_trainer_utils" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">initialize_trainer_utils</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+
+
+<details class="the-initialize_trainer_utils-function-is-responsible-for-initializing-the-following" open>
+  <summary>The initialize_trainer_utils function is responsible for initializing the following</summary>
+  <ul>
+<li>wandb_runtime (if you use_wandb is True)</li>
+<li>timer object (for logging time taken by various functions)</li>
+<li>dataloader objects for training and evaluation data, along with max steps per epoch.
+  The configure_dataloader function accomplishes this task.</li>
+</ul>
+</details>
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A tuple of functions</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/base_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">initialize_trainer_utils</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The initialize_trainer_utils function is responsible for initializing the following:</span>
+<span class="sd">        - wandb_runtime (if you use_wandb is True)</span>
+<span class="sd">        - timer object (for logging time taken by various functions)</span>
+<span class="sd">        - dataloader objects for training and evaluation data, along with max steps per epoch.</span>
+<span class="sd">          The configure_dataloader function accomplishes this task.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A tuple of functions</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">use_wandb</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_wandb_init</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span> <span class="o">=</span> <span class="n">Timers</span><span class="p">(</span>
+        <span class="n">use_wandb</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">tensorboard_writer</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_board</span><span class="p">()</span>
+    <span class="p">)</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+    <span class="n">dataset_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_dataloader</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">dataloader_train</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">max_training_steps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">dataloader_eval</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">max_evaluation_steps</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">])</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+    <span class="n">model_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_model</span><span class="p">()</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">model</span>
+    <span class="n">tx</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">tx</span>
+    <span class="n">scheduler</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">scheduler</span>
+    <span class="n">config</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">config</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tx</span> <span class="o">=</span> <span class="n">tx</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span> <span class="o">=</span> <span class="n">scheduler</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">lora_modules</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span><span class="o">.</span><span class="n">apply_lora</span><span class="p">(</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+            <span class="n">parameters</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">rapture_config</span><span class="o">.</span><span class="n">parameters</span><span class="p">,</span>
+            <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_parameters</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_module</span><span class="o">.</span><span class="fm">__call__</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_opt_state</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_module</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_tx</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">])</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+    <span class="n">function_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_functions</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> \
+        <span class="n">function_configurations</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">sharded_train_step_function</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">sharded_eval_step_function</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">mesh</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_manager</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">checkpoint_manager</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">initialize_state_function</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">])</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.base_trainer.BaseTrainer.train" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">train</span><span class="p">()</span></code>
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-abstractmethod"><code>abstractmethod</code></small>
+  </span>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>abstract of Train Function to train model</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/base_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@abc</span><span class="o">.</span><span class="n">abstractmethod</span>
+<span class="k">def</span> <span class="nf">train</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;abstract of Train Function to train model&quot;&quot;&quot;</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-causal_language_model_trainer-causal_language_model_trainer/index.html b/generated-trainer-causal_language_model_trainer-causal_language_model_trainer/index.html
new file mode 100644
index 000000000..5e161ed0b
--- /dev/null
+++ b/generated-trainer-causal_language_model_trainer-causal_language_model_trainer/index.html
@@ -0,0 +1,8544 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-base_trainer/">
+      
+      
+        <link rel="next" href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Causal Language Model Trainer - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainercausal_language_model_trainercausal_language_model_trainer" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Causal Language Model Trainer
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      causal_language_model_trainer
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      CausalLanguageModelTrainer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="CausalLanguageModelTrainer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer.configure_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_functions
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer.eval" class="md-nav__link">
+    <span class="md-ellipsis">
+      eval
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer.train" class="md-nav__link">
+    <span class="md-ellipsis">
+      train
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      causal_language_model_trainer
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      CausalLanguageModelTrainer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="CausalLanguageModelTrainer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer.configure_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_functions
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer.eval" class="md-nav__link">
+    <span class="md-ellipsis">
+      eval
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer.train" class="md-nav__link">
+    <span class="md-ellipsis">
+      train
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainercausal_language_model_trainercausal_language_model_trainer">trainer.causal_language_model_trainer.causal_language_model_trainer</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer" class="doc doc-heading">
+            <code>CausalLanguageModelTrainer</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.trainer.base_trainer.BaseTrainer" href="../generated-trainer-base_trainer/#src.python.easydel.trainer.base_trainer.BaseTrainer">BaseTrainer</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/trainer/causal_language_model_trainer/causal_language_model_trainer.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">CausalLanguageModelTrainer</span><span class="p">(</span><span class="n">BaseTrainer</span><span class="p">):</span>
+
+    <span class="k">def</span> <span class="nf">create_collate_function</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">truncation_mode</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;keep_end&quot;</span><span class="p">,</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Callable</span><span class="p">:</span>
+        <span class="k">def</span> <span class="nf">collate_fn</span><span class="p">(</span><span class="n">batch</span><span class="p">):</span>
+            <span class="n">results</span> <span class="o">=</span> <span class="p">{}</span>
+            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">batch</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">truncation_mode</span> <span class="o">==</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">:</span>
+                    <span class="n">corrected_sequence</span> <span class="o">=</span> <span class="p">[</span>
+                        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">f</span><span class="p">[</span><span class="n">key</span><span class="p">])[</span><span class="o">...</span><span class="p">,</span> <span class="o">-</span><span class="n">max_sequence_length</span><span class="p">:]</span> <span class="k">for</span> <span class="n">f</span> <span class="ow">in</span> <span class="n">batch</span>
+                    <span class="p">]</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">corrected_sequence</span> <span class="o">=</span> <span class="p">[</span>
+                        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">f</span><span class="p">[</span><span class="n">key</span><span class="p">])[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="n">max_sequence_length</span><span class="p">]</span> <span class="k">for</span> <span class="n">f</span> <span class="ow">in</span> <span class="n">batch</span>
+                    <span class="p">]</span>
+                <span class="n">results</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span><span class="n">corrected_sequence</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+                    <span class="o">-</span><span class="mi">1</span><span class="p">,</span>
+                    <span class="n">corrected_sequence</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+                <span class="p">)</span>
+            <span class="k">return</span> <span class="n">results</span>
+
+        <span class="k">return</span> <span class="n">collate_fn</span>
+
+    <span class="k">def</span> <span class="nf">configure_functions</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The configure_functions function is responsible for configuring the functions that will be used in training.</span>
+<span class="sd">        It does this by first defining a function called function_configurations, which initializes the model parameters and returns</span>
+<span class="sd">        them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate</span>
+<span class="sd">        on a batch of data, including:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the class attributes</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A TrainerConfigureFunctionFuncOutput object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">def</span> <span class="nf">initialize_state_function</span><span class="p">():</span>
+            <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">init_weights</span><span class="p">(</span>
+                <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">init_input_shape</span>
+            <span class="p">)</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">:</span>
+                <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_bf16</span><span class="p">(</span><span class="n">initialized_parameters</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float16</span><span class="p">:</span>
+                <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_fp16</span><span class="p">(</span><span class="n">initialized_parameters</span><span class="p">)</span>
+
+            <span class="n">tx</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx</span>
+            <span class="n">parameters</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">freeze</span><span class="p">({</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">initialized_parameters</span><span class="p">})</span>
+            <span class="n">tx_init</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">:</span>
+                    <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_bf16</span><span class="p">(</span><span class="n">lora_parameters</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float16</span><span class="p">:</span>
+                    <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_fp16</span><span class="p">(</span><span class="n">lora_parameters</span><span class="p">)</span>
+
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="p">(</span>
+                    <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">lora_parameters</span><span class="p">,</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span><span class="p">,</span>
+                    <span class="n">opt_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span><span class="p">,</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">tx_init</span><span class="p">),</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create</span><span class="p">(</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">),</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">tx_init</span><span class="p">,</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>
+                <span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">create_state_from_params_function</span><span class="p">(</span><span class="n">parameters</span><span class="p">):</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create</span><span class="p">(</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tx</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">),</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">),</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="p">(</span>
+                    <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span><span class="p">,</span>
+                    <span class="n">opt_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span><span class="p">,</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)),</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="p">)</span>
+
+        <span class="n">state_shape</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="n">initialize_state_function</span><span class="p">)</span>
+        <span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+            <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+            <span class="n">state_shape</span>
+        <span class="p">)</span>
+        <span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+            <span class="n">create_state_from_params_function</span><span class="p">,</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="o">.</span><span class="n">params</span><span class="p">,),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="n">state_partition_spec</span><span class="p">,</span>
+            <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,)</span>
+        <span class="p">)</span>
+        <span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+            <span class="n">create_casual_language_model_train_step</span><span class="p">(</span>
+                <span class="n">partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span><span class="p">,</span>
+                <span class="n">label_smoothing_factor</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">label_smoothing_factor</span><span class="p">,</span>
+                <span class="n">z_loss</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">z_loss</span><span class="p">,</span>
+            <span class="p">),</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+            <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+            <span class="n">create_casual_language_model_evaluation_step</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span><span class="p">),</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+            <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">mesh</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_mesh</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ckpt_path_exists</span><span class="p">()</span>
+        <span class="n">checkpoint_manager</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_streaming_checkpointer</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">state_partition_spec</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">state_shape</span> <span class="o">=</span> <span class="n">state_shape</span>
+
+        <span class="k">return</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">(</span>
+            <span class="n">create_sharded_state_from_params_function</span><span class="o">=</span><span class="n">create_sharded_state_from_params_function</span><span class="p">,</span>
+            <span class="n">sharded_train_step_function</span><span class="o">=</span><span class="n">sharded_train_step_function</span><span class="p">,</span>
+            <span class="n">sharded_eval_step_function</span><span class="o">=</span><span class="n">sharded_eval_step_function</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="n">mesh</span><span class="p">,</span>
+            <span class="n">checkpoint_manager</span><span class="o">=</span><span class="n">checkpoint_manager</span><span class="p">,</span>
+            <span class="n">initialize_state_function</span><span class="o">=</span><span class="n">initialize_state_function</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">initialize_state</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">model_parameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">state</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLState</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">EasyDeLState</span><span class="p">,</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">],</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]]:</span>
+        <span class="k">if</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">state</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">RuntimeError</span><span class="p">(</span>
+                <span class="s2">&quot;You are passing `model_parameters=None`, `state=None`, and `checkpoint_path=None` and also you are not&quot;</span>
+                <span class="s2">&quot; using LoRA, if you are &quot;</span>
+                <span class="s2">&quot;Using LoRA make sure to pass parameters and Rapture Config correctly otherwise pass the &quot;</span>
+                <span class="s2">&quot;model_parameters or state.&quot;</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">state</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">model_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span><span class="p">,</span>
+                <span class="n">dtype_specs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="n">state</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">state</span>
+                <span class="n">params</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span> <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_shard_fns</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                    <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
+                    <span class="n">shard_fns</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                    <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span>
+                <span class="p">)</span>
+                <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="n">params</span>
+                <span class="k">if</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">opt_state</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">prefix_print</span><span class="p">(</span>
+                        <span class="s2">&quot;Action&quot;</span><span class="p">,</span> <span class="s2">&quot;Optimizer State is not Found!, initializing one.&quot;</span>
+                    <span class="p">)</span>
+                    <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">offload_device</span><span class="p">):</span>
+                        <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">init_opt_state</span><span class="p">()</span>
+                        <span class="n">opt_state</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">opt_state</span> <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_shard_fns</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                            <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
+                            <span class="n">shard_fns</span><span class="o">.</span><span class="n">opt_state</span><span class="p">,</span>
+                            <span class="n">sharded_state</span><span class="o">.</span><span class="n">opt_state</span>
+                        <span class="p">)</span>
+                        <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                            <span class="n">opt_state</span><span class="o">=</span><span class="n">opt_state</span>
+                        <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">finetune</span><span class="p">:</span>
+
+                <span class="k">if</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">prefix_print</span><span class="p">(</span>
+                        <span class="s2">&quot;Action&quot;</span><span class="p">,</span> <span class="sa">f</span><span class="s2">&quot;Loading Model From </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="si">}</span><span class="s2">&quot;</span>
+                    <span class="p">)</span>
+                    <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">offload_device</span><span class="p">):</span>
+                        <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">load_state</span><span class="p">(</span>
+                            <span class="n">verbose</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">verbose</span><span class="p">,</span>
+                            <span class="n">state_shard_fns</span><span class="o">=</span><span class="n">shard_fns</span><span class="p">,</span>
+                            <span class="n">init_optimizer_state</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                            <span class="n">checkpoint_path</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                            <span class="n">input_shape</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">init_input_shape</span><span class="p">,</span>
+                            <span class="n">config_kwargs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">loaded_model_config_kwargs</span>
+                        <span class="p">)</span>
+                        <span class="n">state_shape</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">sharded_state</span><span class="p">)</span>
+                        <span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                                <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+                            <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+                            <span class="n">state_shape</span>
+                        <span class="p">)</span>
+                        <span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+                            <span class="n">create_casual_language_model_train_step</span><span class="p">(</span>
+                                <span class="n">partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span><span class="p">,</span>
+                                <span class="n">label_smoothing_factor</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">label_smoothing_factor</span><span class="p">,</span>
+                                <span class="n">z_loss</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">z_loss</span><span class="p">,</span>
+                            <span class="p">),</span>
+                            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+                            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+                            <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+                        <span class="p">)</span>
+
+                        <span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+                            <span class="n">create_casual_language_model_evaluation_step</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span><span class="p">),</span>
+                            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+                            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+                            <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+                        <span class="p">)</span>
+
+                        <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">state_partition_spec</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">state_shape</span> <span class="o">=</span> <span class="n">state_shape</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">sharded_train_step_function</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">sharded_eval_step_function</span>
+
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">remove_ckpt_after_load</span><span class="p">:</span>
+                        <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">prefix_print</span><span class="p">(</span>
+                        <span class="s2">&quot;Action&quot;</span><span class="p">,</span> <span class="sa">f</span><span class="s2">&quot;Sharding Passed Parameters&quot;</span>
+                    <span class="p">)</span>
+                    <span class="kn">from</span> <span class="nn">flax.core</span> <span class="kn">import</span> <span class="n">unfreeze</span>
+                    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">model_parameters</span><span class="p">,</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">):</span>
+                        <span class="n">prefix_print</span><span class="p">(</span>
+                            <span class="s2">&quot;Warning&quot;</span><span class="p">,</span>
+                            <span class="s2">&quot;Model Parameters should be like FrozenDict({&#39;params&#39;: params}) make sure to &quot;</span>
+                            <span class="s2">&quot;pass as type FrozenDict in case of not getting UnExcepted Errors &quot;</span>
+                        <span class="p">)</span>
+
+                    <span class="n">model_parameters</span> <span class="o">=</span> <span class="n">model_parameters</span> <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_shard_fns</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                        <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
+                        <span class="n">shard_fns</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                        <span class="n">model_parameters</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="n">sharded_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span><span class="p">(</span><span class="n">model_parameters</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="k">raise</span> <span class="n">EasyDeLTimerError</span><span class="p">(</span>
+                        <span class="s2">&quot;You can&#39;t pass `model_parameters` and `checkpoint_path` at same time&quot;</span>
+                    <span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">raise</span> <span class="n">EasyDeLTimerError</span><span class="p">(</span>
+                        <span class="s2">&quot;You should pass `model_parameters` or `checkpoint_path` to trainer in order to load model&quot;</span>
+                    <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">sharded_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state_function</span><span class="p">()</span>
+                <span class="n">params</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span> <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_shard_fns</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                    <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
+                    <span class="n">shard_fns</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                    <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span>
+                <span class="p">)</span>
+                <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="n">params</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">sharded_state</span> <span class="o">=</span> <span class="n">sharded_state</span>
+            <span class="k">return</span> <span class="n">sharded_state</span><span class="p">,</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span>
+
+    <span class="k">def</span> <span class="nf">_save_state</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">,</span>
+            <span class="n">gather_fns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Any</span> <span class="o">|</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]</span> <span class="o">|</span> <span class="nb">dict</span><span class="p">[</span><span class="n">Callable</span><span class="p">]],</span>
+            <span class="n">milestone</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+        <span class="n">step</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">device_get</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">.</span><span class="n">step</span>
+            <span class="p">)</span>
+        <span class="p">)</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="nb">int</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">device_get</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">.</span><span class="n">step</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="n">checkpoint_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_dir</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_name</span><span class="p">)</span>
+        <span class="n">filename_extension</span> <span class="o">=</span> <span class="s2">&quot;.easy&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_total_limit</span><span class="p">:</span>
+            <span class="n">checkpoint_files</span> <span class="o">=</span> <span class="n">glob</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">checkpoint_dir</span><span class="p">,</span> <span class="sa">f</span><span class="s2">&quot;*</span><span class="si">{</span><span class="n">filename_extension</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">))</span>
+            <span class="n">checkpoint_files</span><span class="o">.</span><span class="n">sort</span><span class="p">(</span><span class="n">key</span><span class="o">=</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">getmtime</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">old_checkpoint</span> <span class="ow">in</span> <span class="n">checkpoint_files</span><span class="p">[:</span><span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_total_limit</span><span class="p">]:</span>
+                <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">old_checkpoint</span><span class="p">)</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Removed old checkpoint: </span><span class="si">{</span><span class="n">old_checkpoint</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+        <span class="n">checkpoint_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_name</span><span class="si">}</span><span class="s2">-S</span><span class="si">{</span><span class="n">step</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="n">filename</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">checkpoint_name</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">step</span><span class="si">}</span><span class="s2">&quot;</span> <span class="k">if</span> <span class="n">milestone</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">checkpoint_name</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="n">filename</span> <span class="o">+=</span> <span class="s2">&quot;.easy&quot;</span>
+        <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Saving Model </span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="n">state</span><span class="o">.</span><span class="n">save_state</span><span class="p">(</span>
+            <span class="n">filename</span><span class="o">=</span><span class="n">filename</span><span class="p">,</span>
+            <span class="n">checkpoint_dir</span><span class="o">=</span><span class="n">checkpoint_dir</span><span class="p">,</span>
+            <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+            <span class="n">float_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">verbose</span><span class="p">,</span>
+            <span class="n">save_optimizer</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_optimizer_state</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">filename</span>
+
+    <span class="k">def</span> <span class="nf">train</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">model_parameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">state</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLState</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">CausalLMTrainerOutput</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The train function is the main function of this module.</span>
+<span class="sd">        It takes a model_parameters argument which can be used to load a pretrained model and finetune it.</span>
+<span class="sd">        The train function returns an CausalLMTrainerOutput object that contains the last saved file name, predict func,</span>
+<span class="sd">        train state, mesh and checkpoint streamer.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Make the class methods aware of other methods and</span>
+<span class="sd">                attributes within the class</span>
+<span class="sd">            model_parameters: flax.core.FrozenDict: Load a pre-trained</span>
+<span class="sd">                model</span>
+<span class="sd">            state: Optional[EasyDeLState]: Ready to Use State</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            An object of type &quot;CausalLMTrainerOutput&quot;</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">def</span> <span class="nf">get_layer_names</span><span class="p">(</span><span class="n">frozen_dict</span><span class="p">,</span> <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;&quot;</span><span class="p">):</span>
+            <span class="n">layer_names</span> <span class="o">=</span> <span class="p">{}</span>
+            <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">frozen_dict</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="n">FrozenDict</span><span class="p">):</span>
+                    <span class="n">layer_names</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">get_layer_names</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="n">prefix</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">))</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">layer_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">lstrip</span><span class="p">(</span><span class="s2">&quot;/&quot;</span><span class="p">)</span>
+                    <span class="n">layer_names</span><span class="p">[</span><span class="n">layer_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+            <span class="k">return</span> <span class="n">layer_names</span>
+
+        <span class="k">def</span> <span class="nf">count_model_parameters</span><span class="p">(</span><span class="n">_p</span><span class="p">):</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;Model Contain </span><span class="si">{</span><span class="nb">sum</span><span class="p">(</span><span class="n">n</span><span class="o">.</span><span class="n">size</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">n</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_flatten</span><span class="p">(</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">_p</span><span class="p">))[</span><span class="mi">0</span><span class="p">])</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="mf">1e9</span><span class="si">}</span><span class="s2"> &quot;</span>
+                <span class="sa">f</span><span class="s2">&quot;Billion Parameters&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+
+        <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="s2">&quot;SAVING_SKIPPED&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">performance_mode</span><span class="p">:</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                <span class="s2">&quot;Performance Mode is ON, we will ignore the Memory Tracking, WANDB Logging, and extra information &quot;</span>
+                <span class="s2">&quot;Process.&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span>
+                <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="n">start_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+        <span class="n">sharded_state</span><span class="p">,</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state</span><span class="p">(</span>
+            <span class="n">model_parameters</span><span class="o">=</span><span class="n">model_parameters</span><span class="p">,</span>
+            <span class="n">state</span><span class="o">=</span><span class="n">state</span>
+        <span class="p">)</span>
+
+        <span class="n">count_model_parameters</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">)</span>
+            <span class="n">current_step</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">device_get</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">step</span><span class="p">))</span>
+            <span class="n">loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">accuracy_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">step</span><span class="o">.</span><span class="n">tolist</span><span class="p">())</span>  <span class="c1"># type: ignore</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">model_parameters_number</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span>
+                    <span class="n">n</span><span class="o">.</span><span class="n">size</span> <span class="k">for</span> <span class="n">n</span> <span class="ow">in</span>
+                    <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_flatten</span><span class="p">(</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span><span class="p">))[</span><span class="mi">0</span><span class="p">]</span>
+                <span class="p">)</span> <span class="o">/</span> <span class="mf">1e9</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                    <span class="p">{</span>
+                        <span class="s2">&quot;Number of Model Parameters (Billion)&quot;</span><span class="p">:</span> <span class="n">model_parameters_number</span>
+                    <span class="p">}</span>
+                <span class="p">)</span>
+                <span class="n">wandb</span><span class="o">.</span><span class="n">summary</span><span class="p">[</span><span class="s2">&quot;Number of Model Parameters (Billion)&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_parameters_number</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">train_iter</span> <span class="o">=</span> <span class="nb">iter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span><span class="p">):</span>
+                    <span class="n">time_s</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                    <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span><span class="p">):</span>
+                        <span class="k">try</span><span class="p">:</span>
+                            <span class="n">batch</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span><span class="n">train_iter</span><span class="p">)</span>
+                        <span class="k">except</span> <span class="ne">StopIteration</span><span class="p">:</span>
+                            <span class="n">train_iter</span> <span class="o">=</span> <span class="nb">iter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span><span class="p">)</span>
+                            <span class="n">batch</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span><span class="n">train_iter</span><span class="p">)</span>
+                        <span class="n">current_step</span> <span class="o">+=</span> <span class="mi">1</span>
+                        <span class="k">if</span> <span class="p">(</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                                <span class="ow">and</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="o">&gt;</span> <span class="n">current_step</span>
+                        <span class="p">):</span>
+                            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                        <span class="k">elif</span> <span class="n">current_step</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">:</span>
+
+                            <span class="n">time_prev</span> <span class="o">=</span> <span class="n">time_s</span>
+                            <span class="n">time_s</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                            <span class="n">step_time</span> <span class="o">=</span> <span class="n">time_s</span> <span class="o">-</span> <span class="n">time_prev</span>
+
+                            <span class="k">for</span> <span class="n">ssb</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span><span class="p">:</span>
+                                <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">ssb</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+                            <span class="p">(</span>
+                                <span class="n">sharded_state</span><span class="p">,</span>
+                                <span class="n">loss</span><span class="p">,</span>
+                                <span class="n">metrics</span><span class="p">,</span>
+                            <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span><span class="p">(</span><span class="n">sharded_state</span><span class="p">,</span> <span class="n">batch</span><span class="p">)</span>
+
+                            <span class="n">trained_tokens</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">multiply</span><span class="p">(</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">multiply</span><span class="p">(</span>
+                                    <span class="n">current_step</span><span class="p">,</span>
+                                    <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span>
+                                <span class="p">)</span>
+                            <span class="p">)</span>  <span class="c1"># It&#39;s faster</span>
+
+                            <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">spmd_mode</span><span class="p">(</span><span class="s2">&quot;allow_all&quot;</span><span class="p">):</span>
+                                <span class="n">calculating_metrics_start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                                <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+                                <span class="n">accuracy</span> <span class="o">=</span> <span class="n">metrics</span><span class="p">[</span><span class="s2">&quot;accuracy&quot;</span><span class="p">]</span>
+                                <span class="n">accuracy_sum</span> <span class="o">=</span> <span class="n">accuracy</span> <span class="k">if</span> <span class="n">accuracy_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">accuracy_sum</span> <span class="o">+</span> <span class="n">accuracy</span>
+                                <span class="n">mean_loss</span> <span class="o">=</span> <span class="n">loss_sum</span> <span class="o">/</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">)</span>
+                                <span class="n">mean_accuracy</span> <span class="o">=</span> <span class="n">accuracy_sum</span> <span class="o">/</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">)</span>
+                                <span class="n">perplexity</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">loss</span><span class="p">)</span>
+                                <span class="n">calculating_metrics_end</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                                <span class="n">train_metrics</span> <span class="o">=</span> <span class="p">{</span>
+                                    <span class="s2">&quot;train/loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/mean_loss&quot;</span><span class="p">:</span> <span class="n">mean_loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/accuracy&quot;</span><span class="p">:</span> <span class="n">accuracy</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/mean_accuracy&quot;</span><span class="p">:</span> <span class="n">mean_accuracy</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/learning_rate&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span><span class="p">(</span><span class="n">current_step</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/step&quot;</span><span class="p">:</span> <span class="n">current_step</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/step_time&quot;</span><span class="p">:</span> <span class="n">step_time</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/perplexity&quot;</span><span class="p">:</span> <span class="n">perplexity</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/trained_tokens&quot;</span><span class="p">:</span> <span class="n">trained_tokens</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/regularization_z_loss&quot;</span><span class="p">:</span> <span class="n">metrics</span><span class="p">[</span><span class="s2">&quot;regularization_z_loss&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/epoch&quot;</span><span class="p">:</span> <span class="n">epoch</span><span class="p">,</span>
+                                <span class="p">}</span>
+                            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">log_grad_norms</span><span class="p">:</span>
+                                <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span>
+                                    <span class="p">{</span>
+                                        <span class="s2">&quot;train/max_grad_norm&quot;</span><span class="p">:</span> <span class="n">metrics</span><span class="p">[</span><span class="s2">&quot;max_grad_norm&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                        <span class="s2">&quot;train/mean_grad_norm&quot;</span><span class="p">:</span> <span class="n">metrics</span><span class="p">[</span><span class="s2">&quot;mean_grad_norm&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="p">}</span>
+                                <span class="p">)</span>
+                            <span class="n">aux_loss</span> <span class="o">=</span> <span class="n">metrics</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;aux_loss&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+                            <span class="k">if</span> <span class="n">aux_loss</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                                <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span>
+                                    <span class="p">{</span>
+                                        <span class="s2">&quot;train/aux_loss&quot;</span><span class="p">:</span> <span class="n">aux_loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
+                                    <span class="p">}</span>
+                                <span class="p">)</span>
+                            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                            <span class="n">pbar</span><span class="o">.</span><span class="n">set_postfix</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;train/&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">):</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">train_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">()})</span>
+                            <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">performance_mode</span><span class="p">:</span>
+                                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">log_grad_norms</span><span class="p">:</span>
+                                    <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">({</span>
+                                        <span class="sa">f</span><span class="s2">&quot;grad_norm/</span><span class="si">{</span><span class="n">layer_name</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">:</span> <span class="n">grad_norm</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
+                                        <span class="k">for</span> <span class="n">layer_name</span><span class="p">,</span> <span class="n">grad_norm</span> <span class="ow">in</span> <span class="n">get_layer_names</span><span class="p">(</span><span class="n">metrics</span><span class="p">[</span><span class="s2">&quot;grad_norms&quot;</span><span class="p">])</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
+                                    <span class="p">})</span>
+                                <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span>
+                                    <span class="p">{</span>
+                                        <span class="s2">&quot;time_cal/calculating_metrics_step_time&quot;</span><span class="p">:</span> <span class="p">(</span>
+                                                <span class="n">calculating_metrics_end</span> <span class="o">-</span> <span class="n">calculating_metrics_start</span>
+                                        <span class="p">)</span>
+                                    <span class="p">}</span>
+                                <span class="p">)</span>
+                                <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">captured_memory</span><span class="p">)</span>
+                            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">performance_mode</span><span class="p">:</span>
+                                <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">spmd_mode</span><span class="p">(</span><span class="s2">&quot;allow_all&quot;</span><span class="p">):</span>
+                                    <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">train_metrics</span><span class="p">)</span>
+                            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">training_time</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                                <span class="k">if</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">start_time</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">training_time</span><span class="p">:</span>
+                                    <span class="k">raise</span> <span class="n">EasyDeLTimerError</span><span class="p">(</span><span class="s2">&quot;Time Out&quot;</span><span class="p">)</span>
+                        <span class="k">else</span><span class="p">:</span>
+                            <span class="k">break</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_steps</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">current_step</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_steps</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                                <span class="n">filename</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_save_state</span><span class="p">(</span>
+                                    <span class="n">state</span><span class="o">=</span><span class="n">sharded_state</span><span class="p">,</span>
+                                    <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+                                    <span class="n">milestone</span><span class="o">=</span><span class="kc">True</span>
+                                <span class="p">)</span>
+                                <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_path</span><span class="p">())</span><span class="si">}</span><span class="s2">/</span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="k">else</span><span class="p">:</span>
+                                <span class="nb">print</span><span class="p">(</span>
+                                    <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                                        <span class="s2">&quot;Info : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                                    <span class="p">),</span>
+                                    <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                                        <span class="s2">&quot;You can not use `save_steps` while using LoRA &quot;</span>
+                                        <span class="s2">&quot;right now. this action will be skipped&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                                    <span class="p">)</span>
+                                <span class="p">)</span>
+            <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                    <span class="s2">&quot;KeyboardInterrupt At training model Will return Current State of the Model with Parameters.&quot;</span><span class="p">,</span>
+                    <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                    <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+
+            <span class="k">except</span> <span class="n">EasyDeLTimerError</span><span class="p">:</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                    <span class="s2">&quot;Training reached out maximum training Time Killing training Process &quot;</span>
+                    <span class="s2">&quot;and Will return Current State of the Model with Parameters.&quot;</span><span class="p">,</span>
+                    <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                    <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">merge_lora_rapture_parameters</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="nb">print</span><span class="p">(</span>
+                    <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                        <span class="s2">&quot;Info : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                    <span class="p">),</span>
+                    <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                        <span class="s2">&quot;Merging LoRA Parameters.&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                    <span class="p">)</span>
+                <span class="p">)</span>
+                <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                    <span class="n">params</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">rapture</span><span class="o">.</span><span class="n">merge_parameters</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+                <span class="p">)</span>
+            <span class="n">output</span> <span class="o">=</span> <span class="n">CausalLMTrainerOutput</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">=</span><span class="n">sharded_state</span><span class="p">,</span>
+                <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">,</span>
+                <span class="n">shard_fns</span><span class="o">=</span><span class="n">shard_fns</span><span class="p">,</span>
+                <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+                <span class="n">checkpoint_manager</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_manager</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_steps</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_last_save</span><span class="p">:</span>
+                <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span>
+                    <span class="n">match_partition_rules</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                            <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+                        <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+                        <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">sharded_state</span><span class="p">)</span>
+                    <span class="p">),</span>
+                    <span class="n">dtype_specs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span>
+                <span class="p">)</span>  <span class="c1"># You have to re-init the new shard and gather functions in order to be able to skip LoRA weight</span>
+                <span class="c1"># crashing errors and saving errors</span>
+                <span class="n">filename</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_save_state</span><span class="p">(</span>
+                    <span class="n">state</span><span class="o">=</span><span class="n">sharded_state</span><span class="p">,</span>
+                    <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span>
+                <span class="p">)</span>
+                <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_path</span><span class="p">())</span><span class="si">}</span><span class="s2">/</span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">&quot;</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_eval</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval</span><span class="p">(</span>
+                        <span class="n">sharded_state</span>
+                <span class="p">):</span>
+                    <span class="o">...</span>
+
+            <span class="n">output</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="o">=</span> <span class="n">checkpoint_path</span>
+            <span class="n">output</span><span class="o">.</span><span class="n">last_save_file_name</span> <span class="o">=</span> <span class="n">filename</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">_stop_capturing_memory</span> <span class="o">=</span> <span class="kc">True</span>
+            <span class="n">wandb</span><span class="o">.</span><span class="n">finish</span><span class="p">()</span>
+
+            <span class="k">return</span> <span class="n">output</span>
+
+    <span class="k">def</span> <span class="nf">eval</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Iterator</span><span class="p">[</span><span class="nb">dict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Evaluate the Given Model State and yield the eval metrics&quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`dataloader_eval` is required by evaluator function.&quot;</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span><span class="p">)</span>
+            <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Evaluating&quot;</span><span class="p">)</span>
+            <span class="n">current_step</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="n">loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">accuracy_sum</span> <span class="o">=</span> <span class="kc">None</span>
+
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">eval_iter</span> <span class="o">=</span> <span class="nb">iter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span><span class="p">):</span>
+                    <span class="k">try</span><span class="p">:</span>
+                        <span class="n">batch</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span><span class="n">eval_iter</span><span class="p">)</span>
+                    <span class="k">except</span> <span class="ne">StopIteration</span><span class="p">:</span>
+                        <span class="n">eval_iter</span> <span class="o">=</span> <span class="nb">iter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span><span class="p">)</span>
+                        <span class="n">batch</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span><span class="n">eval_iter</span><span class="p">)</span>
+                    <span class="n">current_step</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="n">time_start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span><span class="p">:</span>
+                        <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+                    <span class="n">metrics</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span><span class="p">(</span>
+                        <span class="n">model_state</span><span class="p">,</span>
+                        <span class="n">batch</span>
+                    <span class="p">)</span>
+                    <span class="n">total_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">time_start</span>
+                    <span class="p">(</span>
+                        <span class="n">loss</span><span class="p">,</span> <span class="n">accuracy</span><span class="p">,</span> <span class="n">aux_loss</span>
+                    <span class="p">)</span> <span class="o">=</span> <span class="n">metrics</span>
+
+                    <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+                    <span class="n">accuracy_sum</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">accuracy</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="p">(</span>
+                                <span class="n">accuracy_sum</span> <span class="ow">is</span> <span class="kc">None</span>
+                        <span class="p">)</span> <span class="k">else</span> <span class="n">accuracy_sum</span> <span class="o">+</span> <span class="n">accuracy</span>
+                    <span class="p">)</span>
+
+                    <span class="n">eval_metrics</span> <span class="o">=</span> <span class="p">{</span>
+                        <span class="s2">&quot;eval/loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                        <span class="s2">&quot;eval/mean_loss&quot;</span><span class="p">:</span> <span class="n">loss_sum</span> <span class="o">/</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">),</span>
+                        <span class="s2">&quot;eval/mean_accuracy_sum&quot;</span><span class="p">:</span> <span class="n">accuracy_sum</span> <span class="o">/</span> <span class="p">(</span>
+                                <span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span>
+                        <span class="p">),</span>
+                        <span class="s2">&quot;eval/step&quot;</span><span class="p">:</span> <span class="n">current_step</span><span class="p">,</span>
+                        <span class="s2">&quot;eval/step_time&quot;</span><span class="p">:</span> <span class="n">total_time</span><span class="p">,</span>
+                        <span class="s2">&quot;eval/perplexity&quot;</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">loss</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                    <span class="p">}</span>
+                    <span class="k">if</span> <span class="n">aux_loss</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                        <span class="n">eval_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span>
+                            <span class="p">{</span><span class="s2">&quot;eval/aux_loss&quot;</span><span class="p">:</span> <span class="n">aux_loss</span><span class="p">}</span>
+                        <span class="p">)</span>
+                    <span class="n">log_metrics</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">eval_metrics</span><span class="p">)</span>
+                    <span class="n">eval_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">captured_memory</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">use_wandb</span><span class="p">:</span>
+                        <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">spmd_mode</span><span class="p">(</span><span class="s2">&quot;allow_all&quot;</span><span class="p">):</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                                <span class="n">eval_metrics</span>
+                            <span class="p">)</span>
+
+                    <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                    <span class="n">pbar</span><span class="o">.</span><span class="n">set_postfix</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;eval/&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">):</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">log_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">()})</span>
+                    <span class="k">yield</span> <span class="n">log_metrics</span>
+            <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                    <span class="s2">&quot;KeyboardInterrupt At Evaluation model Will return Nothing and just pass.&quot;</span><span class="p">,</span>
+                    <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                    <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer.configure_functions" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">configure_functions</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The configure_functions function is responsible for configuring the functions that will be used in training.
+It does this by first defining a function called function_configurations, which initializes the model parameters and returns
+them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate
+on a batch of data, including:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access the class attributes</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="src.python.easydel.trainer.base_trainer.TrainerConfigureFunctionFuncOutput">TrainerConfigureFunctionFuncOutput</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A TrainerConfigureFunctionFuncOutput object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/causal_language_model_trainer/causal_language_model_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">configure_functions</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The configure_functions function is responsible for configuring the functions that will be used in training.</span>
+<span class="sd">    It does this by first defining a function called function_configurations, which initializes the model parameters and returns</span>
+<span class="sd">    them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate</span>
+<span class="sd">    on a batch of data, including:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access the class attributes</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A TrainerConfigureFunctionFuncOutput object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">initialize_state_function</span><span class="p">():</span>
+        <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">init_weights</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">init_input_shape</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">:</span>
+            <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_bf16</span><span class="p">(</span><span class="n">initialized_parameters</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float16</span><span class="p">:</span>
+            <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_fp16</span><span class="p">(</span><span class="n">initialized_parameters</span><span class="p">)</span>
+
+        <span class="n">tx</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx</span>
+        <span class="n">parameters</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">freeze</span><span class="p">({</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">initialized_parameters</span><span class="p">})</span>
+        <span class="n">tx_init</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">:</span>
+                <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_bf16</span><span class="p">(</span><span class="n">lora_parameters</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float16</span><span class="p">:</span>
+                <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_fp16</span><span class="p">(</span><span class="n">lora_parameters</span><span class="p">)</span>
+
+            <span class="k">return</span> <span class="n">EasyDeLState</span><span class="p">(</span>
+                <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">lora_parameters</span><span class="p">,</span>
+                <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span><span class="p">,</span>
+                <span class="n">opt_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span><span class="p">,</span>
+                <span class="n">tx_init</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">tx_init</span><span class="p">),</span>
+                <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span><span class="p">,</span>
+                <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create</span><span class="p">(</span>
+                <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                <span class="n">module_config</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">),</span>
+                <span class="n">tx_init</span><span class="o">=</span><span class="n">tx_init</span><span class="p">,</span>
+                <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>
+            <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">create_state_from_params_function</span><span class="p">(</span><span class="n">parameters</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create</span><span class="p">(</span>
+                <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tx</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                <span class="n">module_config</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">),</span>
+                <span class="n">tx_init</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">),</span>
+                <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">EasyDeLState</span><span class="p">(</span>
+                <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span><span class="p">,</span>
+                <span class="n">opt_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span><span class="p">,</span>
+                <span class="n">tx_init</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)),</span>
+                <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span><span class="p">,</span>
+                <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="p">)</span>
+
+    <span class="n">state_shape</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="n">initialize_state_function</span><span class="p">)</span>
+    <span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+            <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+        <span class="n">state_shape</span>
+    <span class="p">)</span>
+    <span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+        <span class="n">create_state_from_params_function</span><span class="p">,</span>
+        <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="o">.</span><span class="n">params</span><span class="p">,),</span>
+        <span class="n">out_shardings</span><span class="o">=</span><span class="n">state_partition_spec</span><span class="p">,</span>
+        <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,)</span>
+    <span class="p">)</span>
+    <span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+        <span class="n">create_casual_language_model_train_step</span><span class="p">(</span>
+            <span class="n">partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span><span class="p">,</span>
+            <span class="n">label_smoothing_factor</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">label_smoothing_factor</span><span class="p">,</span>
+            <span class="n">z_loss</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">z_loss</span><span class="p">,</span>
+        <span class="p">),</span>
+        <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+        <span class="n">create_casual_language_model_evaluation_step</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span><span class="p">),</span>
+        <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">mesh</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_mesh</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ckpt_path_exists</span><span class="p">()</span>
+    <span class="n">checkpoint_manager</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_streaming_checkpointer</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">state_partition_spec</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">state_shape</span> <span class="o">=</span> <span class="n">state_shape</span>
+
+    <span class="k">return</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">(</span>
+        <span class="n">create_sharded_state_from_params_function</span><span class="o">=</span><span class="n">create_sharded_state_from_params_function</span><span class="p">,</span>
+        <span class="n">sharded_train_step_function</span><span class="o">=</span><span class="n">sharded_train_step_function</span><span class="p">,</span>
+        <span class="n">sharded_eval_step_function</span><span class="o">=</span><span class="n">sharded_eval_step_function</span><span class="p">,</span>
+        <span class="n">mesh</span><span class="o">=</span><span class="n">mesh</span><span class="p">,</span>
+        <span class="n">checkpoint_manager</span><span class="o">=</span><span class="n">checkpoint_manager</span><span class="p">,</span>
+        <span class="n">initialize_state_function</span><span class="o">=</span><span class="n">initialize_state_function</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer.eval" class="doc doc-heading">
+            <code class="highlight language-python"><span class="nb">eval</span><span class="p">(</span><span class="n">model_state</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Evaluate the Given Model State and yield the eval metrics</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/causal_language_model_trainer/causal_language_model_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">eval</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Iterator</span><span class="p">[</span><span class="nb">dict</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Evaluate the Given Model State and yield the eval metrics&quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`dataloader_eval` is required by evaluator function.&quot;</span>
+    <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span><span class="p">)</span>
+        <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Evaluating&quot;</span><span class="p">)</span>
+        <span class="n">current_step</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">accuracy_sum</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">eval_iter</span> <span class="o">=</span> <span class="nb">iter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span><span class="p">):</span>
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">batch</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span><span class="n">eval_iter</span><span class="p">)</span>
+                <span class="k">except</span> <span class="ne">StopIteration</span><span class="p">:</span>
+                    <span class="n">eval_iter</span> <span class="o">=</span> <span class="nb">iter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span><span class="p">)</span>
+                    <span class="n">batch</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span><span class="n">eval_iter</span><span class="p">)</span>
+                <span class="n">current_step</span> <span class="o">+=</span> <span class="mi">1</span>
+                <span class="n">time_start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span><span class="p">:</span>
+                    <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+                <span class="n">metrics</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span><span class="p">(</span>
+                    <span class="n">model_state</span><span class="p">,</span>
+                    <span class="n">batch</span>
+                <span class="p">)</span>
+                <span class="n">total_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">time_start</span>
+                <span class="p">(</span>
+                    <span class="n">loss</span><span class="p">,</span> <span class="n">accuracy</span><span class="p">,</span> <span class="n">aux_loss</span>
+                <span class="p">)</span> <span class="o">=</span> <span class="n">metrics</span>
+
+                <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+                <span class="n">accuracy_sum</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">accuracy</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="p">(</span>
+                            <span class="n">accuracy_sum</span> <span class="ow">is</span> <span class="kc">None</span>
+                    <span class="p">)</span> <span class="k">else</span> <span class="n">accuracy_sum</span> <span class="o">+</span> <span class="n">accuracy</span>
+                <span class="p">)</span>
+
+                <span class="n">eval_metrics</span> <span class="o">=</span> <span class="p">{</span>
+                    <span class="s2">&quot;eval/loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                    <span class="s2">&quot;eval/mean_loss&quot;</span><span class="p">:</span> <span class="n">loss_sum</span> <span class="o">/</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">),</span>
+                    <span class="s2">&quot;eval/mean_accuracy_sum&quot;</span><span class="p">:</span> <span class="n">accuracy_sum</span> <span class="o">/</span> <span class="p">(</span>
+                            <span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span>
+                    <span class="p">),</span>
+                    <span class="s2">&quot;eval/step&quot;</span><span class="p">:</span> <span class="n">current_step</span><span class="p">,</span>
+                    <span class="s2">&quot;eval/step_time&quot;</span><span class="p">:</span> <span class="n">total_time</span><span class="p">,</span>
+                    <span class="s2">&quot;eval/perplexity&quot;</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">loss</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                <span class="p">}</span>
+                <span class="k">if</span> <span class="n">aux_loss</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">eval_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span>
+                        <span class="p">{</span><span class="s2">&quot;eval/aux_loss&quot;</span><span class="p">:</span> <span class="n">aux_loss</span><span class="p">}</span>
+                    <span class="p">)</span>
+                <span class="n">log_metrics</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">eval_metrics</span><span class="p">)</span>
+                <span class="n">eval_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">captured_memory</span><span class="p">)</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">use_wandb</span><span class="p">:</span>
+                    <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">spmd_mode</span><span class="p">(</span><span class="s2">&quot;allow_all&quot;</span><span class="p">):</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                            <span class="n">eval_metrics</span>
+                        <span class="p">)</span>
+
+                <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                <span class="n">pbar</span><span class="o">.</span><span class="n">set_postfix</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;eval/&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">):</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">log_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">()})</span>
+                <span class="k">yield</span> <span class="n">log_metrics</span>
+        <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                <span class="s2">&quot;KeyboardInterrupt At Evaluation model Will return Nothing and just pass.&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer.train" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">train</span><span class="p">(</span><span class="n">model_parameters</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">state</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The train function is the main function of this module.
+It takes a model_parameters argument which can be used to load a pretrained model and finetune it.
+The train function returns an CausalLMTrainerOutput object that contains the last saved file name, predict func,
+train state, mesh and checkpoint streamer.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Make the class methods aware of other methods and
+attributes within the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>model_parameters</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="flax.core.FrozenDict">FrozenDict</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>flax.core.FrozenDict: Load a pre-trained
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>state</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<a class="autorefs autorefs-internal" title="src.python.easydel.etils.easystate.EasyDeLState" href="../generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState">EasyDeLState</a>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[EasyDeLState]: Ready to Use State</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="src.python.easydel.trainer.causal_language_model_trainer.modeling_output.CausalLMTrainerOutput">CausalLMTrainerOutput</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>An object of type "CausalLMTrainerOutput"</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/causal_language_model_trainer/causal_language_model_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">train</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">model_parameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLState</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">CausalLMTrainerOutput</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The train function is the main function of this module.</span>
+<span class="sd">    It takes a model_parameters argument which can be used to load a pretrained model and finetune it.</span>
+<span class="sd">    The train function returns an CausalLMTrainerOutput object that contains the last saved file name, predict func,</span>
+<span class="sd">    train state, mesh and checkpoint streamer.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Make the class methods aware of other methods and</span>
+<span class="sd">            attributes within the class</span>
+<span class="sd">        model_parameters: flax.core.FrozenDict: Load a pre-trained</span>
+<span class="sd">            model</span>
+<span class="sd">        state: Optional[EasyDeLState]: Ready to Use State</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        An object of type &quot;CausalLMTrainerOutput&quot;</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">get_layer_names</span><span class="p">(</span><span class="n">frozen_dict</span><span class="p">,</span> <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;&quot;</span><span class="p">):</span>
+        <span class="n">layer_names</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">frozen_dict</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="n">FrozenDict</span><span class="p">):</span>
+                <span class="n">layer_names</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">get_layer_names</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="n">prefix</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">))</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">layer_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">lstrip</span><span class="p">(</span><span class="s2">&quot;/&quot;</span><span class="p">)</span>
+                <span class="n">layer_names</span><span class="p">[</span><span class="n">layer_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+        <span class="k">return</span> <span class="n">layer_names</span>
+
+    <span class="k">def</span> <span class="nf">count_model_parameters</span><span class="p">(</span><span class="n">_p</span><span class="p">):</span>
+        <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;Model Contain </span><span class="si">{</span><span class="nb">sum</span><span class="p">(</span><span class="n">n</span><span class="o">.</span><span class="n">size</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">n</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_flatten</span><span class="p">(</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">_p</span><span class="p">))[</span><span class="mi">0</span><span class="p">])</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="mf">1e9</span><span class="si">}</span><span class="s2"> &quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;Billion Parameters&quot;</span><span class="p">,</span>
+            <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+
+    <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="s2">&quot;SAVING_SKIPPED&quot;</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">performance_mode</span><span class="p">:</span>
+        <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+            <span class="s2">&quot;Performance Mode is ON, we will ignore the Memory Tracking, WANDB Logging, and extra information &quot;</span>
+            <span class="s2">&quot;Process.&quot;</span><span class="p">,</span>
+            <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span>
+            <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+    <span class="n">start_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+    <span class="n">sharded_state</span><span class="p">,</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state</span><span class="p">(</span>
+        <span class="n">model_parameters</span><span class="o">=</span><span class="n">model_parameters</span><span class="p">,</span>
+        <span class="n">state</span><span class="o">=</span><span class="n">state</span>
+    <span class="p">)</span>
+
+    <span class="n">count_model_parameters</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+    <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">)</span>
+        <span class="n">current_step</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">device_get</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">step</span><span class="p">))</span>
+        <span class="n">loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">accuracy_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">step</span><span class="o">.</span><span class="n">tolist</span><span class="p">())</span>  <span class="c1"># type: ignore</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">model_parameters_number</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span>
+                <span class="n">n</span><span class="o">.</span><span class="n">size</span> <span class="k">for</span> <span class="n">n</span> <span class="ow">in</span>
+                <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_flatten</span><span class="p">(</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span><span class="p">))[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="p">)</span> <span class="o">/</span> <span class="mf">1e9</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                <span class="p">{</span>
+                    <span class="s2">&quot;Number of Model Parameters (Billion)&quot;</span><span class="p">:</span> <span class="n">model_parameters_number</span>
+                <span class="p">}</span>
+            <span class="p">)</span>
+            <span class="n">wandb</span><span class="o">.</span><span class="n">summary</span><span class="p">[</span><span class="s2">&quot;Number of Model Parameters (Billion)&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_parameters_number</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="n">train_iter</span> <span class="o">=</span> <span class="nb">iter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span><span class="p">):</span>
+                <span class="n">time_s</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="o">//</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span><span class="p">):</span>
+                    <span class="k">try</span><span class="p">:</span>
+                        <span class="n">batch</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span><span class="n">train_iter</span><span class="p">)</span>
+                    <span class="k">except</span> <span class="ne">StopIteration</span><span class="p">:</span>
+                        <span class="n">train_iter</span> <span class="o">=</span> <span class="nb">iter</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span><span class="p">)</span>
+                        <span class="n">batch</span> <span class="o">=</span> <span class="nb">next</span><span class="p">(</span><span class="n">train_iter</span><span class="p">)</span>
+                    <span class="n">current_step</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="k">if</span> <span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                            <span class="ow">and</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="o">&gt;</span> <span class="n">current_step</span>
+                    <span class="p">):</span>
+                        <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">current_step</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">:</span>
+
+                        <span class="n">time_prev</span> <span class="o">=</span> <span class="n">time_s</span>
+                        <span class="n">time_s</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                        <span class="n">step_time</span> <span class="o">=</span> <span class="n">time_s</span> <span class="o">-</span> <span class="n">time_prev</span>
+
+                        <span class="k">for</span> <span class="n">ssb</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span><span class="p">:</span>
+                            <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">ssb</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+                        <span class="p">(</span>
+                            <span class="n">sharded_state</span><span class="p">,</span>
+                            <span class="n">loss</span><span class="p">,</span>
+                            <span class="n">metrics</span><span class="p">,</span>
+                        <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span><span class="p">(</span><span class="n">sharded_state</span><span class="p">,</span> <span class="n">batch</span><span class="p">)</span>
+
+                        <span class="n">trained_tokens</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">multiply</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">multiply</span><span class="p">(</span>
+                                <span class="n">current_step</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span>
+                            <span class="p">)</span>
+                        <span class="p">)</span>  <span class="c1"># It&#39;s faster</span>
+
+                        <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">spmd_mode</span><span class="p">(</span><span class="s2">&quot;allow_all&quot;</span><span class="p">):</span>
+                            <span class="n">calculating_metrics_start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                            <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+                            <span class="n">accuracy</span> <span class="o">=</span> <span class="n">metrics</span><span class="p">[</span><span class="s2">&quot;accuracy&quot;</span><span class="p">]</span>
+                            <span class="n">accuracy_sum</span> <span class="o">=</span> <span class="n">accuracy</span> <span class="k">if</span> <span class="n">accuracy_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">accuracy_sum</span> <span class="o">+</span> <span class="n">accuracy</span>
+                            <span class="n">mean_loss</span> <span class="o">=</span> <span class="n">loss_sum</span> <span class="o">/</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">)</span>
+                            <span class="n">mean_accuracy</span> <span class="o">=</span> <span class="n">accuracy_sum</span> <span class="o">/</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">)</span>
+                            <span class="n">perplexity</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">loss</span><span class="p">)</span>
+                            <span class="n">calculating_metrics_end</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                            <span class="n">train_metrics</span> <span class="o">=</span> <span class="p">{</span>
+                                <span class="s2">&quot;train/loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                <span class="s2">&quot;train/mean_loss&quot;</span><span class="p">:</span> <span class="n">mean_loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                <span class="s2">&quot;train/accuracy&quot;</span><span class="p">:</span> <span class="n">accuracy</span><span class="p">,</span>
+                                <span class="s2">&quot;train/mean_accuracy&quot;</span><span class="p">:</span> <span class="n">mean_accuracy</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                <span class="s2">&quot;train/learning_rate&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span><span class="p">(</span><span class="n">current_step</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                <span class="s2">&quot;train/step&quot;</span><span class="p">:</span> <span class="n">current_step</span><span class="p">,</span>
+                                <span class="s2">&quot;train/step_time&quot;</span><span class="p">:</span> <span class="n">step_time</span><span class="p">,</span>
+                                <span class="s2">&quot;train/perplexity&quot;</span><span class="p">:</span> <span class="n">perplexity</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                <span class="s2">&quot;train/trained_tokens&quot;</span><span class="p">:</span> <span class="n">trained_tokens</span><span class="p">,</span>
+                                <span class="s2">&quot;train/regularization_z_loss&quot;</span><span class="p">:</span> <span class="n">metrics</span><span class="p">[</span><span class="s2">&quot;regularization_z_loss&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                <span class="s2">&quot;train/epoch&quot;</span><span class="p">:</span> <span class="n">epoch</span><span class="p">,</span>
+                            <span class="p">}</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">log_grad_norms</span><span class="p">:</span>
+                            <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span>
+                                <span class="p">{</span>
+                                    <span class="s2">&quot;train/max_grad_norm&quot;</span><span class="p">:</span> <span class="n">metrics</span><span class="p">[</span><span class="s2">&quot;max_grad_norm&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/mean_grad_norm&quot;</span><span class="p">:</span> <span class="n">metrics</span><span class="p">[</span><span class="s2">&quot;mean_grad_norm&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                <span class="p">}</span>
+                            <span class="p">)</span>
+                        <span class="n">aux_loss</span> <span class="o">=</span> <span class="n">metrics</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;aux_loss&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+                        <span class="k">if</span> <span class="n">aux_loss</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                            <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span>
+                                <span class="p">{</span>
+                                    <span class="s2">&quot;train/aux_loss&quot;</span><span class="p">:</span> <span class="n">aux_loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
+                                <span class="p">}</span>
+                            <span class="p">)</span>
+                        <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                        <span class="n">pbar</span><span class="o">.</span><span class="n">set_postfix</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;train/&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">):</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">train_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">()})</span>
+                        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">performance_mode</span><span class="p">:</span>
+                            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">log_grad_norms</span><span class="p">:</span>
+                                <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">({</span>
+                                    <span class="sa">f</span><span class="s2">&quot;grad_norm/</span><span class="si">{</span><span class="n">layer_name</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">:</span> <span class="n">grad_norm</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
+                                    <span class="k">for</span> <span class="n">layer_name</span><span class="p">,</span> <span class="n">grad_norm</span> <span class="ow">in</span> <span class="n">get_layer_names</span><span class="p">(</span><span class="n">metrics</span><span class="p">[</span><span class="s2">&quot;grad_norms&quot;</span><span class="p">])</span><span class="o">.</span><span class="n">items</span><span class="p">()</span>
+                                <span class="p">})</span>
+                            <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span>
+                                <span class="p">{</span>
+                                    <span class="s2">&quot;time_cal/calculating_metrics_step_time&quot;</span><span class="p">:</span> <span class="p">(</span>
+                                            <span class="n">calculating_metrics_end</span> <span class="o">-</span> <span class="n">calculating_metrics_start</span>
+                                    <span class="p">)</span>
+                                <span class="p">}</span>
+                            <span class="p">)</span>
+                            <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">captured_memory</span><span class="p">)</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">performance_mode</span><span class="p">:</span>
+                            <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">spmd_mode</span><span class="p">(</span><span class="s2">&quot;allow_all&quot;</span><span class="p">):</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">train_metrics</span><span class="p">)</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">training_time</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                            <span class="k">if</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">start_time</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">training_time</span><span class="p">:</span>
+                                <span class="k">raise</span> <span class="n">EasyDeLTimerError</span><span class="p">(</span><span class="s2">&quot;Time Out&quot;</span><span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="k">break</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_steps</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">current_step</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_steps</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                            <span class="n">filename</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_save_state</span><span class="p">(</span>
+                                <span class="n">state</span><span class="o">=</span><span class="n">sharded_state</span><span class="p">,</span>
+                                <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+                                <span class="n">milestone</span><span class="o">=</span><span class="kc">True</span>
+                            <span class="p">)</span>
+                            <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_path</span><span class="p">())</span><span class="si">}</span><span class="s2">/</span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="k">else</span><span class="p">:</span>
+                            <span class="nb">print</span><span class="p">(</span>
+                                <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                                    <span class="s2">&quot;Info : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                                <span class="p">),</span>
+                                <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                                    <span class="s2">&quot;You can not use `save_steps` while using LoRA &quot;</span>
+                                    <span class="s2">&quot;right now. this action will be skipped&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                                <span class="p">)</span>
+                            <span class="p">)</span>
+        <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                <span class="s2">&quot;KeyboardInterrupt At training model Will return Current State of the Model with Parameters.&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+
+        <span class="k">except</span> <span class="n">EasyDeLTimerError</span><span class="p">:</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                <span class="s2">&quot;Training reached out maximum training Time Killing training Process &quot;</span>
+                <span class="s2">&quot;and Will return Current State of the Model with Parameters.&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">merge_lora_rapture_parameters</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="nb">print</span><span class="p">(</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                    <span class="s2">&quot;Info : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">),</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                    <span class="s2">&quot;Merging LoRA Parameters.&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                <span class="n">params</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">rapture</span><span class="o">.</span><span class="n">merge_parameters</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">output</span> <span class="o">=</span> <span class="n">CausalLMTrainerOutput</span><span class="p">(</span>
+            <span class="n">state</span><span class="o">=</span><span class="n">sharded_state</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">,</span>
+            <span class="n">shard_fns</span><span class="o">=</span><span class="n">shard_fns</span><span class="p">,</span>
+            <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+            <span class="n">checkpoint_manager</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_manager</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_steps</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_last_save</span><span class="p">:</span>
+            <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span>
+                <span class="n">match_partition_rules</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                        <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+                    <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+                    <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">sharded_state</span><span class="p">)</span>
+                <span class="p">),</span>
+                <span class="n">dtype_specs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span>
+            <span class="p">)</span>  <span class="c1"># You have to re-init the new shard and gather functions in order to be able to skip LoRA weight</span>
+            <span class="c1"># crashing errors and saving errors</span>
+            <span class="n">filename</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_save_state</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">=</span><span class="n">sharded_state</span><span class="p">,</span>
+                <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span>
+            <span class="p">)</span>
+            <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_path</span><span class="p">())</span><span class="si">}</span><span class="s2">/</span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">&quot;</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_eval</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval</span><span class="p">(</span>
+                    <span class="n">sharded_state</span>
+            <span class="p">):</span>
+                <span class="o">...</span>
+
+        <span class="n">output</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="o">=</span> <span class="n">checkpoint_path</span>
+        <span class="n">output</span><span class="o">.</span><span class="n">last_save_file_name</span> <span class="o">=</span> <span class="n">filename</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">_stop_capturing_memory</span> <span class="o">=</span> <span class="kc">True</span>
+        <span class="n">wandb</span><span class="o">.</span><span class="n">finish</span><span class="p">()</span>
+
+        <span class="k">return</span> <span class="n">output</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-causal_language_model_trainer-fwd_bwd_functions/index.html b/generated-trainer-causal_language_model_trainer-fwd_bwd_functions/index.html
new file mode 100644
index 000000000..5a886daf1
--- /dev/null
+++ b/generated-trainer-causal_language_model_trainer-fwd_bwd_functions/index.html
@@ -0,0 +1,6633 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/">
+      
+      
+        <link rel="next" href="../generated-trainer-causal_language_model_trainer-modeling_output/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Fwd Bwd Functions - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainercausal_language_model_trainerfwd_bwd_functions" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Fwd Bwd Functions
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.fwd_bwd_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      fwd_bwd_functions
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.fwd_bwd_functions.create_casual_language_model_evaluation_step" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_casual_language_model_evaluation_step
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.fwd_bwd_functions.create_casual_language_model_train_step" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_casual_language_model_train_step
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.fwd_bwd_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      fwd_bwd_functions
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.fwd_bwd_functions.create_casual_language_model_evaluation_step" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_casual_language_model_evaluation_step
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.fwd_bwd_functions.create_casual_language_model_train_step" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_casual_language_model_train_step
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainercausal_language_model_trainerfwd_bwd_functions">trainer.causal_language_model_trainer.fwd_bwd_functions</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.causal_language_model_trainer.fwd_bwd_functions"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.causal_language_model_trainer.fwd_bwd_functions.create_casual_language_model_evaluation_step" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_casual_language_model_evaluation_step</span><span class="p">(</span><span class="n">partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">))</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The create_casual_language_model_evaluation_step function is used to create a function that calculates the loss
+ and accuracy of a model. It takes in a set of parameters, which are then passed into the state.apply_fn function
+to generate logits for each token in the batch. The cross entropy loss and accuracy are then calculated from these
+logits.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>partition_spec</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the partitioning of the model parameters</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;)</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A function that can be used to calculate the loss and accuracy</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>of a model</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/causal_language_model_trainer/fwd_bwd_functions.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">create_casual_language_model_evaluation_step</span><span class="p">(</span>
+        <span class="n">partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">)</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The create_casual_language_model_evaluation_step function is used to create a function that calculates the loss</span>
+<span class="sd">     and accuracy of a model. It takes in a set of parameters, which are then passed into the state.apply_fn function</span>
+<span class="sd">    to generate logits for each token in the batch. The cross entropy loss and accuracy are then calculated from these</span>
+<span class="sd">    logits.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        partition_spec: Specify the partitioning of the model parameters</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A function that can be used to calculate the loss and accuracy</span>
+<span class="sd">        of a model</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">casual_language_model_evaluation_step</span><span class="p">(</span><span class="n">state</span><span class="p">,</span> <span class="n">batch_eval</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The casual_language_model_evaluation_step function is used to calculate the loss and accuracy of a model.</span>
+<span class="sd">        It takes in a set of parameters, which are then passed into the state.apply_fn function</span>
+<span class="sd">        to generate logits for each token in the batch. The cross entropy loss and accuracy are then calculated from</span>
+<span class="sd">        these logits.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            state: Store the model parameters and other information</span>
+<span class="sd">                about the training process</span>
+<span class="sd">            batch_eval: Pass the batch of data to the function</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The loss and accuracy of the model</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch_eval</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">batch_eval</span><span class="p">,</span> <span class="n">partition_spec</span><span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">calculate_loss</span><span class="p">(</span><span class="n">params</span><span class="p">):</span>
+<span class="w">            </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">            The calculate_loss function is used to calculate the loss and accuracy of a model.</span>
+<span class="sd">            It takes in a set of parameters, which are then passed into the state.apply_fn function</span>
+<span class="sd">            to generate logits for each token in the batch. The cross entropy loss and accuracy are then calculated</span>
+<span class="sd">            from these logits.</span>
+
+<span class="sd">            :param params: Pass the model parameters to the function</span>
+<span class="sd">            :return: The loss and the accuracy</span>
+
+<span class="sd">            &quot;&quot;&quot;</span>
+            <span class="n">labels</span> <span class="o">=</span> <span class="n">batch_eval</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;labels&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">labels</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">labels</span> <span class="o">=</span> <span class="n">batch_eval</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">:]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">labels</span> <span class="o">=</span> <span class="n">labels</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">:]</span>
+            <span class="n">model_outputs</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span> <span class="o">**</span><span class="n">batch_eval</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">logits</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">logits</span>
+            <span class="n">aux_loss</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">model_outputs</span><span class="p">,</span> <span class="s2">&quot;aux_loss&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">valid</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">where</span><span class="p">(</span>
+                <span class="p">(</span><span class="n">batch_eval</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">][:,</span> <span class="mi">1</span><span class="p">:]</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">)</span>
+                <span class="o">&amp;</span> <span class="p">(</span><span class="n">labels</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">),</span>
+                <span class="mf">1.0</span><span class="p">,</span>
+                <span class="mf">0.0</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">loss</span><span class="p">,</span> <span class="n">accuracy</span> <span class="o">=</span> <span class="n">cross_entropy_loss_and_accuracy</span><span class="p">(</span>
+                <span class="n">logits</span><span class="p">[:,</span> <span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="p">:],</span>
+                <span class="n">labels</span><span class="p">,</span>
+                <span class="n">valid</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="n">aux_loss</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">loss</span> <span class="o">+=</span> <span class="n">aux_loss</span>
+            <span class="k">return</span> <span class="n">loss</span><span class="p">,</span> <span class="p">(</span><span class="n">accuracy</span><span class="p">,</span> <span class="n">aux_loss</span><span class="p">)</span>
+
+        <span class="n">loss__</span><span class="p">,</span> <span class="p">(</span><span class="n">accuracy__</span><span class="p">,</span> <span class="n">aux_loss__</span><span class="p">)</span> <span class="o">=</span> <span class="n">calculate_loss</span><span class="p">(</span><span class="n">state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">loss__</span><span class="p">,</span> <span class="n">accuracy__</span><span class="p">,</span> <span class="n">aux_loss__</span>
+
+    <span class="k">return</span> <span class="n">casual_language_model_evaluation_step</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.causal_language_model_trainer.fwd_bwd_functions.create_casual_language_model_train_step" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_casual_language_model_train_step</span><span class="p">(</span><span class="n">partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">),</span> <span class="n">label_smoothing_factor</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">z_loss</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The create_casual_language_model_train_step function is a training step function that takes in the current state
+of the model,and a batch of data. It then calculates the loss and accuracy for this batch, and returns
+an updated state with new parameters based on these gradients.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>partition_spec</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify which devices the model will be split
+across</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>label_smoothing_factor</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A float in [0, 1] specifying the amount
+of label smoothing to apply, where 0 means no smoothing.</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>z_loss</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A regularization term that adds a penalty for large
+weights, where 0 means no regularization.</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_accumulation_steps</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int : gradient accumulation step
+size from arguments</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A casual_language_model_train_step function that takes in the</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>current state of the model,</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/causal_language_model_trainer/fwd_bwd_functions.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 14</span>
+<span class="normal"> 15</span>
+<span class="normal"> 16</span>
+<span class="normal"> 17</span>
+<span class="normal"> 18</span>
+<span class="normal"> 19</span>
+<span class="normal"> 20</span>
+<span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">create_casual_language_model_train_step</span><span class="p">(</span>
+        <span class="n">partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span>
+        <span class="n">label_smoothing_factor</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">z_loss</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">gradient_accumulation_steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The create_casual_language_model_train_step function is a training step function that takes in the current state</span>
+<span class="sd">    of the model,and a batch of data. It then calculates the loss and accuracy for this batch, and returns</span>
+<span class="sd">    an updated state with new parameters based on these gradients.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        partition_spec: Specify which devices the model will be split</span>
+<span class="sd">            across</span>
+<span class="sd">        label_smoothing_factor: A float in [0, 1] specifying the amount</span>
+<span class="sd">            of label smoothing to apply, where 0 means no smoothing.</span>
+<span class="sd">        z_loss: A regularization term that adds a penalty for large</span>
+<span class="sd">            weights, where 0 means no regularization.</span>
+<span class="sd">        gradient_accumulation_steps: int : gradient accumulation step</span>
+<span class="sd">            size from arguments</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A casual_language_model_train_step function that takes in the</span>
+<span class="sd">        current state of the model,</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="n">gradient_accumulation_steps</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">,</span> <span class="s2">&quot;gradient_accumulation_steps must be greater than 0&quot;</span>  <span class="c1"># Ignore</span>
+
+    <span class="k">def</span> <span class="nf">casual_language_model_train_step</span><span class="p">(</span><span class="n">state</span><span class="p">,</span> <span class="n">batch</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The casual_language_model_train_step function is a training step function that takes in the current state</span>
+<span class="sd">        of the model and a batch of data. It then calculates the loss and accuracy for this batch,</span>
+<span class="sd">        and returns an updated state with new parameters based on these gradients.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            state: Store the model parameters</span>
+<span class="sd">            batch: Pass the data to the model, dict with input_ids(bs,</span>
+<span class="sd">                seq_len), labels(bs, seq_len-1), attention_mask(bs,</span>
+<span class="sd">                seq_len)</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (state, loss, accuracy)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">partition_spec</span><span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">calculate_loss</span><span class="p">(</span><span class="n">params</span><span class="p">):</span>
+            <span class="n">labels</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;labels&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">labels</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">labels</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">:]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">labels</span> <span class="o">=</span> <span class="n">labels</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">:]</span>
+            <span class="n">model_outputs</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span> <span class="o">**</span><span class="n">batch</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">logits</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">logits</span>
+            <span class="n">aux_loss</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">model_outputs</span><span class="p">,</span> <span class="s2">&quot;aux_loss&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="n">loss_normalizing_factor</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">SpecialLossNormalizingFactor</span><span class="o">.</span><span class="n">NUM_REAL_TARGET_TOKENS</span>
+            <span class="p">)</span>
+            <span class="c1"># loss_weights is 1 unless the label is &lt;= 0 or the attention mask is 0</span>
+            <span class="n">loss_weights</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">where</span><span class="p">(</span>
+                <span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">][:,</span> <span class="mi">1</span><span class="p">:]</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">)</span> <span class="o">&amp;</span> <span class="p">(</span><span class="n">labels</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">),</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">0</span>
+            <span class="p">)</span>
+            <span class="n">lnf</span><span class="p">,</span> <span class="n">weights</span> <span class="o">=</span> <span class="n">get_loss_normalizing_factor_and_weights</span><span class="p">(</span>
+                <span class="n">loss_normalizing_factor</span><span class="p">,</span>
+                <span class="p">{</span>
+                    <span class="s2">&quot;decoder_target_tokens&quot;</span><span class="p">:</span> <span class="n">labels</span><span class="p">,</span>
+                    <span class="s2">&quot;decoder_loss_weights&quot;</span><span class="p">:</span> <span class="n">loss_weights</span><span class="p">,</span>
+                <span class="p">},</span>
+            <span class="p">)</span>
+            <span class="p">(</span>
+                <span class="n">loss</span><span class="p">,</span>
+                <span class="n">z_loss_computed</span><span class="p">,</span>
+                <span class="n">weight_sum</span><span class="p">,</span>
+                <span class="n">accuracy</span><span class="p">,</span>
+            <span class="p">)</span> <span class="o">=</span> <span class="n">compute_weighted_cross_entropy_and_accuracy</span><span class="p">(</span>
+                <span class="n">logits</span><span class="o">=</span><span class="n">logits</span><span class="p">[:,</span> <span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="p">:],</span>
+                <span class="n">targets</span><span class="o">=</span><span class="n">labels</span><span class="p">,</span>
+                <span class="n">weights</span><span class="o">=</span><span class="n">weights</span><span class="p">,</span>
+                <span class="n">label_smoothing</span><span class="o">=</span><span class="n">label_smoothing_factor</span><span class="p">,</span>
+                <span class="n">z_loss</span><span class="o">=</span><span class="n">z_loss</span><span class="p">,</span>
+                <span class="n">loss_normalizing_factor</span><span class="o">=</span><span class="n">lnf</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="n">aux_loss</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">loss</span> <span class="o">+=</span> <span class="n">aux_loss</span>
+            <span class="k">return</span> <span class="n">loss</span><span class="p">,</span> <span class="p">(</span><span class="n">accuracy</span><span class="p">,</span> <span class="n">z_loss_computed</span><span class="p">,</span> <span class="n">aux_loss</span><span class="p">)</span>
+
+        <span class="n">grad_fn</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">value_and_grad</span><span class="p">(</span><span class="n">calculate_loss</span><span class="p">,</span> <span class="n">has_aux</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="p">(</span><span class="n">loss__</span><span class="p">,</span> <span class="p">(</span><span class="n">accuracy__</span><span class="p">,</span> <span class="n">z_loss_computed__</span><span class="p">,</span> <span class="n">aux_loss__</span><span class="p">)),</span> <span class="n">grad</span> <span class="o">=</span> <span class="n">grad_fn</span><span class="p">(</span><span class="n">state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+        <span class="n">state</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">apply_gradients</span><span class="p">(</span><span class="n">grads</span><span class="o">=</span><span class="n">grad</span><span class="p">)</span>
+
+        <span class="n">grad_norms</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">linalg</span><span class="o">.</span><span class="n">norm</span><span class="p">,</span> <span class="n">grad</span><span class="p">)</span>
+        <span class="n">max_grad_norm</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_reduce</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">maximum</span><span class="p">,</span> <span class="n">grad_norms</span><span class="p">)</span>
+        <span class="n">mean_grad_norm</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_reduce</span><span class="p">(</span>
+            <span class="n">jnp</span><span class="o">.</span><span class="n">add</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">sum</span><span class="p">,</span> <span class="n">grad_norms</span><span class="p">)</span>
+        <span class="p">)</span> <span class="o">/</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_reduce</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">add</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">size</span><span class="p">,</span> <span class="n">grad_norms</span><span class="p">))</span>
+        <span class="n">metrics</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="s2">&quot;accuracy&quot;</span><span class="p">:</span> <span class="n">accuracy__</span><span class="p">,</span>
+            <span class="s2">&quot;regularization_z_loss&quot;</span><span class="p">:</span> <span class="n">z_loss_computed__</span><span class="p">,</span>
+            <span class="s2">&quot;max_grad_norm&quot;</span><span class="p">:</span> <span class="n">max_grad_norm</span><span class="p">,</span>
+            <span class="s2">&quot;mean_grad_norm&quot;</span><span class="p">:</span> <span class="n">mean_grad_norm</span><span class="p">,</span>
+            <span class="s2">&quot;grad_norms&quot;</span><span class="p">:</span> <span class="n">grad_norms</span><span class="p">,</span>
+        <span class="p">}</span>
+        <span class="k">if</span> <span class="n">aux_loss__</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">metrics</span><span class="o">.</span><span class="n">update</span><span class="p">({</span><span class="s2">&quot;aux_loss&quot;</span><span class="p">:</span> <span class="n">aux_loss__</span><span class="p">})</span>
+        <span class="k">return</span> <span class="n">state</span><span class="p">,</span> <span class="n">loss__</span><span class="p">,</span> <span class="n">metrics</span>
+
+    <span class="k">return</span> <span class="n">casual_language_model_train_step</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-causal_language_model_trainer-modeling_output/index.html b/generated-trainer-causal_language_model_trainer-modeling_output/index.html
new file mode 100644
index 000000000..303a62504
--- /dev/null
+++ b/generated-trainer-causal_language_model_trainer-modeling_output/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/">
+      
+      
+        <link rel="next" href="../generated-trainer-dpo-dpo_trainer/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modeling Output - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainercausal_language_model_trainermodeling_output" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modeling Output
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.modeling_output" class="md-nav__link">
+    <span class="md-ellipsis">
+      modeling_output
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.causal_language_model_trainer.modeling_output" class="md-nav__link">
+    <span class="md-ellipsis">
+      modeling_output
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainercausal_language_model_trainermodeling_output">trainer.causal_language_model_trainer.modeling_output</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.causal_language_model_trainer.modeling_output"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-dpo-dpo_trainer/index.html b/generated-trainer-dpo-dpo_trainer/index.html
new file mode 100644
index 000000000..29df02073
--- /dev/null
+++ b/generated-trainer-dpo-dpo_trainer/index.html
@@ -0,0 +1,10603 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-causal_language_model_trainer-modeling_output/">
+      
+      
+        <link rel="next" href="../generated-trainer-dpo-fwd_bwd_functions/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Dpo Trainer - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainerdpodpo_trainer" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Dpo Trainer
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      dpo_trainer
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      DPOTrainer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="DPOTrainer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.build_tokenized_answer" class="md-nav__link">
+    <span class="md-ellipsis">
+      build_tokenized_answer
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.compute_reference_log_probs" class="md-nav__link">
+    <span class="md-ellipsis">
+      compute_reference_log_probs
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.eval" class="md-nav__link">
+    <span class="md-ellipsis">
+      eval
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.get_eval_dataloader" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_eval_dataloader
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.get_train_dataloader" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_train_dataloader
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.initialize_trainer_utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      initialize_trainer_utils
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.tokenize_row" class="md-nav__link">
+    <span class="md-ellipsis">
+      tokenize_row
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      dpo_trainer
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      DPOTrainer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="DPOTrainer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.build_tokenized_answer" class="md-nav__link">
+    <span class="md-ellipsis">
+      build_tokenized_answer
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.compute_reference_log_probs" class="md-nav__link">
+    <span class="md-ellipsis">
+      compute_reference_log_probs
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.eval" class="md-nav__link">
+    <span class="md-ellipsis">
+      eval
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.get_eval_dataloader" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_eval_dataloader
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.get_train_dataloader" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_train_dataloader
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.initialize_trainer_utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      initialize_trainer_utils
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.tokenize_row" class="md-nav__link">
+    <span class="md-ellipsis">
+      tokenize_row
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainerdpodpo_trainer">trainer.dpo.dpo_trainer</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.dpo.dpo_trainer"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer" class="doc doc-heading">
+            <code>DPOTrainer</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.trainer.base_trainer.BaseTrainer" href="../generated-trainer-base_trainer/#src.python.easydel.trainer.base_trainer.BaseTrainer">BaseTrainer</a></code>, <code><span title="abc.ABC">ABC</span></code></p>
+
+
+      <p>easydel DPO Trainer Class</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  52</span>
+<span class="normal">  53</span>
+<span class="normal">  54</span>
+<span class="normal">  55</span>
+<span class="normal">  56</span>
+<span class="normal">  57</span>
+<span class="normal">  58</span>
+<span class="normal">  59</span>
+<span class="normal">  60</span>
+<span class="normal">  61</span>
+<span class="normal">  62</span>
+<span class="normal">  63</span>
+<span class="normal">  64</span>
+<span class="normal">  65</span>
+<span class="normal">  66</span>
+<span class="normal">  67</span>
+<span class="normal">  68</span>
+<span class="normal">  69</span>
+<span class="normal">  70</span>
+<span class="normal">  71</span>
+<span class="normal">  72</span>
+<span class="normal">  73</span>
+<span class="normal">  74</span>
+<span class="normal">  75</span>
+<span class="normal">  76</span>
+<span class="normal">  77</span>
+<span class="normal">  78</span>
+<span class="normal">  79</span>
+<span class="normal">  80</span>
+<span class="normal">  81</span>
+<span class="normal">  82</span>
+<span class="normal">  83</span>
+<span class="normal">  84</span>
+<span class="normal">  85</span>
+<span class="normal">  86</span>
+<span class="normal">  87</span>
+<span class="normal">  88</span>
+<span class="normal">  89</span>
+<span class="normal">  90</span>
+<span class="normal">  91</span>
+<span class="normal">  92</span>
+<span class="normal">  93</span>
+<span class="normal">  94</span>
+<span class="normal">  95</span>
+<span class="normal">  96</span>
+<span class="normal">  97</span>
+<span class="normal">  98</span>
+<span class="normal">  99</span>
+<span class="normal"> 100</span>
+<span class="normal"> 101</span>
+<span class="normal"> 102</span>
+<span class="normal"> 103</span>
+<span class="normal"> 104</span>
+<span class="normal"> 105</span>
+<span class="normal"> 106</span>
+<span class="normal"> 107</span>
+<span class="normal"> 108</span>
+<span class="normal"> 109</span>
+<span class="normal"> 110</span>
+<span class="normal"> 111</span>
+<span class="normal"> 112</span>
+<span class="normal"> 113</span>
+<span class="normal"> 114</span>
+<span class="normal"> 115</span>
+<span class="normal"> 116</span>
+<span class="normal"> 117</span>
+<span class="normal"> 118</span>
+<span class="normal"> 119</span>
+<span class="normal"> 120</span>
+<span class="normal"> 121</span>
+<span class="normal"> 122</span>
+<span class="normal"> 123</span>
+<span class="normal"> 124</span>
+<span class="normal"> 125</span>
+<span class="normal"> 126</span>
+<span class="normal"> 127</span>
+<span class="normal"> 128</span>
+<span class="normal"> 129</span>
+<span class="normal"> 130</span>
+<span class="normal"> 131</span>
+<span class="normal"> 132</span>
+<span class="normal"> 133</span>
+<span class="normal"> 134</span>
+<span class="normal"> 135</span>
+<span class="normal"> 136</span>
+<span class="normal"> 137</span>
+<span class="normal"> 138</span>
+<span class="normal"> 139</span>
+<span class="normal"> 140</span>
+<span class="normal"> 141</span>
+<span class="normal"> 142</span>
+<span class="normal"> 143</span>
+<span class="normal"> 144</span>
+<span class="normal"> 145</span>
+<span class="normal"> 146</span>
+<span class="normal"> 147</span>
+<span class="normal"> 148</span>
+<span class="normal"> 149</span>
+<span class="normal"> 150</span>
+<span class="normal"> 151</span>
+<span class="normal"> 152</span>
+<span class="normal"> 153</span>
+<span class="normal"> 154</span>
+<span class="normal"> 155</span>
+<span class="normal"> 156</span>
+<span class="normal"> 157</span>
+<span class="normal"> 158</span>
+<span class="normal"> 159</span>
+<span class="normal"> 160</span>
+<span class="normal"> 161</span>
+<span class="normal"> 162</span>
+<span class="normal"> 163</span>
+<span class="normal"> 164</span>
+<span class="normal"> 165</span>
+<span class="normal"> 166</span>
+<span class="normal"> 167</span>
+<span class="normal"> 168</span>
+<span class="normal"> 169</span>
+<span class="normal"> 170</span>
+<span class="normal"> 171</span>
+<span class="normal"> 172</span>
+<span class="normal"> 173</span>
+<span class="normal"> 174</span>
+<span class="normal"> 175</span>
+<span class="normal"> 176</span>
+<span class="normal"> 177</span>
+<span class="normal"> 178</span>
+<span class="normal"> 179</span>
+<span class="normal"> 180</span>
+<span class="normal"> 181</span>
+<span class="normal"> 182</span>
+<span class="normal"> 183</span>
+<span class="normal"> 184</span>
+<span class="normal"> 185</span>
+<span class="normal"> 186</span>
+<span class="normal"> 187</span>
+<span class="normal"> 188</span>
+<span class="normal"> 189</span>
+<span class="normal"> 190</span>
+<span class="normal"> 191</span>
+<span class="normal"> 192</span>
+<span class="normal"> 193</span>
+<span class="normal"> 194</span>
+<span class="normal"> 195</span>
+<span class="normal"> 196</span>
+<span class="normal"> 197</span>
+<span class="normal"> 198</span>
+<span class="normal"> 199</span>
+<span class="normal"> 200</span>
+<span class="normal"> 201</span>
+<span class="normal"> 202</span>
+<span class="normal"> 203</span>
+<span class="normal"> 204</span>
+<span class="normal"> 205</span>
+<span class="normal"> 206</span>
+<span class="normal"> 207</span>
+<span class="normal"> 208</span>
+<span class="normal"> 209</span>
+<span class="normal"> 210</span>
+<span class="normal"> 211</span>
+<span class="normal"> 212</span>
+<span class="normal"> 213</span>
+<span class="normal"> 214</span>
+<span class="normal"> 215</span>
+<span class="normal"> 216</span>
+<span class="normal"> 217</span>
+<span class="normal"> 218</span>
+<span class="normal"> 219</span>
+<span class="normal"> 220</span>
+<span class="normal"> 221</span>
+<span class="normal"> 222</span>
+<span class="normal"> 223</span>
+<span class="normal"> 224</span>
+<span class="normal"> 225</span>
+<span class="normal"> 226</span>
+<span class="normal"> 227</span>
+<span class="normal"> 228</span>
+<span class="normal"> 229</span>
+<span class="normal"> 230</span>
+<span class="normal"> 231</span>
+<span class="normal"> 232</span>
+<span class="normal"> 233</span>
+<span class="normal"> 234</span>
+<span class="normal"> 235</span>
+<span class="normal"> 236</span>
+<span class="normal"> 237</span>
+<span class="normal"> 238</span>
+<span class="normal"> 239</span>
+<span class="normal"> 240</span>
+<span class="normal"> 241</span>
+<span class="normal"> 242</span>
+<span class="normal"> 243</span>
+<span class="normal"> 244</span>
+<span class="normal"> 245</span>
+<span class="normal"> 246</span>
+<span class="normal"> 247</span>
+<span class="normal"> 248</span>
+<span class="normal"> 249</span>
+<span class="normal"> 250</span>
+<span class="normal"> 251</span>
+<span class="normal"> 252</span>
+<span class="normal"> 253</span>
+<span class="normal"> 254</span>
+<span class="normal"> 255</span>
+<span class="normal"> 256</span>
+<span class="normal"> 257</span>
+<span class="normal"> 258</span>
+<span class="normal"> 259</span>
+<span class="normal"> 260</span>
+<span class="normal"> 261</span>
+<span class="normal"> 262</span>
+<span class="normal"> 263</span>
+<span class="normal"> 264</span>
+<span class="normal"> 265</span>
+<span class="normal"> 266</span>
+<span class="normal"> 267</span>
+<span class="normal"> 268</span>
+<span class="normal"> 269</span>
+<span class="normal"> 270</span>
+<span class="normal"> 271</span>
+<span class="normal"> 272</span>
+<span class="normal"> 273</span>
+<span class="normal"> 274</span>
+<span class="normal"> 275</span>
+<span class="normal"> 276</span>
+<span class="normal"> 277</span>
+<span class="normal"> 278</span>
+<span class="normal"> 279</span>
+<span class="normal"> 280</span>
+<span class="normal"> 281</span>
+<span class="normal"> 282</span>
+<span class="normal"> 283</span>
+<span class="normal"> 284</span>
+<span class="normal"> 285</span>
+<span class="normal"> 286</span>
+<span class="normal"> 287</span>
+<span class="normal"> 288</span>
+<span class="normal"> 289</span>
+<span class="normal"> 290</span>
+<span class="normal"> 291</span>
+<span class="normal"> 292</span>
+<span class="normal"> 293</span>
+<span class="normal"> 294</span>
+<span class="normal"> 295</span>
+<span class="normal"> 296</span>
+<span class="normal"> 297</span>
+<span class="normal"> 298</span>
+<span class="normal"> 299</span>
+<span class="normal"> 300</span>
+<span class="normal"> 301</span>
+<span class="normal"> 302</span>
+<span class="normal"> 303</span>
+<span class="normal"> 304</span>
+<span class="normal"> 305</span>
+<span class="normal"> 306</span>
+<span class="normal"> 307</span>
+<span class="normal"> 308</span>
+<span class="normal"> 309</span>
+<span class="normal"> 310</span>
+<span class="normal"> 311</span>
+<span class="normal"> 312</span>
+<span class="normal"> 313</span>
+<span class="normal"> 314</span>
+<span class="normal"> 315</span>
+<span class="normal"> 316</span>
+<span class="normal"> 317</span>
+<span class="normal"> 318</span>
+<span class="normal"> 319</span>
+<span class="normal"> 320</span>
+<span class="normal"> 321</span>
+<span class="normal"> 322</span>
+<span class="normal"> 323</span>
+<span class="normal"> 324</span>
+<span class="normal"> 325</span>
+<span class="normal"> 326</span>
+<span class="normal"> 327</span>
+<span class="normal"> 328</span>
+<span class="normal"> 329</span>
+<span class="normal"> 330</span>
+<span class="normal"> 331</span>
+<span class="normal"> 332</span>
+<span class="normal"> 333</span>
+<span class="normal"> 334</span>
+<span class="normal"> 335</span>
+<span class="normal"> 336</span>
+<span class="normal"> 337</span>
+<span class="normal"> 338</span>
+<span class="normal"> 339</span>
+<span class="normal"> 340</span>
+<span class="normal"> 341</span>
+<span class="normal"> 342</span>
+<span class="normal"> 343</span>
+<span class="normal"> 344</span>
+<span class="normal"> 345</span>
+<span class="normal"> 346</span>
+<span class="normal"> 347</span>
+<span class="normal"> 348</span>
+<span class="normal"> 349</span>
+<span class="normal"> 350</span>
+<span class="normal"> 351</span>
+<span class="normal"> 352</span>
+<span class="normal"> 353</span>
+<span class="normal"> 354</span>
+<span class="normal"> 355</span>
+<span class="normal"> 356</span>
+<span class="normal"> 357</span>
+<span class="normal"> 358</span>
+<span class="normal"> 359</span>
+<span class="normal"> 360</span>
+<span class="normal"> 361</span>
+<span class="normal"> 362</span>
+<span class="normal"> 363</span>
+<span class="normal"> 364</span>
+<span class="normal"> 365</span>
+<span class="normal"> 366</span>
+<span class="normal"> 367</span>
+<span class="normal"> 368</span>
+<span class="normal"> 369</span>
+<span class="normal"> 370</span>
+<span class="normal"> 371</span>
+<span class="normal"> 372</span>
+<span class="normal"> 373</span>
+<span class="normal"> 374</span>
+<span class="normal"> 375</span>
+<span class="normal"> 376</span>
+<span class="normal"> 377</span>
+<span class="normal"> 378</span>
+<span class="normal"> 379</span>
+<span class="normal"> 380</span>
+<span class="normal"> 381</span>
+<span class="normal"> 382</span>
+<span class="normal"> 383</span>
+<span class="normal"> 384</span>
+<span class="normal"> 385</span>
+<span class="normal"> 386</span>
+<span class="normal"> 387</span>
+<span class="normal"> 388</span>
+<span class="normal"> 389</span>
+<span class="normal"> 390</span>
+<span class="normal"> 391</span>
+<span class="normal"> 392</span>
+<span class="normal"> 393</span>
+<span class="normal"> 394</span>
+<span class="normal"> 395</span>
+<span class="normal"> 396</span>
+<span class="normal"> 397</span>
+<span class="normal"> 398</span>
+<span class="normal"> 399</span>
+<span class="normal"> 400</span>
+<span class="normal"> 401</span>
+<span class="normal"> 402</span>
+<span class="normal"> 403</span>
+<span class="normal"> 404</span>
+<span class="normal"> 405</span>
+<span class="normal"> 406</span>
+<span class="normal"> 407</span>
+<span class="normal"> 408</span>
+<span class="normal"> 409</span>
+<span class="normal"> 410</span>
+<span class="normal"> 411</span>
+<span class="normal"> 412</span>
+<span class="normal"> 413</span>
+<span class="normal"> 414</span>
+<span class="normal"> 415</span>
+<span class="normal"> 416</span>
+<span class="normal"> 417</span>
+<span class="normal"> 418</span>
+<span class="normal"> 419</span>
+<span class="normal"> 420</span>
+<span class="normal"> 421</span>
+<span class="normal"> 422</span>
+<span class="normal"> 423</span>
+<span class="normal"> 424</span>
+<span class="normal"> 425</span>
+<span class="normal"> 426</span>
+<span class="normal"> 427</span>
+<span class="normal"> 428</span>
+<span class="normal"> 429</span>
+<span class="normal"> 430</span>
+<span class="normal"> 431</span>
+<span class="normal"> 432</span>
+<span class="normal"> 433</span>
+<span class="normal"> 434</span>
+<span class="normal"> 435</span>
+<span class="normal"> 436</span>
+<span class="normal"> 437</span>
+<span class="normal"> 438</span>
+<span class="normal"> 439</span>
+<span class="normal"> 440</span>
+<span class="normal"> 441</span>
+<span class="normal"> 442</span>
+<span class="normal"> 443</span>
+<span class="normal"> 444</span>
+<span class="normal"> 445</span>
+<span class="normal"> 446</span>
+<span class="normal"> 447</span>
+<span class="normal"> 448</span>
+<span class="normal"> 449</span>
+<span class="normal"> 450</span>
+<span class="normal"> 451</span>
+<span class="normal"> 452</span>
+<span class="normal"> 453</span>
+<span class="normal"> 454</span>
+<span class="normal"> 455</span>
+<span class="normal"> 456</span>
+<span class="normal"> 457</span>
+<span class="normal"> 458</span>
+<span class="normal"> 459</span>
+<span class="normal"> 460</span>
+<span class="normal"> 461</span>
+<span class="normal"> 462</span>
+<span class="normal"> 463</span>
+<span class="normal"> 464</span>
+<span class="normal"> 465</span>
+<span class="normal"> 466</span>
+<span class="normal"> 467</span>
+<span class="normal"> 468</span>
+<span class="normal"> 469</span>
+<span class="normal"> 470</span>
+<span class="normal"> 471</span>
+<span class="normal"> 472</span>
+<span class="normal"> 473</span>
+<span class="normal"> 474</span>
+<span class="normal"> 475</span>
+<span class="normal"> 476</span>
+<span class="normal"> 477</span>
+<span class="normal"> 478</span>
+<span class="normal"> 479</span>
+<span class="normal"> 480</span>
+<span class="normal"> 481</span>
+<span class="normal"> 482</span>
+<span class="normal"> 483</span>
+<span class="normal"> 484</span>
+<span class="normal"> 485</span>
+<span class="normal"> 486</span>
+<span class="normal"> 487</span>
+<span class="normal"> 488</span>
+<span class="normal"> 489</span>
+<span class="normal"> 490</span>
+<span class="normal"> 491</span>
+<span class="normal"> 492</span>
+<span class="normal"> 493</span>
+<span class="normal"> 494</span>
+<span class="normal"> 495</span>
+<span class="normal"> 496</span>
+<span class="normal"> 497</span>
+<span class="normal"> 498</span>
+<span class="normal"> 499</span>
+<span class="normal"> 500</span>
+<span class="normal"> 501</span>
+<span class="normal"> 502</span>
+<span class="normal"> 503</span>
+<span class="normal"> 504</span>
+<span class="normal"> 505</span>
+<span class="normal"> 506</span>
+<span class="normal"> 507</span>
+<span class="normal"> 508</span>
+<span class="normal"> 509</span>
+<span class="normal"> 510</span>
+<span class="normal"> 511</span>
+<span class="normal"> 512</span>
+<span class="normal"> 513</span>
+<span class="normal"> 514</span>
+<span class="normal"> 515</span>
+<span class="normal"> 516</span>
+<span class="normal"> 517</span>
+<span class="normal"> 518</span>
+<span class="normal"> 519</span>
+<span class="normal"> 520</span>
+<span class="normal"> 521</span>
+<span class="normal"> 522</span>
+<span class="normal"> 523</span>
+<span class="normal"> 524</span>
+<span class="normal"> 525</span>
+<span class="normal"> 526</span>
+<span class="normal"> 527</span>
+<span class="normal"> 528</span>
+<span class="normal"> 529</span>
+<span class="normal"> 530</span>
+<span class="normal"> 531</span>
+<span class="normal"> 532</span>
+<span class="normal"> 533</span>
+<span class="normal"> 534</span>
+<span class="normal"> 535</span>
+<span class="normal"> 536</span>
+<span class="normal"> 537</span>
+<span class="normal"> 538</span>
+<span class="normal"> 539</span>
+<span class="normal"> 540</span>
+<span class="normal"> 541</span>
+<span class="normal"> 542</span>
+<span class="normal"> 543</span>
+<span class="normal"> 544</span>
+<span class="normal"> 545</span>
+<span class="normal"> 546</span>
+<span class="normal"> 547</span>
+<span class="normal"> 548</span>
+<span class="normal"> 549</span>
+<span class="normal"> 550</span>
+<span class="normal"> 551</span>
+<span class="normal"> 552</span>
+<span class="normal"> 553</span>
+<span class="normal"> 554</span>
+<span class="normal"> 555</span>
+<span class="normal"> 556</span>
+<span class="normal"> 557</span>
+<span class="normal"> 558</span>
+<span class="normal"> 559</span>
+<span class="normal"> 560</span>
+<span class="normal"> 561</span>
+<span class="normal"> 562</span>
+<span class="normal"> 563</span>
+<span class="normal"> 564</span>
+<span class="normal"> 565</span>
+<span class="normal"> 566</span>
+<span class="normal"> 567</span>
+<span class="normal"> 568</span>
+<span class="normal"> 569</span>
+<span class="normal"> 570</span>
+<span class="normal"> 571</span>
+<span class="normal"> 572</span>
+<span class="normal"> 573</span>
+<span class="normal"> 574</span>
+<span class="normal"> 575</span>
+<span class="normal"> 576</span>
+<span class="normal"> 577</span>
+<span class="normal"> 578</span>
+<span class="normal"> 579</span>
+<span class="normal"> 580</span>
+<span class="normal"> 581</span>
+<span class="normal"> 582</span>
+<span class="normal"> 583</span>
+<span class="normal"> 584</span>
+<span class="normal"> 585</span>
+<span class="normal"> 586</span>
+<span class="normal"> 587</span>
+<span class="normal"> 588</span>
+<span class="normal"> 589</span>
+<span class="normal"> 590</span>
+<span class="normal"> 591</span>
+<span class="normal"> 592</span>
+<span class="normal"> 593</span>
+<span class="normal"> 594</span>
+<span class="normal"> 595</span>
+<span class="normal"> 596</span>
+<span class="normal"> 597</span>
+<span class="normal"> 598</span>
+<span class="normal"> 599</span>
+<span class="normal"> 600</span>
+<span class="normal"> 601</span>
+<span class="normal"> 602</span>
+<span class="normal"> 603</span>
+<span class="normal"> 604</span>
+<span class="normal"> 605</span>
+<span class="normal"> 606</span>
+<span class="normal"> 607</span>
+<span class="normal"> 608</span>
+<span class="normal"> 609</span>
+<span class="normal"> 610</span>
+<span class="normal"> 611</span>
+<span class="normal"> 612</span>
+<span class="normal"> 613</span>
+<span class="normal"> 614</span>
+<span class="normal"> 615</span>
+<span class="normal"> 616</span>
+<span class="normal"> 617</span>
+<span class="normal"> 618</span>
+<span class="normal"> 619</span>
+<span class="normal"> 620</span>
+<span class="normal"> 621</span>
+<span class="normal"> 622</span>
+<span class="normal"> 623</span>
+<span class="normal"> 624</span>
+<span class="normal"> 625</span>
+<span class="normal"> 626</span>
+<span class="normal"> 627</span>
+<span class="normal"> 628</span>
+<span class="normal"> 629</span>
+<span class="normal"> 630</span>
+<span class="normal"> 631</span>
+<span class="normal"> 632</span>
+<span class="normal"> 633</span>
+<span class="normal"> 634</span>
+<span class="normal"> 635</span>
+<span class="normal"> 636</span>
+<span class="normal"> 637</span>
+<span class="normal"> 638</span>
+<span class="normal"> 639</span>
+<span class="normal"> 640</span>
+<span class="normal"> 641</span>
+<span class="normal"> 642</span>
+<span class="normal"> 643</span>
+<span class="normal"> 644</span>
+<span class="normal"> 645</span>
+<span class="normal"> 646</span>
+<span class="normal"> 647</span>
+<span class="normal"> 648</span>
+<span class="normal"> 649</span>
+<span class="normal"> 650</span>
+<span class="normal"> 651</span>
+<span class="normal"> 652</span>
+<span class="normal"> 653</span>
+<span class="normal"> 654</span>
+<span class="normal"> 655</span>
+<span class="normal"> 656</span>
+<span class="normal"> 657</span>
+<span class="normal"> 658</span>
+<span class="normal"> 659</span>
+<span class="normal"> 660</span>
+<span class="normal"> 661</span>
+<span class="normal"> 662</span>
+<span class="normal"> 663</span>
+<span class="normal"> 664</span>
+<span class="normal"> 665</span>
+<span class="normal"> 666</span>
+<span class="normal"> 667</span>
+<span class="normal"> 668</span>
+<span class="normal"> 669</span>
+<span class="normal"> 670</span>
+<span class="normal"> 671</span>
+<span class="normal"> 672</span>
+<span class="normal"> 673</span>
+<span class="normal"> 674</span>
+<span class="normal"> 675</span>
+<span class="normal"> 676</span>
+<span class="normal"> 677</span>
+<span class="normal"> 678</span>
+<span class="normal"> 679</span>
+<span class="normal"> 680</span>
+<span class="normal"> 681</span>
+<span class="normal"> 682</span>
+<span class="normal"> 683</span>
+<span class="normal"> 684</span>
+<span class="normal"> 685</span>
+<span class="normal"> 686</span>
+<span class="normal"> 687</span>
+<span class="normal"> 688</span>
+<span class="normal"> 689</span>
+<span class="normal"> 690</span>
+<span class="normal"> 691</span>
+<span class="normal"> 692</span>
+<span class="normal"> 693</span>
+<span class="normal"> 694</span>
+<span class="normal"> 695</span>
+<span class="normal"> 696</span>
+<span class="normal"> 697</span>
+<span class="normal"> 698</span>
+<span class="normal"> 699</span>
+<span class="normal"> 700</span>
+<span class="normal"> 701</span>
+<span class="normal"> 702</span>
+<span class="normal"> 703</span>
+<span class="normal"> 704</span>
+<span class="normal"> 705</span>
+<span class="normal"> 706</span>
+<span class="normal"> 707</span>
+<span class="normal"> 708</span>
+<span class="normal"> 709</span>
+<span class="normal"> 710</span>
+<span class="normal"> 711</span>
+<span class="normal"> 712</span>
+<span class="normal"> 713</span>
+<span class="normal"> 714</span>
+<span class="normal"> 715</span>
+<span class="normal"> 716</span>
+<span class="normal"> 717</span>
+<span class="normal"> 718</span>
+<span class="normal"> 719</span>
+<span class="normal"> 720</span>
+<span class="normal"> 721</span>
+<span class="normal"> 722</span>
+<span class="normal"> 723</span>
+<span class="normal"> 724</span>
+<span class="normal"> 725</span>
+<span class="normal"> 726</span>
+<span class="normal"> 727</span>
+<span class="normal"> 728</span>
+<span class="normal"> 729</span>
+<span class="normal"> 730</span>
+<span class="normal"> 731</span>
+<span class="normal"> 732</span>
+<span class="normal"> 733</span>
+<span class="normal"> 734</span>
+<span class="normal"> 735</span>
+<span class="normal"> 736</span>
+<span class="normal"> 737</span>
+<span class="normal"> 738</span>
+<span class="normal"> 739</span>
+<span class="normal"> 740</span>
+<span class="normal"> 741</span>
+<span class="normal"> 742</span>
+<span class="normal"> 743</span>
+<span class="normal"> 744</span>
+<span class="normal"> 745</span>
+<span class="normal"> 746</span>
+<span class="normal"> 747</span>
+<span class="normal"> 748</span>
+<span class="normal"> 749</span>
+<span class="normal"> 750</span>
+<span class="normal"> 751</span>
+<span class="normal"> 752</span>
+<span class="normal"> 753</span>
+<span class="normal"> 754</span>
+<span class="normal"> 755</span>
+<span class="normal"> 756</span>
+<span class="normal"> 757</span>
+<span class="normal"> 758</span>
+<span class="normal"> 759</span>
+<span class="normal"> 760</span>
+<span class="normal"> 761</span>
+<span class="normal"> 762</span>
+<span class="normal"> 763</span>
+<span class="normal"> 764</span>
+<span class="normal"> 765</span>
+<span class="normal"> 766</span>
+<span class="normal"> 767</span>
+<span class="normal"> 768</span>
+<span class="normal"> 769</span>
+<span class="normal"> 770</span>
+<span class="normal"> 771</span>
+<span class="normal"> 772</span>
+<span class="normal"> 773</span>
+<span class="normal"> 774</span>
+<span class="normal"> 775</span>
+<span class="normal"> 776</span>
+<span class="normal"> 777</span>
+<span class="normal"> 778</span>
+<span class="normal"> 779</span>
+<span class="normal"> 780</span>
+<span class="normal"> 781</span>
+<span class="normal"> 782</span>
+<span class="normal"> 783</span>
+<span class="normal"> 784</span>
+<span class="normal"> 785</span>
+<span class="normal"> 786</span>
+<span class="normal"> 787</span>
+<span class="normal"> 788</span>
+<span class="normal"> 789</span>
+<span class="normal"> 790</span>
+<span class="normal"> 791</span>
+<span class="normal"> 792</span>
+<span class="normal"> 793</span>
+<span class="normal"> 794</span>
+<span class="normal"> 795</span>
+<span class="normal"> 796</span>
+<span class="normal"> 797</span>
+<span class="normal"> 798</span>
+<span class="normal"> 799</span>
+<span class="normal"> 800</span>
+<span class="normal"> 801</span>
+<span class="normal"> 802</span>
+<span class="normal"> 803</span>
+<span class="normal"> 804</span>
+<span class="normal"> 805</span>
+<span class="normal"> 806</span>
+<span class="normal"> 807</span>
+<span class="normal"> 808</span>
+<span class="normal"> 809</span>
+<span class="normal"> 810</span>
+<span class="normal"> 811</span>
+<span class="normal"> 812</span>
+<span class="normal"> 813</span>
+<span class="normal"> 814</span>
+<span class="normal"> 815</span>
+<span class="normal"> 816</span>
+<span class="normal"> 817</span>
+<span class="normal"> 818</span>
+<span class="normal"> 819</span>
+<span class="normal"> 820</span>
+<span class="normal"> 821</span>
+<span class="normal"> 822</span>
+<span class="normal"> 823</span>
+<span class="normal"> 824</span>
+<span class="normal"> 825</span>
+<span class="normal"> 826</span>
+<span class="normal"> 827</span>
+<span class="normal"> 828</span>
+<span class="normal"> 829</span>
+<span class="normal"> 830</span>
+<span class="normal"> 831</span>
+<span class="normal"> 832</span>
+<span class="normal"> 833</span>
+<span class="normal"> 834</span>
+<span class="normal"> 835</span>
+<span class="normal"> 836</span>
+<span class="normal"> 837</span>
+<span class="normal"> 838</span>
+<span class="normal"> 839</span>
+<span class="normal"> 840</span>
+<span class="normal"> 841</span>
+<span class="normal"> 842</span>
+<span class="normal"> 843</span>
+<span class="normal"> 844</span>
+<span class="normal"> 845</span>
+<span class="normal"> 846</span>
+<span class="normal"> 847</span>
+<span class="normal"> 848</span>
+<span class="normal"> 849</span>
+<span class="normal"> 850</span>
+<span class="normal"> 851</span>
+<span class="normal"> 852</span>
+<span class="normal"> 853</span>
+<span class="normal"> 854</span>
+<span class="normal"> 855</span>
+<span class="normal"> 856</span>
+<span class="normal"> 857</span>
+<span class="normal"> 858</span>
+<span class="normal"> 859</span>
+<span class="normal"> 860</span>
+<span class="normal"> 861</span>
+<span class="normal"> 862</span>
+<span class="normal"> 863</span>
+<span class="normal"> 864</span>
+<span class="normal"> 865</span>
+<span class="normal"> 866</span>
+<span class="normal"> 867</span>
+<span class="normal"> 868</span>
+<span class="normal"> 869</span>
+<span class="normal"> 870</span>
+<span class="normal"> 871</span>
+<span class="normal"> 872</span>
+<span class="normal"> 873</span>
+<span class="normal"> 874</span>
+<span class="normal"> 875</span>
+<span class="normal"> 876</span>
+<span class="normal"> 877</span>
+<span class="normal"> 878</span>
+<span class="normal"> 879</span>
+<span class="normal"> 880</span>
+<span class="normal"> 881</span>
+<span class="normal"> 882</span>
+<span class="normal"> 883</span>
+<span class="normal"> 884</span>
+<span class="normal"> 885</span>
+<span class="normal"> 886</span>
+<span class="normal"> 887</span>
+<span class="normal"> 888</span>
+<span class="normal"> 889</span>
+<span class="normal"> 890</span>
+<span class="normal"> 891</span>
+<span class="normal"> 892</span>
+<span class="normal"> 893</span>
+<span class="normal"> 894</span>
+<span class="normal"> 895</span>
+<span class="normal"> 896</span>
+<span class="normal"> 897</span>
+<span class="normal"> 898</span>
+<span class="normal"> 899</span>
+<span class="normal"> 900</span>
+<span class="normal"> 901</span>
+<span class="normal"> 902</span>
+<span class="normal"> 903</span>
+<span class="normal"> 904</span>
+<span class="normal"> 905</span>
+<span class="normal"> 906</span>
+<span class="normal"> 907</span>
+<span class="normal"> 908</span>
+<span class="normal"> 909</span>
+<span class="normal"> 910</span>
+<span class="normal"> 911</span>
+<span class="normal"> 912</span>
+<span class="normal"> 913</span>
+<span class="normal"> 914</span>
+<span class="normal"> 915</span>
+<span class="normal"> 916</span>
+<span class="normal"> 917</span>
+<span class="normal"> 918</span>
+<span class="normal"> 919</span>
+<span class="normal"> 920</span>
+<span class="normal"> 921</span>
+<span class="normal"> 922</span>
+<span class="normal"> 923</span>
+<span class="normal"> 924</span>
+<span class="normal"> 925</span>
+<span class="normal"> 926</span>
+<span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span>
+<span class="normal">1054</span>
+<span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span>
+<span class="normal">1065</span>
+<span class="normal">1066</span>
+<span class="normal">1067</span>
+<span class="normal">1068</span>
+<span class="normal">1069</span>
+<span class="normal">1070</span>
+<span class="normal">1071</span>
+<span class="normal">1072</span>
+<span class="normal">1073</span>
+<span class="normal">1074</span>
+<span class="normal">1075</span>
+<span class="normal">1076</span>
+<span class="normal">1077</span>
+<span class="normal">1078</span>
+<span class="normal">1079</span>
+<span class="normal">1080</span>
+<span class="normal">1081</span>
+<span class="normal">1082</span>
+<span class="normal">1083</span>
+<span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span>
+<span class="normal">1119</span>
+<span class="normal">1120</span>
+<span class="normal">1121</span>
+<span class="normal">1122</span>
+<span class="normal">1123</span>
+<span class="normal">1124</span>
+<span class="normal">1125</span>
+<span class="normal">1126</span>
+<span class="normal">1127</span>
+<span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span>
+<span class="normal">1149</span>
+<span class="normal">1150</span>
+<span class="normal">1151</span>
+<span class="normal">1152</span>
+<span class="normal">1153</span>
+<span class="normal">1154</span>
+<span class="normal">1155</span>
+<span class="normal">1156</span>
+<span class="normal">1157</span>
+<span class="normal">1158</span>
+<span class="normal">1159</span>
+<span class="normal">1160</span>
+<span class="normal">1161</span>
+<span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span>
+<span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span>
+<span class="normal">1204</span>
+<span class="normal">1205</span>
+<span class="normal">1206</span>
+<span class="normal">1207</span>
+<span class="normal">1208</span>
+<span class="normal">1209</span>
+<span class="normal">1210</span>
+<span class="normal">1211</span>
+<span class="normal">1212</span>
+<span class="normal">1213</span>
+<span class="normal">1214</span>
+<span class="normal">1215</span>
+<span class="normal">1216</span>
+<span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span>
+<span class="normal">1220</span>
+<span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span>
+<span class="normal">1230</span>
+<span class="normal">1231</span>
+<span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span>
+<span class="normal">1241</span>
+<span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span>
+<span class="normal">1264</span>
+<span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">DPOTrainer</span><span class="p">(</span><span class="n">BaseTrainer</span><span class="p">,</span> <span class="n">ABC</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    easydel DPO Trainer Class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">arguments</span><span class="p">:</span> <span class="n">TrainArguments</span><span class="p">,</span>
+            <span class="n">model_state</span><span class="p">:</span> <span class="n">EasyDeLState</span> <span class="o">|</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">ref_model_state</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLState</span> <span class="o">|</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">beta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+            <span class="n">label_smoothing</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">.0</span><span class="p">,</span>
+            <span class="n">loss_type</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;sigmoid&quot;</span><span class="p">,</span> <span class="s2">&quot;hinge&quot;</span><span class="p">,</span> <span class="s2">&quot;ipo&quot;</span><span class="p">,</span> <span class="s2">&quot;kto&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;sigmoid&quot;</span><span class="p">,</span>
+            <span class="n">label_pad_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">100</span><span class="p">,</span>
+            <span class="n">padding_value</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dataset</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">eval_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">Dataset</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Dataset</span><span class="p">]]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">tokenizer</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PreTrainedTokenizerBase</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">data_collator</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Callable</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">max_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">max_prompt_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">max_target_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">precompute_ref_log_probs</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">model_init_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">ref_model_init_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">reference_free</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">auto_shard_model_state</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">auto_shard_ref_model_state</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">is_encoder_decoder</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">dataset_map_arguments</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">low_mem_usage</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">auto_fix_data</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">_do_init_fns</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up the attributes of an object.</span>
+
+
+<span class="sd">        :param self: Refer to the object itself</span>
+<span class="sd">        :param model_state: EasyDeLState | str: Pass the model state to the trainer</span>
+<span class="sd">        :param ref_model_state: Optional[EasyDeLState | str]: Pass the reference model state</span>
+<span class="sd">        :param beta: float: Control the strength of the regularization term</span>
+<span class="sd">        :param label_smoothing: float: Smooth the labels</span>
+<span class="sd">        :param loss_type: Literal[&quot;sigmoid&quot;, &quot;hinge&quot;, &quot;ipo&quot;, &quot;kto&quot;] : Determine the loss function used</span>
+<span class="sd">        :param arguments: TrainArguments: Pass the arguments to the trainer</span>
+<span class="sd">        :param label_pad_token_id: int: Pad the labels</span>
+<span class="sd">        :param padding_value: int: Specify the value that is used for padding</span>
+<span class="sd">        :param train_dataset: Optional[Dataset]: Load the training dataset</span>
+<span class="sd">        :param eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] : Pass the evaluation dataset to the trainer</span>
+<span class="sd">        :param tokenizer: Optional[PreTrainedTokenizerBase]: Pass the tokenizer to the trainer</span>
+<span class="sd">        :param max_length: Optional[int]: Set the maximum length of the input sequence</span>
+<span class="sd">        :param max_prompt_length: Optional[int]: Set the maximum length of the prompt</span>
+<span class="sd">        :param max_target_length: Optional[int]: Truncate the target sequence</span>
+<span class="sd">        :param data_collator: Optional[Callable]: Function to be used for creating datasets.</span>
+<span class="sd">        :param precompute_ref_log_probs: bool: Precompute the log probabilities of the reference model</span>
+<span class="sd">        :param model_init_kwargs: Optional[Dict]: Pass in the model_kwargs to model for init process</span>
+<span class="sd">        :param ref_model_init_kwargs: Optional[Dict]: Pass the ref_model_init_kwargs to ref_model for init process</span>
+<span class="sd">        :param auto_shard_model_state: bool: whenever to automatically shard `model_state`</span>
+<span class="sd">        :param auto_shard_ref_model_state: bool: whenever to automatically shard `ref_model_state`</span>
+<span class="sd">        :param dataset_map_arguments: Optional[dict]: arguments to be passed to train and eval datasets for</span>
+<span class="sd">        tokenizing process with `dataset.map`.</span>
+<span class="sd">        :param _do_init_fns: bool : preferred to set ture to trainer will automatically configure</span>
+<span class="sd">        model with provided training Arguments</span>
+<span class="sd">        :param : Set the padding value for the model</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="n">arguments</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="p">(</span>
+            <span class="s2">&quot;You Have to pass arguments that will be used for training but you have passed&quot;</span>
+            <span class="s2">&quot;`arguments=None`&quot;</span>
+        <span class="p">)</span>
+        <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">arguments</span><span class="p">,</span> <span class="n">TrainArguments</span><span class="p">),</span> <span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;arguments type must be `TrainArguments` but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">arguments</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">model_init_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">model_init_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">elif</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">model_state</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;You passed model_kwargs to the DPOTrainer. But your model is already instantiated.&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">ref_model_init_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">ref_model_init_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">elif</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">ref_model_state</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;You passed ref_model_kwargs to the DPOTrainer. But your ref_model is already instantiated.&quot;</span>
+            <span class="p">)</span>
+
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">model_state</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;You passed a model_id to the DPOTrainer. This will automatically create an &quot;</span>
+                <span class="s2">&quot;`AutoEasyDeLModelForCausalLM` for you.&quot;</span>
+            <span class="p">)</span>
+            <span class="n">model_state</span> <span class="o">=</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+                <span class="n">model_state</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">model_init_kwargs</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">ref_model_state</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;You passed a ref model_id to the DPOTrainer. This will automatically create an &quot;</span>
+                <span class="s2">&quot;`AutoEasyDeLModelForCausalLM`&quot;</span>
+            <span class="p">)</span>
+            <span class="n">ref_model_state</span> <span class="o">=</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+                <span class="n">ref_model_state</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">ref_model_init_kwargs</span>
+            <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">loss_type</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;hinge&quot;</span><span class="p">,</span> <span class="s2">&quot;ipo&quot;</span><span class="p">,</span> <span class="s2">&quot;kto_pair&quot;</span><span class="p">]</span> <span class="ow">and</span> <span class="n">label_smoothing</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;You are using a loss type that does not support label smoothing. Ignoring label_smoothing parameter.&quot;</span>
+            <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">auto_fix_data</span> <span class="o">=</span> <span class="n">auto_fix_data</span>
+
+        <span class="k">if</span> <span class="n">tokenizer</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;tokenizer must be specified to tokenize a DPO dataset.&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">max_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;`max_length` is not set in the DPOTrainer&#39;s init&quot;</span>
+                <span class="s2">&quot; it will default to `512` by default, but you should do it yourself in the future.&quot;</span><span class="p">,</span>
+                <span class="ne">UserWarning</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">max_length</span> <span class="o">=</span> <span class="mi">512</span>
+        <span class="k">if</span> <span class="n">max_prompt_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;`max_prompt_length` is not set in the DPOTrainer&#39;s init&quot;</span>
+                <span class="s2">&quot; it will default to `128` by default, but you should do it yourself in the future.&quot;</span><span class="p">,</span>
+                <span class="ne">UserWarning</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">max_prompt_length</span> <span class="o">=</span> <span class="mi">128</span>
+
+        <span class="k">if</span> <span class="n">max_target_length</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">is_encoder_decoder</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;When using an encoder decoder architecture, you should set `max_target_length` in the &quot;</span>
+                <span class="s2">&quot;DPOTrainer&#39;s init it will default to `128` by default, but you should do it yourself in the future.&quot;</span><span class="p">,</span>
+                <span class="ne">UserWarning</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">max_target_length</span> <span class="o">=</span> <span class="mi">128</span>
+
+        <span class="n">padding_value</span> <span class="o">=</span> <span class="n">padding_value</span> <span class="k">if</span> <span class="n">padding_value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span> <span class="o">=</span> <span class="n">max_length</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span> <span class="o">=</span> <span class="n">label_pad_token_id</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span> <span class="o">=</span> <span class="n">padding_value</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span> <span class="o">=</span> <span class="n">max_prompt_length</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span> <span class="o">=</span> <span class="n">arguments</span><span class="o">.</span><span class="n">truncation_mode</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span> <span class="o">=</span> <span class="n">max_target_length</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">precompute_ref_log_probs</span> <span class="o">=</span> <span class="n">precompute_ref_log_probs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reference_free</span> <span class="o">=</span> <span class="n">reference_free</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">is_encoder_decoder</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_precomputed_train_ref_log_probs</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_precomputed_eval_ref_log_probs</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">beta</span> <span class="o">=</span> <span class="n">beta</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">label_smoothing</span> <span class="o">=</span> <span class="n">label_smoothing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">loss_type</span> <span class="o">=</span> <span class="n">loss_type</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">low_mem_usage</span> <span class="o">=</span> <span class="n">low_mem_usage</span>
+        <span class="n">data_collator</span> <span class="o">=</span> <span class="n">DPODataCollatorWithPadding</span><span class="p">(</span>
+            <span class="n">max_prompt_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+            <span class="n">max_target_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">,</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+            <span class="n">label_pad_token_id</span><span class="o">=</span><span class="n">label_pad_token_id</span><span class="p">,</span>
+            <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="n">data_collator</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">data_collator</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_stored_metrics</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">list</span><span class="p">))</span>
+        <span class="k">if</span> <span class="n">dataset_map_arguments</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">dataset_map_arguments</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">train_dataset</span> <span class="o">=</span> <span class="n">train_dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenize_row</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">dataset_map_arguments</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">tokenize_row</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">dataset_map_arguments</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span> <span class="o">=</span> <span class="n">arguments</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hp_name</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">deepspeed</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">is_in_train</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">data_collator</span> <span class="o">=</span> <span class="n">data_collator</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span> <span class="o">=</span> <span class="n">train_dataset</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span> <span class="o">=</span> <span class="n">ref_model_state</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span> <span class="o">=</span> <span class="n">model_state</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_loggers_initialized</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_mesh</span><span class="p">()</span>
+        <span class="k">assert</span> <span class="n">padding_value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`padding_value` can not be set as `None` it must be an integer.&quot;</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span> <span class="o">=</span> <span class="n">create_concatenated_forward</span><span class="p">(</span>
+            <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">is_encoder_decoder</span><span class="p">,</span>
+            <span class="n">padding_value</span><span class="o">=</span><span class="n">padding_value</span><span class="p">,</span>
+            <span class="n">label_pad_token_id</span><span class="o">=</span><span class="n">label_pad_token_id</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">auto_shard_ref_model_state</span> <span class="o">=</span> <span class="n">auto_shard_ref_model_state</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">auto_shard_model_state</span> <span class="o">=</span> <span class="n">auto_shard_model_state</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">_cached_p_l_s</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_cached_c_l_s</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_cached_r_l_s</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">arguments</span><span class="o">=</span><span class="n">arguments</span><span class="p">,</span>
+            <span class="n">dataset_train</span><span class="o">=</span><span class="n">train_dataset</span><span class="p">,</span>
+            <span class="n">dataset_eval</span><span class="o">=</span><span class="n">eval_dataset</span><span class="p">,</span>
+            <span class="n">finetune</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">checkpoint_path</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">_do_init_fns</span><span class="o">=</span><span class="n">_do_init_fns</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">initialize_trainer_utils</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The initialize_trainer_utils function is responsible for initializing the following:</span>
+<span class="sd">            - wandb_runtime (if you use_wandb is True)</span>
+<span class="sd">            - timer object (for logging time taken by various functions)</span>
+<span class="sd">            - dataloader objects for training and evaluation data, along with max steps per epoch.</span>
+<span class="sd">              The configure_dataloader function accomplishes this task.</span>
+
+<span class="sd">        :param self: Represent the instance of the class</span>
+<span class="sd">        :return: A tuple of functions</span>
+
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_wandb_init</span><span class="p">()</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">use_wandb</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span> <span class="o">=</span> <span class="n">Timers</span><span class="p">(</span>
+            <span class="n">use_wandb</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">tensorboard_writer</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_board</span><span class="p">()</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+        <span class="n">dataset_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_dataloader</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">dataloader_train</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">max_training_steps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">dataloader_eval</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">max_evaluation_steps</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">])</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+        <span class="n">model_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_model</span><span class="p">()</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">model</span>
+        <span class="n">tx</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">tx</span>
+        <span class="n">scheduler</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">scheduler</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tx</span> <span class="o">=</span> <span class="n">tx</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span> <span class="o">=</span> <span class="n">scheduler</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">lora_modules</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span><span class="o">.</span><span class="n">apply_lora</span><span class="p">(</span>
+                <span class="n">module</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+                <span class="n">parameters</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">rapture_config</span><span class="o">.</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_parameters</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_module</span><span class="o">.</span><span class="fm">__call__</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_opt_state</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_module</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_tx</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">])</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">auto_shard_model_state</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;Sharding Model State&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">:</span> <span class="n">EasyDeLState</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">shard_states</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span><span class="p">)</span>
+            <span class="p">)</span>
+
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span><span class="s2">&quot;initializing TX and Schedulers for `model_state`&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">)</span>
+
+            <span class="n">params_with_opt</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">params</span><span class="p">[</span>
+                    <span class="s1">&#39;params&#39;</span>
+                <span class="p">]</span> <span class="k">if</span> <span class="s1">&#39;_overwrite_with_gradient&#39;</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">params</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">params</span>
+            <span class="p">)</span>
+            <span class="n">opt_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx</span><span class="o">.</span><span class="n">init</span><span class="p">(</span><span class="n">params_with_opt</span><span class="p">)</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                <span class="n">opt_state</span><span class="o">=</span><span class="n">opt_state</span><span class="p">,</span>
+                <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tx</span>
+            <span class="p">)</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;Sharding Model State&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;Sharding Model State&quot;</span><span class="p">])</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">auto_shard_ref_model_state</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;Sharding Ref Model State&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">shard_states</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span><span class="p">,</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span><span class="p">)</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;Sharding Ref Model State&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;Sharding Ref Model State&quot;</span><span class="p">])</span>
+
+        <span class="n">function_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_functions</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">function_configurations</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">sharded_train_step_function</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">sharded_eval_step_function</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">mesh</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_manager</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">checkpoint_manager</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">initialize_state_function</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">])</span>
+
+    <span class="k">def</span> <span class="nf">create_collate_function</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">truncation_mode</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;keep_end&quot;</span><span class="p">,</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Callable</span><span class="p">:</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">data_collator</span>
+
+    <span class="k">def</span> <span class="nf">shard_states</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">rules</span><span class="p">):</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_mesh</span><span class="p">():</span>
+            <span class="n">partition_spec</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span><span class="n">rules</span><span class="o">=</span><span class="n">rules</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">state</span><span class="p">))</span>
+
+            <span class="k">def</span> <span class="nf">_shard</span><span class="p">(</span><span class="n">x</span><span class="p">):</span>
+                <span class="k">return</span> <span class="n">x</span>
+
+            <span class="n">shard</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+                <span class="n">_shard</span><span class="p">,</span>
+                <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">(),),</span>
+                <span class="n">out_shardings</span><span class="o">=</span><span class="n">partition_spec</span>
+            <span class="p">)</span>
+            <span class="k">return</span> <span class="n">shard</span><span class="p">(</span><span class="n">state</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">configure_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureDataloaderFuncOutput</span><span class="p">:</span>
+        <span class="n">dataloader_train</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_train_dataloader</span><span class="p">()</span>
+        <span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">dataloader_eval</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="n">max_training_steps</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span>
+            <span class="n">dataloader_train</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">dataloader_eval</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_eval_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span><span class="p">)</span>
+            <span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataloader_eval</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">TrainerConfigureDataloaderFuncOutput</span><span class="p">(</span>
+            <span class="n">dataloader_train</span><span class="o">=</span><span class="n">dataloader_train</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+            <span class="n">max_training_steps</span><span class="o">=</span><span class="n">max_training_steps</span><span class="p">,</span>
+            <span class="n">dataloader_eval</span><span class="o">=</span><span class="n">dataloader_eval</span><span class="p">,</span>
+            <span class="n">max_evaluation_steps</span><span class="o">=</span><span class="n">max_evaluation_steps</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">configure_functions</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">:</span>
+        <span class="k">def</span> <span class="nf">initialize_state_function</span><span class="p">():</span>
+            <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">init_weights</span><span class="p">(</span>
+                <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">init_input_shape</span>
+            <span class="p">)</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">:</span>
+                <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_bf16</span><span class="p">(</span><span class="n">initialized_parameters</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float16</span><span class="p">:</span>
+                <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_fp16</span><span class="p">(</span><span class="n">initialized_parameters</span><span class="p">)</span>
+
+            <span class="n">tx</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx</span>
+            <span class="n">parameters</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">freeze</span><span class="p">({</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">initialized_parameters</span><span class="p">})</span>
+            <span class="n">tx_init</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">:</span>
+                    <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_bf16</span><span class="p">(</span><span class="n">lora_parameters</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float16</span><span class="p">:</span>
+                    <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_fp16</span><span class="p">(</span><span class="n">lora_parameters</span><span class="p">)</span>
+
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="p">(</span>
+                    <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">lora_parameters</span><span class="p">,</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span><span class="p">,</span>
+                    <span class="n">opt_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span><span class="p">,</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">tx_init</span><span class="p">),</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create</span><span class="p">(</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config</span><span class="p">),</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">tx_init</span><span class="p">,</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>
+                <span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">create_state_from_params_function</span><span class="p">(</span><span class="n">parameters</span><span class="p">):</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create</span><span class="p">(</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tx</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config</span><span class="p">),</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">),</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="p">(</span>
+                    <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span><span class="p">,</span>
+                    <span class="n">opt_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span><span class="p">,</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)),</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="p">)</span>
+
+        <span class="n">state_shape</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">)</span>
+
+        <span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+            <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+            <span class="n">state_shape</span>
+        <span class="p">)</span>
+        <span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+            <span class="n">create_state_from_params_function</span><span class="p">,</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="o">.</span><span class="n">params</span><span class="p">,),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="n">state_partition_spec</span><span class="p">,</span>
+            <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,)</span>
+        <span class="p">)</span>
+        <span class="n">train_function</span> <span class="o">=</span> <span class="n">create_dpo_train_function</span><span class="p">(</span>
+            <span class="n">concatenated_forward</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span><span class="p">,</span>
+            <span class="n">ref_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span><span class="p">,</span>
+            <span class="n">loss_type</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">loss_type</span><span class="p">,</span>
+            <span class="n">reference_free</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">reference_free</span><span class="p">,</span>
+            <span class="n">label_smoothing</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">label_smoothing</span><span class="p">,</span>
+            <span class="n">beta</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">beta</span>
+        <span class="p">)</span>
+        <span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+            <span class="n">train_function</span><span class="p">,</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span><span class="p">),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="p">)</span>
+
+        <span class="n">eval_function</span> <span class="o">=</span> <span class="n">create_dpo_eval_function</span><span class="p">(</span>
+            <span class="n">concatenated_forward</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span><span class="p">,</span>
+            <span class="n">ref_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span><span class="p">,</span>
+            <span class="n">loss_type</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">loss_type</span><span class="p">,</span>
+            <span class="n">reference_free</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">reference_free</span><span class="p">,</span>
+            <span class="n">label_smoothing</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">label_smoothing</span><span class="p">,</span>
+            <span class="n">beta</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">beta</span>
+        <span class="p">)</span>
+
+        <span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+            <span class="n">eval_function</span><span class="p">,</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span><span class="p">),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ckpt_path_exists</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">state_partition_spec</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">state_shape</span> <span class="o">=</span> <span class="n">state_shape</span>
+        <span class="n">checkpoint_manager</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_streaming_checkpointer</span><span class="p">()</span>
+        <span class="n">mesh</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_mesh</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">(</span>
+            <span class="n">initialize_state_function</span><span class="o">=</span><span class="n">initialize_state_function</span><span class="p">,</span>
+            <span class="n">sharded_train_step_function</span><span class="o">=</span><span class="n">sharded_train_step_function</span><span class="p">,</span>
+            <span class="n">create_sharded_state_from_params_function</span><span class="o">=</span><span class="n">create_sharded_state_from_params_function</span><span class="p">,</span>
+            <span class="n">checkpoint_manager</span><span class="o">=</span><span class="n">checkpoint_manager</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="n">mesh</span><span class="p">,</span>
+            <span class="n">sharded_eval_step_function</span><span class="o">=</span><span class="n">sharded_eval_step_function</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">configure_model</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureModelFuncOutput</span><span class="p">:</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config</span>
+        <span class="n">tx</span><span class="p">,</span> <span class="n">scheduler</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_optimizer_and_scheduler</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">TrainerConfigureModelFuncOutput</span><span class="p">(</span>
+            <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">module</span><span class="p">,</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>  <span class="c1"># type: ignore</span>
+            <span class="n">scheduler</span><span class="o">=</span><span class="n">scheduler</span><span class="p">,</span>
+            <span class="n">tx</span><span class="o">=</span><span class="n">tx</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_get_train_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">tensorflow</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">Dataset</span><span class="p">:</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The _get_train_dataloader function is used to create a tensorflow.data.Dataset object for the training dataset.</span>
+
+<span class="sd">        :param self: Represent the instance of the class</span>
+<span class="sd">        :return: A dataloader object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Trainer: training requires a train_dataset.&quot;</span><span class="p">)</span>
+
+        <span class="n">train_dataset</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span>
+        <span class="n">data_collator</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">data_collator</span>
+
+        <span class="k">return</span> <span class="n">tensorflow_datasets</span><span class="o">.</span><span class="n">as_numpy</span><span class="p">(</span>
+            <span class="n">train_dataset</span><span class="o">.</span><span class="n">to_tf_dataset</span><span class="p">(</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span>
+                <span class="n">collate_fn</span><span class="o">=</span><span class="n">data_collator</span><span class="p">,</span>
+                <span class="n">num_workers</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dataloader_num_workers</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_get_eval_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">eval_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dataset</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">tensorflow</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">Dataset</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Returns the evaluation [`~tensorflow.data.Dataset`].</span>
+
+<span class="sd">        Subclass and override this method if you want to inject some custom behavior.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            eval_dataset (`torch.utils.data.Dataset`, *optional*):</span>
+<span class="sd">                If provided, will override `self.eval_dataset`. If it is a [`~datasets.Dataset`], columns not accepted</span>
+<span class="sd">                by the `model.forward()` method are automatically removed. It must implement `__len__`.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Trainer: evaluation requires an eval_dataset.&quot;</span><span class="p">)</span>
+        <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span> <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span>
+
+        <span class="k">return</span> <span class="n">tensorflow_datasets</span><span class="o">.</span><span class="n">as_numpy</span><span class="p">(</span>
+            <span class="n">eval_dataset</span><span class="o">.</span><span class="n">to_tf_dataset</span><span class="p">(</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span>
+                <span class="n">collate_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">data_collator</span><span class="p">,</span>
+                <span class="n">num_workers</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dataloader_num_workers</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_train_dataloader</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">tensorflow</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">Dataset</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Returns the training [`~tensorflow.data.Dataset`].</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">precompute_ref_log_probs</span> <span class="ow">and</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_precomputed_train_ref_log_probs</span><span class="p">:</span>
+
+            <span class="n">data_loader</span> <span class="o">=</span> <span class="n">tensorflow_datasets</span><span class="o">.</span><span class="n">as_numpy</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span><span class="o">.</span><span class="n">to_tf_dataset</span><span class="p">(</span>
+                    <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span>
+                    <span class="n">collate_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">data_collator</span><span class="p">,</span>
+                    <span class="n">num_workers</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dataloader_num_workers</span><span class="p">,</span>
+                    <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                    <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">reference_chosen_log_probs</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">reference_rejected_log_probs</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">padded_batch</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">iterable</span><span class="o">=</span><span class="n">data_loader</span><span class="p">,</span> <span class="n">desc</span><span class="o">=</span><span class="s2">&quot;Train dataset reference log probs&quot;</span><span class="p">):</span>
+                <span class="n">reference_chosen_logp</span><span class="p">,</span> <span class="n">reference_rejected_logp</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">compute_reference_log_probs</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">,</span>
+                    <span class="n">padded_batch</span><span class="p">,</span>
+                <span class="p">)</span>
+                <span class="n">reference_chosen_log_probs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">reference_chosen_logp</span><span class="p">)</span>
+                <span class="n">reference_rejected_log_probs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">reference_rejected_logp</span><span class="p">)</span>
+
+            <span class="n">all_reference_chosen_log_probs</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span><span class="n">reference_chosen_log_probs</span><span class="p">)</span>
+            <span class="n">all_reference_rejected_log_probs</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span><span class="n">reference_rejected_log_probs</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span><span class="o">.</span><span class="n">add_column</span><span class="p">(</span>
+                <span class="n">name</span><span class="o">=</span><span class="s2">&quot;reference_chosen_log_probs&quot;</span><span class="p">,</span> <span class="n">column</span><span class="o">=</span><span class="n">all_reference_chosen_log_probs</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span><span class="o">.</span><span class="n">add_column</span><span class="p">(</span>
+                <span class="n">name</span><span class="o">=</span><span class="s2">&quot;reference_rejected_log_probs&quot;</span><span class="p">,</span> <span class="n">column</span><span class="o">=</span><span class="n">all_reference_rejected_log_probs</span>
+            <span class="p">)</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">_precomputed_train_ref_log_probs</span> <span class="o">=</span> <span class="kc">True</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_train_dataloader</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">get_eval_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">eval_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dataset</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">tensorflow</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">Dataset</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Returns the evaluation [`~tensorflow.data.Dataset`].</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Trainer: evaluation requires an eval_dataset.&quot;</span><span class="p">)</span>
+        <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span> <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">precompute_ref_log_probs</span> <span class="ow">and</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_precomputed_eval_ref_log_probs</span><span class="p">:</span>
+
+            <span class="c1"># prepare dataloader</span>
+            <span class="n">data_loader</span> <span class="o">=</span> <span class="n">tensorflow_datasets</span><span class="o">.</span><span class="n">as_numpy</span><span class="p">(</span>
+                <span class="n">eval_dataset</span><span class="o">.</span><span class="n">to_tf_dataset</span><span class="p">(</span>
+                    <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span>
+                    <span class="n">collate_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">data_collator</span><span class="p">,</span>
+                    <span class="n">num_workers</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dataloader_num_workers</span><span class="p">,</span>
+                    <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                    <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+
+            <span class="n">reference_chosen_log_probs</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">reference_rejected_log_probs</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">padded_batch</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">iterable</span><span class="o">=</span><span class="n">data_loader</span><span class="p">,</span> <span class="n">desc</span><span class="o">=</span><span class="s2">&quot;Eval dataset reference log probs&quot;</span><span class="p">):</span>
+                <span class="n">reference_chosen_logp</span><span class="p">,</span> <span class="n">reference_rejected_logp</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">compute_reference_log_probs</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">,</span>
+                    <span class="n">padded_batch</span>
+                <span class="p">)</span>
+                <span class="n">reference_chosen_log_probs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">reference_chosen_logp</span><span class="o">.</span><span class="n">cpu</span><span class="p">())</span>
+                <span class="n">reference_rejected_log_probs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">reference_rejected_logp</span><span class="o">.</span><span class="n">cpu</span><span class="p">())</span>
+
+            <span class="n">all_reference_chosen_log_probs</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span><span class="n">reference_chosen_log_probs</span><span class="p">)</span>
+            <span class="n">all_reference_rejected_log_probs</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span><span class="n">reference_rejected_log_probs</span><span class="p">)</span>
+
+            <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span><span class="o">.</span><span class="n">add_column</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="s2">&quot;reference_chosen_log_probs&quot;</span><span class="p">,</span>
+                                                   <span class="n">column</span><span class="o">=</span><span class="n">all_reference_chosen_log_probs</span><span class="p">)</span>
+            <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span><span class="o">.</span><span class="n">add_column</span><span class="p">(</span>
+                <span class="n">name</span><span class="o">=</span><span class="s2">&quot;reference_rejected_log_probs&quot;</span><span class="p">,</span> <span class="n">column</span><span class="o">=</span><span class="n">all_reference_rejected_log_probs</span>
+            <span class="p">)</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">_precomputed_eval_ref_log_probs</span> <span class="o">=</span> <span class="kc">True</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_eval_dataloader</span><span class="p">(</span><span class="n">eval_dataset</span><span class="o">=</span><span class="n">eval_dataset</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">build_tokenized_answer</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">prompt</span><span class="p">,</span> <span class="n">answer</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Llama tokenizer does satisfy `enc(a + b) = enc(a) + enc(b)`.</span>
+<span class="sd">        It does ensure `enc(a + b) = enc(a) + enc(a + b)[len(enc(a)):]`.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">full_tokenized</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">prompt</span> <span class="o">+</span> <span class="n">answer</span><span class="p">,</span> <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+        <span class="n">prompt_input_ids</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">)[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span>
+
+        <span class="n">answer_input_ids</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">):]</span>
+        <span class="n">answer_attention_mask</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">][</span><span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">):]</span>
+        <span class="n">prompt_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">answer_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">answer_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">full_concat_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span>
+                <span class="n">prompt_input_ids</span><span class="p">,</span>
+                <span class="n">answer_input_ids</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="c1"># Prepare input tokens for token by token comparison</span>
+        <span class="n">full_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">])</span>
+
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">full_input_ids</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">full_concat_input_ids</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Prompt input ids and answer input ids should have the same length.&quot;</span><span class="p">)</span>
+
+        <span class="n">response_token_ids_start_idx</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">prompt_input_ids</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="o">!=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:</span><span class="n">response_token_ids_start_idx</span><span class="p">]:</span>
+            <span class="n">response_token_ids_start_idx</span> <span class="o">-=</span> <span class="mi">1</span>
+
+        <span class="n">prompt_input_ids</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:</span><span class="n">response_token_ids_start_idx</span><span class="p">]</span>
+        <span class="n">prompt_attention_mask</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">][:</span><span class="n">response_token_ids_start_idx</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">prompt_attention_mask</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Prompt input ids and attention mask should have the same length.&quot;</span><span class="p">)</span>
+
+        <span class="n">answer_input_ids</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="n">response_token_ids_start_idx</span><span class="p">:]</span>
+        <span class="n">answer_attention_mask</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">][</span><span class="n">response_token_ids_start_idx</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="nb">dict</span><span class="p">(</span>
+            <span class="n">prompt_input_ids</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">prompt_attention_mask</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">prompt_attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">answer_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">answer_attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">tokenize_row</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">feature</span><span class="p">,</span> <span class="n">state</span><span class="p">:</span> <span class="n">EasyDeLState</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dict</span><span class="p">:</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The tokenize_row function is responsible for taking a single row of data and converting it into the format that</span>
+<span class="sd">        the model expects. This includes:</span>
+<span class="sd">        - Tokenizing the text (using HuggingFace&#39;s tokenizer)</span>
+<span class="sd">        - Padding/truncating sequences to a fixed length (if necessary)</span>
+<span class="sd">        - Creating attention masks, which tell the model which tokens are padding and which aren&#39;t.</span>
+
+<span class="sd">        :param self: Represent the instance of the class</span>
+<span class="sd">        :param feature: Pass in the data from the dataset</span>
+<span class="sd">        :param state: EasyDeLState: Keep track of the state of the tokenizer</span>
+<span class="sd">        :return: A dictionary of the following keys</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">prompt</span> <span class="o">=</span> <span class="n">feature</span><span class="p">[</span><span class="s2">&quot;prompt&quot;</span><span class="p">]</span>
+        <span class="n">chosen</span> <span class="o">=</span> <span class="n">feature</span><span class="p">[</span><span class="s2">&quot;chosen&quot;</span><span class="p">]</span>
+        <span class="n">rejected</span> <span class="o">=</span> <span class="n">feature</span><span class="p">[</span><span class="s2">&quot;rejected&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;prompt should be an str but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">prompt</span><span class="p">)</span><span class="si">}</span><span class="s2"> , </span><span class="si">{</span><span class="n">prompt</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+        <span class="n">prompt_tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
+            <span class="n">prompt</span><span class="p">,</span>
+            <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;np&quot;</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">prompt_tokens</span> <span class="o">=</span> <span class="p">{</span><span class="sa">f</span><span class="s2">&quot;prompt_</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">prompt_tokens</span><span class="o">.</span><span class="n">items</span><span class="p">()}</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">chosen</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;chosen should be an str but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">chosen</span><span class="p">)</span><span class="si">}</span><span class="s2"> , </span><span class="si">{</span><span class="n">chosen</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+        <span class="n">chosen_tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_tokenized_answer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">chosen</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">rejected</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;rejected should be an str but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">rejected</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+        <span class="n">rejected_tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_tokenized_answer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">rejected</span><span class="p">)</span>
+        <span class="n">v2d</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">ar</span><span class="p">:</span> <span class="n">ar</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span> <span class="k">if</span> <span class="n">ar</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">1</span> <span class="k">else</span> <span class="n">ar</span>
+
+        <span class="k">def</span> <span class="nf">add_tkn</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="n">ar</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span>
+                    <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">n</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+                    <span class="n">v2d</span><span class="p">(</span><span class="n">ar</span><span class="p">)</span>
+                <span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+            <span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">add_post_tkn</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="n">ar</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span>
+                    <span class="n">v2d</span><span class="p">(</span><span class="n">ar</span><span class="p">),</span>
+                    <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">n</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+                <span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+            <span class="p">)</span>
+
+        <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span>
+        <span class="p">)</span>
+        <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span>
+        <span class="p">)</span>
+        <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span>
+        <span class="p">)</span>
+
+        <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+            <span class="mi">1</span><span class="p">,</span> <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span>
+        <span class="p">)</span>
+        <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+            <span class="mi">1</span><span class="p">,</span> <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span>
+        <span class="p">)</span>
+        <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+            <span class="mi">1</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span>
+        <span class="p">)</span>
+
+        <span class="c1"># add EOS token to end of answer</span>
+        <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span> <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">])</span>
+        <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">])</span>
+
+        <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">])</span>
+        <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">])</span>
+
+        <span class="n">longer_response_length</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">])</span>
+
+        <span class="c1"># if combined sequence is too long, truncate the prompt</span>
+        <span class="k">for</span> <span class="n">answer_tokens</span> <span class="ow">in</span> <span class="p">[</span><span class="n">chosen_tokens</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">,</span> <span class="n">prompt_tokens</span><span class="p">]:</span>
+            <span class="n">length_rn</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="n">longer_response_length</span>
+            <span class="k">if</span> <span class="n">length_rn</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span><span class="p">:</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span> <span class="o">==</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]:</span>
+                        <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">][:,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">]</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span> <span class="o">==</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]:</span>
+                        <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">][:,</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">:]</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Unknown truncation mode: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+        <span class="c1"># if that&#39;s still too long, truncate the response</span>
+        <span class="k">for</span> <span class="n">answer_tokens</span> <span class="ow">in</span> <span class="p">[</span><span class="n">chosen_tokens</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">]:</span>
+            <span class="k">if</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="n">longer_response_length</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">]:</span>
+                    <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">][:,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">]</span>
+
+        <span class="n">chosen_sequence_tokens</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="n">k</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span><span class="n">v2d</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;prompt_</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">]),</span> <span class="n">v2d</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">])),</span>
+                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+            <span class="p">)</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span>
+        <span class="p">}</span>
+        <span class="n">rejected_sequence_tokens</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="n">k</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span><span class="n">v2d</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;prompt_</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">]),</span> <span class="n">v2d</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">])),</span>
+                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+            <span class="p">)</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span>
+        <span class="p">}</span>
+        <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:]</span>
+        <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">at</span><span class="p">[</span>
+                                           <span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">])</span>
+                                           <span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">([</span><span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]))</span>
+        <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:]</span>
+        <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">at</span><span class="p">[</span>
+                                             <span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">])</span>
+                                             <span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span>
+            <span class="p">([</span><span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]))</span>
+        <span class="p">)</span>
+
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">tokens_</span> <span class="ow">in</span> <span class="p">{</span>
+            <span class="s2">&quot;chosen_&quot;</span><span class="p">:</span> <span class="n">chosen_sequence_tokens</span><span class="p">,</span>
+            <span class="s2">&quot;rejected_&quot;</span><span class="p">:</span> <span class="n">rejected_sequence_tokens</span><span class="p">,</span>
+            <span class="s2">&quot;&quot;</span><span class="p">:</span> <span class="n">prompt_tokens</span><span class="p">,</span>
+        <span class="p">}</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">for</span> <span class="n">type_key</span><span class="p">,</span> <span class="n">tokens</span> <span class="ow">in</span> <span class="n">tokens_</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;token_type_ids&quot;</span><span class="p">:</span>
+                    <span class="k">continue</span>
+
+                <span class="n">b</span><span class="p">,</span> <span class="n">s</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span> <span class="o">&gt;</span> <span class="n">s</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="n">k</span> <span class="o">==</span> <span class="s2">&quot;chosen_&quot;</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;input_ids&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;labels&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">]</span>
+
+                        <span class="k">if</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">:</span>
+                            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                                <span class="sa">f</span><span class="s2">&quot;there was an error in padding token with `type_key` of </span><span class="si">{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                                <span class="sa">f</span><span class="s2">&quot;. it must have sequence_length of </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="si">}</span><span class="s2"> but we got </span><span class="si">{</span><span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+                                <span class="sa">f</span><span class="s2">&quot; From </span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="p">)</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">]</span>
+                    <span class="k">elif</span> <span class="n">k</span> <span class="o">==</span> <span class="s2">&quot;rejected_&quot;</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;input_ids&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;labels&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">]</span>
+                        <span class="k">if</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">:</span>
+                            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                                <span class="sa">f</span><span class="s2">&quot;there was an error in padding token with `type_key` of </span><span class="si">{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                                <span class="sa">f</span><span class="s2">&quot;. it must have sequence_length of </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="si">}</span><span class="s2"> but we got </span><span class="si">{</span><span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+                                <span class="sa">f</span><span class="s2">&quot; From </span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">k</span> <span class="o">==</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;prompt_labels&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">]</span>
+                        <span class="k">if</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">:</span>
+                            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                                <span class="sa">f</span><span class="s2">&quot;there was an error in padding token with `type_key` of </span><span class="si">{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                                <span class="sa">f</span><span class="s2">&quot;. it must have sequence_length of </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="si">}</span><span class="s2"> but we got </span><span class="si">{</span><span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+                                <span class="sa">f</span><span class="s2">&quot; From </span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="p">)</span>
+                <span class="n">batch</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">tokens</span>
+        <span class="k">return</span> <span class="n">batch</span>
+
+    <span class="k">def</span> <span class="nf">compute_reference_log_probs</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">,</span>
+            <span class="n">padded_batch</span><span class="p">:</span> <span class="n">Dict</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="n">Any</span><span class="p">,</span> <span class="n">Any</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Computes log probabilities of the reference model for a single padded batch of a DPO specific dataset.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="p">(</span>
+                <span class="n">reference_chosen_log_probs</span><span class="p">,</span>
+                <span class="n">reference_rejected_log_probs</span><span class="p">,</span>
+                <span class="n">_</span><span class="p">,</span>
+                <span class="n">_</span><span class="p">,</span>
+            <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span><span class="p">(</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="n">state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">state</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                <span class="n">batch</span><span class="o">=</span><span class="n">padded_batch</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="p">(</span>
+                <span class="n">reference_chosen_log_probs</span><span class="p">,</span>
+                <span class="n">reference_rejected_log_probs</span><span class="p">,</span>
+                <span class="n">_</span><span class="p">,</span>
+                <span class="n">_</span><span class="p">,</span>
+            <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span><span class="p">(</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                <span class="n">batch</span><span class="o">=</span><span class="n">padded_batch</span><span class="p">,</span>
+            <span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">reference_chosen_log_probs</span><span class="p">,</span> <span class="n">reference_rejected_log_probs</span>
+
+    <span class="k">def</span> <span class="nf">_save_state</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">,</span>
+            <span class="n">gather_fns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Any</span> <span class="o">|</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]</span> <span class="o">|</span> <span class="nb">dict</span><span class="p">[</span><span class="n">Callable</span><span class="p">]],</span>
+            <span class="n">milestone</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+        <span class="n">step</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">device_get</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">.</span><span class="n">step</span>
+            <span class="p">)</span>
+        <span class="p">)</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="nb">int</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">device_get</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">.</span><span class="n">step</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">checkpoint_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_name</span><span class="si">}</span><span class="s2">-S</span><span class="si">{</span><span class="n">step</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="n">filename</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">checkpoint_name</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">step</span><span class="si">}</span><span class="s2">&quot;</span> <span class="k">if</span> <span class="n">milestone</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">checkpoint_name</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="n">filename</span> <span class="o">+=</span> <span class="s2">&quot;.easy&quot;</span>
+        <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Saving Model </span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="n">state</span><span class="o">.</span><span class="n">save_state</span><span class="p">(</span>
+            <span class="n">filename</span><span class="o">=</span><span class="n">filename</span><span class="p">,</span>
+            <span class="n">checkpoint_dir</span><span class="o">=</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_dir</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_name</span><span class="p">),</span>
+            <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+            <span class="n">float_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">verbose</span><span class="p">,</span>
+            <span class="n">save_optimizer</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_optimizer_state</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">filename</span>
+
+    <span class="k">def</span> <span class="nf">train</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">DPOTrainerOutput</span><span class="p">:</span>
+        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;model_state can not be None for training purpose&quot;</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="s2">&quot;cpu&quot;</span><span class="p">)[</span><span class="mi">0</span><span class="p">])</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">low_mem_usage</span> <span class="k">else</span> <span class="n">leave_alone_context_manager</span><span class="p">:</span>
+                <span class="n">dir_prefix</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;/dev/shm&quot;</span> <span class="k">if</span> <span class="n">sys</span><span class="o">.</span><span class="n">platform</span> <span class="o">!=</span> <span class="s2">&quot;win32&quot;</span> <span class="k">else</span> <span class="s2">&quot;.&quot;</span>
+                <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="s2">&quot;SAVING_SKIPPED&quot;</span>
+
+                <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">)</span>
+                <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Training&quot;</span><span class="p">)</span>
+                <span class="n">current_step</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">step</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">step</span><span class="p">,</span>
+                    <span class="n">jax</span><span class="o">.</span><span class="n">Array</span>
+                <span class="p">)</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">step</span>
+
+                <span class="n">loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+                <span class="n">chosen_rewards_sum</span> <span class="o">=</span> <span class="kc">None</span>
+                <span class="n">rejected_rewards_sum</span> <span class="o">=</span> <span class="kc">None</span>
+
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">epoch_index</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span><span class="p">):</span>
+                        <span class="k">for</span> <span class="n">batch</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span><span class="p">:</span>
+                            <span class="n">current_step</span> <span class="o">+=</span> <span class="mi">1</span>
+                            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="o">&gt;</span> <span class="n">current_step</span><span class="p">:</span>
+                                <span class="o">...</span>
+                            <span class="k">elif</span> <span class="n">current_step</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">:</span>
+                                <span class="n">time_start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+
+                                <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">,</span> <span class="n">metrics</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span><span class="p">(</span>
+                                    <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">,</span>
+                                    <span class="n">batch</span>
+                                <span class="p">)</span>
+                                <span class="n">total_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">time_start</span>
+                                <span class="p">(</span>
+                                    <span class="n">loss</span><span class="p">,</span> <span class="n">chosen_rewards</span><span class="p">,</span> <span class="n">rejected_rewards</span>
+                                <span class="p">)</span> <span class="o">=</span> <span class="n">metrics</span><span class="o">.</span><span class="n">loss</span><span class="p">,</span> <span class="n">metrics</span><span class="o">.</span><span class="n">chosen_rewards</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">metrics</span><span class="o">.</span><span class="n">rejected_rewards</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+                                <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+
+                                <span class="n">rejected_rewards_sum</span> <span class="o">=</span> <span class="p">(</span>
+                                    <span class="n">rejected_rewards</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="p">(</span>
+                                            <span class="n">rejected_rewards_sum</span> <span class="ow">is</span> <span class="kc">None</span>
+                                    <span class="p">)</span> <span class="k">else</span> <span class="n">rejected_rewards_sum</span> <span class="o">+</span> <span class="n">rejected_rewards</span>
+                                <span class="p">)</span>
+                                <span class="n">chosen_rewards_sum</span> <span class="o">=</span> <span class="p">(</span>
+                                    <span class="n">chosen_rewards</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="p">(</span>
+                                            <span class="n">chosen_rewards_sum</span> <span class="ow">is</span> <span class="kc">None</span>
+                                    <span class="p">)</span> <span class="k">else</span> <span class="n">chosen_rewards_sum</span> <span class="o">+</span> <span class="n">chosen_rewards</span>
+                                <span class="p">)</span>
+                                <span class="n">train_metrics</span> <span class="o">=</span> <span class="p">{</span>
+                                    <span class="s2">&quot;train/loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/mean_loss&quot;</span><span class="p">:</span> <span class="n">loss_sum</span> <span class="o">/</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">),</span>
+                                    <span class="s2">&quot;train/mean_rejected_rewards&quot;</span><span class="p">:</span> <span class="n">rejected_rewards_sum</span> <span class="o">/</span> <span class="p">(</span>
+                                            <span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span>
+                                    <span class="p">),</span>
+                                    <span class="s2">&quot;train/mean_chosen_rewards&quot;</span><span class="p">:</span> <span class="n">chosen_rewards_sum</span> <span class="o">/</span> <span class="p">(</span>
+                                            <span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span>
+                                    <span class="p">),</span>
+                                    <span class="s2">&quot;train/learning_rate&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span><span class="p">(</span>
+                                        <span class="n">jax</span><span class="o">.</span><span class="n">device_get</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">step</span><span class="p">)</span>
+                                    <span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/step&quot;</span><span class="p">:</span> <span class="n">current_step</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/step_time&quot;</span><span class="p">:</span> <span class="n">total_time</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/perplexity&quot;</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">loss</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/epoch&quot;</span><span class="p">:</span> <span class="n">epoch_index</span>
+                                <span class="p">}</span>
+                                <span class="n">log_metrics</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">train_metrics</span><span class="p">)</span>
+                                <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">captured_memory</span><span class="p">)</span>
+                                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">use_wandb</span><span class="p">:</span>
+                                    <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">spmd_mode</span><span class="p">(</span><span class="s2">&quot;allow_all&quot;</span><span class="p">):</span>
+                                        <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                                            <span class="n">train_metrics</span>
+                                        <span class="p">)</span>
+                                <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                                <span class="n">pbar</span><span class="o">.</span><span class="n">set_postfix</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;train/&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">):</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">log_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">()})</span>
+                            <span class="k">else</span><span class="p">:</span>
+                                <span class="k">break</span>
+                <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+                    <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                        <span class="s2">&quot;KeyboardInterrupt At training model Will return Current State of the Model with Parameters.&quot;</span><span class="p">,</span>
+                        <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                        <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                    <span class="p">)</span>
+
+                <span class="k">except</span> <span class="n">EasyDeLTimerError</span><span class="p">:</span>
+                    <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                        <span class="s2">&quot;Training reached out maximum training Time Killing training Process &quot;</span>
+                        <span class="s2">&quot;and Will return Current State of the Model with Parameters.&quot;</span><span class="p">,</span>
+                        <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                        <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                    <span class="p">)</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">merge_lora_rapture_parameters</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="nb">print</span><span class="p">(</span>
+                        <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                            <span class="s2">&quot;Info : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                        <span class="p">),</span>
+                        <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                            <span class="s2">&quot;Merging LoRA Parameters.&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                        <span class="p">)</span>
+                    <span class="p">)</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                        <span class="n">params</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">rapture</span><span class="o">.</span><span class="n">merge_parameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+                    <span class="p">)</span>
+
+                <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span>
+                    <span class="n">partition_specs</span><span class="o">=</span><span class="n">match_partition_rules</span><span class="p">(</span>
+                        <span class="n">rules</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+                        <span class="p">),</span>
+                        <span class="n">params</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">)</span>
+                    <span class="p">),</span>
+                    <span class="n">dtype_specs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span>
+                <span class="p">)</span>
+                <span class="n">output</span> <span class="o">=</span> <span class="n">DPOTrainerOutput</span><span class="p">(</span>
+                    <span class="n">state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">,</span>
+                    <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">,</span>
+                    <span class="n">shard_fns</span><span class="o">=</span><span class="n">shard_fns</span><span class="p">,</span>
+                    <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+                    <span class="n">checkpoint_manager</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_manager</span><span class="p">,</span>
+                <span class="p">)</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_steps</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_last_save</span><span class="p">:</span>
+                    <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span>
+                        <span class="n">match_partition_rules</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                                <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+                            <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+                            <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">)</span>
+                        <span class="p">),</span>
+                        <span class="n">dtype_specs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span>
+                    <span class="p">)</span>  <span class="c1"># You have to re-init the new shard and gather functions in order to be able to skip LoRA weight</span>
+                    <span class="c1"># crashing errors and saving errors</span>
+                    <span class="n">filename</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_save_state</span><span class="p">(</span>
+                        <span class="n">state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">,</span>
+                        <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span>
+                    <span class="p">)</span>
+                    <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_path</span><span class="p">())</span><span class="si">}</span><span class="s2">/</span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">&quot;</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_eval</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span>
+                    <span class="p">):</span>
+                        <span class="o">...</span>
+
+                <span class="n">output</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="o">=</span> <span class="n">checkpoint_path</span>
+                <span class="n">output</span><span class="o">.</span><span class="n">last_save_file_name</span> <span class="o">=</span> <span class="n">filename</span>
+                <span class="n">wandb</span><span class="o">.</span><span class="n">finish</span><span class="p">()</span>
+
+        <span class="k">return</span> <span class="n">output</span>
+
+    <span class="k">def</span> <span class="nf">eval</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Iterator</span><span class="p">[</span><span class="nb">dict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Evaluate the Given Model State and yield the eval metrics&quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`dataloader_eval` is required by evaluator function.&quot;</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span><span class="p">)</span>
+            <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Evaluating&quot;</span><span class="p">)</span>
+            <span class="n">current_step</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="n">loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">chosen_rewards_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">rejected_rewards_sum</span> <span class="o">=</span> <span class="kc">None</span>
+
+            <span class="k">try</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">batch</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span><span class="p">:</span>
+                    <span class="n">current_step</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="n">time_start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span><span class="p">:</span>
+                        <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+                    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">batch</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+                        <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span>
+                                <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_input_ids&quot;</span><span class="p">)</span>
+                                <span class="ow">or</span> <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">)</span>
+                                <span class="ow">or</span> <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_labels&quot;</span><span class="p">)</span>
+                        <span class="p">):</span>
+                            <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+                    <span class="n">metrics</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span><span class="p">(</span>
+                        <span class="n">model_state</span><span class="p">,</span>
+                        <span class="n">batch</span>
+                    <span class="p">)</span>
+                    <span class="n">total_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">time_start</span>
+                    <span class="p">(</span>
+                        <span class="n">loss</span><span class="p">,</span> <span class="n">chosen_rewards</span><span class="p">,</span> <span class="n">rejected_rewards</span>
+                    <span class="p">)</span> <span class="o">=</span> <span class="n">metrics</span><span class="o">.</span><span class="n">loss</span><span class="p">,</span> <span class="n">metrics</span><span class="o">.</span><span class="n">chosen_rewards</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">metrics</span><span class="o">.</span><span class="n">rejected_rewards</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+                    <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+                    <span class="n">rejected_rewards_sum</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">rejected_rewards</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="p">(</span>
+                                <span class="n">rejected_rewards_sum</span> <span class="ow">is</span> <span class="kc">None</span>
+                        <span class="p">)</span> <span class="k">else</span> <span class="n">rejected_rewards_sum</span> <span class="o">+</span> <span class="n">rejected_rewards</span>
+                    <span class="p">)</span>
+                    <span class="n">chosen_rewards_sum</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">chosen_rewards</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="p">(</span>
+                                <span class="n">chosen_rewards_sum</span> <span class="ow">is</span> <span class="kc">None</span>
+                        <span class="p">)</span> <span class="k">else</span> <span class="n">chosen_rewards_sum</span> <span class="o">+</span> <span class="n">chosen_rewards</span>
+                    <span class="p">)</span>
+
+                    <span class="n">eval_metrics</span> <span class="o">=</span> <span class="p">{</span>
+                        <span class="s2">&quot;eval/loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                        <span class="s2">&quot;eval/mean_loss&quot;</span><span class="p">:</span> <span class="n">loss_sum</span> <span class="o">/</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">),</span>
+                        <span class="s2">&quot;eval/mean_rejected_rewards&quot;</span><span class="p">:</span> <span class="n">rejected_rewards_sum</span> <span class="o">/</span> <span class="p">(</span>
+                                <span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span>
+                        <span class="p">),</span>
+                        <span class="s2">&quot;eval/mean_chosen_rewards&quot;</span><span class="p">:</span> <span class="n">chosen_rewards_sum</span> <span class="o">/</span> <span class="p">(</span>
+                                <span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span>
+                        <span class="p">),</span>
+                        <span class="s2">&quot;eval/step&quot;</span><span class="p">:</span> <span class="n">current_step</span><span class="p">,</span>
+                        <span class="s2">&quot;eval/step_time&quot;</span><span class="p">:</span> <span class="n">total_time</span><span class="p">,</span>
+                        <span class="s2">&quot;eval/perplexity&quot;</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">loss</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                    <span class="p">}</span>
+                    <span class="n">log_metrics</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">eval_metrics</span><span class="p">)</span>
+                    <span class="n">eval_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">captured_memory</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">use_wandb</span><span class="p">:</span>
+                        <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">spmd_mode</span><span class="p">(</span><span class="s2">&quot;allow_all&quot;</span><span class="p">):</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                                <span class="n">eval_metrics</span>
+                            <span class="p">)</span>
+
+                    <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                    <span class="n">pbar</span><span class="o">.</span><span class="n">set_postfix</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;eval/&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">):</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">log_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">()})</span>
+                    <span class="k">yield</span> <span class="n">eval_metrics</span>
+            <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                    <span class="s2">&quot;KeyboardInterrupt At Evaluation model Will return Nothing and just pass.&quot;</span><span class="p">,</span>
+                    <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                    <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">        This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">        to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">        object, or when you type its name in the REPL.</span>
+
+<span class="sd">        :param self: Refer to the instance of the class</span>
+<span class="sd">        :return: A string representation of the object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">350</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                    <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="s2">&quot;EasyDeLReadingError&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">350</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+
+        <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">        It should return a string representation of the object.</span>
+
+<span class="sd">        :param self: Refer to the instance of the class</span>
+<span class="sd">        :return: The object&#39;s string representation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">arguments</span><span class="p">,</span> <span class="n">model_state</span><span class="p">,</span> <span class="n">ref_model_state</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">beta</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">label_smoothing</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">loss_type</span><span class="o">=</span><span class="s1">&#39;sigmoid&#39;</span><span class="p">,</span> <span class="n">label_pad_token_id</span><span class="o">=-</span><span class="mi">100</span><span class="p">,</span> <span class="n">padding_value</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train_dataset</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">eval_dataset</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tokenizer</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">data_collator</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">max_length</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">max_prompt_length</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">max_target_length</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">precompute_ref_log_probs</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">model_init_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">ref_model_init_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">reference_free</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">auto_shard_model_state</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">auto_shard_ref_model_state</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">dataset_map_arguments</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">low_mem_usage</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">auto_fix_data</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">_do_init_fns</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up the attributes of an object.</p>
+<p>:param self: Refer to the object itself
+:param model_state: EasyDeLState | str: Pass the model state to the trainer
+:param ref_model_state: Optional[EasyDeLState | str]: Pass the reference model state
+:param beta: float: Control the strength of the regularization term
+:param label_smoothing: float: Smooth the labels
+:param loss_type: Literal["sigmoid", "hinge", "ipo", "kto"] : Determine the loss function used
+:param arguments: TrainArguments: Pass the arguments to the trainer
+:param label_pad_token_id: int: Pad the labels
+:param padding_value: int: Specify the value that is used for padding
+:param train_dataset: Optional[Dataset]: Load the training dataset
+:param eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] : Pass the evaluation dataset to the trainer
+:param tokenizer: Optional[PreTrainedTokenizerBase]: Pass the tokenizer to the trainer
+:param max_length: Optional[int]: Set the maximum length of the input sequence
+:param max_prompt_length: Optional[int]: Set the maximum length of the prompt
+:param max_target_length: Optional[int]: Truncate the target sequence
+:param data_collator: Optional[Callable]: Function to be used for creating datasets.
+:param precompute_ref_log_probs: bool: Precompute the log probabilities of the reference model
+:param model_init_kwargs: Optional[Dict]: Pass in the model_kwargs to model for init process
+:param ref_model_init_kwargs: Optional[Dict]: Pass the ref_model_init_kwargs to ref_model for init process
+:param auto_shard_model_state: bool: whenever to automatically shard <code>model_state</code>
+:param auto_shard_ref_model_state: bool: whenever to automatically shard <code>ref_model_state</code>
+:param dataset_map_arguments: Optional[dict]: arguments to be passed to train and eval datasets for
+tokenizing process with <code>dataset.map</code>.
+:param _do_init_fns: bool : preferred to set ture to trainer will automatically configure
+model with provided training Arguments
+:param : Set the padding value for the model</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">arguments</span><span class="p">:</span> <span class="n">TrainArguments</span><span class="p">,</span>
+        <span class="n">model_state</span><span class="p">:</span> <span class="n">EasyDeLState</span> <span class="o">|</span> <span class="nb">str</span><span class="p">,</span>
+        <span class="n">ref_model_state</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLState</span> <span class="o">|</span> <span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">beta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+        <span class="n">label_smoothing</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">.0</span><span class="p">,</span>
+        <span class="n">loss_type</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;sigmoid&quot;</span><span class="p">,</span> <span class="s2">&quot;hinge&quot;</span><span class="p">,</span> <span class="s2">&quot;ipo&quot;</span><span class="p">,</span> <span class="s2">&quot;kto&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;sigmoid&quot;</span><span class="p">,</span>
+        <span class="n">label_pad_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">100</span><span class="p">,</span>
+        <span class="n">padding_value</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dataset</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">eval_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">Dataset</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Dataset</span><span class="p">]]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">tokenizer</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PreTrainedTokenizerBase</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">data_collator</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Callable</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">max_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">max_prompt_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">max_target_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">precompute_ref_log_probs</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">model_init_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">ref_model_init_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">reference_free</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">auto_shard_model_state</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">auto_shard_ref_model_state</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">is_encoder_decoder</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">dataset_map_arguments</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">low_mem_usage</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">auto_fix_data</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">_do_init_fns</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+<span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up the attributes of an object.</span>
+
+
+<span class="sd">    :param self: Refer to the object itself</span>
+<span class="sd">    :param model_state: EasyDeLState | str: Pass the model state to the trainer</span>
+<span class="sd">    :param ref_model_state: Optional[EasyDeLState | str]: Pass the reference model state</span>
+<span class="sd">    :param beta: float: Control the strength of the regularization term</span>
+<span class="sd">    :param label_smoothing: float: Smooth the labels</span>
+<span class="sd">    :param loss_type: Literal[&quot;sigmoid&quot;, &quot;hinge&quot;, &quot;ipo&quot;, &quot;kto&quot;] : Determine the loss function used</span>
+<span class="sd">    :param arguments: TrainArguments: Pass the arguments to the trainer</span>
+<span class="sd">    :param label_pad_token_id: int: Pad the labels</span>
+<span class="sd">    :param padding_value: int: Specify the value that is used for padding</span>
+<span class="sd">    :param train_dataset: Optional[Dataset]: Load the training dataset</span>
+<span class="sd">    :param eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] : Pass the evaluation dataset to the trainer</span>
+<span class="sd">    :param tokenizer: Optional[PreTrainedTokenizerBase]: Pass the tokenizer to the trainer</span>
+<span class="sd">    :param max_length: Optional[int]: Set the maximum length of the input sequence</span>
+<span class="sd">    :param max_prompt_length: Optional[int]: Set the maximum length of the prompt</span>
+<span class="sd">    :param max_target_length: Optional[int]: Truncate the target sequence</span>
+<span class="sd">    :param data_collator: Optional[Callable]: Function to be used for creating datasets.</span>
+<span class="sd">    :param precompute_ref_log_probs: bool: Precompute the log probabilities of the reference model</span>
+<span class="sd">    :param model_init_kwargs: Optional[Dict]: Pass in the model_kwargs to model for init process</span>
+<span class="sd">    :param ref_model_init_kwargs: Optional[Dict]: Pass the ref_model_init_kwargs to ref_model for init process</span>
+<span class="sd">    :param auto_shard_model_state: bool: whenever to automatically shard `model_state`</span>
+<span class="sd">    :param auto_shard_ref_model_state: bool: whenever to automatically shard `ref_model_state`</span>
+<span class="sd">    :param dataset_map_arguments: Optional[dict]: arguments to be passed to train and eval datasets for</span>
+<span class="sd">    tokenizing process with `dataset.map`.</span>
+<span class="sd">    :param _do_init_fns: bool : preferred to set ture to trainer will automatically configure</span>
+<span class="sd">    model with provided training Arguments</span>
+<span class="sd">    :param : Set the padding value for the model</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="n">arguments</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="p">(</span>
+        <span class="s2">&quot;You Have to pass arguments that will be used for training but you have passed&quot;</span>
+        <span class="s2">&quot;`arguments=None`&quot;</span>
+    <span class="p">)</span>
+    <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">arguments</span><span class="p">,</span> <span class="n">TrainArguments</span><span class="p">),</span> <span class="p">(</span>
+        <span class="sa">f</span><span class="s2">&quot;arguments type must be `TrainArguments` but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">arguments</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">)</span>
+    <span class="k">if</span> <span class="n">model_init_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">model_init_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">elif</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">model_state</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;You passed model_kwargs to the DPOTrainer. But your model is already instantiated.&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">ref_model_init_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">ref_model_init_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">elif</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">ref_model_state</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+            <span class="s2">&quot;You passed ref_model_kwargs to the DPOTrainer. But your ref_model is already instantiated.&quot;</span>
+        <span class="p">)</span>
+
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">model_state</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;You passed a model_id to the DPOTrainer. This will automatically create an &quot;</span>
+            <span class="s2">&quot;`AutoEasyDeLModelForCausalLM` for you.&quot;</span>
+        <span class="p">)</span>
+        <span class="n">model_state</span> <span class="o">=</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="n">model_state</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">model_init_kwargs</span>
+        <span class="p">)</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">ref_model_state</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;You passed a ref model_id to the DPOTrainer. This will automatically create an &quot;</span>
+            <span class="s2">&quot;`AutoEasyDeLModelForCausalLM`&quot;</span>
+        <span class="p">)</span>
+        <span class="n">ref_model_state</span> <span class="o">=</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span>
+            <span class="n">ref_model_state</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">ref_model_init_kwargs</span>
+        <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">loss_type</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;hinge&quot;</span><span class="p">,</span> <span class="s2">&quot;ipo&quot;</span><span class="p">,</span> <span class="s2">&quot;kto_pair&quot;</span><span class="p">]</span> <span class="ow">and</span> <span class="n">label_smoothing</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;You are using a loss type that does not support label smoothing. Ignoring label_smoothing parameter.&quot;</span>
+        <span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">auto_fix_data</span> <span class="o">=</span> <span class="n">auto_fix_data</span>
+
+    <span class="k">if</span> <span class="n">tokenizer</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;tokenizer must be specified to tokenize a DPO dataset.&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">max_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;`max_length` is not set in the DPOTrainer&#39;s init&quot;</span>
+            <span class="s2">&quot; it will default to `512` by default, but you should do it yourself in the future.&quot;</span><span class="p">,</span>
+            <span class="ne">UserWarning</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">max_length</span> <span class="o">=</span> <span class="mi">512</span>
+    <span class="k">if</span> <span class="n">max_prompt_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;`max_prompt_length` is not set in the DPOTrainer&#39;s init&quot;</span>
+            <span class="s2">&quot; it will default to `128` by default, but you should do it yourself in the future.&quot;</span><span class="p">,</span>
+            <span class="ne">UserWarning</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">max_prompt_length</span> <span class="o">=</span> <span class="mi">128</span>
+
+    <span class="k">if</span> <span class="n">max_target_length</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">is_encoder_decoder</span><span class="p">:</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;When using an encoder decoder architecture, you should set `max_target_length` in the &quot;</span>
+            <span class="s2">&quot;DPOTrainer&#39;s init it will default to `128` by default, but you should do it yourself in the future.&quot;</span><span class="p">,</span>
+            <span class="ne">UserWarning</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">max_target_length</span> <span class="o">=</span> <span class="mi">128</span>
+
+    <span class="n">padding_value</span> <span class="o">=</span> <span class="n">padding_value</span> <span class="k">if</span> <span class="n">padding_value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span> <span class="o">=</span> <span class="n">max_length</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span> <span class="o">=</span> <span class="n">label_pad_token_id</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span> <span class="o">=</span> <span class="n">padding_value</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span> <span class="o">=</span> <span class="n">max_prompt_length</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span> <span class="o">=</span> <span class="n">arguments</span><span class="o">.</span><span class="n">truncation_mode</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span> <span class="o">=</span> <span class="n">max_target_length</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">precompute_ref_log_probs</span> <span class="o">=</span> <span class="n">precompute_ref_log_probs</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">reference_free</span> <span class="o">=</span> <span class="n">reference_free</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">is_encoder_decoder</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">_precomputed_train_ref_log_probs</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">_precomputed_eval_ref_log_probs</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">beta</span> <span class="o">=</span> <span class="n">beta</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">label_smoothing</span> <span class="o">=</span> <span class="n">label_smoothing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">loss_type</span> <span class="o">=</span> <span class="n">loss_type</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">low_mem_usage</span> <span class="o">=</span> <span class="n">low_mem_usage</span>
+    <span class="n">data_collator</span> <span class="o">=</span> <span class="n">DPODataCollatorWithPadding</span><span class="p">(</span>
+        <span class="n">max_prompt_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+        <span class="n">max_target_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">,</span>
+        <span class="n">pad_token_id</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+        <span class="n">label_pad_token_id</span><span class="o">=</span><span class="n">label_pad_token_id</span><span class="p">,</span>
+        <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="n">data_collator</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">data_collator</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">_stored_metrics</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">list</span><span class="p">))</span>
+    <span class="k">if</span> <span class="n">dataset_map_arguments</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">dataset_map_arguments</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="n">train_dataset</span> <span class="o">=</span> <span class="n">train_dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenize_row</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">dataset_map_arguments</span>
+    <span class="p">)</span>
+    <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenize_row</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">dataset_map_arguments</span>
+        <span class="p">)</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span> <span class="o">=</span> <span class="n">arguments</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">hp_name</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">deepspeed</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">is_in_train</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">data_collator</span> <span class="o">=</span> <span class="n">data_collator</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span> <span class="o">=</span> <span class="n">train_dataset</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span> <span class="o">=</span> <span class="n">ref_model_state</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span> <span class="o">=</span> <span class="n">model_state</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">_loggers_initialized</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_mesh</span><span class="p">()</span>
+    <span class="k">assert</span> <span class="n">padding_value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`padding_value` can not be set as `None` it must be an integer.&quot;</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span> <span class="o">=</span> <span class="n">create_concatenated_forward</span><span class="p">(</span>
+        <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">is_encoder_decoder</span><span class="p">,</span>
+        <span class="n">padding_value</span><span class="o">=</span><span class="n">padding_value</span><span class="p">,</span>
+        <span class="n">label_pad_token_id</span><span class="o">=</span><span class="n">label_pad_token_id</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">auto_shard_ref_model_state</span> <span class="o">=</span> <span class="n">auto_shard_ref_model_state</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">auto_shard_model_state</span> <span class="o">=</span> <span class="n">auto_shard_model_state</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">_cached_p_l_s</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">_cached_c_l_s</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">_cached_r_l_s</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="n">arguments</span><span class="o">=</span><span class="n">arguments</span><span class="p">,</span>
+        <span class="n">dataset_train</span><span class="o">=</span><span class="n">train_dataset</span><span class="p">,</span>
+        <span class="n">dataset_eval</span><span class="o">=</span><span class="n">eval_dataset</span><span class="p">,</span>
+        <span class="n">finetune</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">checkpoint_path</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">_do_init_fns</span><span class="o">=</span><span class="n">_do_init_fns</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.__repr__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__repr__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>repr</strong> function is used to generate a string representation of an object.
+This function should return a string that can be parsed by the Python interpreter
+to recreate the object. The <strong>repr</strong> function is called when you use print() on an
+object, or when you type its name in the REPL.</p>
+<p>:param self: Refer to the instance of the class
+:return: A string representation of the object</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1242</span>
+<span class="normal">1243</span>
+<span class="normal">1244</span>
+<span class="normal">1245</span>
+<span class="normal">1246</span>
+<span class="normal">1247</span>
+<span class="normal">1248</span>
+<span class="normal">1249</span>
+<span class="normal">1250</span>
+<span class="normal">1251</span>
+<span class="normal">1252</span>
+<span class="normal">1253</span>
+<span class="normal">1254</span>
+<span class="normal">1255</span>
+<span class="normal">1256</span>
+<span class="normal">1257</span>
+<span class="normal">1258</span>
+<span class="normal">1259</span>
+<span class="normal">1260</span>
+<span class="normal">1261</span>
+<span class="normal">1262</span>
+<span class="normal">1263</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">    This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">    to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">    object, or when you type its name in the REPL.</span>
+
+<span class="sd">    :param self: Refer to the instance of the class</span>
+<span class="sd">    :return: A string representation of the object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">350</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="s2">&quot;EasyDeLReadingError&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">350</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+
+    <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.__str__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__str__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>str</strong> function is called when you use the print function or when str() is used.
+It should return a string representation of the object.</p>
+<p>:param self: Refer to the instance of the class
+:return: The object's string representation</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1265</span>
+<span class="normal">1266</span>
+<span class="normal">1267</span>
+<span class="normal">1268</span>
+<span class="normal">1269</span>
+<span class="normal">1270</span>
+<span class="normal">1271</span>
+<span class="normal">1272</span>
+<span class="normal">1273</span>
+<span class="normal">1274</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">    It should return a string representation of the object.</span>
+
+<span class="sd">    :param self: Refer to the instance of the class</span>
+<span class="sd">    :return: The object&#39;s string representation</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.build_tokenized_answer" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">build_tokenized_answer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">answer</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Llama tokenizer does satisfy <code>enc(a + b) = enc(a) + enc(b)</code>.
+It does ensure <code>enc(a + b) = enc(a) + enc(a + b)[len(enc(a)):]</code>.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">build_tokenized_answer</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">prompt</span><span class="p">,</span> <span class="n">answer</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Llama tokenizer does satisfy `enc(a + b) = enc(a) + enc(b)`.</span>
+<span class="sd">    It does ensure `enc(a + b) = enc(a) + enc(a + b)[len(enc(a)):]`.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">full_tokenized</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">prompt</span> <span class="o">+</span> <span class="n">answer</span><span class="p">,</span> <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+    <span class="n">prompt_input_ids</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">)[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span>
+
+    <span class="n">answer_input_ids</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">):]</span>
+    <span class="n">answer_attention_mask</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">][</span><span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">):]</span>
+    <span class="n">prompt_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">answer_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">answer_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">full_concat_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+        <span class="p">(</span>
+            <span class="n">prompt_input_ids</span><span class="p">,</span>
+            <span class="n">answer_input_ids</span>
+        <span class="p">)</span>
+    <span class="p">)</span>
+
+    <span class="c1"># Prepare input tokens for token by token comparison</span>
+    <span class="n">full_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">])</span>
+
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">full_input_ids</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">full_concat_input_ids</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Prompt input ids and answer input ids should have the same length.&quot;</span><span class="p">)</span>
+
+    <span class="n">response_token_ids_start_idx</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">prompt_input_ids</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="o">!=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:</span><span class="n">response_token_ids_start_idx</span><span class="p">]:</span>
+        <span class="n">response_token_ids_start_idx</span> <span class="o">-=</span> <span class="mi">1</span>
+
+    <span class="n">prompt_input_ids</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:</span><span class="n">response_token_ids_start_idx</span><span class="p">]</span>
+    <span class="n">prompt_attention_mask</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">][:</span><span class="n">response_token_ids_start_idx</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">prompt_attention_mask</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Prompt input ids and attention mask should have the same length.&quot;</span><span class="p">)</span>
+
+    <span class="n">answer_input_ids</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="n">response_token_ids_start_idx</span><span class="p">:]</span>
+    <span class="n">answer_attention_mask</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">][</span><span class="n">response_token_ids_start_idx</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="nb">dict</span><span class="p">(</span>
+        <span class="n">prompt_input_ids</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">prompt_attention_mask</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">prompt_attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">input_ids</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">answer_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">answer_attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.compute_reference_log_probs" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">compute_reference_log_probs</span><span class="p">(</span><span class="n">state</span><span class="p">,</span> <span class="n">padded_batch</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Computes log probabilities of the reference model for a single padded batch of a DPO specific dataset.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">953</span>
+<span class="normal">954</span>
+<span class="normal">955</span>
+<span class="normal">956</span>
+<span class="normal">957</span>
+<span class="normal">958</span>
+<span class="normal">959</span>
+<span class="normal">960</span>
+<span class="normal">961</span>
+<span class="normal">962</span>
+<span class="normal">963</span>
+<span class="normal">964</span>
+<span class="normal">965</span>
+<span class="normal">966</span>
+<span class="normal">967</span>
+<span class="normal">968</span>
+<span class="normal">969</span>
+<span class="normal">970</span>
+<span class="normal">971</span>
+<span class="normal">972</span>
+<span class="normal">973</span>
+<span class="normal">974</span>
+<span class="normal">975</span>
+<span class="normal">976</span>
+<span class="normal">977</span>
+<span class="normal">978</span>
+<span class="normal">979</span>
+<span class="normal">980</span>
+<span class="normal">981</span>
+<span class="normal">982</span>
+<span class="normal">983</span>
+<span class="normal">984</span>
+<span class="normal">985</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">compute_reference_log_probs</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">,</span>
+        <span class="n">padded_batch</span><span class="p">:</span> <span class="n">Dict</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="n">Any</span><span class="p">,</span> <span class="n">Any</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Computes log probabilities of the reference model for a single padded batch of a DPO specific dataset.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="p">(</span>
+            <span class="n">reference_chosen_log_probs</span><span class="p">,</span>
+            <span class="n">reference_rejected_log_probs</span><span class="p">,</span>
+            <span class="n">_</span><span class="p">,</span>
+            <span class="n">_</span><span class="p">,</span>
+        <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span><span class="p">(</span>
+            <span class="n">apply_fn</span><span class="o">=</span><span class="n">state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">,</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">state</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+            <span class="n">batch</span><span class="o">=</span><span class="n">padded_batch</span><span class="p">,</span>
+        <span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="p">(</span>
+            <span class="n">reference_chosen_log_probs</span><span class="p">,</span>
+            <span class="n">reference_rejected_log_probs</span><span class="p">,</span>
+            <span class="n">_</span><span class="p">,</span>
+            <span class="n">_</span><span class="p">,</span>
+        <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span><span class="p">(</span>
+            <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">,</span>
+            <span class="n">params</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+            <span class="n">batch</span><span class="o">=</span><span class="n">padded_batch</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">reference_chosen_log_probs</span><span class="p">,</span> <span class="n">reference_rejected_log_probs</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.eval" class="doc doc-heading">
+            <code class="highlight language-python"><span class="nb">eval</span><span class="p">(</span><span class="n">model_state</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Evaluate the Given Model State and yield the eval metrics</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span>
+<span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span>
+<span class="normal">1204</span>
+<span class="normal">1205</span>
+<span class="normal">1206</span>
+<span class="normal">1207</span>
+<span class="normal">1208</span>
+<span class="normal">1209</span>
+<span class="normal">1210</span>
+<span class="normal">1211</span>
+<span class="normal">1212</span>
+<span class="normal">1213</span>
+<span class="normal">1214</span>
+<span class="normal">1215</span>
+<span class="normal">1216</span>
+<span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span>
+<span class="normal">1220</span>
+<span class="normal">1221</span>
+<span class="normal">1222</span>
+<span class="normal">1223</span>
+<span class="normal">1224</span>
+<span class="normal">1225</span>
+<span class="normal">1226</span>
+<span class="normal">1227</span>
+<span class="normal">1228</span>
+<span class="normal">1229</span>
+<span class="normal">1230</span>
+<span class="normal">1231</span>
+<span class="normal">1232</span>
+<span class="normal">1233</span>
+<span class="normal">1234</span>
+<span class="normal">1235</span>
+<span class="normal">1236</span>
+<span class="normal">1237</span>
+<span class="normal">1238</span>
+<span class="normal">1239</span>
+<span class="normal">1240</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">eval</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Iterator</span><span class="p">[</span><span class="nb">dict</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Evaluate the Given Model State and yield the eval metrics&quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`dataloader_eval` is required by evaluator function.&quot;</span>
+    <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span><span class="p">)</span>
+        <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Evaluating&quot;</span><span class="p">)</span>
+        <span class="n">current_step</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">chosen_rewards_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">rejected_rewards_sum</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">batch</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span><span class="p">:</span>
+                <span class="n">current_step</span> <span class="o">+=</span> <span class="mi">1</span>
+                <span class="n">time_start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span><span class="p">:</span>
+                    <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">batch</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+                    <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span>
+                            <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_input_ids&quot;</span><span class="p">)</span>
+                            <span class="ow">or</span> <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">)</span>
+                            <span class="ow">or</span> <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_labels&quot;</span><span class="p">)</span>
+                    <span class="p">):</span>
+                        <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+                <span class="n">metrics</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span><span class="p">(</span>
+                    <span class="n">model_state</span><span class="p">,</span>
+                    <span class="n">batch</span>
+                <span class="p">)</span>
+                <span class="n">total_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">time_start</span>
+                <span class="p">(</span>
+                    <span class="n">loss</span><span class="p">,</span> <span class="n">chosen_rewards</span><span class="p">,</span> <span class="n">rejected_rewards</span>
+                <span class="p">)</span> <span class="o">=</span> <span class="n">metrics</span><span class="o">.</span><span class="n">loss</span><span class="p">,</span> <span class="n">metrics</span><span class="o">.</span><span class="n">chosen_rewards</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">metrics</span><span class="o">.</span><span class="n">rejected_rewards</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+
+                <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+                <span class="n">rejected_rewards_sum</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">rejected_rewards</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="p">(</span>
+                            <span class="n">rejected_rewards_sum</span> <span class="ow">is</span> <span class="kc">None</span>
+                    <span class="p">)</span> <span class="k">else</span> <span class="n">rejected_rewards_sum</span> <span class="o">+</span> <span class="n">rejected_rewards</span>
+                <span class="p">)</span>
+                <span class="n">chosen_rewards_sum</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">chosen_rewards</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="p">(</span>
+                            <span class="n">chosen_rewards_sum</span> <span class="ow">is</span> <span class="kc">None</span>
+                    <span class="p">)</span> <span class="k">else</span> <span class="n">chosen_rewards_sum</span> <span class="o">+</span> <span class="n">chosen_rewards</span>
+                <span class="p">)</span>
+
+                <span class="n">eval_metrics</span> <span class="o">=</span> <span class="p">{</span>
+                    <span class="s2">&quot;eval/loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                    <span class="s2">&quot;eval/mean_loss&quot;</span><span class="p">:</span> <span class="n">loss_sum</span> <span class="o">/</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">),</span>
+                    <span class="s2">&quot;eval/mean_rejected_rewards&quot;</span><span class="p">:</span> <span class="n">rejected_rewards_sum</span> <span class="o">/</span> <span class="p">(</span>
+                            <span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span>
+                    <span class="p">),</span>
+                    <span class="s2">&quot;eval/mean_chosen_rewards&quot;</span><span class="p">:</span> <span class="n">chosen_rewards_sum</span> <span class="o">/</span> <span class="p">(</span>
+                            <span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span>
+                    <span class="p">),</span>
+                    <span class="s2">&quot;eval/step&quot;</span><span class="p">:</span> <span class="n">current_step</span><span class="p">,</span>
+                    <span class="s2">&quot;eval/step_time&quot;</span><span class="p">:</span> <span class="n">total_time</span><span class="p">,</span>
+                    <span class="s2">&quot;eval/perplexity&quot;</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">loss</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                <span class="p">}</span>
+                <span class="n">log_metrics</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">eval_metrics</span><span class="p">)</span>
+                <span class="n">eval_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">captured_memory</span><span class="p">)</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">use_wandb</span><span class="p">:</span>
+                    <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">spmd_mode</span><span class="p">(</span><span class="s2">&quot;allow_all&quot;</span><span class="p">):</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                            <span class="n">eval_metrics</span>
+                        <span class="p">)</span>
+
+                <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                <span class="n">pbar</span><span class="o">.</span><span class="n">set_postfix</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;eval/&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">):</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">log_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">()})</span>
+                <span class="k">yield</span> <span class="n">eval_metrics</span>
+        <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                <span class="s2">&quot;KeyboardInterrupt At Evaluation model Will return Nothing and just pass.&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.get_eval_dataloader" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_eval_dataloader</span><span class="p">(</span><span class="n">eval_dataset</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Returns the evaluation [<code>~tensorflow.data.Dataset</code>].</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_eval_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">eval_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dataset</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">tensorflow</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">Dataset</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Returns the evaluation [`~tensorflow.data.Dataset`].</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Trainer: evaluation requires an eval_dataset.&quot;</span><span class="p">)</span>
+    <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span> <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">precompute_ref_log_probs</span> <span class="ow">and</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_precomputed_eval_ref_log_probs</span><span class="p">:</span>
+
+        <span class="c1"># prepare dataloader</span>
+        <span class="n">data_loader</span> <span class="o">=</span> <span class="n">tensorflow_datasets</span><span class="o">.</span><span class="n">as_numpy</span><span class="p">(</span>
+            <span class="n">eval_dataset</span><span class="o">.</span><span class="n">to_tf_dataset</span><span class="p">(</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span>
+                <span class="n">collate_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">data_collator</span><span class="p">,</span>
+                <span class="n">num_workers</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dataloader_num_workers</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="n">reference_chosen_log_probs</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">reference_rejected_log_probs</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">padded_batch</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">iterable</span><span class="o">=</span><span class="n">data_loader</span><span class="p">,</span> <span class="n">desc</span><span class="o">=</span><span class="s2">&quot;Eval dataset reference log probs&quot;</span><span class="p">):</span>
+            <span class="n">reference_chosen_logp</span><span class="p">,</span> <span class="n">reference_rejected_logp</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">compute_reference_log_probs</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">,</span>
+                <span class="n">padded_batch</span>
+            <span class="p">)</span>
+            <span class="n">reference_chosen_log_probs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">reference_chosen_logp</span><span class="o">.</span><span class="n">cpu</span><span class="p">())</span>
+            <span class="n">reference_rejected_log_probs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">reference_rejected_logp</span><span class="o">.</span><span class="n">cpu</span><span class="p">())</span>
+
+        <span class="n">all_reference_chosen_log_probs</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span><span class="n">reference_chosen_log_probs</span><span class="p">)</span>
+        <span class="n">all_reference_rejected_log_probs</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span><span class="n">reference_rejected_log_probs</span><span class="p">)</span>
+
+        <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span><span class="o">.</span><span class="n">add_column</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="s2">&quot;reference_chosen_log_probs&quot;</span><span class="p">,</span>
+                                               <span class="n">column</span><span class="o">=</span><span class="n">all_reference_chosen_log_probs</span><span class="p">)</span>
+        <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span><span class="o">.</span><span class="n">add_column</span><span class="p">(</span>
+            <span class="n">name</span><span class="o">=</span><span class="s2">&quot;reference_rejected_log_probs&quot;</span><span class="p">,</span> <span class="n">column</span><span class="o">=</span><span class="n">all_reference_rejected_log_probs</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_precomputed_eval_ref_log_probs</span> <span class="o">=</span> <span class="kc">True</span>
+
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_eval_dataloader</span><span class="p">(</span><span class="n">eval_dataset</span><span class="o">=</span><span class="n">eval_dataset</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.get_train_dataloader" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_train_dataloader</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Returns the training [<code>~tensorflow.data.Dataset</code>].</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_train_dataloader</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">tensorflow</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">Dataset</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Returns the training [`~tensorflow.data.Dataset`].</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">precompute_ref_log_probs</span> <span class="ow">and</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_precomputed_train_ref_log_probs</span><span class="p">:</span>
+
+        <span class="n">data_loader</span> <span class="o">=</span> <span class="n">tensorflow_datasets</span><span class="o">.</span><span class="n">as_numpy</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span><span class="o">.</span><span class="n">to_tf_dataset</span><span class="p">(</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span>
+                <span class="n">collate_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">data_collator</span><span class="p">,</span>
+                <span class="n">num_workers</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dataloader_num_workers</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">reference_chosen_log_probs</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">reference_rejected_log_probs</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">padded_batch</span> <span class="ow">in</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">iterable</span><span class="o">=</span><span class="n">data_loader</span><span class="p">,</span> <span class="n">desc</span><span class="o">=</span><span class="s2">&quot;Train dataset reference log probs&quot;</span><span class="p">):</span>
+            <span class="n">reference_chosen_logp</span><span class="p">,</span> <span class="n">reference_rejected_logp</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">compute_reference_log_probs</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">,</span>
+                <span class="n">padded_batch</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">reference_chosen_log_probs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">reference_chosen_logp</span><span class="p">)</span>
+            <span class="n">reference_rejected_log_probs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">reference_rejected_logp</span><span class="p">)</span>
+
+        <span class="n">all_reference_chosen_log_probs</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span><span class="n">reference_chosen_log_probs</span><span class="p">)</span>
+        <span class="n">all_reference_rejected_log_probs</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span><span class="n">reference_rejected_log_probs</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span><span class="o">.</span><span class="n">add_column</span><span class="p">(</span>
+            <span class="n">name</span><span class="o">=</span><span class="s2">&quot;reference_chosen_log_probs&quot;</span><span class="p">,</span> <span class="n">column</span><span class="o">=</span><span class="n">all_reference_chosen_log_probs</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span><span class="o">.</span><span class="n">add_column</span><span class="p">(</span>
+            <span class="n">name</span><span class="o">=</span><span class="s2">&quot;reference_rejected_log_probs&quot;</span><span class="p">,</span> <span class="n">column</span><span class="o">=</span><span class="n">all_reference_rejected_log_probs</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">_precomputed_train_ref_log_probs</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_train_dataloader</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.initialize_trainer_utils" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">initialize_trainer_utils</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+
+
+<details class="the-initialize_trainer_utils-function-is-responsible-for-initializing-the-following" open>
+  <summary>The initialize_trainer_utils function is responsible for initializing the following</summary>
+  <ul>
+<li>wandb_runtime (if you use_wandb is True)</li>
+<li>timer object (for logging time taken by various functions)</li>
+<li>dataloader objects for training and evaluation data, along with max steps per epoch.
+  The configure_dataloader function accomplishes this task.</li>
+</ul>
+</details>      <p>:param self: Represent the instance of the class
+:return: A tuple of functions</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">initialize_trainer_utils</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The initialize_trainer_utils function is responsible for initializing the following:</span>
+<span class="sd">        - wandb_runtime (if you use_wandb is True)</span>
+<span class="sd">        - timer object (for logging time taken by various functions)</span>
+<span class="sd">        - dataloader objects for training and evaluation data, along with max steps per epoch.</span>
+<span class="sd">          The configure_dataloader function accomplishes this task.</span>
+
+<span class="sd">    :param self: Represent the instance of the class</span>
+<span class="sd">    :return: A tuple of functions</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_wandb_init</span><span class="p">()</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">use_wandb</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span> <span class="o">=</span> <span class="n">Timers</span><span class="p">(</span>
+        <span class="n">use_wandb</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">tensorboard_writer</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_board</span><span class="p">()</span>
+    <span class="p">)</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+    <span class="n">dataset_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_dataloader</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">dataloader_train</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">max_training_steps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">dataloader_eval</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">max_evaluation_steps</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">])</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+    <span class="n">model_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_model</span><span class="p">()</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">model</span>
+    <span class="n">tx</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">tx</span>
+    <span class="n">scheduler</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">scheduler</span>
+    <span class="n">config</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">config</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tx</span> <span class="o">=</span> <span class="n">tx</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span> <span class="o">=</span> <span class="n">scheduler</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">lora_modules</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span><span class="o">.</span><span class="n">apply_lora</span><span class="p">(</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+            <span class="n">parameters</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">rapture_config</span><span class="o">.</span><span class="n">parameters</span><span class="p">,</span>
+            <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_parameters</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_module</span><span class="o">.</span><span class="fm">__call__</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_opt_state</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_module</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_tx</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">])</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">auto_shard_model_state</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;Sharding Model State&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">:</span> <span class="n">EasyDeLState</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">shard_states</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span><span class="s2">&quot;initializing TX and Schedulers for `model_state`&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">)</span>
+
+        <span class="n">params_with_opt</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">params</span><span class="p">[</span>
+                <span class="s1">&#39;params&#39;</span>
+            <span class="p">]</span> <span class="k">if</span> <span class="s1">&#39;_overwrite_with_gradient&#39;</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">params</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">params</span>
+        <span class="p">)</span>
+        <span class="n">opt_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx</span><span class="o">.</span><span class="n">init</span><span class="p">(</span><span class="n">params_with_opt</span><span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+            <span class="n">opt_state</span><span class="o">=</span><span class="n">opt_state</span><span class="p">,</span>
+            <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tx</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;Sharding Model State&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;Sharding Model State&quot;</span><span class="p">])</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">auto_shard_ref_model_state</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;Sharding Ref Model State&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">shard_states</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span><span class="p">,</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">ref_model_state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span><span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;Sharding Ref Model State&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;Sharding Ref Model State&quot;</span><span class="p">])</span>
+
+    <span class="n">function_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_functions</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">function_configurations</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span>
+    <span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">sharded_train_step_function</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">sharded_eval_step_function</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">mesh</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_manager</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">checkpoint_manager</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">initialize_state_function</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">])</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.tokenize_row" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">tokenize_row</span><span class="p">(</span><span class="n">feature</span><span class="p">,</span> <span class="n">state</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The tokenize_row function is responsible for taking a single row of data and converting it into the format that
+the model expects. This includes:
+- Tokenizing the text (using HuggingFace's tokenizer)
+- Padding/truncating sequences to a fixed length (if necessary)
+- Creating attention masks, which tell the model which tokens are padding and which aren't.</p>
+<p>:param self: Represent the instance of the class
+:param feature: Pass in the data from the dataset
+:param state: EasyDeLState: Keep track of the state of the tokenizer
+:return: A dictionary of the following keys</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span>
+<span class="normal">859</span>
+<span class="normal">860</span>
+<span class="normal">861</span>
+<span class="normal">862</span>
+<span class="normal">863</span>
+<span class="normal">864</span>
+<span class="normal">865</span>
+<span class="normal">866</span>
+<span class="normal">867</span>
+<span class="normal">868</span>
+<span class="normal">869</span>
+<span class="normal">870</span>
+<span class="normal">871</span>
+<span class="normal">872</span>
+<span class="normal">873</span>
+<span class="normal">874</span>
+<span class="normal">875</span>
+<span class="normal">876</span>
+<span class="normal">877</span>
+<span class="normal">878</span>
+<span class="normal">879</span>
+<span class="normal">880</span>
+<span class="normal">881</span>
+<span class="normal">882</span>
+<span class="normal">883</span>
+<span class="normal">884</span>
+<span class="normal">885</span>
+<span class="normal">886</span>
+<span class="normal">887</span>
+<span class="normal">888</span>
+<span class="normal">889</span>
+<span class="normal">890</span>
+<span class="normal">891</span>
+<span class="normal">892</span>
+<span class="normal">893</span>
+<span class="normal">894</span>
+<span class="normal">895</span>
+<span class="normal">896</span>
+<span class="normal">897</span>
+<span class="normal">898</span>
+<span class="normal">899</span>
+<span class="normal">900</span>
+<span class="normal">901</span>
+<span class="normal">902</span>
+<span class="normal">903</span>
+<span class="normal">904</span>
+<span class="normal">905</span>
+<span class="normal">906</span>
+<span class="normal">907</span>
+<span class="normal">908</span>
+<span class="normal">909</span>
+<span class="normal">910</span>
+<span class="normal">911</span>
+<span class="normal">912</span>
+<span class="normal">913</span>
+<span class="normal">914</span>
+<span class="normal">915</span>
+<span class="normal">916</span>
+<span class="normal">917</span>
+<span class="normal">918</span>
+<span class="normal">919</span>
+<span class="normal">920</span>
+<span class="normal">921</span>
+<span class="normal">922</span>
+<span class="normal">923</span>
+<span class="normal">924</span>
+<span class="normal">925</span>
+<span class="normal">926</span>
+<span class="normal">927</span>
+<span class="normal">928</span>
+<span class="normal">929</span>
+<span class="normal">930</span>
+<span class="normal">931</span>
+<span class="normal">932</span>
+<span class="normal">933</span>
+<span class="normal">934</span>
+<span class="normal">935</span>
+<span class="normal">936</span>
+<span class="normal">937</span>
+<span class="normal">938</span>
+<span class="normal">939</span>
+<span class="normal">940</span>
+<span class="normal">941</span>
+<span class="normal">942</span>
+<span class="normal">943</span>
+<span class="normal">944</span>
+<span class="normal">945</span>
+<span class="normal">946</span>
+<span class="normal">947</span>
+<span class="normal">948</span>
+<span class="normal">949</span>
+<span class="normal">950</span>
+<span class="normal">951</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">tokenize_row</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">feature</span><span class="p">,</span> <span class="n">state</span><span class="p">:</span> <span class="n">EasyDeLState</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dict</span><span class="p">:</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The tokenize_row function is responsible for taking a single row of data and converting it into the format that</span>
+<span class="sd">    the model expects. This includes:</span>
+<span class="sd">    - Tokenizing the text (using HuggingFace&#39;s tokenizer)</span>
+<span class="sd">    - Padding/truncating sequences to a fixed length (if necessary)</span>
+<span class="sd">    - Creating attention masks, which tell the model which tokens are padding and which aren&#39;t.</span>
+
+<span class="sd">    :param self: Represent the instance of the class</span>
+<span class="sd">    :param feature: Pass in the data from the dataset</span>
+<span class="sd">    :param state: EasyDeLState: Keep track of the state of the tokenizer</span>
+<span class="sd">    :return: A dictionary of the following keys</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="n">prompt</span> <span class="o">=</span> <span class="n">feature</span><span class="p">[</span><span class="s2">&quot;prompt&quot;</span><span class="p">]</span>
+    <span class="n">chosen</span> <span class="o">=</span> <span class="n">feature</span><span class="p">[</span><span class="s2">&quot;chosen&quot;</span><span class="p">]</span>
+    <span class="n">rejected</span> <span class="o">=</span> <span class="n">feature</span><span class="p">[</span><span class="s2">&quot;rejected&quot;</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;prompt should be an str but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">prompt</span><span class="p">)</span><span class="si">}</span><span class="s2"> , </span><span class="si">{</span><span class="n">prompt</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+    <span class="n">prompt_tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
+        <span class="n">prompt</span><span class="p">,</span>
+        <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;np&quot;</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">prompt_tokens</span> <span class="o">=</span> <span class="p">{</span><span class="sa">f</span><span class="s2">&quot;prompt_</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">prompt_tokens</span><span class="o">.</span><span class="n">items</span><span class="p">()}</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">chosen</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;chosen should be an str but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">chosen</span><span class="p">)</span><span class="si">}</span><span class="s2"> , </span><span class="si">{</span><span class="n">chosen</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+    <span class="n">chosen_tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_tokenized_answer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">chosen</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">rejected</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;rejected should be an str but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">rejected</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+    <span class="n">rejected_tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_tokenized_answer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">rejected</span><span class="p">)</span>
+    <span class="n">v2d</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">ar</span><span class="p">:</span> <span class="n">ar</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span> <span class="k">if</span> <span class="n">ar</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">1</span> <span class="k">else</span> <span class="n">ar</span>
+
+    <span class="k">def</span> <span class="nf">add_tkn</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="n">ar</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">n</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+                <span class="n">v2d</span><span class="p">(</span><span class="n">ar</span><span class="p">)</span>
+            <span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_post_tkn</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="n">ar</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span>
+                <span class="n">v2d</span><span class="p">(</span><span class="n">ar</span><span class="p">),</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">n</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+            <span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)</span>
+
+    <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+        <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span>
+    <span class="p">)</span>
+    <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+        <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span>
+    <span class="p">)</span>
+    <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+        <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span>
+    <span class="p">)</span>
+
+    <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+        <span class="mi">1</span><span class="p">,</span> <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span>
+    <span class="p">)</span>
+    <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+        <span class="mi">1</span><span class="p">,</span> <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span>
+    <span class="p">)</span>
+    <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+        <span class="mi">1</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span>
+    <span class="p">)</span>
+
+    <span class="c1"># add EOS token to end of answer</span>
+    <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span> <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">])</span>
+    <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">])</span>
+
+    <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">])</span>
+    <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">])</span>
+
+    <span class="n">longer_response_length</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">])</span>
+
+    <span class="c1"># if combined sequence is too long, truncate the prompt</span>
+    <span class="k">for</span> <span class="n">answer_tokens</span> <span class="ow">in</span> <span class="p">[</span><span class="n">chosen_tokens</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">,</span> <span class="n">prompt_tokens</span><span class="p">]:</span>
+        <span class="n">length_rn</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="n">longer_response_length</span>
+        <span class="k">if</span> <span class="n">length_rn</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span><span class="p">:</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span> <span class="o">==</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]:</span>
+                    <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">][:,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">]</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span> <span class="o">==</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]:</span>
+                    <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">][:,</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">:]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Unknown truncation mode: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+    <span class="c1"># if that&#39;s still too long, truncate the response</span>
+    <span class="k">for</span> <span class="n">answer_tokens</span> <span class="ow">in</span> <span class="p">[</span><span class="n">chosen_tokens</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">]:</span>
+        <span class="k">if</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="n">longer_response_length</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">]:</span>
+                <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">][:,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">]</span>
+
+    <span class="n">chosen_sequence_tokens</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="n">k</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">v2d</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;prompt_</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">]),</span> <span class="n">v2d</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">])),</span>
+            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span>
+    <span class="p">}</span>
+    <span class="n">rejected_sequence_tokens</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="n">k</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">v2d</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;prompt_</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">]),</span> <span class="n">v2d</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">])),</span>
+            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span>
+    <span class="p">}</span>
+    <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:]</span>
+    <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">at</span><span class="p">[</span>
+                                       <span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">])</span>
+                                       <span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">([</span><span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]))</span>
+    <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:]</span>
+    <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">at</span><span class="p">[</span>
+                                         <span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">])</span>
+                                         <span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span>
+        <span class="p">([</span><span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]))</span>
+    <span class="p">)</span>
+
+    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">tokens_</span> <span class="ow">in</span> <span class="p">{</span>
+        <span class="s2">&quot;chosen_&quot;</span><span class="p">:</span> <span class="n">chosen_sequence_tokens</span><span class="p">,</span>
+        <span class="s2">&quot;rejected_&quot;</span><span class="p">:</span> <span class="n">rejected_sequence_tokens</span><span class="p">,</span>
+        <span class="s2">&quot;&quot;</span><span class="p">:</span> <span class="n">prompt_tokens</span><span class="p">,</span>
+    <span class="p">}</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">for</span> <span class="n">type_key</span><span class="p">,</span> <span class="n">tokens</span> <span class="ow">in</span> <span class="n">tokens_</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;token_type_ids&quot;</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="n">b</span><span class="p">,</span> <span class="n">s</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span> <span class="o">&gt;</span> <span class="n">s</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">k</span> <span class="o">==</span> <span class="s2">&quot;chosen_&quot;</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;input_ids&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;labels&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+
+                    <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">]</span>
+
+                    <span class="k">if</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                            <span class="sa">f</span><span class="s2">&quot;there was an error in padding token with `type_key` of </span><span class="si">{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="sa">f</span><span class="s2">&quot;. it must have sequence_length of </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="si">}</span><span class="s2"> but we got </span><span class="si">{</span><span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="sa">f</span><span class="s2">&quot; From </span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="p">)</span>
+                    <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">]</span>
+                <span class="k">elif</span> <span class="n">k</span> <span class="o">==</span> <span class="s2">&quot;rejected_&quot;</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;input_ids&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;labels&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">]</span>
+                    <span class="k">if</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                            <span class="sa">f</span><span class="s2">&quot;there was an error in padding token with `type_key` of </span><span class="si">{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="sa">f</span><span class="s2">&quot;. it must have sequence_length of </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="si">}</span><span class="s2"> but we got </span><span class="si">{</span><span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="sa">f</span><span class="s2">&quot; From </span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="p">)</span>
+                <span class="k">elif</span> <span class="n">k</span> <span class="o">==</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;prompt_labels&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">]</span>
+                    <span class="k">if</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                            <span class="sa">f</span><span class="s2">&quot;there was an error in padding token with `type_key` of </span><span class="si">{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="sa">f</span><span class="s2">&quot;. it must have sequence_length of </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="si">}</span><span class="s2"> but we got </span><span class="si">{</span><span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="sa">f</span><span class="s2">&quot; From </span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="p">)</span>
+            <span class="n">batch</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">tokens</span>
+    <span class="k">return</span> <span class="n">batch</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-dpo-fwd_bwd_functions/index.html b/generated-trainer-dpo-fwd_bwd_functions/index.html
new file mode 100644
index 000000000..2dd937521
--- /dev/null
+++ b/generated-trainer-dpo-fwd_bwd_functions/index.html
@@ -0,0 +1,8389 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-dpo-dpo_trainer/">
+      
+      
+        <link rel="next" href="../generated-trainer-dpo-modelling_output/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Fwd Bwd Functions - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainerdpofwd_bwd_functions" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Fwd Bwd Functions
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.fwd_bwd_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      fwd_bwd_functions
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.fwd_bwd_functions.concatenated_inputs" class="md-nav__link">
+    <span class="md-ellipsis">
+      concatenated_inputs
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.fwd_bwd_functions.create_concatenated_forward" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_concatenated_forward
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.fwd_bwd_functions.create_dpo_eval_function" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_dpo_eval_function
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.fwd_bwd_functions.create_dpo_train_function" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_dpo_train_function
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.fwd_bwd_functions.get_batch_log_probs" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_batch_log_probs
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.fwd_bwd_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      fwd_bwd_functions
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.fwd_bwd_functions.concatenated_inputs" class="md-nav__link">
+    <span class="md-ellipsis">
+      concatenated_inputs
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.fwd_bwd_functions.create_concatenated_forward" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_concatenated_forward
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.fwd_bwd_functions.create_dpo_eval_function" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_dpo_eval_function
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.fwd_bwd_functions.create_dpo_train_function" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_dpo_train_function
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.fwd_bwd_functions.get_batch_log_probs" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_batch_log_probs
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainerdpofwd_bwd_functions">trainer.dpo.fwd_bwd_functions</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.dpo.fwd_bwd_functions"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.dpo.fwd_bwd_functions.concatenated_inputs" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">concatenated_inputs</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">label_pad_token_id</span><span class="o">=-</span><span class="mi">100</span><span class="p">,</span> <span class="n">padding_value</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">truncation_mode</span><span class="o">=</span><span class="s1">&#39;keep_end&#39;</span><span class="p">,</span> <span class="n">fixed_max_length</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The concatenated_inputs function takes a batch of chosen and rejected examples,
+and concatenates them together. This is useful for training the model to predict whether an example was chosen
+by the human annotator. The function also pads all inputs to
+the same length as the longest input in that batch.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>batch</code></td>
+            <td>
+                  <code><span title="typing.Dict">Dict</span>[str, <span title="typing.Union">Union</span>[<span title="typing.List">List</span>, <span title="chex.Array">Array</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Dict[str,Union[List,chex.Array]]: Pass the batch of data
+into the function,</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>is_encoder_decoder</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether the model is an
+encoder-decoder model</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>label_pad_token_id</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Pad the labels with a value of -100</p>
+              </div>
+            </td>
+            <td>
+                  <code>-100</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>padding_value</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Pad the input_ids and attention_mask arrays
+to the same length</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>truncation_mode</code></td>
+            <td>
+                  <code><span title="typing.Literal">Literal</span>[&#39;keep_end&#39;, &#39;keep_start&#39;]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>typing.Literal["keep_end", "keep_start"]: is
+left padded or not should it keep start of the</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;keep_end&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fixed_max_length</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int|None: by providing fixed_max_length the
+func will always return a fixed sequence length and won't
+use dynamic methods.</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>Allow for the batch to be a list of arrays or just an array,
+Specify the type of data that is being passed in</p>
+<p>array or the end of the array?.</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="typing.Dict">Dict</span>[str, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of the concatenated inputs</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/fwd_bwd_functions.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">concatenated_inputs</span><span class="p">(</span>
+        <span class="n">batch</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="n">List</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]],</span>
+        <span class="n">is_encoder_decoder</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">label_pad_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">100</span><span class="p">,</span>
+        <span class="n">padding_value</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">truncation_mode</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;keep_end&quot;</span><span class="p">,</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">,</span>
+        <span class="n">fixed_max_length</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The concatenated_inputs function takes a batch of chosen and rejected examples,</span>
+<span class="sd">    and concatenates them together. This is useful for training the model to predict whether an example was chosen</span>
+<span class="sd">    by the human annotator. The function also pads all inputs to</span>
+<span class="sd">    the same length as the longest input in that batch.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        batch: Dict[str,Union[List,chex.Array]]: Pass the batch of data</span>
+<span class="sd">            into the function,</span>
+<span class="sd">        is_encoder_decoder: bool: Determine whether the model is an</span>
+<span class="sd">            encoder-decoder model</span>
+<span class="sd">        label_pad_token_id: int: Pad the labels with a value of -100</span>
+<span class="sd">        padding_value: int: Pad the input_ids and attention_mask arrays</span>
+<span class="sd">            to the same length</span>
+<span class="sd">        truncation_mode: typing.Literal[&quot;keep_end&quot;, &quot;keep_start&quot;]: is</span>
+<span class="sd">            left padded or not should it keep start of the</span>
+<span class="sd">        fixed_max_length: int|None: by providing fixed_max_length the</span>
+<span class="sd">            func will always return a fixed sequence length and won&#39;t</span>
+<span class="sd">            use dynamic methods.</span>
+<span class="sd">    Allow for the batch to be a list of arrays or just an array,</span>
+<span class="sd">    Specify the type of data that is being passed in</span>
+
+<span class="sd">    array or the end of the array?.</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of the concatenated inputs</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">concatenated_batch</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">fixed_max_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">is_encoder_decoder</span><span class="p">:</span>
+            <span class="n">max_length</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="s2">&quot;chosen_labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;rejected_labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">])</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">max_length</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="s2">&quot;chosen_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;rejected_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">])</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">max_length</span> <span class="o">=</span> <span class="n">fixed_max_length</span>
+    <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">batch</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;chosen&quot;</span><span class="p">)</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="n">k</span><span class="p">],</span> <span class="n">jax</span><span class="o">.</span><span class="n">Array</span><span class="p">):</span>
+            <span class="k">if</span> <span class="s2">&quot;labels&quot;</span> <span class="ow">in</span> <span class="n">k</span> <span class="ow">or</span> <span class="n">is_encoder_decoder</span><span class="p">:</span>
+                <span class="n">pad_value</span> <span class="o">=</span> <span class="n">label_pad_token_id</span>
+            <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_input_ids&quot;</span><span class="p">):</span>
+                <span class="n">pad_value</span> <span class="o">=</span> <span class="n">padding_value</span>
+            <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">):</span>
+                <span class="n">pad_value</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">KeyError</span><span class="p">(</span><span class="s2">&quot;couldn&#39;t find pad_value [Dataset Issue]&quot;</span><span class="p">)</span>
+            <span class="n">concatenated_key</span> <span class="o">=</span> <span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;chosen&quot;</span><span class="p">,</span> <span class="s2">&quot;concatenated&quot;</span><span class="p">)</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="n">concatenated_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="n">k</span><span class="p">],</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">pad_value</span><span class="o">=</span><span class="n">pad_value</span><span class="p">)</span>
+    <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">batch</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;rejected&quot;</span><span class="p">)</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="n">k</span><span class="p">],</span> <span class="n">jax</span><span class="o">.</span><span class="n">Array</span><span class="p">):</span>
+            <span class="k">if</span> <span class="s2">&quot;labels&quot;</span> <span class="ow">in</span> <span class="n">k</span> <span class="ow">or</span> <span class="n">is_encoder_decoder</span><span class="p">:</span>
+                <span class="n">pad_value</span> <span class="o">=</span> <span class="n">label_pad_token_id</span>
+            <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_input_ids&quot;</span><span class="p">):</span>
+                <span class="k">assert</span> <span class="n">padding_value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`padding_value` can not be set as `None`&quot;</span>
+                <span class="n">pad_value</span> <span class="o">=</span> <span class="n">padding_value</span>
+            <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">):</span>
+                <span class="n">pad_value</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">KeyError</span><span class="p">(</span><span class="s2">&quot;couldn&#39;t find pad_value [Dataset Issue]&quot;</span><span class="p">)</span>
+            <span class="n">concatenated_key</span> <span class="o">=</span> <span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;rejected&quot;</span><span class="p">,</span> <span class="s2">&quot;concatenated&quot;</span><span class="p">)</span>
+            <span class="n">v2d</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">ar</span><span class="p">:</span> <span class="n">ar</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">ar</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="n">concatenated_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span>
+                    <span class="n">v2d</span><span class="p">(</span><span class="n">concatenated_batch</span><span class="p">[</span><span class="n">concatenated_key</span><span class="p">]),</span>
+                    <span class="n">pad_to_length</span><span class="p">(</span><span class="n">v2d</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="n">k</span><span class="p">]),</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">pad_value</span><span class="o">=</span><span class="n">pad_value</span><span class="p">),</span>
+                <span class="p">),</span>
+                <span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="p">)</span>
+    <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">concatenated_batch</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+        <span class="n">val</span> <span class="o">=</span> <span class="n">concatenated_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span>
+        <span class="k">if</span> <span class="n">val</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">3</span><span class="p">:</span>
+            <span class="c1"># making 3d array 2d</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">val</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">val</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">is_encoder_decoder</span><span class="p">:</span>
+        <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">concatenated_batch</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.dpo.fwd_bwd_functions.create_concatenated_forward" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_concatenated_forward</span><span class="p">(</span><span class="n">is_encoder_decoder</span><span class="p">,</span> <span class="n">label_pad_token_id</span><span class="p">,</span> <span class="n">padding_value</span><span class="p">,</span> <span class="n">truncation_mode</span><span class="o">=</span><span class="s1">&#39;keep_end&#39;</span><span class="p">,</span> <span class="n">fixed_max_length</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The create_concatenated_forward function is a helper function that creates a forward pass function for the
+model. The forward pass function takes in an apply_fn, which is the model's apply_fn, and runs it on concatenated
+inputs. It returns chosen log probs, rejected log probs, chosen logits and rejected logits.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>is_encoder_decoder</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine whether the model is an encoder-
+decoder model or not</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>label_pad_token_id</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pad the labels to the same length</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>padding_value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pad the inputs to the same length</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>truncation_mode</code></td>
+            <td>
+                  <code><span title="typing.Literal">Literal</span>[&#39;keep_end&#39;, &#39;keep_start&#39;]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>typing.Literal["keep_end","keep_start"]: where
+to pad and where to keep.</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;keep_end&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fixed_max_length</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int|None: by providing fixed_max_length the
+func will always return a fixed sequence length</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>and won't use dynamic methods.</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A function that takes in a apply_fn, params and a batch of</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>inputs,</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/fwd_bwd_functions.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 21</span>
+<span class="normal"> 22</span>
+<span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">create_concatenated_forward</span><span class="p">(</span>
+        <span class="n">is_encoder_decoder</span><span class="p">,</span>
+        <span class="n">label_pad_token_id</span><span class="p">,</span>
+        <span class="n">padding_value</span><span class="p">,</span>
+        <span class="n">truncation_mode</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;keep_end&quot;</span><span class="p">,</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">,</span>
+        <span class="n">fixed_max_length</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The create_concatenated_forward function is a helper function that creates a forward pass function for the</span>
+<span class="sd">    model. The forward pass function takes in an apply_fn, which is the model&#39;s apply_fn, and runs it on concatenated</span>
+<span class="sd">    inputs. It returns chosen log probs, rejected log probs, chosen logits and rejected logits.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        is_encoder_decoder: Determine whether the model is an encoder-</span>
+<span class="sd">            decoder model or not</span>
+<span class="sd">        label_pad_token_id: Pad the labels to the same length</span>
+<span class="sd">        padding_value: Pad the inputs to the same length</span>
+<span class="sd">        truncation_mode: typing.Literal[&quot;keep_end&quot;,&quot;keep_start&quot;]: where</span>
+<span class="sd">            to pad and where to keep.</span>
+<span class="sd">        fixed_max_length: int|None: by providing fixed_max_length the</span>
+<span class="sd">            func will always return a fixed sequence length</span>
+<span class="sd">    and won&#39;t use dynamic methods.</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A function that takes in a apply_fn, params and a batch of</span>
+<span class="sd">        inputs,</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">concatenated_forward</span><span class="p">(</span>
+            <span class="n">apply_fn</span><span class="p">:</span> <span class="n">Callable</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">|</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">,</span>
+            <span class="n">batch</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="n">List</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]]</span>
+
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The concatenated_forward function is used to compute the log-probabilities of both chosen and rejected labels.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            apply_fn: Callable: Pass in the model function</span>
+<span class="sd">            params: dict | flax.core.FrozenDict: Pass the model</span>
+<span class="sd">                parameters to the function</span>
+<span class="sd">            batch: Dict[str, Union[List, chex.Array]] : Pass the batch</span>
+<span class="sd">                of data to the concatenated_forward function</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The log_probs of the chosen and rejected labels, as well as</span>
+<span class="sd">            their corresponding logits</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="n">padding_value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`padding_value` can not be set as `None` it must be an integer.&quot;</span>
+        <span class="n">concatenated_batch</span> <span class="o">=</span> <span class="n">concatenated_inputs</span><span class="p">(</span>
+            <span class="n">batch</span><span class="p">,</span>
+            <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="n">is_encoder_decoder</span><span class="p">,</span>
+            <span class="n">label_pad_token_id</span><span class="o">=</span><span class="n">label_pad_token_id</span><span class="p">,</span>
+            <span class="n">padding_value</span><span class="o">=</span><span class="n">padding_value</span><span class="p">,</span>
+            <span class="n">truncation_mode</span><span class="o">=</span><span class="n">truncation_mode</span><span class="p">,</span>
+            <span class="n">fixed_max_length</span><span class="o">=</span><span class="n">fixed_max_length</span>
+        <span class="p">)</span>
+        <span class="n">len_chosen</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;chosen_labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="o">-</span><span class="mi">1</span>
+        <span class="p">)</span>
+        <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="o">-</span><span class="mi">1</span>
+        <span class="p">)</span>
+        <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_attention_mask&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_attention_mask&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="o">-</span><span class="mi">1</span>
+        <span class="p">)</span>
+        <span class="n">model_kwargs</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="p">{</span>
+                <span class="s2">&quot;labels&quot;</span><span class="p">:</span> <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_labels&quot;</span><span class="p">],</span>
+                <span class="s2">&quot;decoder_input_ids&quot;</span><span class="p">:</span> <span class="n">concatenated_batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;concatenated_decoder_input_ids&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="p">}</span>
+            <span class="k">if</span> <span class="n">is_encoder_decoder</span>
+            <span class="k">else</span> <span class="p">{}</span>
+        <span class="p">)</span>
+        <span class="n">all_logits</span> <span class="o">=</span> <span class="n">apply_fn</span><span class="p">(</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_input_ids&quot;</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_attention_mask&quot;</span><span class="p">],</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">model_kwargs</span><span class="p">,</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">logits</span>
+
+        <span class="n">all_log_probs</span> <span class="o">=</span> <span class="n">get_batch_log_probs</span><span class="p">(</span>
+            <span class="n">all_logits</span><span class="p">,</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_labels&quot;</span><span class="p">],</span>
+            <span class="n">average_log_prob</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="n">is_encoder_decoder</span><span class="p">,</span>
+            <span class="n">label_pad_token_id</span><span class="o">=</span><span class="n">label_pad_token_id</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">chosen_log_probs</span> <span class="o">=</span> <span class="n">all_log_probs</span><span class="p">[:</span><span class="n">len_chosen</span><span class="p">]</span>
+        <span class="n">rejected_log_probs</span> <span class="o">=</span> <span class="n">all_log_probs</span><span class="p">[</span><span class="n">len_chosen</span><span class="p">:]</span>
+
+        <span class="n">chosen_logits</span> <span class="o">=</span> <span class="n">all_logits</span><span class="p">[:</span><span class="n">len_chosen</span><span class="p">]</span>
+        <span class="n">rejected_logits</span> <span class="o">=</span> <span class="n">all_logits</span><span class="p">[</span><span class="n">len_chosen</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="n">chosen_log_probs</span><span class="p">,</span> <span class="n">rejected_log_probs</span><span class="p">,</span> <span class="n">chosen_logits</span><span class="p">,</span> <span class="n">rejected_logits</span>
+
+    <span class="k">return</span> <span class="n">concatenated_forward</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.dpo.fwd_bwd_functions.create_dpo_eval_function" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_dpo_eval_function</span><span class="p">(</span><span class="n">concatenated_forward</span><span class="p">,</span> <span class="n">ref_state</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">beta</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">label_smoothing</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">loss_type</span><span class="o">=</span><span class="s1">&#39;sigmoid&#39;</span><span class="p">,</span> <span class="n">reference_free</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The create_dpo_eval_function function is a helper function that creates the DPO evaluating step.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>concatenated_forward</code></td>
+            <td>
+                  <code><span title="typing.Callable">Callable</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Callable: Define the forward pass of the
+model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>ref_state</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.etils.EasyDeLState" href="../generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState">EasyDeLState</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>EasyDeLState: Specify the reference policy</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>beta</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Scale the logits</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>label_smoothing</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Smooth the labels</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>loss_type</code></td>
+            <td>
+                  <code><span title="typing.Literal">Literal</span>[&#39;sigmoid&#39;, &#39;hinge&#39;, &#39;ipo&#39;, &#39;kto&#39;]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Literal["sigmoid", "hinge", "ipo", "kto"]: Determine
+the loss function</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;sigmoid&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>reference_free</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Indicate whether the reference policy is
+used or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A function that takes in a state and a batch</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/fwd_bwd_functions.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span>
+<span class="normal">621</span>
+<span class="normal">622</span>
+<span class="normal">623</span>
+<span class="normal">624</span>
+<span class="normal">625</span>
+<span class="normal">626</span>
+<span class="normal">627</span>
+<span class="normal">628</span>
+<span class="normal">629</span>
+<span class="normal">630</span>
+<span class="normal">631</span>
+<span class="normal">632</span>
+<span class="normal">633</span>
+<span class="normal">634</span>
+<span class="normal">635</span>
+<span class="normal">636</span>
+<span class="normal">637</span>
+<span class="normal">638</span>
+<span class="normal">639</span>
+<span class="normal">640</span>
+<span class="normal">641</span>
+<span class="normal">642</span>
+<span class="normal">643</span>
+<span class="normal">644</span>
+<span class="normal">645</span>
+<span class="normal">646</span>
+<span class="normal">647</span>
+<span class="normal">648</span>
+<span class="normal">649</span>
+<span class="normal">650</span>
+<span class="normal">651</span>
+<span class="normal">652</span>
+<span class="normal">653</span>
+<span class="normal">654</span>
+<span class="normal">655</span>
+<span class="normal">656</span>
+<span class="normal">657</span>
+<span class="normal">658</span>
+<span class="normal">659</span>
+<span class="normal">660</span>
+<span class="normal">661</span>
+<span class="normal">662</span>
+<span class="normal">663</span>
+<span class="normal">664</span>
+<span class="normal">665</span>
+<span class="normal">666</span>
+<span class="normal">667</span>
+<span class="normal">668</span>
+<span class="normal">669</span>
+<span class="normal">670</span>
+<span class="normal">671</span>
+<span class="normal">672</span>
+<span class="normal">673</span>
+<span class="normal">674</span>
+<span class="normal">675</span>
+<span class="normal">676</span>
+<span class="normal">677</span>
+<span class="normal">678</span>
+<span class="normal">679</span>
+<span class="normal">680</span>
+<span class="normal">681</span>
+<span class="normal">682</span>
+<span class="normal">683</span>
+<span class="normal">684</span>
+<span class="normal">685</span>
+<span class="normal">686</span>
+<span class="normal">687</span>
+<span class="normal">688</span>
+<span class="normal">689</span>
+<span class="normal">690</span>
+<span class="normal">691</span>
+<span class="normal">692</span>
+<span class="normal">693</span>
+<span class="normal">694</span>
+<span class="normal">695</span>
+<span class="normal">696</span>
+<span class="normal">697</span>
+<span class="normal">698</span>
+<span class="normal">699</span>
+<span class="normal">700</span>
+<span class="normal">701</span>
+<span class="normal">702</span>
+<span class="normal">703</span>
+<span class="normal">704</span>
+<span class="normal">705</span>
+<span class="normal">706</span>
+<span class="normal">707</span>
+<span class="normal">708</span>
+<span class="normal">709</span>
+<span class="normal">710</span>
+<span class="normal">711</span>
+<span class="normal">712</span>
+<span class="normal">713</span>
+<span class="normal">714</span>
+<span class="normal">715</span>
+<span class="normal">716</span>
+<span class="normal">717</span>
+<span class="normal">718</span>
+<span class="normal">719</span>
+<span class="normal">720</span>
+<span class="normal">721</span>
+<span class="normal">722</span>
+<span class="normal">723</span>
+<span class="normal">724</span>
+<span class="normal">725</span>
+<span class="normal">726</span>
+<span class="normal">727</span>
+<span class="normal">728</span>
+<span class="normal">729</span>
+<span class="normal">730</span>
+<span class="normal">731</span>
+<span class="normal">732</span>
+<span class="normal">733</span>
+<span class="normal">734</span>
+<span class="normal">735</span>
+<span class="normal">736</span>
+<span class="normal">737</span>
+<span class="normal">738</span>
+<span class="normal">739</span>
+<span class="normal">740</span>
+<span class="normal">741</span>
+<span class="normal">742</span>
+<span class="normal">743</span>
+<span class="normal">744</span>
+<span class="normal">745</span>
+<span class="normal">746</span>
+<span class="normal">747</span>
+<span class="normal">748</span>
+<span class="normal">749</span>
+<span class="normal">750</span>
+<span class="normal">751</span>
+<span class="normal">752</span>
+<span class="normal">753</span>
+<span class="normal">754</span>
+<span class="normal">755</span>
+<span class="normal">756</span>
+<span class="normal">757</span>
+<span class="normal">758</span>
+<span class="normal">759</span>
+<span class="normal">760</span>
+<span class="normal">761</span>
+<span class="normal">762</span>
+<span class="normal">763</span>
+<span class="normal">764</span>
+<span class="normal">765</span>
+<span class="normal">766</span>
+<span class="normal">767</span>
+<span class="normal">768</span>
+<span class="normal">769</span>
+<span class="normal">770</span>
+<span class="normal">771</span>
+<span class="normal">772</span>
+<span class="normal">773</span>
+<span class="normal">774</span>
+<span class="normal">775</span>
+<span class="normal">776</span>
+<span class="normal">777</span>
+<span class="normal">778</span>
+<span class="normal">779</span>
+<span class="normal">780</span>
+<span class="normal">781</span>
+<span class="normal">782</span>
+<span class="normal">783</span>
+<span class="normal">784</span>
+<span class="normal">785</span>
+<span class="normal">786</span>
+<span class="normal">787</span>
+<span class="normal">788</span>
+<span class="normal">789</span>
+<span class="normal">790</span>
+<span class="normal">791</span>
+<span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">create_dpo_eval_function</span><span class="p">(</span>
+        <span class="n">concatenated_forward</span><span class="p">:</span> <span class="n">Callable</span><span class="p">,</span>
+        <span class="n">ref_state</span><span class="p">:</span> <span class="n">EasyDeLState</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">beta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+        <span class="n">label_smoothing</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">loss_type</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;sigmoid&quot;</span><span class="p">,</span> <span class="s2">&quot;hinge&quot;</span><span class="p">,</span> <span class="s2">&quot;ipo&quot;</span><span class="p">,</span> <span class="s2">&quot;kto&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;sigmoid&quot;</span><span class="p">,</span>
+        <span class="n">reference_free</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The create_dpo_eval_function function is a helper function that creates the DPO evaluating step.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        concatenated_forward: Callable: Define the forward pass of the</span>
+<span class="sd">            model</span>
+<span class="sd">        ref_state: EasyDeLState: Specify the reference policy</span>
+<span class="sd">        beta: float: Scale the logits</span>
+<span class="sd">        label_smoothing: float: Smooth the labels</span>
+<span class="sd">        loss_type: Literal[&quot;sigmoid&quot;, &quot;hinge&quot;, &quot;ipo&quot;, &quot;kto&quot;]: Determine</span>
+<span class="sd">            the loss function</span>
+<span class="sd">        reference_free: bool: Indicate whether the reference policy is</span>
+<span class="sd">            used or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A function that takes in a state and a batch</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">_sigmoid_dpo_loss</span><span class="p">(</span>
+            <span class="n">logits</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">policy_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">reference_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">policy_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">reference_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span>  <span class="c1"># IGNORED</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _sigmoid_dpo_loss function is a helper function for the sigmoid_dpo_loss</span>
+<span class="sd">            function. It computes the loss of each example in a batch, given its logits</span>
+<span class="sd">            and (optionally) its chosen/rejected log probabilities under both policies.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            logits: chex.Array: Compute the loss</span>
+<span class="sd">            policy_chosen_log_probs: chex.Array: Calculate the policy</span>
+<span class="sd">                loss</span>
+<span class="sd">            reference_chosen_log_probs: chex.Array: Compute the loss for</span>
+<span class="sd">                the reference policy # IGNORED</span>
+<span class="sd">            policy_rejected_log_probs: chex.Array: Calculate the loss</span>
+<span class="sd">                for the rejected samples # IGNORED</span>
+<span class="sd">            reference_rejected_log_probs: chex.Array: Calculate the loss</span>
+<span class="sd">                of rejected samples # IGNORED</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            an array represent loss</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">losses</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="o">-</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">log_sigmoid</span><span class="p">(</span><span class="n">beta</span> <span class="o">*</span> <span class="n">logits</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">label_smoothing</span><span class="p">)</span>
+                <span class="o">-</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">log_sigmoid</span><span class="p">(</span><span class="o">-</span><span class="n">beta</span> <span class="o">*</span> <span class="n">logits</span><span class="p">)</span> <span class="o">*</span> <span class="n">label_smoothing</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">losses</span>
+
+    <span class="k">def</span> <span class="nf">_hinge_dpo_loss</span><span class="p">(</span>
+            <span class="n">logits</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">policy_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">reference_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">policy_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">reference_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span>  <span class="c1"># IGNORED</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _hinge_dpo_loss function is a helper function that computes the loss for DPO.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            logits: chex.Array: Calculate the hinge loss</span>
+<span class="sd">            policy_chosen_log_probs: chex.Array: Compute the policy loss</span>
+<span class="sd">            reference_chosen_log_probs: chex.Array: Compute the loss for</span>
+<span class="sd">                the reference policy # IGNORED</span>
+<span class="sd">            policy_rejected_log_probs: chex.Array: Calculate the loss</span>
+<span class="sd">                for the rejected samples # IGNORED</span>
+<span class="sd">            reference_rejected_log_probs: chex.Array: Calculate the loss</span>
+<span class="sd">                of rejected samples # IGNORED</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            an array represent The hinge loss</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jax</span><span class="o">.</span><span class="n">relu</span><span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">beta</span> <span class="o">*</span> <span class="n">logits</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_ipo_dpo_loss</span><span class="p">(</span>
+            <span class="n">logits</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">policy_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">reference_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">policy_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">reference_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span>  <span class="c1"># IGNORED</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _ipo_dpo_loss function is a helper function that calculates the loss for</span>
+<span class="sd">        the IPO-DPO algorithm. It takes in the logits, policy_chosen_log_probs,</span>
+<span class="sd">        reference_chosen_log_probs, policy rejected log probs and reference rejected</span>
+<span class="sd">        log probs as inputs. The output of this function is used to calculate the loss</span>
+<span class="sd">        for each batch of data.</span>
+
+<span class="sd">                :param logits: chex.Array: Calculate the loss</span>
+<span class="sd">                :param policy_chosen_log_probs: chex.Array: Compute the</span>
+<span class="sd">                :param reference_chosen_log_probs: chex.Array: Compute the loss for the reference policy # IGNORED</span>
+<span class="sd">                :param policy_rejected_log_probs: chex.Array: Calculate the loss for the rejected samples # IGNORED</span>
+<span class="sd">                :param reference_rejected_log_probs: chex.Array: Calculate the loss of rejected samples # IGNORED</span>
+<span class="sd">                :return: an array represent loss</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">logits</span> <span class="o">-</span> <span class="mi">1</span> <span class="o">/</span> <span class="p">(</span><span class="mi">2</span> <span class="o">*</span> <span class="n">beta</span><span class="p">))</span> <span class="o">**</span> <span class="mi">2</span>
+
+    <span class="k">def</span> <span class="nf">_kto_pair_dpo_loss</span><span class="p">(</span>
+            <span class="n">logits</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">policy_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">reference_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">policy_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">reference_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _kto_pair_dpo_loss function is a helper function that computes the loss for</span>
+<span class="sd">        a single pair of trajectories. It takes in two sets of log probabilities, one from</span>
+<span class="sd">        the policy and one from the reference distribution. The first set are the log</span>
+<span class="sd">        probabilities for actions taken by each agent in a trajectory, while the second set</span>
+<span class="sd">        are those for actions not taken by each agent (i.e., rejected). The function then</span>
+<span class="sd">        computes KL divergences between these two sets of distributions and uses them to compute losses.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            logits: chex.Array: Calculate the log_probs</span>
+<span class="sd">            policy_chosen_log_probs: chex.Array: Calculate the chosen_kl</span>
+<span class="sd">                # IGNORED</span>
+<span class="sd">            reference_chosen_log_probs: chex.Array: Calculate the</span>
+<span class="sd">                chosen_kl</span>
+<span class="sd">            policy_rejected_log_probs: chex.Array: Calculate the</span>
+<span class="sd">                rejected_kl variable</span>
+<span class="sd">            reference_rejected_log_probs: chex.Array: Calculate the</span>
+<span class="sd">                rejected_kl variable</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            an array represent loss</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">chosen_kl</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span>
+            <span class="nb">min</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="n">x</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">policy_chosen_log_probs</span> <span class="o">-</span> <span class="n">reference_chosen_log_probs</span><span class="p">),</span>
+            <span class="nb">max</span><span class="o">=</span><span class="mf">1e9</span>
+        <span class="p">)</span>
+        <span class="n">rejected_kl</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span>
+            <span class="nb">min</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="n">x</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">policy_rejected_log_probs</span> <span class="o">-</span> <span class="n">reference_rejected_log_probs</span><span class="p">),</span>
+            <span class="nb">max</span><span class="o">=</span><span class="mf">1e9</span>
+        <span class="p">)</span>
+
+        <span class="n">chosen_log_ratios</span> <span class="o">=</span> <span class="n">policy_chosen_log_probs</span> <span class="o">-</span> <span class="n">reference_chosen_log_probs</span>
+        <span class="n">rejected_log_ratios</span> <span class="o">=</span> <span class="n">policy_rejected_log_probs</span> <span class="o">-</span> <span class="n">reference_rejected_log_probs</span>
+        <span class="n">losses</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span>
+                <span class="mi">1</span> <span class="o">-</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">sigmoid</span><span class="p">(</span><span class="n">beta</span> <span class="o">*</span> <span class="p">(</span><span class="n">chosen_log_ratios</span> <span class="o">-</span> <span class="n">rejected_kl</span><span class="p">)),</span>
+                <span class="mi">1</span> <span class="o">-</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">sigmoid</span><span class="p">(</span><span class="n">beta</span> <span class="o">*</span> <span class="p">(</span><span class="n">chosen_kl</span> <span class="o">-</span> <span class="n">rejected_log_ratios</span><span class="p">)),</span>
+            <span class="p">),</span>
+            <span class="mi">0</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">losses</span>
+
+    <span class="k">if</span> <span class="n">loss_type</span> <span class="o">==</span> <span class="s2">&quot;sigmoid&quot;</span><span class="p">:</span>
+        <span class="n">_loss_func</span> <span class="o">=</span> <span class="n">_sigmoid_dpo_loss</span>
+    <span class="k">elif</span> <span class="n">loss_type</span> <span class="o">==</span> <span class="s2">&quot;hinge&quot;</span><span class="p">:</span>
+        <span class="n">_loss_func</span> <span class="o">=</span> <span class="n">_hinge_dpo_loss</span>
+    <span class="k">elif</span> <span class="n">loss_type</span> <span class="o">==</span> <span class="s2">&quot;ipo&quot;</span><span class="p">:</span>
+        <span class="n">_loss_func</span> <span class="o">=</span> <span class="n">_ipo_dpo_loss</span>
+    <span class="k">elif</span> <span class="n">loss_type</span> <span class="o">==</span> <span class="s2">&quot;kto_pair&quot;</span><span class="p">:</span>
+        <span class="n">_loss_func</span> <span class="o">=</span> <span class="n">_kto_pair_dpo_loss</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;UnKnown loss_type </span><span class="si">{</span><span class="n">loss_type</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">dpo_step</span><span class="p">(</span>
+            <span class="n">state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">,</span>
+            <span class="n">batch</span><span class="p">:</span> <span class="nb">dict</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">DPOStepOut</span><span class="p">:</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The dpo_step function is the core of DPO. It takes a state and a batch,</span>
+<span class="sd">        and returns an updated state. The update is done by calculating the loss</span>
+<span class="sd">        for each example in the batch, then taking its gradient with respect to</span>
+<span class="sd">        the parameters of the policy network (which are stored in `state`). This</span>
+<span class="sd">        gradient is then used to update `state`.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            state: EasyDeLState: Store the parameters of the model</span>
+<span class="sd">            batch: dict: Pass the data to the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A `DPOStepOut` class</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">def</span> <span class="nf">calculate_loss</span><span class="p">(</span><span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">|</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">):</span>
+            <span class="p">(</span>
+                <span class="n">policy_chosen_log_probs</span><span class="p">,</span>
+                <span class="n">policy_rejected_log_probs</span><span class="p">,</span>
+                <span class="n">policy_chosen_logits</span><span class="p">,</span>
+                <span class="n">policy_rejected_logits</span><span class="p">,</span>
+            <span class="p">)</span> <span class="o">=</span> <span class="n">concatenated_forward</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">,</span>
+                <span class="n">params</span><span class="p">,</span>
+                <span class="n">batch</span>
+            <span class="p">)</span>
+
+            <span class="k">if</span> <span class="s2">&quot;reference_chosen_log_probs&quot;</span> <span class="ow">in</span> <span class="n">batch</span> <span class="ow">and</span> <span class="s2">&quot;reference_rejected_log_probs&quot;</span> <span class="ow">in</span> <span class="n">batch</span><span class="p">:</span>
+                <span class="n">reference_chosen_log_probs</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;reference_chosen_log_probs&quot;</span><span class="p">]</span>
+                <span class="n">reference_rejected_log_probs</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;reference_rejected_log_probs&quot;</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">ref_state</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="p">(</span>
+                        <span class="n">reference_chosen_log_probs</span><span class="p">,</span>
+                        <span class="n">reference_rejected_log_probs</span><span class="p">,</span>
+                        <span class="n">_</span><span class="p">,</span>
+                        <span class="n">_</span><span class="p">,</span>
+                    <span class="p">)</span> <span class="o">=</span> <span class="n">concatenated_forward</span><span class="p">(</span>
+                        <span class="n">state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">,</span>
+                        <span class="n">state</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                        <span class="n">batch</span>
+                    <span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="p">(</span>
+                        <span class="n">reference_chosen_log_probs</span><span class="p">,</span>
+                        <span class="n">reference_rejected_log_probs</span><span class="p">,</span>
+                        <span class="n">_</span><span class="p">,</span>
+                        <span class="n">_</span><span class="p">,</span>
+                    <span class="p">)</span> <span class="o">=</span> <span class="n">concatenated_forward</span><span class="p">(</span>
+                        <span class="n">ref_state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">,</span>
+                        <span class="n">ref_state</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                        <span class="n">batch</span>
+                    <span class="p">)</span>
+
+            <span class="n">pi_log_ratios</span> <span class="o">=</span> <span class="n">policy_chosen_log_probs</span> <span class="o">-</span> <span class="n">policy_rejected_log_probs</span>
+
+            <span class="k">if</span> <span class="n">reference_free</span><span class="p">:</span>
+                <span class="n">ref_log_ratios</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">ref_log_ratios</span> <span class="o">=</span> <span class="n">reference_chosen_log_probs</span> <span class="o">-</span> <span class="n">reference_rejected_log_probs</span>
+
+            <span class="n">logits</span> <span class="o">=</span> <span class="n">pi_log_ratios</span> <span class="o">-</span> <span class="n">ref_log_ratios</span>
+            <span class="n">losses</span> <span class="o">=</span> <span class="n">_loss_func</span><span class="p">(</span>
+                <span class="n">logits</span><span class="p">,</span>
+                <span class="n">policy_chosen_log_probs</span><span class="p">,</span>
+                <span class="n">reference_chosen_log_probs</span><span class="p">,</span>
+                <span class="n">policy_rejected_log_probs</span><span class="p">,</span>
+                <span class="n">reference_rejected_log_probs</span>
+            <span class="p">)</span>
+            <span class="n">chosen_rewards</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">beta</span>
+                    <span class="o">*</span> <span class="p">(</span>
+                            <span class="n">policy_chosen_log_probs</span> <span class="o">-</span> <span class="n">reference_chosen_log_probs</span>
+                    <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">rejected_rewards</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">beta</span>
+                    <span class="o">*</span> <span class="p">(</span>
+                            <span class="n">policy_rejected_log_probs</span>
+                            <span class="o">-</span> <span class="n">reference_rejected_log_probs</span>
+                    <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="k">return</span> <span class="n">losses</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="p">(</span><span class="n">chosen_rewards</span><span class="p">,</span> <span class="n">rejected_rewards</span><span class="p">)</span>
+
+        <span class="n">__loss</span><span class="p">,</span> <span class="p">(</span><span class="n">__chosen_rewards</span><span class="p">,</span> <span class="n">__rejected_rewards</span><span class="p">)</span> <span class="o">=</span> <span class="n">calculate_loss</span><span class="p">(</span><span class="n">state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">DPOStepOut</span><span class="p">(</span>
+            <span class="n">loss</span><span class="o">=</span><span class="n">__loss</span><span class="p">,</span>
+            <span class="n">rejected_rewards</span><span class="o">=</span><span class="n">__rejected_rewards</span><span class="p">,</span>
+            <span class="n">chosen_rewards</span><span class="o">=</span><span class="n">__chosen_rewards</span>
+        <span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">dpo_step</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.dpo.fwd_bwd_functions.create_dpo_train_function" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_dpo_train_function</span><span class="p">(</span><span class="n">concatenated_forward</span><span class="p">,</span> <span class="n">ref_state</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">beta</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">label_smoothing</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">loss_type</span><span class="o">=</span><span class="s1">&#39;sigmoid&#39;</span><span class="p">,</span> <span class="n">reference_free</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The create_dpo_train_function function is a helper function that creates the DPO training step.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>concatenated_forward</code></td>
+            <td>
+                  <code><span title="typing.Callable">Callable</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Callable: Define the forward pass of the
+model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>ref_state</code></td>
+            <td>
+                  <code><a class="autorefs autorefs-internal" title="src.python.easydel.etils.EasyDeLState" href="../generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState">EasyDeLState</a></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>EasyDeLState: Specify the reference policy</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>beta</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Scale the logits</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>label_smoothing</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Smooth the labels</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>loss_type</code></td>
+            <td>
+                  <code><span title="typing.Literal">Literal</span>[&#39;sigmoid&#39;, &#39;hinge&#39;, &#39;ipo&#39;, &#39;kto&#39;]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Literal["sigmoid", "hinge", "ipo", "kto"]: Determine
+the loss function</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;sigmoid&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>reference_free</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Indicate whether the reference policy is
+used or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A function that takes in a state and a batch</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/fwd_bwd_functions.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">create_dpo_train_function</span><span class="p">(</span>
+        <span class="n">concatenated_forward</span><span class="p">:</span> <span class="n">Callable</span><span class="p">,</span>
+        <span class="n">ref_state</span><span class="p">:</span> <span class="n">EasyDeLState</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">beta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+        <span class="n">label_smoothing</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">loss_type</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;sigmoid&quot;</span><span class="p">,</span> <span class="s2">&quot;hinge&quot;</span><span class="p">,</span> <span class="s2">&quot;ipo&quot;</span><span class="p">,</span> <span class="s2">&quot;kto&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;sigmoid&quot;</span><span class="p">,</span>
+        <span class="n">reference_free</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The create_dpo_train_function function is a helper function that creates the DPO training step.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        concatenated_forward: Callable: Define the forward pass of the</span>
+<span class="sd">            model</span>
+<span class="sd">        ref_state: EasyDeLState: Specify the reference policy</span>
+<span class="sd">        beta: float: Scale the logits</span>
+<span class="sd">        label_smoothing: float: Smooth the labels</span>
+<span class="sd">        loss_type: Literal[&quot;sigmoid&quot;, &quot;hinge&quot;, &quot;ipo&quot;, &quot;kto&quot;]: Determine</span>
+<span class="sd">            the loss function</span>
+<span class="sd">        reference_free: bool: Indicate whether the reference policy is</span>
+<span class="sd">            used or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A function that takes in a state and a batch</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">_sigmoid_dpo_loss</span><span class="p">(</span>
+            <span class="n">logits</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">policy_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">reference_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">policy_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">reference_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span> <span class="o">=</span> <span class="kc">None</span>  <span class="c1"># IGNORED</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _sigmoid_dpo_loss function is a helper function for the sigmoid_dpo_loss</span>
+<span class="sd">            function. It computes the loss of each example in a batch, given its logits</span>
+<span class="sd">            and (optionally) its chosen/rejected log probabilities under both policies.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            logits: chex.Array: Compute the loss</span>
+<span class="sd">            policy_chosen_log_probs: chex.Array: Calculate the policy</span>
+<span class="sd">                loss</span>
+<span class="sd">            reference_chosen_log_probs: chex.Array: Compute the loss for</span>
+<span class="sd">                the reference policy # IGNORED</span>
+<span class="sd">            policy_rejected_log_probs: chex.Array: Calculate the loss</span>
+<span class="sd">                for the rejected samples # IGNORED</span>
+<span class="sd">            reference_rejected_log_probs: chex.Array: Calculate the loss</span>
+<span class="sd">                of rejected samples # IGNORED</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            an array represent loss</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">losses</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="o">-</span><span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">log_sigmoid</span><span class="p">(</span><span class="n">beta</span> <span class="o">*</span> <span class="n">logits</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">label_smoothing</span><span class="p">)</span>
+                <span class="o">-</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">log_sigmoid</span><span class="p">(</span><span class="o">-</span><span class="n">beta</span> <span class="o">*</span> <span class="n">logits</span><span class="p">)</span> <span class="o">*</span> <span class="n">label_smoothing</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">losses</span>
+
+    <span class="k">def</span> <span class="nf">_hinge_dpo_loss</span><span class="p">(</span>
+            <span class="n">logits</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">policy_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">reference_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">policy_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">reference_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span>  <span class="c1"># IGNORED</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _hinge_dpo_loss function is a helper function that computes the loss for DPO.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            logits: chex.Array: Calculate the hinge loss</span>
+<span class="sd">            policy_chosen_log_probs: chex.Array: Compute the policy loss</span>
+<span class="sd">            reference_chosen_log_probs: chex.Array: Compute the loss for</span>
+<span class="sd">                the reference policy # IGNORED</span>
+<span class="sd">            policy_rejected_log_probs: chex.Array: Calculate the loss</span>
+<span class="sd">                for the rejected samples # IGNORED</span>
+<span class="sd">            reference_rejected_log_probs: chex.Array: Calculate the loss</span>
+<span class="sd">                of rejected samples # IGNORED</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            an array represent The hinge loss</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">jax</span><span class="o">.</span><span class="n">relu</span><span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">beta</span> <span class="o">*</span> <span class="n">logits</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_ipo_dpo_loss</span><span class="p">(</span>
+            <span class="n">logits</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">policy_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">reference_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">policy_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">reference_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span>  <span class="c1"># IGNORED</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _ipo_dpo_loss function is a helper function that calculates the loss for</span>
+<span class="sd">        the IPO-DPO algorithm. It takes in the logits, policy_chosen_log_probs,</span>
+<span class="sd">        reference_chosen_log_probs, policy rejected log probs and reference rejected</span>
+<span class="sd">        log probs as inputs. The output of this function is used to calculate the loss</span>
+<span class="sd">        for each batch of data.</span>
+
+<span class="sd">                :param logits: chex.Array: Calculate the loss</span>
+<span class="sd">                :param policy_chosen_log_probs: chex.Array: Compute the</span>
+<span class="sd">                :param reference_chosen_log_probs: chex.Array: Compute the loss for the reference policy # IGNORED</span>
+<span class="sd">                :param policy_rejected_log_probs: chex.Array: Calculate the loss for the rejected samples # IGNORED</span>
+<span class="sd">                :param reference_rejected_log_probs: chex.Array: Calculate the loss of rejected samples # IGNORED</span>
+<span class="sd">                :return: an array represent loss</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">logits</span> <span class="o">-</span> <span class="mi">1</span> <span class="o">/</span> <span class="p">(</span><span class="mi">2</span> <span class="o">*</span> <span class="n">beta</span><span class="p">))</span> <span class="o">**</span> <span class="mi">2</span>
+
+    <span class="k">def</span> <span class="nf">_kto_pair_dpo_loss</span><span class="p">(</span>
+            <span class="n">logits</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>  <span class="c1"># IGNORED</span>
+            <span class="n">policy_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">reference_chosen_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">policy_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+            <span class="n">reference_rejected_log_probs</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The _kto_pair_dpo_loss function is a helper function that computes the loss for</span>
+<span class="sd">        a single pair of trajectories. It takes in two sets of log probabilities, one from</span>
+<span class="sd">        the policy and one from the reference distribution. The first set are the log</span>
+<span class="sd">        probabilities for actions taken by each agent in a trajectory, while the second set</span>
+<span class="sd">        are those for actions not taken by each agent (i.e., rejected). The function then</span>
+<span class="sd">        computes KL divergences between these two sets of distributions and uses them to compute losses.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            logits: chex.Array: Calculate the log_probs</span>
+<span class="sd">            policy_chosen_log_probs: chex.Array: Calculate the chosen_kl</span>
+<span class="sd">                # IGNORED</span>
+<span class="sd">            reference_chosen_log_probs: chex.Array: Calculate the</span>
+<span class="sd">                chosen_kl</span>
+<span class="sd">            policy_rejected_log_probs: chex.Array: Calculate the</span>
+<span class="sd">                rejected_kl variable</span>
+<span class="sd">            reference_rejected_log_probs: chex.Array: Calculate the</span>
+<span class="sd">                rejected_kl variable</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            an array represent loss</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">chosen_kl</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span>
+            <span class="nb">min</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="n">x</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">policy_chosen_log_probs</span> <span class="o">-</span> <span class="n">reference_chosen_log_probs</span><span class="p">),</span>
+            <span class="nb">max</span><span class="o">=</span><span class="mf">1e9</span>
+        <span class="p">)</span>
+        <span class="n">rejected_kl</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span>
+            <span class="nb">min</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="n">x</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">policy_rejected_log_probs</span> <span class="o">-</span> <span class="n">reference_rejected_log_probs</span><span class="p">),</span>
+            <span class="nb">max</span><span class="o">=</span><span class="mf">1e9</span>
+        <span class="p">)</span>
+
+        <span class="n">chosen_log_ratios</span> <span class="o">=</span> <span class="n">policy_chosen_log_probs</span> <span class="o">-</span> <span class="n">reference_chosen_log_probs</span>
+        <span class="n">rejected_log_ratios</span> <span class="o">=</span> <span class="n">policy_rejected_log_probs</span> <span class="o">-</span> <span class="n">reference_rejected_log_probs</span>
+        <span class="n">losses</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span>
+                <span class="mi">1</span> <span class="o">-</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">sigmoid</span><span class="p">(</span><span class="n">beta</span> <span class="o">*</span> <span class="p">(</span><span class="n">chosen_log_ratios</span> <span class="o">-</span> <span class="n">rejected_kl</span><span class="p">)),</span>
+                <span class="mi">1</span> <span class="o">-</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">sigmoid</span><span class="p">(</span><span class="n">beta</span> <span class="o">*</span> <span class="p">(</span><span class="n">chosen_kl</span> <span class="o">-</span> <span class="n">rejected_log_ratios</span><span class="p">)),</span>
+            <span class="p">),</span>
+            <span class="mi">0</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">losses</span>
+
+    <span class="k">if</span> <span class="n">loss_type</span> <span class="o">==</span> <span class="s2">&quot;sigmoid&quot;</span><span class="p">:</span>
+        <span class="n">_loss_func</span> <span class="o">=</span> <span class="n">_sigmoid_dpo_loss</span>
+    <span class="k">elif</span> <span class="n">loss_type</span> <span class="o">==</span> <span class="s2">&quot;hinge&quot;</span><span class="p">:</span>
+        <span class="n">_loss_func</span> <span class="o">=</span> <span class="n">_hinge_dpo_loss</span>
+    <span class="k">elif</span> <span class="n">loss_type</span> <span class="o">==</span> <span class="s2">&quot;ipo&quot;</span><span class="p">:</span>
+        <span class="n">_loss_func</span> <span class="o">=</span> <span class="n">_ipo_dpo_loss</span>
+    <span class="k">elif</span> <span class="n">loss_type</span> <span class="o">==</span> <span class="s2">&quot;kto_pair&quot;</span><span class="p">:</span>
+        <span class="n">_loss_func</span> <span class="o">=</span> <span class="n">_kto_pair_dpo_loss</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;UnKnown loss_type </span><span class="si">{</span><span class="n">loss_type</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">dpo_step</span><span class="p">(</span>
+            <span class="n">state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">,</span>
+            <span class="n">batch</span><span class="p">:</span> <span class="nb">dict</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="n">EasyDeLState</span><span class="p">,</span> <span class="n">DPOStepOut</span><span class="p">]:</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The dpo_step function is the core of DPO. It takes a state and a batch,</span>
+<span class="sd">        and returns an updated state. The update is done by calculating the loss</span>
+<span class="sd">        for each example in the batch, then taking its gradient with respect to</span>
+<span class="sd">        the parameters of the policy network (which are stored in `state`). This</span>
+<span class="sd">        gradient is then used to update `state`.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            state: EasyDeLState: Store the parameters of the model</span>
+<span class="sd">            batch: dict: Pass the data to the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A new state, which is a collection of the parameters and</span>
+<span class="sd">            apply_fn</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">def</span> <span class="nf">calculate_loss</span><span class="p">(</span><span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">|</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">):</span>
+            <span class="p">(</span>
+                <span class="n">policy_chosen_log_probs</span><span class="p">,</span>
+                <span class="n">policy_rejected_log_probs</span><span class="p">,</span>
+                <span class="n">policy_chosen_logits</span><span class="p">,</span>
+                <span class="n">policy_rejected_logits</span><span class="p">,</span>
+            <span class="p">)</span> <span class="o">=</span> <span class="n">concatenated_forward</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">,</span>
+                <span class="n">params</span><span class="p">,</span>
+                <span class="n">batch</span>
+            <span class="p">)</span>
+
+            <span class="k">if</span> <span class="s2">&quot;reference_chosen_log_probs&quot;</span> <span class="ow">in</span> <span class="n">batch</span> <span class="ow">and</span> <span class="s2">&quot;reference_rejected_log_probs&quot;</span> <span class="ow">in</span> <span class="n">batch</span><span class="p">:</span>
+                <span class="n">reference_chosen_log_probs</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;reference_chosen_log_probs&quot;</span><span class="p">]</span>
+                <span class="n">reference_rejected_log_probs</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;reference_rejected_log_probs&quot;</span><span class="p">]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">ref_state</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="p">(</span>
+                        <span class="n">reference_chosen_log_probs</span><span class="p">,</span>
+                        <span class="n">reference_rejected_log_probs</span><span class="p">,</span>
+                        <span class="n">_</span><span class="p">,</span>
+                        <span class="n">_</span><span class="p">,</span>
+                    <span class="p">)</span> <span class="o">=</span> <span class="n">concatenated_forward</span><span class="p">(</span>
+                        <span class="n">state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">,</span>
+                        <span class="n">state</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                        <span class="n">batch</span>
+                    <span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="p">(</span>
+                        <span class="n">reference_chosen_log_probs</span><span class="p">,</span>
+                        <span class="n">reference_rejected_log_probs</span><span class="p">,</span>
+                        <span class="n">_</span><span class="p">,</span>
+                        <span class="n">_</span><span class="p">,</span>
+                    <span class="p">)</span> <span class="o">=</span> <span class="n">concatenated_forward</span><span class="p">(</span>
+                        <span class="n">ref_state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">,</span>
+                        <span class="n">ref_state</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                        <span class="n">batch</span>
+                    <span class="p">)</span>
+
+            <span class="n">pi_log_ratios</span> <span class="o">=</span> <span class="n">policy_chosen_log_probs</span> <span class="o">-</span> <span class="n">policy_rejected_log_probs</span>
+
+            <span class="k">if</span> <span class="n">reference_free</span><span class="p">:</span>
+                <span class="n">ref_log_ratios</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">ref_log_ratios</span> <span class="o">=</span> <span class="n">reference_chosen_log_probs</span> <span class="o">-</span> <span class="n">reference_rejected_log_probs</span>
+
+            <span class="n">logits</span> <span class="o">=</span> <span class="n">pi_log_ratios</span> <span class="o">-</span> <span class="n">ref_log_ratios</span>
+            <span class="n">losses</span> <span class="o">=</span> <span class="n">_loss_func</span><span class="p">(</span>
+                <span class="n">logits</span><span class="p">,</span>
+                <span class="n">policy_chosen_log_probs</span><span class="p">,</span>
+                <span class="n">reference_chosen_log_probs</span><span class="p">,</span>
+                <span class="n">policy_rejected_log_probs</span><span class="p">,</span>
+                <span class="n">reference_rejected_log_probs</span>
+            <span class="p">)</span>
+            <span class="n">chosen_rewards</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">beta</span>
+                    <span class="o">*</span> <span class="p">(</span>
+                            <span class="n">policy_chosen_log_probs</span> <span class="o">-</span> <span class="n">reference_chosen_log_probs</span>
+                    <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">rejected_rewards</span> <span class="o">=</span> <span class="p">(</span>
+                    <span class="n">beta</span>
+                    <span class="o">*</span> <span class="p">(</span>
+                            <span class="n">policy_rejected_log_probs</span>
+                            <span class="o">-</span> <span class="n">reference_rejected_log_probs</span>
+                    <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="k">return</span> <span class="n">losses</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="p">(</span><span class="n">chosen_rewards</span><span class="p">,</span> <span class="n">rejected_rewards</span><span class="p">)</span>
+
+        <span class="n">grad_fn</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">value_and_grad</span><span class="p">(</span><span class="n">calculate_loss</span><span class="p">,</span> <span class="n">has_aux</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="p">(</span><span class="n">__loss</span><span class="p">,</span> <span class="p">(</span><span class="n">__chosen_rewards</span><span class="p">,</span> <span class="n">__rejected_rewards</span><span class="p">)),</span> <span class="n">grads</span> <span class="o">=</span> <span class="n">grad_fn</span><span class="p">(</span><span class="n">state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+        <span class="n">new_state</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">apply_gradients</span><span class="p">(</span><span class="n">grads</span><span class="o">=</span><span class="n">grads</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">new_state</span><span class="p">,</span> <span class="n">DPOStepOut</span><span class="p">(</span>
+            <span class="n">loss</span><span class="o">=</span><span class="n">__loss</span><span class="p">,</span>
+            <span class="n">rejected_rewards</span><span class="o">=</span><span class="n">__rejected_rewards</span><span class="p">,</span>
+            <span class="n">chosen_rewards</span><span class="o">=</span><span class="n">__chosen_rewards</span>
+        <span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">dpo_step</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.dpo.fwd_bwd_functions.get_batch_log_probs" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_batch_log_probs</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="n">labels</span><span class="p">,</span> <span class="n">average_log_prob</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">label_pad_token_id</span><span class="o">=-</span><span class="mi">100</span><span class="p">,</span> <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_batch_log_probs function computes the log probability of a batch of sequences.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>logits</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Compute the log_softmax of the input</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>labels</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the logits</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>average_log_prob</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to average the log
+prob over the sequence length</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>label_pad_token_id</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Mask out the padding tokens in the
+labels</p>
+              </div>
+            </td>
+            <td>
+                  <code>-100</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>is_encoder_decoder</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Indicate whether the model is an
+encoder-decoder model</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine whether to average the log probability over all tokens or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The log probability of the labels given the logits</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/dpo/fwd_bwd_functions.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_batch_log_probs</span><span class="p">(</span>
+        <span class="n">logits</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">labels</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">average_log_prob</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">label_pad_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">100</span><span class="p">,</span>
+        <span class="n">is_encoder_decoder</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_batch_log_probs function computes the log probability of a batch of sequences.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        logits: chex.Array: Compute the log_softmax of the input</span>
+<span class="sd">        labels: chex.Array: Mask the logits</span>
+<span class="sd">        average_log_prob: bool: Determine whether to average the log</span>
+<span class="sd">            prob over the sequence length</span>
+<span class="sd">        label_pad_token_id: int: Mask out the padding tokens in the</span>
+<span class="sd">            labels</span>
+<span class="sd">        is_encoder_decoder: bool: Indicate whether the model is an</span>
+<span class="sd">            encoder-decoder model</span>
+<span class="sd">    :param : Determine whether to average the log probability over all tokens or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The log probability of the labels given the logits</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="c1"># sudo code</span>
+    <span class="c1"># (per_token_log_probs * loss_mask).sum(-1)</span>
+    <span class="c1"># or</span>
+    <span class="c1"># (per_token_log_probs * loss_mask).sum(-1) / loss_mask.sum(-1)</span>
+
+    <span class="k">if</span> <span class="n">logits</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="n">labels</span><span class="o">.</span><span class="n">shape</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Logits (batch and sequence length dim) and labels must have the same shape.&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">is_encoder_decoder</span><span class="p">:</span>
+        <span class="n">labels</span> <span class="o">=</span> <span class="n">labels</span><span class="p">[:,</span> <span class="mi">1</span><span class="p">:]</span>
+        <span class="n">logits</span> <span class="o">=</span> <span class="n">logits</span><span class="p">[:,</span> <span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="p">:]</span>
+
+    <span class="n">batch</span><span class="p">,</span> <span class="n">seq_len</span><span class="p">,</span> <span class="n">dim</span> <span class="o">=</span> <span class="n">logits</span><span class="o">.</span><span class="n">shape</span>
+    <span class="n">loss_mask</span> <span class="o">=</span> <span class="n">labels</span> <span class="o">!=</span> <span class="n">label_pad_token_id</span>
+    <span class="n">labels</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">select</span><span class="p">(</span>
+        <span class="n">labels</span> <span class="o">==</span> <span class="n">label_pad_token_id</span><span class="p">,</span>
+        <span class="n">jnp</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="n">labels</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">labels</span><span class="o">.</span><span class="n">dtype</span><span class="p">),</span>
+        <span class="n">labels</span>
+    <span class="p">)</span>
+    <span class="n">logits_log_s</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">log_softmax</span><span class="p">(</span>
+        <span class="n">logits</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span>
+    <span class="p">)</span>
+    <span class="n">per_token_log_probs</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">take_along_axis</span><span class="p">(</span>
+        <span class="n">logits_log_s</span><span class="p">,</span>
+        <span class="n">axis</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span>
+        <span class="n">indices</span><span class="o">=</span><span class="n">labels</span><span class="p">[:,</span> <span class="p">:,</span> <span class="kc">None</span><span class="p">]</span>
+    <span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">seq_len</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">average_log_prob</span><span class="p">:</span>
+        <span class="n">log_prob</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">sum</span><span class="p">((</span><span class="n">per_token_log_probs</span> <span class="o">*</span> <span class="n">loss_mask</span><span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span> <span class="o">/</span> <span class="n">jnp</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">loss_mask</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">log_prob</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">sum</span><span class="p">((</span><span class="n">per_token_log_probs</span> <span class="o">*</span> <span class="n">loss_mask</span><span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">log_prob</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-dpo-modelling_output/index.html b/generated-trainer-dpo-modelling_output/index.html
new file mode 100644
index 000000000..f78107054
--- /dev/null
+++ b/generated-trainer-dpo-modelling_output/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-dpo-fwd_bwd_functions/">
+      
+      
+        <link rel="next" href="../generated-trainer-dpo-utils/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Output - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainerdpomodelling_output" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Output
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.modelling_output" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_output
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.modelling_output" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_output
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainerdpomodelling_output">trainer.dpo.modelling_output</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.dpo.modelling_output"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-dpo-utils/index.html b/generated-trainer-dpo-utils/index.html
new file mode 100644
index 000000000..cfb7448ad
--- /dev/null
+++ b/generated-trainer-dpo-utils/index.html
@@ -0,0 +1,6334 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-dpo-modelling_output/">
+      
+      
+        <link rel="next" href="../generated-trainer-orpo-fwd_bwd_functions/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Utils - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainerdpoutils" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Utils
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.utils.DPODataCollatorWithPadding" class="md-nav__link">
+    <span class="md-ellipsis">
+      DPODataCollatorWithPadding
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.dpo.utils.DPODataCollatorWithPadding" class="md-nav__link">
+    <span class="md-ellipsis">
+      DPODataCollatorWithPadding
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainerdpoutils">trainer.dpo.utils</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.dpo.utils"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.trainer.dpo.utils.DPODataCollatorWithPadding" class="doc doc-heading">
+            <code>DPODataCollatorWithPadding</code>
+
+
+  <span class="doc doc-labels">
+      <small class="doc doc-label doc-label-dataclass"><code>dataclass</code></small>
+  </span>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+      <p>DPO DataCollator class that pads the tokenized inputs to the maximum length of the batch.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>pad_token_id</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: The tokenizers pad_token_id.</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>label_pad_token_id</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: The label used for masking.</p>
+              </div>
+            </td>
+            <td>
+                  <code>-100</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>is_encoder_decoder</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Whether you model has an
+encoder_decoder architecture</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/trainer/dpo/utils.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="nd">@dataclass</span>
+<span class="k">class</span> <span class="nc">DPODataCollatorWithPadding</span><span class="p">:</span>
+<span class="w">    </span><span class="sa">r</span><span class="sd">&quot;&quot;&quot;DPO DataCollator class that pads the tokenized inputs to the maximum length of the batch.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        pad_token_id: int: The tokenizers pad_token_id.</span>
+<span class="sd">        label_pad_token_id: int: The label used for masking.</span>
+<span class="sd">        is_encoder_decoder: Optional[bool]: Whether you model has an</span>
+<span class="sd">            encoder_decoder architecture</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">max_prompt_length</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="n">max_target_length</span><span class="p">:</span> <span class="nb">int</span>
+    <span class="n">pad_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span>
+    <span class="n">label_pad_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">100</span>
+    <span class="n">is_encoder_decoder</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="n">ids_to_pop_from_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="n">auto_fix_data</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">features</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]])</span> <span class="o">-&gt;</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]:</span>
+        <span class="n">padded_batch</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">features</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
+            <span class="k">if</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_input_ids&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">)</span> <span class="ow">or</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_labels&quot;</span><span class="p">):</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">is_encoder_decoder</span><span class="p">:</span>
+                    <span class="n">to_pad</span> <span class="o">=</span> <span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">ex</span><span class="p">[</span><span class="n">k</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span> <span class="k">for</span> <span class="n">ex</span> <span class="ow">in</span> <span class="n">features</span><span class="p">]</span>
+
+                    <span class="k">if</span> <span class="p">(</span><span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;prompt&quot;</span><span class="p">))</span> <span class="ow">and</span> <span class="p">(</span><span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;input_ids&quot;</span><span class="p">)):</span>
+                        <span class="n">padding_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pad_token_id</span>
+                    <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">):</span>
+                        <span class="n">padding_value</span> <span class="o">=</span> <span class="mi">0</span>
+                    <span class="k">elif</span> <span class="p">(</span><span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;chosen&quot;</span><span class="p">))</span> <span class="ow">or</span> <span class="p">(</span><span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;rejected&quot;</span><span class="p">))</span> <span class="ow">or</span> <span class="p">(</span><span class="s2">&quot;decoder&quot;</span> <span class="ow">in</span> <span class="n">k</span><span class="p">):</span>
+                        <span class="n">padding_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Unexpected key in batch &#39;</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&#39;&quot;</span><span class="p">)</span>
+                    <span class="n">padded_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">pad_sequence</span><span class="p">(</span><span class="n">to_pad</span><span class="p">,</span> <span class="n">batch_first</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">padding_value</span><span class="o">=</span><span class="n">padding_value</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="s2">&quot;prompt&quot;</span> <span class="ow">in</span> <span class="n">k</span><span class="p">:</span>
+                        <span class="n">to_pad</span> <span class="o">=</span> <span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">ex</span><span class="p">[</span><span class="n">k</span><span class="p">][::</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span> <span class="k">for</span> <span class="n">ex</span> <span class="ow">in</span> <span class="n">features</span><span class="p">]</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">to_pad</span> <span class="o">=</span> <span class="p">[</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">ex</span><span class="p">[</span><span class="n">k</span><span class="p">],</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span> <span class="k">for</span> <span class="n">ex</span> <span class="ow">in</span> <span class="n">features</span><span class="p">]</span>
+                    <span class="k">if</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_input_ids&quot;</span><span class="p">):</span>
+                        <span class="n">padding_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">pad_token_id</span>
+                    <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_labels&quot;</span><span class="p">):</span>
+                        <span class="n">padding_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span>
+                    <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">):</span>
+                        <span class="n">padding_value</span> <span class="o">=</span> <span class="mi">0</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Unexpected key in batch &#39;</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&#39;&quot;</span><span class="p">)</span>
+                    <span class="n">padded_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">pad_sequence</span><span class="p">(</span><span class="n">to_pad</span><span class="p">,</span> <span class="n">batch_first</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">padding_value</span><span class="o">=</span><span class="n">padding_value</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="s2">&quot;prompt&quot;</span> <span class="ow">in</span> <span class="n">k</span><span class="p">:</span>
+                        <span class="n">padded_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">flip</span><span class="p">(</span><span class="n">padded_batch</span><span class="p">[</span><span class="n">k</span><span class="p">],</span> <span class="n">axis</span><span class="o">=</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span>
+            <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_logps&quot;</span><span class="p">):</span>
+                <span class="n">padded_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">([</span><span class="n">ex</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="k">for</span> <span class="n">ex</span> <span class="ow">in</span> <span class="n">features</span><span class="p">])</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">padded_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="p">[</span><span class="n">ex</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="k">for</span> <span class="n">ex</span> <span class="ow">in</span> <span class="n">features</span><span class="p">]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span><span class="p">:</span>
+                <span class="n">_</span> <span class="o">=</span> <span class="n">padded_batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">padded_batch</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span>
+                    <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_input_ids&quot;</span><span class="p">)</span>
+                    <span class="ow">or</span> <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">)</span>
+                    <span class="ow">or</span> <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_labels&quot;</span><span class="p">)</span>
+                    <span class="ow">or</span> <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_log_probs&quot;</span><span class="p">)</span>
+            <span class="p">):</span>
+                <span class="n">_</span> <span class="o">=</span> <span class="n">padded_batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">padded_batch</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+            <span class="n">v</span> <span class="o">=</span> <span class="n">padded_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span>
+            <span class="n">padded_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">v</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">v</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">auto_fix_data</span><span class="p">:</span>
+            <span class="n">padded_batch</span><span class="p">[</span><span class="s2">&quot;rejected_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">padded_batch</span><span class="p">[</span><span class="s2">&quot;rejected_input_ids&quot;</span><span class="p">][</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">]</span>
+            <span class="n">padded_batch</span><span class="p">[</span>
+                <span class="s2">&quot;rejected_attention_mask&quot;</span>
+            <span class="p">]</span> <span class="o">=</span> <span class="n">padded_batch</span><span class="p">[</span><span class="s2">&quot;rejected_attention_mask&quot;</span><span class="p">][</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">]</span>
+            <span class="n">padded_batch</span><span class="p">[</span><span class="s2">&quot;rejected_labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">padded_batch</span><span class="p">[</span><span class="s2">&quot;rejected_labels&quot;</span><span class="p">][</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">]</span>
+
+            <span class="n">padded_batch</span><span class="p">[</span><span class="s2">&quot;chosen_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">padded_batch</span><span class="p">[</span><span class="s2">&quot;chosen_input_ids&quot;</span><span class="p">][</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">]</span>
+            <span class="n">padded_batch</span><span class="p">[</span><span class="s2">&quot;chosen_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">padded_batch</span><span class="p">[</span><span class="s2">&quot;chosen_attention_mask&quot;</span><span class="p">][</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">]</span>
+            <span class="n">padded_batch</span><span class="p">[</span><span class="s2">&quot;chosen_labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">padded_batch</span><span class="p">[</span><span class="s2">&quot;chosen_labels&quot;</span><span class="p">][</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_target_length</span><span class="p">]</span>
+
+            <span class="n">padded_batch</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">padded_batch</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">][</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">]</span>
+            <span class="n">padded_batch</span><span class="p">[</span>
+                <span class="s2">&quot;prompt_attention_mask&quot;</span>
+            <span class="p">]</span> <span class="o">=</span> <span class="n">padded_batch</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">][</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">]</span>
+
+        <span class="k">return</span> <span class="n">padded_batch</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-orpo-fwd_bwd_functions/index.html b/generated-trainer-orpo-fwd_bwd_functions/index.html
new file mode 100644
index 000000000..34d9d595d
--- /dev/null
+++ b/generated-trainer-orpo-fwd_bwd_functions/index.html
@@ -0,0 +1,7329 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-dpo-utils/">
+      
+      
+        <link rel="next" href="../generated-trainer-orpo-modelling_output/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Fwd Bwd Functions - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainerorpofwd_bwd_functions" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Fwd Bwd Functions
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.fwd_bwd_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      fwd_bwd_functions
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.fwd_bwd_functions.concatenated_inputs" class="md-nav__link">
+    <span class="md-ellipsis">
+      concatenated_inputs
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.fwd_bwd_functions.create_concatenated_forward" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_concatenated_forward
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.fwd_bwd_functions.create_orpo_step_function" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_orpo_step_function
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.fwd_bwd_functions.get_batch_log_probs" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_batch_log_probs
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.fwd_bwd_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      fwd_bwd_functions
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.fwd_bwd_functions.concatenated_inputs" class="md-nav__link">
+    <span class="md-ellipsis">
+      concatenated_inputs
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.fwd_bwd_functions.create_concatenated_forward" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_concatenated_forward
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.fwd_bwd_functions.create_orpo_step_function" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_orpo_step_function
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.fwd_bwd_functions.get_batch_log_probs" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_batch_log_probs
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainerorpofwd_bwd_functions">trainer.orpo.fwd_bwd_functions</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.orpo.fwd_bwd_functions"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.orpo.fwd_bwd_functions.concatenated_inputs" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">concatenated_inputs</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">label_pad_token_id</span><span class="o">=-</span><span class="mi">100</span><span class="p">,</span> <span class="n">padding_value</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">truncation_mode</span><span class="o">=</span><span class="s1">&#39;keep_end&#39;</span><span class="p">,</span> <span class="n">fixed_max_length</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The concatenated_inputs function takes a batch of chosen and rejected examples,
+and concatenates them together. This is useful for training the model to predict whether an example was chosen
+by the human annotator. The function also pads all inputs to
+the same length as the longest input in that batch.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>batch</code></td>
+            <td>
+                  <code><span title="typing.Dict">Dict</span>[str, <span title="typing.Union">Union</span>[<span title="typing.List">List</span>, <span title="chex.Array">Array</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Dict[str,Union[List,chex.Array]]: Pass the batch of data
+into the function,</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>is_encoder_decoder</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether the model is an
+encoder-decoder model</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>label_pad_token_id</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Pad the labels with a value of -100</p>
+              </div>
+            </td>
+            <td>
+                  <code>-100</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>padding_value</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Pad the input_ids and attention_mask arrays
+to the same length</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>truncation_mode</code></td>
+            <td>
+                  <code><span title="typing.Literal">Literal</span>[&#39;keep_end&#39;, &#39;keep_start&#39;]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>typing.Literal["keep_end", "keep_start"]: is
+left padded or not should it keep start of the</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;keep_end&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fixed_max_length</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int|None: by providing fixed_max_length the
+func will always return a fixed sequence length and won't
+use dynamic methods.</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>Allow for the batch to be a list of arrays or just an array,
+Specify the type of data that is being passed in</p>
+<p>array or the end of the array?.</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="typing.Dict">Dict</span>[str, <span title="chex.Array">Array</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of the concatenated inputs</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/orpo/fwd_bwd_functions.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">concatenated_inputs</span><span class="p">(</span>
+        <span class="n">batch</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="n">List</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]],</span>
+        <span class="n">is_encoder_decoder</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">label_pad_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">100</span><span class="p">,</span>
+        <span class="n">padding_value</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">truncation_mode</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;keep_end&quot;</span><span class="p">,</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">,</span>
+        <span class="n">fixed_max_length</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The concatenated_inputs function takes a batch of chosen and rejected examples,</span>
+<span class="sd">    and concatenates them together. This is useful for training the model to predict whether an example was chosen</span>
+<span class="sd">    by the human annotator. The function also pads all inputs to</span>
+<span class="sd">    the same length as the longest input in that batch.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        batch: Dict[str,Union[List,chex.Array]]: Pass the batch of data</span>
+<span class="sd">            into the function,</span>
+<span class="sd">        is_encoder_decoder: bool: Determine whether the model is an</span>
+<span class="sd">            encoder-decoder model</span>
+<span class="sd">        label_pad_token_id: int: Pad the labels with a value of -100</span>
+<span class="sd">        padding_value: int: Pad the input_ids and attention_mask arrays</span>
+<span class="sd">            to the same length</span>
+<span class="sd">        truncation_mode: typing.Literal[&quot;keep_end&quot;, &quot;keep_start&quot;]: is</span>
+<span class="sd">            left padded or not should it keep start of the</span>
+<span class="sd">        fixed_max_length: int|None: by providing fixed_max_length the</span>
+<span class="sd">            func will always return a fixed sequence length and won&#39;t</span>
+<span class="sd">            use dynamic methods.</span>
+<span class="sd">    Allow for the batch to be a list of arrays or just an array,</span>
+<span class="sd">    Specify the type of data that is being passed in</span>
+
+<span class="sd">    array or the end of the array?.</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of the concatenated inputs</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">concatenated_batch</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">fixed_max_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">is_encoder_decoder</span><span class="p">:</span>
+            <span class="n">max_length</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="s2">&quot;chosen_labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;rejected_labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">])</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">max_length</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="s2">&quot;chosen_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;rejected_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">])</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">max_length</span> <span class="o">=</span> <span class="n">fixed_max_length</span>
+    <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">batch</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;chosen&quot;</span><span class="p">)</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="n">k</span><span class="p">],</span> <span class="n">jax</span><span class="o">.</span><span class="n">Array</span><span class="p">):</span>
+            <span class="k">if</span> <span class="s2">&quot;labels&quot;</span> <span class="ow">in</span> <span class="n">k</span> <span class="ow">or</span> <span class="n">is_encoder_decoder</span><span class="p">:</span>
+                <span class="n">pad_value</span> <span class="o">=</span> <span class="n">label_pad_token_id</span>
+            <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_input_ids&quot;</span><span class="p">):</span>
+                <span class="n">pad_value</span> <span class="o">=</span> <span class="n">padding_value</span>
+            <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">):</span>
+                <span class="n">pad_value</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">KeyError</span><span class="p">(</span><span class="s2">&quot;couldn&#39;t find pad_value [Dataset Issue]&quot;</span><span class="p">)</span>
+            <span class="n">concatenated_key</span> <span class="o">=</span> <span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;chosen&quot;</span><span class="p">,</span> <span class="s2">&quot;concatenated&quot;</span><span class="p">)</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="n">concatenated_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="n">k</span><span class="p">],</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">pad_value</span><span class="o">=</span><span class="n">pad_value</span><span class="p">)</span>
+    <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="n">batch</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;rejected&quot;</span><span class="p">)</span> <span class="ow">and</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="n">k</span><span class="p">],</span> <span class="n">jax</span><span class="o">.</span><span class="n">Array</span><span class="p">):</span>
+            <span class="k">if</span> <span class="s2">&quot;labels&quot;</span> <span class="ow">in</span> <span class="n">k</span> <span class="ow">or</span> <span class="n">is_encoder_decoder</span><span class="p">:</span>
+                <span class="n">pad_value</span> <span class="o">=</span> <span class="n">label_pad_token_id</span>
+            <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_input_ids&quot;</span><span class="p">):</span>
+                <span class="k">assert</span> <span class="n">padding_value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`padding_value` can not be set as `None`&quot;</span>
+                <span class="n">pad_value</span> <span class="o">=</span> <span class="n">padding_value</span>
+            <span class="k">elif</span> <span class="n">k</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">):</span>
+                <span class="n">pad_value</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">KeyError</span><span class="p">(</span><span class="s2">&quot;couldn&#39;t find pad_value [Dataset Issue]&quot;</span><span class="p">)</span>
+            <span class="n">concatenated_key</span> <span class="o">=</span> <span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;rejected&quot;</span><span class="p">,</span> <span class="s2">&quot;concatenated&quot;</span><span class="p">)</span>
+            <span class="n">v2d</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">ar</span><span class="p">:</span> <span class="n">ar</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">ar</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="n">concatenated_key</span><span class="p">]</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span>
+                    <span class="n">v2d</span><span class="p">(</span><span class="n">concatenated_batch</span><span class="p">[</span><span class="n">concatenated_key</span><span class="p">]),</span>
+                    <span class="n">pad_to_length</span><span class="p">(</span><span class="n">v2d</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="n">k</span><span class="p">]),</span> <span class="n">max_length</span><span class="p">,</span> <span class="n">pad_value</span><span class="o">=</span><span class="n">pad_value</span><span class="p">),</span>
+                <span class="p">),</span>
+                <span class="n">axis</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+            <span class="p">)</span>
+    <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">concatenated_batch</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+        <span class="n">val</span> <span class="o">=</span> <span class="n">concatenated_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span>
+        <span class="k">if</span> <span class="n">val</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">3</span><span class="p">:</span>
+            <span class="c1"># making 3d array 2d</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">val</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">val</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">is_encoder_decoder</span><span class="p">:</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span><span class="s2">&quot;`concatenated_input_ids` will be repeated (encoder decoder model detected)&quot;</span><span class="p">)</span>
+        <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">repeat</span><span class="p">(</span><span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">concatenated_batch</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.orpo.fwd_bwd_functions.create_concatenated_forward" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_concatenated_forward</span><span class="p">(</span><span class="n">is_encoder_decoder</span><span class="p">,</span> <span class="n">label_pad_token_id</span><span class="p">,</span> <span class="n">padding_value</span><span class="p">,</span> <span class="n">truncation_mode</span><span class="o">=</span><span class="s1">&#39;keep_end&#39;</span><span class="p">,</span> <span class="n">fixed_max_length</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The create_concatenated_forward function is a helper function that creates a forward pass function for the
+model. The forward pass function takes in an apply_fn, which is the model's apply_fn, and runs it on concatenated
+inputs. It returns chosen log probs, rejected log probs, chosen logits and rejected logits.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>is_encoder_decoder</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine whether the model is an encoder-
+decoder model or not</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>label_pad_token_id</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pad the labels to the same length</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>padding_value</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pad the inputs to the same length</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>truncation_mode</code></td>
+            <td>
+                  <code><span title="typing.Literal">Literal</span>[&#39;keep_end&#39;, &#39;keep_start&#39;]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>typing.Literal["keep_end","keep_start"]: where
+to pad and where to keep.</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;keep_end&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fixed_max_length</code></td>
+            <td>
+                  <code>int | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int|None: by providing fixed_max_length the
+func will always return a fixed sequence length</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>and won't use dynamic methods.</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A function that takes in a apply_fn, params and a batch of</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>inputs,</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/orpo/fwd_bwd_functions.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">create_concatenated_forward</span><span class="p">(</span>
+        <span class="n">is_encoder_decoder</span><span class="p">,</span>
+        <span class="n">label_pad_token_id</span><span class="p">,</span>
+        <span class="n">padding_value</span><span class="p">,</span>
+        <span class="n">truncation_mode</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;keep_end&quot;</span><span class="p">,</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">,</span>
+        <span class="n">fixed_max_length</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The create_concatenated_forward function is a helper function that creates a forward pass function for the</span>
+<span class="sd">    model. The forward pass function takes in an apply_fn, which is the model&#39;s apply_fn, and runs it on concatenated</span>
+<span class="sd">    inputs. It returns chosen log probs, rejected log probs, chosen logits and rejected logits.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        is_encoder_decoder: Determine whether the model is an encoder-</span>
+<span class="sd">            decoder model or not</span>
+<span class="sd">        label_pad_token_id: Pad the labels to the same length</span>
+<span class="sd">        padding_value: Pad the inputs to the same length</span>
+<span class="sd">        truncation_mode: typing.Literal[&quot;keep_end&quot;,&quot;keep_start&quot;]: where</span>
+<span class="sd">            to pad and where to keep.</span>
+<span class="sd">        fixed_max_length: int|None: by providing fixed_max_length the</span>
+<span class="sd">            func will always return a fixed sequence length</span>
+<span class="sd">    and won&#39;t use dynamic methods.</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A function that takes in a apply_fn, params and a batch of</span>
+<span class="sd">        inputs,</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">concatenated_forward</span><span class="p">(</span>
+            <span class="n">apply_fn</span><span class="p">:</span> <span class="n">Callable</span><span class="p">,</span>
+            <span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">|</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">,</span>
+            <span class="n">batch</span><span class="p">:</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Union</span><span class="p">[</span><span class="n">List</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]]</span>
+
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The concatenated_forward function is used to compute the log-probabilities of both chosen and rejected labels.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            apply_fn: Callable: Pass in the model function</span>
+<span class="sd">            params: dict | flax.core.FrozenDict: Pass the model</span>
+<span class="sd">                parameters to the function</span>
+<span class="sd">            batch: Dict[str, Union[List, chex.Array]] : Pass the batch</span>
+<span class="sd">                of data to the concatenated_forward function</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The log_probs of the chosen and rejected labels, as well as</span>
+<span class="sd">            their corresponding logits</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="n">padding_value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`padding_value` can not be set as `None` it must be an integer.&quot;</span>
+        <span class="n">concatenated_batch</span> <span class="o">=</span> <span class="n">concatenated_inputs</span><span class="p">(</span>
+            <span class="n">batch</span><span class="p">,</span>
+            <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="n">is_encoder_decoder</span><span class="p">,</span>
+            <span class="n">label_pad_token_id</span><span class="o">=</span><span class="n">label_pad_token_id</span><span class="p">,</span>
+            <span class="n">padding_value</span><span class="o">=</span><span class="n">padding_value</span><span class="p">,</span>
+            <span class="n">truncation_mode</span><span class="o">=</span><span class="n">truncation_mode</span><span class="p">,</span>
+            <span class="n">fixed_max_length</span><span class="o">=</span><span class="n">fixed_max_length</span>
+        <span class="p">)</span>
+        <span class="n">len_chosen</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;chosen_labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+        <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="o">-</span><span class="mi">1</span>
+        <span class="p">)</span>
+        <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="o">-</span><span class="mi">1</span>
+        <span class="p">)</span>
+        <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_attention_mask&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_attention_mask&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="o">-</span><span class="mi">1</span>
+        <span class="p">)</span>
+        <span class="n">model_kwargs</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="p">{</span>
+                <span class="s2">&quot;labels&quot;</span><span class="p">:</span> <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_labels&quot;</span><span class="p">],</span>
+                <span class="s2">&quot;decoder_input_ids&quot;</span><span class="p">:</span> <span class="n">concatenated_batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;concatenated_decoder_input_ids&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">),</span>
+            <span class="p">}</span>
+            <span class="k">if</span> <span class="n">is_encoder_decoder</span>
+            <span class="k">else</span> <span class="p">{}</span>
+        <span class="p">)</span>
+        <span class="n">all_logits</span> <span class="o">=</span> <span class="n">apply_fn</span><span class="p">(</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_input_ids&quot;</span><span class="p">],</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_attention_mask&quot;</span><span class="p">],</span>
+            <span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">model_kwargs</span><span class="p">,</span>
+        <span class="p">)</span><span class="o">.</span><span class="n">logits</span>
+
+        <span class="k">def</span> <span class="nf">cross_entropy_loss</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="n">labels</span><span class="p">,</span> <span class="n">mask</span><span class="p">):</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">is_encoder_decoder</span><span class="p">:</span>
+                <span class="n">logits</span> <span class="o">=</span> <span class="n">logits</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="p">:]</span>
+                <span class="n">labels</span> <span class="o">=</span> <span class="n">labels</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">:]</span>
+                <span class="n">mask</span> <span class="o">=</span> <span class="n">mask</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">:]</span>
+            <span class="n">loss</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">cross_entropy_loss_and_accuracy</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="n">labels</span><span class="p">,</span> <span class="n">mask</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="k">return</span> <span class="n">loss</span>
+
+        <span class="k">if</span> <span class="n">is_encoder_decoder</span><span class="p">:</span>
+            <span class="n">labels</span> <span class="o">=</span> <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_labels&quot;</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">labels</span> <span class="o">=</span> <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_input_ids&quot;</span><span class="p">]</span>
+
+        <span class="n">chosen_nll_loss</span> <span class="o">=</span> <span class="n">cross_entropy_loss</span><span class="p">(</span>
+            <span class="n">all_logits</span><span class="p">[:</span><span class="n">len_chosen</span><span class="p">],</span>
+            <span class="n">labels</span><span class="p">[:</span><span class="n">len_chosen</span><span class="p">],</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_attention_mask&quot;</span><span class="p">][:</span><span class="n">len_chosen</span><span class="p">]</span>
+        <span class="p">)</span>
+        <span class="n">all_log_probs</span> <span class="o">=</span> <span class="n">get_batch_log_probs</span><span class="p">(</span>
+            <span class="n">all_logits</span><span class="p">,</span>
+            <span class="n">concatenated_batch</span><span class="p">[</span><span class="s2">&quot;concatenated_labels&quot;</span><span class="p">],</span>
+            <span class="n">average_log_prob</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="n">is_encoder_decoder</span><span class="p">,</span>
+            <span class="n">label_pad_token_id</span><span class="o">=</span><span class="n">label_pad_token_id</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">chosen_log_probs</span> <span class="o">=</span> <span class="n">all_log_probs</span><span class="p">[:</span><span class="n">len_chosen</span><span class="p">]</span>
+        <span class="n">rejected_log_probs</span> <span class="o">=</span> <span class="n">all_log_probs</span><span class="p">[</span><span class="n">len_chosen</span><span class="p">:]</span>
+
+        <span class="n">chosen_logits</span> <span class="o">=</span> <span class="n">all_logits</span><span class="p">[:</span><span class="n">len_chosen</span><span class="p">]</span>
+        <span class="n">rejected_logits</span> <span class="o">=</span> <span class="n">all_logits</span><span class="p">[</span><span class="n">len_chosen</span><span class="p">:]</span>
+        <span class="k">return</span> <span class="n">chosen_log_probs</span><span class="p">,</span> <span class="n">rejected_log_probs</span><span class="p">,</span> <span class="n">chosen_logits</span><span class="p">,</span> <span class="n">rejected_logits</span><span class="p">,</span> <span class="n">chosen_nll_loss</span>
+
+    <span class="k">return</span> <span class="n">concatenated_forward</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.orpo.fwd_bwd_functions.create_orpo_step_function" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_orpo_step_function</span><span class="p">(</span><span class="n">concatenated_forward</span><span class="p">,</span> <span class="n">beta</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">mode</span><span class="o">=</span><span class="s1">&#39;train&#39;</span><span class="p">,</span> <span class="n">batch_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;fsdp&#39;</span><span class="p">,</span> <span class="s1">&#39;dp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">))</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The create_orpo_step_function function is a helper function that creates the ORPO training step.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>concatenated_forward</code></td>
+            <td>
+                  <code><span title="typing.Callable">Callable</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Callable: Define the forward pass of the
+model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>beta</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Scale the logits</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>mode</code></td>
+            <td>
+                  <code><span title="typing.Literal">Literal</span>[&#39;train&#39;, &#39;eval&#39;]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Literal["train", "eval"] : "train", "eval" function modes</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;train&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>batch_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Batch PartitionSpec</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;fsdp&#39;, &#39;dp&#39;), &#39;sp&#39;)</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A function that takes in a state and a batch</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/orpo/fwd_bwd_functions.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">create_orpo_step_function</span><span class="p">(</span>
+        <span class="n">concatenated_forward</span><span class="p">:</span> <span class="n">Callable</span><span class="p">,</span>
+        <span class="n">beta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+        <span class="n">mode</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;train&quot;</span><span class="p">,</span> <span class="s2">&quot;eval&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;train&quot;</span><span class="p">,</span>
+        <span class="n">batch_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;dp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">)</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The create_orpo_step_function function is a helper function that creates the ORPO training step.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        concatenated_forward: Callable: Define the forward pass of the</span>
+<span class="sd">            model</span>
+<span class="sd">        beta: float: Scale the logits</span>
+<span class="sd">        mode: Literal[&quot;train&quot;, &quot;eval&quot;] : &quot;train&quot;, &quot;eval&quot; function modes</span>
+<span class="sd">        batch_partition_spec: PartitionSpec: Batch PartitionSpec</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A function that takes in a state and a batch</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">orpo_step</span><span class="p">(</span>
+            <span class="n">state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">,</span>
+            <span class="n">batch</span><span class="p">:</span> <span class="nb">dict</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">tuple</span><span class="p">[</span><span class="n">EasyDeLState</span><span class="p">,</span> <span class="n">ORPOStepOut</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The orpo_step function is the core of ORPO. It takes a state and a batch,</span>
+<span class="sd">        and returns an updated state. The update is done by calculating the loss</span>
+<span class="sd">        for each example in the batch, then taking its gradient with respect to</span>
+<span class="sd">        the parameters of the policy network (which are stored in `state`). This</span>
+<span class="sd">        gradient is then used to update `state`.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            state: EasyDeLState: Store the parameters of the model</span>
+<span class="sd">            batch: dict: Pass the data to the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A new state, which is a collection of the parameters and</span>
+<span class="sd">            apply_fn</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">partition_specs</span><span class="o">=</span><span class="n">batch_partition_spec</span><span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">calculate_loss</span><span class="p">(</span><span class="n">params</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">|</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">):</span>
+            <span class="p">(</span>
+                <span class="n">policy_chosen_log_probs</span><span class="p">,</span>
+                <span class="n">policy_rejected_log_probs</span><span class="p">,</span>
+                <span class="n">policy_chosen_logits</span><span class="p">,</span>
+                <span class="n">policy_rejected_logits</span><span class="p">,</span>
+                <span class="n">policy_nll_loss</span>
+            <span class="p">)</span> <span class="o">=</span> <span class="n">concatenated_forward</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">,</span>
+                <span class="n">params</span><span class="p">,</span>
+                <span class="n">batch</span>
+            <span class="p">)</span>
+
+            <span class="n">losses</span><span class="p">,</span> <span class="n">chosen_rewards</span><span class="p">,</span> <span class="n">rejected_rewards</span><span class="p">,</span> <span class="n">log_odds_ratio</span><span class="p">,</span> <span class="n">log_odds_chosen</span> <span class="o">=</span> <span class="n">odds_ratio_loss</span><span class="p">(</span>
+                <span class="n">beta</span><span class="p">,</span> <span class="n">policy_chosen_log_probs</span><span class="p">,</span> <span class="n">policy_rejected_log_probs</span>
+            <span class="p">)</span>
+
+            <span class="n">loss</span> <span class="o">=</span> <span class="n">policy_nll_loss</span> <span class="o">-</span> <span class="n">losses</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+
+            <span class="n">reward_accuracies</span> <span class="o">=</span> <span class="p">(</span><span class="n">chosen_rewards</span> <span class="o">&gt;</span> <span class="n">rejected_rewards</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="s2">&quot;float32&quot;</span><span class="p">)</span>
+            <span class="n">metrics</span> <span class="o">=</span> <span class="p">{}</span>
+            <span class="n">prefix</span> <span class="o">=</span> <span class="s2">&quot;eval_&quot;</span> <span class="k">if</span> <span class="n">mode</span> <span class="o">==</span> <span class="s2">&quot;eval&quot;</span> <span class="k">else</span> <span class="s2">&quot;&quot;</span>
+            <span class="n">metrics</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">rewards/chosen&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">chosen_rewards</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+            <span class="n">metrics</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">rewards/rejected&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">rejected_rewards</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+            <span class="n">metrics</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">rewards/accuracies&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">reward_accuracies</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+            <span class="n">metrics</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">rewards/margins&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="n">chosen_rewards</span> <span class="o">-</span> <span class="n">rejected_rewards</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+            <span class="n">metrics</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">logps/rejected&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">policy_rejected_log_probs</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+            <span class="n">metrics</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">logps/chosen&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">policy_chosen_log_probs</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+            <span class="n">metrics</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">logits/rejected&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">policy_rejected_logits</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+            <span class="n">metrics</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">logits/chosen&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">policy_chosen_logits</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+            <span class="n">metrics</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">nll_loss&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">policy_nll_loss</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+            <span class="n">metrics</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">log_odds_ratio&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">log_odds_ratio</span>
+            <span class="n">metrics</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">log_odds_chosen&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">log_odds_chosen</span>
+            <span class="k">return</span> <span class="n">loss</span><span class="p">,</span> <span class="n">metrics</span>
+
+        <span class="k">if</span> <span class="n">mode</span> <span class="o">==</span> <span class="s2">&quot;train&quot;</span><span class="p">:</span>
+            <span class="n">grad_fn</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">value_and_grad</span><span class="p">(</span><span class="n">calculate_loss</span><span class="p">,</span> <span class="n">has_aux</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="p">(</span><span class="n">__loss</span><span class="p">,</span> <span class="p">(</span><span class="n">__metrics</span><span class="p">)),</span> <span class="n">grads</span> <span class="o">=</span> <span class="n">grad_fn</span><span class="p">(</span><span class="n">state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+            <span class="n">new_state</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">apply_gradients</span><span class="p">(</span><span class="n">grads</span><span class="o">=</span><span class="n">grads</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">__loss</span><span class="p">,</span> <span class="n">__metrics</span> <span class="o">=</span> <span class="n">calculate_loss</span><span class="p">(</span><span class="n">state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+            <span class="n">new_state</span> <span class="o">=</span> <span class="n">state</span>
+        <span class="k">return</span> <span class="n">new_state</span><span class="p">,</span> <span class="n">ORPOStepOut</span><span class="p">(</span>
+            <span class="n">loss</span><span class="o">=</span><span class="n">__loss</span><span class="p">,</span>
+            <span class="n">metrics</span><span class="o">=</span><span class="n">__metrics</span>
+        <span class="p">)</span>
+
+    <span class="k">return</span> <span class="n">orpo_step</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.orpo.fwd_bwd_functions.get_batch_log_probs" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_batch_log_probs</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="n">labels</span><span class="p">,</span> <span class="n">average_log_prob</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">label_pad_token_id</span><span class="o">=-</span><span class="mi">100</span><span class="p">,</span> <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_batch_log_probs function computes the log probability of a batch of sequences.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>logits</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Compute the log_softmax of the input</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>labels</code></td>
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>chex.Array: Mask the logits</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>average_log_prob</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to average the log
+prob over the sequence length</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>label_pad_token_id</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Mask out the padding tokens in the
+labels</p>
+              </div>
+            </td>
+            <td>
+                  <code>-100</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>is_encoder_decoder</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Indicate whether the model is an
+encoder-decoder model</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Determine whether to average the log probability over all tokens or not</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="chex.Array">Array</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The log probability of the labels given the logits</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/orpo/fwd_bwd_functions.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_batch_log_probs</span><span class="p">(</span>
+        <span class="n">logits</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">labels</span><span class="p">:</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">average_log_prob</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">label_pad_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">100</span><span class="p">,</span>
+        <span class="n">is_encoder_decoder</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_batch_log_probs function computes the log probability of a batch of sequences.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        logits: chex.Array: Compute the log_softmax of the input</span>
+<span class="sd">        labels: chex.Array: Mask the logits</span>
+<span class="sd">        average_log_prob: bool: Determine whether to average the log</span>
+<span class="sd">            prob over the sequence length</span>
+<span class="sd">        label_pad_token_id: int: Mask out the padding tokens in the</span>
+<span class="sd">            labels</span>
+<span class="sd">        is_encoder_decoder: bool: Indicate whether the model is an</span>
+<span class="sd">            encoder-decoder model</span>
+<span class="sd">    :param : Determine whether to average the log probability over all tokens or not</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The log probability of the labels given the logits</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="c1"># sudo code</span>
+    <span class="c1"># (per_token_log_probs * loss_mask).sum(-1)</span>
+    <span class="c1"># or</span>
+    <span class="c1"># (per_token_log_probs * loss_mask).sum(-1) / loss_mask.sum(-1)</span>
+
+    <span class="k">if</span> <span class="n">logits</span><span class="o">.</span><span class="n">shape</span><span class="p">[:</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="n">labels</span><span class="o">.</span><span class="n">shape</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Logits (batch and sequence length dim) and labels must have the same shape.&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">is_encoder_decoder</span><span class="p">:</span>
+        <span class="n">labels</span> <span class="o">=</span> <span class="n">labels</span><span class="p">[:,</span> <span class="mi">1</span><span class="p">:]</span>
+        <span class="n">logits</span> <span class="o">=</span> <span class="n">logits</span><span class="p">[:,</span> <span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="p">:]</span>
+
+    <span class="n">batch</span><span class="p">,</span> <span class="n">seq_len</span><span class="p">,</span> <span class="n">dim</span> <span class="o">=</span> <span class="n">logits</span><span class="o">.</span><span class="n">shape</span>
+    <span class="n">loss_mask</span> <span class="o">=</span> <span class="n">labels</span> <span class="o">!=</span> <span class="n">label_pad_token_id</span>
+
+    <span class="n">labels</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">labels</span> <span class="o">==</span> <span class="n">label_pad_token_id</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">labels</span><span class="p">)</span>
+
+    <span class="n">per_token_logps</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">take_along_axis</span><span class="p">(</span>
+        <span class="n">jax</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">log_softmax</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">),</span> <span class="n">axis</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">indices</span><span class="o">=</span><span class="n">labels</span><span class="p">[:,</span> <span class="p">:,</span> <span class="kc">None</span><span class="p">]</span>
+    <span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">seq_len</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">average_log_prob</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">per_token_logps</span> <span class="o">*</span> <span class="n">loss_mask</span><span class="p">)</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span> <span class="o">/</span> <span class="n">loss_mask</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="k">return</span> <span class="p">(</span><span class="n">per_token_logps</span> <span class="o">*</span> <span class="n">loss_mask</span><span class="p">)</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-orpo-modelling_output/index.html b/generated-trainer-orpo-modelling_output/index.html
new file mode 100644
index 000000000..49ad2f508
--- /dev/null
+++ b/generated-trainer-orpo-modelling_output/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-orpo-fwd_bwd_functions/">
+      
+      
+        <link rel="next" href="../generated-trainer-orpo-orpo_trainer/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Output - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainerorpomodelling_output" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Output
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.modelling_output" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_output
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.modelling_output" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_output
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainerorpomodelling_output">trainer.orpo.modelling_output</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.orpo.modelling_output"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-orpo-orpo_trainer/index.html b/generated-trainer-orpo-orpo_trainer/index.html
new file mode 100644
index 000000000..29d7f56c7
--- /dev/null
+++ b/generated-trainer-orpo-orpo_trainer/index.html
@@ -0,0 +1,10305 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-orpo-modelling_output/">
+      
+      
+        <link rel="next" href="../generated-trainer-orpo-utils/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Orpo Trainer - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainerorpoorpo_trainer" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Orpo Trainer
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      orpo_trainer
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      ORPOTrainer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="ORPOTrainer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.build_tokenized_answer" class="md-nav__link">
+    <span class="md-ellipsis">
+      build_tokenized_answer
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.configure_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_functions
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.eval" class="md-nav__link">
+    <span class="md-ellipsis">
+      eval
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.get_eval_dataloader" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_eval_dataloader
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.get_train_dataloader" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_train_dataloader
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.initialize_trainer_utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      initialize_trainer_utils
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.tokenize_row" class="md-nav__link">
+    <span class="md-ellipsis">
+      tokenize_row
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      orpo_trainer
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      ORPOTrainer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="ORPOTrainer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.__repr__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __repr__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.__str__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __str__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.build_tokenized_answer" class="md-nav__link">
+    <span class="md-ellipsis">
+      build_tokenized_answer
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.configure_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_functions
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.eval" class="md-nav__link">
+    <span class="md-ellipsis">
+      eval
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.get_eval_dataloader" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_eval_dataloader
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.get_train_dataloader" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_train_dataloader
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.initialize_trainer_utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      initialize_trainer_utils
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.tokenize_row" class="md-nav__link">
+    <span class="md-ellipsis">
+      tokenize_row
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainerorpoorpo_trainer">trainer.orpo.orpo_trainer</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.orpo.orpo_trainer"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer" class="doc doc-heading">
+            <code>ORPOTrainer</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.trainer.base_trainer.BaseTrainer" href="../generated-trainer-base_trainer/#src.python.easydel.trainer.base_trainer.BaseTrainer">BaseTrainer</a></code>, <code><span title="abc.ABC">ABC</span></code></p>
+
+
+      <p>easydel ORPO Trainer Class</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">  63</span>
+<span class="normal">  64</span>
+<span class="normal">  65</span>
+<span class="normal">  66</span>
+<span class="normal">  67</span>
+<span class="normal">  68</span>
+<span class="normal">  69</span>
+<span class="normal">  70</span>
+<span class="normal">  71</span>
+<span class="normal">  72</span>
+<span class="normal">  73</span>
+<span class="normal">  74</span>
+<span class="normal">  75</span>
+<span class="normal">  76</span>
+<span class="normal">  77</span>
+<span class="normal">  78</span>
+<span class="normal">  79</span>
+<span class="normal">  80</span>
+<span class="normal">  81</span>
+<span class="normal">  82</span>
+<span class="normal">  83</span>
+<span class="normal">  84</span>
+<span class="normal">  85</span>
+<span class="normal">  86</span>
+<span class="normal">  87</span>
+<span class="normal">  88</span>
+<span class="normal">  89</span>
+<span class="normal">  90</span>
+<span class="normal">  91</span>
+<span class="normal">  92</span>
+<span class="normal">  93</span>
+<span class="normal">  94</span>
+<span class="normal">  95</span>
+<span class="normal">  96</span>
+<span class="normal">  97</span>
+<span class="normal">  98</span>
+<span class="normal">  99</span>
+<span class="normal"> 100</span>
+<span class="normal"> 101</span>
+<span class="normal"> 102</span>
+<span class="normal"> 103</span>
+<span class="normal"> 104</span>
+<span class="normal"> 105</span>
+<span class="normal"> 106</span>
+<span class="normal"> 107</span>
+<span class="normal"> 108</span>
+<span class="normal"> 109</span>
+<span class="normal"> 110</span>
+<span class="normal"> 111</span>
+<span class="normal"> 112</span>
+<span class="normal"> 113</span>
+<span class="normal"> 114</span>
+<span class="normal"> 115</span>
+<span class="normal"> 116</span>
+<span class="normal"> 117</span>
+<span class="normal"> 118</span>
+<span class="normal"> 119</span>
+<span class="normal"> 120</span>
+<span class="normal"> 121</span>
+<span class="normal"> 122</span>
+<span class="normal"> 123</span>
+<span class="normal"> 124</span>
+<span class="normal"> 125</span>
+<span class="normal"> 126</span>
+<span class="normal"> 127</span>
+<span class="normal"> 128</span>
+<span class="normal"> 129</span>
+<span class="normal"> 130</span>
+<span class="normal"> 131</span>
+<span class="normal"> 132</span>
+<span class="normal"> 133</span>
+<span class="normal"> 134</span>
+<span class="normal"> 135</span>
+<span class="normal"> 136</span>
+<span class="normal"> 137</span>
+<span class="normal"> 138</span>
+<span class="normal"> 139</span>
+<span class="normal"> 140</span>
+<span class="normal"> 141</span>
+<span class="normal"> 142</span>
+<span class="normal"> 143</span>
+<span class="normal"> 144</span>
+<span class="normal"> 145</span>
+<span class="normal"> 146</span>
+<span class="normal"> 147</span>
+<span class="normal"> 148</span>
+<span class="normal"> 149</span>
+<span class="normal"> 150</span>
+<span class="normal"> 151</span>
+<span class="normal"> 152</span>
+<span class="normal"> 153</span>
+<span class="normal"> 154</span>
+<span class="normal"> 155</span>
+<span class="normal"> 156</span>
+<span class="normal"> 157</span>
+<span class="normal"> 158</span>
+<span class="normal"> 159</span>
+<span class="normal"> 160</span>
+<span class="normal"> 161</span>
+<span class="normal"> 162</span>
+<span class="normal"> 163</span>
+<span class="normal"> 164</span>
+<span class="normal"> 165</span>
+<span class="normal"> 166</span>
+<span class="normal"> 167</span>
+<span class="normal"> 168</span>
+<span class="normal"> 169</span>
+<span class="normal"> 170</span>
+<span class="normal"> 171</span>
+<span class="normal"> 172</span>
+<span class="normal"> 173</span>
+<span class="normal"> 174</span>
+<span class="normal"> 175</span>
+<span class="normal"> 176</span>
+<span class="normal"> 177</span>
+<span class="normal"> 178</span>
+<span class="normal"> 179</span>
+<span class="normal"> 180</span>
+<span class="normal"> 181</span>
+<span class="normal"> 182</span>
+<span class="normal"> 183</span>
+<span class="normal"> 184</span>
+<span class="normal"> 185</span>
+<span class="normal"> 186</span>
+<span class="normal"> 187</span>
+<span class="normal"> 188</span>
+<span class="normal"> 189</span>
+<span class="normal"> 190</span>
+<span class="normal"> 191</span>
+<span class="normal"> 192</span>
+<span class="normal"> 193</span>
+<span class="normal"> 194</span>
+<span class="normal"> 195</span>
+<span class="normal"> 196</span>
+<span class="normal"> 197</span>
+<span class="normal"> 198</span>
+<span class="normal"> 199</span>
+<span class="normal"> 200</span>
+<span class="normal"> 201</span>
+<span class="normal"> 202</span>
+<span class="normal"> 203</span>
+<span class="normal"> 204</span>
+<span class="normal"> 205</span>
+<span class="normal"> 206</span>
+<span class="normal"> 207</span>
+<span class="normal"> 208</span>
+<span class="normal"> 209</span>
+<span class="normal"> 210</span>
+<span class="normal"> 211</span>
+<span class="normal"> 212</span>
+<span class="normal"> 213</span>
+<span class="normal"> 214</span>
+<span class="normal"> 215</span>
+<span class="normal"> 216</span>
+<span class="normal"> 217</span>
+<span class="normal"> 218</span>
+<span class="normal"> 219</span>
+<span class="normal"> 220</span>
+<span class="normal"> 221</span>
+<span class="normal"> 222</span>
+<span class="normal"> 223</span>
+<span class="normal"> 224</span>
+<span class="normal"> 225</span>
+<span class="normal"> 226</span>
+<span class="normal"> 227</span>
+<span class="normal"> 228</span>
+<span class="normal"> 229</span>
+<span class="normal"> 230</span>
+<span class="normal"> 231</span>
+<span class="normal"> 232</span>
+<span class="normal"> 233</span>
+<span class="normal"> 234</span>
+<span class="normal"> 235</span>
+<span class="normal"> 236</span>
+<span class="normal"> 237</span>
+<span class="normal"> 238</span>
+<span class="normal"> 239</span>
+<span class="normal"> 240</span>
+<span class="normal"> 241</span>
+<span class="normal"> 242</span>
+<span class="normal"> 243</span>
+<span class="normal"> 244</span>
+<span class="normal"> 245</span>
+<span class="normal"> 246</span>
+<span class="normal"> 247</span>
+<span class="normal"> 248</span>
+<span class="normal"> 249</span>
+<span class="normal"> 250</span>
+<span class="normal"> 251</span>
+<span class="normal"> 252</span>
+<span class="normal"> 253</span>
+<span class="normal"> 254</span>
+<span class="normal"> 255</span>
+<span class="normal"> 256</span>
+<span class="normal"> 257</span>
+<span class="normal"> 258</span>
+<span class="normal"> 259</span>
+<span class="normal"> 260</span>
+<span class="normal"> 261</span>
+<span class="normal"> 262</span>
+<span class="normal"> 263</span>
+<span class="normal"> 264</span>
+<span class="normal"> 265</span>
+<span class="normal"> 266</span>
+<span class="normal"> 267</span>
+<span class="normal"> 268</span>
+<span class="normal"> 269</span>
+<span class="normal"> 270</span>
+<span class="normal"> 271</span>
+<span class="normal"> 272</span>
+<span class="normal"> 273</span>
+<span class="normal"> 274</span>
+<span class="normal"> 275</span>
+<span class="normal"> 276</span>
+<span class="normal"> 277</span>
+<span class="normal"> 278</span>
+<span class="normal"> 279</span>
+<span class="normal"> 280</span>
+<span class="normal"> 281</span>
+<span class="normal"> 282</span>
+<span class="normal"> 283</span>
+<span class="normal"> 284</span>
+<span class="normal"> 285</span>
+<span class="normal"> 286</span>
+<span class="normal"> 287</span>
+<span class="normal"> 288</span>
+<span class="normal"> 289</span>
+<span class="normal"> 290</span>
+<span class="normal"> 291</span>
+<span class="normal"> 292</span>
+<span class="normal"> 293</span>
+<span class="normal"> 294</span>
+<span class="normal"> 295</span>
+<span class="normal"> 296</span>
+<span class="normal"> 297</span>
+<span class="normal"> 298</span>
+<span class="normal"> 299</span>
+<span class="normal"> 300</span>
+<span class="normal"> 301</span>
+<span class="normal"> 302</span>
+<span class="normal"> 303</span>
+<span class="normal"> 304</span>
+<span class="normal"> 305</span>
+<span class="normal"> 306</span>
+<span class="normal"> 307</span>
+<span class="normal"> 308</span>
+<span class="normal"> 309</span>
+<span class="normal"> 310</span>
+<span class="normal"> 311</span>
+<span class="normal"> 312</span>
+<span class="normal"> 313</span>
+<span class="normal"> 314</span>
+<span class="normal"> 315</span>
+<span class="normal"> 316</span>
+<span class="normal"> 317</span>
+<span class="normal"> 318</span>
+<span class="normal"> 319</span>
+<span class="normal"> 320</span>
+<span class="normal"> 321</span>
+<span class="normal"> 322</span>
+<span class="normal"> 323</span>
+<span class="normal"> 324</span>
+<span class="normal"> 325</span>
+<span class="normal"> 326</span>
+<span class="normal"> 327</span>
+<span class="normal"> 328</span>
+<span class="normal"> 329</span>
+<span class="normal"> 330</span>
+<span class="normal"> 331</span>
+<span class="normal"> 332</span>
+<span class="normal"> 333</span>
+<span class="normal"> 334</span>
+<span class="normal"> 335</span>
+<span class="normal"> 336</span>
+<span class="normal"> 337</span>
+<span class="normal"> 338</span>
+<span class="normal"> 339</span>
+<span class="normal"> 340</span>
+<span class="normal"> 341</span>
+<span class="normal"> 342</span>
+<span class="normal"> 343</span>
+<span class="normal"> 344</span>
+<span class="normal"> 345</span>
+<span class="normal"> 346</span>
+<span class="normal"> 347</span>
+<span class="normal"> 348</span>
+<span class="normal"> 349</span>
+<span class="normal"> 350</span>
+<span class="normal"> 351</span>
+<span class="normal"> 352</span>
+<span class="normal"> 353</span>
+<span class="normal"> 354</span>
+<span class="normal"> 355</span>
+<span class="normal"> 356</span>
+<span class="normal"> 357</span>
+<span class="normal"> 358</span>
+<span class="normal"> 359</span>
+<span class="normal"> 360</span>
+<span class="normal"> 361</span>
+<span class="normal"> 362</span>
+<span class="normal"> 363</span>
+<span class="normal"> 364</span>
+<span class="normal"> 365</span>
+<span class="normal"> 366</span>
+<span class="normal"> 367</span>
+<span class="normal"> 368</span>
+<span class="normal"> 369</span>
+<span class="normal"> 370</span>
+<span class="normal"> 371</span>
+<span class="normal"> 372</span>
+<span class="normal"> 373</span>
+<span class="normal"> 374</span>
+<span class="normal"> 375</span>
+<span class="normal"> 376</span>
+<span class="normal"> 377</span>
+<span class="normal"> 378</span>
+<span class="normal"> 379</span>
+<span class="normal"> 380</span>
+<span class="normal"> 381</span>
+<span class="normal"> 382</span>
+<span class="normal"> 383</span>
+<span class="normal"> 384</span>
+<span class="normal"> 385</span>
+<span class="normal"> 386</span>
+<span class="normal"> 387</span>
+<span class="normal"> 388</span>
+<span class="normal"> 389</span>
+<span class="normal"> 390</span>
+<span class="normal"> 391</span>
+<span class="normal"> 392</span>
+<span class="normal"> 393</span>
+<span class="normal"> 394</span>
+<span class="normal"> 395</span>
+<span class="normal"> 396</span>
+<span class="normal"> 397</span>
+<span class="normal"> 398</span>
+<span class="normal"> 399</span>
+<span class="normal"> 400</span>
+<span class="normal"> 401</span>
+<span class="normal"> 402</span>
+<span class="normal"> 403</span>
+<span class="normal"> 404</span>
+<span class="normal"> 405</span>
+<span class="normal"> 406</span>
+<span class="normal"> 407</span>
+<span class="normal"> 408</span>
+<span class="normal"> 409</span>
+<span class="normal"> 410</span>
+<span class="normal"> 411</span>
+<span class="normal"> 412</span>
+<span class="normal"> 413</span>
+<span class="normal"> 414</span>
+<span class="normal"> 415</span>
+<span class="normal"> 416</span>
+<span class="normal"> 417</span>
+<span class="normal"> 418</span>
+<span class="normal"> 419</span>
+<span class="normal"> 420</span>
+<span class="normal"> 421</span>
+<span class="normal"> 422</span>
+<span class="normal"> 423</span>
+<span class="normal"> 424</span>
+<span class="normal"> 425</span>
+<span class="normal"> 426</span>
+<span class="normal"> 427</span>
+<span class="normal"> 428</span>
+<span class="normal"> 429</span>
+<span class="normal"> 430</span>
+<span class="normal"> 431</span>
+<span class="normal"> 432</span>
+<span class="normal"> 433</span>
+<span class="normal"> 434</span>
+<span class="normal"> 435</span>
+<span class="normal"> 436</span>
+<span class="normal"> 437</span>
+<span class="normal"> 438</span>
+<span class="normal"> 439</span>
+<span class="normal"> 440</span>
+<span class="normal"> 441</span>
+<span class="normal"> 442</span>
+<span class="normal"> 443</span>
+<span class="normal"> 444</span>
+<span class="normal"> 445</span>
+<span class="normal"> 446</span>
+<span class="normal"> 447</span>
+<span class="normal"> 448</span>
+<span class="normal"> 449</span>
+<span class="normal"> 450</span>
+<span class="normal"> 451</span>
+<span class="normal"> 452</span>
+<span class="normal"> 453</span>
+<span class="normal"> 454</span>
+<span class="normal"> 455</span>
+<span class="normal"> 456</span>
+<span class="normal"> 457</span>
+<span class="normal"> 458</span>
+<span class="normal"> 459</span>
+<span class="normal"> 460</span>
+<span class="normal"> 461</span>
+<span class="normal"> 462</span>
+<span class="normal"> 463</span>
+<span class="normal"> 464</span>
+<span class="normal"> 465</span>
+<span class="normal"> 466</span>
+<span class="normal"> 467</span>
+<span class="normal"> 468</span>
+<span class="normal"> 469</span>
+<span class="normal"> 470</span>
+<span class="normal"> 471</span>
+<span class="normal"> 472</span>
+<span class="normal"> 473</span>
+<span class="normal"> 474</span>
+<span class="normal"> 475</span>
+<span class="normal"> 476</span>
+<span class="normal"> 477</span>
+<span class="normal"> 478</span>
+<span class="normal"> 479</span>
+<span class="normal"> 480</span>
+<span class="normal"> 481</span>
+<span class="normal"> 482</span>
+<span class="normal"> 483</span>
+<span class="normal"> 484</span>
+<span class="normal"> 485</span>
+<span class="normal"> 486</span>
+<span class="normal"> 487</span>
+<span class="normal"> 488</span>
+<span class="normal"> 489</span>
+<span class="normal"> 490</span>
+<span class="normal"> 491</span>
+<span class="normal"> 492</span>
+<span class="normal"> 493</span>
+<span class="normal"> 494</span>
+<span class="normal"> 495</span>
+<span class="normal"> 496</span>
+<span class="normal"> 497</span>
+<span class="normal"> 498</span>
+<span class="normal"> 499</span>
+<span class="normal"> 500</span>
+<span class="normal"> 501</span>
+<span class="normal"> 502</span>
+<span class="normal"> 503</span>
+<span class="normal"> 504</span>
+<span class="normal"> 505</span>
+<span class="normal"> 506</span>
+<span class="normal"> 507</span>
+<span class="normal"> 508</span>
+<span class="normal"> 509</span>
+<span class="normal"> 510</span>
+<span class="normal"> 511</span>
+<span class="normal"> 512</span>
+<span class="normal"> 513</span>
+<span class="normal"> 514</span>
+<span class="normal"> 515</span>
+<span class="normal"> 516</span>
+<span class="normal"> 517</span>
+<span class="normal"> 518</span>
+<span class="normal"> 519</span>
+<span class="normal"> 520</span>
+<span class="normal"> 521</span>
+<span class="normal"> 522</span>
+<span class="normal"> 523</span>
+<span class="normal"> 524</span>
+<span class="normal"> 525</span>
+<span class="normal"> 526</span>
+<span class="normal"> 527</span>
+<span class="normal"> 528</span>
+<span class="normal"> 529</span>
+<span class="normal"> 530</span>
+<span class="normal"> 531</span>
+<span class="normal"> 532</span>
+<span class="normal"> 533</span>
+<span class="normal"> 534</span>
+<span class="normal"> 535</span>
+<span class="normal"> 536</span>
+<span class="normal"> 537</span>
+<span class="normal"> 538</span>
+<span class="normal"> 539</span>
+<span class="normal"> 540</span>
+<span class="normal"> 541</span>
+<span class="normal"> 542</span>
+<span class="normal"> 543</span>
+<span class="normal"> 544</span>
+<span class="normal"> 545</span>
+<span class="normal"> 546</span>
+<span class="normal"> 547</span>
+<span class="normal"> 548</span>
+<span class="normal"> 549</span>
+<span class="normal"> 550</span>
+<span class="normal"> 551</span>
+<span class="normal"> 552</span>
+<span class="normal"> 553</span>
+<span class="normal"> 554</span>
+<span class="normal"> 555</span>
+<span class="normal"> 556</span>
+<span class="normal"> 557</span>
+<span class="normal"> 558</span>
+<span class="normal"> 559</span>
+<span class="normal"> 560</span>
+<span class="normal"> 561</span>
+<span class="normal"> 562</span>
+<span class="normal"> 563</span>
+<span class="normal"> 564</span>
+<span class="normal"> 565</span>
+<span class="normal"> 566</span>
+<span class="normal"> 567</span>
+<span class="normal"> 568</span>
+<span class="normal"> 569</span>
+<span class="normal"> 570</span>
+<span class="normal"> 571</span>
+<span class="normal"> 572</span>
+<span class="normal"> 573</span>
+<span class="normal"> 574</span>
+<span class="normal"> 575</span>
+<span class="normal"> 576</span>
+<span class="normal"> 577</span>
+<span class="normal"> 578</span>
+<span class="normal"> 579</span>
+<span class="normal"> 580</span>
+<span class="normal"> 581</span>
+<span class="normal"> 582</span>
+<span class="normal"> 583</span>
+<span class="normal"> 584</span>
+<span class="normal"> 585</span>
+<span class="normal"> 586</span>
+<span class="normal"> 587</span>
+<span class="normal"> 588</span>
+<span class="normal"> 589</span>
+<span class="normal"> 590</span>
+<span class="normal"> 591</span>
+<span class="normal"> 592</span>
+<span class="normal"> 593</span>
+<span class="normal"> 594</span>
+<span class="normal"> 595</span>
+<span class="normal"> 596</span>
+<span class="normal"> 597</span>
+<span class="normal"> 598</span>
+<span class="normal"> 599</span>
+<span class="normal"> 600</span>
+<span class="normal"> 601</span>
+<span class="normal"> 602</span>
+<span class="normal"> 603</span>
+<span class="normal"> 604</span>
+<span class="normal"> 605</span>
+<span class="normal"> 606</span>
+<span class="normal"> 607</span>
+<span class="normal"> 608</span>
+<span class="normal"> 609</span>
+<span class="normal"> 610</span>
+<span class="normal"> 611</span>
+<span class="normal"> 612</span>
+<span class="normal"> 613</span>
+<span class="normal"> 614</span>
+<span class="normal"> 615</span>
+<span class="normal"> 616</span>
+<span class="normal"> 617</span>
+<span class="normal"> 618</span>
+<span class="normal"> 619</span>
+<span class="normal"> 620</span>
+<span class="normal"> 621</span>
+<span class="normal"> 622</span>
+<span class="normal"> 623</span>
+<span class="normal"> 624</span>
+<span class="normal"> 625</span>
+<span class="normal"> 626</span>
+<span class="normal"> 627</span>
+<span class="normal"> 628</span>
+<span class="normal"> 629</span>
+<span class="normal"> 630</span>
+<span class="normal"> 631</span>
+<span class="normal"> 632</span>
+<span class="normal"> 633</span>
+<span class="normal"> 634</span>
+<span class="normal"> 635</span>
+<span class="normal"> 636</span>
+<span class="normal"> 637</span>
+<span class="normal"> 638</span>
+<span class="normal"> 639</span>
+<span class="normal"> 640</span>
+<span class="normal"> 641</span>
+<span class="normal"> 642</span>
+<span class="normal"> 643</span>
+<span class="normal"> 644</span>
+<span class="normal"> 645</span>
+<span class="normal"> 646</span>
+<span class="normal"> 647</span>
+<span class="normal"> 648</span>
+<span class="normal"> 649</span>
+<span class="normal"> 650</span>
+<span class="normal"> 651</span>
+<span class="normal"> 652</span>
+<span class="normal"> 653</span>
+<span class="normal"> 654</span>
+<span class="normal"> 655</span>
+<span class="normal"> 656</span>
+<span class="normal"> 657</span>
+<span class="normal"> 658</span>
+<span class="normal"> 659</span>
+<span class="normal"> 660</span>
+<span class="normal"> 661</span>
+<span class="normal"> 662</span>
+<span class="normal"> 663</span>
+<span class="normal"> 664</span>
+<span class="normal"> 665</span>
+<span class="normal"> 666</span>
+<span class="normal"> 667</span>
+<span class="normal"> 668</span>
+<span class="normal"> 669</span>
+<span class="normal"> 670</span>
+<span class="normal"> 671</span>
+<span class="normal"> 672</span>
+<span class="normal"> 673</span>
+<span class="normal"> 674</span>
+<span class="normal"> 675</span>
+<span class="normal"> 676</span>
+<span class="normal"> 677</span>
+<span class="normal"> 678</span>
+<span class="normal"> 679</span>
+<span class="normal"> 680</span>
+<span class="normal"> 681</span>
+<span class="normal"> 682</span>
+<span class="normal"> 683</span>
+<span class="normal"> 684</span>
+<span class="normal"> 685</span>
+<span class="normal"> 686</span>
+<span class="normal"> 687</span>
+<span class="normal"> 688</span>
+<span class="normal"> 689</span>
+<span class="normal"> 690</span>
+<span class="normal"> 691</span>
+<span class="normal"> 692</span>
+<span class="normal"> 693</span>
+<span class="normal"> 694</span>
+<span class="normal"> 695</span>
+<span class="normal"> 696</span>
+<span class="normal"> 697</span>
+<span class="normal"> 698</span>
+<span class="normal"> 699</span>
+<span class="normal"> 700</span>
+<span class="normal"> 701</span>
+<span class="normal"> 702</span>
+<span class="normal"> 703</span>
+<span class="normal"> 704</span>
+<span class="normal"> 705</span>
+<span class="normal"> 706</span>
+<span class="normal"> 707</span>
+<span class="normal"> 708</span>
+<span class="normal"> 709</span>
+<span class="normal"> 710</span>
+<span class="normal"> 711</span>
+<span class="normal"> 712</span>
+<span class="normal"> 713</span>
+<span class="normal"> 714</span>
+<span class="normal"> 715</span>
+<span class="normal"> 716</span>
+<span class="normal"> 717</span>
+<span class="normal"> 718</span>
+<span class="normal"> 719</span>
+<span class="normal"> 720</span>
+<span class="normal"> 721</span>
+<span class="normal"> 722</span>
+<span class="normal"> 723</span>
+<span class="normal"> 724</span>
+<span class="normal"> 725</span>
+<span class="normal"> 726</span>
+<span class="normal"> 727</span>
+<span class="normal"> 728</span>
+<span class="normal"> 729</span>
+<span class="normal"> 730</span>
+<span class="normal"> 731</span>
+<span class="normal"> 732</span>
+<span class="normal"> 733</span>
+<span class="normal"> 734</span>
+<span class="normal"> 735</span>
+<span class="normal"> 736</span>
+<span class="normal"> 737</span>
+<span class="normal"> 738</span>
+<span class="normal"> 739</span>
+<span class="normal"> 740</span>
+<span class="normal"> 741</span>
+<span class="normal"> 742</span>
+<span class="normal"> 743</span>
+<span class="normal"> 744</span>
+<span class="normal"> 745</span>
+<span class="normal"> 746</span>
+<span class="normal"> 747</span>
+<span class="normal"> 748</span>
+<span class="normal"> 749</span>
+<span class="normal"> 750</span>
+<span class="normal"> 751</span>
+<span class="normal"> 752</span>
+<span class="normal"> 753</span>
+<span class="normal"> 754</span>
+<span class="normal"> 755</span>
+<span class="normal"> 756</span>
+<span class="normal"> 757</span>
+<span class="normal"> 758</span>
+<span class="normal"> 759</span>
+<span class="normal"> 760</span>
+<span class="normal"> 761</span>
+<span class="normal"> 762</span>
+<span class="normal"> 763</span>
+<span class="normal"> 764</span>
+<span class="normal"> 765</span>
+<span class="normal"> 766</span>
+<span class="normal"> 767</span>
+<span class="normal"> 768</span>
+<span class="normal"> 769</span>
+<span class="normal"> 770</span>
+<span class="normal"> 771</span>
+<span class="normal"> 772</span>
+<span class="normal"> 773</span>
+<span class="normal"> 774</span>
+<span class="normal"> 775</span>
+<span class="normal"> 776</span>
+<span class="normal"> 777</span>
+<span class="normal"> 778</span>
+<span class="normal"> 779</span>
+<span class="normal"> 780</span>
+<span class="normal"> 781</span>
+<span class="normal"> 782</span>
+<span class="normal"> 783</span>
+<span class="normal"> 784</span>
+<span class="normal"> 785</span>
+<span class="normal"> 786</span>
+<span class="normal"> 787</span>
+<span class="normal"> 788</span>
+<span class="normal"> 789</span>
+<span class="normal"> 790</span>
+<span class="normal"> 791</span>
+<span class="normal"> 792</span>
+<span class="normal"> 793</span>
+<span class="normal"> 794</span>
+<span class="normal"> 795</span>
+<span class="normal"> 796</span>
+<span class="normal"> 797</span>
+<span class="normal"> 798</span>
+<span class="normal"> 799</span>
+<span class="normal"> 800</span>
+<span class="normal"> 801</span>
+<span class="normal"> 802</span>
+<span class="normal"> 803</span>
+<span class="normal"> 804</span>
+<span class="normal"> 805</span>
+<span class="normal"> 806</span>
+<span class="normal"> 807</span>
+<span class="normal"> 808</span>
+<span class="normal"> 809</span>
+<span class="normal"> 810</span>
+<span class="normal"> 811</span>
+<span class="normal"> 812</span>
+<span class="normal"> 813</span>
+<span class="normal"> 814</span>
+<span class="normal"> 815</span>
+<span class="normal"> 816</span>
+<span class="normal"> 817</span>
+<span class="normal"> 818</span>
+<span class="normal"> 819</span>
+<span class="normal"> 820</span>
+<span class="normal"> 821</span>
+<span class="normal"> 822</span>
+<span class="normal"> 823</span>
+<span class="normal"> 824</span>
+<span class="normal"> 825</span>
+<span class="normal"> 826</span>
+<span class="normal"> 827</span>
+<span class="normal"> 828</span>
+<span class="normal"> 829</span>
+<span class="normal"> 830</span>
+<span class="normal"> 831</span>
+<span class="normal"> 832</span>
+<span class="normal"> 833</span>
+<span class="normal"> 834</span>
+<span class="normal"> 835</span>
+<span class="normal"> 836</span>
+<span class="normal"> 837</span>
+<span class="normal"> 838</span>
+<span class="normal"> 839</span>
+<span class="normal"> 840</span>
+<span class="normal"> 841</span>
+<span class="normal"> 842</span>
+<span class="normal"> 843</span>
+<span class="normal"> 844</span>
+<span class="normal"> 845</span>
+<span class="normal"> 846</span>
+<span class="normal"> 847</span>
+<span class="normal"> 848</span>
+<span class="normal"> 849</span>
+<span class="normal"> 850</span>
+<span class="normal"> 851</span>
+<span class="normal"> 852</span>
+<span class="normal"> 853</span>
+<span class="normal"> 854</span>
+<span class="normal"> 855</span>
+<span class="normal"> 856</span>
+<span class="normal"> 857</span>
+<span class="normal"> 858</span>
+<span class="normal"> 859</span>
+<span class="normal"> 860</span>
+<span class="normal"> 861</span>
+<span class="normal"> 862</span>
+<span class="normal"> 863</span>
+<span class="normal"> 864</span>
+<span class="normal"> 865</span>
+<span class="normal"> 866</span>
+<span class="normal"> 867</span>
+<span class="normal"> 868</span>
+<span class="normal"> 869</span>
+<span class="normal"> 870</span>
+<span class="normal"> 871</span>
+<span class="normal"> 872</span>
+<span class="normal"> 873</span>
+<span class="normal"> 874</span>
+<span class="normal"> 875</span>
+<span class="normal"> 876</span>
+<span class="normal"> 877</span>
+<span class="normal"> 878</span>
+<span class="normal"> 879</span>
+<span class="normal"> 880</span>
+<span class="normal"> 881</span>
+<span class="normal"> 882</span>
+<span class="normal"> 883</span>
+<span class="normal"> 884</span>
+<span class="normal"> 885</span>
+<span class="normal"> 886</span>
+<span class="normal"> 887</span>
+<span class="normal"> 888</span>
+<span class="normal"> 889</span>
+<span class="normal"> 890</span>
+<span class="normal"> 891</span>
+<span class="normal"> 892</span>
+<span class="normal"> 893</span>
+<span class="normal"> 894</span>
+<span class="normal"> 895</span>
+<span class="normal"> 896</span>
+<span class="normal"> 897</span>
+<span class="normal"> 898</span>
+<span class="normal"> 899</span>
+<span class="normal"> 900</span>
+<span class="normal"> 901</span>
+<span class="normal"> 902</span>
+<span class="normal"> 903</span>
+<span class="normal"> 904</span>
+<span class="normal"> 905</span>
+<span class="normal"> 906</span>
+<span class="normal"> 907</span>
+<span class="normal"> 908</span>
+<span class="normal"> 909</span>
+<span class="normal"> 910</span>
+<span class="normal"> 911</span>
+<span class="normal"> 912</span>
+<span class="normal"> 913</span>
+<span class="normal"> 914</span>
+<span class="normal"> 915</span>
+<span class="normal"> 916</span>
+<span class="normal"> 917</span>
+<span class="normal"> 918</span>
+<span class="normal"> 919</span>
+<span class="normal"> 920</span>
+<span class="normal"> 921</span>
+<span class="normal"> 922</span>
+<span class="normal"> 923</span>
+<span class="normal"> 924</span>
+<span class="normal"> 925</span>
+<span class="normal"> 926</span>
+<span class="normal"> 927</span>
+<span class="normal"> 928</span>
+<span class="normal"> 929</span>
+<span class="normal"> 930</span>
+<span class="normal"> 931</span>
+<span class="normal"> 932</span>
+<span class="normal"> 933</span>
+<span class="normal"> 934</span>
+<span class="normal"> 935</span>
+<span class="normal"> 936</span>
+<span class="normal"> 937</span>
+<span class="normal"> 938</span>
+<span class="normal"> 939</span>
+<span class="normal"> 940</span>
+<span class="normal"> 941</span>
+<span class="normal"> 942</span>
+<span class="normal"> 943</span>
+<span class="normal"> 944</span>
+<span class="normal"> 945</span>
+<span class="normal"> 946</span>
+<span class="normal"> 947</span>
+<span class="normal"> 948</span>
+<span class="normal"> 949</span>
+<span class="normal"> 950</span>
+<span class="normal"> 951</span>
+<span class="normal"> 952</span>
+<span class="normal"> 953</span>
+<span class="normal"> 954</span>
+<span class="normal"> 955</span>
+<span class="normal"> 956</span>
+<span class="normal"> 957</span>
+<span class="normal"> 958</span>
+<span class="normal"> 959</span>
+<span class="normal"> 960</span>
+<span class="normal"> 961</span>
+<span class="normal"> 962</span>
+<span class="normal"> 963</span>
+<span class="normal"> 964</span>
+<span class="normal"> 965</span>
+<span class="normal"> 966</span>
+<span class="normal"> 967</span>
+<span class="normal"> 968</span>
+<span class="normal"> 969</span>
+<span class="normal"> 970</span>
+<span class="normal"> 971</span>
+<span class="normal"> 972</span>
+<span class="normal"> 973</span>
+<span class="normal"> 974</span>
+<span class="normal"> 975</span>
+<span class="normal"> 976</span>
+<span class="normal"> 977</span>
+<span class="normal"> 978</span>
+<span class="normal"> 979</span>
+<span class="normal"> 980</span>
+<span class="normal"> 981</span>
+<span class="normal"> 982</span>
+<span class="normal"> 983</span>
+<span class="normal"> 984</span>
+<span class="normal"> 985</span>
+<span class="normal"> 986</span>
+<span class="normal"> 987</span>
+<span class="normal"> 988</span>
+<span class="normal"> 989</span>
+<span class="normal"> 990</span>
+<span class="normal"> 991</span>
+<span class="normal"> 992</span>
+<span class="normal"> 993</span>
+<span class="normal"> 994</span>
+<span class="normal"> 995</span>
+<span class="normal"> 996</span>
+<span class="normal"> 997</span>
+<span class="normal"> 998</span>
+<span class="normal"> 999</span>
+<span class="normal">1000</span>
+<span class="normal">1001</span>
+<span class="normal">1002</span>
+<span class="normal">1003</span>
+<span class="normal">1004</span>
+<span class="normal">1005</span>
+<span class="normal">1006</span>
+<span class="normal">1007</span>
+<span class="normal">1008</span>
+<span class="normal">1009</span>
+<span class="normal">1010</span>
+<span class="normal">1011</span>
+<span class="normal">1012</span>
+<span class="normal">1013</span>
+<span class="normal">1014</span>
+<span class="normal">1015</span>
+<span class="normal">1016</span>
+<span class="normal">1017</span>
+<span class="normal">1018</span>
+<span class="normal">1019</span>
+<span class="normal">1020</span>
+<span class="normal">1021</span>
+<span class="normal">1022</span>
+<span class="normal">1023</span>
+<span class="normal">1024</span>
+<span class="normal">1025</span>
+<span class="normal">1026</span>
+<span class="normal">1027</span>
+<span class="normal">1028</span>
+<span class="normal">1029</span>
+<span class="normal">1030</span>
+<span class="normal">1031</span>
+<span class="normal">1032</span>
+<span class="normal">1033</span>
+<span class="normal">1034</span>
+<span class="normal">1035</span>
+<span class="normal">1036</span>
+<span class="normal">1037</span>
+<span class="normal">1038</span>
+<span class="normal">1039</span>
+<span class="normal">1040</span>
+<span class="normal">1041</span>
+<span class="normal">1042</span>
+<span class="normal">1043</span>
+<span class="normal">1044</span>
+<span class="normal">1045</span>
+<span class="normal">1046</span>
+<span class="normal">1047</span>
+<span class="normal">1048</span>
+<span class="normal">1049</span>
+<span class="normal">1050</span>
+<span class="normal">1051</span>
+<span class="normal">1052</span>
+<span class="normal">1053</span>
+<span class="normal">1054</span>
+<span class="normal">1055</span>
+<span class="normal">1056</span>
+<span class="normal">1057</span>
+<span class="normal">1058</span>
+<span class="normal">1059</span>
+<span class="normal">1060</span>
+<span class="normal">1061</span>
+<span class="normal">1062</span>
+<span class="normal">1063</span>
+<span class="normal">1064</span>
+<span class="normal">1065</span>
+<span class="normal">1066</span>
+<span class="normal">1067</span>
+<span class="normal">1068</span>
+<span class="normal">1069</span>
+<span class="normal">1070</span>
+<span class="normal">1071</span>
+<span class="normal">1072</span>
+<span class="normal">1073</span>
+<span class="normal">1074</span>
+<span class="normal">1075</span>
+<span class="normal">1076</span>
+<span class="normal">1077</span>
+<span class="normal">1078</span>
+<span class="normal">1079</span>
+<span class="normal">1080</span>
+<span class="normal">1081</span>
+<span class="normal">1082</span>
+<span class="normal">1083</span>
+<span class="normal">1084</span>
+<span class="normal">1085</span>
+<span class="normal">1086</span>
+<span class="normal">1087</span>
+<span class="normal">1088</span>
+<span class="normal">1089</span>
+<span class="normal">1090</span>
+<span class="normal">1091</span>
+<span class="normal">1092</span>
+<span class="normal">1093</span>
+<span class="normal">1094</span>
+<span class="normal">1095</span>
+<span class="normal">1096</span>
+<span class="normal">1097</span>
+<span class="normal">1098</span>
+<span class="normal">1099</span>
+<span class="normal">1100</span>
+<span class="normal">1101</span>
+<span class="normal">1102</span>
+<span class="normal">1103</span>
+<span class="normal">1104</span>
+<span class="normal">1105</span>
+<span class="normal">1106</span>
+<span class="normal">1107</span>
+<span class="normal">1108</span>
+<span class="normal">1109</span>
+<span class="normal">1110</span>
+<span class="normal">1111</span>
+<span class="normal">1112</span>
+<span class="normal">1113</span>
+<span class="normal">1114</span>
+<span class="normal">1115</span>
+<span class="normal">1116</span>
+<span class="normal">1117</span>
+<span class="normal">1118</span>
+<span class="normal">1119</span>
+<span class="normal">1120</span>
+<span class="normal">1121</span>
+<span class="normal">1122</span>
+<span class="normal">1123</span>
+<span class="normal">1124</span>
+<span class="normal">1125</span>
+<span class="normal">1126</span>
+<span class="normal">1127</span>
+<span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span>
+<span class="normal">1149</span>
+<span class="normal">1150</span>
+<span class="normal">1151</span>
+<span class="normal">1152</span>
+<span class="normal">1153</span>
+<span class="normal">1154</span>
+<span class="normal">1155</span>
+<span class="normal">1156</span>
+<span class="normal">1157</span>
+<span class="normal">1158</span>
+<span class="normal">1159</span>
+<span class="normal">1160</span>
+<span class="normal">1161</span>
+<span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span>
+<span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span>
+<span class="normal">1186</span>
+<span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span>
+<span class="normal">1204</span>
+<span class="normal">1205</span>
+<span class="normal">1206</span>
+<span class="normal">1207</span>
+<span class="normal">1208</span>
+<span class="normal">1209</span>
+<span class="normal">1210</span>
+<span class="normal">1211</span>
+<span class="normal">1212</span>
+<span class="normal">1213</span>
+<span class="normal">1214</span>
+<span class="normal">1215</span>
+<span class="normal">1216</span>
+<span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">ORPOTrainer</span><span class="p">(</span><span class="n">BaseTrainer</span><span class="p">,</span> <span class="n">ABC</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    easydel ORPO Trainer Class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">arguments</span><span class="p">:</span> <span class="n">TrainArguments</span><span class="p">,</span>
+            <span class="n">max_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">max_prompt_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">max_completion_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">beta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+            <span class="n">disable_dropout</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">label_pad_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">100</span><span class="p">,</span>
+            <span class="n">is_encoder_decoder</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">padding_value</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">data_collator</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">DPODataCollatorWithPadding</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">train_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dataset</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">eval_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">Dataset</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Dataset</span><span class="p">]]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">tokenizer</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PreTrainedTokenizerBase</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">_do_init_fns</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">dataset_map_arguments</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">low_mem_usage</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up the attributes of an object.</span>
+
+
+<span class="sd">        :param self: Refer to the object itself</span>
+<span class="sd">        :param beta: float: Control the strength of the regularization term</span>
+<span class="sd">        :param arguments: TrainArguments: Pass the arguments to the trainer</span>
+<span class="sd">        :param label_pad_token_id: int: Pad the labels</span>
+<span class="sd">        :param padding_value: int: Specify the value that is used for padding</span>
+<span class="sd">        :param train_dataset: Optional[Dataset]: Load the training dataset</span>
+<span class="sd">        :param eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] : Pass the evaluation dataset to the trainer</span>
+<span class="sd">        :param tokenizer: Optional[PreTrainedTokenizerBase]: Pass the tokenizer to the trainer</span>
+<span class="sd">        :param max_length: Optional[int]: Set the maximum length of the input sequence</span>
+<span class="sd">        :param max_prompt_length: Optional[int]: Set the maximum length of the prompt</span>
+<span class="sd">        :param max_completion_length: Optional[int]: Truncate the target sequence</span>
+<span class="sd">        :param data_collator: Optional[Callable]: Function to be used for creating datasets.</span>
+<span class="sd">        tokenizing process with `dataset.map`.</span>
+<span class="sd">        :param _do_init_fns: bool : preferred to set ture to trainer will automatically configure</span>
+<span class="sd">        model with provided training Arguments</span>
+<span class="sd">        :param : Set the padding value for the model</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">assert</span> <span class="n">arguments</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="p">(</span>
+            <span class="s2">&quot;You Have to pass arguments that will be used for training but you have passed&quot;</span>
+            <span class="s2">&quot;`arguments=None`&quot;</span>
+        <span class="p">)</span>
+        <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">arguments</span><span class="p">,</span> <span class="n">TrainArguments</span><span class="p">),</span> <span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;arguments type must be `TrainArguments` but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">arguments</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">tokenizer</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;tokenizer must be specified to tokenize a ORPO dataset.&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">max_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;`max_length` is not set in the ORPOTrainer&#39;s init&quot;</span>
+                <span class="s2">&quot; it will default to `512` by default, but you should do it yourself in the future.&quot;</span><span class="p">,</span>
+                <span class="ne">UserWarning</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">max_length</span> <span class="o">=</span> <span class="mi">512</span>
+        <span class="k">if</span> <span class="n">max_prompt_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;`max_prompt_length` is not set in the ORPOTrainer&#39;s init&quot;</span>
+                <span class="s2">&quot; it will default to `128` by default, but you should do it yourself in the future.&quot;</span><span class="p">,</span>
+                <span class="ne">UserWarning</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">max_prompt_length</span> <span class="o">=</span> <span class="mi">128</span>
+
+        <span class="k">if</span> <span class="n">max_completion_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;When using an encoder decoder architecture, you should set `max_completion_length` in the &quot;</span>
+                <span class="s2">&quot;ORPOTrainer&#39;s init it will default to `128` by default, but you should do it yourself in the future.&quot;</span><span class="p">,</span>
+                <span class="ne">UserWarning</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">max_completion_length</span> <span class="o">=</span> <span class="mi">128</span>
+
+        <span class="n">padding_value</span> <span class="o">=</span> <span class="n">padding_value</span> <span class="k">if</span> <span class="n">padding_value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span> <span class="o">=</span> <span class="n">max_length</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span> <span class="o">=</span> <span class="n">label_pad_token_id</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span> <span class="o">=</span> <span class="n">padding_value</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span> <span class="o">=</span> <span class="n">max_prompt_length</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span> <span class="o">=</span> <span class="n">arguments</span><span class="o">.</span><span class="n">truncation_mode</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">disable_dropout</span> <span class="o">=</span> <span class="n">disable_dropout</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span> <span class="o">=</span> <span class="n">max_completion_length</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">is_encoder_decoder</span> <span class="o">=</span> <span class="n">is_encoder_decoder</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">low_mem_usage</span> <span class="o">=</span> <span class="n">low_mem_usage</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">beta</span> <span class="o">=</span> <span class="n">beta</span>
+        <span class="n">data_collator</span> <span class="o">=</span> <span class="n">DPODataCollatorWithPadding</span><span class="p">(</span>
+            <span class="n">max_prompt_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+            <span class="n">max_target_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">,</span>
+            <span class="n">pad_token_id</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+            <span class="n">label_pad_token_id</span><span class="o">=</span><span class="n">label_pad_token_id</span><span class="p">,</span>
+            <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="n">data_collator</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">data_collator</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_stored_metrics</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">list</span><span class="p">))</span>
+        <span class="k">if</span> <span class="n">dataset_map_arguments</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">dataset_map_arguments</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">train_dataset</span> <span class="o">=</span> <span class="n">train_dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenize_row</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">dataset_map_arguments</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">tokenize_row</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">dataset_map_arguments</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span> <span class="o">=</span> <span class="n">arguments</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">hp_name</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">deepspeed</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">is_in_train</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">data_collator</span> <span class="o">=</span> <span class="n">data_collator</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span> <span class="o">=</span> <span class="n">train_dataset</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_loggers_initialized</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_mesh</span><span class="p">()</span>
+        <span class="k">assert</span> <span class="n">padding_value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`padding_value` can not be set as `None` it must be an integer.&quot;</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span> <span class="o">=</span> <span class="n">create_concatenated_forward</span><span class="p">(</span>
+            <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">is_encoder_decoder</span><span class="p">,</span>
+            <span class="n">padding_value</span><span class="o">=</span><span class="n">padding_value</span><span class="p">,</span>
+            <span class="n">label_pad_token_id</span><span class="o">=</span><span class="n">label_pad_token_id</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">_cached_p_l_s</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_cached_c_l_s</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_cached_r_l_s</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">arguments</span><span class="o">=</span><span class="n">arguments</span><span class="p">,</span>
+            <span class="n">dataset_train</span><span class="o">=</span><span class="n">train_dataset</span><span class="p">,</span>
+            <span class="n">dataset_eval</span><span class="o">=</span><span class="n">eval_dataset</span><span class="p">,</span>
+            <span class="n">finetune</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">checkpoint_path</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">_do_init_fns</span><span class="o">=</span><span class="n">_do_init_fns</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">build_tokenized_answer</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">prompt</span><span class="p">,</span> <span class="n">answer</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Llama tokenizer does satisfy `enc(a + b) = enc(a) + enc(b)`.</span>
+<span class="sd">        It does ensure `enc(a + b) = enc(a) + enc(a + b)[len(enc(a)):]`.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">full_tokenized</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">prompt</span> <span class="o">+</span> <span class="n">answer</span><span class="p">,</span> <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+        <span class="n">prompt_input_ids</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">)[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span>
+
+        <span class="n">answer_input_ids</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">):]</span>
+        <span class="n">answer_attention_mask</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">][</span><span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">):]</span>
+        <span class="n">prompt_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">answer_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">answer_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+        <span class="n">full_concat_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span>
+                <span class="n">prompt_input_ids</span><span class="p">,</span>
+                <span class="n">answer_input_ids</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="c1"># Prepare input tokens for token by token comparison</span>
+        <span class="n">full_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">])</span>
+
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">full_input_ids</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">full_concat_input_ids</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Prompt input ids and answer input ids should have the same length.&quot;</span><span class="p">)</span>
+
+        <span class="n">response_token_ids_start_idx</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">prompt_input_ids</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="o">!=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:</span><span class="n">response_token_ids_start_idx</span><span class="p">]:</span>
+            <span class="n">response_token_ids_start_idx</span> <span class="o">-=</span> <span class="mi">1</span>
+
+        <span class="n">prompt_input_ids</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:</span><span class="n">response_token_ids_start_idx</span><span class="p">]</span>
+        <span class="n">prompt_attention_mask</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">][:</span><span class="n">response_token_ids_start_idx</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">prompt_attention_mask</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Prompt input ids and attention mask should have the same length.&quot;</span><span class="p">)</span>
+
+        <span class="n">answer_input_ids</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="n">response_token_ids_start_idx</span><span class="p">:]</span>
+        <span class="n">answer_attention_mask</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">][</span><span class="n">response_token_ids_start_idx</span><span class="p">:]</span>
+
+        <span class="k">return</span> <span class="nb">dict</span><span class="p">(</span>
+            <span class="n">prompt_input_ids</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">prompt_attention_mask</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">prompt_attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">input_ids</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">answer_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+            <span class="n">attention_mask</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">answer_attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">tokenize_row</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">feature</span><span class="p">,</span> <span class="n">state</span><span class="p">:</span> <span class="n">EasyDeLState</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dict</span><span class="p">:</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The tokenize_row function is responsible for taking a single row of data and converting it into the format that</span>
+<span class="sd">        the model expects. This includes:</span>
+<span class="sd">        - Tokenizing the text (using HuggingFace&#39;s tokenizer)</span>
+<span class="sd">        - Padding/truncating sequences to a fixed length (if necessary)</span>
+<span class="sd">        - Creating attention masks, which tell the model which tokens are padding and which aren&#39;t.</span>
+
+<span class="sd">        :param self: Represent the instance of the class</span>
+<span class="sd">        :param feature: Pass in the data from the dataset</span>
+<span class="sd">        :param state: EasyDeLState: Keep track of the state of the tokenizer</span>
+<span class="sd">        :return: A dictionary of the following keys</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">prompt</span> <span class="o">=</span> <span class="n">feature</span><span class="p">[</span><span class="s2">&quot;prompt&quot;</span><span class="p">]</span>
+        <span class="n">chosen</span> <span class="o">=</span> <span class="n">feature</span><span class="p">[</span><span class="s2">&quot;chosen&quot;</span><span class="p">]</span>
+        <span class="n">rejected</span> <span class="o">=</span> <span class="n">feature</span><span class="p">[</span><span class="s2">&quot;rejected&quot;</span><span class="p">]</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;prompt should be an str but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">prompt</span><span class="p">)</span><span class="si">}</span><span class="s2"> , </span><span class="si">{</span><span class="n">prompt</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+        <span class="n">prompt_tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
+            <span class="n">prompt</span><span class="p">,</span>
+            <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;np&quot;</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">prompt_tokens</span> <span class="o">=</span> <span class="p">{</span><span class="sa">f</span><span class="s2">&quot;prompt_</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">prompt_tokens</span><span class="o">.</span><span class="n">items</span><span class="p">()}</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">chosen</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;chosen should be an str but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">chosen</span><span class="p">)</span><span class="si">}</span><span class="s2"> , </span><span class="si">{</span><span class="n">chosen</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+        <span class="n">chosen_tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_tokenized_answer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">chosen</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">rejected</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;rejected should be an str but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">rejected</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+        <span class="n">rejected_tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_tokenized_answer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">rejected</span><span class="p">)</span>
+        <span class="n">v2d</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">ar</span><span class="p">:</span> <span class="n">ar</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span> <span class="k">if</span> <span class="n">ar</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">1</span> <span class="k">else</span> <span class="n">ar</span>
+
+        <span class="k">def</span> <span class="nf">add_tkn</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="n">ar</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span>
+                    <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">n</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+                    <span class="n">v2d</span><span class="p">(</span><span class="n">ar</span><span class="p">)</span>
+                <span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+            <span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">add_post_tkn</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="n">ar</span><span class="p">):</span>
+            <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span>
+                    <span class="n">v2d</span><span class="p">(</span><span class="n">ar</span><span class="p">),</span>
+                    <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">n</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+                <span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+            <span class="p">)</span>
+
+        <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span>
+        <span class="p">)</span>
+        <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span>
+        <span class="p">)</span>
+        <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+            <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span>
+        <span class="p">)</span>
+
+        <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+            <span class="mi">1</span><span class="p">,</span> <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span>
+        <span class="p">)</span>
+        <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+            <span class="mi">1</span><span class="p">,</span> <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span>
+        <span class="p">)</span>
+        <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+            <span class="mi">1</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span>
+        <span class="p">)</span>
+
+        <span class="c1"># add EOS token to end of answer</span>
+        <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span> <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">])</span>
+        <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">])</span>
+
+        <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">])</span>
+        <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">])</span>
+
+        <span class="n">longer_response_length</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">])</span>
+
+        <span class="c1"># if combined sequence is too long, truncate the prompt</span>
+        <span class="k">for</span> <span class="n">answer_tokens</span> <span class="ow">in</span> <span class="p">[</span><span class="n">chosen_tokens</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">,</span> <span class="n">prompt_tokens</span><span class="p">]:</span>
+            <span class="n">length_rn</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="n">longer_response_length</span>
+            <span class="k">if</span> <span class="n">length_rn</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span><span class="p">:</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span> <span class="o">==</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]:</span>
+                        <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">][:,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">]</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span> <span class="o">==</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]:</span>
+                        <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">][:,</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">:]</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Unknown truncation mode: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+        <span class="c1"># if that&#39;s still too long, truncate the response</span>
+        <span class="k">for</span> <span class="n">answer_tokens</span> <span class="ow">in</span> <span class="p">[</span><span class="n">chosen_tokens</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">]:</span>
+            <span class="k">if</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="n">longer_response_length</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">]:</span>
+                    <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">][:,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">]</span>
+
+        <span class="n">chosen_sequence_tokens</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="n">k</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span><span class="n">v2d</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;prompt_</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">]),</span> <span class="n">v2d</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">])),</span>
+                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+            <span class="p">)</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span>
+        <span class="p">}</span>
+        <span class="n">rejected_sequence_tokens</span> <span class="o">=</span> <span class="p">{</span>
+            <span class="n">k</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+                <span class="p">(</span><span class="n">v2d</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;prompt_</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">]),</span> <span class="n">v2d</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">])),</span>
+                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+            <span class="p">)</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span>
+        <span class="p">}</span>
+        <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:]</span>
+        <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">at</span><span class="p">[</span>
+                                           <span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">])</span>
+                                           <span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">([</span><span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]))</span>
+        <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:]</span>
+        <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">at</span><span class="p">[</span>
+                                             <span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">])</span>
+                                             <span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span>
+            <span class="p">([</span><span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]))</span>
+        <span class="p">)</span>
+
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">tokens_</span> <span class="ow">in</span> <span class="p">{</span>
+            <span class="s2">&quot;chosen_&quot;</span><span class="p">:</span> <span class="n">chosen_sequence_tokens</span><span class="p">,</span>
+            <span class="s2">&quot;rejected_&quot;</span><span class="p">:</span> <span class="n">rejected_sequence_tokens</span><span class="p">,</span>
+            <span class="s2">&quot;&quot;</span><span class="p">:</span> <span class="n">prompt_tokens</span><span class="p">,</span>
+        <span class="p">}</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">for</span> <span class="n">type_key</span><span class="p">,</span> <span class="n">tokens</span> <span class="ow">in</span> <span class="n">tokens_</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;token_type_ids&quot;</span><span class="p">:</span>
+                    <span class="k">continue</span>
+
+                <span class="n">b</span><span class="p">,</span> <span class="n">s</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span> <span class="o">&gt;</span> <span class="n">s</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="n">k</span> <span class="o">==</span> <span class="s2">&quot;chosen_&quot;</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;input_ids&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;labels&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">]</span>
+
+                        <span class="k">if</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">:</span>
+                            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                                <span class="sa">f</span><span class="s2">&quot;there was an error in padding token with `type_key` of </span><span class="si">{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                                <span class="sa">f</span><span class="s2">&quot;. it must have sequence_length of </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="si">}</span><span class="s2"> but we got </span><span class="si">{</span><span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+                                <span class="sa">f</span><span class="s2">&quot; From </span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="p">)</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">]</span>
+                    <span class="k">elif</span> <span class="n">k</span> <span class="o">==</span> <span class="s2">&quot;rejected_&quot;</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;input_ids&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;labels&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">]</span>
+                        <span class="k">if</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">:</span>
+                            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                                <span class="sa">f</span><span class="s2">&quot;there was an error in padding token with `type_key` of </span><span class="si">{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                                <span class="sa">f</span><span class="s2">&quot;. it must have sequence_length of </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="si">}</span><span class="s2"> but we got </span><span class="si">{</span><span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+                                <span class="sa">f</span><span class="s2">&quot; From </span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">k</span> <span class="o">==</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;prompt_labels&quot;</span><span class="p">:</span>
+                            <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                                <span class="n">tokens</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+                                <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                                <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                            <span class="p">)</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">]</span>
+                        <span class="k">if</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">:</span>
+                            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                                <span class="sa">f</span><span class="s2">&quot;there was an error in padding token with `type_key` of </span><span class="si">{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                                <span class="sa">f</span><span class="s2">&quot;. it must have sequence_length of </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="si">}</span><span class="s2"> but we got </span><span class="si">{</span><span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+                                <span class="sa">f</span><span class="s2">&quot; From </span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="p">)</span>
+                <span class="n">batch</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">tokens</span>
+        <span class="k">return</span> <span class="n">batch</span>
+
+    <span class="k">def</span> <span class="nf">configure_functions</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The configure_functions function is responsible for configuring the functions that will be used in training.</span>
+<span class="sd">        It does this by first defining a function called function_configurations, which initializes the model parameters</span>
+<span class="sd">         and returns</span>
+<span class="sd">        them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate</span>
+<span class="sd">        on a batch of data, including:</span>
+<span class="sd">        :param self: Access the class attributes</span>
+<span class="sd">        :return: A TrainerConfigureFunctionFuncOutput object</span>
+
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">def</span> <span class="nf">initialize_state_function</span><span class="p">():</span>
+            <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">init_weights</span><span class="p">(</span>
+                <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">init_input_shape</span>
+            <span class="p">)</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">:</span>
+                <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_bf16</span><span class="p">(</span><span class="n">initialized_parameters</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float16</span><span class="p">:</span>
+                <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_fp16</span><span class="p">(</span><span class="n">initialized_parameters</span><span class="p">)</span>
+
+            <span class="n">tx</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx</span>
+            <span class="n">parameters</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">freeze</span><span class="p">({</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">initialized_parameters</span><span class="p">})</span>
+            <span class="n">tx_init</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">:</span>
+                    <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_bf16</span><span class="p">(</span><span class="n">lora_parameters</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float16</span><span class="p">:</span>
+                    <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_fp16</span><span class="p">(</span><span class="n">lora_parameters</span><span class="p">)</span>
+
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="p">(</span>
+                    <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">lora_parameters</span><span class="p">,</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span><span class="p">,</span>
+                    <span class="n">opt_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span><span class="p">,</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">tx_init</span><span class="p">),</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create</span><span class="p">(</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">),</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">tx_init</span><span class="p">,</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>
+                <span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">create_state_from_params_function</span><span class="p">(</span><span class="n">parameters</span><span class="p">):</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create</span><span class="p">(</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tx</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">),</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">),</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="p">(</span>
+                    <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span><span class="p">,</span>
+                    <span class="n">opt_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span><span class="p">,</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)),</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="p">)</span>
+
+        <span class="n">state_shape</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="n">initialize_state_function</span><span class="p">)</span>
+        <span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+            <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+            <span class="n">state_shape</span>
+        <span class="p">)</span>
+        <span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+            <span class="n">create_state_from_params_function</span><span class="p">,</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="o">.</span><span class="n">params</span><span class="p">,),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="n">state_partition_spec</span><span class="p">,</span>
+            <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,)</span>
+        <span class="p">)</span>
+        <span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+            <span class="n">create_orpo_step_function</span><span class="p">(</span>
+                <span class="n">mode</span><span class="o">=</span><span class="s2">&quot;train&quot;</span><span class="p">,</span>
+                <span class="n">beta</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">beta</span><span class="p">,</span>
+                <span class="n">concatenated_forward</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span><span class="p">,</span>
+                <span class="n">batch_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span>
+            <span class="p">),</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),),</span>
+
+        <span class="p">)</span>
+
+        <span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+            <span class="n">create_orpo_step_function</span><span class="p">(</span>
+                <span class="n">mode</span><span class="o">=</span><span class="s2">&quot;eval&quot;</span><span class="p">,</span>
+                <span class="n">beta</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">beta</span><span class="p">,</span>
+                <span class="n">concatenated_forward</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span><span class="p">,</span>
+                <span class="n">batch_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span>
+            <span class="p">),</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),),</span>
+
+        <span class="p">)</span>
+
+        <span class="n">mesh</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_mesh</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ckpt_path_exists</span><span class="p">()</span>
+        <span class="n">checkpoint_manager</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_streaming_checkpointer</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">state_partition_spec</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">state_shape</span> <span class="o">=</span> <span class="n">state_shape</span>
+
+        <span class="k">return</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">(</span>
+            <span class="n">create_sharded_state_from_params_function</span><span class="o">=</span><span class="n">create_sharded_state_from_params_function</span><span class="p">,</span>
+            <span class="n">sharded_train_step_function</span><span class="o">=</span><span class="n">sharded_train_step_function</span><span class="p">,</span>
+            <span class="n">sharded_eval_step_function</span><span class="o">=</span><span class="n">sharded_eval_step_function</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="n">mesh</span><span class="p">,</span>
+            <span class="n">checkpoint_manager</span><span class="o">=</span><span class="n">checkpoint_manager</span><span class="p">,</span>
+            <span class="n">initialize_state_function</span><span class="o">=</span><span class="n">initialize_state_function</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">initialize_state</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">model_parameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">state</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLState</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">EasyDeLState</span><span class="p">,</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">],</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]]:</span>
+        <span class="k">if</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">state</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">RuntimeError</span><span class="p">(</span>
+                <span class="s2">&quot;You are passing `model_parameters=None`, `state=None`, and `checkpoint_path=None` and also you are not&quot;</span>
+                <span class="s2">&quot; using LoRA, if you are &quot;</span>
+                <span class="s2">&quot;Using LoRA make sure to pass parameters and Rapture Config correctly otherwise pass the &quot;</span>
+                <span class="s2">&quot;model_parameters or state.&quot;</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">state</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">model_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span><span class="p">,</span>
+                <span class="n">dtype_specs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="n">state</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">state</span>
+                <span class="n">params</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span> <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_shard_fns</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                    <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
+                    <span class="n">shard_fns</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                    <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span>
+                <span class="p">)</span>
+                <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="n">params</span>
+                <span class="k">if</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">opt_state</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">prefix_print</span><span class="p">(</span>
+                        <span class="s2">&quot;Action&quot;</span><span class="p">,</span> <span class="s2">&quot;Optimizer State is not Found!, initializing one.&quot;</span>
+                    <span class="p">)</span>
+                    <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">offload_device</span><span class="p">):</span>
+                        <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">init_opt_state</span><span class="p">()</span>
+                        <span class="n">opt_state</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">opt_state</span> <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_shard_fns</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                            <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
+                            <span class="n">shard_fns</span><span class="o">.</span><span class="n">opt_state</span><span class="p">,</span>
+                            <span class="n">sharded_state</span><span class="o">.</span><span class="n">opt_state</span>
+                        <span class="p">)</span>
+                        <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                            <span class="n">opt_state</span><span class="o">=</span><span class="n">opt_state</span>
+                        <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">finetune</span><span class="p">:</span>
+
+                <span class="k">if</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">prefix_print</span><span class="p">(</span>
+                        <span class="s2">&quot;Action&quot;</span><span class="p">,</span> <span class="sa">f</span><span class="s2">&quot;Loading Model From </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="si">}</span><span class="s2">&quot;</span>
+                    <span class="p">)</span>
+                    <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">offload_device</span><span class="p">):</span>
+                        <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">load_state</span><span class="p">(</span>
+                            <span class="n">verbose</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">verbose</span><span class="p">,</span>
+                            <span class="n">state_shard_fns</span><span class="o">=</span><span class="n">shard_fns</span><span class="p">,</span>
+                            <span class="n">init_optimizer_state</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                            <span class="n">checkpoint_path</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                            <span class="n">input_shape</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">init_input_shape</span><span class="p">,</span>
+                            <span class="n">config_kwargs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">loaded_model_config_kwargs</span>
+                        <span class="p">)</span>
+                        <span class="n">state_shape</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">sharded_state</span><span class="p">)</span>
+                        <span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                                <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+                            <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+                            <span class="n">state_shape</span>
+                        <span class="p">)</span>
+                        <span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+                            <span class="n">create_orpo_step_function</span><span class="p">(</span>
+                                <span class="n">mode</span><span class="o">=</span><span class="s2">&quot;train&quot;</span><span class="p">,</span>
+                                <span class="n">beta</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">beta</span><span class="p">,</span>
+                                <span class="n">concatenated_forward</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span><span class="p">,</span>
+                                <span class="n">batch_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span>
+                            <span class="p">),</span>
+                            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+                            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),),</span>
+
+                        <span class="p">)</span>
+
+                        <span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+                            <span class="n">create_orpo_step_function</span><span class="p">(</span>
+                                <span class="n">mode</span><span class="o">=</span><span class="s2">&quot;eval&quot;</span><span class="p">,</span>
+                                <span class="n">beta</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">beta</span><span class="p">,</span>
+                                <span class="n">concatenated_forward</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span><span class="p">,</span>
+                                <span class="n">batch_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span>
+                            <span class="p">),</span>
+                            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+                            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),),</span>
+                        <span class="p">)</span>
+
+                        <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">state_partition_spec</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">state_shape</span> <span class="o">=</span> <span class="n">state_shape</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">sharded_train_step_function</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">sharded_eval_step_function</span>
+
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">remove_ckpt_after_load</span><span class="p">:</span>
+                        <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">prefix_print</span><span class="p">(</span>
+                        <span class="s2">&quot;Action&quot;</span><span class="p">,</span> <span class="sa">f</span><span class="s2">&quot;Sharding Passed Parameters&quot;</span>
+                    <span class="p">)</span>
+                    <span class="kn">from</span> <span class="nn">flax.core</span> <span class="kn">import</span> <span class="n">unfreeze</span>
+                    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">model_parameters</span><span class="p">,</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">):</span>
+                        <span class="n">prefix_print</span><span class="p">(</span>
+                            <span class="s2">&quot;Warning&quot;</span><span class="p">,</span>
+                            <span class="s2">&quot;Model Parameters should be like FrozenDict({&#39;params&#39;: params}) make sure to &quot;</span>
+                            <span class="s2">&quot;pass as type FrozenDict in case of not getting UnExcepted Errors &quot;</span>
+                        <span class="p">)</span>
+
+                    <span class="n">model_parameters</span> <span class="o">=</span> <span class="n">model_parameters</span> <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_shard_fns</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                        <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
+                        <span class="n">shard_fns</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                        <span class="n">model_parameters</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="n">sharded_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span><span class="p">(</span><span class="n">model_parameters</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="k">raise</span> <span class="n">EasyDeLTimerError</span><span class="p">(</span>
+                        <span class="s2">&quot;You can&#39;t pass `model_parameters` and `checkpoint_path` at same time&quot;</span>
+                    <span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">raise</span> <span class="n">EasyDeLTimerError</span><span class="p">(</span>
+                        <span class="s2">&quot;You should pass `model_parameters` or `checkpoint_path` to trainer in order to load model&quot;</span>
+                    <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">sharded_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state_function</span><span class="p">()</span>
+                <span class="n">params</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span> <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_shard_fns</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                    <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
+                    <span class="n">shard_fns</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                    <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span>
+                <span class="p">)</span>
+                <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="n">params</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">sharded_state</span> <span class="o">=</span> <span class="n">sharded_state</span>
+            <span class="k">return</span> <span class="n">sharded_state</span><span class="p">,</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span>
+
+    <span class="k">def</span> <span class="nf">_save_state</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">,</span>
+            <span class="n">gather_fns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Any</span> <span class="o">|</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]</span> <span class="o">|</span> <span class="nb">dict</span><span class="p">[</span><span class="n">Callable</span><span class="p">]],</span>
+            <span class="n">milestone</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="nb">str</span><span class="p">:</span>
+        <span class="n">step</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">device_get</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">.</span><span class="n">step</span>
+            <span class="p">)</span>
+        <span class="p">)</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="nb">int</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">device_get</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">.</span><span class="n">step</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="n">checkpoint_dir</span> <span class="o">=</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_dir</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_name</span><span class="p">)</span>
+        <span class="n">filename_extension</span> <span class="o">=</span> <span class="s2">&quot;.easy&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_total_limit</span><span class="p">:</span>
+            <span class="n">checkpoint_files</span> <span class="o">=</span> <span class="n">glob</span><span class="p">(</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">checkpoint_dir</span><span class="p">,</span> <span class="sa">f</span><span class="s2">&quot;*</span><span class="si">{</span><span class="n">filename_extension</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">))</span>
+            <span class="n">checkpoint_files</span><span class="o">.</span><span class="n">sort</span><span class="p">(</span><span class="n">key</span><span class="o">=</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">getmtime</span><span class="p">)</span>
+            <span class="k">for</span> <span class="n">old_checkpoint</span> <span class="ow">in</span> <span class="n">checkpoint_files</span><span class="p">[:</span><span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_total_limit</span><span class="p">]:</span>
+                <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="n">old_checkpoint</span><span class="p">)</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Removed old checkpoint: </span><span class="si">{</span><span class="n">old_checkpoint</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+        <span class="n">checkpoint_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">model_name</span><span class="si">}</span><span class="s2">-S</span><span class="si">{</span><span class="n">step</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="n">filename</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">checkpoint_name</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">step</span><span class="si">}</span><span class="s2">&quot;</span> <span class="k">if</span> <span class="n">milestone</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">checkpoint_name</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="n">filename</span> <span class="o">+=</span> <span class="s2">&quot;.easy&quot;</span>
+        <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Saving Model </span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">.&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="n">state</span><span class="o">.</span><span class="n">save_state</span><span class="p">(</span>
+            <span class="n">filename</span><span class="o">=</span><span class="n">filename</span><span class="p">,</span>
+            <span class="n">checkpoint_dir</span><span class="o">=</span><span class="n">checkpoint_dir</span><span class="p">,</span>
+            <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+            <span class="n">float_dtype</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">verbose</span><span class="p">,</span>
+            <span class="n">save_optimizer</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_optimizer_state</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">return</span> <span class="n">filename</span>
+
+    <span class="k">def</span> <span class="nf">initialize_trainer_utils</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The initialize_trainer_utils function is responsible for initializing the following:</span>
+<span class="sd">            - wandb_runtime (if you use_wandb is True)</span>
+<span class="sd">            - timer object (for logging time taken by various functions)</span>
+<span class="sd">            - dataloader objects for training and evaluation data, along with max steps per epoch.</span>
+<span class="sd">              The configure_dataloader function accomplishes this task.</span>
+
+<span class="sd">        :param self: Represent the instance of the class</span>
+<span class="sd">        :return: A tuple of functions</span>
+
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_wandb_init</span><span class="p">()</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">use_wandb</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span> <span class="o">=</span> <span class="n">Timers</span><span class="p">(</span>
+            <span class="n">use_wandb</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">tensorboard_writer</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_board</span><span class="p">()</span>
+        <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+        <span class="n">dataset_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_dataloader</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">dataloader_train</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">max_training_steps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">dataloader_eval</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">max_evaluation_steps</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">])</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+        <span class="n">model_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_model</span><span class="p">()</span>
+        <span class="n">model</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">model</span>
+        <span class="n">tx</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">tx</span>
+        <span class="n">scheduler</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">scheduler</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tx</span> <span class="o">=</span> <span class="n">tx</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span> <span class="o">=</span> <span class="n">scheduler</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">lora_modules</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span><span class="o">.</span><span class="n">apply_lora</span><span class="p">(</span>
+                <span class="n">module</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+                <span class="n">parameters</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">rapture_config</span><span class="o">.</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_parameters</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_module</span><span class="o">.</span><span class="fm">__call__</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_opt_state</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_module</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_tx</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">])</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+
+        <span class="n">function_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_functions</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">function_configurations</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">sharded_train_step_function</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">sharded_eval_step_function</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">mesh</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_manager</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">checkpoint_manager</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">initialize_state_function</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">])</span>
+
+    <span class="k">def</span> <span class="nf">create_collate_function</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">truncation_mode</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;keep_end&quot;</span><span class="p">,</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Callable</span><span class="p">:</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">data_collator</span>
+
+    <span class="k">def</span> <span class="nf">shard_states</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">rules</span><span class="p">):</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_mesh</span><span class="p">():</span>
+            <span class="n">partition_spec</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span><span class="n">rules</span><span class="o">=</span><span class="n">rules</span><span class="p">,</span> <span class="n">params</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">state</span><span class="p">))</span>
+
+            <span class="k">def</span> <span class="nf">_shard</span><span class="p">(</span><span class="n">x</span><span class="p">):</span>
+                <span class="k">return</span> <span class="n">x</span>
+
+            <span class="n">shard</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+                <span class="n">_shard</span><span class="p">,</span>
+                <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">(),),</span>
+                <span class="n">out_shardings</span><span class="o">=</span><span class="n">partition_spec</span>
+            <span class="p">)</span>
+            <span class="k">return</span> <span class="n">shard</span><span class="p">(</span><span class="n">state</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">configure_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureDataloaderFuncOutput</span><span class="p">:</span>
+        <span class="n">dataloader_train</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_train_dataloader</span><span class="p">()</span>
+        <span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">dataloader_eval</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="n">max_training_steps</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span>
+            <span class="n">dataloader_train</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">dataloader_eval</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_eval_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span><span class="p">)</span>
+            <span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">dataloader_eval</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">TrainerConfigureDataloaderFuncOutput</span><span class="p">(</span>
+            <span class="n">dataloader_train</span><span class="o">=</span><span class="n">dataloader_train</span><span class="p">,</span>  <span class="c1"># type:ignore</span>
+            <span class="n">max_training_steps</span><span class="o">=</span><span class="n">max_training_steps</span><span class="p">,</span>
+            <span class="n">dataloader_eval</span><span class="o">=</span><span class="n">dataloader_eval</span><span class="p">,</span>
+            <span class="n">max_evaluation_steps</span><span class="o">=</span><span class="n">max_evaluation_steps</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_get_train_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">tensorflow</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">Dataset</span><span class="p">:</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The _get_train_dataloader function is used to create a tensorflow.data.Dataset object for the training dataset.</span>
+
+<span class="sd">        :param self: Represent the instance of the class</span>
+<span class="sd">        :return: A dataloader object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Trainer: training requires a train_dataset.&quot;</span><span class="p">)</span>
+
+        <span class="n">train_dataset</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span>
+        <span class="n">data_collator</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">data_collator</span>
+
+        <span class="k">return</span> <span class="n">tensorflow_datasets</span><span class="o">.</span><span class="n">as_numpy</span><span class="p">(</span>
+            <span class="n">train_dataset</span><span class="o">.</span><span class="n">to_tf_dataset</span><span class="p">(</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span>
+                <span class="n">collate_fn</span><span class="o">=</span><span class="n">data_collator</span><span class="p">,</span>
+                <span class="n">num_workers</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dataloader_num_workers</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_get_eval_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">eval_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dataset</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">tensorflow</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">Dataset</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Returns the evaluation [`~tensorflow.data.Dataset`].</span>
+
+<span class="sd">        Subclass and override this method if you want to inject some custom behavior.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            eval_dataset (`torch.utils.data.Dataset`, *optional*):</span>
+<span class="sd">                If provided, will override `self.eval_dataset`. If it is a [`~datasets.Dataset`], columns not accepted</span>
+<span class="sd">                by the `model.forward()` method are automatically removed. It must implement `__len__`.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Trainer: evaluation requires an eval_dataset.&quot;</span><span class="p">)</span>
+        <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span> <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span>
+
+        <span class="k">return</span> <span class="n">tensorflow_datasets</span><span class="o">.</span><span class="n">as_numpy</span><span class="p">(</span>
+            <span class="n">eval_dataset</span><span class="o">.</span><span class="n">to_tf_dataset</span><span class="p">(</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span>
+                <span class="n">collate_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">data_collator</span><span class="p">,</span>
+                <span class="n">num_workers</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dataloader_num_workers</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_train_dataloader</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">tensorflow</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">Dataset</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Returns the training [`~tensorflow.data.Dataset`].</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_train_dataloader</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">get_eval_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">eval_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dataset</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">tensorflow</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">Dataset</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Returns the evaluation [`~tensorflow.data.Dataset`].</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Trainer: evaluation requires an eval_dataset.&quot;</span><span class="p">)</span>
+        <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span> <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_eval_dataloader</span><span class="p">(</span><span class="n">eval_dataset</span><span class="o">=</span><span class="n">eval_dataset</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">train</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">model_parameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">state</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLState</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">ORPOTrainerOutput</span><span class="p">:</span>
+        <span class="k">def</span> <span class="nf">get_layer_names</span><span class="p">(</span><span class="n">frozen_dict</span><span class="p">,</span> <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;&quot;</span><span class="p">):</span>
+            <span class="n">layer_names</span> <span class="o">=</span> <span class="p">{}</span>
+            <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">frozen_dict</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="n">FrozenDict</span><span class="p">):</span>
+                    <span class="n">layer_names</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">get_layer_names</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="n">prefix</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">))</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">layer_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">prefix</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">key</span><span class="si">}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">lstrip</span><span class="p">(</span><span class="s2">&quot;/&quot;</span><span class="p">)</span>
+                    <span class="n">layer_names</span><span class="p">[</span><span class="n">layer_name</span><span class="p">]</span> <span class="o">=</span> <span class="n">value</span>
+            <span class="k">return</span> <span class="n">layer_names</span>
+
+        <span class="k">def</span> <span class="nf">count_model_parameters</span><span class="p">(</span><span class="n">_p</span><span class="p">):</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;Model Contain </span><span class="si">{</span><span class="nb">sum</span><span class="p">(</span><span class="n">n</span><span class="o">.</span><span class="n">size</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">n</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_flatten</span><span class="p">(</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">_p</span><span class="p">))[</span><span class="mi">0</span><span class="p">])</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="mf">1e9</span><span class="si">}</span><span class="s2"> &quot;</span>
+                <span class="sa">f</span><span class="s2">&quot;Billion Parameters&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+
+        <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="s2">&quot;SAVING_SKIPPED&quot;</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">performance_mode</span><span class="p">:</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                <span class="s2">&quot;Performance Mode is ON, we will ignore the Memory Tracking, WANDB Logging, and extra information &quot;</span>
+                <span class="s2">&quot;Process.&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span>
+                <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="n">sharded_state</span><span class="p">,</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state</span><span class="p">(</span>
+            <span class="n">model_parameters</span><span class="o">=</span><span class="n">model_parameters</span><span class="p">,</span>
+            <span class="n">state</span><span class="o">=</span><span class="n">state</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span> <span class="o">=</span> <span class="n">sharded_state</span>
+        <span class="n">count_model_parameters</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="s2">&quot;cpu&quot;</span><span class="p">)[</span><span class="mi">0</span><span class="p">])</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">low_mem_usage</span> <span class="k">else</span> <span class="n">leave_alone_context_manager</span><span class="p">():</span>
+                <span class="n">dir_prefix</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;/dev/shm&quot;</span> <span class="k">if</span> <span class="n">sys</span><span class="o">.</span><span class="n">platform</span> <span class="o">!=</span> <span class="s2">&quot;win32&quot;</span> <span class="k">else</span> <span class="s2">&quot;.&quot;</span>
+                <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="s2">&quot;SAVING_SKIPPED&quot;</span>
+
+                <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">)</span>
+                <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Training&quot;</span><span class="p">)</span>
+                <span class="n">current_step</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">step</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">step</span><span class="p">,</span>
+                    <span class="n">jax</span><span class="o">.</span><span class="n">Array</span>
+                <span class="p">)</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">step</span>
+
+                <span class="n">loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">epoch_index</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span><span class="p">):</span>
+                        <span class="k">for</span> <span class="n">batch</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span><span class="p">:</span>
+                            <span class="n">current_step</span> <span class="o">+=</span> <span class="mi">1</span>
+                            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="o">&gt;</span> <span class="n">current_step</span><span class="p">:</span>
+                                <span class="o">...</span>
+                            <span class="k">elif</span> <span class="n">current_step</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">:</span>
+                                <span class="n">time_start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+
+                                <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">,</span> <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span><span class="p">(</span>
+                                    <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">,</span>
+                                    <span class="n">batch</span>
+                                <span class="p">)</span>
+                                <span class="n">total_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">time_start</span>
+                                <span class="p">(</span><span class="n">loss</span><span class="p">,</span> <span class="n">metrics</span><span class="p">)</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">loss</span><span class="p">,</span> <span class="n">outputs</span><span class="o">.</span><span class="n">metrics</span>
+
+                                <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+
+                                <span class="n">train_metrics</span> <span class="o">=</span> <span class="p">{</span>
+                                    <span class="s2">&quot;train/loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/mean_loss&quot;</span><span class="p">:</span> <span class="n">loss_sum</span> <span class="o">/</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">),</span>
+                                    <span class="s2">&quot;train/learning_rate&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span><span class="p">(</span>
+                                        <span class="n">jax</span><span class="o">.</span><span class="n">device_get</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">step</span><span class="p">))</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/step&quot;</span><span class="p">:</span> <span class="n">current_step</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/step_time&quot;</span><span class="p">:</span> <span class="n">total_time</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/perplexity&quot;</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">loss</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/epoch&quot;</span><span class="p">:</span> <span class="n">epoch_index</span>
+                                <span class="p">}</span>
+                                <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">metrics</span><span class="p">)</span>
+                                <span class="n">log_metrics</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">train_metrics</span><span class="p">)</span>
+                                <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">captured_memory</span><span class="p">)</span>
+                                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">use_wandb</span><span class="p">:</span>
+                                    <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">spmd_mode</span><span class="p">(</span><span class="s2">&quot;allow_all&quot;</span><span class="p">):</span>
+                                        <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                                            <span class="n">train_metrics</span>
+                                        <span class="p">)</span>
+                                <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                                <span class="n">pbar</span><span class="o">.</span><span class="n">set_postfix</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;train/&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">):</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">log_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">()})</span>
+                            <span class="k">else</span><span class="p">:</span>
+                                <span class="k">break</span>
+                <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+                    <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                        <span class="s2">&quot;KeyboardInterrupt At training model Will return Current State of the Model with Parameters.&quot;</span><span class="p">,</span>
+                        <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                        <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                    <span class="p">)</span>
+
+                <span class="k">except</span> <span class="n">EasyDeLTimerError</span><span class="p">:</span>
+                    <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                        <span class="s2">&quot;Training reached out maximum training Time Killing training Process &quot;</span>
+                        <span class="s2">&quot;and Will return Current State of the Model with Parameters.&quot;</span><span class="p">,</span>
+                        <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                        <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                    <span class="p">)</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">merge_lora_rapture_parameters</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="nb">print</span><span class="p">(</span>
+                        <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                            <span class="s2">&quot;Info : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                        <span class="p">),</span>
+                        <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                            <span class="s2">&quot;Merging LoRA Parameters.&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                        <span class="p">)</span>
+                    <span class="p">)</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                        <span class="n">params</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">rapture</span><span class="o">.</span><span class="n">merge_parameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+                    <span class="p">)</span>
+
+                <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span>
+                    <span class="n">partition_specs</span><span class="o">=</span><span class="n">match_partition_rules</span><span class="p">(</span>
+                        <span class="n">rules</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="o">.</span><span class="n">module</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+                        <span class="p">),</span>
+                        <span class="n">params</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">)</span>
+                    <span class="p">),</span>
+                    <span class="n">dtype_specs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span>
+                <span class="p">)</span>
+                <span class="n">output</span> <span class="o">=</span> <span class="n">ORPOTrainerOutput</span><span class="p">(</span>
+                    <span class="n">state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">,</span>
+                    <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">,</span>
+                    <span class="n">shard_fns</span><span class="o">=</span><span class="n">shard_fns</span><span class="p">,</span>
+                    <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+                    <span class="n">checkpoint_manager</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_manager</span><span class="p">,</span>
+                <span class="p">)</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_steps</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_last_save</span><span class="p">:</span>
+                    <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span>
+                        <span class="n">match_partition_rules</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                                <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+                            <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+                            <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">)</span>
+                        <span class="p">),</span>
+                        <span class="n">dtype_specs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span>
+                    <span class="p">)</span>  <span class="c1"># You have to re-init the new shard and gather functions in order to be able to skip LoRA weight</span>
+                    <span class="c1"># crashing errors and saving errors</span>
+                    <span class="n">filename</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_save_state</span><span class="p">(</span>
+                        <span class="n">state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model_state</span><span class="p">,</span>
+                        <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span>
+                    <span class="p">)</span>
+                    <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_path</span><span class="p">())</span><span class="si">}</span><span class="s2">/</span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">&quot;</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_eval</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">model_state</span>
+                    <span class="p">):</span>
+                        <span class="o">...</span>
+
+                <span class="n">output</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="o">=</span> <span class="n">checkpoint_path</span>
+                <span class="n">output</span><span class="o">.</span><span class="n">last_save_file_name</span> <span class="o">=</span> <span class="n">filename</span>
+                <span class="n">wandb</span><span class="o">.</span><span class="n">finish</span><span class="p">()</span>
+
+        <span class="k">return</span> <span class="n">output</span>
+
+    <span class="k">def</span> <span class="nf">eval</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Iterator</span><span class="p">[</span><span class="nb">dict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Evaluate the Given Model State and yield the eval metrics&quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`dataloader_eval` is required by evaluator function.&quot;</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span><span class="p">)</span>
+            <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Evaluating&quot;</span><span class="p">)</span>
+            <span class="n">current_step</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="n">loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">batch</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span><span class="p">:</span>
+                    <span class="n">current_step</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="n">time_start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span><span class="p">:</span>
+                        <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+                    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">batch</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+                        <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span>
+                                <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_input_ids&quot;</span><span class="p">)</span>
+                                <span class="ow">or</span> <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">)</span>
+                                <span class="ow">or</span> <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_labels&quot;</span><span class="p">)</span>
+                        <span class="p">):</span>
+                            <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+                    <span class="n">_</span><span class="p">,</span> <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span><span class="p">(</span>
+                        <span class="n">model_state</span><span class="p">,</span>
+                        <span class="n">batch</span>
+                    <span class="p">)</span>
+                    <span class="n">total_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">time_start</span>
+                    <span class="p">(</span>
+                        <span class="n">loss</span><span class="p">,</span> <span class="n">metrics</span>
+                    <span class="p">)</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">loss</span><span class="p">,</span> <span class="n">outputs</span><span class="o">.</span><span class="n">metrics</span>
+
+                    <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+
+                    <span class="n">eval_metrics</span> <span class="o">=</span> <span class="p">{</span>
+                        <span class="s2">&quot;eval/loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                        <span class="s2">&quot;eval/mean_loss&quot;</span><span class="p">:</span> <span class="n">loss_sum</span> <span class="o">/</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">),</span>
+                        <span class="s2">&quot;eval/step&quot;</span><span class="p">:</span> <span class="n">current_step</span><span class="p">,</span>
+                        <span class="s2">&quot;eval/step_time&quot;</span><span class="p">:</span> <span class="n">total_time</span><span class="p">,</span>
+                        <span class="s2">&quot;eval/perplexity&quot;</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">loss</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                    <span class="p">}</span>
+                    <span class="n">eval_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">metrics</span><span class="p">)</span>
+                    <span class="n">log_metrics</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">eval_metrics</span><span class="p">)</span>
+                    <span class="n">eval_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">captured_memory</span><span class="p">)</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">use_wandb</span><span class="p">:</span>
+                        <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">spmd_mode</span><span class="p">(</span><span class="s2">&quot;allow_all&quot;</span><span class="p">):</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                                <span class="n">eval_metrics</span>
+                            <span class="p">)</span>
+
+                    <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                    <span class="n">pbar</span><span class="o">.</span><span class="n">set_postfix</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;eval/&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">):</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">log_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">()})</span>
+                    <span class="k">yield</span> <span class="n">eval_metrics</span>
+            <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                    <span class="s2">&quot;KeyboardInterrupt At Evaluation model Will return Nothing and just pass.&quot;</span><span class="p">,</span>
+                    <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                    <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">        This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">        to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">        object, or when you type its name in the REPL.</span>
+
+<span class="sd">        :param self: Refer to the instance of the class</span>
+<span class="sd">        :return: A string representation of the object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+                <span class="k">try</span><span class="p">:</span>
+                    <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">350</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                    <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="s2">&quot;EasyDeLReadingError&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">350</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+
+        <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">        It should return a string representation of the object.</span>
+
+<span class="sd">        :param self: Refer to the instance of the class</span>
+<span class="sd">        :return: The object&#39;s string representation</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">arguments</span><span class="p">,</span> <span class="n">max_length</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">max_prompt_length</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">max_completion_length</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">beta</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">disable_dropout</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">label_pad_token_id</span><span class="o">=-</span><span class="mi">100</span><span class="p">,</span> <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">padding_value</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">data_collator</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">train_dataset</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">eval_dataset</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">tokenizer</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">_do_init_fns</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">dataset_map_arguments</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">low_mem_usage</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up the attributes of an object.</p>
+<p>:param self: Refer to the object itself
+:param beta: float: Control the strength of the regularization term
+:param arguments: TrainArguments: Pass the arguments to the trainer
+:param label_pad_token_id: int: Pad the labels
+:param padding_value: int: Specify the value that is used for padding
+:param train_dataset: Optional[Dataset]: Load the training dataset
+:param eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] : Pass the evaluation dataset to the trainer
+:param tokenizer: Optional[PreTrainedTokenizerBase]: Pass the tokenizer to the trainer
+:param max_length: Optional[int]: Set the maximum length of the input sequence
+:param max_prompt_length: Optional[int]: Set the maximum length of the prompt
+:param max_completion_length: Optional[int]: Truncate the target sequence
+:param data_collator: Optional[Callable]: Function to be used for creating datasets.
+tokenizing process with <code>dataset.map</code>.
+:param _do_init_fns: bool : preferred to set ture to trainer will automatically configure
+model with provided training Arguments
+:param : Set the padding value for the model</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">arguments</span><span class="p">:</span> <span class="n">TrainArguments</span><span class="p">,</span>
+        <span class="n">max_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">max_prompt_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">max_completion_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">beta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">,</span>
+        <span class="n">disable_dropout</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">label_pad_token_id</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">100</span><span class="p">,</span>
+        <span class="n">is_encoder_decoder</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">padding_value</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">data_collator</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">DPODataCollatorWithPadding</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">train_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dataset</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">eval_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">Dataset</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Dataset</span><span class="p">]]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">tokenizer</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">PreTrainedTokenizerBase</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">_do_init_fns</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">dataset_map_arguments</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">low_mem_usage</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+<span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up the attributes of an object.</span>
+
+
+<span class="sd">    :param self: Refer to the object itself</span>
+<span class="sd">    :param beta: float: Control the strength of the regularization term</span>
+<span class="sd">    :param arguments: TrainArguments: Pass the arguments to the trainer</span>
+<span class="sd">    :param label_pad_token_id: int: Pad the labels</span>
+<span class="sd">    :param padding_value: int: Specify the value that is used for padding</span>
+<span class="sd">    :param train_dataset: Optional[Dataset]: Load the training dataset</span>
+<span class="sd">    :param eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] : Pass the evaluation dataset to the trainer</span>
+<span class="sd">    :param tokenizer: Optional[PreTrainedTokenizerBase]: Pass the tokenizer to the trainer</span>
+<span class="sd">    :param max_length: Optional[int]: Set the maximum length of the input sequence</span>
+<span class="sd">    :param max_prompt_length: Optional[int]: Set the maximum length of the prompt</span>
+<span class="sd">    :param max_completion_length: Optional[int]: Truncate the target sequence</span>
+<span class="sd">    :param data_collator: Optional[Callable]: Function to be used for creating datasets.</span>
+<span class="sd">    tokenizing process with `dataset.map`.</span>
+<span class="sd">    :param _do_init_fns: bool : preferred to set ture to trainer will automatically configure</span>
+<span class="sd">    model with provided training Arguments</span>
+<span class="sd">    :param : Set the padding value for the model</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">assert</span> <span class="n">arguments</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="p">(</span>
+        <span class="s2">&quot;You Have to pass arguments that will be used for training but you have passed&quot;</span>
+        <span class="s2">&quot;`arguments=None`&quot;</span>
+    <span class="p">)</span>
+    <span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">arguments</span><span class="p">,</span> <span class="n">TrainArguments</span><span class="p">),</span> <span class="p">(</span>
+        <span class="sa">f</span><span class="s2">&quot;arguments type must be `TrainArguments` but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">arguments</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">tokenizer</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;tokenizer must be specified to tokenize a ORPO dataset.&quot;</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">max_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;`max_length` is not set in the ORPOTrainer&#39;s init&quot;</span>
+            <span class="s2">&quot; it will default to `512` by default, but you should do it yourself in the future.&quot;</span><span class="p">,</span>
+            <span class="ne">UserWarning</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">max_length</span> <span class="o">=</span> <span class="mi">512</span>
+    <span class="k">if</span> <span class="n">max_prompt_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;`max_prompt_length` is not set in the ORPOTrainer&#39;s init&quot;</span>
+            <span class="s2">&quot; it will default to `128` by default, but you should do it yourself in the future.&quot;</span><span class="p">,</span>
+            <span class="ne">UserWarning</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">max_prompt_length</span> <span class="o">=</span> <span class="mi">128</span>
+
+    <span class="k">if</span> <span class="n">max_completion_length</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;When using an encoder decoder architecture, you should set `max_completion_length` in the &quot;</span>
+            <span class="s2">&quot;ORPOTrainer&#39;s init it will default to `128` by default, but you should do it yourself in the future.&quot;</span><span class="p">,</span>
+            <span class="ne">UserWarning</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">max_completion_length</span> <span class="o">=</span> <span class="mi">128</span>
+
+    <span class="n">padding_value</span> <span class="o">=</span> <span class="n">padding_value</span> <span class="k">if</span> <span class="n">padding_value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span> <span class="o">=</span> <span class="n">max_length</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span> <span class="o">=</span> <span class="n">label_pad_token_id</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span> <span class="o">=</span> <span class="n">padding_value</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span> <span class="o">=</span> <span class="n">max_prompt_length</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span> <span class="o">=</span> <span class="n">arguments</span><span class="o">.</span><span class="n">truncation_mode</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">disable_dropout</span> <span class="o">=</span> <span class="n">disable_dropout</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span> <span class="o">=</span> <span class="n">max_completion_length</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">is_encoder_decoder</span> <span class="o">=</span> <span class="n">is_encoder_decoder</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">low_mem_usage</span> <span class="o">=</span> <span class="n">low_mem_usage</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">beta</span> <span class="o">=</span> <span class="n">beta</span>
+    <span class="n">data_collator</span> <span class="o">=</span> <span class="n">DPODataCollatorWithPadding</span><span class="p">(</span>
+        <span class="n">max_prompt_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+        <span class="n">max_target_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">,</span>
+        <span class="n">pad_token_id</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span><span class="p">,</span>
+        <span class="n">label_pad_token_id</span><span class="o">=</span><span class="n">label_pad_token_id</span><span class="p">,</span>
+        <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="n">data_collator</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">data_collator</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">_stored_metrics</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">list</span><span class="p">))</span>
+    <span class="k">if</span> <span class="n">dataset_map_arguments</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">dataset_map_arguments</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="n">train_dataset</span> <span class="o">=</span> <span class="n">train_dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenize_row</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">dataset_map_arguments</span>
+    <span class="p">)</span>
+    <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenize_row</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">dataset_map_arguments</span>
+        <span class="p">)</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span> <span class="o">=</span> <span class="n">arguments</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">hp_name</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">deepspeed</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">is_in_train</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">data_collator</span> <span class="o">=</span> <span class="n">data_collator</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">train_dataset</span> <span class="o">=</span> <span class="n">train_dataset</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">_loggers_initialized</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_mesh</span><span class="p">()</span>
+    <span class="k">assert</span> <span class="n">padding_value</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`padding_value` can not be set as `None` it must be an integer.&quot;</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span> <span class="o">=</span> <span class="n">create_concatenated_forward</span><span class="p">(</span>
+        <span class="n">is_encoder_decoder</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">is_encoder_decoder</span><span class="p">,</span>
+        <span class="n">padding_value</span><span class="o">=</span><span class="n">padding_value</span><span class="p">,</span>
+        <span class="n">label_pad_token_id</span><span class="o">=</span><span class="n">label_pad_token_id</span><span class="p">,</span>
+    <span class="p">)</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">_cached_p_l_s</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">_cached_c_l_s</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">_cached_r_l_s</span> <span class="o">=</span> <span class="kc">None</span>
+
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+        <span class="n">arguments</span><span class="o">=</span><span class="n">arguments</span><span class="p">,</span>
+        <span class="n">dataset_train</span><span class="o">=</span><span class="n">train_dataset</span><span class="p">,</span>
+        <span class="n">dataset_eval</span><span class="o">=</span><span class="n">eval_dataset</span><span class="p">,</span>
+        <span class="n">finetune</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="n">checkpoint_path</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">_do_init_fns</span><span class="o">=</span><span class="n">_do_init_fns</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.__repr__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__repr__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>repr</strong> function is used to generate a string representation of an object.
+This function should return a string that can be parsed by the Python interpreter
+to recreate the object. The <strong>repr</strong> function is called when you use print() on an
+object, or when you type its name in the REPL.</p>
+<p>:param self: Refer to the instance of the class
+:return: A string representation of the object</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1187</span>
+<span class="normal">1188</span>
+<span class="normal">1189</span>
+<span class="normal">1190</span>
+<span class="normal">1191</span>
+<span class="normal">1192</span>
+<span class="normal">1193</span>
+<span class="normal">1194</span>
+<span class="normal">1195</span>
+<span class="normal">1196</span>
+<span class="normal">1197</span>
+<span class="normal">1198</span>
+<span class="normal">1199</span>
+<span class="normal">1200</span>
+<span class="normal">1201</span>
+<span class="normal">1202</span>
+<span class="normal">1203</span>
+<span class="normal">1204</span>
+<span class="normal">1205</span>
+<span class="normal">1206</span>
+<span class="normal">1207</span>
+<span class="normal">1208</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The __repr__ function is used to generate a string representation of an object.</span>
+<span class="sd">    This function should return a string that can be parsed by the Python interpreter</span>
+<span class="sd">    to recreate the object. The __repr__ function is called when you use print() on an</span>
+<span class="sd">    object, or when you type its name in the REPL.</span>
+
+<span class="sd">    :param self: Refer to the instance of the class</span>
+<span class="sd">    :return: A string representation of the object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">k</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;_&quot;</span><span class="p">):</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span><span class="p">,</span> <span class="s2">&quot;</span><span class="se">\n\t</span><span class="s2">&quot;</span><span class="p">)</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">350</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+            <span class="k">except</span> <span class="ne">TypeError</span><span class="p">:</span>
+                <span class="n">repr_src</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="s2">&quot;EasyDeLReadingError&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+                <span class="n">string</span> <span class="o">+=</span> <span class="n">repr_src</span> <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">repr_src</span><span class="p">)</span> <span class="o">&lt;</span> <span class="mi">350</span> <span class="k">else</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : &quot;</span> <span class="o">+</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">v</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(...)&quot;</span> <span class="o">+</span> <span class="s2">&quot;</span><span class="se">\n</span><span class="s2">&quot;</span>
+
+    <span class="k">return</span> <span class="n">string</span> <span class="o">+</span> <span class="s2">&quot;)&quot;</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.__str__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__str__</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>str</strong> function is called when you use the print function or when str() is used.
+It should return a string representation of the object.</p>
+<p>:param self: Refer to the instance of the class
+:return: The object's string representation</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1210</span>
+<span class="normal">1211</span>
+<span class="normal">1212</span>
+<span class="normal">1213</span>
+<span class="normal">1214</span>
+<span class="normal">1215</span>
+<span class="normal">1216</span>
+<span class="normal">1217</span>
+<span class="normal">1218</span>
+<span class="normal">1219</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The __str__ function is called when you use the print function or when str() is used.</span>
+<span class="sd">    It should return a string representation of the object.</span>
+
+<span class="sd">    :param self: Refer to the instance of the class</span>
+<span class="sd">    :return: The object&#39;s string representation</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__repr__</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.build_tokenized_answer" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">build_tokenized_answer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">answer</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Llama tokenizer does satisfy <code>enc(a + b) = enc(a) + enc(b)</code>.
+It does ensure <code>enc(a + b) = enc(a) + enc(a + b)[len(enc(a)):]</code>.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">build_tokenized_answer</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">prompt</span><span class="p">,</span> <span class="n">answer</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Llama tokenizer does satisfy `enc(a + b) = enc(a) + enc(b)`.</span>
+<span class="sd">    It does ensure `enc(a + b) = enc(a) + enc(a + b)[len(enc(a)):]`.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">full_tokenized</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">prompt</span> <span class="o">+</span> <span class="n">answer</span><span class="p">,</span> <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+    <span class="n">prompt_input_ids</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">)[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span>
+
+    <span class="n">answer_input_ids</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">):]</span>
+    <span class="n">answer_attention_mask</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">][</span><span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">):]</span>
+    <span class="n">prompt_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">answer_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">answer_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">)</span>
+    <span class="n">full_concat_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+        <span class="p">(</span>
+            <span class="n">prompt_input_ids</span><span class="p">,</span>
+            <span class="n">answer_input_ids</span>
+        <span class="p">)</span>
+    <span class="p">)</span>
+
+    <span class="c1"># Prepare input tokens for token by token comparison</span>
+    <span class="n">full_input_ids</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">])</span>
+
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">full_input_ids</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">full_concat_input_ids</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Prompt input ids and answer input ids should have the same length.&quot;</span><span class="p">)</span>
+
+    <span class="n">response_token_ids_start_idx</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">prompt_input_ids</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="o">!=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:</span><span class="n">response_token_ids_start_idx</span><span class="p">]:</span>
+        <span class="n">response_token_ids_start_idx</span> <span class="o">-=</span> <span class="mi">1</span>
+
+    <span class="n">prompt_input_ids</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:</span><span class="n">response_token_ids_start_idx</span><span class="p">]</span>
+    <span class="n">prompt_attention_mask</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">][:</span><span class="n">response_token_ids_start_idx</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">prompt_attention_mask</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Prompt input ids and attention mask should have the same length.&quot;</span><span class="p">)</span>
+
+    <span class="n">answer_input_ids</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="n">response_token_ids_start_idx</span><span class="p">:]</span>
+    <span class="n">answer_attention_mask</span> <span class="o">=</span> <span class="n">full_tokenized</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">][</span><span class="n">response_token_ids_start_idx</span><span class="p">:]</span>
+
+    <span class="k">return</span> <span class="nb">dict</span><span class="p">(</span>
+        <span class="n">prompt_input_ids</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">prompt_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">prompt_attention_mask</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">prompt_attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">input_ids</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">answer_input_ids</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+        <span class="n">attention_mask</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">answer_attention_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="s2">&quot;i4&quot;</span><span class="p">),</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.configure_functions" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">configure_functions</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The configure_functions function is responsible for configuring the functions that will be used in training.
+It does this by first defining a function called function_configurations, which initializes the model parameters
+ and returns
+them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate
+on a batch of data, including:
+:param self: Access the class attributes
+:return: A TrainerConfigureFunctionFuncOutput object</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span>
+<span class="normal">620</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">configure_functions</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The configure_functions function is responsible for configuring the functions that will be used in training.</span>
+<span class="sd">    It does this by first defining a function called function_configurations, which initializes the model parameters</span>
+<span class="sd">     and returns</span>
+<span class="sd">    them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate</span>
+<span class="sd">    on a batch of data, including:</span>
+<span class="sd">    :param self: Access the class attributes</span>
+<span class="sd">    :return: A TrainerConfigureFunctionFuncOutput object</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">initialize_state_function</span><span class="p">():</span>
+        <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">init_weights</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">init_input_shape</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">:</span>
+            <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_bf16</span><span class="p">(</span><span class="n">initialized_parameters</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float16</span><span class="p">:</span>
+            <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_fp16</span><span class="p">(</span><span class="n">initialized_parameters</span><span class="p">)</span>
+
+        <span class="n">tx</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx</span>
+        <span class="n">parameters</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">freeze</span><span class="p">({</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">initialized_parameters</span><span class="p">})</span>
+        <span class="n">tx_init</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">:</span>
+                <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_bf16</span><span class="p">(</span><span class="n">lora_parameters</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float16</span><span class="p">:</span>
+                <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_fp16</span><span class="p">(</span><span class="n">lora_parameters</span><span class="p">)</span>
+
+            <span class="k">return</span> <span class="n">EasyDeLState</span><span class="p">(</span>
+                <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">lora_parameters</span><span class="p">,</span>
+                <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span><span class="p">,</span>
+                <span class="n">opt_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span><span class="p">,</span>
+                <span class="n">tx_init</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">tx_init</span><span class="p">),</span>
+                <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span><span class="p">,</span>
+                <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create</span><span class="p">(</span>
+                <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                <span class="n">module_config</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">),</span>
+                <span class="n">tx_init</span><span class="o">=</span><span class="n">tx_init</span><span class="p">,</span>
+                <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>
+            <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">create_state_from_params_function</span><span class="p">(</span><span class="n">parameters</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create</span><span class="p">(</span>
+                <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tx</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                <span class="n">module_config</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">),</span>
+                <span class="n">tx_init</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">),</span>
+                <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">EasyDeLState</span><span class="p">(</span>
+                <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span><span class="p">,</span>
+                <span class="n">opt_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span><span class="p">,</span>
+                <span class="n">tx_init</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)),</span>
+                <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span><span class="p">,</span>
+                <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="p">)</span>
+
+    <span class="n">state_shape</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="n">initialize_state_function</span><span class="p">)</span>
+    <span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+            <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+        <span class="n">state_shape</span>
+    <span class="p">)</span>
+    <span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+        <span class="n">create_state_from_params_function</span><span class="p">,</span>
+        <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="o">.</span><span class="n">params</span><span class="p">,),</span>
+        <span class="n">out_shardings</span><span class="o">=</span><span class="n">state_partition_spec</span><span class="p">,</span>
+        <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,)</span>
+    <span class="p">)</span>
+    <span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+        <span class="n">create_orpo_step_function</span><span class="p">(</span>
+            <span class="n">mode</span><span class="o">=</span><span class="s2">&quot;train&quot;</span><span class="p">,</span>
+            <span class="n">beta</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">beta</span><span class="p">,</span>
+            <span class="n">concatenated_forward</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span><span class="p">,</span>
+            <span class="n">batch_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span>
+        <span class="p">),</span>
+        <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),),</span>
+
+    <span class="p">)</span>
+
+    <span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+        <span class="n">create_orpo_step_function</span><span class="p">(</span>
+            <span class="n">mode</span><span class="o">=</span><span class="s2">&quot;eval&quot;</span><span class="p">,</span>
+            <span class="n">beta</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">beta</span><span class="p">,</span>
+            <span class="n">concatenated_forward</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">concatenated_forward</span><span class="p">,</span>
+            <span class="n">batch_partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span>
+        <span class="p">),</span>
+        <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),),</span>
+
+    <span class="p">)</span>
+
+    <span class="n">mesh</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_mesh</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ckpt_path_exists</span><span class="p">()</span>
+    <span class="n">checkpoint_manager</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_streaming_checkpointer</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">state_partition_spec</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">state_shape</span> <span class="o">=</span> <span class="n">state_shape</span>
+
+    <span class="k">return</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">(</span>
+        <span class="n">create_sharded_state_from_params_function</span><span class="o">=</span><span class="n">create_sharded_state_from_params_function</span><span class="p">,</span>
+        <span class="n">sharded_train_step_function</span><span class="o">=</span><span class="n">sharded_train_step_function</span><span class="p">,</span>
+        <span class="n">sharded_eval_step_function</span><span class="o">=</span><span class="n">sharded_eval_step_function</span><span class="p">,</span>
+        <span class="n">mesh</span><span class="o">=</span><span class="n">mesh</span><span class="p">,</span>
+        <span class="n">checkpoint_manager</span><span class="o">=</span><span class="n">checkpoint_manager</span><span class="p">,</span>
+        <span class="n">initialize_state_function</span><span class="o">=</span><span class="n">initialize_state_function</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.eval" class="doc doc-heading">
+            <code class="highlight language-python"><span class="nb">eval</span><span class="p">(</span><span class="n">model_state</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Evaluate the Given Model State and yield the eval metrics</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">1128</span>
+<span class="normal">1129</span>
+<span class="normal">1130</span>
+<span class="normal">1131</span>
+<span class="normal">1132</span>
+<span class="normal">1133</span>
+<span class="normal">1134</span>
+<span class="normal">1135</span>
+<span class="normal">1136</span>
+<span class="normal">1137</span>
+<span class="normal">1138</span>
+<span class="normal">1139</span>
+<span class="normal">1140</span>
+<span class="normal">1141</span>
+<span class="normal">1142</span>
+<span class="normal">1143</span>
+<span class="normal">1144</span>
+<span class="normal">1145</span>
+<span class="normal">1146</span>
+<span class="normal">1147</span>
+<span class="normal">1148</span>
+<span class="normal">1149</span>
+<span class="normal">1150</span>
+<span class="normal">1151</span>
+<span class="normal">1152</span>
+<span class="normal">1153</span>
+<span class="normal">1154</span>
+<span class="normal">1155</span>
+<span class="normal">1156</span>
+<span class="normal">1157</span>
+<span class="normal">1158</span>
+<span class="normal">1159</span>
+<span class="normal">1160</span>
+<span class="normal">1161</span>
+<span class="normal">1162</span>
+<span class="normal">1163</span>
+<span class="normal">1164</span>
+<span class="normal">1165</span>
+<span class="normal">1166</span>
+<span class="normal">1167</span>
+<span class="normal">1168</span>
+<span class="normal">1169</span>
+<span class="normal">1170</span>
+<span class="normal">1171</span>
+<span class="normal">1172</span>
+<span class="normal">1173</span>
+<span class="normal">1174</span>
+<span class="normal">1175</span>
+<span class="normal">1176</span>
+<span class="normal">1177</span>
+<span class="normal">1178</span>
+<span class="normal">1179</span>
+<span class="normal">1180</span>
+<span class="normal">1181</span>
+<span class="normal">1182</span>
+<span class="normal">1183</span>
+<span class="normal">1184</span>
+<span class="normal">1185</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">eval</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Iterator</span><span class="p">[</span><span class="nb">dict</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Evaluate the Given Model State and yield the eval metrics&quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`dataloader_eval` is required by evaluator function.&quot;</span>
+    <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span><span class="p">)</span>
+        <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Evaluating&quot;</span><span class="p">)</span>
+        <span class="n">current_step</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">batch</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span><span class="p">:</span>
+                <span class="n">current_step</span> <span class="o">+=</span> <span class="mi">1</span>
+                <span class="n">time_start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span><span class="p">:</span>
+                    <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">batch</span><span class="o">.</span><span class="n">keys</span><span class="p">()):</span>
+                    <span class="k">if</span> <span class="ow">not</span> <span class="p">(</span>
+                            <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_input_ids&quot;</span><span class="p">)</span>
+                            <span class="ow">or</span> <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_attention_mask&quot;</span><span class="p">)</span>
+                            <span class="ow">or</span> <span class="n">key</span><span class="o">.</span><span class="n">endswith</span><span class="p">(</span><span class="s2">&quot;_labels&quot;</span><span class="p">)</span>
+                    <span class="p">):</span>
+                        <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+                <span class="n">_</span><span class="p">,</span> <span class="n">outputs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span><span class="p">(</span>
+                    <span class="n">model_state</span><span class="p">,</span>
+                    <span class="n">batch</span>
+                <span class="p">)</span>
+                <span class="n">total_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">time_start</span>
+                <span class="p">(</span>
+                    <span class="n">loss</span><span class="p">,</span> <span class="n">metrics</span>
+                <span class="p">)</span> <span class="o">=</span> <span class="n">outputs</span><span class="o">.</span><span class="n">loss</span><span class="p">,</span> <span class="n">outputs</span><span class="o">.</span><span class="n">metrics</span>
+
+                <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+
+                <span class="n">eval_metrics</span> <span class="o">=</span> <span class="p">{</span>
+                    <span class="s2">&quot;eval/loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                    <span class="s2">&quot;eval/mean_loss&quot;</span><span class="p">:</span> <span class="n">loss_sum</span> <span class="o">/</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">),</span>
+                    <span class="s2">&quot;eval/step&quot;</span><span class="p">:</span> <span class="n">current_step</span><span class="p">,</span>
+                    <span class="s2">&quot;eval/step_time&quot;</span><span class="p">:</span> <span class="n">total_time</span><span class="p">,</span>
+                    <span class="s2">&quot;eval/perplexity&quot;</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">loss</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                <span class="p">}</span>
+                <span class="n">eval_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">metrics</span><span class="p">)</span>
+                <span class="n">log_metrics</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">eval_metrics</span><span class="p">)</span>
+                <span class="n">eval_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">captured_memory</span><span class="p">)</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">use_wandb</span><span class="p">:</span>
+                    <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">spmd_mode</span><span class="p">(</span><span class="s2">&quot;allow_all&quot;</span><span class="p">):</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                            <span class="n">eval_metrics</span>
+                        <span class="p">)</span>
+
+                <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                <span class="n">pbar</span><span class="o">.</span><span class="n">set_postfix</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;eval/&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">):</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">log_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">()})</span>
+                <span class="k">yield</span> <span class="n">eval_metrics</span>
+        <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                <span class="s2">&quot;KeyboardInterrupt At Evaluation model Will return Nothing and just pass.&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.get_eval_dataloader" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_eval_dataloader</span><span class="p">(</span><span class="n">eval_dataset</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Returns the evaluation [<code>~tensorflow.data.Dataset</code>].</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">956</span>
+<span class="normal">957</span>
+<span class="normal">958</span>
+<span class="normal">959</span>
+<span class="normal">960</span>
+<span class="normal">961</span>
+<span class="normal">962</span>
+<span class="normal">963</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_eval_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">eval_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dataset</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">tensorflow</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">Dataset</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Returns the evaluation [`~tensorflow.data.Dataset`].</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Trainer: evaluation requires an eval_dataset.&quot;</span><span class="p">)</span>
+    <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">eval_dataset</span> <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval_dataset</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_eval_dataloader</span><span class="p">(</span><span class="n">eval_dataset</span><span class="o">=</span><span class="n">eval_dataset</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.get_train_dataloader" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_train_dataloader</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Returns the training [<code>~tensorflow.data.Dataset</code>].</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">948</span>
+<span class="normal">949</span>
+<span class="normal">950</span>
+<span class="normal">951</span>
+<span class="normal">952</span>
+<span class="normal">953</span>
+<span class="normal">954</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_train_dataloader</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">tensorflow</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">Dataset</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Returns the training [`~tensorflow.data.Dataset`].</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_get_train_dataloader</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.initialize_trainer_utils" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">initialize_trainer_utils</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+
+
+<details class="the-initialize_trainer_utils-function-is-responsible-for-initializing-the-following" open>
+  <summary>The initialize_trainer_utils function is responsible for initializing the following</summary>
+  <ul>
+<li>wandb_runtime (if you use_wandb is True)</li>
+<li>timer object (for logging time taken by various functions)</li>
+<li>dataloader objects for training and evaluation data, along with max steps per epoch.
+  The configure_dataloader function accomplishes this task.</li>
+</ul>
+</details>      <p>:param self: Represent the instance of the class
+:return: A tuple of functions</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">792</span>
+<span class="normal">793</span>
+<span class="normal">794</span>
+<span class="normal">795</span>
+<span class="normal">796</span>
+<span class="normal">797</span>
+<span class="normal">798</span>
+<span class="normal">799</span>
+<span class="normal">800</span>
+<span class="normal">801</span>
+<span class="normal">802</span>
+<span class="normal">803</span>
+<span class="normal">804</span>
+<span class="normal">805</span>
+<span class="normal">806</span>
+<span class="normal">807</span>
+<span class="normal">808</span>
+<span class="normal">809</span>
+<span class="normal">810</span>
+<span class="normal">811</span>
+<span class="normal">812</span>
+<span class="normal">813</span>
+<span class="normal">814</span>
+<span class="normal">815</span>
+<span class="normal">816</span>
+<span class="normal">817</span>
+<span class="normal">818</span>
+<span class="normal">819</span>
+<span class="normal">820</span>
+<span class="normal">821</span>
+<span class="normal">822</span>
+<span class="normal">823</span>
+<span class="normal">824</span>
+<span class="normal">825</span>
+<span class="normal">826</span>
+<span class="normal">827</span>
+<span class="normal">828</span>
+<span class="normal">829</span>
+<span class="normal">830</span>
+<span class="normal">831</span>
+<span class="normal">832</span>
+<span class="normal">833</span>
+<span class="normal">834</span>
+<span class="normal">835</span>
+<span class="normal">836</span>
+<span class="normal">837</span>
+<span class="normal">838</span>
+<span class="normal">839</span>
+<span class="normal">840</span>
+<span class="normal">841</span>
+<span class="normal">842</span>
+<span class="normal">843</span>
+<span class="normal">844</span>
+<span class="normal">845</span>
+<span class="normal">846</span>
+<span class="normal">847</span>
+<span class="normal">848</span>
+<span class="normal">849</span>
+<span class="normal">850</span>
+<span class="normal">851</span>
+<span class="normal">852</span>
+<span class="normal">853</span>
+<span class="normal">854</span>
+<span class="normal">855</span>
+<span class="normal">856</span>
+<span class="normal">857</span>
+<span class="normal">858</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">initialize_trainer_utils</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The initialize_trainer_utils function is responsible for initializing the following:</span>
+<span class="sd">        - wandb_runtime (if you use_wandb is True)</span>
+<span class="sd">        - timer object (for logging time taken by various functions)</span>
+<span class="sd">        - dataloader objects for training and evaluation data, along with max steps per epoch.</span>
+<span class="sd">          The configure_dataloader function accomplishes this task.</span>
+
+<span class="sd">    :param self: Represent the instance of the class</span>
+<span class="sd">    :return: A tuple of functions</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_wandb_init</span><span class="p">()</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">use_wandb</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span> <span class="o">=</span> <span class="n">Timers</span><span class="p">(</span>
+        <span class="n">use_wandb</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">tensorboard_writer</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_board</span><span class="p">()</span>
+    <span class="p">)</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+    <span class="n">dataset_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_dataloader</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">dataloader_train</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">max_training_steps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">dataloader_eval</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="n">dataset_configurations</span><span class="o">.</span><span class="n">max_evaluation_steps</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure dataloaders&quot;</span><span class="p">])</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+    <span class="n">model_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_model</span><span class="p">()</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">model</span>
+    <span class="n">tx</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">tx</span>
+    <span class="n">scheduler</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">scheduler</span>
+    <span class="n">config</span> <span class="o">=</span> <span class="n">model_configurations</span><span class="o">.</span><span class="n">config</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">tx</span> <span class="o">=</span> <span class="n">tx</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span> <span class="o">=</span> <span class="n">scheduler</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">lora_modules</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span><span class="o">.</span><span class="n">apply_lora</span><span class="p">(</span>
+            <span class="n">module</span><span class="o">=</span><span class="n">model</span><span class="p">,</span>
+            <span class="n">parameters</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">rapture_config</span><span class="o">.</span><span class="n">parameters</span><span class="p">,</span>
+            <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_parameters</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_module</span><span class="o">.</span><span class="fm">__call__</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_opt_state</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_module</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span> <span class="o">=</span> <span class="n">lora_modules</span><span class="o">.</span><span class="n">lora_tx</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure Model, Optimizer, Scheduler and Config&quot;</span><span class="p">])</span>
+
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+
+    <span class="n">function_configurations</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">configure_functions</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">function_configurations</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span>
+    <span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">sharded_train_step_function</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">sharded_eval_step_function</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">mesh</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_manager</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">checkpoint_manager</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state_function</span> <span class="o">=</span> <span class="n">function_configurations</span><span class="o">.</span><span class="n">initialize_state_function</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="p">(</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">)</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">timer</span><span class="o">.</span><span class="n">log</span><span class="p">([</span><span class="s2">&quot;configure functions and sharding them&quot;</span><span class="p">])</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.tokenize_row" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">tokenize_row</span><span class="p">(</span><span class="n">feature</span><span class="p">,</span> <span class="n">state</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The tokenize_row function is responsible for taking a single row of data and converting it into the format that
+the model expects. This includes:
+- Tokenizing the text (using HuggingFace's tokenizer)
+- Padding/truncating sequences to a fixed length (if necessary)
+- Creating attention masks, which tell the model which tokens are padding and which aren't.</p>
+<p>:param self: Represent the instance of the class
+:param feature: Pass in the data from the dataset
+:param state: EasyDeLState: Keep track of the state of the tokenizer
+:return: A dictionary of the following keys</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">tokenize_row</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">feature</span><span class="p">,</span> <span class="n">state</span><span class="p">:</span> <span class="n">EasyDeLState</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dict</span><span class="p">:</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The tokenize_row function is responsible for taking a single row of data and converting it into the format that</span>
+<span class="sd">    the model expects. This includes:</span>
+<span class="sd">    - Tokenizing the text (using HuggingFace&#39;s tokenizer)</span>
+<span class="sd">    - Padding/truncating sequences to a fixed length (if necessary)</span>
+<span class="sd">    - Creating attention masks, which tell the model which tokens are padding and which aren&#39;t.</span>
+
+<span class="sd">    :param self: Represent the instance of the class</span>
+<span class="sd">    :param feature: Pass in the data from the dataset</span>
+<span class="sd">    :param state: EasyDeLState: Keep track of the state of the tokenizer</span>
+<span class="sd">    :return: A dictionary of the following keys</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">batch</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="n">prompt</span> <span class="o">=</span> <span class="n">feature</span><span class="p">[</span><span class="s2">&quot;prompt&quot;</span><span class="p">]</span>
+    <span class="n">chosen</span> <span class="o">=</span> <span class="n">feature</span><span class="p">[</span><span class="s2">&quot;chosen&quot;</span><span class="p">]</span>
+    <span class="n">rejected</span> <span class="o">=</span> <span class="n">feature</span><span class="p">[</span><span class="s2">&quot;rejected&quot;</span><span class="p">]</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;prompt should be an str but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">prompt</span><span class="p">)</span><span class="si">}</span><span class="s2"> , </span><span class="si">{</span><span class="n">prompt</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+    <span class="n">prompt_tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span>
+        <span class="n">prompt</span><span class="p">,</span>
+        <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+        <span class="n">return_tensors</span><span class="o">=</span><span class="s2">&quot;np&quot;</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="n">prompt_tokens</span> <span class="o">=</span> <span class="p">{</span><span class="sa">f</span><span class="s2">&quot;prompt_</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">prompt_tokens</span><span class="o">.</span><span class="n">items</span><span class="p">()}</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">chosen</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;chosen should be an str but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">chosen</span><span class="p">)</span><span class="si">}</span><span class="s2"> , </span><span class="si">{</span><span class="n">chosen</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+    <span class="n">chosen_tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_tokenized_answer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">chosen</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">rejected</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;rejected should be an str but got </span><span class="si">{</span><span class="nb">type</span><span class="p">(</span><span class="n">rejected</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+    <span class="n">rejected_tokens</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">build_tokenized_answer</span><span class="p">(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">rejected</span><span class="p">)</span>
+    <span class="n">v2d</span> <span class="o">=</span> <span class="k">lambda</span> <span class="n">ar</span><span class="p">:</span> <span class="n">ar</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span> <span class="k">if</span> <span class="n">ar</span><span class="o">.</span><span class="n">ndim</span> <span class="o">==</span> <span class="mi">1</span> <span class="k">else</span> <span class="n">ar</span>
+
+    <span class="k">def</span> <span class="nf">add_tkn</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="n">ar</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">n</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+                <span class="n">v2d</span><span class="p">(</span><span class="n">ar</span><span class="p">)</span>
+            <span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">add_post_tkn</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="n">ar</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span>
+                <span class="n">v2d</span><span class="p">(</span><span class="n">ar</span><span class="p">),</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">n</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+            <span class="p">),</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)</span>
+
+    <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+        <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span>
+    <span class="p">)</span>
+    <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+        <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span>
+    <span class="p">)</span>
+    <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">bos_token_id</span><span class="p">,</span>
+        <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span>
+    <span class="p">)</span>
+
+    <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+        <span class="mi">1</span><span class="p">,</span> <span class="n">prompt_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span>
+    <span class="p">)</span>
+    <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+        <span class="mi">1</span><span class="p">,</span> <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span>
+    <span class="p">)</span>
+    <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_tkn</span><span class="p">(</span>
+        <span class="mi">1</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]</span>
+    <span class="p">)</span>
+
+    <span class="c1"># add EOS token to end of answer</span>
+    <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span> <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">])</span>
+    <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">])</span>
+
+    <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">])</span>
+    <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">add_post_tkn</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">])</span>
+
+    <span class="n">longer_response_length</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">],</span> <span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">])</span>
+
+    <span class="c1"># if combined sequence is too long, truncate the prompt</span>
+    <span class="k">for</span> <span class="n">answer_tokens</span> <span class="ow">in</span> <span class="p">[</span><span class="n">chosen_tokens</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">,</span> <span class="n">prompt_tokens</span><span class="p">]:</span>
+        <span class="n">length_rn</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="n">longer_response_length</span>
+        <span class="k">if</span> <span class="n">length_rn</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span><span class="p">:</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span> <span class="o">==</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]:</span>
+                    <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">][:,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">]</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span> <span class="o">==</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">]:</span>
+                    <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">][:,</span> <span class="o">-</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">:]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Unknown truncation mode: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+    <span class="c1"># if that&#39;s still too long, truncate the response</span>
+    <span class="k">for</span> <span class="n">answer_tokens</span> <span class="ow">in</span> <span class="p">[</span><span class="n">chosen_tokens</span><span class="p">,</span> <span class="n">rejected_tokens</span><span class="p">]:</span>
+        <span class="k">if</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">+</span> <span class="n">longer_response_length</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">]:</span>
+                <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">]</span> <span class="o">=</span> <span class="n">answer_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">][:,</span> <span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_length</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">]</span>
+
+    <span class="n">chosen_sequence_tokens</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="n">k</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">v2d</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;prompt_</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">]),</span> <span class="n">v2d</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">])),</span>
+            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span>
+    <span class="p">}</span>
+    <span class="n">rejected_sequence_tokens</span> <span class="o">=</span> <span class="p">{</span>
+        <span class="n">k</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">concatenate</span><span class="p">(</span>
+            <span class="p">(</span><span class="n">v2d</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;prompt_</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">]),</span> <span class="n">v2d</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="n">k</span><span class="p">])),</span>
+            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)</span> <span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span>
+    <span class="p">}</span>
+    <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:]</span>
+    <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">chosen_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">at</span><span class="p">[</span>
+                                       <span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">])</span>
+                                       <span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">([</span><span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">chosen_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]))</span>
+    <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][:]</span>
+    <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">rejected_sequence_tokens</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">at</span><span class="p">[</span>
+                                         <span class="p">:</span> <span class="nb">len</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">])</span>
+                                         <span class="p">]</span><span class="o">.</span><span class="n">set</span><span class="p">(</span>
+        <span class="p">([</span><span class="bp">self</span><span class="o">.</span><span class="n">label_pad_token_id</span><span class="p">]</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">rejected_tokens</span><span class="p">[</span><span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">]))</span>
+    <span class="p">)</span>
+
+    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">tokens_</span> <span class="ow">in</span> <span class="p">{</span>
+        <span class="s2">&quot;chosen_&quot;</span><span class="p">:</span> <span class="n">chosen_sequence_tokens</span><span class="p">,</span>
+        <span class="s2">&quot;rejected_&quot;</span><span class="p">:</span> <span class="n">rejected_sequence_tokens</span><span class="p">,</span>
+        <span class="s2">&quot;&quot;</span><span class="p">:</span> <span class="n">prompt_tokens</span><span class="p">,</span>
+    <span class="p">}</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="k">for</span> <span class="n">type_key</span><span class="p">,</span> <span class="n">tokens</span> <span class="ow">in</span> <span class="n">tokens_</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;token_type_ids&quot;</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="n">b</span><span class="p">,</span> <span class="n">s</span> <span class="o">=</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span> <span class="o">&gt;</span> <span class="n">s</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">k</span> <span class="o">==</span> <span class="s2">&quot;chosen_&quot;</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;input_ids&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;labels&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+
+                    <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">]</span>
+
+                    <span class="k">if</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                            <span class="sa">f</span><span class="s2">&quot;there was an error in padding token with `type_key` of </span><span class="si">{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="sa">f</span><span class="s2">&quot;. it must have sequence_length of </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="si">}</span><span class="s2"> but we got </span><span class="si">{</span><span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="sa">f</span><span class="s2">&quot; From </span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="p">)</span>
+                    <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">]</span>
+                <span class="k">elif</span> <span class="n">k</span> <span class="o">==</span> <span class="s2">&quot;rejected_&quot;</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;input_ids&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;labels&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">]</span>
+                    <span class="k">if</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                            <span class="sa">f</span><span class="s2">&quot;there was an error in padding token with `type_key` of </span><span class="si">{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="sa">f</span><span class="s2">&quot;. it must have sequence_length of </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_completion_length</span><span class="si">}</span><span class="s2"> but we got </span><span class="si">{</span><span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="sa">f</span><span class="s2">&quot; From </span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="p">)</span>
+                <span class="k">elif</span> <span class="n">k</span> <span class="o">==</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;prompt_input_ids&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;prompt_attention_mask&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">type_key</span> <span class="o">==</span> <span class="s2">&quot;prompt_labels&quot;</span><span class="p">:</span>
+                        <span class="n">tokens</span> <span class="o">=</span> <span class="n">pad_to_length</span><span class="p">(</span>
+                            <span class="n">tokens</span><span class="p">,</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">,</span>
+                            <span class="n">pad_value</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">padding_value</span><span class="p">,</span>
+                            <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                    <span class="n">tokens</span> <span class="o">=</span> <span class="n">tokens</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">]</span>
+                    <span class="k">if</span> <span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span> <span class="o">!=</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                            <span class="sa">f</span><span class="s2">&quot;there was an error in padding token with `type_key` of </span><span class="si">{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="sa">f</span><span class="s2">&quot;. it must have sequence_length of </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">max_prompt_length</span><span class="si">}</span><span class="s2"> but we got </span><span class="si">{</span><span class="n">tokens</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="sa">f</span><span class="s2">&quot; From </span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="p">)</span>
+            <span class="n">batch</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">k</span><span class="si">}{</span><span class="n">type_key</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">tokens</span>
+    <span class="k">return</span> <span class="n">batch</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-orpo-utils/index.html b/generated-trainer-orpo-utils/index.html
new file mode 100644
index 000000000..07cb5e887
--- /dev/null
+++ b/generated-trainer-orpo-utils/index.html
@@ -0,0 +1,6028 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-orpo-orpo_trainer/">
+      
+      
+        <link rel="next" href="../generated-trainer-sft-stf_trainer/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Utils - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainerorpoutils" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Utils
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.orpo.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainerorpoutils">trainer.orpo.utils</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.orpo.utils"></a>
+    <div class="doc doc-contents first">
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-sft-stf_trainer/index.html b/generated-trainer-sft-stf_trainer/index.html
new file mode 100644
index 000000000..8b876f05d
--- /dev/null
+++ b/generated-trainer-sft-stf_trainer/index.html
@@ -0,0 +1,6860 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-orpo-utils/">
+      
+      
+        <link rel="next" href="../generated-trainer-sft-utils/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Stf Trainer - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainersftstf_trainer" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Stf Trainer
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.sft.stf_trainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      stf_trainer
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.sft.stf_trainer.SFTTrainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      SFTTrainer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="SFTTrainer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.sft.stf_trainer.SFTTrainer.configure_dataloader" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_dataloader
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.sft.stf_trainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      stf_trainer
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.sft.stf_trainer.SFTTrainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      SFTTrainer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="SFTTrainer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.sft.stf_trainer.SFTTrainer.configure_dataloader" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_dataloader
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainersftstf_trainer">trainer.sft.stf_trainer</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.sft.stf_trainer"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.trainer.sft.stf_trainer.SFTTrainer" class="doc doc-heading">
+            <code>SFTTrainer</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.trainer.causal_language_model_trainer.CausalLanguageModelTrainer" href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer">CausalLanguageModelTrainer</a></code>, <code><span title="abc.ABC">ABC</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/trainer/sft/stf_trainer.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 23</span>
+<span class="normal"> 24</span>
+<span class="normal"> 25</span>
+<span class="normal"> 26</span>
+<span class="normal"> 27</span>
+<span class="normal"> 28</span>
+<span class="normal"> 29</span>
+<span class="normal"> 30</span>
+<span class="normal"> 31</span>
+<span class="normal"> 32</span>
+<span class="normal"> 33</span>
+<span class="normal"> 34</span>
+<span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">SFTTrainer</span><span class="p">(</span><span class="n">CausalLanguageModelTrainer</span><span class="p">,</span> <span class="n">ABC</span><span class="p">):</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">arguments</span><span class="p">:</span> <span class="n">TrainArguments</span><span class="p">,</span>
+            <span class="n">tokenizer</span><span class="p">:</span> <span class="n">PreTrainedTokenizerBase</span><span class="p">,</span>
+            <span class="n">train_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dataset</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">eval_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">Dataset</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Dataset</span><span class="p">]]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dataset_text_field</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">packing</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">formatting_func</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Callable</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">num_of_sequences</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">chars_per_token</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">3.6</span><span class="p">,</span>
+            <span class="n">dataset_num_proc</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dataset_batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1000</span><span class="p">,</span>
+            <span class="n">neftune_noise_alpha</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dataset_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">eval_packing</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">checkpoint_path</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">remove_unused_columns</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">_do_init_fns</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span>
+    <span class="p">):</span>
+
+        <span class="k">if</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">,</span> <span class="s2">&quot;pad_token&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataset_num_proc</span> <span class="o">=</span> <span class="n">dataset_num_proc</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataset_batch_size</span> <span class="o">=</span> <span class="n">dataset_batch_size</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">_trainer_supports_neftune</span> <span class="o">=</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">arguments</span><span class="p">,</span> <span class="s2">&quot;neftune_noise_alpha&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">neftune_noise_alpha</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">_trainer_supports_neftune</span><span class="p">:</span>
+            <span class="n">arguments</span><span class="o">.</span><span class="n">neftune_noise_alpha</span> <span class="o">=</span> <span class="n">neftune_noise_alpha</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;You passed a `neftune_noise_alpha` argument to the SFTTrainer, the value you passed will override &quot;</span>
+                <span class="s2">&quot;the one in the `TrainArguments`.&quot;</span>
+            <span class="p">)</span>
+        <span class="k">elif</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_trainer_supports_neftune</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">neftune_noise_alpha</span> <span class="o">=</span> <span class="n">neftune_noise_alpha</span>
+
+        <span class="k">if</span> <span class="n">formatting_func</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">dataset_text_field</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">formatting_func</span> <span class="o">=</span> <span class="n">get_formatting_func_from_dataset</span><span class="p">(</span><span class="n">train_dataset</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">)</span>  <span class="c1"># type: ignore</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">packing</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">dataset_text_field</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">formatting_func</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;You passed `packing=False` to the SFTTrainer, but you didn&#39;t pass a &quot;</span>
+                    <span class="s2">&quot;`dataset_text_field` or `formatting_func` argument.&quot;</span>
+                <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">dataset_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">dataset_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">train_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">train_dataset</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_prepare_dataset</span><span class="p">(</span>
+                <span class="n">train_dataset</span><span class="p">,</span>
+                <span class="n">tokenizer</span><span class="p">,</span>
+                <span class="n">packing</span><span class="p">,</span>
+                <span class="n">dataset_text_field</span><span class="p">,</span>
+                <span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+                <span class="n">formatting_func</span><span class="p">,</span>
+                <span class="n">num_of_sequences</span><span class="p">,</span>
+                <span class="n">chars_per_token</span><span class="p">,</span>
+                <span class="n">remove_unused_columns</span><span class="o">=</span><span class="n">remove_unused_columns</span><span class="p">,</span>
+                <span class="o">**</span><span class="n">dataset_kwargs</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="n">eval_dataset</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">_multiple</span> <span class="o">=</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">eval_dataset</span><span class="p">,</span> <span class="nb">dict</span><span class="p">)</span>
+            <span class="n">_eval_datasets</span> <span class="o">=</span> <span class="n">eval_dataset</span> <span class="k">if</span> <span class="n">_multiple</span> <span class="k">else</span> <span class="p">{</span><span class="s2">&quot;singleton&quot;</span><span class="p">:</span> <span class="n">eval_dataset</span><span class="p">}</span>
+
+            <span class="n">eval_packing</span> <span class="o">=</span> <span class="n">packing</span> <span class="k">if</span> <span class="n">eval_packing</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">eval_packing</span>
+
+            <span class="k">for</span> <span class="n">_eval_dataset_name</span><span class="p">,</span> <span class="n">_eval_dataset</span> <span class="ow">in</span> <span class="n">_eval_datasets</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                <span class="n">_eval_datasets</span><span class="p">[</span><span class="n">_eval_dataset_name</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_prepare_dataset</span><span class="p">(</span>
+                    <span class="n">_eval_dataset</span><span class="p">,</span>
+                    <span class="n">tokenizer</span><span class="p">,</span>
+                    <span class="n">eval_packing</span><span class="p">,</span>
+                    <span class="n">dataset_text_field</span><span class="p">,</span>
+                    <span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+                    <span class="n">formatting_func</span><span class="p">,</span>
+                    <span class="n">num_of_sequences</span><span class="p">,</span>
+                    <span class="n">chars_per_token</span><span class="p">,</span>
+                    <span class="n">remove_unused_columns</span><span class="o">=</span><span class="n">remove_unused_columns</span><span class="p">,</span>
+                    <span class="o">**</span><span class="n">dataset_kwargs</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="n">_multiple</span><span class="p">:</span>
+                <span class="n">eval_dataset</span> <span class="o">=</span> <span class="n">_eval_datasets</span><span class="p">[</span><span class="s2">&quot;singleton&quot;</span><span class="p">]</span>
+        <span class="k">if</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">padding_side</span> <span class="o">!=</span> <span class="s2">&quot;right&quot;</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;You passed a tokenizer with `padding_side` not equal to `right` to the SFTTrainer. This might lead &quot;</span>
+                <span class="s2">&quot;to some unexpected behaviour due to overflow issues when training a model in half-precision. &quot;</span>
+                <span class="s2">&quot;You might consider adding `tokenizer.padding_side = &#39;right&#39;` to your code.&quot;</span>
+            <span class="p">)</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">(</span>
+            <span class="n">arguments</span><span class="o">=</span><span class="n">arguments</span><span class="p">,</span>
+            <span class="n">dataset_train</span><span class="o">=</span><span class="n">train_dataset</span><span class="p">,</span>
+            <span class="n">dataset_eval</span><span class="o">=</span><span class="n">eval_dataset</span><span class="p">,</span>
+            <span class="n">finetune</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">checkpoint_path</span><span class="o">=</span><span class="n">checkpoint_path</span><span class="p">,</span>
+            <span class="n">_do_init_fns</span><span class="o">=</span><span class="n">_do_init_fns</span><span class="p">,</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">configure_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureDataloaderFuncOutput</span><span class="p">:</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        The configure_dataloader function is used to configure the dataloader for training and evaluation.</span>
+
+<span class="sd">        :param self: Refer to the class instance itself</span>
+<span class="sd">        :return: A TrainerConfigureDataloaderFuncOutput object</span>
+
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">dataloader_train</span> <span class="o">=</span> <span class="n">tfds</span><span class="o">.</span><span class="n">as_numpy</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dataset_train</span><span class="o">.</span><span class="n">to_tf_dataset</span><span class="p">(</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span>
+                <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">num_workers</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dataloader_num_workers</span><span class="p">,</span>
+                <span class="n">collate_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">create_collate_function</span><span class="p">(</span>
+                    <span class="n">max_sequence_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+                    <span class="n">truncation_mode</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">truncation_mode</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">max_training_steps</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span>
+            <span class="n">dataloader_train</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataset_eval</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_eval</span><span class="p">:</span>
+            <span class="n">dataloader_eval</span> <span class="o">=</span> <span class="n">tfds</span><span class="o">.</span><span class="n">as_numpy</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dataset_eval</span><span class="o">.</span><span class="n">to_tf_dataset</span><span class="p">(</span>
+                    <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span>
+                    <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                    <span class="n">shuffle</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                    <span class="n">num_workers</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dataloader_num_workers</span><span class="p">,</span>
+                    <span class="n">collate_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">create_collate_function</span><span class="p">(</span>
+                        <span class="n">max_sequence_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+                        <span class="n">truncation_mode</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">truncation_mode</span>
+                    <span class="p">)</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span>
+                <span class="n">dataloader_eval</span>
+            <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">dataloader_eval</span><span class="p">,</span> <span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="mi">0</span>
+
+        <span class="k">return</span> <span class="n">TrainerConfigureDataloaderFuncOutput</span><span class="p">(</span>
+            <span class="n">dataloader_train</span><span class="o">=</span><span class="n">dataloader_train</span><span class="p">,</span>
+            <span class="n">max_training_steps</span><span class="o">=</span><span class="n">max_training_steps</span><span class="p">,</span>
+            <span class="n">dataloader_eval</span><span class="o">=</span><span class="n">dataloader_eval</span><span class="p">,</span>
+            <span class="n">max_evaluation_steps</span><span class="o">=</span><span class="n">max_evaluation_steps</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_prepare_dataset</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">dataset</span><span class="p">,</span>
+            <span class="n">tokenizer</span><span class="p">,</span>
+            <span class="n">packing</span><span class="p">,</span>
+            <span class="n">dataset_text_field</span><span class="p">,</span>
+            <span class="n">max_seq_length</span><span class="p">,</span>
+            <span class="n">formatting_func</span><span class="p">,</span>
+            <span class="n">num_of_sequences</span><span class="p">,</span>
+            <span class="n">chars_per_token</span><span class="p">,</span>
+            <span class="n">remove_unused_columns</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">append_concat_token</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="k">if</span> <span class="n">dataset</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;The dataset should not be None&quot;</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">packing</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_prepare_non_packed_dataloader</span><span class="p">(</span>
+                <span class="n">tokenizer</span><span class="p">,</span>
+                <span class="n">dataset</span><span class="p">,</span>
+                <span class="n">dataset_text_field</span><span class="p">,</span>
+                <span class="n">max_seq_length</span><span class="p">,</span>
+                <span class="n">formatting_func</span><span class="p">,</span>
+                <span class="n">add_special_tokens</span><span class="p">,</span>
+                <span class="n">remove_unused_columns</span><span class="p">,</span>
+            <span class="p">)</span>
+
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_prepare_packed_dataloader</span><span class="p">(</span>
+                <span class="n">tokenizer</span><span class="p">,</span>
+                <span class="n">dataset</span><span class="p">,</span>
+                <span class="n">dataset_text_field</span><span class="p">,</span>
+                <span class="n">max_seq_length</span><span class="p">,</span>
+                <span class="n">num_of_sequences</span><span class="p">,</span>
+                <span class="n">chars_per_token</span><span class="p">,</span>
+                <span class="n">formatting_func</span><span class="p">,</span>
+                <span class="n">append_concat_token</span><span class="p">,</span>
+                <span class="n">add_special_tokens</span><span class="p">,</span>
+            <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">_prepare_non_packed_dataloader</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">tokenizer</span><span class="p">,</span>
+            <span class="n">dataset</span><span class="p">,</span>
+            <span class="n">dataset_text_field</span><span class="p">,</span>
+            <span class="n">max_seq_length</span><span class="p">,</span>
+            <span class="n">formatting_func</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">remove_unused_columns</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="n">use_formatting_func</span> <span class="o">=</span> <span class="n">formatting_func</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">dataset_text_field</span> <span class="ow">is</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_dataset_sanity_checked</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="k">def</span> <span class="nf">tokenize</span><span class="p">(</span><span class="n">element</span><span class="p">):</span>
+            <span class="n">inner</span> <span class="o">=</span> <span class="n">element</span><span class="p">[</span><span class="n">dataset_text_field</span><span class="p">]</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">use_formatting_func</span> <span class="k">else</span> <span class="n">formatting_func</span><span class="p">(</span><span class="n">element</span><span class="p">)</span>
+            <span class="n">outputs</span> <span class="o">=</span> <span class="n">tokenizer</span><span class="p">(</span>
+                <span class="n">inner</span><span class="p">,</span>
+                <span class="n">add_special_tokens</span><span class="o">=</span><span class="n">add_special_tokens</span><span class="p">,</span>
+                <span class="n">truncation</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">padding</span><span class="o">=</span><span class="s2">&quot;max_length&quot;</span><span class="p">,</span>
+                <span class="n">max_length</span><span class="o">=</span><span class="n">max_seq_length</span><span class="p">,</span>
+                <span class="n">return_overflowing_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="n">return_length</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="k">if</span> <span class="n">use_formatting_func</span> <span class="ow">and</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">_dataset_sanity_checked</span><span class="p">:</span>
+                <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">formatting_func</span><span class="p">(</span><span class="n">element</span><span class="p">),</span> <span class="nb">list</span><span class="p">):</span>
+                    <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                        <span class="s2">&quot;The `formatting_func` should return a list of processed strings since it can lead&quot;</span>
+                        <span class="s2">&quot; to silent bugs.&quot;</span>
+                    <span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">_dataset_sanity_checked</span> <span class="o">=</span> <span class="kc">True</span>
+
+            <span class="k">return</span> <span class="p">{</span><span class="s2">&quot;input_ids&quot;</span><span class="p">:</span> <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">],</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">:</span> <span class="n">outputs</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">]}</span>
+
+        <span class="n">signature_columns</span> <span class="o">=</span> <span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">,</span> <span class="s2">&quot;labels&quot;</span><span class="p">,</span> <span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span>
+
+        <span class="n">extra_columns</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">set</span><span class="p">(</span><span class="n">dataset</span><span class="o">.</span><span class="n">column_names</span><span class="p">)</span> <span class="o">-</span> <span class="nb">set</span><span class="p">(</span><span class="n">signature_columns</span><span class="p">))</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">remove_unused_columns</span> <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">extra_columns</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;You passed `remove_unused_columns=False` on a non-packed dataset. This might create some issues with &quot;</span>
+                <span class="s2">&quot;the default collator and yield to errors. If you want to inspect dataset other columns &quot;</span>
+                <span class="sa">f</span><span class="s2">&quot;(in this case </span><span class="si">{</span><span class="n">extra_columns</span><span class="si">}</span><span class="s2">), you can subclass `DataCollatorForLanguageModeling` in case you &quot;</span>
+                <span class="s2">&quot;used the default collator and create your own data collator in order to inspect the &quot;</span>
+                <span class="s2">&quot;unused dataset columns.&quot;</span>
+            <span class="p">)</span>
+
+        <span class="n">tokenized_dataset</span> <span class="o">=</span> <span class="n">dataset</span><span class="o">.</span><span class="n">map</span><span class="p">(</span>
+            <span class="n">tokenize</span><span class="p">,</span>
+            <span class="n">batched</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">remove_columns</span><span class="o">=</span><span class="n">dataset</span><span class="o">.</span><span class="n">column_names</span> <span class="k">if</span> <span class="n">remove_unused_columns</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">num_proc</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset_num_proc</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset_batch_size</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">tokenized_dataset</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_prepare_packed_dataloader</span><span class="p">(</span>
+            <span class="n">tokenizer</span><span class="p">,</span>
+            <span class="n">dataset</span><span class="p">,</span>
+            <span class="n">dataset_text_field</span><span class="p">,</span>
+            <span class="n">max_seq_length</span><span class="p">,</span>
+            <span class="n">num_of_sequences</span><span class="p">,</span>
+            <span class="n">chars_per_token</span><span class="p">,</span>
+            <span class="n">formatting_func</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="n">append_concat_token</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="k">if</span> <span class="n">dataset_text_field</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">formatting_func</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">tokenizer</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;You need to pass a tokenizer when using `dataset_text_field` with `SFTTrainer`.&quot;</span>
+                <span class="p">)</span>
+
+            <span class="n">constant_length_iterator</span> <span class="o">=</span> <span class="n">create_constant_length_dataset</span><span class="p">(</span>
+                <span class="n">tokenizer</span><span class="o">=</span><span class="n">tokenizer</span><span class="p">,</span>
+                <span class="n">dataset</span><span class="o">=</span><span class="n">dataset</span><span class="p">,</span>
+                <span class="n">dataset_text_field</span><span class="o">=</span><span class="n">dataset_text_field</span><span class="p">,</span>
+                <span class="n">formatting_func</span><span class="o">=</span><span class="n">formatting_func</span><span class="p">,</span>
+                <span class="n">seq_length</span><span class="o">=</span><span class="n">max_seq_length</span><span class="p">,</span>
+                <span class="n">infinite</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="n">num_of_sequences</span><span class="o">=</span><span class="n">num_of_sequences</span><span class="p">,</span>
+                <span class="n">chars_per_token</span><span class="o">=</span><span class="n">chars_per_token</span><span class="p">,</span>
+                <span class="n">eos_token_id</span><span class="o">=</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">,</span>
+                <span class="n">append_concat_token</span><span class="o">=</span><span class="n">append_concat_token</span><span class="p">,</span>
+                <span class="n">add_special_tokens</span><span class="o">=</span><span class="n">add_special_tokens</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="k">def</span> <span class="nf">data_generator</span><span class="p">(</span><span class="n">inner_constant_length_iterator</span><span class="p">):</span>
+                <span class="k">for</span> <span class="n">d</span> <span class="ow">in</span> <span class="n">inner_constant_length_iterator</span><span class="p">():</span>
+                    <span class="k">yield</span> <span class="n">d</span>
+
+            <span class="k">try</span><span class="p">:</span>
+                <span class="n">packed_dataset</span> <span class="o">=</span> <span class="n">Dataset</span><span class="o">.</span><span class="n">from_generator</span><span class="p">(</span>
+                    <span class="n">data_generator</span><span class="p">,</span> <span class="n">gen_kwargs</span><span class="o">=</span><span class="p">{</span><span class="s2">&quot;inner_constant_length_iterator&quot;</span><span class="p">:</span> <span class="n">constant_length_iterator</span><span class="p">}</span>
+                <span class="p">)</span>
+            <span class="k">except</span> <span class="p">(</span><span class="n">DatasetGenerationError</span><span class="p">,</span> <span class="n">SchemaInferenceError</span><span class="p">)</span> <span class="k">as</span> <span class="n">exc</span><span class="p">:</span>
+                <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                    <span class="s2">&quot;Error occurred while packing the dataset. &quot;</span>
+                    <span class="s2">&quot;Make sure that your dataset has enough samples to at least yield one packed sequence.</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="s2">&quot;External Information : </span><span class="si">{}</span><span class="s2">&quot;</span><span class="o">.</span><span class="n">format</span><span class="p">(</span><span class="n">exc</span><span class="p">)</span>
+                <span class="p">)</span> <span class="kn">from</span> <span class="nn">exc</span>
+            <span class="k">return</span> <span class="n">packed_dataset</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span>
+                <span class="s2">&quot;You need to pass a `dataset_text_field` or `formatting_func` argument to the SFTTrainer if you want &quot;</span>
+                <span class="s2">&quot;to use the `ConstantLengthDataset`.&quot;</span>
+            <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.sft.stf_trainer.SFTTrainer.configure_dataloader" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">configure_dataloader</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The configure_dataloader function is used to configure the dataloader for training and evaluation.</p>
+<p>:param self: Refer to the class instance itself
+:return: A TrainerConfigureDataloaderFuncOutput object</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/sft/stf_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">configure_dataloader</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureDataloaderFuncOutput</span><span class="p">:</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The configure_dataloader function is used to configure the dataloader for training and evaluation.</span>
+
+<span class="sd">    :param self: Refer to the class instance itself</span>
+<span class="sd">    :return: A TrainerConfigureDataloaderFuncOutput object</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">dataloader_train</span> <span class="o">=</span> <span class="n">tfds</span><span class="o">.</span><span class="n">as_numpy</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataset_train</span><span class="o">.</span><span class="n">to_tf_dataset</span><span class="p">(</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span>
+            <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="n">num_workers</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dataloader_num_workers</span><span class="p">,</span>
+            <span class="n">collate_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">create_collate_function</span><span class="p">(</span>
+                <span class="n">max_sequence_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+                <span class="n">truncation_mode</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">truncation_mode</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="p">)</span>
+    <span class="n">max_training_steps</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span>
+        <span class="n">dataloader_train</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataset_eval</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_eval</span><span class="p">:</span>
+        <span class="n">dataloader_eval</span> <span class="o">=</span> <span class="n">tfds</span><span class="o">.</span><span class="n">as_numpy</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dataset_eval</span><span class="o">.</span><span class="n">to_tf_dataset</span><span class="p">(</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span><span class="p">,</span>
+                <span class="n">drop_remainder</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">shuffle</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="n">num_workers</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dataloader_num_workers</span><span class="p">,</span>
+                <span class="n">collate_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">create_collate_function</span><span class="p">(</span>
+                    <span class="n">max_sequence_length</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span>
+                    <span class="n">truncation_mode</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">truncation_mode</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span>
+            <span class="n">dataloader_eval</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_training_steps</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">dataloader_eval</span><span class="p">,</span> <span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="mi">0</span>
+
+    <span class="k">return</span> <span class="n">TrainerConfigureDataloaderFuncOutput</span><span class="p">(</span>
+        <span class="n">dataloader_train</span><span class="o">=</span><span class="n">dataloader_train</span><span class="p">,</span>
+        <span class="n">max_training_steps</span><span class="o">=</span><span class="n">max_training_steps</span><span class="p">,</span>
+        <span class="n">dataloader_eval</span><span class="o">=</span><span class="n">dataloader_eval</span><span class="p">,</span>
+        <span class="n">max_evaluation_steps</span><span class="o">=</span><span class="n">max_evaluation_steps</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-sft-utils/index.html b/generated-trainer-sft-utils/index.html
new file mode 100644
index 000000000..c2c11de83
--- /dev/null
+++ b/generated-trainer-sft-utils/index.html
@@ -0,0 +1,6028 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-sft-stf_trainer/">
+      
+      
+        <link rel="next" href="../generated-trainer-training_configurations/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Utils - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainersftutils" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Utils
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.sft.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.sft.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainersftutils">trainer.sft.utils</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.sft.utils"></a>
+    <div class="doc doc-contents first">
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-training_configurations/index.html b/generated-trainer-training_configurations/index.html
new file mode 100644
index 000000000..26a0cfe4e
--- /dev/null
+++ b/generated-trainer-training_configurations/index.html
@@ -0,0 +1,9843 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-sft-utils/">
+      
+      
+        <link rel="next" href="../generated-trainer-utils/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Training Configurations - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainertraining_configurations" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Training Configurations
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations" class="md-nav__link">
+    <span class="md-ellipsis">
+      training_configurations
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments" class="md-nav__link">
+    <span class="md-ellipsis">
+      TrainArguments
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="TrainArguments">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.ckpt_path_exists" class="md-nav__link">
+    <span class="md-ellipsis">
+      ckpt_path_exists
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.get_board" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_board
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.get_mesh" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_mesh
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.get_meter_dict" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_meter_dict
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.get_path" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_path
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.get_streaming_checkpointer" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_streaming_checkpointer
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.get_wandb_init" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_wandb_init
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations" class="md-nav__link">
+    <span class="md-ellipsis">
+      training_configurations
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments" class="md-nav__link">
+    <span class="md-ellipsis">
+      TrainArguments
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="TrainArguments">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.ckpt_path_exists" class="md-nav__link">
+    <span class="md-ellipsis">
+      ckpt_path_exists
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.get_board" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_board
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.get_mesh" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_mesh
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.get_meter_dict" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_meter_dict
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.get_path" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_path
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.get_streaming_checkpointer" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_streaming_checkpointer
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.training_configurations.TrainArguments.get_wandb_init" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_wandb_init
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainertraining_configurations">trainer.training_configurations</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.training_configurations"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.trainer.training_configurations.TrainArguments" class="doc doc-heading">
+            <code>TrainArguments</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><span title="typing.OrderedDict">OrderedDict</span></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/trainer/training_configurations.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">TrainArguments</span><span class="p">(</span>
+    <span class="n">OrderedDict</span>
+<span class="p">):</span>
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">model_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+            <span class="n">num_train_epochs</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">model_class</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLFlaxPretrainedModel</span> <span class="o">|</span> <span class="n">Type</span><span class="p">[</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">model_huggingface_repo_id</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">total_batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32</span><span class="p">,</span>
+            <span class="n">max_training_steps</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">max_evaluation_steps</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">optimizer</span><span class="p">:</span> <span class="n">AVAILABLE_OPTIMIZERS</span> <span class="o">=</span> <span class="n">EasyDeLOptimizers</span><span class="o">.</span><span class="n">ADAMW</span><span class="p">,</span>
+            <span class="n">scheduler</span><span class="p">:</span> <span class="n">AVAILABLE_SCHEDULERS</span> <span class="o">=</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">NONE</span><span class="p">,</span>
+            <span class="n">learning_rate</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">5e-5</span><span class="p">,</span>
+            <span class="n">learning_rate_end</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">5e-6</span><span class="p">,</span>
+            <span class="n">gradient_accumulation_steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+            <span class="n">weight_decay</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.01</span><span class="p">,</span>
+            <span class="n">label_smoothing_factor</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">z_loss</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+            <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="n">AVAILABLE_GRADIENT_CHECKPOINTS</span> <span class="o">=</span> <span class="n">EasyDeLGradientCheckPointers</span><span class="o">.</span><span class="n">NOTHING_SAVEABLE</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">4096</span><span class="p">,</span>
+            <span class="n">sharding_array</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">tuple</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">is_fine_tuning</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">do_train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">do_eval</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">do_test</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">train_on_inputs</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">backend</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">extra_optimizer_kwargs</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">save_steps</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">save_dir</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;EasyDeL-Checkpoints&quot;</span><span class="p">,</span>
+            <span class="n">save_total_limit</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+            <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+            <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">use_wandb</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">custom_rule</span><span class="p">:</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">extra_configs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">ids_to_pop_from_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">list</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">remove_ckpt_after_load</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">configs_to_initialize_model_class</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">do_last_save</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">model_parameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">do_shard_fns</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">track_memory</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">loss_re_mat</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;&quot;</span><span class="p">,</span>
+            <span class="n">loss_chunk</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+            <span class="n">truncation_mode</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;keep_end&quot;</span><span class="p">,</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">,</span>
+            <span class="n">warmup_steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">500</span><span class="p">,</span>
+            <span class="n">init_input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+            <span class="n">step_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span>
+            <span class="n">training_time</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">dataloader_num_workers</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+            <span class="n">dataloader_pin_memory</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">jax_distributed_config</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">log_all_workers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">wandb_entity</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">save_optimizer_state</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">step_start_point</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">offload_device</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">Device</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="s2">&quot;cpu&quot;</span><span class="p">)[</span><span class="mi">0</span><span class="p">],</span>
+            <span class="n">rapture_config</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLXRapTureConfig</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">merge_lora_rapture_parameters</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">state_apply_fn_kwarguments_to_model</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">remove_unused_columns</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">force_batch_and_gradient_accumulation_steps_calculation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">performance_mode</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">neftune_noise_alpha</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">log_grad_norms</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+            <span class="n">loaded_model_config_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up the attributes of an object, which are sometimes called fields or properties.</span>
+<span class="sd">        The __init__ function can accept arguments, just like a normal function.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            model_name: str: Specify the model name</span>
+<span class="sd">            num_train_epochs: int: Set the number of epochs for training</span>
+<span class="sd">            model_huggingface_repo_id: Optional[str]: Load a pretrained</span>
+<span class="sd">                model from the huggingface model hub</span>
+<span class="sd">            model_class: Optional[EasyDeLFlaxPretrainedModel]: Pass a</span>
+<span class="sd">                model class to the trainer</span>
+<span class="sd">            total_batch_size: int: Set the batch size of the model</span>
+<span class="sd">            max_training_steps: Optional[int]: Set the maximum total</span>
+<span class="sd">                number of training steps across all epochs</span>
+<span class="sd">            max_evaluation_steps: Optional[int]: Set the maximum number</span>
+<span class="sd">                of steps to evaluate for</span>
+<span class="sd">            optimizer: AVAILABLE_OPTIMIZERS: Specify the optimizer used</span>
+<span class="sd">                to train the model</span>
+<span class="sd">            scheduler: AVAILABLE_SCHEDULERS: Set the learning rate</span>
+<span class="sd">                scheduler</span>
+<span class="sd">            learning_rate: Union[int, float] : Set the learning rate for</span>
+<span class="sd">                the optimizer</span>
+<span class="sd">            learning_rate_end: Optional[float]: Set the learning rate at</span>
+<span class="sd">                the end of training</span>
+<span class="sd">            gradient_accumulation_steps: int: Accumulate gradients over</span>
+<span class="sd">                multiple batches</span>
+<span class="sd">            weight_decay: float: Specify the weight decay to be used by</span>
+<span class="sd">                the optimizer</span>
+<span class="sd">            label_smoothing_factor: float: Set the label smoothing</span>
+<span class="sd">                factor to be used by the loss function</span>
+<span class="sd">            z_loss: float: Set the z loss factor to be used by the loss</span>
+<span class="sd">                function</span>
+<span class="sd">            gradient_checkpointing: AVAILABLE_GRADIENT_CHECKPOINTS:</span>
+<span class="sd">                Determine how to use gradient checkpointing</span>
+<span class="sd">            max_sequence_length: Optional[int]: Set the maximum length</span>
+<span class="sd">                of the input sequence</span>
+<span class="sd">            sharding_array: Union[tuple,int]: Specify the mesh of</span>
+<span class="sd">                devices to use for training</span>
+<span class="sd">            is_fine_tuning: bool: Tell the model whether or not to</span>
+<span class="sd">                initialize the weights of</span>
+<span class="sd">            do_train: bool: Indicate whether to train the model or not</span>
+<span class="sd">            do_eval: bool: Determine whether to run evaluation on the</span>
+<span class="sd">                validation set after training</span>
+<span class="sd">            do_test: Optional[bool]: Determine if the model should be</span>
+<span class="sd">                tested</span>
+<span class="sd">            train_on_inputs: bool: Use input_ids instead of labels,</span>
+<span class="sd">                overrides ignored (-100) tokens in the labels</span>
+<span class="sd">            backend: Optional[str]: Specify the backend of jax</span>
+<span class="sd">            extra_optimizer_kwargs: dict: Pass extra arguments to the</span>
+<span class="sd">                optimizer</span>
+<span class="sd">            save_steps: Optional[int]: Save the model after every n</span>
+<span class="sd">                steps</span>
+<span class="sd">            save_dir: str: Define the directory where the checkpoints</span>
+<span class="sd">                will be saved</span>
+<span class="sd">            save_total_limit: int: Set the maximum number of checkpoints</span>
+<span class="sd">                to keep, older checkpoints will be deleted</span>
+<span class="sd">            dtype: jnp.dtype: Set the dtype of the model parameters</span>
+<span class="sd">            param_dtype: jnp.dtype: Specify the data type of the model</span>
+<span class="sd">                parameters</span>
+<span class="sd">            fully_sharded_data_parallel: bool: Determine if the model</span>
+<span class="sd">                should be fully fsdp or not</span>
+<span class="sd">            use_wandb: bool: Enable or disable the wandb logging</span>
+<span class="sd">            custom_rule: Mapping[str, PartitionSpec]: Specify the</span>
+<span class="sd">                partitioning rules of the model</span>
+<span class="sd">            extra_configs: Optional[dict]: Pass extra configurations to</span>
+<span class="sd">                the model class</span>
+<span class="sd">            ids_to_pop_from_dataset: Optional[list]: Remove some of the</span>
+<span class="sd">                ids from the dataset</span>
+<span class="sd">            remove_ckpt_after_load: bool: Remove the checkpoint after</span>
+<span class="sd">                loading it</span>
+<span class="sd">            configs_to_initialize_model_class: Optional[dict]: Pass</span>
+<span class="sd">                extra configurations to the model class</span>
+<span class="sd">            do_last_save: bool: Save the model after training is</span>
+<span class="sd">                complete</span>
+<span class="sd">            model_parameters: Optional[dict]: Pass the model parameters</span>
+<span class="sd">                to the model class</span>
+<span class="sd">            do_shard_fns: bool: Shard the model functions across devices</span>
+<span class="sd">            track_memory: bool: Track the memory usage of the model</span>
+<span class="sd">            loss_re_mat: str: Specify the regular expression to match</span>
+<span class="sd">                the loss function name</span>
+<span class="sd">            loss_chunk: int: Chunk the loss to avoid memory overflow</span>
+<span class="sd">            truncation_mode: typing.Literal[&quot;keep_end&quot;, &quot;keep_start&quot;]:</span>
+<span class="sd">                Determine if the input is left padded or not and which</span>
+<span class="sd">                side of the array should remain in case of using maximum</span>
+<span class="sd">                padding.</span>
+<span class="sd">            warmup_steps: int: Specify the number of steps to warm up</span>
+<span class="sd">                the learning rate</span>
+<span class="sd">            init_input_shape: Tuple[int, int]: Initialize the model with</span>
+<span class="sd">                a shape that is not (batch_size, length)</span>
+<span class="sd">            step_partition_spec: PartitionSpec: Partition the model for</span>
+<span class="sd">                training</span>
+<span class="sd">            training_time: Optional[str]: Set a time limit for the</span>
+<span class="sd">                training process</span>
+<span class="sd">            dataloader_num_workers: Optional[int]: Set the number of</span>
+<span class="sd">                workers used by pytorch&#39;s</span>
+<span class="sd">            dataloader_pin_memory: Optional[bool]: Pin the memory of the</span>
+<span class="sd">                dataloader</span>
+<span class="sd">            jax_distributed_config: Optional[dict]: Configure the jax</span>
+<span class="sd">                distributed backend</span>
+<span class="sd">            log_all_workers: bool: Log all workers in wandb,</span>
+<span class="sd">            wandb_entity: Optional[str]: Specify the entity to use when</span>
+<span class="sd">                logging to weights &amp;amp; biases</span>
+<span class="sd">            save_optimizer_state: bool: when ever to save optimizer</span>
+<span class="sd">                state and other args in checkpoint</span>
+<span class="sd">            step_start_point: Optional[int]: start training from given</span>
+<span class="sd">                step for example instead of starting training from step</span>
+<span class="sd">                0 it will start from 20000 and leave the data behind</span>
+<span class="sd">            verbose: bool: when ever to turn verbose mode of or on</span>
+<span class="sd">            offload_device: jax.Device: device to be used to offload</span>
+<span class="sd">                parameters on</span>
+<span class="sd">            rapture_config: Optional[EasyDeLXRaptureConfig]: LoRA Config</span>
+<span class="sd">                for models</span>
+<span class="sd">            merge_lora_rapture_parameters: bool: whenever to merge lora</span>
+<span class="sd">                parameters with original parameters before saving</span>
+<span class="sd">            state_apply_fn_kwarguments_to_model: Optional[dict]:</span>
+<span class="sd">                state_apply_fn_kwarguments_to_model is a dictionary that</span>
+<span class="sd">                be used to apply the parameters and extra things that</span>
+<span class="sd">                you want to deliver to model.</span>
+<span class="sd">            remove_unused_columns: bool: when ever to remove the unused</span>
+<span class="sd">                data columns from dataset</span>
+<span class="sd">            force_batch_and_gradient_accumulation_steps_calculation:</span>
+<span class="sd">                bool: whether to force batch and gradient to be applied</span>
+<span class="sd">                as total batch_size (e.g total_batch_size =</span>
+<span class="sd">                total_batch_size * gradient_accumulation_steps be</span>
+<span class="sd">                applied)</span>
+<span class="sd">            performance_mode: bool: whether to optimize the whole</span>
+<span class="sd">                training process this will cut off some logging options</span>
+<span class="sd">                and optimize training process.</span>
+<span class="sd">            neftune_noise_alpha: Optional[float]: If not `None`, this</span>
+<span class="sd">                will activate NEFTune noise embeddings. This has been</span>
+<span class="sd">                proven to drastically improve model performances for</span>
+<span class="sd">                instruction fine-tuning.</span>
+<span class="sd">            loaded_model_config_kwargs: Optional[dict]: config key</span>
+<span class="sd">                arguments to be passed to the model while being loaded</span>
+<span class="sd">            **kwargs: Pass keyword, variable-length argument list</span>
+<span class="sd">        from checkpoint</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+
+        <span class="k">if</span> <span class="n">ids_to_pop_from_dataset</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">ids_to_pop_from_dataset</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="n">extra_optimizer_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">extra_optimizer_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+
+        <span class="k">if</span> <span class="n">model_class</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">model_huggingface_repo_id</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="nb">print</span><span class="p">(</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                    <span class="s2">&quot;Warning : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span> <span class="o">+</span> <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                    <span class="s2">&quot;You should at least pass model_class or model_huggingface_repo_id if you want to use &quot;</span>
+                    <span class="s2">&quot;CasualLanguageModel Trainer But in case that you want to use &quot;</span>
+                    <span class="s2">&quot;DPOTrainer or ORPOTrainer you can ignore this warning&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span>
+                    <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+        <span class="k">assert</span> <span class="n">backend</span> <span class="ow">in</span> <span class="n">AVAILABLE_BACKENDS</span><span class="p">,</span> <span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">backend</span><span class="si">}</span><span class="s2"> is not recognized, &quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;available backends are </span><span class="si">{</span><span class="n">AVAILABLE_BACKENDS</span><span class="si">}</span><span class="s2">&quot;</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">track_memory</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="c1"># https://github.com/erfanzar/EasyDeL/pull/100/commits/523ce7b1515d7896d456759d0bcd0bd02369bd10</span>
+            <span class="nb">print</span><span class="p">(</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span><span class="s2">&quot;Information : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                    <span class="s2">&quot;track_memory is set to False by default inorder make make training faster. &quot;</span>
+                    <span class="s2">&quot;you can turn it on with just passing `track_memory=True` in TrainArguments&quot;</span><span class="p">,</span>
+                    <span class="n">color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">track_memory</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="n">available_backends</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="n">backend</span><span class="p">))</span>
+        <span class="k">if</span> <span class="n">force_batch_and_gradient_accumulation_steps_calculation</span><span class="p">:</span>
+            <span class="n">total_batch_size</span> <span class="o">*=</span> <span class="n">gradient_accumulation_steps</span>  <span class="c1"># Changed and will be handled inside FJFormer</span>
+        <span class="n">array_devices</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">available_backends</span><span class="p">,</span> <span class="mi">1</span><span class="p">))</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">sharding_array</span><span class="p">)</span>
+        <span class="n">JaxDistributedConfig</span><span class="o">.</span><span class="n">initialize</span><span class="p">(</span><span class="n">jax_distributed_config</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">force_batch_and_gradient_accumulation_steps_calculation</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">force_batch_and_gradient_accumulation_steps_calculation</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">available_backends</span> <span class="o">=</span> <span class="n">available_backends</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">array_devices_shape</span> <span class="o">=</span> <span class="n">array_devices</span><span class="o">.</span><span class="n">shape</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_huggingface_repo_id</span> <span class="o">=</span> <span class="n">model_huggingface_repo_id</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">num_train_epochs</span> <span class="o">=</span> <span class="n">num_train_epochs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">wandb_entity</span> <span class="o">=</span> <span class="n">wandb_entity</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">total_batch_size</span> <span class="o">=</span> <span class="n">total_batch_size</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="o">=</span> <span class="n">max_training_steps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="n">max_evaluation_steps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="n">optimizer</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span> <span class="o">=</span> <span class="n">scheduler</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_optimizer_kwargs</span> <span class="o">=</span> <span class="n">extra_optimizer_kwargs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">learning_rate</span> <span class="o">=</span> <span class="n">learning_rate</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">learning_rate_end</span> <span class="o">=</span> <span class="n">learning_rate_end</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">weight_decay</span> <span class="o">=</span> <span class="n">weight_decay</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">label_smoothing_factor</span> <span class="o">=</span> <span class="n">label_smoothing_factor</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">z_loss</span> <span class="o">=</span> <span class="n">z_loss</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_name</span> <span class="o">=</span> <span class="n">model_name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">max_sequence_length</span> <span class="o">=</span> <span class="n">max_sequence_length</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sharding_array</span> <span class="o">=</span> <span class="n">sharding_array</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">is_fine_tuning</span> <span class="o">=</span> <span class="n">is_fine_tuning</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">do_train</span> <span class="o">=</span> <span class="n">do_train</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">do_eval</span> <span class="o">=</span> <span class="n">do_eval</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">do_test</span> <span class="o">=</span> <span class="n">do_test</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">train_on_inputs</span> <span class="o">=</span> <span class="n">train_on_inputs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">save_steps</span> <span class="o">=</span> <span class="n">save_steps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">save_dir</span> <span class="o">=</span> <span class="n">save_dir</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">save_total_limit</span> <span class="o">=</span> <span class="n">save_total_limit</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">dtype</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">warmup_steps</span> <span class="o">=</span> <span class="n">warmup_steps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span> <span class="o">=</span> <span class="n">param_dtype</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span> <span class="o">=</span> <span class="n">fully_sharded_data_parallel</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_wandb</span> <span class="o">=</span> <span class="n">use_wandb</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">custom_rule</span> <span class="o">=</span> <span class="n">custom_rule</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">extra_configs</span> <span class="o">=</span> <span class="n">extra_configs</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span> <span class="o">=</span> <span class="n">ids_to_pop_from_dataset</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">remove_ckpt_after_load</span> <span class="o">=</span> <span class="n">remove_ckpt_after_load</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_class</span> <span class="o">=</span> <span class="n">model_class</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">configs_to_initialize_model_class</span> <span class="o">=</span> <span class="n">configs_to_initialize_model_class</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">do_last_save</span> <span class="o">=</span> <span class="n">do_last_save</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_parameters</span> <span class="o">=</span> <span class="n">model_parameters</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">do_shard_fns</span> <span class="o">=</span> <span class="n">do_shard_fns</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">gradient_accumulation_steps</span> <span class="o">=</span> <span class="n">gradient_accumulation_steps</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">track_memory</span> <span class="o">=</span> <span class="n">track_memory</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">loss_chunk</span> <span class="o">=</span> <span class="n">loss_chunk</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">loss_re_mat</span> <span class="o">=</span> <span class="n">loss_re_mat</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">init_input_shape</span> <span class="o">=</span> <span class="n">init_input_shape</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span> <span class="o">=</span> <span class="n">truncation_mode</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">step_partition_spec</span> <span class="o">=</span> <span class="n">step_partition_spec</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">jax_distributed_config</span> <span class="o">=</span> <span class="n">jax_distributed_config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">log_all_workers</span> <span class="o">=</span> <span class="n">log_all_workers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_num_workers</span> <span class="o">=</span> <span class="n">dataloader_num_workers</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_pin_memory</span> <span class="o">=</span> <span class="n">dataloader_pin_memory</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">save_optimizer_state</span> <span class="o">=</span> <span class="n">save_optimizer_state</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">step_start_point</span> <span class="o">=</span> <span class="n">step_start_point</span> <span class="k">if</span> <span class="n">step_start_point</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="mi">0</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">verbose</span> <span class="o">=</span> <span class="n">verbose</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">offload_device</span> <span class="o">=</span> <span class="n">offload_device</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">performance_mode</span> <span class="o">=</span> <span class="n">performance_mode</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">neftune_noise_alpha</span> <span class="o">=</span> <span class="n">neftune_noise_alpha</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">loaded_model_config_kwargs</span> <span class="o">=</span> <span class="n">loaded_model_config_kwargs</span>
+        <span class="k">if</span> <span class="n">use_wandb</span> <span class="ow">and</span> <span class="n">performance_mode</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">use_wandb</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer_kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+            <span class="n">learning_rate</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="n">learning_rate_end</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">learning_rate_end</span><span class="p">,</span>
+            <span class="n">optimizer</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="p">,</span>
+            <span class="n">scheduler</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span><span class="p">,</span>
+            <span class="n">extra_optimizer_kwargs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">extra_optimizer_kwargs</span><span class="p">,</span>
+            <span class="n">warmup_steps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">warmup_steps</span><span class="p">,</span>
+            <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+            <span class="n">weight_decay</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">weight_decay</span><span class="p">,</span>
+            <span class="n">steps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">training_time</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_time_to_seconds</span><span class="p">(</span><span class="n">training_time</span><span class="p">)</span> <span class="k">if</span> <span class="n">training_time</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span>
+        <span class="n">torch</span><span class="o">.</span><span class="n">set_default_device</span><span class="p">(</span><span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">merge_lora_rapture_parameters</span> <span class="o">=</span> <span class="n">merge_lora_rapture_parameters</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rapture_config</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">remove_unused_columns</span> <span class="o">=</span> <span class="n">remove_unused_columns</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_stop_capturing_memory</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">_captured_memory</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">log_grad_norms</span> <span class="o">=</span> <span class="n">log_grad_norms</span>
+        <span class="k">if</span> <span class="n">rapture_config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">log_grad_norms</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;setting `log_grad_norms` to off since using log grad norms while using LoRA is not Supported.&quot;</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">log_grad_norms</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">state_apply_fn_kwarguments_to_model</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">state_apply_fn_kwarguments_to_model</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="n">state_apply_fn_kwarguments_to_model</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">{}</span>
+        <span class="k">if</span> <span class="n">rapture_config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="nb">print</span><span class="p">(</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span><span class="s2">&quot;Warning : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                    <span class="s2">&quot;You are using LoRA (Low-Rank Adaptation of Large Language Models) and this feature is&quot;</span>
+                    <span class="s2">&quot;still in Beta mode so it might act unexpected&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">rapture_config</span> <span class="o">=</span> <span class="n">rapture_config</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="o">=</span> <span class="n">XRapTure</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">rapture_config</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">_time_to_seconds</span><span class="p">(</span><span class="n">time_str</span><span class="p">):</span>
+        <span class="n">pattern</span> <span class="o">=</span> <span class="sa">r</span><span class="s2">&quot;(\d+)\s*(h|min)&quot;</span>
+        <span class="n">match</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">match</span><span class="p">(</span><span class="n">pattern</span><span class="p">,</span> <span class="n">time_str</span><span class="o">.</span><span class="n">lower</span><span class="p">())</span>
+
+        <span class="k">if</span> <span class="n">match</span><span class="p">:</span>
+            <span class="n">value</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">1</span><span class="p">))</span>
+            <span class="n">unit</span> <span class="o">=</span> <span class="n">match</span><span class="o">.</span><span class="n">group</span><span class="p">(</span><span class="mi">2</span><span class="p">)</span><span class="o">.</span><span class="n">lower</span><span class="p">()</span>
+
+            <span class="k">if</span> <span class="n">unit</span> <span class="o">==</span> <span class="s2">&quot;h&quot;</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">value</span> <span class="o">*</span> <span class="mi">3600</span>  <span class="c1"># Convert hours to seconds</span>
+            <span class="k">elif</span> <span class="n">unit</span> <span class="o">==</span> <span class="s2">&quot;min&quot;</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">value</span> <span class="o">*</span> <span class="mi">60</span>  <span class="c1"># Convert minutes to seconds</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">SyntaxError</span><span class="p">(</span>
+                <span class="s2">&quot;Invalid input format it should be like 50Min for M and 23H for hours&quot;</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="p">{</span><span class="n">k</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">()}</span>
+
+    <span class="k">def</span> <span class="nf">get_meter_dict</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_meter_dict function is used to return a dictionary of the hyperparameters.</span>
+<span class="sd">        The function iterates through all the attributes in the class and returns a dictionary with</span>
+<span class="sd">        the key as &amp;quot;hyperparameters/{k}&amp;quot; and value as v for each attribute k,v in self.__dict__ if it is an</span>
+<span class="sd">         instance of int, float, str, bool or torch.Tensor.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A dictionary of hyperparameters</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="p">{</span>
+            <span class="sa">f</span><span class="s2">&quot;hyperparameters/</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span>
+            <span class="nb">isinstance</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="p">(</span><span class="nb">int</span><span class="p">,</span> <span class="nb">float</span><span class="p">,</span> <span class="nb">str</span><span class="p">,</span> <span class="nb">bool</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">))</span>
+        <span class="p">}</span>
+
+    <span class="k">def</span> <span class="nf">get_wandb_init</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Run</span> <span class="o">|</span> <span class="n">RunDisabled</span> <span class="o">|</span> <span class="kc">None</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_wandb_init function is a helper function that returns the wandb.init() call with</span>
+<span class="sd">        the project name, config object, and tags set to appropriate values for this model.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Pass the class instance to the function</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A wandb or None</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">wandb</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">project</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;EasyDeL-</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">model_name</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+            <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="p">(),</span>
+            <span class="n">tags</span><span class="o">=</span><span class="p">[</span>
+                <span class="s2">&quot;EasyDeL&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;FJFormer&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;OST-OpenSourceTransformers&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;Jax/Flax&quot;</span>
+            <span class="p">],</span>
+            <span class="n">entity</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">wandb_entity</span>
+
+        <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">log_all_workers</span> <span class="ow">or</span> <span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">process_index</span><span class="p">()</span> <span class="o">==</span> <span class="mi">0</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span>
+
+    <span class="k">def</span> <span class="fm">__str__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__call__</span><span class="p">()</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="n">Callable</span><span class="p">):</span>
+                <span class="k">def</span> <span class="nf">string_func</span><span class="p">(</span><span class="n">it_self</span><span class="p">):</span>
+                    <span class="n">string_</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">it_self</span><span class="o">.</span><span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span><span class="si">}</span><span class="s2">(</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="k">for</span> <span class="n">k_</span><span class="p">,</span> <span class="n">v_</span> <span class="ow">in</span> <span class="n">it_self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                        <span class="n">string_</span> <span class="o">+=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t\t</span><span class="si">{</span><span class="n">k_</span><span class="si">}</span><span class="s2"> : </span><span class="si">{</span><span class="n">v_</span><span class="si">}</span><span class="se">\n</span><span class="s2">&quot;</span>
+                    <span class="n">string_</span> <span class="o">+=</span> <span class="s2">&quot;</span><span class="se">\t</span><span class="s2">)&quot;</span>
+                    <span class="k">return</span> <span class="n">string_</span>
+
+                <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span> <span class="o">=</span> <span class="n">string_func</span>
+                <span class="n">v</span> <span class="o">=</span> <span class="n">v</span><span class="o">.</span><span class="fm">__str__</span><span class="p">(</span><span class="n">v</span><span class="p">)</span>
+            <span class="n">string</span> <span class="o">+=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="se">\t</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2"> : </span><span class="si">{</span><span class="n">v</span><span class="si">}</span><span class="se">\n</span><span class="s2">&quot;</span>
+        <span class="n">string</span> <span class="o">+=</span> <span class="s2">&quot;)&quot;</span>
+        <span class="k">return</span> <span class="n">string</span>
+
+    <span class="k">def</span> <span class="nf">get_path</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_path function returns a pathlib.Path object, which is a class that</span>
+<span class="sd">        represents file paths and provides methods for interacting with the files at</span>
+<span class="sd">        those paths. The get_path function takes no arguments and returns an instance of</span>
+<span class="sd">        the Path class initialized with two arguments: self.save_dir (a string) and</span>
+<span class="sd">        self.model_name (also a string). The save directory is the directory where we&#39;ll</span>
+<span class="sd">        store our model checkpoints, while the model name will be used to create unique</span>
+<span class="sd">        filenames for each checkpoint.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A pathlib</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">pathlib</span><span class="o">.</span><span class="n">Path</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">save_dir</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_name</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">ckpt_path_exists</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The ckpt_path_exists function checks to see if the path exists. If it does not, then it creates a new directory.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A path</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">path</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_path</span><span class="p">()</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
+            <span class="n">path</span><span class="o">.</span><span class="n">mkdir</span><span class="p">(</span><span class="n">parents</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_mesh</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_mesh function is used to create a mesh object that can be used</span>
+<span class="sd">        to define the geometry of the device. The mesh object contains two arrays:</span>
+<span class="sd">        a list of vertices and a list of faces. Each face is defined by three indices,</span>
+<span class="sd">        which correspond to three vertices in the vertex array. The get_mesh function</span>
+<span class="sd">        is called when creating an instance of DeviceGeometry, which is then passed</span>
+<span class="sd">        into an instance of DeviceSimulation.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Refer to the object itself</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A mesh object with the device array shape and the mesh names</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">Mesh</span><span class="p">(</span>
+            <span class="n">create_device_mesh</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">array_devices_shape</span>
+            <span class="p">),</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">get_mesh_names</span><span class="p">()</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="fm">__repr__</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="fm">__str__</span><span class="p">()</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_mesh_names</span><span class="p">():</span>
+        <span class="k">return</span> <span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span>
+
+    <span class="k">def</span> <span class="nf">get_optimizer_and_scheduler</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">|</span> <span class="kc">None</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">[</span><span class="s2">&quot;steps&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">steps</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">[</span><span class="s2">&quot;steps&quot;</span><span class="p">]</span>
+        <span class="k">return</span> <span class="n">get_optimizer_and_scheduler</span><span class="p">(</span>
+            <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">optimizer_kwargs</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_streaming_checkpointer</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_streaming_checkpointer function is used to save the model&#39;s weights.</span>
+<span class="sd">        The streaming checkpointer saves the model&#39;s weights in a file called &amp;quot;checkpoint&amp;quot; and then</span>
+<span class="sd">        saves a copy of that file with an incrementing number appended to it (e.g., checkpoint_001,</span>
+<span class="sd">        checkpoint_002, etc.). This allows you to keep multiple versions of your trained models.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A CheckpointManager object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">CheckpointManager</span><span class="p">(</span>
+            <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">save_dir</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_name</span><span class="p">),</span>
+            <span class="n">save_optimizer_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">save_optimizer_state</span><span class="p">,</span>
+            <span class="n">verbose</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">verbose</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">get_board</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The get_board function is a helper function that returns a TensorBoard object.</span>
+<span class="sd">        The TensorBoard object is used to log the training and validation loss, as well as</span>
+<span class="sd">        the accuracy of the model during training. The get_board function takes no arguments,</span>
+<span class="sd">        and returns an instance of torch.utils.tensorboard SummaryWriter class.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A summary-writer object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">tensorboard</span><span class="o">.</span><span class="n">SummaryWriter</span><span class="p">(</span>
+            <span class="n">log_dir</span><span class="o">=</span><span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">get_path</span><span class="p">()),</span>
+            <span class="n">comment</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">model_name</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+            <span class="n">filename_suffix</span><span class="o">=</span><span class="s2">&quot;easydel&quot;</span>
+        <span class="p">)</span>
+
+    <span class="nd">@property</span>
+    <span class="k">def</span> <span class="nf">stop_capturing_memory</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_stop_capturing_memory</span>
+
+    <span class="nd">@property</span>
+    <span class="k">def</span> <span class="nf">captured_memory</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">_captured_memory</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.training_configurations.TrainArguments.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">model_name</span><span class="p">,</span> <span class="n">num_train_epochs</span><span class="p">,</span> <span class="n">model_class</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">model_huggingface_repo_id</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">total_batch_size</span><span class="o">=</span><span class="mi">32</span><span class="p">,</span> <span class="n">max_training_steps</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">max_evaluation_steps</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">optimizer</span><span class="o">=</span><span class="n">EasyDeLOptimizers</span><span class="o">.</span><span class="n">ADAMW</span><span class="p">,</span> <span class="n">scheduler</span><span class="o">=</span><span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">NONE</span><span class="p">,</span> <span class="n">learning_rate</span><span class="o">=</span><span class="mf">5e-05</span><span class="p">,</span> <span class="n">learning_rate_end</span><span class="o">=</span><span class="mf">5e-06</span><span class="p">,</span> <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="mi">1</span><span class="p">,</span> <span class="n">weight_decay</span><span class="o">=</span><span class="mf">0.01</span><span class="p">,</span> <span class="n">label_smoothing_factor</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">z_loss</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span> <span class="n">gradient_checkpointing</span><span class="o">=</span><span class="n">EasyDeLGradientCheckPointers</span><span class="o">.</span><span class="n">NOTHING_SAVEABLE</span><span class="p">,</span> <span class="n">max_sequence_length</span><span class="o">=</span><span class="mi">4096</span><span class="p">,</span> <span class="n">sharding_array</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">is_fine_tuning</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">do_train</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">do_eval</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">do_test</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">train_on_inputs</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">backend</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">extra_optimizer_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">save_steps</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">save_dir</span><span class="o">=</span><span class="s1">&#39;EasyDeL-Checkpoints&#39;</span><span class="p">,</span> <span class="n">save_total_limit</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span> <span class="n">param_dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span> <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">use_wandb</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">custom_rule</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">extra_configs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">ids_to_pop_from_dataset</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">remove_ckpt_after_load</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">configs_to_initialize_model_class</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">do_last_save</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">model_parameters</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">do_shard_fns</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">track_memory</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">loss_re_mat</span><span class="o">=</span><span class="s1">&#39;&#39;</span><span class="p">,</span> <span class="n">loss_chunk</span><span class="o">=</span><span class="mi">1024</span><span class="p">,</span> <span class="n">truncation_mode</span><span class="o">=</span><span class="s1">&#39;keep_end&#39;</span><span class="p">,</span> <span class="n">warmup_steps</span><span class="o">=</span><span class="mi">500</span><span class="p">,</span> <span class="n">init_input_shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">step_partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">),</span> <span class="n">training_time</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dataloader_num_workers</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">dataloader_pin_memory</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">jax_distributed_config</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">log_all_workers</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">wandb_entity</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">save_optimizer_state</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">step_start_point</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">verbose</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">offload_device</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="s1">&#39;cpu&#39;</span><span class="p">)[</span><span class="mi">0</span><span class="p">],</span> <span class="n">rapture_config</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">merge_lora_rapture_parameters</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">state_apply_fn_kwarguments_to_model</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">remove_unused_columns</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">force_batch_and_gradient_accumulation_steps_calculation</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">performance_mode</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">neftune_noise_alpha</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">log_grad_norms</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">loaded_model_config_kwargs</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up the attributes of an object, which are sometimes called fields or properties.
+The <strong>init</strong> function can accept arguments, just like a normal function.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>model_name</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Specify the model name</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>num_train_epochs</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the number of epochs for training</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>model_huggingface_repo_id</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[str]: Load a pretrained
+model from the huggingface model hub</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>model_class</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a> | <span title="typing.Type">Type</span>[<a class="autorefs autorefs-internal" title="src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel" href="../generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel">EasyDeLFlaxPretrainedModel</a>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[EasyDeLFlaxPretrainedModel]: Pass a
+model class to the trainer</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>total_batch_size</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the batch size of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>32</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_training_steps</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Set the maximum total
+number of training steps across all epochs</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_evaluation_steps</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Set the maximum number
+of steps to evaluate for</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>optimizer</code></td>
+            <td>
+                  <code><span title="src.python.easydel.etils.AVAILABLE_OPTIMIZERS">AVAILABLE_OPTIMIZERS</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>AVAILABLE_OPTIMIZERS: Specify the optimizer used
+to train the model</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="src.python.easydel.etils.EasyDeLOptimizers.ADAMW">ADAMW</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>scheduler</code></td>
+            <td>
+                  <code><span title="src.python.easydel.etils.AVAILABLE_SCHEDULERS">AVAILABLE_SCHEDULERS</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>AVAILABLE_SCHEDULERS: Set the learning rate
+scheduler</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="src.python.easydel.etils.EasyDeLSchedulers.NONE">NONE</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>learning_rate</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[int, float]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Union[int, float] : Set the learning rate for
+the optimizer</p>
+              </div>
+            </td>
+            <td>
+                  <code>5e-05</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>learning_rate_end</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[float]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[float]: Set the learning rate at
+the end of training</p>
+              </div>
+            </td>
+            <td>
+                  <code>5e-06</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_accumulation_steps</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Accumulate gradients over
+multiple batches</p>
+              </div>
+            </td>
+            <td>
+                  <code>1</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>weight_decay</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Specify the weight decay to be used by
+the optimizer</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.01</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>label_smoothing_factor</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the label smoothing
+factor to be used by the loss function</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>z_loss</code></td>
+            <td>
+                  <code>float</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>float: Set the z loss factor to be used by the loss
+function</p>
+              </div>
+            </td>
+            <td>
+                  <code>0.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gradient_checkpointing</code></td>
+            <td>
+                  <code><span title="src.python.easydel.etils.AVAILABLE_GRADIENT_CHECKPOINTS">AVAILABLE_GRADIENT_CHECKPOINTS</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>AVAILABLE_GRADIENT_CHECKPOINTS:
+Determine how to use gradient checkpointing</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="src.python.easydel.etils.EasyDeLGradientCheckPointers.NOTHING_SAVEABLE">NOTHING_SAVEABLE</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>max_sequence_length</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Set the maximum length
+of the input sequence</p>
+              </div>
+            </td>
+            <td>
+                  <code>4096</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>sharding_array</code></td>
+            <td>
+                  <code><span title="typing.Union">Union</span>[tuple, int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Union[tuple,int]: Specify the mesh of
+devices to use for training</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, -1, 1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>is_fine_tuning</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Tell the model whether or not to
+initialize the weights of</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>do_train</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Indicate whether to train the model or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>do_eval</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine whether to run evaluation on the
+validation set after training</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>do_test</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Determine if the model should be
+tested</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>train_on_inputs</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Use input_ids instead of labels,
+overrides ignored (-100) tokens in the labels</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>backend</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[str]: Specify the backend of jax</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_optimizer_kwargs</code></td>
+            <td>
+                  <code>dict</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>dict: Pass extra arguments to the
+optimizer</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>save_steps</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Save the model after every n
+steps</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>save_dir</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Define the directory where the checkpoints
+will be saved</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;EasyDeL-Checkpoints&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>save_total_limit</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Set the maximum number of checkpoints
+to keep, older checkpoints will be deleted</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.dtype: Set the dtype of the model parameters</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.bfloat16">bfloat16</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>param_dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jnp.dtype: Specify the data type of the model
+parameters</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.bfloat16">bfloat16</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>fully_sharded_data_parallel</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Determine if the model
+should be fully fsdp or not</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>use_wandb</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Enable or disable the wandb logging</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>custom_rule</code></td>
+            <td>
+                  <code><span title="typing.Mapping">Mapping</span>[str, <span title="jax.sharding.PartitionSpec">PartitionSpec</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Mapping[str, PartitionSpec]: Specify the
+partitioning rules of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>extra_configs</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict]: Pass extra configurations to
+the model class</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>ids_to_pop_from_dataset</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[list]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[list]: Remove some of the
+ids from the dataset</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>remove_ckpt_after_load</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Remove the checkpoint after
+loading it</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>configs_to_initialize_model_class</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict]: Pass
+extra configurations to the model class</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>do_last_save</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Save the model after training is
+complete</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>model_parameters</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict]: Pass the model parameters
+to the model class</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>do_shard_fns</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Shard the model functions across devices</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>track_memory</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Track the memory usage of the model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>loss_re_mat</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Specify the regular expression to match
+the loss function name</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>loss_chunk</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Chunk the loss to avoid memory overflow</p>
+              </div>
+            </td>
+            <td>
+                  <code>1024</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>truncation_mode</code></td>
+            <td>
+                  <code><span title="typing.Literal">Literal</span>[&#39;keep_end&#39;, &#39;keep_start&#39;]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>typing.Literal["keep_end", "keep_start"]:
+Determine if the input is left padded or not and which
+side of the array should remain in case of using maximum
+padding.</p>
+              </div>
+            </td>
+            <td>
+                  <code>&#39;keep_end&#39;</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>warmup_steps</code></td>
+            <td>
+                  <code>int</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>int: Specify the number of steps to warm up
+the learning rate</p>
+              </div>
+            </td>
+            <td>
+                  <code>500</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>init_input_shape</code></td>
+            <td>
+                  <code><span title="typing.Tuple">Tuple</span>[int, int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tuple[int, int]: Initialize the model with
+a shape that is not (batch_size, length)</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>step_partition_spec</code></td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>PartitionSpec: Partition the model for
+training</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>training_time</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[str]: Set a time limit for the
+training process</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dataloader_num_workers</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: Set the number of
+workers used by pytorch's</p>
+              </div>
+            </td>
+            <td>
+                  <code>0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dataloader_pin_memory</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[bool]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[bool]: Pin the memory of the
+dataloader</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>jax_distributed_config</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict]: Configure the jax
+distributed backend</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>log_all_workers</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: Log all workers in wandb,</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>wandb_entity</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[str]: Specify the entity to use when
+logging to weights &amp; biases</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>save_optimizer_state</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: when ever to save optimizer
+state and other args in checkpoint</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>step_start_point</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[int]: start training from given
+step for example instead of starting training from step
+0 it will start from 20000 and leave the data behind</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>verbose</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: when ever to turn verbose mode of or on</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>offload_device</code></td>
+            <td>
+                  <code><span title="jax.Device">Device</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.Device: device to be used to offload
+parameters on</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.devices">devices</span>(&#39;cpu&#39;)[0]</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rapture_config</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="src.python.easydel.trainer.training_configurations.EasyDeLXRapTureConfig">EasyDeLXRapTureConfig</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[EasyDeLXRaptureConfig]: LoRA Config
+for models</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>merge_lora_rapture_parameters</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: whenever to merge lora
+parameters with original parameters before saving</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>state_apply_fn_kwarguments_to_model</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict]:
+state_apply_fn_kwarguments_to_model is a dictionary that
+be used to apply the parameters and extra things that
+you want to deliver to model.</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>remove_unused_columns</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: when ever to remove the unused
+data columns from dataset</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>force_batch_and_gradient_accumulation_steps_calculation</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: whether to force batch and gradient to be applied
+as total batch_size (e.g total_batch_size =
+total_batch_size * gradient_accumulation_steps be
+applied)</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>performance_mode</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: whether to optimize the whole
+training process this will cut off some logging options
+and optimize training process.</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>neftune_noise_alpha</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[float]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[float]: If not <code>None</code>, this
+will activate NEFTune noise embeddings. This has been
+proven to drastically improve model performances for
+instruction fine-tuning.</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>loaded_model_config_kwargs</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[dict]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[dict]: config key
+arguments to be passed to the model while being loaded</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>**kwargs</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass keyword, variable-length argument list</p>
+              </div>
+            </td>
+            <td>
+                  <code>{}</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>from checkpoint</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/training_configurations.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">model_name</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+        <span class="n">num_train_epochs</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+        <span class="n">model_class</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLFlaxPretrainedModel</span> <span class="o">|</span> <span class="n">Type</span><span class="p">[</span><span class="n">EasyDeLFlaxPretrainedModel</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">model_huggingface_repo_id</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">total_batch_size</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32</span><span class="p">,</span>
+        <span class="n">max_training_steps</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">max_evaluation_steps</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">optimizer</span><span class="p">:</span> <span class="n">AVAILABLE_OPTIMIZERS</span> <span class="o">=</span> <span class="n">EasyDeLOptimizers</span><span class="o">.</span><span class="n">ADAMW</span><span class="p">,</span>
+        <span class="n">scheduler</span><span class="p">:</span> <span class="n">AVAILABLE_SCHEDULERS</span> <span class="o">=</span> <span class="n">EasyDeLSchedulers</span><span class="o">.</span><span class="n">NONE</span><span class="p">,</span>
+        <span class="n">learning_rate</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">5e-5</span><span class="p">,</span>
+        <span class="n">learning_rate_end</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="mf">5e-6</span><span class="p">,</span>
+        <span class="n">gradient_accumulation_steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">weight_decay</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.01</span><span class="p">,</span>
+        <span class="n">label_smoothing_factor</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">z_loss</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span><span class="p">,</span>
+        <span class="n">gradient_checkpointing</span><span class="p">:</span> <span class="n">AVAILABLE_GRADIENT_CHECKPOINTS</span> <span class="o">=</span> <span class="n">EasyDeLGradientCheckPointers</span><span class="o">.</span><span class="n">NOTHING_SAVEABLE</span><span class="p">,</span>
+        <span class="n">max_sequence_length</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">4096</span><span class="p">,</span>
+        <span class="n">sharding_array</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">tuple</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">is_fine_tuning</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">do_train</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">do_eval</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">do_test</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">train_on_inputs</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">backend</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">extra_optimizer_kwargs</span><span class="p">:</span> <span class="nb">dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">save_steps</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">save_dir</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;EasyDeL-Checkpoints&quot;</span><span class="p">,</span>
+        <span class="n">save_total_limit</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+        <span class="n">param_dtype</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span>
+        <span class="n">fully_sharded_data_parallel</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">use_wandb</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">custom_rule</span><span class="p">:</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">extra_configs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">ids_to_pop_from_dataset</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">list</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">remove_ckpt_after_load</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">configs_to_initialize_model_class</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">do_last_save</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">model_parameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">do_shard_fns</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">track_memory</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">loss_re_mat</span><span class="p">:</span> <span class="nb">str</span> <span class="o">=</span> <span class="s2">&quot;&quot;</span><span class="p">,</span>
+        <span class="n">loss_chunk</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1024</span><span class="p">,</span>
+        <span class="n">truncation_mode</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;keep_end&quot;</span><span class="p">,</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">,</span>
+        <span class="n">warmup_steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">500</span><span class="p">,</span>
+        <span class="n">init_input_shape</span><span class="p">:</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">step_partition_spec</span><span class="p">:</span> <span class="n">PartitionSpec</span> <span class="o">=</span> <span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">),</span>
+        <span class="n">training_time</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dataloader_num_workers</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span>
+        <span class="n">dataloader_pin_memory</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">bool</span><span class="p">]</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">jax_distributed_config</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">log_all_workers</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">wandb_entity</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">save_optimizer_state</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">step_start_point</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">offload_device</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">Device</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="s2">&quot;cpu&quot;</span><span class="p">)[</span><span class="mi">0</span><span class="p">],</span>
+        <span class="n">rapture_config</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLXRapTureConfig</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">merge_lora_rapture_parameters</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">state_apply_fn_kwarguments_to_model</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">remove_unused_columns</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">force_batch_and_gradient_accumulation_steps_calculation</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">performance_mode</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">neftune_noise_alpha</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">log_grad_norms</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">loaded_model_config_kwargs</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="nb">dict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up the attributes of an object, which are sometimes called fields or properties.</span>
+<span class="sd">    The __init__ function can accept arguments, just like a normal function.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        model_name: str: Specify the model name</span>
+<span class="sd">        num_train_epochs: int: Set the number of epochs for training</span>
+<span class="sd">        model_huggingface_repo_id: Optional[str]: Load a pretrained</span>
+<span class="sd">            model from the huggingface model hub</span>
+<span class="sd">        model_class: Optional[EasyDeLFlaxPretrainedModel]: Pass a</span>
+<span class="sd">            model class to the trainer</span>
+<span class="sd">        total_batch_size: int: Set the batch size of the model</span>
+<span class="sd">        max_training_steps: Optional[int]: Set the maximum total</span>
+<span class="sd">            number of training steps across all epochs</span>
+<span class="sd">        max_evaluation_steps: Optional[int]: Set the maximum number</span>
+<span class="sd">            of steps to evaluate for</span>
+<span class="sd">        optimizer: AVAILABLE_OPTIMIZERS: Specify the optimizer used</span>
+<span class="sd">            to train the model</span>
+<span class="sd">        scheduler: AVAILABLE_SCHEDULERS: Set the learning rate</span>
+<span class="sd">            scheduler</span>
+<span class="sd">        learning_rate: Union[int, float] : Set the learning rate for</span>
+<span class="sd">            the optimizer</span>
+<span class="sd">        learning_rate_end: Optional[float]: Set the learning rate at</span>
+<span class="sd">            the end of training</span>
+<span class="sd">        gradient_accumulation_steps: int: Accumulate gradients over</span>
+<span class="sd">            multiple batches</span>
+<span class="sd">        weight_decay: float: Specify the weight decay to be used by</span>
+<span class="sd">            the optimizer</span>
+<span class="sd">        label_smoothing_factor: float: Set the label smoothing</span>
+<span class="sd">            factor to be used by the loss function</span>
+<span class="sd">        z_loss: float: Set the z loss factor to be used by the loss</span>
+<span class="sd">            function</span>
+<span class="sd">        gradient_checkpointing: AVAILABLE_GRADIENT_CHECKPOINTS:</span>
+<span class="sd">            Determine how to use gradient checkpointing</span>
+<span class="sd">        max_sequence_length: Optional[int]: Set the maximum length</span>
+<span class="sd">            of the input sequence</span>
+<span class="sd">        sharding_array: Union[tuple,int]: Specify the mesh of</span>
+<span class="sd">            devices to use for training</span>
+<span class="sd">        is_fine_tuning: bool: Tell the model whether or not to</span>
+<span class="sd">            initialize the weights of</span>
+<span class="sd">        do_train: bool: Indicate whether to train the model or not</span>
+<span class="sd">        do_eval: bool: Determine whether to run evaluation on the</span>
+<span class="sd">            validation set after training</span>
+<span class="sd">        do_test: Optional[bool]: Determine if the model should be</span>
+<span class="sd">            tested</span>
+<span class="sd">        train_on_inputs: bool: Use input_ids instead of labels,</span>
+<span class="sd">            overrides ignored (-100) tokens in the labels</span>
+<span class="sd">        backend: Optional[str]: Specify the backend of jax</span>
+<span class="sd">        extra_optimizer_kwargs: dict: Pass extra arguments to the</span>
+<span class="sd">            optimizer</span>
+<span class="sd">        save_steps: Optional[int]: Save the model after every n</span>
+<span class="sd">            steps</span>
+<span class="sd">        save_dir: str: Define the directory where the checkpoints</span>
+<span class="sd">            will be saved</span>
+<span class="sd">        save_total_limit: int: Set the maximum number of checkpoints</span>
+<span class="sd">            to keep, older checkpoints will be deleted</span>
+<span class="sd">        dtype: jnp.dtype: Set the dtype of the model parameters</span>
+<span class="sd">        param_dtype: jnp.dtype: Specify the data type of the model</span>
+<span class="sd">            parameters</span>
+<span class="sd">        fully_sharded_data_parallel: bool: Determine if the model</span>
+<span class="sd">            should be fully fsdp or not</span>
+<span class="sd">        use_wandb: bool: Enable or disable the wandb logging</span>
+<span class="sd">        custom_rule: Mapping[str, PartitionSpec]: Specify the</span>
+<span class="sd">            partitioning rules of the model</span>
+<span class="sd">        extra_configs: Optional[dict]: Pass extra configurations to</span>
+<span class="sd">            the model class</span>
+<span class="sd">        ids_to_pop_from_dataset: Optional[list]: Remove some of the</span>
+<span class="sd">            ids from the dataset</span>
+<span class="sd">        remove_ckpt_after_load: bool: Remove the checkpoint after</span>
+<span class="sd">            loading it</span>
+<span class="sd">        configs_to_initialize_model_class: Optional[dict]: Pass</span>
+<span class="sd">            extra configurations to the model class</span>
+<span class="sd">        do_last_save: bool: Save the model after training is</span>
+<span class="sd">            complete</span>
+<span class="sd">        model_parameters: Optional[dict]: Pass the model parameters</span>
+<span class="sd">            to the model class</span>
+<span class="sd">        do_shard_fns: bool: Shard the model functions across devices</span>
+<span class="sd">        track_memory: bool: Track the memory usage of the model</span>
+<span class="sd">        loss_re_mat: str: Specify the regular expression to match</span>
+<span class="sd">            the loss function name</span>
+<span class="sd">        loss_chunk: int: Chunk the loss to avoid memory overflow</span>
+<span class="sd">        truncation_mode: typing.Literal[&quot;keep_end&quot;, &quot;keep_start&quot;]:</span>
+<span class="sd">            Determine if the input is left padded or not and which</span>
+<span class="sd">            side of the array should remain in case of using maximum</span>
+<span class="sd">            padding.</span>
+<span class="sd">        warmup_steps: int: Specify the number of steps to warm up</span>
+<span class="sd">            the learning rate</span>
+<span class="sd">        init_input_shape: Tuple[int, int]: Initialize the model with</span>
+<span class="sd">            a shape that is not (batch_size, length)</span>
+<span class="sd">        step_partition_spec: PartitionSpec: Partition the model for</span>
+<span class="sd">            training</span>
+<span class="sd">        training_time: Optional[str]: Set a time limit for the</span>
+<span class="sd">            training process</span>
+<span class="sd">        dataloader_num_workers: Optional[int]: Set the number of</span>
+<span class="sd">            workers used by pytorch&#39;s</span>
+<span class="sd">        dataloader_pin_memory: Optional[bool]: Pin the memory of the</span>
+<span class="sd">            dataloader</span>
+<span class="sd">        jax_distributed_config: Optional[dict]: Configure the jax</span>
+<span class="sd">            distributed backend</span>
+<span class="sd">        log_all_workers: bool: Log all workers in wandb,</span>
+<span class="sd">        wandb_entity: Optional[str]: Specify the entity to use when</span>
+<span class="sd">            logging to weights &amp;amp; biases</span>
+<span class="sd">        save_optimizer_state: bool: when ever to save optimizer</span>
+<span class="sd">            state and other args in checkpoint</span>
+<span class="sd">        step_start_point: Optional[int]: start training from given</span>
+<span class="sd">            step for example instead of starting training from step</span>
+<span class="sd">            0 it will start from 20000 and leave the data behind</span>
+<span class="sd">        verbose: bool: when ever to turn verbose mode of or on</span>
+<span class="sd">        offload_device: jax.Device: device to be used to offload</span>
+<span class="sd">            parameters on</span>
+<span class="sd">        rapture_config: Optional[EasyDeLXRaptureConfig]: LoRA Config</span>
+<span class="sd">            for models</span>
+<span class="sd">        merge_lora_rapture_parameters: bool: whenever to merge lora</span>
+<span class="sd">            parameters with original parameters before saving</span>
+<span class="sd">        state_apply_fn_kwarguments_to_model: Optional[dict]:</span>
+<span class="sd">            state_apply_fn_kwarguments_to_model is a dictionary that</span>
+<span class="sd">            be used to apply the parameters and extra things that</span>
+<span class="sd">            you want to deliver to model.</span>
+<span class="sd">        remove_unused_columns: bool: when ever to remove the unused</span>
+<span class="sd">            data columns from dataset</span>
+<span class="sd">        force_batch_and_gradient_accumulation_steps_calculation:</span>
+<span class="sd">            bool: whether to force batch and gradient to be applied</span>
+<span class="sd">            as total batch_size (e.g total_batch_size =</span>
+<span class="sd">            total_batch_size * gradient_accumulation_steps be</span>
+<span class="sd">            applied)</span>
+<span class="sd">        performance_mode: bool: whether to optimize the whole</span>
+<span class="sd">            training process this will cut off some logging options</span>
+<span class="sd">            and optimize training process.</span>
+<span class="sd">        neftune_noise_alpha: Optional[float]: If not `None`, this</span>
+<span class="sd">            will activate NEFTune noise embeddings. This has been</span>
+<span class="sd">            proven to drastically improve model performances for</span>
+<span class="sd">            instruction fine-tuning.</span>
+<span class="sd">        loaded_model_config_kwargs: Optional[dict]: config key</span>
+<span class="sd">            arguments to be passed to the model while being loaded</span>
+<span class="sd">        **kwargs: Pass keyword, variable-length argument list</span>
+<span class="sd">    from checkpoint</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+
+    <span class="k">if</span> <span class="n">ids_to_pop_from_dataset</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">ids_to_pop_from_dataset</span> <span class="o">=</span> <span class="p">[]</span>
+    <span class="k">if</span> <span class="n">extra_optimizer_kwargs</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">extra_optimizer_kwargs</span> <span class="o">=</span> <span class="p">{}</span>
+
+    <span class="k">if</span> <span class="n">model_class</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">model_huggingface_repo_id</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="nb">print</span><span class="p">(</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                <span class="s2">&quot;Warning : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span> <span class="o">+</span> <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                <span class="s2">&quot;You should at least pass model_class or model_huggingface_repo_id if you want to use &quot;</span>
+                <span class="s2">&quot;CasualLanguageModel Trainer But in case that you want to use &quot;</span>
+                <span class="s2">&quot;DPOTrainer or ORPOTrainer you can ignore this warning&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span>
+                <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+    <span class="k">assert</span> <span class="n">backend</span> <span class="ow">in</span> <span class="n">AVAILABLE_BACKENDS</span><span class="p">,</span> <span class="p">(</span>
+        <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">backend</span><span class="si">}</span><span class="s2"> is not recognized, &quot;</span>
+        <span class="sa">f</span><span class="s2">&quot;available backends are </span><span class="si">{</span><span class="n">AVAILABLE_BACKENDS</span><span class="si">}</span><span class="s2">&quot;</span>
+    <span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">track_memory</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="c1"># https://github.com/erfanzar/EasyDeL/pull/100/commits/523ce7b1515d7896d456759d0bcd0bd02369bd10</span>
+        <span class="nb">print</span><span class="p">(</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span><span class="s2">&quot;Information : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                <span class="s2">&quot;track_memory is set to False by default inorder make make training faster. &quot;</span>
+                <span class="s2">&quot;you can turn it on with just passing `track_memory=True` in TrainArguments&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+        <span class="n">track_memory</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="n">available_backends</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">(</span><span class="n">backend</span><span class="p">))</span>
+    <span class="k">if</span> <span class="n">force_batch_and_gradient_accumulation_steps_calculation</span><span class="p">:</span>
+        <span class="n">total_batch_size</span> <span class="o">*=</span> <span class="n">gradient_accumulation_steps</span>  <span class="c1"># Changed and will be handled inside FJFormer</span>
+    <span class="n">array_devices</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="n">available_backends</span><span class="p">,</span> <span class="mi">1</span><span class="p">))</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">sharding_array</span><span class="p">)</span>
+    <span class="n">JaxDistributedConfig</span><span class="o">.</span><span class="n">initialize</span><span class="p">(</span><span class="n">jax_distributed_config</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">force_batch_and_gradient_accumulation_steps_calculation</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">force_batch_and_gradient_accumulation_steps_calculation</span>
+    <span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">available_backends</span> <span class="o">=</span> <span class="n">available_backends</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">array_devices_shape</span> <span class="o">=</span> <span class="n">array_devices</span><span class="o">.</span><span class="n">shape</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model_huggingface_repo_id</span> <span class="o">=</span> <span class="n">model_huggingface_repo_id</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">num_train_epochs</span> <span class="o">=</span> <span class="n">num_train_epochs</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">wandb_entity</span> <span class="o">=</span> <span class="n">wandb_entity</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">total_batch_size</span> <span class="o">=</span> <span class="n">total_batch_size</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span> <span class="o">=</span> <span class="n">max_training_steps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span> <span class="o">=</span> <span class="n">max_evaluation_steps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="n">optimizer</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span> <span class="o">=</span> <span class="n">scheduler</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">extra_optimizer_kwargs</span> <span class="o">=</span> <span class="n">extra_optimizer_kwargs</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">learning_rate</span> <span class="o">=</span> <span class="n">learning_rate</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">learning_rate_end</span> <span class="o">=</span> <span class="n">learning_rate_end</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">weight_decay</span> <span class="o">=</span> <span class="n">weight_decay</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">label_smoothing_factor</span> <span class="o">=</span> <span class="n">label_smoothing_factor</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">z_loss</span> <span class="o">=</span> <span class="n">z_loss</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model_name</span> <span class="o">=</span> <span class="n">model_name</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_checkpointing</span> <span class="o">=</span> <span class="n">gradient_checkpointing</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">max_sequence_length</span> <span class="o">=</span> <span class="n">max_sequence_length</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">sharding_array</span> <span class="o">=</span> <span class="n">sharding_array</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">is_fine_tuning</span> <span class="o">=</span> <span class="n">is_fine_tuning</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">do_train</span> <span class="o">=</span> <span class="n">do_train</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">do_eval</span> <span class="o">=</span> <span class="n">do_eval</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">do_test</span> <span class="o">=</span> <span class="n">do_test</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">train_on_inputs</span> <span class="o">=</span> <span class="n">train_on_inputs</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">save_steps</span> <span class="o">=</span> <span class="n">save_steps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">save_dir</span> <span class="o">=</span> <span class="n">save_dir</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">save_total_limit</span> <span class="o">=</span> <span class="n">save_total_limit</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">dtype</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">warmup_steps</span> <span class="o">=</span> <span class="n">warmup_steps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">param_dtype</span> <span class="o">=</span> <span class="n">param_dtype</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span> <span class="o">=</span> <span class="n">fully_sharded_data_parallel</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">use_wandb</span> <span class="o">=</span> <span class="n">use_wandb</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">custom_rule</span> <span class="o">=</span> <span class="n">custom_rule</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">extra_configs</span> <span class="o">=</span> <span class="n">extra_configs</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span> <span class="o">=</span> <span class="n">ids_to_pop_from_dataset</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">remove_ckpt_after_load</span> <span class="o">=</span> <span class="n">remove_ckpt_after_load</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model_class</span> <span class="o">=</span> <span class="n">model_class</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">configs_to_initialize_model_class</span> <span class="o">=</span> <span class="n">configs_to_initialize_model_class</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">do_last_save</span> <span class="o">=</span> <span class="n">do_last_save</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">model_parameters</span> <span class="o">=</span> <span class="n">model_parameters</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">do_shard_fns</span> <span class="o">=</span> <span class="n">do_shard_fns</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">gradient_accumulation_steps</span> <span class="o">=</span> <span class="n">gradient_accumulation_steps</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">track_memory</span> <span class="o">=</span> <span class="n">track_memory</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">loss_chunk</span> <span class="o">=</span> <span class="n">loss_chunk</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">loss_re_mat</span> <span class="o">=</span> <span class="n">loss_re_mat</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">init_input_shape</span> <span class="o">=</span> <span class="n">init_input_shape</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">truncation_mode</span> <span class="o">=</span> <span class="n">truncation_mode</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">step_partition_spec</span> <span class="o">=</span> <span class="n">step_partition_spec</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">jax_distributed_config</span> <span class="o">=</span> <span class="n">jax_distributed_config</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">log_all_workers</span> <span class="o">=</span> <span class="n">log_all_workers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_num_workers</span> <span class="o">=</span> <span class="n">dataloader_num_workers</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_pin_memory</span> <span class="o">=</span> <span class="n">dataloader_pin_memory</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">save_optimizer_state</span> <span class="o">=</span> <span class="n">save_optimizer_state</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">step_start_point</span> <span class="o">=</span> <span class="n">step_start_point</span> <span class="k">if</span> <span class="n">step_start_point</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="mi">0</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">verbose</span> <span class="o">=</span> <span class="n">verbose</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">offload_device</span> <span class="o">=</span> <span class="n">offload_device</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">performance_mode</span> <span class="o">=</span> <span class="n">performance_mode</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">neftune_noise_alpha</span> <span class="o">=</span> <span class="n">neftune_noise_alpha</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">loaded_model_config_kwargs</span> <span class="o">=</span> <span class="n">loaded_model_config_kwargs</span>
+    <span class="k">if</span> <span class="n">use_wandb</span> <span class="ow">and</span> <span class="n">performance_mode</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_wandb</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">optimizer_kwargs</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span>
+        <span class="n">learning_rate</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+        <span class="n">learning_rate_end</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">learning_rate_end</span><span class="p">,</span>
+        <span class="n">optimizer</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="p">,</span>
+        <span class="n">scheduler</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span><span class="p">,</span>
+        <span class="n">extra_optimizer_kwargs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">extra_optimizer_kwargs</span><span class="p">,</span>
+        <span class="n">warmup_steps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">warmup_steps</span><span class="p">,</span>
+        <span class="n">gradient_accumulation_steps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">gradient_accumulation_steps</span><span class="p">,</span>
+        <span class="n">weight_decay</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">weight_decay</span><span class="p">,</span>
+        <span class="n">steps</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">,</span>
+    <span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">training_time</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_time_to_seconds</span><span class="p">(</span><span class="n">training_time</span><span class="p">)</span> <span class="k">if</span> <span class="n">training_time</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="kc">None</span>
+    <span class="n">torch</span><span class="o">.</span><span class="n">set_default_device</span><span class="p">(</span><span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">merge_lora_rapture_parameters</span> <span class="o">=</span> <span class="n">merge_lora_rapture_parameters</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">rapture_config</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">remove_unused_columns</span> <span class="o">=</span> <span class="n">remove_unused_columns</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">_stop_capturing_memory</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">_captured_memory</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">log_grad_norms</span> <span class="o">=</span> <span class="n">log_grad_norms</span>
+    <span class="k">if</span> <span class="n">rapture_config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">log_grad_norms</span><span class="p">:</span>
+        <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+            <span class="s2">&quot;setting `log_grad_norms` to off since using log grad norms while using LoRA is not Supported.&quot;</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">log_grad_norms</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">state_apply_fn_kwarguments_to_model</span> <span class="o">=</span> <span class="p">(</span>
+        <span class="n">state_apply_fn_kwarguments_to_model</span>
+    <span class="p">)</span> <span class="k">if</span> <span class="n">state_apply_fn_kwarguments_to_model</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">{}</span>
+    <span class="k">if</span> <span class="n">rapture_config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="nb">print</span><span class="p">(</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span><span class="s2">&quot;Warning : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                <span class="s2">&quot;You are using LoRA (Low-Rank Adaptation of Large Language Models) and this feature is&quot;</span>
+                <span class="s2">&quot;still in Beta mode so it might act unexpected&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rapture_config</span> <span class="o">=</span> <span class="n">rapture_config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="o">=</span> <span class="n">XRapTure</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">rapture_config</span><span class="p">)</span>
+    <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.training_configurations.TrainArguments.ckpt_path_exists" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">ckpt_path_exists</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The ckpt_path_exists function checks to see if the path exists. If it does not, then it creates a new directory.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A path</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/training_configurations.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">ckpt_path_exists</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The ckpt_path_exists function checks to see if the path exists. If it does not, then it creates a new directory.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A path</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">path</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_path</span><span class="p">()</span>
+    <span class="k">if</span> <span class="ow">not</span> <span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">():</span>
+        <span class="n">path</span><span class="o">.</span><span class="n">mkdir</span><span class="p">(</span><span class="n">parents</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.training_configurations.TrainArguments.get_board" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_board</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_board function is a helper function that returns a TensorBoard object.
+The TensorBoard object is used to log the training and validation loss, as well as
+the accuracy of the model during training. The get_board function takes no arguments,
+and returns an instance of torch.utils.tensorboard SummaryWriter class.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A summary-writer object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/training_configurations.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_board</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_board function is a helper function that returns a TensorBoard object.</span>
+<span class="sd">    The TensorBoard object is used to log the training and validation loss, as well as</span>
+<span class="sd">    the accuracy of the model during training. The get_board function takes no arguments,</span>
+<span class="sd">    and returns an instance of torch.utils.tensorboard SummaryWriter class.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A summary-writer object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">tensorboard</span><span class="o">.</span><span class="n">SummaryWriter</span><span class="p">(</span>
+        <span class="n">log_dir</span><span class="o">=</span><span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">get_path</span><span class="p">()),</span>
+        <span class="n">comment</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">model_name</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+        <span class="n">filename_suffix</span><span class="o">=</span><span class="s2">&quot;easydel&quot;</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.training_configurations.TrainArguments.get_mesh" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_mesh</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_mesh function is used to create a mesh object that can be used
+to define the geometry of the device. The mesh object contains two arrays:
+a list of vertices and a list of faces. Each face is defined by three indices,
+which correspond to three vertices in the vertex array. The get_mesh function
+is called when creating an instance of DeviceGeometry, which is then passed
+into an instance of DeviceSimulation.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Refer to the object itself</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A mesh object with the device array shape and the mesh names</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/training_configurations.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_mesh</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_mesh function is used to create a mesh object that can be used</span>
+<span class="sd">    to define the geometry of the device. The mesh object contains two arrays:</span>
+<span class="sd">    a list of vertices and a list of faces. Each face is defined by three indices,</span>
+<span class="sd">    which correspond to three vertices in the vertex array. The get_mesh function</span>
+<span class="sd">    is called when creating an instance of DeviceGeometry, which is then passed</span>
+<span class="sd">    into an instance of DeviceSimulation.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Refer to the object itself</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A mesh object with the device array shape and the mesh names</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="n">Mesh</span><span class="p">(</span>
+        <span class="n">create_device_mesh</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">array_devices_shape</span>
+        <span class="p">),</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">get_mesh_names</span><span class="p">()</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.training_configurations.TrainArguments.get_meter_dict" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_meter_dict</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_meter_dict function is used to return a dictionary of the hyperparameters.
+The function iterates through all the attributes in the class and returns a dictionary with
+the key as &quot;hyperparameters/{k}&quot; and value as v for each attribute k,v in self.<strong>dict</strong> if it is an
+ instance of int, float, str, bool or torch.Tensor.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of hyperparameters</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/training_configurations.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_meter_dict</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_meter_dict function is used to return a dictionary of the hyperparameters.</span>
+<span class="sd">    The function iterates through all the attributes in the class and returns a dictionary with</span>
+<span class="sd">    the key as &amp;quot;hyperparameters/{k}&amp;quot; and value as v for each attribute k,v in self.__dict__ if it is an</span>
+<span class="sd">     instance of int, float, str, bool or torch.Tensor.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of hyperparameters</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="p">{</span>
+        <span class="sa">f</span><span class="s2">&quot;hyperparameters/</span><span class="si">{</span><span class="n">k</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">:</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="vm">__dict__</span><span class="o">.</span><span class="n">items</span><span class="p">()</span> <span class="k">if</span>
+        <span class="nb">isinstance</span><span class="p">(</span><span class="n">v</span><span class="p">,</span> <span class="p">(</span><span class="nb">int</span><span class="p">,</span> <span class="nb">float</span><span class="p">,</span> <span class="nb">str</span><span class="p">,</span> <span class="nb">bool</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">))</span>
+    <span class="p">}</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.training_configurations.TrainArguments.get_path" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_path</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_path function returns a pathlib.Path object, which is a class that
+represents file paths and provides methods for interacting with the files at
+those paths. The get_path function takes no arguments and returns an instance of
+the Path class initialized with two arguments: self.save_dir (a string) and
+self.model_name (also a string). The save directory is the directory where we'll
+store our model checkpoints, while the model name will be used to create unique
+filenames for each checkpoint.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A pathlib</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/training_configurations.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_path</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_path function returns a pathlib.Path object, which is a class that</span>
+<span class="sd">    represents file paths and provides methods for interacting with the files at</span>
+<span class="sd">    those paths. The get_path function takes no arguments and returns an instance of</span>
+<span class="sd">    the Path class initialized with two arguments: self.save_dir (a string) and</span>
+<span class="sd">    self.model_name (also a string). The save directory is the directory where we&#39;ll</span>
+<span class="sd">    store our model checkpoints, while the model name will be used to create unique</span>
+<span class="sd">    filenames for each checkpoint.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A pathlib</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="n">pathlib</span><span class="o">.</span><span class="n">Path</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">save_dir</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_name</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.training_configurations.TrainArguments.get_streaming_checkpointer" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_streaming_checkpointer</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_streaming_checkpointer function is used to save the model's weights.
+The streaming checkpointer saves the model's weights in a file called &quot;checkpoint&quot; and then
+saves a copy of that file with an incrementing number appended to it (e.g., checkpoint_001,
+checkpoint_002, etc.). This allows you to keep multiple versions of your trained models.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A CheckpointManager object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/training_configurations.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_streaming_checkpointer</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_streaming_checkpointer function is used to save the model&#39;s weights.</span>
+<span class="sd">    The streaming checkpointer saves the model&#39;s weights in a file called &amp;quot;checkpoint&amp;quot; and then</span>
+<span class="sd">    saves a copy of that file with an incrementing number appended to it (e.g., checkpoint_001,</span>
+<span class="sd">    checkpoint_002, etc.). This allows you to keep multiple versions of your trained models.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A CheckpointManager object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="n">CheckpointManager</span><span class="p">(</span>
+        <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">save_dir</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_name</span><span class="p">),</span>
+        <span class="n">save_optimizer_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">save_optimizer_state</span><span class="p">,</span>
+        <span class="n">verbose</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">verbose</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.training_configurations.TrainArguments.get_wandb_init" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_wandb_init</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_wandb_init function is a helper function that returns the wandb.init() call with
+the project name, config object, and tags set to appropriate values for this model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass the class instance to the function</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="wandb.apis.public.Run">Run</span> | <span title="wandb.sdk.lib.RunDisabled">RunDisabled</span> | None</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A wandb or None</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/training_configurations.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_wandb_init</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Run</span> <span class="o">|</span> <span class="n">RunDisabled</span> <span class="o">|</span> <span class="kc">None</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_wandb_init function is a helper function that returns the wandb.init() call with</span>
+<span class="sd">    the project name, config object, and tags set to appropriate values for this model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Pass the class instance to the function</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A wandb or None</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="n">wandb</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+        <span class="n">project</span><span class="o">=</span><span class="sa">f</span><span class="s2">&quot;EasyDeL-</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">model_name</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+        <span class="n">config</span><span class="o">=</span><span class="bp">self</span><span class="p">(),</span>
+        <span class="n">tags</span><span class="o">=</span><span class="p">[</span>
+            <span class="s2">&quot;EasyDeL&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;FJFormer&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;OST-OpenSourceTransformers&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;Jax/Flax&quot;</span>
+        <span class="p">],</span>
+        <span class="n">entity</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">wandb_entity</span>
+
+    <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">log_all_workers</span> <span class="ow">or</span> <span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">process_index</span><span class="p">()</span> <span class="o">==</span> <span class="mi">0</span><span class="p">)</span> <span class="k">else</span> <span class="kc">None</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-utils/index.html b/generated-trainer-utils/index.html
new file mode 100644
index 000000000..c3ad4db26
--- /dev/null
+++ b/generated-trainer-utils/index.html
@@ -0,0 +1,7160 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-training_configurations/">
+      
+      
+        <link rel="next" href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Utils - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainerutils" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Utils
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils.DataCollatorForCompletionOnlyLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      DataCollatorForCompletionOnlyLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="DataCollatorForCompletionOnlyLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils.DataCollatorForCompletionOnlyLM.jax_mask_tokens" class="md-nav__link">
+    <span class="md-ellipsis">
+      jax_mask_tokens
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils.JaxDistributedConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      JaxDistributedConfig
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils.conversations_formatting_function" class="md-nav__link">
+    <span class="md-ellipsis">
+      conversations_formatting_function
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils.get_formatting_func_from_dataset" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_formatting_func_from_dataset
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils.instructions_formatting_function" class="md-nav__link">
+    <span class="md-ellipsis">
+      instructions_formatting_function
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils.tolist" class="md-nav__link">
+    <span class="md-ellipsis">
+      tolist
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils.DataCollatorForCompletionOnlyLM" class="md-nav__link">
+    <span class="md-ellipsis">
+      DataCollatorForCompletionOnlyLM
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="DataCollatorForCompletionOnlyLM">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils.DataCollatorForCompletionOnlyLM.jax_mask_tokens" class="md-nav__link">
+    <span class="md-ellipsis">
+      jax_mask_tokens
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils.JaxDistributedConfig" class="md-nav__link">
+    <span class="md-ellipsis">
+      JaxDistributedConfig
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils.conversations_formatting_function" class="md-nav__link">
+    <span class="md-ellipsis">
+      conversations_formatting_function
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils.get_formatting_func_from_dataset" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_formatting_func_from_dataset
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils.instructions_formatting_function" class="md-nav__link">
+    <span class="md-ellipsis">
+      instructions_formatting_function
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.utils.tolist" class="md-nav__link">
+    <span class="md-ellipsis">
+      tolist
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainerutils">trainer.utils</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.utils"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.trainer.utils.DataCollatorForCompletionOnlyLM" class="doc doc-heading">
+            <code>DataCollatorForCompletionOnlyLM</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+      <p>Data collator used for completion tasks. It ensures that all the tokens of the labels are set to an 'ignore_index'
+when they do not come from the assistant. This ensures that the loss is only
+calculated on the completion made by the assistant.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/trainer/utils.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">DataCollatorForCompletionOnlyLM</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Data collator used for completion tasks. It ensures that all the tokens of the labels are set to an &#39;ignore_index&#39;</span>
+<span class="sd">    when they do not come from the assistant. This ensures that the loss is only</span>
+<span class="sd">    calculated on the completion made by the assistant.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">tokenizer</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">PreTrainedTokenizerBase</span><span class="p">],</span>
+            <span class="n">response_template</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]],</span>
+            <span class="n">instruction_template</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="o">*</span><span class="n">args</span><span class="p">,</span>
+            <span class="n">mlm</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+            <span class="n">ignore_index</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="o">-</span><span class="mi">100</span><span class="p">,</span>
+            <span class="o">**</span><span class="n">kwargs</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">AutoTokenizer</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">instruction_template</span> <span class="o">=</span> <span class="n">instruction_template</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">instruction_template</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">instruction_token_ids</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">instruction_template</span><span class="p">,</span> <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">instruction_token_ids</span> <span class="o">=</span> <span class="n">instruction_template</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">response_template</span> <span class="o">=</span> <span class="n">response_template</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">response_template</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">response_token_ids</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">encode</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">response_template</span><span class="p">,</span> <span class="n">add_special_tokens</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">response_token_ids</span> <span class="o">=</span> <span class="n">response_template</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="n">mlm</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">instruction_template</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">pad_token_id</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">eos_token_id</span><span class="p">:</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;The pad_token_id and eos_token_id values of this tokenizer are identical. &quot;</span>
+                <span class="s2">&quot;If you are planning for multi-turn training, &quot;</span>
+                <span class="s2">&quot;it can result in the model continuously generating questions and answers without eos token. &quot;</span>
+                <span class="s2">&quot;To avoid this, set the pad_token_id to a different value.&quot;</span>
+            <span class="p">)</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">ignore_index</span> <span class="o">=</span> <span class="n">ignore_index</span>
+
+    <span class="k">def</span> <span class="nf">_whole_word_mask</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">input_tokens</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span> <span class="n">max_predictions</span><span class="o">=</span><span class="mi">512</span><span class="p">):</span>
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">,</span> <span class="p">(</span><span class="n">BertTokenizer</span><span class="p">,</span> <span class="n">BertTokenizerFast</span><span class="p">)):</span>
+            <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                <span class="s2">&quot;DataCollatorForWholeWordMask is only suitable for BertTokenizer-like tokenizers. &quot;</span>
+                <span class="s2">&quot;Please refer to the documentation for more information.&quot;</span>
+            <span class="p">)</span>
+
+        <span class="n">cand_indexes</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">token</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">input_tokens</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">token</span> <span class="o">==</span> <span class="s2">&quot;[CLS]&quot;</span> <span class="ow">or</span> <span class="n">token</span> <span class="o">==</span> <span class="s2">&quot;[SEP]&quot;</span><span class="p">:</span>
+                <span class="k">continue</span>
+
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">cand_indexes</span><span class="p">)</span> <span class="o">&gt;=</span> <span class="mi">1</span> <span class="ow">and</span> <span class="n">token</span><span class="o">.</span><span class="n">startswith</span><span class="p">(</span><span class="s2">&quot;##&quot;</span><span class="p">):</span>
+                <span class="n">cand_indexes</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">i</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">cand_indexes</span><span class="o">.</span><span class="n">append</span><span class="p">([</span><span class="n">i</span><span class="p">])</span>
+
+        <span class="n">random</span><span class="o">.</span><span class="n">shuffle</span><span class="p">(</span><span class="n">cand_indexes</span><span class="p">)</span>
+        <span class="n">num_to_predict</span> <span class="o">=</span> <span class="nb">min</span><span class="p">(</span><span class="n">max_predictions</span><span class="p">,</span> <span class="nb">max</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="nb">int</span><span class="p">(</span><span class="nb">round</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">input_tokens</span><span class="p">)</span> <span class="o">*</span> <span class="mf">0.15</span><span class="p">))))</span>
+        <span class="n">masked_lms</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="n">covered_indexes</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>
+        <span class="k">for</span> <span class="n">index_set</span> <span class="ow">in</span> <span class="n">cand_indexes</span><span class="p">:</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">masked_lms</span><span class="p">)</span> <span class="o">&gt;=</span> <span class="n">num_to_predict</span><span class="p">:</span>
+                <span class="k">break</span>
+            <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">masked_lms</span><span class="p">)</span> <span class="o">+</span> <span class="nb">len</span><span class="p">(</span><span class="n">index_set</span><span class="p">)</span> <span class="o">&gt;</span> <span class="n">num_to_predict</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="n">is_any_index_covered</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="k">for</span> <span class="n">index</span> <span class="ow">in</span> <span class="n">index_set</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">index</span> <span class="ow">in</span> <span class="n">covered_indexes</span><span class="p">:</span>
+                    <span class="n">is_any_index_covered</span> <span class="o">=</span> <span class="kc">True</span>
+                    <span class="k">break</span>
+            <span class="k">if</span> <span class="n">is_any_index_covered</span><span class="p">:</span>
+                <span class="k">continue</span>
+            <span class="k">for</span> <span class="n">index</span> <span class="ow">in</span> <span class="n">index_set</span><span class="p">:</span>
+                <span class="n">covered_indexes</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">index</span><span class="p">)</span>
+                <span class="n">masked_lms</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">index</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">covered_indexes</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">masked_lms</span><span class="p">):</span>
+            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Length of covered_indexes is not equal to length of masked_lms.&quot;</span><span class="p">)</span>
+        <span class="n">mask_labels</span> <span class="o">=</span> <span class="p">[</span><span class="mi">1</span> <span class="k">if</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">covered_indexes</span> <span class="k">else</span> <span class="mi">0</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">input_tokens</span><span class="p">))]</span>
+        <span class="k">return</span> <span class="n">mask_labels</span>
+
+    <span class="k">def</span> <span class="nf">jax_mask_tokens</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputs</span><span class="p">:</span> <span class="n">Any</span><span class="p">,</span> <span class="n">special_tokens_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Any</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">Any</span><span class="p">,</span> <span class="n">Any</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Prepare masked tokens inputs/labels for masked language modeling: 80% MASK, 10% random, 10% original.&quot;&quot;&quot;</span>
+        <span class="n">labels</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">copy</span><span class="p">(</span><span class="n">inputs</span><span class="p">)</span>
+        <span class="n">probability_matrix</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">labels</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.15</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">special_tokens_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">special_tokens_mask</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">get_special_tokens_mask</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="n">already_has_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span> <span class="k">for</span> <span class="n">val</span> <span class="ow">in</span> <span class="n">labels</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
+            <span class="p">]</span>
+            <span class="n">special_tokens_mask</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">special_tokens_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="nb">bool</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">special_tokens_mask</span> <span class="o">=</span> <span class="n">special_tokens_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">bool</span><span class="p">)</span>
+
+        <span class="n">probability_matrix</span><span class="p">[</span><span class="n">special_tokens_mask</span><span class="p">]</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">masked_indices</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">binomial</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">probability_matrix</span><span class="p">,</span> <span class="n">size</span><span class="o">=</span><span class="n">probability_matrix</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">bool</span><span class="p">)</span>
+        <span class="n">labels</span><span class="p">[</span><span class="o">~</span><span class="n">masked_indices</span><span class="p">]</span> <span class="o">=</span> <span class="o">-</span><span class="mi">100</span>
+        <span class="n">indices_replaced</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">binomial</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mf">0.8</span><span class="p">,</span> <span class="n">size</span><span class="o">=</span><span class="n">labels</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">bool</span><span class="p">)</span> <span class="o">&amp;</span> <span class="n">masked_indices</span>
+        <span class="n">inputs</span><span class="p">[</span><span class="n">indices_replaced</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">mask_token_id</span>
+        <span class="n">indices_random</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">binomial</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">,</span> <span class="n">size</span><span class="o">=</span><span class="n">labels</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">bool</span><span class="p">)</span> <span class="o">&amp;</span> <span class="n">masked_indices</span> <span class="o">&amp;</span> <span class="o">~</span><span class="n">indices_replaced</span>
+        <span class="p">)</span>
+        <span class="n">random_words</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span>
+            <span class="n">low</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">high</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">),</span> <span class="n">size</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">count_nonzero</span><span class="p">(</span><span class="n">indices_random</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">int64</span>
+        <span class="p">)</span>
+        <span class="n">inputs</span><span class="p">[</span><span class="n">indices_random</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_words</span>
+        <span class="k">return</span> <span class="n">inputs</span><span class="p">,</span> <span class="n">labels</span>
+
+    <span class="k">def</span> <span class="nf">jax_call</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">examples</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">],</span> <span class="n">Any</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]])</span> <span class="o">-&gt;</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]:</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">examples</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">Mapping</span><span class="p">):</span>
+            <span class="n">input_ids</span> <span class="o">=</span> <span class="p">[</span><span class="n">e</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]</span> <span class="k">for</span> <span class="n">e</span> <span class="ow">in</span> <span class="n">examples</span><span class="p">]</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">input_ids</span> <span class="o">=</span> <span class="n">examples</span>
+            <span class="n">examples</span> <span class="o">=</span> <span class="p">[{</span><span class="s2">&quot;input_ids&quot;</span><span class="p">:</span> <span class="n">e</span><span class="p">}</span> <span class="k">for</span> <span class="n">e</span> <span class="ow">in</span> <span class="n">examples</span><span class="p">]</span>
+
+        <span class="n">batch_input</span> <span class="o">=</span> <span class="n">_collate_batch</span><span class="p">(</span><span class="n">input_ids</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">,</span> <span class="p">)</span>
+
+        <span class="n">mask_labels</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">for</span> <span class="n">e</span> <span class="ow">in</span> <span class="n">examples</span><span class="p">:</span>
+            <span class="n">ref_tokens</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">ida</span> <span class="ow">in</span> <span class="n">tolist</span><span class="p">(</span><span class="n">e</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">]):</span>
+                <span class="n">token</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">_convert_id_to_token</span><span class="p">(</span><span class="n">ida</span><span class="p">)</span>
+                <span class="n">ref_tokens</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">token</span><span class="p">)</span>
+
+            <span class="c1"># For Chinese tokens, we need extra inf to mark sub-word, e.g [喜,欢]-&gt; [喜，##欢]</span>
+            <span class="k">if</span> <span class="s2">&quot;chinese_ref&quot;</span> <span class="ow">in</span> <span class="n">e</span><span class="p">:</span>
+                <span class="n">ref_pos</span> <span class="o">=</span> <span class="n">tolist</span><span class="p">(</span><span class="n">e</span><span class="p">[</span><span class="s2">&quot;chinese_ref&quot;</span><span class="p">])</span>
+                <span class="n">len_seq</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">e</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">])</span>
+                <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">len_seq</span><span class="p">):</span>
+                    <span class="k">if</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">ref_pos</span><span class="p">:</span>
+                        <span class="n">ref_tokens</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;##&quot;</span> <span class="o">+</span> <span class="n">ref_tokens</span><span class="p">[</span><span class="n">i</span><span class="p">]</span>
+            <span class="n">mask_labels</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">_whole_word_mask</span><span class="p">(</span><span class="n">ref_tokens</span><span class="p">))</span>
+        <span class="n">batch_mask</span> <span class="o">=</span> <span class="n">_collate_batch</span><span class="p">(</span><span class="n">mask_labels</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">,</span> <span class="p">)</span>
+        <span class="n">inputs</span><span class="p">,</span> <span class="n">labels</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">jax_mask_tokens</span><span class="p">(</span><span class="n">batch_input</span><span class="p">,</span> <span class="n">batch_mask</span><span class="p">)</span>
+        <span class="k">return</span> <span class="p">{</span><span class="s2">&quot;input_ids&quot;</span><span class="p">:</span> <span class="n">inputs</span><span class="p">,</span> <span class="s2">&quot;labels&quot;</span><span class="p">:</span> <span class="n">labels</span><span class="p">}</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">examples</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">Union</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">],</span> <span class="n">Any</span><span class="p">,</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]]]</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Dict</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Any</span><span class="p">]:</span>
+        <span class="n">batch</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">jax_call</span><span class="p">(</span><span class="n">examples</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">instruction_template</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">examples</span><span class="p">)):</span>
+                <span class="n">response_token_ids_start_idx</span> <span class="o">=</span> <span class="kc">None</span>
+
+                <span class="k">for</span> <span class="n">idx</span> <span class="ow">in</span> <span class="n">jnp</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">response_token_ids</span><span class="p">[</span><span class="mi">0</span><span class="p">])[</span><span class="mi">0</span><span class="p">]:</span>
+                    <span class="k">if</span> <span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">response_token_ids</span>
+                            <span class="o">==</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">][</span><span class="n">idx</span><span class="p">:</span> <span class="n">idx</span> <span class="o">+</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">response_token_ids</span><span class="p">)]</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
+                    <span class="p">):</span>
+                        <span class="n">response_token_ids_start_idx</span> <span class="o">=</span> <span class="n">idx</span>
+
+                <span class="k">if</span> <span class="n">response_token_ids_start_idx</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Could not find response key `</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">response_template</span><span class="si">}</span><span class="s2">` in the &quot;</span>
+                        <span class="sa">f</span><span class="s1">&#39;following instance: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">])</span><span class="si">}</span><span class="s1"> &#39;</span>
+                        <span class="sa">f</span><span class="s2">&quot;This instance will be ignored in loss calculation. &quot;</span>
+                        <span class="sa">f</span><span class="s2">&quot;Note, if this happens often, consider increasing the `max_seq_length`.&quot;</span>
+                    <span class="p">)</span>
+                    <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">,</span> <span class="p">:]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_index</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">response_token_ids_end_idx</span> <span class="o">=</span> <span class="n">response_token_ids_start_idx</span> <span class="o">+</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">response_token_ids</span><span class="p">)</span>
+                    <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">,</span> <span class="p">:</span><span class="n">response_token_ids_end_idx</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_index</span>
+
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">examples</span><span class="p">)):</span>
+                <span class="n">response_token_ids_idxs</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="n">human_token_ids_idxs</span> <span class="o">=</span> <span class="p">[]</span>
+
+                <span class="k">for</span> <span class="n">assistant_idx</span> <span class="ow">in</span> <span class="n">jnp</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">==</span> <span class="bp">self</span><span class="o">.</span><span class="n">response_token_ids</span><span class="p">[</span><span class="mi">0</span><span class="p">])[</span><span class="mi">0</span><span class="p">]:</span>
+                    <span class="k">if</span> <span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">response_token_ids</span>
+                            <span class="o">==</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">][</span><span class="n">assistant_idx</span><span class="p">:</span> <span class="n">assistant_idx</span> <span class="o">+</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">response_token_ids</span><span class="p">)]</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
+                    <span class="p">):</span>
+                        <span class="n">response_token_ids_idxs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">assistant_idx</span> <span class="o">+</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">response_token_ids</span><span class="p">))</span>
+
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">response_token_ids_idxs</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Could not find response key `</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">response_template</span><span class="si">}</span><span class="s2">` in the &quot;</span>
+                        <span class="sa">f</span><span class="s1">&#39;following instance: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">])</span><span class="si">}</span><span class="s1"> &#39;</span>
+                        <span class="sa">f</span><span class="s2">&quot;This instance will be ignored in loss calculation. &quot;</span>
+                        <span class="sa">f</span><span class="s2">&quot;Note, if this happens often, consider increasing the `max_seq_length`.&quot;</span>
+                    <span class="p">)</span>
+                    <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">,</span> <span class="p">:]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_index</span>
+
+                <span class="n">human_token_ids</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">instruction_token_ids</span>
+                <span class="k">for</span> <span class="n">human_idx</span> <span class="ow">in</span> <span class="n">jnp</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">]</span> <span class="o">==</span> <span class="n">human_token_ids</span><span class="p">[</span><span class="mi">0</span><span class="p">])[</span><span class="mi">0</span><span class="p">]:</span>
+                    <span class="k">if</span> <span class="n">human_token_ids</span> <span class="o">==</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">][</span><span class="n">human_idx</span><span class="p">:</span> <span class="n">human_idx</span> <span class="o">+</span> <span class="nb">len</span><span class="p">(</span><span class="n">human_token_ids</span><span class="p">)]</span><span class="o">.</span><span class="n">tolist</span><span class="p">():</span>
+                        <span class="n">human_token_ids_idxs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">human_idx</span><span class="p">)</span>
+
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">human_token_ids_idxs</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                    <span class="n">warnings</span><span class="o">.</span><span class="n">warn</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Could not find instruction key `</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">instruction_template</span><span class="si">}</span><span class="s2">` in the &quot;</span>
+                        <span class="sa">f</span><span class="s1">&#39;following instance: </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">decode</span><span class="p">(</span><span class="n">batch</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">])</span><span class="si">}</span><span class="s1"> &#39;</span>
+                        <span class="sa">f</span><span class="s2">&quot;This instance will be ignored in loss calculation. &quot;</span>
+                        <span class="sa">f</span><span class="s2">&quot;Note, if this happens often, consider increasing the `max_seq_length`.&quot;</span>
+                    <span class="p">)</span>
+                    <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">,</span> <span class="p">:]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_index</span>
+
+                <span class="k">if</span> <span class="p">(</span>
+                        <span class="nb">len</span><span class="p">(</span><span class="n">human_token_ids_idxs</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span>
+                        <span class="ow">and</span> <span class="nb">len</span><span class="p">(</span><span class="n">response_token_ids_idxs</span><span class="p">)</span> <span class="o">&gt;</span> <span class="mi">0</span>
+                        <span class="ow">and</span> <span class="n">human_token_ids_idxs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">&gt;</span> <span class="n">response_token_ids_idxs</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span>
+                <span class="p">):</span>
+                    <span class="n">human_token_ids_idxs</span> <span class="o">=</span> <span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">+</span> <span class="n">human_token_ids_idxs</span>
+
+                <span class="k">for</span> <span class="n">idx</span><span class="p">,</span> <span class="p">(</span><span class="n">start</span><span class="p">,</span> <span class="n">end</span><span class="p">)</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="nb">zip</span><span class="p">(</span><span class="n">human_token_ids_idxs</span><span class="p">,</span> <span class="n">response_token_ids_idxs</span><span class="p">)):</span>
+                    <span class="k">if</span> <span class="n">idx</span> <span class="o">!=</span> <span class="mi">0</span><span class="p">:</span>
+                        <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">,</span> <span class="n">start</span><span class="p">:</span><span class="n">end</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_index</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">,</span> <span class="p">:</span><span class="n">end</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_index</span>
+
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">response_token_ids_idxs</span><span class="p">)</span> <span class="o">&lt;</span> <span class="nb">len</span><span class="p">(</span><span class="n">human_token_ids_idxs</span><span class="p">):</span>
+                    <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;labels&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">,</span> <span class="n">human_token_ids_idxs</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]:]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ignore_index</span>
+
+        <span class="k">return</span> <span class="n">batch</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.utils.DataCollatorForCompletionOnlyLM.jax_mask_tokens" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">jax_mask_tokens</span><span class="p">(</span><span class="n">inputs</span><span class="p">,</span> <span class="n">special_tokens_mask</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Prepare masked tokens inputs/labels for masked language modeling: 80% MASK, 10% random, 10% original.</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">jax_mask_tokens</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">inputs</span><span class="p">:</span> <span class="n">Any</span><span class="p">,</span> <span class="n">special_tokens_mask</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Any</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">Any</span><span class="p">,</span> <span class="n">Any</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Prepare masked tokens inputs/labels for masked language modeling: 80% MASK, 10% random, 10% original.&quot;&quot;&quot;</span>
+    <span class="n">labels</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">copy</span><span class="p">(</span><span class="n">inputs</span><span class="p">)</span>
+    <span class="n">probability_matrix</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">full</span><span class="p">(</span><span class="n">labels</span><span class="o">.</span><span class="n">shape</span><span class="p">,</span> <span class="mf">0.15</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">special_tokens_mask</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">special_tokens_mask</span> <span class="o">=</span> <span class="p">[</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">get_special_tokens_mask</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="n">already_has_special_tokens</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span> <span class="k">for</span> <span class="n">val</span> <span class="ow">in</span> <span class="n">labels</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
+        <span class="p">]</span>
+        <span class="n">special_tokens_mask</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">special_tokens_mask</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="nb">bool</span><span class="p">)</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">special_tokens_mask</span> <span class="o">=</span> <span class="n">special_tokens_mask</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">bool</span><span class="p">)</span>
+
+    <span class="n">probability_matrix</span><span class="p">[</span><span class="n">special_tokens_mask</span><span class="p">]</span> <span class="o">=</span> <span class="mi">0</span>
+    <span class="n">masked_indices</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">binomial</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="n">probability_matrix</span><span class="p">,</span> <span class="n">size</span><span class="o">=</span><span class="n">probability_matrix</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">bool</span><span class="p">)</span>
+    <span class="n">labels</span><span class="p">[</span><span class="o">~</span><span class="n">masked_indices</span><span class="p">]</span> <span class="o">=</span> <span class="o">-</span><span class="mi">100</span>
+    <span class="n">indices_replaced</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">binomial</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mf">0.8</span><span class="p">,</span> <span class="n">size</span><span class="o">=</span><span class="n">labels</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">bool</span><span class="p">)</span> <span class="o">&amp;</span> <span class="n">masked_indices</span>
+    <span class="n">inputs</span><span class="p">[</span><span class="n">indices_replaced</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">mask_token_id</span>
+    <span class="n">indices_random</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">binomial</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mf">0.5</span><span class="p">,</span> <span class="n">size</span><span class="o">=</span><span class="n">labels</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="nb">bool</span><span class="p">)</span> <span class="o">&amp;</span> <span class="n">masked_indices</span> <span class="o">&amp;</span> <span class="o">~</span><span class="n">indices_replaced</span>
+    <span class="p">)</span>
+    <span class="n">random_words</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">randint</span><span class="p">(</span>
+        <span class="n">low</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="n">high</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">),</span> <span class="n">size</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">count_nonzero</span><span class="p">(</span><span class="n">indices_random</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">int64</span>
+    <span class="p">)</span>
+    <span class="n">inputs</span><span class="p">[</span><span class="n">indices_random</span><span class="p">]</span> <span class="o">=</span> <span class="n">random_words</span>
+    <span class="k">return</span> <span class="n">inputs</span><span class="p">,</span> <span class="n">labels</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.trainer.utils.JaxDistributedConfig" class="doc doc-heading">
+            <code>JaxDistributedConfig</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code>object</code></p>
+
+
+      <p>From EasyLM
+Utility class for initializing JAX distributed.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/trainer/utils.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">JaxDistributedConfig</span><span class="p">(</span><span class="nb">object</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    From EasyLM</span>
+<span class="sd">    Utility class for initializing JAX distributed.</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="nd">@staticmethod</span>
+    <span class="k">def</span> <span class="nf">get_default_config</span><span class="p">(</span><span class="n">updates</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="n">ConfigDict</span><span class="p">()</span>
+        <span class="n">config</span><span class="o">.</span><span class="n">initialize_jax_distributed</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="n">config</span><span class="o">.</span><span class="n">coordinator_address</span> <span class="o">=</span> <span class="n">placeholder</span><span class="p">(</span><span class="nb">str</span><span class="p">)</span>
+        <span class="n">config</span><span class="o">.</span><span class="n">num_processes</span> <span class="o">=</span> <span class="n">placeholder</span><span class="p">(</span><span class="nb">int</span><span class="p">)</span>
+        <span class="n">config</span><span class="o">.</span><span class="n">process_id</span> <span class="o">=</span> <span class="n">placeholder</span><span class="p">(</span><span class="nb">int</span><span class="p">)</span>
+        <span class="n">config</span><span class="o">.</span><span class="n">local_device_ids</span> <span class="o">=</span> <span class="n">placeholder</span><span class="p">(</span><span class="nb">str</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">updates</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">ConfigDict</span><span class="p">(</span><span class="n">updates</span><span class="p">)</span><span class="o">.</span><span class="n">copy_and_resolve_references</span><span class="p">())</span>
+        <span class="k">return</span> <span class="n">config</span>
+
+    <span class="nd">@classmethod</span>
+    <span class="k">def</span> <span class="nf">initialize</span><span class="p">(</span><span class="bp">cls</span><span class="p">,</span> <span class="n">config</span><span class="p">):</span>
+        <span class="n">config</span> <span class="o">=</span> <span class="bp">cls</span><span class="o">.</span><span class="n">get_default_config</span><span class="p">(</span><span class="n">config</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">initialize_jax_distributed</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">local_device_ids</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">local_device_ids</span> <span class="o">=</span> <span class="p">[</span><span class="nb">int</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">config</span><span class="o">.</span><span class="n">local_device_ids</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s1">&#39;,&#39;</span><span class="p">)]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">local_device_ids</span> <span class="o">=</span> <span class="kc">None</span>
+
+            <span class="n">jax</span><span class="o">.</span><span class="n">distributed</span><span class="o">.</span><span class="n">initialize</span><span class="p">(</span>
+                <span class="n">coordinator_address</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">coordinator_address</span><span class="p">,</span>
+                <span class="n">num_processes</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">num_processes</span><span class="p">,</span>
+                <span class="n">process_id</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">process_id</span><span class="p">,</span>
+                <span class="n">local_device_ids</span><span class="o">=</span><span class="n">local_device_ids</span><span class="p">,</span>
+            <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.utils.conversations_formatting_function" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">conversations_formatting_function</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">,</span> <span class="n">messages_field</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>return a callable function that takes in a "messages" dataset and returns a formatted dataset, based on the tokenizer
+apply chat template to the dataset</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">conversations_formatting_function</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">:</span> <span class="n">AutoTokenizer</span><span class="p">,</span> <span class="n">messages_field</span><span class="p">:</span> <span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;messages&quot;</span><span class="p">,</span> <span class="s2">&quot;conversations&quot;</span><span class="p">]):</span>
+<span class="w">    </span><span class="sa">r</span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    return a callable function that takes in a &quot;messages&quot; dataset and returns a formatted dataset, based on the tokenizer</span>
+<span class="sd">    apply chat template to the dataset</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">format_dataset</span><span class="p">(</span><span class="n">examples</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">examples</span><span class="p">[</span><span class="n">messages_field</span><span class="p">][</span><span class="mi">0</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="n">output_texts</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">examples</span><span class="p">[</span><span class="n">messages_field</span><span class="p">])):</span>
+                <span class="n">output_texts</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                    <span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span><span class="n">examples</span><span class="p">[</span><span class="n">messages_field</span><span class="p">][</span><span class="n">i</span><span class="p">],</span> <span class="n">tokenize</span><span class="o">=</span><span class="kc">False</span><span class="p">))</span>  <span class="c1"># type: ignore</span>
+            <span class="k">return</span> <span class="n">output_texts</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span><span class="n">examples</span><span class="p">[</span><span class="n">messages_field</span><span class="p">],</span> <span class="n">tokenize</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>  <span class="c1"># type: ignore</span>
+
+    <span class="k">return</span> <span class="n">format_dataset</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.utils.get_formatting_func_from_dataset" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_formatting_func_from_dataset</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>from TRL
+Finds the correct formatting function based on the dataset structure. Currently supported datasets are:
+- <code>ChatML</code> with [{"role": str, "content": str}]
+- <code>instruction</code> with [{"prompt": str, "completion": str}]</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>dataset</code></td>
+            <td>
+                  <code><span title="datasets.Dataset">Dataset</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>User dataset</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>tokenizer</code></td>
+            <td>
+                  <code><span title="transformers.AutoTokenizer">AutoTokenizer</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Tokenizer used for formatting</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+<th>Name</th>          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+<td><code>Callable</code></td>            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Callable">Callable</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Formatting function if the dataset format is supported else None</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_formatting_func_from_dataset</span><span class="p">(</span>
+        <span class="n">dataset</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Dataset</span><span class="p">,</span> <span class="s2">&quot;ConstantLengthDataset&quot;</span><span class="p">],</span> <span class="n">tokenizer</span><span class="p">:</span> <span class="n">AutoTokenizer</span>  <span class="c1"># type: ignore</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Callable</span><span class="p">]:</span>
+<span class="w">    </span><span class="sa">r</span><span class="sd">&quot;&quot;&quot;from TRL</span>
+<span class="sd">    Finds the correct formatting function based on the dataset structure. Currently supported datasets are:</span>
+<span class="sd">    - `ChatML` with [{&quot;role&quot;: str, &quot;content&quot;: str}]</span>
+<span class="sd">    - `instruction` with [{&quot;prompt&quot;: str, &quot;completion&quot;: str}]</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        dataset (Dataset): User dataset</span>
+<span class="sd">        tokenizer (AutoTokenizer): Tokenizer used for formatting</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        Callable: Formatting function if the dataset format is supported else None</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">Dataset</span><span class="p">):</span>
+        <span class="k">if</span> <span class="s2">&quot;messages&quot;</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="p">[</span><span class="s2">&quot;messages&quot;</span><span class="p">]</span> <span class="o">==</span> <span class="n">FORMAT_MAPPING</span><span class="p">[</span><span class="s2">&quot;chatml&quot;</span><span class="p">]:</span>
+                <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Formatting dataset with chatml format&quot;</span><span class="p">)</span>
+                <span class="k">return</span> <span class="n">conversations_formatting_function</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">,</span> <span class="s2">&quot;messages&quot;</span><span class="p">)</span>
+        <span class="k">if</span> <span class="s2">&quot;conversations&quot;</span> <span class="ow">in</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span><span class="p">[</span><span class="s2">&quot;conversations&quot;</span><span class="p">]</span> <span class="o">==</span> <span class="n">FORMAT_MAPPING</span><span class="p">[</span><span class="s2">&quot;chatml&quot;</span><span class="p">]:</span>
+                <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Formatting dataset with chatml format&quot;</span><span class="p">)</span>
+                <span class="k">return</span> <span class="n">conversations_formatting_function</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">,</span> <span class="s2">&quot;conversations&quot;</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="n">dataset</span><span class="o">.</span><span class="n">features</span> <span class="o">==</span> <span class="n">FORMAT_MAPPING</span><span class="p">[</span><span class="s2">&quot;instruction&quot;</span><span class="p">]:</span>
+            <span class="n">logging</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="s2">&quot;Formatting dataset with instruction format&quot;</span><span class="p">)</span>
+            <span class="k">return</span> <span class="n">instructions_formatting_function</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span>
+
+    <span class="k">return</span> <span class="kc">None</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.utils.instructions_formatting_function" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">instructions_formatting_function</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>from TRL
+return a callable function that takes in an "instructions" dataset and returns a formatted dataset, based on the tokenizer
+apply chat template to the dataset</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">instructions_formatting_function</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">:</span> <span class="n">AutoTokenizer</span><span class="p">):</span>
+<span class="w">    </span><span class="sa">r</span><span class="sd">&quot;&quot;&quot;from TRL</span>
+<span class="sd">    return a callable function that takes in an &quot;instructions&quot; dataset and returns a formatted dataset, based on the tokenizer</span>
+<span class="sd">    apply chat template to the dataset</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">format_dataset</span><span class="p">(</span><span class="n">examples</span><span class="p">):</span>
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">examples</span><span class="p">[</span><span class="s2">&quot;prompt&quot;</span><span class="p">],</span> <span class="nb">list</span><span class="p">):</span>
+            <span class="n">output_texts</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">examples</span><span class="p">[</span><span class="s2">&quot;prompt&quot;</span><span class="p">])):</span>
+                <span class="n">converted_sample</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="p">{</span><span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;user&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">examples</span><span class="p">[</span><span class="s2">&quot;prompt&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">]},</span>
+                    <span class="p">{</span><span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;assistant&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">examples</span><span class="p">[</span><span class="s2">&quot;completion&quot;</span><span class="p">][</span><span class="n">i</span><span class="p">]},</span>
+                <span class="p">]</span>
+                <span class="n">output_texts</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span><span class="n">converted_sample</span><span class="p">,</span> <span class="n">tokenize</span><span class="o">=</span><span class="kc">False</span><span class="p">))</span>  <span class="c1"># type: ignore</span>
+            <span class="k">return</span> <span class="n">output_texts</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">converted_sample</span> <span class="o">=</span> <span class="p">[</span>
+                <span class="p">{</span><span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;user&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">examples</span><span class="p">[</span><span class="s2">&quot;prompt&quot;</span><span class="p">]},</span>
+                <span class="p">{</span><span class="s2">&quot;role&quot;</span><span class="p">:</span> <span class="s2">&quot;assistant&quot;</span><span class="p">,</span> <span class="s2">&quot;content&quot;</span><span class="p">:</span> <span class="n">examples</span><span class="p">[</span><span class="s2">&quot;completion&quot;</span><span class="p">]},</span>
+            <span class="p">]</span>
+            <span class="k">return</span> <span class="n">tokenizer</span><span class="o">.</span><span class="n">apply_chat_template</span><span class="p">(</span><span class="n">converted_sample</span><span class="p">,</span> <span class="n">tokenize</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>  <span class="c1"># type: ignore</span>
+
+    <span class="k">return</span> <span class="n">format_dataset</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.utils.tolist" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">tolist</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>from HF
+Args:
+    x:</p>
+<p>Returns: X as List</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">tolist</span><span class="p">(</span><span class="n">x</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;from HF</span>
+<span class="sd">    Args:</span>
+<span class="sd">        x:</span>
+
+<span class="sd">    Returns: X as List</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="nb">list</span><span class="p">):</span>
+        <span class="k">return</span> <span class="n">x</span>
+    <span class="k">elif</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="s2">&quot;numpy&quot;</span><span class="p">):</span>
+        <span class="n">x</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">x</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/index.html b/generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/index.html
new file mode 100644
index 000000000..f732b60ac
--- /dev/null
+++ b/generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/index.html
@@ -0,0 +1,6526 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-utils/">
+      
+      
+        <link rel="next" href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Fwd Bwd Functions - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainervision_causal_language_model_trainerfwd_bwd_functions" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Fwd Bwd Functions
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.fwd_bwd_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      fwd_bwd_functions
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.fwd_bwd_functions.create_vision_casual_language_model_evaluation_step" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_vision_casual_language_model_evaluation_step
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.fwd_bwd_functions.create_vision_casual_language_model_train_step" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_vision_casual_language_model_train_step
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.fwd_bwd_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      fwd_bwd_functions
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.fwd_bwd_functions.create_vision_casual_language_model_evaluation_step" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_vision_casual_language_model_evaluation_step
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.fwd_bwd_functions.create_vision_casual_language_model_train_step" class="md-nav__link">
+    <span class="md-ellipsis">
+      create_vision_casual_language_model_train_step
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainervision_causal_language_model_trainerfwd_bwd_functions">trainer.vision_causal_language_model_trainer.fwd_bwd_functions</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.vision_causal_language_model_trainer.fwd_bwd_functions"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.vision_causal_language_model_trainer.fwd_bwd_functions.create_vision_casual_language_model_evaluation_step" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_vision_casual_language_model_evaluation_step</span><span class="p">(</span><span class="n">partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">))</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The create_vision_casual_language_model_evaluation_step function is used to create a function that calculates the
+ loss and accuracy of a model. It takes in a set of parameters, which are then passed into the state.apply_fn function
+to generate logits for each token in the batch. The cross entropy loss and accuracy are then calculated from these
+logits.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>partition_spec</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the partitioning of the model parameters</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;)</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A function that can be used to calculate the loss and accuracy</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>of a model</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/vision_causal_language_model_trainer/fwd_bwd_functions.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">create_vision_casual_language_model_evaluation_step</span><span class="p">(</span><span class="n">partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">)):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The create_vision_casual_language_model_evaluation_step function is used to create a function that calculates the</span>
+<span class="sd">     loss and accuracy of a model. It takes in a set of parameters, which are then passed into the state.apply_fn function</span>
+<span class="sd">    to generate logits for each token in the batch. The cross entropy loss and accuracy are then calculated from these</span>
+<span class="sd">    logits.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        partition_spec: Specify the partitioning of the model parameters</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A function that can be used to calculate the loss and accuracy</span>
+<span class="sd">        of a model</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">vision_casual_language_model_evaluation_step</span><span class="p">(</span><span class="n">state</span><span class="p">,</span> <span class="n">batch</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="p">[</span>
+        <span class="n">EasyDeLState</span><span class="p">,</span>
+        <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">VisionCausalLanguageModelStepOutput</span>
+    <span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The vision_casual_language_model_train_step function is a training step function that takes in the current state</span>
+<span class="sd">        of the model and a batch of data. It then calculates the loss and accuracy for this batch,</span>
+<span class="sd">        and returns an updated state with new parameters based on these gradients.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            state: Store the model parameters</span>
+<span class="sd">            batch: Pass the data to the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (state, loss,</span>
+<span class="sd">            VisionCausalLanguageModelStepOutput)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">partition_spec</span><span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">calculate_loss</span><span class="p">(</span><span class="n">params</span><span class="p">):</span>
+            <span class="n">labels</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;labels&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">labels</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">labels</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">:]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">labels</span> <span class="o">=</span> <span class="n">labels</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">:]</span>
+            <span class="n">label_vision_mask</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;label_vision_mask&quot;</span><span class="p">)</span>
+            <span class="n">model_outputs</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span> <span class="o">**</span><span class="n">batch</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">logits</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">logits</span>
+            <span class="n">aux_loss</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">model_outputs</span><span class="p">,</span> <span class="s2">&quot;aux_loss&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+            <span class="n">vision_loss</span><span class="p">,</span> <span class="n">vision_accuracy</span> <span class="o">=</span> <span class="n">cross_entropy_loss_and_accuracy</span><span class="p">(</span>
+                <span class="n">logits</span><span class="p">[:,</span> <span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="p">:],</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">label_vision_mask</span><span class="p">,</span> <span class="n">labels</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+                <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)[:,</span> <span class="mi">1</span><span class="p">:]</span> <span class="o">*</span> <span class="n">label_vision_mask</span>
+            <span class="p">)</span>
+            <span class="n">text_loss</span><span class="p">,</span> <span class="n">text_accuracy</span> <span class="o">=</span> <span class="n">cross_entropy_loss_and_accuracy</span><span class="p">(</span>
+                <span class="n">logits</span><span class="p">[:,</span> <span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="p">:],</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">label_vision_mask</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">labels</span><span class="p">),</span>
+                <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)[:,</span> <span class="mi">1</span><span class="p">:]</span> <span class="o">*</span> <span class="p">(</span><span class="mf">1.0</span> <span class="o">-</span> <span class="n">label_vision_mask</span><span class="p">)</span>
+            <span class="p">)</span>
+
+            <span class="n">loss</span> <span class="o">=</span> <span class="mf">0.5</span> <span class="o">*</span> <span class="p">(</span><span class="n">vision_loss</span> <span class="o">+</span> <span class="n">text_loss</span> <span class="o">+</span> <span class="p">(</span><span class="n">aux_loss</span> <span class="k">if</span> <span class="n">aux_loss</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="mf">0.</span><span class="p">))</span>
+
+            <span class="k">return</span> <span class="n">loss</span><span class="p">,</span> <span class="n">VisionCausalLanguageModelStepOutput</span><span class="p">(</span>
+                <span class="n">loss</span><span class="o">=</span><span class="n">loss</span><span class="p">,</span>
+                <span class="n">text_accuracy</span><span class="o">=</span><span class="n">text_accuracy</span><span class="p">,</span>
+                <span class="n">vision_accuracy</span><span class="o">=</span><span class="n">vision_accuracy</span><span class="p">,</span>
+                <span class="n">text_loss</span><span class="o">=</span><span class="n">text_loss</span><span class="p">,</span>
+                <span class="n">vision_loss</span><span class="o">=</span><span class="n">vision_loss</span>
+            <span class="p">)</span>
+
+        <span class="n">loss__</span><span class="p">,</span> <span class="n">metrics</span> <span class="o">=</span> <span class="n">calculate_loss</span><span class="p">(</span><span class="n">state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">loss__</span><span class="p">,</span> <span class="n">metrics</span>
+
+    <span class="k">return</span> <span class="n">vision_casual_language_model_evaluation_step</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.trainer.vision_causal_language_model_trainer.fwd_bwd_functions.create_vision_casual_language_model_train_step" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">create_vision_casual_language_model_train_step</span><span class="p">(</span><span class="n">partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">),</span> <span class="s1">&#39;sp&#39;</span><span class="p">))</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The create_vision_casual_language_model_train_step function is a training step function that takes in the current
+ state of the model,and a batch of data. It then calculates the loss and accuracy for this batch, and returns
+an updated state with new parameters based on these gradients.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>partition_spec</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify which devices the model will be split
+across</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.sharding.PartitionSpec">PartitionSpec</span>((&#39;dp&#39;, &#39;fsdp&#39;), &#39;sp&#39;)</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A casual_language_model_train_step function that takes in the</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>current state of the model,</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/vision_causal_language_model_trainer/fwd_bwd_functions.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span>
+<span class="normal">80</span>
+<span class="normal">81</span>
+<span class="normal">82</span>
+<span class="normal">83</span>
+<span class="normal">84</span>
+<span class="normal">85</span>
+<span class="normal">86</span>
+<span class="normal">87</span>
+<span class="normal">88</span>
+<span class="normal">89</span>
+<span class="normal">90</span>
+<span class="normal">91</span>
+<span class="normal">92</span>
+<span class="normal">93</span>
+<span class="normal">94</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">create_vision_casual_language_model_train_step</span><span class="p">(</span><span class="n">partition_spec</span><span class="o">=</span><span class="n">PartitionSpec</span><span class="p">((</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">),</span> <span class="s2">&quot;sp&quot;</span><span class="p">)):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The create_vision_casual_language_model_train_step function is a training step function that takes in the current</span>
+<span class="sd">     state of the model,and a batch of data. It then calculates the loss and accuracy for this batch, and returns</span>
+<span class="sd">    an updated state with new parameters based on these gradients.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        partition_spec: Specify which devices the model will be split</span>
+<span class="sd">            across</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A casual_language_model_train_step function that takes in the</span>
+<span class="sd">        current state of the model,</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">vision_casual_language_model_train_step</span><span class="p">(</span><span class="n">state</span><span class="p">,</span> <span class="n">batch</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="p">[</span>
+        <span class="n">EasyDeLState</span><span class="p">,</span>
+        <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span>
+        <span class="n">VisionCausalLanguageModelStepOutput</span>
+    <span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The vision_casual_language_model_train_step function is a training step function that takes in the current state</span>
+<span class="sd">        of the model and a batch of data. It then calculates the loss and accuracy for this batch,</span>
+<span class="sd">        and returns an updated state with new parameters based on these gradients.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            state: Store the model parameters</span>
+<span class="sd">            batch: Pass the data to the model</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A tuple of (state, loss,</span>
+<span class="sd">            VisionCausalLanguageModelStepOutput)</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">batch</span> <span class="o">=</span> <span class="n">with_sharding_constraint</span><span class="p">(</span><span class="n">batch</span><span class="p">,</span> <span class="n">partition_spec</span><span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">calculate_loss</span><span class="p">(</span><span class="n">params</span><span class="p">):</span>
+            <span class="n">labels</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">&quot;labels&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">labels</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">labels</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;input_ids&quot;</span><span class="p">][</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">:]</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">labels</span> <span class="o">=</span> <span class="n">labels</span><span class="p">[</span><span class="o">...</span><span class="p">,</span> <span class="mi">1</span><span class="p">:]</span>
+            <span class="n">label_vision_mask</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="s2">&quot;label_vision_mask&quot;</span><span class="p">)</span>
+
+            <span class="n">model_outputs</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">apply_fn</span><span class="p">(</span><span class="n">params</span><span class="o">=</span><span class="n">params</span><span class="p">,</span> <span class="o">**</span><span class="n">batch</span><span class="p">,</span> <span class="n">return_dict</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+            <span class="n">logits</span> <span class="o">=</span> <span class="n">model_outputs</span><span class="o">.</span><span class="n">logits</span>
+            <span class="n">aux_loss</span> <span class="o">=</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">model_outputs</span><span class="p">,</span> <span class="s2">&quot;aux_loss&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+            <span class="n">vision_loss</span><span class="p">,</span> <span class="n">vision_accuracy</span> <span class="o">=</span> <span class="n">cross_entropy_loss_and_accuracy</span><span class="p">(</span>
+                <span class="n">logits</span><span class="p">[:,</span> <span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="p">:],</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">label_vision_mask</span><span class="p">,</span> <span class="n">labels</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+                <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)[:,</span> <span class="mi">1</span><span class="p">:]</span> <span class="o">*</span> <span class="n">label_vision_mask</span>
+            <span class="p">)</span>
+            <span class="n">text_loss</span><span class="p">,</span> <span class="n">text_accuracy</span> <span class="o">=</span> <span class="n">cross_entropy_loss_and_accuracy</span><span class="p">(</span>
+                <span class="n">logits</span><span class="p">[:,</span> <span class="p">:</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="p">:],</span>
+                <span class="n">jnp</span><span class="o">.</span><span class="n">where</span><span class="p">(</span><span class="n">label_vision_mask</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="n">labels</span><span class="p">),</span>
+                <span class="n">batch</span><span class="p">[</span><span class="s2">&quot;attention_mask&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">float32</span><span class="p">)[:,</span> <span class="mi">1</span><span class="p">:]</span> <span class="o">*</span> <span class="p">(</span><span class="mf">1.0</span> <span class="o">-</span> <span class="n">label_vision_mask</span><span class="p">)</span>
+            <span class="p">)</span>
+
+            <span class="n">loss</span> <span class="o">=</span> <span class="mf">0.5</span> <span class="o">*</span> <span class="p">(</span><span class="n">vision_loss</span> <span class="o">+</span> <span class="n">text_loss</span> <span class="o">+</span> <span class="p">(</span><span class="n">aux_loss</span> <span class="k">if</span> <span class="n">aux_loss</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="mf">0.</span><span class="p">))</span>
+
+            <span class="k">return</span> <span class="n">loss</span><span class="p">,</span> <span class="n">VisionCausalLanguageModelStepOutput</span><span class="p">(</span>
+                <span class="n">loss</span><span class="o">=</span><span class="n">loss</span><span class="p">,</span>
+                <span class="n">text_accuracy</span><span class="o">=</span><span class="n">text_accuracy</span><span class="p">,</span>
+                <span class="n">vision_accuracy</span><span class="o">=</span><span class="n">vision_accuracy</span><span class="p">,</span>
+                <span class="n">text_loss</span><span class="o">=</span><span class="n">text_loss</span><span class="p">,</span>
+                <span class="n">vision_loss</span><span class="o">=</span><span class="n">vision_loss</span>
+            <span class="p">)</span>
+
+        <span class="n">grad_fn</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">value_and_grad</span><span class="p">(</span><span class="n">calculate_loss</span><span class="p">,</span> <span class="n">has_aux</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+        <span class="p">(</span><span class="n">loss__</span><span class="p">,</span> <span class="n">metrics</span><span class="p">),</span> <span class="n">grad</span> <span class="o">=</span> <span class="n">grad_fn</span><span class="p">(</span><span class="n">state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+        <span class="n">state</span> <span class="o">=</span> <span class="n">state</span><span class="o">.</span><span class="n">apply_gradients</span><span class="p">(</span><span class="n">grads</span><span class="o">=</span><span class="n">grad</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">state</span><span class="p">,</span> <span class="n">loss__</span><span class="p">,</span> <span class="n">metrics</span>
+
+    <span class="k">return</span> <span class="n">vision_casual_language_model_train_step</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-vision_causal_language_model_trainer-modelling_output/index.html b/generated-trainer-vision_causal_language_model_trainer-modelling_output/index.html
new file mode 100644
index 000000000..0e5533921
--- /dev/null
+++ b/generated-trainer-vision_causal_language_model_trainer-modelling_output/index.html
@@ -0,0 +1,6044 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/">
+      
+      
+        <link rel="next" href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Modelling Output - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainervision_causal_language_model_trainermodelling_output" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Modelling Output
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.modelling_output" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_output
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.modelling_output" class="md-nav__link">
+    <span class="md-ellipsis">
+      modelling_output
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainervision_causal_language_model_trainermodelling_output">trainer.vision_causal_language_model_trainer.modelling_output</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.vision_causal_language_model_trainer.modelling_output"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/index.html b/generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/index.html
new file mode 100644
index 000000000..df6ccee24
--- /dev/null
+++ b/generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/index.html
@@ -0,0 +1,8396 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/">
+      
+      
+        <link rel="next" href="../generated-transform-easydel_transform/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Vision Causal Language Model Trainer - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#trainervision_causal_language_model_trainervision_causal_language_model_trainer" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Vision Causal Language Model Trainer
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      vision_causal_language_model_trainer
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      VisionCausalLanguageModelTrainer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="VisionCausalLanguageModelTrainer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer.configure_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_functions
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer.eval" class="md-nav__link">
+    <span class="md-ellipsis">
+      eval
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer.train" class="md-nav__link">
+    <span class="md-ellipsis">
+      train
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      vision_causal_language_model_trainer
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer" class="md-nav__link">
+    <span class="md-ellipsis">
+      VisionCausalLanguageModelTrainer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="VisionCausalLanguageModelTrainer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer.configure_functions" class="md-nav__link">
+    <span class="md-ellipsis">
+      configure_functions
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer.eval" class="md-nav__link">
+    <span class="md-ellipsis">
+      eval
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer.train" class="md-nav__link">
+    <span class="md-ellipsis">
+      train
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="trainervision_causal_language_model_trainervision_causal_language_model_trainer">trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer" class="doc doc-heading">
+            <code>VisionCausalLanguageModelTrainer</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+            <p class="doc doc-class-bases">
+              Bases: <code><a class="autorefs autorefs-internal" title="src.python.easydel.trainer.causal_language_model_trainer.CausalLanguageModelTrainer" href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer">CausalLanguageModelTrainer</a></code></p>
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/trainer/vision_causal_language_model_trainer/vision_causal_language_model_trainer.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 35</span>
+<span class="normal"> 36</span>
+<span class="normal"> 37</span>
+<span class="normal"> 38</span>
+<span class="normal"> 39</span>
+<span class="normal"> 40</span>
+<span class="normal"> 41</span>
+<span class="normal"> 42</span>
+<span class="normal"> 43</span>
+<span class="normal"> 44</span>
+<span class="normal"> 45</span>
+<span class="normal"> 46</span>
+<span class="normal"> 47</span>
+<span class="normal"> 48</span>
+<span class="normal"> 49</span>
+<span class="normal"> 50</span>
+<span class="normal"> 51</span>
+<span class="normal"> 52</span>
+<span class="normal"> 53</span>
+<span class="normal"> 54</span>
+<span class="normal"> 55</span>
+<span class="normal"> 56</span>
+<span class="normal"> 57</span>
+<span class="normal"> 58</span>
+<span class="normal"> 59</span>
+<span class="normal"> 60</span>
+<span class="normal"> 61</span>
+<span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span>
+<span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span>
+<span class="normal">232</span>
+<span class="normal">233</span>
+<span class="normal">234</span>
+<span class="normal">235</span>
+<span class="normal">236</span>
+<span class="normal">237</span>
+<span class="normal">238</span>
+<span class="normal">239</span>
+<span class="normal">240</span>
+<span class="normal">241</span>
+<span class="normal">242</span>
+<span class="normal">243</span>
+<span class="normal">244</span>
+<span class="normal">245</span>
+<span class="normal">246</span>
+<span class="normal">247</span>
+<span class="normal">248</span>
+<span class="normal">249</span>
+<span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span>
+<span class="normal">259</span>
+<span class="normal">260</span>
+<span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span>
+<span class="normal">275</span>
+<span class="normal">276</span>
+<span class="normal">277</span>
+<span class="normal">278</span>
+<span class="normal">279</span>
+<span class="normal">280</span>
+<span class="normal">281</span>
+<span class="normal">282</span>
+<span class="normal">283</span>
+<span class="normal">284</span>
+<span class="normal">285</span>
+<span class="normal">286</span>
+<span class="normal">287</span>
+<span class="normal">288</span>
+<span class="normal">289</span>
+<span class="normal">290</span>
+<span class="normal">291</span>
+<span class="normal">292</span>
+<span class="normal">293</span>
+<span class="normal">294</span>
+<span class="normal">295</span>
+<span class="normal">296</span>
+<span class="normal">297</span>
+<span class="normal">298</span>
+<span class="normal">299</span>
+<span class="normal">300</span>
+<span class="normal">301</span>
+<span class="normal">302</span>
+<span class="normal">303</span>
+<span class="normal">304</span>
+<span class="normal">305</span>
+<span class="normal">306</span>
+<span class="normal">307</span>
+<span class="normal">308</span>
+<span class="normal">309</span>
+<span class="normal">310</span>
+<span class="normal">311</span>
+<span class="normal">312</span>
+<span class="normal">313</span>
+<span class="normal">314</span>
+<span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span>
+<span class="normal">543</span>
+<span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">VisionCausalLanguageModelTrainer</span><span class="p">(</span><span class="n">CausalLanguageModelTrainer</span><span class="p">):</span>
+
+    <span class="k">def</span> <span class="nf">create_collate_function</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">max_sequence_length</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+            <span class="n">truncation_mode</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Literal</span><span class="p">[</span><span class="s2">&quot;keep_end&quot;</span><span class="p">,</span> <span class="s2">&quot;keep_start&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Callable</span><span class="p">:</span>
+        <span class="k">def</span> <span class="nf">collate_fn</span><span class="p">(</span><span class="n">batch</span><span class="p">):</span>
+            <span class="n">results</span> <span class="o">=</span> <span class="p">{}</span>
+            <span class="n">corrected_sequence</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">batch</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">keys</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">truncation_mode</span> <span class="o">==</span> <span class="s2">&quot;keep_end&quot;</span><span class="p">:</span>
+                    <span class="n">corrected_sequence</span> <span class="o">=</span> <span class="p">[</span>
+                        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">f</span><span class="p">[</span><span class="n">key</span><span class="p">])[</span><span class="o">...</span><span class="p">,</span> <span class="o">-</span><span class="n">max_sequence_length</span><span class="p">:]</span> <span class="k">for</span> <span class="n">f</span> <span class="ow">in</span> <span class="n">batch</span>
+                    <span class="p">]</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">corrected_sequence</span> <span class="o">=</span> <span class="p">[</span>
+                        <span class="n">jnp</span><span class="o">.</span><span class="n">array</span><span class="p">(</span><span class="n">f</span><span class="p">[</span><span class="n">key</span><span class="p">])[</span><span class="o">...</span><span class="p">,</span> <span class="p">:</span><span class="n">max_sequence_length</span><span class="p">]</span> <span class="k">for</span> <span class="n">f</span> <span class="ow">in</span> <span class="n">batch</span>
+                    <span class="p">]</span>
+                <span class="n">results</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span><span class="n">corrected_sequence</span><span class="p">)</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+                    <span class="o">-</span><span class="mi">1</span><span class="p">,</span>
+                    <span class="n">corrected_sequence</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span>
+                <span class="p">)</span>
+            <span class="k">return</span> <span class="n">results</span>
+
+        <span class="k">return</span> <span class="n">collate_fn</span>
+
+    <span class="k">def</span> <span class="nf">configure_functions</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The configure_functions function is responsible for configuring the functions that will be used in training.</span>
+<span class="sd">        It does this by first defining a function called function_configurations, which initializes the model parameters and returns</span>
+<span class="sd">        them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate</span>
+<span class="sd">        on a batch of data, including:</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the class attributes</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            A TrainerConfigureFunctionFuncOutput object</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">def</span> <span class="nf">initialize_state_function</span><span class="p">():</span>
+            <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">init_weights</span><span class="p">(</span>
+                <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">init_input_shape</span>
+            <span class="p">)</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">:</span>
+                <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_bf16</span><span class="p">(</span><span class="n">initialized_parameters</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float16</span><span class="p">:</span>
+                <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_fp16</span><span class="p">(</span><span class="n">initialized_parameters</span><span class="p">)</span>
+
+            <span class="n">tx</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx</span>
+            <span class="n">parameters</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">freeze</span><span class="p">({</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">initialized_parameters</span><span class="p">})</span>
+            <span class="n">tx_init</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">:</span>
+                    <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_bf16</span><span class="p">(</span><span class="n">lora_parameters</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float16</span><span class="p">:</span>
+                    <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_fp16</span><span class="p">(</span><span class="n">lora_parameters</span><span class="p">)</span>
+
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="p">(</span>
+                    <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">lora_parameters</span><span class="p">,</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span><span class="p">,</span>
+                    <span class="n">opt_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span><span class="p">,</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">tx_init</span><span class="p">),</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create</span><span class="p">(</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">),</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">tx_init</span><span class="p">,</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>
+                <span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">create_state_from_params_function</span><span class="p">(</span><span class="n">parameters</span><span class="p">):</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create</span><span class="p">(</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tx</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">),</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">),</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="k">return</span> <span class="n">EasyDeLState</span><span class="p">(</span>
+                    <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                    <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span><span class="p">,</span>
+                    <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                    <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span><span class="p">,</span>
+                    <span class="n">opt_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span><span class="p">,</span>
+                    <span class="n">tx_init</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)),</span>
+                    <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                    <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span><span class="p">,</span>
+                    <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                    <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                <span class="p">)</span>
+
+        <span class="n">state_shape</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="n">initialize_state_function</span><span class="p">)</span>
+        <span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+            <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+            <span class="n">state_shape</span>
+        <span class="p">)</span>
+        <span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+            <span class="n">create_state_from_params_function</span><span class="p">,</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="o">.</span><span class="n">params</span><span class="p">,),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="n">state_partition_spec</span><span class="p">,</span>
+            <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,)</span>
+        <span class="p">)</span>
+        <span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+            <span class="n">create_vision_casual_language_model_train_step</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span><span class="p">),</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+            <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+            <span class="n">create_vision_casual_language_model_evaluation_step</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span><span class="p">),</span>
+            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+            <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+        <span class="p">)</span>
+
+        <span class="n">mesh</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_mesh</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ckpt_path_exists</span><span class="p">()</span>
+        <span class="n">checkpoint_manager</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_streaming_checkpointer</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">state_partition_spec</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">state_shape</span> <span class="o">=</span> <span class="n">state_shape</span>
+
+        <span class="k">return</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">(</span>
+            <span class="n">create_sharded_state_from_params_function</span><span class="o">=</span><span class="n">create_sharded_state_from_params_function</span><span class="p">,</span>
+            <span class="n">sharded_train_step_function</span><span class="o">=</span><span class="n">sharded_train_step_function</span><span class="p">,</span>
+            <span class="n">sharded_eval_step_function</span><span class="o">=</span><span class="n">sharded_eval_step_function</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="n">mesh</span><span class="p">,</span>
+            <span class="n">checkpoint_manager</span><span class="o">=</span><span class="n">checkpoint_manager</span><span class="p">,</span>
+            <span class="n">initialize_state_function</span><span class="o">=</span><span class="n">initialize_state_function</span>
+        <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">initialize_state</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">model_parameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">state</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLState</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Tuple</span><span class="p">[</span><span class="n">EasyDeLState</span><span class="p">,</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">],</span> <span class="n">Mapping</span><span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]]:</span>
+        <span class="k">if</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">state</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">RuntimeError</span><span class="p">(</span>
+                <span class="s2">&quot;You are passing `model_parameters=None`, `state=None`, and `checkpoint_path=None` and also you are not&quot;</span>
+                <span class="s2">&quot; using LoRA, if you are &quot;</span>
+                <span class="s2">&quot;Using LoRA make sure to pass parameters and Rapture Config correctly otherwise pass the &quot;</span>
+                <span class="s2">&quot;model_parameters or state.&quot;</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">state</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">model_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span><span class="p">,</span>
+                <span class="n">dtype_specs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="n">state</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">state</span>
+                <span class="n">params</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span> <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_shard_fns</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                    <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
+                    <span class="n">shard_fns</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                    <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span>
+                <span class="p">)</span>
+                <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="n">params</span>
+                <span class="k">if</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">opt_state</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">prefix_print</span><span class="p">(</span>
+                        <span class="s2">&quot;Action&quot;</span><span class="p">,</span> <span class="s2">&quot;Optimizer State is not Found!, initializing one.&quot;</span>
+                    <span class="p">)</span>
+                    <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">offload_device</span><span class="p">):</span>
+                        <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">init_opt_state</span><span class="p">()</span>
+                        <span class="n">opt_state</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">opt_state</span> <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_shard_fns</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                            <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
+                            <span class="n">shard_fns</span><span class="o">.</span><span class="n">opt_state</span><span class="p">,</span>
+                            <span class="n">sharded_state</span><span class="o">.</span><span class="n">opt_state</span>
+                        <span class="p">)</span>
+                        <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                            <span class="n">opt_state</span><span class="o">=</span><span class="n">opt_state</span>
+                        <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">finetune</span><span class="p">:</span>
+
+                <span class="k">if</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">prefix_print</span><span class="p">(</span>
+                        <span class="s2">&quot;Action&quot;</span><span class="p">,</span> <span class="sa">f</span><span class="s2">&quot;Loading Model From </span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="si">}</span><span class="s2">&quot;</span>
+                    <span class="p">)</span>
+                    <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">offload_device</span><span class="p">):</span>
+                        <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">load_state</span><span class="p">(</span>
+                            <span class="n">verbose</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">verbose</span><span class="p">,</span>
+                            <span class="n">state_shard_fns</span><span class="o">=</span><span class="n">shard_fns</span><span class="p">,</span>
+                            <span class="n">init_optimizer_state</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                            <span class="n">checkpoint_path</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                            <span class="n">input_shape</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">init_input_shape</span>
+                        <span class="p">)</span>
+                        <span class="c1"># sharded_state = sharded_state.replace(</span>
+                        <span class="c1">#     tx=self.tx,</span>
+                        <span class="c1"># )</span>
+                        <span class="n">state_shape</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">sharded_state</span><span class="p">)</span>
+                        <span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                                <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+                            <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+                            <span class="n">state_shape</span>
+                        <span class="p">)</span>
+                        <span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+                            <span class="n">create_vision_casual_language_model_train_step</span><span class="p">(</span>
+                                <span class="n">partition_spec</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span><span class="p">,</span>
+                            <span class="p">),</span>
+                            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+                            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+                            <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+                        <span class="p">)</span>
+
+                        <span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+                            <span class="n">create_vision_casual_language_model_evaluation_step</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span><span class="p">),</span>
+                            <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+                            <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+                            <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+                        <span class="p">)</span>
+
+                        <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">state_partition_spec</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">state_shape</span> <span class="o">=</span> <span class="n">state_shape</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">sharded_train_step_function</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">sharded_eval_step_function</span>
+
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">remove_ckpt_after_load</span><span class="p">:</span>
+                        <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">prefix_print</span><span class="p">(</span>
+                        <span class="s2">&quot;Action&quot;</span><span class="p">,</span> <span class="sa">f</span><span class="s2">&quot;Sharding Passed Parameters&quot;</span>
+                    <span class="p">)</span>
+                    <span class="kn">from</span> <span class="nn">flax.core</span> <span class="kn">import</span> <span class="n">unfreeze</span>
+                    <span class="k">if</span> <span class="ow">not</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">model_parameters</span><span class="p">,</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">):</span>
+                        <span class="n">prefix_print</span><span class="p">(</span>
+                            <span class="s2">&quot;Warning&quot;</span><span class="p">,</span>
+                            <span class="s2">&quot;Model Parameters should be like FrozenDict({&#39;params&#39;: params}) make sure to &quot;</span>
+                            <span class="s2">&quot;pass as type FrozenDict in case of not getting UnExcepted Errors &quot;</span>
+                        <span class="p">)</span>
+
+                    <span class="n">model_parameters</span> <span class="o">=</span> <span class="n">model_parameters</span> <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_shard_fns</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                        <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
+                        <span class="n">shard_fns</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                        <span class="n">model_parameters</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="n">sharded_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">create_sharded_state_from_params_function</span><span class="p">(</span><span class="n">model_parameters</span><span class="p">)</span>
+                <span class="k">elif</span> <span class="n">model_parameters</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="k">raise</span> <span class="n">EasyDeLTimerError</span><span class="p">(</span>
+                        <span class="s2">&quot;You can&#39;t pass `model_parameters` and `checkpoint_path` at same time&quot;</span>
+                    <span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">raise</span> <span class="n">EasyDeLTimerError</span><span class="p">(</span>
+                        <span class="s2">&quot;You should pass `model_parameters` or `checkpoint_path` to trainer in order to load model&quot;</span>
+                    <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">sharded_state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state_function</span><span class="p">()</span>
+                <span class="n">params</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span> <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_shard_fns</span> <span class="k">else</span> <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_map</span><span class="p">(</span>
+                    <span class="k">lambda</span> <span class="n">f</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">f</span><span class="p">(</span><span class="n">x</span><span class="p">),</span>
+                    <span class="n">shard_fns</span><span class="o">.</span><span class="n">params</span><span class="p">,</span>
+                    <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span>
+                <span class="p">)</span>
+                <span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span> <span class="o">=</span> <span class="n">params</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">sharded_state</span> <span class="o">=</span> <span class="n">sharded_state</span>
+            <span class="k">return</span> <span class="n">sharded_state</span><span class="p">,</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span>
+
+    <span class="k">def</span> <span class="nf">train</span><span class="p">(</span>
+            <span class="bp">self</span><span class="p">,</span>
+            <span class="n">model_parameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+            <span class="n">state</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLState</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">VisionCausalLMTrainerOutput</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The train function is the main function of this module.</span>
+<span class="sd">        It takes a model_parameters argument which can be used to load a pretrained model and finetune it.</span>
+<span class="sd">        The train function returns an TrainerOutput object that contains the last saved file name, predict func,</span>
+<span class="sd">        train state, mesh and checkpoint streamer.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Make the class methods aware of other methods and</span>
+<span class="sd">                attributes within the class</span>
+<span class="sd">            model_parameters: flax.core.FrozenDict: Load a pre-trained</span>
+<span class="sd">                model</span>
+<span class="sd">            state: Optional[EasyDeLState]: Ready to Use State</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            An object of type &quot;TrainerOutput&quot;</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">def</span> <span class="nf">count_model_parameters</span><span class="p">(</span><span class="n">_p</span><span class="p">):</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;Model Contain </span><span class="si">{</span><span class="nb">sum</span><span class="p">(</span><span class="n">n</span><span class="o">.</span><span class="n">size</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">n</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_flatten</span><span class="p">(</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">_p</span><span class="p">))[</span><span class="mi">0</span><span class="p">])</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="mf">1e9</span><span class="si">}</span><span class="s2"> &quot;</span>
+                <span class="sa">f</span><span class="s2">&quot;Billion Parameters&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+
+        <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="s2">&quot;SAVING_SKIPPED&quot;</span>
+        <span class="n">start_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+        <span class="n">sharded_state</span><span class="p">,</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state</span><span class="p">(</span>
+            <span class="n">model_parameters</span><span class="o">=</span><span class="n">model_parameters</span><span class="p">,</span>
+            <span class="n">state</span><span class="o">=</span><span class="n">state</span>
+        <span class="p">)</span>
+
+        <span class="n">count_model_parameters</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+            <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">)</span>
+            <span class="n">current_step</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">device_get</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">step</span><span class="p">))</span>
+
+            <span class="n">loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">vision_loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">vision_accuracy_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">text_loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">text_accuracy_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">step</span><span class="o">.</span><span class="n">tolist</span><span class="p">())</span>  <span class="c1"># type: ignore</span>
+            <span class="n">learning_rates</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">model_parameters_number</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span>
+                    <span class="n">n</span><span class="o">.</span><span class="n">size</span> <span class="k">for</span> <span class="n">n</span> <span class="ow">in</span>
+                    <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_flatten</span><span class="p">(</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span><span class="p">))[</span><span class="mi">0</span><span class="p">]</span>
+                <span class="p">)</span> <span class="o">/</span> <span class="mf">1e9</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                    <span class="p">{</span>
+                        <span class="s2">&quot;Number of Model Parameters (Billion)&quot;</span><span class="p">:</span> <span class="n">model_parameters_number</span>
+                    <span class="p">}</span>
+                <span class="p">)</span>
+                <span class="n">wandb</span><span class="o">.</span><span class="n">summary</span><span class="p">[</span><span class="s2">&quot;Number of Model Parameters (Billion)&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_parameters_number</span>
+            <span class="k">try</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span><span class="p">):</span>
+                    <span class="k">for</span> <span class="n">batch</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span><span class="p">:</span>
+                        <span class="n">current_step</span> <span class="o">+=</span> <span class="mi">1</span>
+                        <span class="k">if</span> <span class="p">(</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                                <span class="ow">and</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="o">&gt;</span> <span class="n">current_step</span>
+                        <span class="p">):</span>
+                            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                        <span class="k">elif</span> <span class="n">current_step</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">:</span>
+
+                            <span class="k">for</span> <span class="n">ssb</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span><span class="p">:</span>
+                                <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">ssb</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+                            <span class="n">time_s</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                            <span class="n">outputs_and_metrics</span><span class="p">:</span> <span class="nb">tuple</span><span class="p">[</span>
+                                <span class="n">EasyDeLState</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">VisionCausalLanguageModelStepOutput</span>
+                            <span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span><span class="p">(</span>
+                                <span class="n">sharded_state</span><span class="p">,</span>
+                                <span class="n">batch</span>
+                            <span class="p">)</span>
+                            <span class="n">sharded_state</span><span class="p">,</span> <span class="n">loss</span><span class="p">,</span> <span class="n">information_and_accuracies</span> <span class="o">=</span> <span class="n">outputs_and_metrics</span>
+                            <span class="n">ttl_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">time_s</span>
+                            <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+                            <span class="n">vision_loss</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">vision_loss</span>
+                            <span class="n">vision_accuracy</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">vision_accuracy</span>
+                            <span class="n">text_loss</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">text_loss</span>
+                            <span class="n">text_accuracy</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">text_accuracy</span>
+
+                            <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+                            <span class="n">vision_accuracy_sum</span> <span class="o">=</span> <span class="n">vision_accuracy</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">vision_accuracy_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">(</span>
+                                    <span class="n">vision_accuracy_sum</span> <span class="o">+</span> <span class="n">vision_accuracy</span>
+                            <span class="p">)</span>
+                            <span class="n">vision_loss_sum</span> <span class="o">=</span> <span class="n">vision_loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">vision_loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">(</span>
+                                    <span class="n">vision_loss_sum</span> <span class="o">+</span> <span class="n">vision_loss</span>
+                            <span class="p">)</span>
+                            <span class="n">text_loss_sum</span> <span class="o">=</span> <span class="n">text_loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">text_loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">text_loss_sum</span> <span class="o">+</span> <span class="n">text_loss</span>
+                            <span class="n">text_accuracy_sum</span> <span class="o">=</span> <span class="n">text_accuracy</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">text_accuracy_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">(</span>
+                                    <span class="n">text_accuracy_sum</span> <span class="o">+</span> <span class="n">text_accuracy</span>
+                            <span class="p">)</span>
+                            <span class="n">learning_rates</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span><span class="p">(</span><span class="n">current_step</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">())</span>
+                            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+
+                            <span class="n">trained_tokens</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">multiply</span><span class="p">(</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">multiply</span><span class="p">(</span>
+                                    <span class="n">current_step</span><span class="p">,</span>
+                                    <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span>
+                                <span class="p">)</span>
+                            <span class="p">)</span>
+
+                            <span class="n">total_roved_steps</span> <span class="o">=</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">)</span>
+
+                            <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">spmd_mode</span><span class="p">(</span><span class="s2">&quot;allow_all&quot;</span><span class="p">):</span>
+                                <span class="n">train_metrics</span> <span class="o">=</span> <span class="p">{</span>
+
+                                    <span class="s2">&quot;train/loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/mean_loss&quot;</span><span class="p">:</span> <span class="n">loss_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+
+                                    <span class="s2">&quot;train/vision_accuracy&quot;</span><span class="p">:</span> <span class="n">vision_accuracy</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/vision_loss&quot;</span><span class="p">:</span> <span class="n">vision_loss</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/text_loss&quot;</span><span class="p">:</span> <span class="n">text_loss</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/text_accuracy&quot;</span><span class="p">:</span> <span class="n">text_accuracy</span><span class="p">,</span>
+
+                                    <span class="s2">&quot;train/mean_vision_accuracy&quot;</span><span class="p">:</span> <span class="n">vision_accuracy_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/mean_vision_loss&quot;</span><span class="p">:</span> <span class="n">vision_loss_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/mean_text_loss&quot;</span><span class="p">:</span> <span class="n">text_loss_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/mean_text_accuracy&quot;</span><span class="p">:</span> <span class="n">text_accuracy_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+
+                                    <span class="s2">&quot;train/learning_rate&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span><span class="p">(</span><span class="n">current_step</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/step&quot;</span><span class="p">:</span> <span class="n">current_step</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/step_time&quot;</span><span class="p">:</span> <span class="n">ttl_time</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/perplexity&quot;</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">loss</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                    <span class="s2">&quot;train/trained_tokens&quot;</span><span class="p">:</span> <span class="n">trained_tokens</span><span class="p">,</span>
+                                    <span class="s2">&quot;train/epoch&quot;</span><span class="p">:</span> <span class="n">epoch</span><span class="p">,</span>
+                                <span class="p">}</span>
+
+                                <span class="n">log_metrics</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">train_metrics</span><span class="p">)</span>
+                                <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span>
+                                    <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">captured_memory</span>
+                                <span class="p">)</span>
+                                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                                    <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                                        <span class="n">train_metrics</span>
+                                    <span class="p">)</span>
+
+                            <span class="n">pbar</span><span class="o">.</span><span class="n">set_postfix</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;train/&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">):</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">log_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">()})</span>
+                            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">training_time</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                                <span class="k">if</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">start_time</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">training_time</span><span class="p">:</span>
+                                    <span class="k">raise</span> <span class="n">EasyDeLTimerError</span><span class="p">(</span><span class="s2">&quot;Time Out&quot;</span><span class="p">)</span>
+                        <span class="k">else</span><span class="p">:</span>
+                            <span class="k">break</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_steps</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">current_step</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_steps</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                                <span class="n">filename</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_save_state</span><span class="p">(</span>
+                                    <span class="n">state</span><span class="o">=</span><span class="n">sharded_state</span><span class="p">,</span>
+                                    <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+                                    <span class="n">milestone</span><span class="o">=</span><span class="kc">True</span>
+                                <span class="p">)</span>
+                                <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_path</span><span class="p">())</span><span class="si">}</span><span class="s2">/</span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">&quot;</span>
+                            <span class="k">else</span><span class="p">:</span>
+                                <span class="nb">print</span><span class="p">(</span>
+                                    <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                                        <span class="s2">&quot;Info : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                                    <span class="p">),</span>
+                                    <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                                        <span class="s2">&quot;You can not use `save_steps` while using LoRA &quot;</span>
+                                        <span class="s2">&quot;right now. this action will be skipped&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                                    <span class="p">)</span>
+                                <span class="p">)</span>
+            <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                    <span class="s2">&quot;KeyboardInterrupt At training model Will return Current State of the Model with Parameters.&quot;</span><span class="p">,</span>
+                    <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                    <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+
+            <span class="k">except</span> <span class="n">EasyDeLTimerError</span><span class="p">:</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                    <span class="s2">&quot;Training reached out maximum training Time Killing training Process &quot;</span>
+                    <span class="s2">&quot;and Will return Current State of the Model with Parameters.&quot;</span><span class="p">,</span>
+                    <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                    <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">merge_lora_rapture_parameters</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="nb">print</span><span class="p">(</span>
+                    <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                        <span class="s2">&quot;Info : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                    <span class="p">),</span>
+                    <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                        <span class="s2">&quot;Merging LoRA Parameters.&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                    <span class="p">)</span>
+                <span class="p">)</span>
+                <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                    <span class="n">params</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">rapture</span><span class="o">.</span><span class="n">merge_parameters</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+                <span class="p">)</span>
+            <span class="n">output</span> <span class="o">=</span> <span class="n">VisionCausalLMTrainerOutput</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">=</span><span class="n">sharded_state</span><span class="p">,</span>
+                <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">,</span>
+                <span class="n">shard_fns</span><span class="o">=</span><span class="n">shard_fns</span><span class="p">,</span>
+                <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+                <span class="n">checkpoint_manager</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_manager</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_steps</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_last_save</span><span class="p">:</span>
+                <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span>
+                    <span class="n">match_partition_rules</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                            <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+                        <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+                        <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">sharded_state</span><span class="p">)</span>
+                    <span class="p">),</span>
+                    <span class="n">dtype_specs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span>
+                <span class="p">)</span>  <span class="c1"># You have to re-init the new shard and gather functions in order to be able to skip LoRA weight</span>
+                <span class="c1"># crashing errors and saving errors</span>
+                <span class="n">filename</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_save_state</span><span class="p">(</span>
+                    <span class="n">state</span><span class="o">=</span><span class="n">sharded_state</span><span class="p">,</span>
+                    <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span>
+                <span class="p">)</span>
+                <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_path</span><span class="p">())</span><span class="si">}</span><span class="s2">/</span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">&quot;</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_eval</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval</span><span class="p">(</span>
+                        <span class="n">sharded_state</span>
+                <span class="p">):</span>
+                    <span class="o">...</span>
+
+            <span class="n">output</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="o">=</span> <span class="n">checkpoint_path</span>
+            <span class="n">output</span><span class="o">.</span><span class="n">last_save_file_name</span> <span class="o">=</span> <span class="n">filename</span>
+            <span class="n">wandb</span><span class="o">.</span><span class="n">finish</span><span class="p">()</span>
+
+            <span class="k">return</span> <span class="n">output</span>
+
+    <span class="k">def</span> <span class="nf">eval</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Iterator</span><span class="p">[</span><span class="nb">dict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;Evaluate the Given Model State and yield the eval metrics&quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`dataloader_eval` is required by evaluator function.&quot;</span>
+        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+
+            <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span><span class="p">)</span>
+            <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Evaluating&quot;</span><span class="p">)</span>
+            <span class="n">current_step</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="n">loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">vision_loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">vision_accuracy_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">text_loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+            <span class="n">text_accuracy_sum</span> <span class="o">=</span> <span class="kc">None</span>
+
+            <span class="k">try</span><span class="p">:</span>
+                <span class="k">for</span> <span class="n">batch</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span><span class="p">:</span>
+                    <span class="n">current_step</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="n">time_start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                    <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span><span class="p">:</span>
+                        <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+                    <span class="n">metrics</span><span class="p">:</span> <span class="nb">tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">VisionCausalLanguageModelStepOutput</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span><span class="p">(</span>
+                        <span class="n">model_state</span><span class="p">,</span>
+                        <span class="n">batch</span>
+                    <span class="p">)</span>
+                    <span class="n">total_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">time_start</span>
+                    <span class="p">(</span>
+                        <span class="n">loss</span><span class="p">,</span> <span class="n">information_and_accuracies</span>
+                    <span class="p">)</span> <span class="o">=</span> <span class="n">metrics</span>
+
+                    <span class="n">vision_loss</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">vision_loss</span>
+                    <span class="n">vision_accuracy</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">vision_accuracy</span>
+                    <span class="n">text_loss</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">text_loss</span>
+                    <span class="n">text_accuracy</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">text_accuracy</span>
+
+                    <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+                    <span class="n">vision_accuracy_sum</span> <span class="o">=</span> <span class="n">vision_accuracy</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">vision_accuracy_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">(</span>
+                            <span class="n">vision_accuracy_sum</span> <span class="o">+</span> <span class="n">vision_accuracy</span>
+                    <span class="p">)</span>
+                    <span class="n">vision_loss_sum</span> <span class="o">=</span> <span class="n">vision_loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">vision_loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">vision_loss_sum</span> <span class="o">+</span> <span class="n">vision_loss</span>
+                    <span class="n">text_loss_sum</span> <span class="o">=</span> <span class="n">text_loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">text_loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">text_loss_sum</span> <span class="o">+</span> <span class="n">text_loss</span>
+                    <span class="n">text_accuracy_sum</span> <span class="o">=</span> <span class="n">text_accuracy</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">text_accuracy_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">(</span>
+                            <span class="n">text_accuracy_sum</span> <span class="o">+</span> <span class="n">text_accuracy</span>
+                    <span class="p">)</span>
+
+                    <span class="n">total_roved_steps</span> <span class="o">=</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">)</span>
+
+                    <span class="n">eval_metrics</span> <span class="o">=</span> <span class="p">{</span>
+                        <span class="s2">&quot;eval/loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                        <span class="s2">&quot;eval/mean_loss&quot;</span><span class="p">:</span> <span class="n">loss_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+
+                        <span class="s2">&quot;eval/vision_accuracy&quot;</span><span class="p">:</span> <span class="n">vision_accuracy</span><span class="p">,</span>
+                        <span class="s2">&quot;eval/vision_loss&quot;</span><span class="p">:</span> <span class="n">vision_loss</span><span class="p">,</span>
+                        <span class="s2">&quot;eval/text_loss&quot;</span><span class="p">:</span> <span class="n">text_loss</span><span class="p">,</span>
+                        <span class="s2">&quot;eval/text_accuracy&quot;</span><span class="p">:</span> <span class="n">text_accuracy</span><span class="p">,</span>
+
+                        <span class="s2">&quot;eval/mean_vision_accuracy&quot;</span><span class="p">:</span> <span class="n">vision_accuracy_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+                        <span class="s2">&quot;eval/mean_vision_loss&quot;</span><span class="p">:</span> <span class="n">vision_loss_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+                        <span class="s2">&quot;eval/mean_text_loss&quot;</span><span class="p">:</span> <span class="n">text_loss_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+                        <span class="s2">&quot;eval/mean_text_accuracy&quot;</span><span class="p">:</span> <span class="n">text_accuracy_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+
+                        <span class="s2">&quot;eval/step&quot;</span><span class="p">:</span> <span class="n">current_step</span><span class="p">,</span>
+                        <span class="s2">&quot;eval/step_time&quot;</span><span class="p">:</span> <span class="n">total_time</span><span class="p">,</span>
+                        <span class="s2">&quot;eval/perplexity&quot;</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">loss</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                    <span class="p">}</span>
+                    <span class="n">log_metrics</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">eval_metrics</span><span class="p">)</span>
+                    <span class="n">eval_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">captured_memory</span><span class="p">)</span>
+                    <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                    <span class="n">pbar</span><span class="o">.</span><span class="n">set_postfix</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;eval/&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">):</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">log_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">()})</span>
+                    <span class="k">yield</span> <span class="n">eval_metrics</span>
+            <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                    <span class="s2">&quot;KeyboardInterrupt At Evaluation model Will return Nothing and just pass.&quot;</span><span class="p">,</span>
+                    <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                    <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer.configure_functions" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">configure_functions</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The configure_functions function is responsible for configuring the functions that will be used in training.
+It does this by first defining a function called function_configurations, which initializes the model parameters and returns
+them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate
+on a batch of data, including:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access the class attributes</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="src.python.easydel.trainer.base_trainer.TrainerConfigureFunctionFuncOutput">TrainerConfigureFunctionFuncOutput</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A TrainerConfigureFunctionFuncOutput object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/vision_causal_language_model_trainer/vision_causal_language_model_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 62</span>
+<span class="normal"> 63</span>
+<span class="normal"> 64</span>
+<span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">configure_functions</span><span class="p">(</span><span class="bp">self</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The configure_functions function is responsible for configuring the functions that will be used in training.</span>
+<span class="sd">    It does this by first defining a function called function_configurations, which initializes the model parameters and returns</span>
+<span class="sd">    them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate</span>
+<span class="sd">    on a batch of data, including:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access the class attributes</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A TrainerConfigureFunctionFuncOutput object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">initialize_state_function</span><span class="p">():</span>
+        <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">init_weights</span><span class="p">(</span>
+            <span class="n">jax</span><span class="o">.</span><span class="n">random</span><span class="o">.</span><span class="n">PRNGKey</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">init_input_shape</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">:</span>
+            <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_bf16</span><span class="p">(</span><span class="n">initialized_parameters</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float16</span><span class="p">:</span>
+            <span class="n">initialized_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_fp16</span><span class="p">(</span><span class="n">initialized_parameters</span><span class="p">)</span>
+
+        <span class="n">tx</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">tx</span>
+        <span class="n">parameters</span> <span class="o">=</span> <span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">freeze</span><span class="p">({</span><span class="s2">&quot;params&quot;</span><span class="p">:</span> <span class="n">initialized_parameters</span><span class="p">})</span>
+        <span class="n">tx_init</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">lora_parameters</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">:</span>
+                <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_bf16</span><span class="p">(</span><span class="n">lora_parameters</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">dtype</span> <span class="o">==</span> <span class="n">jnp</span><span class="o">.</span><span class="n">float16</span><span class="p">:</span>
+                <span class="n">lora_parameters</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">to_fp16</span><span class="p">(</span><span class="n">lora_parameters</span><span class="p">)</span>
+
+            <span class="k">return</span> <span class="n">EasyDeLState</span><span class="p">(</span>
+                <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">lora_parameters</span><span class="p">,</span>
+                <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span><span class="p">,</span>
+                <span class="n">opt_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span><span class="p">,</span>
+                <span class="n">tx_init</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">tx_init</span><span class="p">),</span>
+                <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span><span class="p">,</span>
+                <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create</span><span class="p">(</span>
+                <span class="n">tx</span><span class="o">=</span><span class="n">tx</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                <span class="n">module_config</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">),</span>
+                <span class="n">tx_init</span><span class="o">=</span><span class="n">tx_init</span><span class="p">,</span>
+                <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>
+            <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">create_state_from_params_function</span><span class="p">(</span><span class="n">parameters</span><span class="p">):</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create</span><span class="p">(</span>
+                <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">tx</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="fm">__call__</span><span class="p">,</span>
+                <span class="n">module_config</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">),</span>
+                <span class="n">tx_init</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">),</span>
+                <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="n">EasyDeLState</span><span class="p">(</span>
+                <span class="n">step</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span>
+                <span class="n">apply_fn</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_apply_fn</span><span class="p">,</span>
+                <span class="n">params</span><span class="o">=</span><span class="n">parameters</span><span class="p">,</span>
+                <span class="n">tx</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_tx</span><span class="p">,</span>
+                <span class="n">opt_state</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_opt_state</span><span class="p">,</span>
+                <span class="n">tx_init</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">safe_dict</span><span class="p">(</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">optimizer_kwargs</span><span class="p">)),</span>
+                <span class="n">hyperparameters</span><span class="o">=</span><span class="n">EasyDeLState</span><span class="o">.</span><span class="n">create_hyperparameters</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">model_type</span><span class="p">),</span>
+                <span class="n">module</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">lora_model</span><span class="p">,</span>
+                <span class="n">module_config</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">config</span><span class="p">,</span>
+                <span class="n">module_config_args</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+            <span class="p">)</span>
+
+    <span class="n">state_shape</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="n">initialize_state_function</span><span class="p">)</span>
+    <span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">match_partition_rules</span><span class="p">(</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+            <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+        <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+        <span class="n">state_shape</span>
+    <span class="p">)</span>
+    <span class="n">create_sharded_state_from_params_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+        <span class="n">create_state_from_params_function</span><span class="p">,</span>
+        <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="o">.</span><span class="n">params</span><span class="p">,),</span>
+        <span class="n">out_shardings</span><span class="o">=</span><span class="n">state_partition_spec</span><span class="p">,</span>
+        <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,)</span>
+    <span class="p">)</span>
+    <span class="n">sharded_train_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+        <span class="n">create_vision_casual_language_model_train_step</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span><span class="p">),</span>
+        <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">sharded_eval_step_function</span> <span class="o">=</span> <span class="n">pjit</span><span class="p">(</span>
+        <span class="n">create_vision_casual_language_model_evaluation_step</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_partition_spec</span><span class="p">),</span>
+        <span class="n">in_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">state_partition_spec</span><span class="p">,</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="n">out_shardings</span><span class="o">=</span><span class="p">(</span><span class="n">PartitionSpec</span><span class="p">(),</span> <span class="n">PartitionSpec</span><span class="p">()),</span>
+        <span class="n">donate_argnums</span><span class="o">=</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">),</span>
+    <span class="p">)</span>
+
+    <span class="n">mesh</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_mesh</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ckpt_path_exists</span><span class="p">()</span>
+    <span class="n">checkpoint_manager</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_streaming_checkpointer</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">state_partition_spec</span> <span class="o">=</span> <span class="n">state_partition_spec</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">state_shape</span> <span class="o">=</span> <span class="n">state_shape</span>
+
+    <span class="k">return</span> <span class="n">TrainerConfigureFunctionFuncOutput</span><span class="p">(</span>
+        <span class="n">create_sharded_state_from_params_function</span><span class="o">=</span><span class="n">create_sharded_state_from_params_function</span><span class="p">,</span>
+        <span class="n">sharded_train_step_function</span><span class="o">=</span><span class="n">sharded_train_step_function</span><span class="p">,</span>
+        <span class="n">sharded_eval_step_function</span><span class="o">=</span><span class="n">sharded_eval_step_function</span><span class="p">,</span>
+        <span class="n">mesh</span><span class="o">=</span><span class="n">mesh</span><span class="p">,</span>
+        <span class="n">checkpoint_manager</span><span class="o">=</span><span class="n">checkpoint_manager</span><span class="p">,</span>
+        <span class="n">initialize_state_function</span><span class="o">=</span><span class="n">initialize_state_function</span>
+    <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer.eval" class="doc doc-heading">
+            <code class="highlight language-python"><span class="nb">eval</span><span class="p">(</span><span class="n">model_state</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Evaluate the Given Model State and yield the eval metrics</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/vision_causal_language_model_trainer/vision_causal_language_model_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">544</span>
+<span class="normal">545</span>
+<span class="normal">546</span>
+<span class="normal">547</span>
+<span class="normal">548</span>
+<span class="normal">549</span>
+<span class="normal">550</span>
+<span class="normal">551</span>
+<span class="normal">552</span>
+<span class="normal">553</span>
+<span class="normal">554</span>
+<span class="normal">555</span>
+<span class="normal">556</span>
+<span class="normal">557</span>
+<span class="normal">558</span>
+<span class="normal">559</span>
+<span class="normal">560</span>
+<span class="normal">561</span>
+<span class="normal">562</span>
+<span class="normal">563</span>
+<span class="normal">564</span>
+<span class="normal">565</span>
+<span class="normal">566</span>
+<span class="normal">567</span>
+<span class="normal">568</span>
+<span class="normal">569</span>
+<span class="normal">570</span>
+<span class="normal">571</span>
+<span class="normal">572</span>
+<span class="normal">573</span>
+<span class="normal">574</span>
+<span class="normal">575</span>
+<span class="normal">576</span>
+<span class="normal">577</span>
+<span class="normal">578</span>
+<span class="normal">579</span>
+<span class="normal">580</span>
+<span class="normal">581</span>
+<span class="normal">582</span>
+<span class="normal">583</span>
+<span class="normal">584</span>
+<span class="normal">585</span>
+<span class="normal">586</span>
+<span class="normal">587</span>
+<span class="normal">588</span>
+<span class="normal">589</span>
+<span class="normal">590</span>
+<span class="normal">591</span>
+<span class="normal">592</span>
+<span class="normal">593</span>
+<span class="normal">594</span>
+<span class="normal">595</span>
+<span class="normal">596</span>
+<span class="normal">597</span>
+<span class="normal">598</span>
+<span class="normal">599</span>
+<span class="normal">600</span>
+<span class="normal">601</span>
+<span class="normal">602</span>
+<span class="normal">603</span>
+<span class="normal">604</span>
+<span class="normal">605</span>
+<span class="normal">606</span>
+<span class="normal">607</span>
+<span class="normal">608</span>
+<span class="normal">609</span>
+<span class="normal">610</span>
+<span class="normal">611</span>
+<span class="normal">612</span>
+<span class="normal">613</span>
+<span class="normal">614</span>
+<span class="normal">615</span>
+<span class="normal">616</span>
+<span class="normal">617</span>
+<span class="normal">618</span>
+<span class="normal">619</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">eval</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">model_state</span><span class="p">:</span> <span class="n">EasyDeLState</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">typing</span><span class="o">.</span><span class="n">Iterator</span><span class="p">[</span><span class="nb">dict</span><span class="p">]:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Evaluate the Given Model State and yield the eval metrics&quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="s2">&quot;`dataloader_eval` is required by evaluator function.&quot;</span>
+    <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+
+        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_evaluation_steps</span><span class="p">)</span>
+        <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Evaluating&quot;</span><span class="p">)</span>
+        <span class="n">current_step</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="n">loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">vision_loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">vision_accuracy_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">text_loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">text_accuracy_sum</span> <span class="o">=</span> <span class="kc">None</span>
+
+        <span class="k">try</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">batch</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_eval</span><span class="p">:</span>
+                <span class="n">current_step</span> <span class="o">+=</span> <span class="mi">1</span>
+                <span class="n">time_start</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span><span class="p">:</span>
+                    <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+
+                <span class="n">metrics</span><span class="p">:</span> <span class="nb">tuple</span><span class="p">[</span><span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">VisionCausalLanguageModelStepOutput</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_eval_step_function</span><span class="p">(</span>
+                    <span class="n">model_state</span><span class="p">,</span>
+                    <span class="n">batch</span>
+                <span class="p">)</span>
+                <span class="n">total_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">time_start</span>
+                <span class="p">(</span>
+                    <span class="n">loss</span><span class="p">,</span> <span class="n">information_and_accuracies</span>
+                <span class="p">)</span> <span class="o">=</span> <span class="n">metrics</span>
+
+                <span class="n">vision_loss</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">vision_loss</span>
+                <span class="n">vision_accuracy</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">vision_accuracy</span>
+                <span class="n">text_loss</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">text_loss</span>
+                <span class="n">text_accuracy</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">text_accuracy</span>
+
+                <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+                <span class="n">vision_accuracy_sum</span> <span class="o">=</span> <span class="n">vision_accuracy</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">vision_accuracy_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">(</span>
+                        <span class="n">vision_accuracy_sum</span> <span class="o">+</span> <span class="n">vision_accuracy</span>
+                <span class="p">)</span>
+                <span class="n">vision_loss_sum</span> <span class="o">=</span> <span class="n">vision_loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">vision_loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">vision_loss_sum</span> <span class="o">+</span> <span class="n">vision_loss</span>
+                <span class="n">text_loss_sum</span> <span class="o">=</span> <span class="n">text_loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">text_loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">text_loss_sum</span> <span class="o">+</span> <span class="n">text_loss</span>
+                <span class="n">text_accuracy_sum</span> <span class="o">=</span> <span class="n">text_accuracy</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">text_accuracy_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">(</span>
+                        <span class="n">text_accuracy_sum</span> <span class="o">+</span> <span class="n">text_accuracy</span>
+                <span class="p">)</span>
+
+                <span class="n">total_roved_steps</span> <span class="o">=</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">)</span>
+
+                <span class="n">eval_metrics</span> <span class="o">=</span> <span class="p">{</span>
+                    <span class="s2">&quot;eval/loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                    <span class="s2">&quot;eval/mean_loss&quot;</span><span class="p">:</span> <span class="n">loss_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+
+                    <span class="s2">&quot;eval/vision_accuracy&quot;</span><span class="p">:</span> <span class="n">vision_accuracy</span><span class="p">,</span>
+                    <span class="s2">&quot;eval/vision_loss&quot;</span><span class="p">:</span> <span class="n">vision_loss</span><span class="p">,</span>
+                    <span class="s2">&quot;eval/text_loss&quot;</span><span class="p">:</span> <span class="n">text_loss</span><span class="p">,</span>
+                    <span class="s2">&quot;eval/text_accuracy&quot;</span><span class="p">:</span> <span class="n">text_accuracy</span><span class="p">,</span>
+
+                    <span class="s2">&quot;eval/mean_vision_accuracy&quot;</span><span class="p">:</span> <span class="n">vision_accuracy_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+                    <span class="s2">&quot;eval/mean_vision_loss&quot;</span><span class="p">:</span> <span class="n">vision_loss_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+                    <span class="s2">&quot;eval/mean_text_loss&quot;</span><span class="p">:</span> <span class="n">text_loss_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+                    <span class="s2">&quot;eval/mean_text_accuracy&quot;</span><span class="p">:</span> <span class="n">text_accuracy_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+
+                    <span class="s2">&quot;eval/step&quot;</span><span class="p">:</span> <span class="n">current_step</span><span class="p">,</span>
+                    <span class="s2">&quot;eval/step_time&quot;</span><span class="p">:</span> <span class="n">total_time</span><span class="p">,</span>
+                    <span class="s2">&quot;eval/perplexity&quot;</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">loss</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                <span class="p">}</span>
+                <span class="n">log_metrics</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">eval_metrics</span><span class="p">)</span>
+                <span class="n">eval_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">captured_memory</span><span class="p">)</span>
+                <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                <span class="n">pbar</span><span class="o">.</span><span class="n">set_postfix</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;eval/&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">):</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">log_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">()})</span>
+                <span class="k">yield</span> <span class="n">eval_metrics</span>
+        <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                <span class="s2">&quot;KeyboardInterrupt At Evaluation model Will return Nothing and just pass.&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer.train" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">train</span><span class="p">(</span><span class="n">model_parameters</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">state</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The train function is the main function of this module.
+It takes a model_parameters argument which can be used to load a pretrained model and finetune it.
+The train function returns an TrainerOutput object that contains the last saved file name, predict func,
+train state, mesh and checkpoint streamer.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Make the class methods aware of other methods and
+attributes within the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>model_parameters</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="flax.core.FrozenDict">FrozenDict</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>flax.core.FrozenDict: Load a pre-trained
+model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>state</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<a class="autorefs autorefs-internal" title="src.python.easydel.etils.easystate.EasyDeLState" href="../generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState">EasyDeLState</a>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[EasyDeLState]: Ready to Use State</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+                  <code><span title="src.python.easydel.trainer.vision_causal_language_model_trainer.modelling_output.VisionCausalLMTrainerOutput">VisionCausalLMTrainerOutput</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>An object of type "TrainerOutput"</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/trainer/vision_causal_language_model_trainer/vision_causal_language_model_trainer.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">315</span>
+<span class="normal">316</span>
+<span class="normal">317</span>
+<span class="normal">318</span>
+<span class="normal">319</span>
+<span class="normal">320</span>
+<span class="normal">321</span>
+<span class="normal">322</span>
+<span class="normal">323</span>
+<span class="normal">324</span>
+<span class="normal">325</span>
+<span class="normal">326</span>
+<span class="normal">327</span>
+<span class="normal">328</span>
+<span class="normal">329</span>
+<span class="normal">330</span>
+<span class="normal">331</span>
+<span class="normal">332</span>
+<span class="normal">333</span>
+<span class="normal">334</span>
+<span class="normal">335</span>
+<span class="normal">336</span>
+<span class="normal">337</span>
+<span class="normal">338</span>
+<span class="normal">339</span>
+<span class="normal">340</span>
+<span class="normal">341</span>
+<span class="normal">342</span>
+<span class="normal">343</span>
+<span class="normal">344</span>
+<span class="normal">345</span>
+<span class="normal">346</span>
+<span class="normal">347</span>
+<span class="normal">348</span>
+<span class="normal">349</span>
+<span class="normal">350</span>
+<span class="normal">351</span>
+<span class="normal">352</span>
+<span class="normal">353</span>
+<span class="normal">354</span>
+<span class="normal">355</span>
+<span class="normal">356</span>
+<span class="normal">357</span>
+<span class="normal">358</span>
+<span class="normal">359</span>
+<span class="normal">360</span>
+<span class="normal">361</span>
+<span class="normal">362</span>
+<span class="normal">363</span>
+<span class="normal">364</span>
+<span class="normal">365</span>
+<span class="normal">366</span>
+<span class="normal">367</span>
+<span class="normal">368</span>
+<span class="normal">369</span>
+<span class="normal">370</span>
+<span class="normal">371</span>
+<span class="normal">372</span>
+<span class="normal">373</span>
+<span class="normal">374</span>
+<span class="normal">375</span>
+<span class="normal">376</span>
+<span class="normal">377</span>
+<span class="normal">378</span>
+<span class="normal">379</span>
+<span class="normal">380</span>
+<span class="normal">381</span>
+<span class="normal">382</span>
+<span class="normal">383</span>
+<span class="normal">384</span>
+<span class="normal">385</span>
+<span class="normal">386</span>
+<span class="normal">387</span>
+<span class="normal">388</span>
+<span class="normal">389</span>
+<span class="normal">390</span>
+<span class="normal">391</span>
+<span class="normal">392</span>
+<span class="normal">393</span>
+<span class="normal">394</span>
+<span class="normal">395</span>
+<span class="normal">396</span>
+<span class="normal">397</span>
+<span class="normal">398</span>
+<span class="normal">399</span>
+<span class="normal">400</span>
+<span class="normal">401</span>
+<span class="normal">402</span>
+<span class="normal">403</span>
+<span class="normal">404</span>
+<span class="normal">405</span>
+<span class="normal">406</span>
+<span class="normal">407</span>
+<span class="normal">408</span>
+<span class="normal">409</span>
+<span class="normal">410</span>
+<span class="normal">411</span>
+<span class="normal">412</span>
+<span class="normal">413</span>
+<span class="normal">414</span>
+<span class="normal">415</span>
+<span class="normal">416</span>
+<span class="normal">417</span>
+<span class="normal">418</span>
+<span class="normal">419</span>
+<span class="normal">420</span>
+<span class="normal">421</span>
+<span class="normal">422</span>
+<span class="normal">423</span>
+<span class="normal">424</span>
+<span class="normal">425</span>
+<span class="normal">426</span>
+<span class="normal">427</span>
+<span class="normal">428</span>
+<span class="normal">429</span>
+<span class="normal">430</span>
+<span class="normal">431</span>
+<span class="normal">432</span>
+<span class="normal">433</span>
+<span class="normal">434</span>
+<span class="normal">435</span>
+<span class="normal">436</span>
+<span class="normal">437</span>
+<span class="normal">438</span>
+<span class="normal">439</span>
+<span class="normal">440</span>
+<span class="normal">441</span>
+<span class="normal">442</span>
+<span class="normal">443</span>
+<span class="normal">444</span>
+<span class="normal">445</span>
+<span class="normal">446</span>
+<span class="normal">447</span>
+<span class="normal">448</span>
+<span class="normal">449</span>
+<span class="normal">450</span>
+<span class="normal">451</span>
+<span class="normal">452</span>
+<span class="normal">453</span>
+<span class="normal">454</span>
+<span class="normal">455</span>
+<span class="normal">456</span>
+<span class="normal">457</span>
+<span class="normal">458</span>
+<span class="normal">459</span>
+<span class="normal">460</span>
+<span class="normal">461</span>
+<span class="normal">462</span>
+<span class="normal">463</span>
+<span class="normal">464</span>
+<span class="normal">465</span>
+<span class="normal">466</span>
+<span class="normal">467</span>
+<span class="normal">468</span>
+<span class="normal">469</span>
+<span class="normal">470</span>
+<span class="normal">471</span>
+<span class="normal">472</span>
+<span class="normal">473</span>
+<span class="normal">474</span>
+<span class="normal">475</span>
+<span class="normal">476</span>
+<span class="normal">477</span>
+<span class="normal">478</span>
+<span class="normal">479</span>
+<span class="normal">480</span>
+<span class="normal">481</span>
+<span class="normal">482</span>
+<span class="normal">483</span>
+<span class="normal">484</span>
+<span class="normal">485</span>
+<span class="normal">486</span>
+<span class="normal">487</span>
+<span class="normal">488</span>
+<span class="normal">489</span>
+<span class="normal">490</span>
+<span class="normal">491</span>
+<span class="normal">492</span>
+<span class="normal">493</span>
+<span class="normal">494</span>
+<span class="normal">495</span>
+<span class="normal">496</span>
+<span class="normal">497</span>
+<span class="normal">498</span>
+<span class="normal">499</span>
+<span class="normal">500</span>
+<span class="normal">501</span>
+<span class="normal">502</span>
+<span class="normal">503</span>
+<span class="normal">504</span>
+<span class="normal">505</span>
+<span class="normal">506</span>
+<span class="normal">507</span>
+<span class="normal">508</span>
+<span class="normal">509</span>
+<span class="normal">510</span>
+<span class="normal">511</span>
+<span class="normal">512</span>
+<span class="normal">513</span>
+<span class="normal">514</span>
+<span class="normal">515</span>
+<span class="normal">516</span>
+<span class="normal">517</span>
+<span class="normal">518</span>
+<span class="normal">519</span>
+<span class="normal">520</span>
+<span class="normal">521</span>
+<span class="normal">522</span>
+<span class="normal">523</span>
+<span class="normal">524</span>
+<span class="normal">525</span>
+<span class="normal">526</span>
+<span class="normal">527</span>
+<span class="normal">528</span>
+<span class="normal">529</span>
+<span class="normal">530</span>
+<span class="normal">531</span>
+<span class="normal">532</span>
+<span class="normal">533</span>
+<span class="normal">534</span>
+<span class="normal">535</span>
+<span class="normal">536</span>
+<span class="normal">537</span>
+<span class="normal">538</span>
+<span class="normal">539</span>
+<span class="normal">540</span>
+<span class="normal">541</span>
+<span class="normal">542</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">train</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">model_parameters</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">FrozenDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">EasyDeLState</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span>
+<span class="p">)</span> <span class="o">-&gt;</span> <span class="n">VisionCausalLMTrainerOutput</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The train function is the main function of this module.</span>
+<span class="sd">    It takes a model_parameters argument which can be used to load a pretrained model and finetune it.</span>
+<span class="sd">    The train function returns an TrainerOutput object that contains the last saved file name, predict func,</span>
+<span class="sd">    train state, mesh and checkpoint streamer.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Make the class methods aware of other methods and</span>
+<span class="sd">            attributes within the class</span>
+<span class="sd">        model_parameters: flax.core.FrozenDict: Load a pre-trained</span>
+<span class="sd">            model</span>
+<span class="sd">        state: Optional[EasyDeLState]: Ready to Use State</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        An object of type &quot;TrainerOutput&quot;</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="nf">count_model_parameters</span><span class="p">(</span><span class="n">_p</span><span class="p">):</span>
+        <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;Model Contain </span><span class="si">{</span><span class="nb">sum</span><span class="p">(</span><span class="n">n</span><span class="o">.</span><span class="n">size</span><span class="w"> </span><span class="k">for</span><span class="w"> </span><span class="n">n</span><span class="w"> </span><span class="ow">in</span><span class="w"> </span><span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_flatten</span><span class="p">(</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">_p</span><span class="p">))[</span><span class="mi">0</span><span class="p">])</span><span class="w"> </span><span class="o">/</span><span class="w"> </span><span class="mf">1e9</span><span class="si">}</span><span class="s2"> &quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;Billion Parameters&quot;</span><span class="p">,</span>
+            <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+
+    <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="s2">&quot;SAVING_SKIPPED&quot;</span>
+    <span class="n">start_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+    <span class="n">sharded_state</span><span class="p">,</span> <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">initialize_state</span><span class="p">(</span>
+        <span class="n">model_parameters</span><span class="o">=</span><span class="n">model_parameters</span><span class="p">,</span>
+        <span class="n">state</span><span class="o">=</span><span class="n">state</span>
+    <span class="p">)</span>
+
+    <span class="n">count_model_parameters</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+    <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">:</span>
+        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">)</span>
+        <span class="n">current_step</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">device_get</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">step</span><span class="p">))</span>
+
+        <span class="n">loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">vision_loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">vision_accuracy_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">text_loss_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">text_accuracy_sum</span> <span class="o">=</span> <span class="kc">None</span>
+        <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">step</span><span class="o">.</span><span class="n">tolist</span><span class="p">())</span>  <span class="c1"># type: ignore</span>
+        <span class="n">learning_rates</span> <span class="o">=</span> <span class="p">[]</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">model_parameters_number</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span>
+                <span class="n">n</span><span class="o">.</span><span class="n">size</span> <span class="k">for</span> <span class="n">n</span> <span class="ow">in</span>
+                <span class="n">jax</span><span class="o">.</span><span class="n">tree_util</span><span class="o">.</span><span class="n">tree_flatten</span><span class="p">(</span><span class="n">flax</span><span class="o">.</span><span class="n">core</span><span class="o">.</span><span class="n">unfreeze</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span><span class="p">))[</span><span class="mi">0</span><span class="p">]</span>
+            <span class="p">)</span> <span class="o">/</span> <span class="mf">1e9</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                <span class="p">{</span>
+                    <span class="s2">&quot;Number of Model Parameters (Billion)&quot;</span><span class="p">:</span> <span class="n">model_parameters_number</span>
+                <span class="p">}</span>
+            <span class="p">)</span>
+            <span class="n">wandb</span><span class="o">.</span><span class="n">summary</span><span class="p">[</span><span class="s2">&quot;Number of Model Parameters (Billion)&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">model_parameters_number</span>
+        <span class="k">try</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">num_train_epochs</span><span class="p">):</span>
+                <span class="k">for</span> <span class="n">batch</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataloader_train</span><span class="p">:</span>
+                    <span class="n">current_step</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="k">if</span> <span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                            <span class="ow">and</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span> <span class="o">&gt;</span> <span class="n">current_step</span>
+                    <span class="p">):</span>
+                        <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">current_step</span> <span class="o">&lt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">max_training_steps</span><span class="p">:</span>
+
+                        <span class="k">for</span> <span class="n">ssb</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">ids_to_pop_from_dataset</span><span class="p">:</span>
+                            <span class="n">_</span> <span class="o">=</span> <span class="n">batch</span><span class="o">.</span><span class="n">pop</span><span class="p">(</span><span class="n">ssb</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span>
+                        <span class="n">time_s</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+                        <span class="n">outputs_and_metrics</span><span class="p">:</span> <span class="nb">tuple</span><span class="p">[</span>
+                            <span class="n">EasyDeLState</span><span class="p">,</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">,</span> <span class="n">VisionCausalLanguageModelStepOutput</span>
+                        <span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sharded_train_step_function</span><span class="p">(</span>
+                            <span class="n">sharded_state</span><span class="p">,</span>
+                            <span class="n">batch</span>
+                        <span class="p">)</span>
+                        <span class="n">sharded_state</span><span class="p">,</span> <span class="n">loss</span><span class="p">,</span> <span class="n">information_and_accuracies</span> <span class="o">=</span> <span class="n">outputs_and_metrics</span>
+                        <span class="n">ttl_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">time_s</span>
+                        <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+                        <span class="n">vision_loss</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">vision_loss</span>
+                        <span class="n">vision_accuracy</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">vision_accuracy</span>
+                        <span class="n">text_loss</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">text_loss</span>
+                        <span class="n">text_accuracy</span> <span class="o">=</span> <span class="n">information_and_accuracies</span><span class="o">.</span><span class="n">text_accuracy</span>
+
+                        <span class="n">loss_sum</span> <span class="o">=</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">loss_sum</span> <span class="o">+</span> <span class="n">loss</span>
+                        <span class="n">vision_accuracy_sum</span> <span class="o">=</span> <span class="n">vision_accuracy</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">vision_accuracy_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">(</span>
+                                <span class="n">vision_accuracy_sum</span> <span class="o">+</span> <span class="n">vision_accuracy</span>
+                        <span class="p">)</span>
+                        <span class="n">vision_loss_sum</span> <span class="o">=</span> <span class="n">vision_loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">vision_loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">(</span>
+                                <span class="n">vision_loss_sum</span> <span class="o">+</span> <span class="n">vision_loss</span>
+                        <span class="p">)</span>
+                        <span class="n">text_loss_sum</span> <span class="o">=</span> <span class="n">text_loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">text_loss_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">text_loss_sum</span> <span class="o">+</span> <span class="n">text_loss</span>
+                        <span class="n">text_accuracy_sum</span> <span class="o">=</span> <span class="n">text_accuracy</span><span class="o">.</span><span class="n">tolist</span><span class="p">()</span> <span class="k">if</span> <span class="n">text_accuracy_sum</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="p">(</span>
+                                <span class="n">text_accuracy_sum</span> <span class="o">+</span> <span class="n">text_accuracy</span>
+                        <span class="p">)</span>
+                        <span class="n">learning_rates</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span><span class="p">(</span><span class="n">current_step</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">())</span>
+                        <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+
+                        <span class="n">trained_tokens</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">multiply</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">max_sequence_length</span><span class="p">,</span> <span class="n">jnp</span><span class="o">.</span><span class="n">multiply</span><span class="p">(</span>
+                                <span class="n">current_step</span><span class="p">,</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">total_batch_size</span>
+                            <span class="p">)</span>
+                        <span class="p">)</span>
+
+                        <span class="n">total_roved_steps</span> <span class="o">=</span> <span class="p">(</span><span class="n">current_step</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">step_start_point</span><span class="p">)</span>
+
+                        <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">spmd_mode</span><span class="p">(</span><span class="s2">&quot;allow_all&quot;</span><span class="p">):</span>
+                            <span class="n">train_metrics</span> <span class="o">=</span> <span class="p">{</span>
+
+                                <span class="s2">&quot;train/loss&quot;</span><span class="p">:</span> <span class="n">loss</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                <span class="s2">&quot;train/mean_loss&quot;</span><span class="p">:</span> <span class="n">loss_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+
+                                <span class="s2">&quot;train/vision_accuracy&quot;</span><span class="p">:</span> <span class="n">vision_accuracy</span><span class="p">,</span>
+                                <span class="s2">&quot;train/vision_loss&quot;</span><span class="p">:</span> <span class="n">vision_loss</span><span class="p">,</span>
+                                <span class="s2">&quot;train/text_loss&quot;</span><span class="p">:</span> <span class="n">text_loss</span><span class="p">,</span>
+                                <span class="s2">&quot;train/text_accuracy&quot;</span><span class="p">:</span> <span class="n">text_accuracy</span><span class="p">,</span>
+
+                                <span class="s2">&quot;train/mean_vision_accuracy&quot;</span><span class="p">:</span> <span class="n">vision_accuracy_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+                                <span class="s2">&quot;train/mean_vision_loss&quot;</span><span class="p">:</span> <span class="n">vision_loss_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+                                <span class="s2">&quot;train/mean_text_loss&quot;</span><span class="p">:</span> <span class="n">text_loss_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+                                <span class="s2">&quot;train/mean_text_accuracy&quot;</span><span class="p">:</span> <span class="n">text_accuracy_sum</span> <span class="o">/</span> <span class="n">total_roved_steps</span><span class="p">,</span>
+
+                                <span class="s2">&quot;train/learning_rate&quot;</span><span class="p">:</span> <span class="bp">self</span><span class="o">.</span><span class="n">scheduler</span><span class="p">(</span><span class="n">current_step</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                <span class="s2">&quot;train/step&quot;</span><span class="p">:</span> <span class="n">current_step</span><span class="p">,</span>
+                                <span class="s2">&quot;train/step_time&quot;</span><span class="p">:</span> <span class="n">ttl_time</span><span class="p">,</span>
+                                <span class="s2">&quot;train/perplexity&quot;</span><span class="p">:</span> <span class="n">jnp</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">loss</span><span class="p">)</span><span class="o">.</span><span class="n">tolist</span><span class="p">(),</span>
+                                <span class="s2">&quot;train/trained_tokens&quot;</span><span class="p">:</span> <span class="n">trained_tokens</span><span class="p">,</span>
+                                <span class="s2">&quot;train/epoch&quot;</span><span class="p">:</span> <span class="n">epoch</span><span class="p">,</span>
+                            <span class="p">}</span>
+
+                            <span class="n">log_metrics</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">train_metrics</span><span class="p">)</span>
+                            <span class="n">train_metrics</span><span class="o">.</span><span class="n">update</span><span class="p">(</span>
+                                <span class="o">**</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">captured_memory</span>
+                            <span class="p">)</span>
+                            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">wandb_runtime</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                                    <span class="n">train_metrics</span>
+                                <span class="p">)</span>
+
+                        <span class="n">pbar</span><span class="o">.</span><span class="n">set_postfix</span><span class="p">(</span><span class="o">**</span><span class="p">{</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;train/&quot;</span><span class="p">,</span> <span class="s2">&quot;&quot;</span><span class="p">):</span> <span class="n">v</span> <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">log_metrics</span><span class="o">.</span><span class="n">items</span><span class="p">()})</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">training_time</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                            <span class="k">if</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="n">start_time</span> <span class="o">&gt;</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">training_time</span><span class="p">:</span>
+                                <span class="k">raise</span> <span class="n">EasyDeLTimerError</span><span class="p">(</span><span class="s2">&quot;Time Out&quot;</span><span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="k">break</span>
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_steps</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">and</span> <span class="n">current_step</span> <span class="o">%</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_steps</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+                            <span class="n">filename</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_save_state</span><span class="p">(</span>
+                                <span class="n">state</span><span class="o">=</span><span class="n">sharded_state</span><span class="p">,</span>
+                                <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+                                <span class="n">milestone</span><span class="o">=</span><span class="kc">True</span>
+                            <span class="p">)</span>
+                            <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_path</span><span class="p">())</span><span class="si">}</span><span class="s2">/</span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="k">else</span><span class="p">:</span>
+                            <span class="nb">print</span><span class="p">(</span>
+                                <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                                    <span class="s2">&quot;Info : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                                <span class="p">),</span>
+                                <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                                    <span class="s2">&quot;You can not use `save_steps` while using LoRA &quot;</span>
+                                    <span class="s2">&quot;right now. this action will be skipped&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                                <span class="p">)</span>
+                            <span class="p">)</span>
+        <span class="k">except</span> <span class="ne">KeyboardInterrupt</span><span class="p">:</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                <span class="s2">&quot;KeyboardInterrupt At training model Will return Current State of the Model with Parameters.&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+
+        <span class="k">except</span> <span class="n">EasyDeLTimerError</span><span class="p">:</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                <span class="s2">&quot;Training reached out maximum training Time Killing training Process &quot;</span>
+                <span class="s2">&quot;and Will return Current State of the Model with Parameters.&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">merge_lora_rapture_parameters</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">rapture</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="nb">print</span><span class="p">(</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                    <span class="s2">&quot;Info : &quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;red&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">),</span>
+                <span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span>
+                    <span class="s2">&quot;Merging LoRA Parameters.&quot;</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">&quot;white&quot;</span><span class="p">,</span> <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">sharded_state</span> <span class="o">=</span> <span class="n">sharded_state</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span>
+                <span class="n">params</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">rapture</span><span class="o">.</span><span class="n">merge_parameters</span><span class="p">(</span><span class="n">sharded_state</span><span class="o">.</span><span class="n">params</span><span class="p">)</span>
+            <span class="p">)</span>
+        <span class="n">output</span> <span class="o">=</span> <span class="n">VisionCausalLMTrainerOutput</span><span class="p">(</span>
+            <span class="n">state</span><span class="o">=</span><span class="n">sharded_state</span><span class="p">,</span>
+            <span class="n">mesh</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mesh</span><span class="p">,</span>
+            <span class="n">shard_fns</span><span class="o">=</span><span class="n">shard_fns</span><span class="p">,</span>
+            <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span><span class="p">,</span>
+            <span class="n">checkpoint_manager</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">checkpoint_manager</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">save_steps</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_last_save</span><span class="p">:</span>
+            <span class="n">shard_fns</span><span class="p">,</span> <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">make_shard_and_gather_fns</span><span class="p">(</span>
+                <span class="n">match_partition_rules</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">get_partition_rules</span><span class="p">(</span>
+                        <span class="n">fully_sharded_data_parallel</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">fully_sharded_data_parallel</span>
+                    <span class="p">)</span> <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">custom_rule</span><span class="p">,</span>
+                    <span class="n">jax</span><span class="o">.</span><span class="n">eval_shape</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">sharded_state</span><span class="p">)</span>
+                <span class="p">),</span>
+                <span class="n">dtype_specs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dtype</span>
+            <span class="p">)</span>  <span class="c1"># You have to re-init the new shard and gather functions in order to be able to skip LoRA weight</span>
+            <span class="c1"># crashing errors and saving errors</span>
+            <span class="n">filename</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">_save_state</span><span class="p">(</span>
+                <span class="n">state</span><span class="o">=</span><span class="n">sharded_state</span><span class="p">,</span>
+                <span class="n">gather_fns</span><span class="o">=</span><span class="n">gather_fns</span>
+            <span class="p">)</span>
+            <span class="n">checkpoint_path</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="nb">str</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">get_path</span><span class="p">())</span><span class="si">}</span><span class="s2">/</span><span class="si">{</span><span class="n">filename</span><span class="si">}</span><span class="s2">&quot;</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">arguments</span><span class="o">.</span><span class="n">do_eval</span><span class="p">:</span>
+            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">eval</span><span class="p">(</span>
+                    <span class="n">sharded_state</span>
+            <span class="p">):</span>
+                <span class="o">...</span>
+
+        <span class="n">output</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="o">=</span> <span class="n">checkpoint_path</span>
+        <span class="n">output</span><span class="o">.</span><span class="n">last_save_file_name</span> <span class="o">=</span> <span class="n">filename</span>
+        <span class="n">wandb</span><span class="o">.</span><span class="n">finish</span><span class="p">()</span>
+
+        <span class="k">return</span> <span class="n">output</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-transform-easydel_transform/index.html b/generated-transform-easydel_transform/index.html
new file mode 100644
index 000000000..6f897fe90
--- /dev/null
+++ b/generated-transform-easydel_transform/index.html
@@ -0,0 +1,7057 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/">
+      
+      
+        <link rel="next" href="../generated-transform-falcon/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Easydel Transform - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#transformeasydel_transform" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Easydel Transform
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.easydel_transform" class="md-nav__link">
+    <span class="md-ellipsis">
+      easydel_transform
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.easydel_transform.float_tensor_to_dtype" class="md-nav__link">
+    <span class="md-ellipsis">
+      float_tensor_to_dtype
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.easydel_transform.huggingface_to_easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      huggingface_to_easydel
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.easydel_transform.match_keywords" class="md-nav__link">
+    <span class="md-ellipsis">
+      match_keywords
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.easydel_transform.read_ckpt" class="md-nav__link">
+    <span class="md-ellipsis">
+      read_ckpt
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.easydel_transform.save_ckpt" class="md-nav__link">
+    <span class="md-ellipsis">
+      save_ckpt
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.easydel_transform" class="md-nav__link">
+    <span class="md-ellipsis">
+      easydel_transform
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.easydel_transform.float_tensor_to_dtype" class="md-nav__link">
+    <span class="md-ellipsis">
+      float_tensor_to_dtype
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.easydel_transform.huggingface_to_easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      huggingface_to_easydel
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.easydel_transform.match_keywords" class="md-nav__link">
+    <span class="md-ellipsis">
+      match_keywords
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.easydel_transform.read_ckpt" class="md-nav__link">
+    <span class="md-ellipsis">
+      read_ckpt
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.easydel_transform.save_ckpt" class="md-nav__link">
+    <span class="md-ellipsis">
+      save_ckpt
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="transformeasydel_transform">transform.easydel_transform</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.transform.easydel_transform"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.transform.easydel_transform.float_tensor_to_dtype" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">float_tensor_to_dtype</span><span class="p">(</span><span class="n">tensor</span><span class="p">,</span> <span class="n">dtype</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The float_tensor_to_dtype function is used to convert a tensor's dtype to the specified dtype.</p>
+<p>:param tensor: Convert the tensor to a float dtype
+:param dtype: Convert the tensor to a specific dtype
+:return: A tensor with the specified dtype</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/transform/easydel_transform.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">float_tensor_to_dtype</span><span class="p">(</span><span class="n">tensor</span><span class="p">,</span> <span class="n">dtype</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    The float_tensor_to_dtype function is used to convert a tensor&#39;s dtype to the specified dtype.</span>
+
+<span class="sd">    :param tensor: Convert the tensor to a float dtype</span>
+<span class="sd">    :param dtype: Convert the tensor to a specific dtype</span>
+<span class="sd">    :return: A tensor with the specified dtype</span>
+
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">dtype</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">dtype</span> <span class="o">==</span> <span class="s2">&quot;&quot;</span><span class="p">:</span>
+        <span class="k">return</span> <span class="n">tensor</span>
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">dtype</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">dtype</span> <span class="o">=</span> <span class="n">get_dtype</span><span class="p">(</span><span class="n">dtype</span><span class="p">)</span>
+    <span class="n">float_dtypes</span> <span class="o">=</span> <span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">bfloat16</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float16</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float64</span><span class="p">)</span>
+    <span class="k">if</span> <span class="nb">getattr</span><span class="p">(</span><span class="n">tensor</span><span class="p">,</span> <span class="s2">&quot;dtype&quot;</span><span class="p">,</span> <span class="kc">None</span><span class="p">)</span> <span class="ow">in</span> <span class="n">float_dtypes</span><span class="p">:</span>
+        <span class="n">tensor</span> <span class="o">=</span> <span class="n">tensor</span><span class="o">.</span><span class="n">astype</span><span class="p">(</span><span class="n">dtype</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">tensor</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.transform.easydel_transform.huggingface_to_easydel" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">huggingface_to_easydel</span><span class="p">(</span><span class="n">state_dict</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span> <span class="n">device</span><span class="p">,</span> <span class="n">embedding_layer_names</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">layer_norm_names</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">shard_fns</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">convert_to_8bit</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">params_pattern_selection</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float16</span><span class="p">,</span> <span class="n">rnn_based_or_rwkv</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">verbose</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="n">remove_state_dict</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The huggingface_to_easydel function takes a huggingface model's state_dict and converts it to an easydel
+model's flax_dict. The function is designed to be used in conjunction with the load_huggingface function, which
+loads a huggingface model from disk. The embedding layer name must be specified as well as the device on which
+the conversion will take place.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>state_dict</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Load the weights from a huggingface model</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>embedding_layer_names</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.List">List</span>[str]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>List[str]: Identify the embedding layer
+in the huggingface model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>device</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Determine which device the model will be loaded on</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>layer_norm_names</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.List">List</span>[str]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Replaces weight or kernel with (scale)</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>shard_fns</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="typing.Mapping">Mapping</span>[tuple, <span title="typing.Callable">Callable</span>]]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[Mapping[tuple, Callable]]: Sharding Function
+to be used to shard model</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>convert_to_8bit</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: whenever to convert the into 8bit format</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>params_pattern_selection</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[<span title="re.Pattern">Pattern</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Optional[re.Pattern]: patter to use to
+find the parameters of the model which will</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>dtype</code></td>
+            <td>
+                  <code><span title="jax.numpy.dtype">dtype</span></code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>jax.numpy.dtype: Specify the data type of the tensors</p>
+              </div>
+            </td>
+            <td>
+                  <code><span title="jax.numpy.float16">float16</span></code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>rnn_based_or_rwkv</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: rnn_based_or_rwkv is a conditioner
+which decide whenever it finds a value in tree</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>verbose</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool: whenever to log sharding or converting process</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>remove_state_dict</code></td>
+            <td>
+                  <code>bool</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>bool : whether to remove state dict during
+the transforming process</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>be converted to 8bit format.
+that start with time_mix_ it will automatically reshape that for easydel use case</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of the weights and biases in a format that can be</p>
+              </div>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>used by flax (it's an UnFlattenDict)</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/transform/easydel_transform.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 65</span>
+<span class="normal"> 66</span>
+<span class="normal"> 67</span>
+<span class="normal"> 68</span>
+<span class="normal"> 69</span>
+<span class="normal"> 70</span>
+<span class="normal"> 71</span>
+<span class="normal"> 72</span>
+<span class="normal"> 73</span>
+<span class="normal"> 74</span>
+<span class="normal"> 75</span>
+<span class="normal"> 76</span>
+<span class="normal"> 77</span>
+<span class="normal"> 78</span>
+<span class="normal"> 79</span>
+<span class="normal"> 80</span>
+<span class="normal"> 81</span>
+<span class="normal"> 82</span>
+<span class="normal"> 83</span>
+<span class="normal"> 84</span>
+<span class="normal"> 85</span>
+<span class="normal"> 86</span>
+<span class="normal"> 87</span>
+<span class="normal"> 88</span>
+<span class="normal"> 89</span>
+<span class="normal"> 90</span>
+<span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span>
+<span class="normal">117</span>
+<span class="normal">118</span>
+<span class="normal">119</span>
+<span class="normal">120</span>
+<span class="normal">121</span>
+<span class="normal">122</span>
+<span class="normal">123</span>
+<span class="normal">124</span>
+<span class="normal">125</span>
+<span class="normal">126</span>
+<span class="normal">127</span>
+<span class="normal">128</span>
+<span class="normal">129</span>
+<span class="normal">130</span>
+<span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">huggingface_to_easydel</span><span class="p">(</span>
+        <span class="n">state_dict</span><span class="p">,</span>
+        <span class="o">*</span><span class="p">,</span>
+        <span class="n">device</span><span class="p">,</span>
+        <span class="n">embedding_layer_names</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">layer_norm_names</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">shard_fns</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">Mapping</span><span class="p">[</span><span class="nb">tuple</span><span class="p">,</span> <span class="n">Callable</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">convert_to_8bit</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">params_pattern_selection</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">re</span><span class="o">.</span><span class="n">Pattern</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">dtype</span><span class="p">:</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">dtype</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">numpy</span><span class="o">.</span><span class="n">float16</span><span class="p">,</span>
+        <span class="n">rnn_based_or_rwkv</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">verbose</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">,</span>
+        <span class="n">remove_state_dict</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="o">**</span><span class="n">kwargs</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The huggingface_to_easydel function takes a huggingface model&#39;s state_dict and converts it to an easydel</span>
+<span class="sd">    model&#39;s flax_dict. The function is designed to be used in conjunction with the load_huggingface function, which</span>
+<span class="sd">    loads a huggingface model from disk. The embedding layer name must be specified as well as the device on which</span>
+<span class="sd">    the conversion will take place.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        state_dict: Load the weights from a huggingface model</span>
+<span class="sd">        embedding_layer_names: List[str]: Identify the embedding layer</span>
+<span class="sd">            in the huggingface model</span>
+<span class="sd">        device: Determine which device the model will be loaded on</span>
+<span class="sd">        layer_norm_names: Replaces weight or kernel with (scale)</span>
+<span class="sd">        shard_fns: Optional[Mapping[tuple, Callable]]: Sharding Function</span>
+<span class="sd">            to be used to shard model</span>
+<span class="sd">        convert_to_8bit: bool: whenever to convert the into 8bit format</span>
+<span class="sd">        params_pattern_selection: Optional[re.Pattern]: patter to use to</span>
+<span class="sd">            find the parameters of the model which will</span>
+<span class="sd">        dtype: jax.numpy.dtype: Specify the data type of the tensors</span>
+<span class="sd">        rnn_based_or_rwkv: bool: rnn_based_or_rwkv is a conditioner</span>
+<span class="sd">            which decide whenever it finds a value in tree</span>
+<span class="sd">        verbose: bool: whenever to log sharding or converting process</span>
+<span class="sd">        remove_state_dict: bool : whether to remove state dict during</span>
+<span class="sd">            the transforming process</span>
+<span class="sd">    be converted to 8bit format.</span>
+<span class="sd">    that start with time_mix_ it will automatically reshape that for easydel use case</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of the weights and biases in a format that can be</span>
+<span class="sd">        used by flax (it&#39;s an UnFlattenDict)</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">embedding_layer_names</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">embedding_layer_names</span> <span class="ow">or</span> <span class="p">[])</span>
+    <span class="n">layer_norm_names</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">layer_norm_names</span> <span class="ow">or</span> <span class="p">[])</span>
+    <span class="n">_l</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="s2">&quot;.weight&quot;</span><span class="p">)</span>
+    <span class="n">_b</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="s2">&quot;.bias&quot;</span><span class="p">)</span>
+
+    <span class="k">if</span> <span class="n">convert_to_8bit</span><span class="p">:</span>
+        <span class="k">assert</span> <span class="n">params_pattern_selection</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">,</span> <span class="p">(</span>
+            <span class="s2">&quot;in case of converting parameters to 8bit you should pass &quot;</span>
+            <span class="s2">&quot;`params_pattern_selection` too, to tell the quantizer which parameters should be quantized.&quot;</span>
+        <span class="p">)</span>
+
+    <span class="k">with</span> <span class="n">jax</span><span class="o">.</span><span class="n">default_device</span><span class="p">(</span><span class="n">device</span><span class="p">):</span>
+        <span class="n">flax_dict</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="n">pbar</span> <span class="o">=</span> <span class="n">tqdm</span><span class="p">(</span><span class="n">total</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">state_dict</span><span class="p">),</span> <span class="n">disable</span><span class="o">=</span><span class="ow">not</span> <span class="n">verbose</span><span class="p">)</span>
+
+        <span class="n">pbar</span><span class="o">.</span><span class="n">set_description</span><span class="p">(</span><span class="s2">&quot;Converting Model&quot;</span><span class="p">)</span>
+
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">tensor</span> <span class="ow">in</span> <span class="nb">list</span><span class="p">(</span><span class="n">state_dict</span><span class="o">.</span><span class="n">items</span><span class="p">()):</span>
+            <span class="c1"># Determine if renaming is necessary</span>
+            <span class="n">new_key</span> <span class="o">=</span> <span class="n">key</span>
+            <span class="k">if</span> <span class="nb">any</span><span class="p">(</span><span class="n">layer_name</span> <span class="ow">in</span> <span class="n">key</span> <span class="k">for</span> <span class="n">layer_name</span> <span class="ow">in</span> <span class="n">embedding_layer_names</span><span class="p">):</span>
+                <span class="n">new_key</span> <span class="o">=</span> <span class="n">key</span><span class="p">[:</span><span class="o">-</span><span class="n">_l</span><span class="p">]</span> <span class="o">+</span> <span class="s2">&quot;.embedding&quot;</span>
+            <span class="k">elif</span> <span class="n">rnn_based_or_rwkv</span> <span class="ow">and</span> <span class="p">(</span><span class="s2">&quot;time_mix_&quot;</span> <span class="ow">in</span> <span class="n">key</span> <span class="ow">or</span> <span class="s2">&quot;time_&quot;</span> <span class="ow">in</span> <span class="n">key</span><span class="p">):</span>
+                <span class="n">tensor</span> <span class="o">=</span> <span class="n">tensor</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="nb">any</span><span class="p">(</span><span class="n">layer_norm</span> <span class="ow">in</span> <span class="n">key</span> <span class="k">for</span> <span class="n">layer_norm</span> <span class="ow">in</span> <span class="n">layer_norm_names</span><span class="p">):</span>
+                <span class="n">new_key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;.weight&quot;</span><span class="p">,</span> <span class="s2">&quot;.scale&quot;</span><span class="p">)</span>
+            <span class="k">elif</span> <span class="s2">&quot;weight&quot;</span> <span class="ow">in</span> <span class="n">key</span><span class="p">:</span>
+                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">tensor</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span> <span class="o">==</span> <span class="mi">2</span><span class="p">:</span>
+                    <span class="n">tensor</span> <span class="o">=</span> <span class="n">tensor</span><span class="o">.</span><span class="n">transpose</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+                <span class="n">new_key</span> <span class="o">=</span> <span class="n">key</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s2">&quot;.weight&quot;</span><span class="p">,</span> <span class="s2">&quot;.kernel&quot;</span><span class="p">)</span>
+
+            <span class="n">key_tuple</span> <span class="o">=</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">new_key</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="s2">&quot;.&quot;</span><span class="p">))</span>
+            <span class="c1"># Convert tensor to jax.numpy.array without detaching and moving to CPU</span>
+            <span class="n">array</span> <span class="o">=</span> <span class="n">jax</span><span class="o">.</span><span class="n">lax</span><span class="o">.</span><span class="n">convert_element_type</span><span class="p">(</span><span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">tensor</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">()),</span> <span class="n">dtype</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">remove_state_dict</span><span class="p">:</span>
+                <span class="k">del</span> <span class="n">tensor</span>
+                <span class="k">del</span> <span class="n">state_dict</span><span class="p">[</span><span class="n">key</span><span class="p">]</span>
+            <span class="c1"># Apply sharding functions if provided</span>
+            <span class="k">if</span> <span class="n">shard_fns</span> <span class="ow">and</span> <span class="n">key_tuple</span> <span class="ow">in</span> <span class="n">shard_fns</span><span class="p">:</span>                <span class="n">array</span> <span class="o">=</span> <span class="n">shard_fns</span><span class="p">[</span><span class="n">key_tuple</span><span class="p">](</span><span class="n">array</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">convert_to_8bit</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">params_pattern_selection</span><span class="o">.</span><span class="n">search</span><span class="p">(</span><span class="s2">&quot;/&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">key_tuple</span><span class="p">)):</span>
+                    <span class="n">array</span> <span class="o">=</span> <span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">LinearBitKernel</span><span class="p">(</span>
+                        <span class="o">*</span><span class="n">fjformer</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">linen</span><span class="o">.</span><span class="n">quantize</span><span class="p">(</span><span class="n">array</span><span class="p">,</span> <span class="n">int_dtype</span><span class="o">=</span><span class="n">jnp</span><span class="o">.</span><span class="n">int8</span><span class="p">)</span>  <span class="c1"># type: ignore</span>
+                    <span class="p">)</span>
+            <span class="n">flax_dict</span><span class="p">[</span><span class="n">key_tuple</span><span class="p">]</span> <span class="o">=</span> <span class="n">array</span>
+
+            <span class="c1"># Update progress bar less frequently to reduce overhead</span>
+            <span class="n">pbar</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">pbar</span><span class="o">.</span><span class="n">close</span><span class="p">()</span>
+        <span class="n">gc</span><span class="o">.</span><span class="n">collect</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">traverse_util</span><span class="o">.</span><span class="n">unflatten_dict</span><span class="p">(</span><span class="n">flax_dict</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.transform.easydel_transform.match_keywords" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">match_keywords</span><span class="p">(</span><span class="n">string</span><span class="p">,</span> <span class="n">ts</span><span class="p">,</span> <span class="n">ns</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The match_keywords function takes a string, and two lists of strings.
+The first list is the &quot;must-have&quot; keywords, and the second list is the &quot;not-allowed&quot; keywords.
+It returns True if all the must-have keywords are in string, but none of not allowed are in it.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>string</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Pass in the text that is being searched</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>ts</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the required keywords and ns is used to specify the
+non-required keywords</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>ns</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify a list of negative keywords</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>True if all the keywords in ts are present and none of the</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/transform/easydel_transform.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">match_keywords</span><span class="p">(</span><span class="n">string</span><span class="p">,</span> <span class="n">ts</span><span class="p">,</span> <span class="n">ns</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The match_keywords function takes a string, and two lists of strings.</span>
+<span class="sd">    The first list is the &amp;quot;must-have&amp;quot; keywords, and the second list is the &amp;quot;not-allowed&amp;quot; keywords.</span>
+<span class="sd">    It returns True if all the must-have keywords are in string, but none of not allowed are in it.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        string: Pass in the text that is being searched</span>
+<span class="sd">        ts: Specify the required keywords and ns is used to specify the</span>
+<span class="sd">            non-required keywords</span>
+<span class="sd">        ns: Specify a list of negative keywords</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        True if all the keywords in ts are present and none of the</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">for</span> <span class="n">t</span> <span class="ow">in</span> <span class="n">ts</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">t</span> <span class="ow">not</span> <span class="ow">in</span> <span class="n">string</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">False</span>
+    <span class="k">for</span> <span class="n">n</span> <span class="ow">in</span> <span class="n">ns</span><span class="p">:</span>
+        <span class="k">if</span> <span class="n">n</span> <span class="ow">in</span> <span class="n">string</span><span class="p">:</span>
+            <span class="k">return</span> <span class="kc">False</span>
+    <span class="k">return</span> <span class="kc">True</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.transform.easydel_transform.read_ckpt" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">read_ckpt</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">shard_fns</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_extra_past_fix</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The read_ckpt function reads a checkpoint file and returns the tensors in it.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>path</code></td>
+            <td>
+                  <code>[str, <span title="os.PathLike">PathLike</span>]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>[str, os.PathLike]: Specify the path to the checkpoint
+file</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>shard_fns</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Shard the tensors</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>add_extra_past_fix</code></td>
+            <td>
+                  <code>list</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>list: Add an extra past to the key</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A dictionary of tensors</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/transform/easydel_transform.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">read_ckpt</span><span class="p">(</span><span class="n">path</span><span class="p">:</span> <span class="p">[</span><span class="nb">str</span><span class="p">,</span> <span class="n">os</span><span class="o">.</span><span class="n">PathLike</span><span class="p">],</span> <span class="n">shard_fns</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">add_extra_past_fix</span><span class="p">:</span> <span class="nb">list</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The read_ckpt function reads a checkpoint file and returns the tensors in it.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        path: [str, os.PathLike]: Specify the path to the checkpoint</span>
+<span class="sd">            file</span>
+<span class="sd">        shard_fns: Shard the tensors</span>
+<span class="sd">        add_extra_past_fix: list: Add an extra past to the key</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A dictionary of tensors</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">tensors</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="s2">&quot;rb&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">stream</span><span class="p">:</span>
+        <span class="n">unpacker</span> <span class="o">=</span> <span class="n">msgpack</span><span class="o">.</span><span class="n">Unpacker</span><span class="p">(</span><span class="n">stream</span><span class="p">,</span> <span class="n">read_size</span><span class="o">=</span><span class="mi">83886080</span><span class="p">,</span> <span class="n">max_buffer_size</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">unpacker</span><span class="p">:</span>
+            <span class="k">if</span> <span class="n">add_extra_past_fix</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">key</span> <span class="o">=</span> <span class="n">add_extra_past_fix</span> <span class="o">+</span> <span class="n">key</span>
+            <span class="n">key</span> <span class="o">=</span> <span class="nb">tuple</span><span class="p">(</span><span class="n">key</span><span class="p">)</span>
+            <span class="n">tensor</span> <span class="o">=</span> <span class="n">from_bytes</span><span class="p">(</span><span class="kc">None</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span>
+            <span class="k">if</span> <span class="n">shard_fns</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">tensor</span> <span class="o">=</span> <span class="n">shard_fns</span><span class="p">[</span><span class="n">key</span><span class="p">](</span><span class="n">tensor</span><span class="p">)</span>
+            <span class="n">tensors</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">tensor</span>
+    <span class="k">return</span> <span class="n">tensors</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.transform.easydel_transform.save_ckpt" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">save_ckpt</span><span class="p">(</span><span class="n">train_state</span><span class="p">,</span> <span class="n">path</span><span class="p">,</span> <span class="n">gather_fns</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">float_dtype</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The save_ckpt function saves the state of a training run to disk.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>train_state</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Store the current state of the training process</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>path</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the location of the checkpoint file</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>gather_fns</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify a function that will be used to convert the
+tensor to bytes</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>float_dtype</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Convert the tensor to a specific dtype</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Nothing</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/transform/easydel_transform.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span>
+<span class="normal">193</span>
+<span class="normal">194</span>
+<span class="normal">195</span>
+<span class="normal">196</span>
+<span class="normal">197</span>
+<span class="normal">198</span>
+<span class="normal">199</span>
+<span class="normal">200</span>
+<span class="normal">201</span>
+<span class="normal">202</span>
+<span class="normal">203</span>
+<span class="normal">204</span>
+<span class="normal">205</span>
+<span class="normal">206</span>
+<span class="normal">207</span>
+<span class="normal">208</span>
+<span class="normal">209</span>
+<span class="normal">210</span>
+<span class="normal">211</span>
+<span class="normal">212</span>
+<span class="normal">213</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">save_ckpt</span><span class="p">(</span><span class="n">train_state</span><span class="p">,</span> <span class="n">path</span><span class="p">,</span> <span class="n">gather_fns</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">float_dtype</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The save_ckpt function saves the state of a training run to disk.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        train_state: Store the current state of the training process</span>
+<span class="sd">        path: Specify the location of the checkpoint file</span>
+<span class="sd">        gather_fns: Specify a function that will be used to convert the</span>
+<span class="sd">            tensor to bytes</span>
+<span class="sd">        float_dtype: Convert the tensor to a specific dtype</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        Nothing</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="n">train_state</span> <span class="o">=</span> <span class="n">to_state_dict</span><span class="p">(</span><span class="n">train_state</span><span class="p">)</span>
+    <span class="n">packer</span> <span class="o">=</span> <span class="n">msgpack</span><span class="o">.</span><span class="n">Packer</span><span class="p">()</span>
+    <span class="n">flatten_train_state</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">train_state</span><span class="p">)</span>
+    <span class="k">if</span> <span class="n">gather_fns</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">gather_fns</span> <span class="o">=</span> <span class="n">flatten_dict</span><span class="p">(</span><span class="n">to_state_dict</span><span class="p">(</span><span class="n">gather_fns</span><span class="p">))</span>
+
+    <span class="k">with</span> <span class="nb">open</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="s2">&quot;wb&quot;</span><span class="p">)</span> <span class="k">as</span> <span class="n">stream</span><span class="p">:</span>
+        <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">flatten_train_state</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+            <span class="k">if</span> <span class="n">gather_fns</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+                <span class="n">value</span> <span class="o">=</span> <span class="n">gather_fns</span><span class="p">[</span><span class="n">key</span><span class="p">](</span><span class="n">value</span><span class="p">)</span>
+            <span class="n">value</span> <span class="o">=</span> <span class="n">float_tensor_to_dtype</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="n">float_dtype</span><span class="p">)</span>
+            <span class="n">stream</span><span class="o">.</span><span class="n">write</span><span class="p">(</span><span class="n">packer</span><span class="o">.</span><span class="n">pack</span><span class="p">((</span><span class="n">key</span><span class="p">,</span> <span class="n">to_bytes</span><span class="p">(</span><span class="n">value</span><span class="p">))))</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-transform-falcon/index.html b/generated-transform-falcon/index.html
new file mode 100644
index 000000000..cd1879d06
--- /dev/null
+++ b/generated-transform-falcon/index.html
@@ -0,0 +1,6108 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-transform-easydel_transform/">
+      
+      
+        <link rel="next" href="../generated-transform-llama/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Falcon - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#transformfalcon" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Falcon
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.falcon" class="md-nav__link">
+    <span class="md-ellipsis">
+      falcon
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.falcon.falcon_from_pretrained" class="md-nav__link">
+    <span class="md-ellipsis">
+      falcon_from_pretrained
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.falcon" class="md-nav__link">
+    <span class="md-ellipsis">
+      falcon
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.falcon.falcon_from_pretrained" class="md-nav__link">
+    <span class="md-ellipsis">
+      falcon_from_pretrained
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="transformfalcon">transform.falcon</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.transform.falcon"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.transform.falcon.falcon_from_pretrained" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">falcon_from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">,</span> <span class="n">device</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>return: Weight or Params for easydel Model , Config</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/transform/falcon.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">falcon_from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">,</span> <span class="n">device</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;return: Weight or Params for easydel Model , Config&quot;&quot;&quot;</span>
+    <span class="c1"># Requested By vwxyzjn at https://github.com/erfanzar/EasyDeL/issues/15#issue-1881044170</span>
+    <span class="n">config</span> <span class="o">=</span> <span class="n">FalconConfig</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">)</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">FalconForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">)</span>
+    <span class="n">easydel_wights</span> <span class="o">=</span> <span class="n">falcon_convert_pt_to_flax_7b</span><span class="p">(</span>
+        <span class="n">state_dict</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="n">state_dict</span><span class="p">(),</span>
+        <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+        <span class="n">device</span><span class="o">=</span><span class="n">device</span>
+    <span class="p">)</span>
+    <span class="k">del</span> <span class="n">model</span>
+    <span class="n">gc</span><span class="o">.</span><span class="n">collect</span><span class="p">()</span>
+    <span class="n">config</span><span class="o">.</span><span class="n">add_jax_args</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">easydel_wights</span><span class="p">,</span> <span class="n">config</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-transform-llama/index.html b/generated-transform-llama/index.html
new file mode 100644
index 000000000..138576a3b
--- /dev/null
+++ b/generated-transform-llama/index.html
@@ -0,0 +1,6164 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-transform-falcon/">
+      
+      
+        <link rel="next" href="../generated-transform-mistral/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Llama - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#transformllama" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Llama
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.llama" class="md-nav__link">
+    <span class="md-ellipsis">
+      llama
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.llama.llama_easydel_to_hf" class="md-nav__link">
+    <span class="md-ellipsis">
+      llama_easydel_to_hf
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.llama.llama_from_pretrained" class="md-nav__link">
+    <span class="md-ellipsis">
+      llama_from_pretrained
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.llama" class="md-nav__link">
+    <span class="md-ellipsis">
+      llama
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.llama.llama_easydel_to_hf" class="md-nav__link">
+    <span class="md-ellipsis">
+      llama_easydel_to_hf
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.llama.llama_from_pretrained" class="md-nav__link">
+    <span class="md-ellipsis">
+      llama_from_pretrained
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="transformllama">transform.llama</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.transform.llama"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.transform.llama.llama_easydel_to_hf" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">llama_easydel_to_hf</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">config</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Takes path to easydel saved ckpt and return the model in pytorch (Transformers Huggingface)</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/transform/llama.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">llama_easydel_to_hf</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">LlamaConfig</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Takes path to easydel saved ckpt and return the model in pytorch (Transformers Huggingface)&quot;&quot;&quot;</span>
+    <span class="n">torch_params</span> <span class="o">=</span> <span class="n">load_and_convert_checkpoint_to_torch</span><span class="p">(</span><span class="n">path</span><span class="p">)</span>
+    <span class="n">edited_params</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">torch_params</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="n">edited_params</span><span class="p">[</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.kernel&#39;</span><span class="p">,</span> <span class="s1">&#39;.weight&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.embedding&#39;</span><span class="p">,</span> <span class="s1">&#39;.weight&#39;</span><span class="p">)]</span> <span class="o">=</span> <span class="n">v</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">LlamaForCausalLM</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">)</span>
+    <span class="n">model</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span><span class="n">edited_params</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">model</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.transform.llama.llama_from_pretrained" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">llama_from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">,</span> <span class="n">device</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>return: Weight or Params for easydel Model , Config</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/transform/llama.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">llama_from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">,</span> <span class="n">device</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;return: Weight or Params for easydel Model , Config&quot;&quot;&quot;</span>
+    <span class="n">config</span> <span class="o">=</span> <span class="n">LlamaConfig</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">)</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">LlamaForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">)</span>
+    <span class="n">easydel_wights</span> <span class="o">=</span> <span class="n">llama_convert_hf_to_flax</span><span class="p">(</span>
+        <span class="n">state_dict</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="n">state_dict</span><span class="p">(),</span>
+        <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+        <span class="n">device</span><span class="o">=</span><span class="n">device</span>
+    <span class="p">)</span>
+    <span class="n">config</span><span class="o">.</span><span class="n">add_jax_args</span><span class="p">()</span>
+
+    <span class="k">del</span> <span class="n">model</span>
+    <span class="n">gc</span><span class="o">.</span><span class="n">collect</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">easydel_wights</span><span class="p">,</span> <span class="n">config</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-transform-mistral/index.html b/generated-transform-mistral/index.html
new file mode 100644
index 000000000..3cd011d14
--- /dev/null
+++ b/generated-transform-mistral/index.html
@@ -0,0 +1,6164 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-transform-llama/">
+      
+      
+        <link rel="next" href="../generated-transform-mpt/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Mistral - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#transformmistral" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Mistral
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.mistral" class="md-nav__link">
+    <span class="md-ellipsis">
+      mistral
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.mistral.mistral_easydel_to_hf" class="md-nav__link">
+    <span class="md-ellipsis">
+      mistral_easydel_to_hf
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.mistral.mistral_from_pretrained" class="md-nav__link">
+    <span class="md-ellipsis">
+      mistral_from_pretrained
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.mistral" class="md-nav__link">
+    <span class="md-ellipsis">
+      mistral
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.mistral.mistral_easydel_to_hf" class="md-nav__link">
+    <span class="md-ellipsis">
+      mistral_easydel_to_hf
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.mistral.mistral_from_pretrained" class="md-nav__link">
+    <span class="md-ellipsis">
+      mistral_from_pretrained
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="transformmistral">transform.mistral</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.transform.mistral"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.transform.mistral.mistral_easydel_to_hf" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">mistral_easydel_to_hf</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">config</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Takes path to easydel saved ckpt and return the model in pytorch (Transformers Huggingface)</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/transform/mistral.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">250</span>
+<span class="normal">251</span>
+<span class="normal">252</span>
+<span class="normal">253</span>
+<span class="normal">254</span>
+<span class="normal">255</span>
+<span class="normal">256</span>
+<span class="normal">257</span>
+<span class="normal">258</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">mistral_easydel_to_hf</span><span class="p">(</span><span class="n">path</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">MistralConfig</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Takes path to easydel saved ckpt and return the model in pytorch (Transformers Huggingface)&quot;&quot;&quot;</span>
+    <span class="n">torch_params</span> <span class="o">=</span> <span class="n">load_and_convert_checkpoint_to_torch</span><span class="p">(</span><span class="n">path</span><span class="p">)</span>
+    <span class="n">edited_params</span> <span class="o">=</span> <span class="p">{}</span>
+    <span class="k">for</span> <span class="n">k</span><span class="p">,</span> <span class="n">v</span> <span class="ow">in</span> <span class="n">torch_params</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+        <span class="n">edited_params</span><span class="p">[</span><span class="n">k</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.kernel&#39;</span><span class="p">,</span> <span class="s1">&#39;.weight&#39;</span><span class="p">)</span><span class="o">.</span><span class="n">replace</span><span class="p">(</span><span class="s1">&#39;.embedding&#39;</span><span class="p">,</span> <span class="s1">&#39;.weight&#39;</span><span class="p">)]</span> <span class="o">=</span> <span class="n">v</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">MistralForCausalLM</span><span class="p">(</span><span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">)</span>
+    <span class="n">model</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span><span class="n">edited_params</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">model</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.transform.mistral.mistral_from_pretrained" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">mistral_from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">,</span> <span class="n">device</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>return: Weight or Params for easydel Model , Config</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/transform/mistral.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">261</span>
+<span class="normal">262</span>
+<span class="normal">263</span>
+<span class="normal">264</span>
+<span class="normal">265</span>
+<span class="normal">266</span>
+<span class="normal">267</span>
+<span class="normal">268</span>
+<span class="normal">269</span>
+<span class="normal">270</span>
+<span class="normal">271</span>
+<span class="normal">272</span>
+<span class="normal">273</span>
+<span class="normal">274</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">mistral_from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">,</span> <span class="n">device</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;return: Weight or Params for easydel Model , Config&quot;&quot;&quot;</span>
+    <span class="n">config</span> <span class="o">=</span> <span class="n">MistralConfig</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">)</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">MistralForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">)</span>
+    <span class="n">easydel_wights</span> <span class="o">=</span> <span class="n">mistral_convert_hf_to_flax</span><span class="p">(</span>
+        <span class="n">state_dict</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="n">state_dict</span><span class="p">(),</span>
+        <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+        <span class="n">device</span><span class="o">=</span><span class="n">device</span>
+    <span class="p">)</span>
+    <span class="n">config</span><span class="o">.</span><span class="n">add_jax_args</span><span class="p">()</span>
+
+    <span class="k">del</span> <span class="n">model</span>
+    <span class="n">gc</span><span class="o">.</span><span class="n">collect</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">easydel_wights</span><span class="p">,</span> <span class="n">config</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-transform-mpt/index.html b/generated-transform-mpt/index.html
new file mode 100644
index 000000000..68d01fa3a
--- /dev/null
+++ b/generated-transform-mpt/index.html
@@ -0,0 +1,6110 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-transform-mistral/">
+      
+      
+        <link rel="next" href="../generated-transform-utils/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Mpt - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#transformmpt" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Mpt
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.mpt" class="md-nav__link">
+    <span class="md-ellipsis">
+      mpt
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.mpt.mpt_from_pretrained" class="md-nav__link">
+    <span class="md-ellipsis">
+      mpt_from_pretrained
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.mpt" class="md-nav__link">
+    <span class="md-ellipsis">
+      mpt
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.mpt.mpt_from_pretrained" class="md-nav__link">
+    <span class="md-ellipsis">
+      mpt_from_pretrained
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="transformmpt">transform.mpt</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.transform.mpt"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.transform.mpt.mpt_from_pretrained" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">mpt_from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">,</span> <span class="n">device</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>return: Weight or Params for easydel Model , Config</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/transform/mpt.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">mpt_from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">,</span> <span class="n">device</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;return: Weight or Params for easydel Model , Config&quot;&quot;&quot;</span>
+    <span class="n">config</span> <span class="o">=</span> <span class="n">MptConfig</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">)</span>
+    <span class="n">model</span> <span class="o">=</span> <span class="n">AutoModelForCausalLM</span><span class="o">.</span><span class="n">from_pretrained</span><span class="p">(</span><span class="n">model_id</span><span class="p">,</span> <span class="n">trust_remote_code</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">)</span>
+
+    <span class="n">easydel_wights</span> <span class="o">=</span> <span class="n">mpt_convert_pt_to_flax_7b</span><span class="p">(</span>
+        <span class="n">state_dict</span><span class="o">=</span><span class="n">model</span><span class="o">.</span><span class="n">state_dict</span><span class="p">(),</span>
+        <span class="n">n_layers</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">num_hidden_layers</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s1">&#39;num_hidden_layers&#39;</span><span class="p">)</span> <span class="k">else</span> <span class="n">config</span><span class="o">.</span><span class="n">n_layers</span><span class="p">,</span>
+        <span class="n">device</span><span class="o">=</span><span class="n">device</span>
+    <span class="p">)</span>
+    <span class="n">config</span><span class="o">.</span><span class="n">add_jax_args</span><span class="p">()</span>
+
+    <span class="k">del</span> <span class="n">model</span>
+    <span class="n">gc</span><span class="o">.</span><span class="n">collect</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">easydel_wights</span><span class="p">,</span> <span class="n">config</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-transform-utils/index.html b/generated-transform-utils/index.html
new file mode 100644
index 000000000..e24d2967c
--- /dev/null
+++ b/generated-transform-utils/index.html
@@ -0,0 +1,6042 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-transform-mpt/">
+      
+      
+        <link rel="next" href="../generated-utils-checker/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Utils - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#transformutils" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Utils
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.transform.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="transformutils">transform.utils</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.transform.utils"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-utils-checker/index.html b/generated-utils-checker/index.html
new file mode 100644
index 000000000..68b12a785
--- /dev/null
+++ b/generated-utils-checker/index.html
@@ -0,0 +1,6042 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-transform-utils/">
+      
+      
+        <link rel="next" href="../generated-utils-prompters/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Checker - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#utilschecker" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Checker
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.checker" class="md-nav__link">
+    <span class="md-ellipsis">
+      checker
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.checker" class="md-nav__link">
+    <span class="md-ellipsis">
+      checker
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="utilschecker">utils.checker</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.utils.checker"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-utils-prompters/index.html b/generated-utils-prompters/index.html
new file mode 100644
index 000000000..b1c1cdfde
--- /dev/null
+++ b/generated-utils-prompters/index.html
@@ -0,0 +1,6715 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-utils-checker/">
+      
+      
+        <link rel="next" href="../generated-utils-tensor_utils/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Prompters - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#utilsprompters" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Prompters
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.prompters" class="md-nav__link">
+    <span class="md-ellipsis">
+      prompters
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.prompters.antitoxin_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      antitoxin_prompter
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.prompters.antitoxin_prompter_chat_format" class="md-nav__link">
+    <span class="md-ellipsis">
+      antitoxin_prompter_chat_format
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.prompters.llama2_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      llama2_prompter
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.prompters.llama2_prompter_chat_format" class="md-nav__link">
+    <span class="md-ellipsis">
+      llama2_prompter_chat_format
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.prompters" class="md-nav__link">
+    <span class="md-ellipsis">
+      prompters
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.prompters.antitoxin_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      antitoxin_prompter
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.prompters.antitoxin_prompter_chat_format" class="md-nav__link">
+    <span class="md-ellipsis">
+      antitoxin_prompter_chat_format
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.prompters.llama2_prompter" class="md-nav__link">
+    <span class="md-ellipsis">
+      llama2_prompter
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.prompters.llama2_prompter_chat_format" class="md-nav__link">
+    <span class="md-ellipsis">
+      llama2_prompter_chat_format
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="utilsprompters">utils.prompters</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.utils.prompters"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.utils.prompters.antitoxin_prompter" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">antitoxin_prompter</span><span class="p">(</span><span class="n">history</span><span class="p">,</span> <span class="n">prompt</span><span class="p">,</span> <span class="n">system</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The antitoxin_prompter function takes in a history of user-assistant interactions,
+a prompt from the user, and optionally a system response. It returns an input string
+that can be fed into the antitoxin model to generate an assistant response.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>history</code></td>
+            <td>
+                  <code><span title="typing.List">List</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>typing.List[str]: Pass in the history of the
+conversation</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>prompt</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Pass the user's input to the assistant</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>system</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>typing.Optional[str]: Pass the system's response to the
+prompt</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Store the history of user and assistant interaction</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A string that contains the user's prompt,</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/prompters.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 4</span>
+<span class="normal"> 5</span>
+<span class="normal"> 6</span>
+<span class="normal"> 7</span>
+<span class="normal"> 8</span>
+<span class="normal"> 9</span>
+<span class="normal">10</span>
+<span class="normal">11</span>
+<span class="normal">12</span>
+<span class="normal">13</span>
+<span class="normal">14</span>
+<span class="normal">15</span>
+<span class="normal">16</span>
+<span class="normal">17</span>
+<span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">antitoxin_prompter</span><span class="p">(</span>
+        <span class="n">history</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
+        <span class="n">prompt</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+        <span class="n">system</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The antitoxin_prompter function takes in a history of user-assistant interactions,</span>
+<span class="sd">    a prompt from the user, and optionally a system response. It returns an input string</span>
+<span class="sd">    that can be fed into the antitoxin model to generate an assistant response.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        history: typing.List[str]: Pass in the history of the</span>
+<span class="sd">            conversation</span>
+<span class="sd">        prompt: str: Pass the user&#39;s input to the assistant</span>
+<span class="sd">        system: typing.Optional[str]: Pass the system&#39;s response to the</span>
+<span class="sd">            prompt</span>
+<span class="sd">    :param : Store the history of user and assistant interaction</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A string that contains the user&#39;s prompt,</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">sys_str</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&lt;|im_start|&gt;system</span><span class="se">\n</span><span class="si">{</span><span class="n">system</span><span class="si">}</span><span class="s2">&lt;|im_end|&gt;</span><span class="se">\n</span><span class="s2">&quot;</span> <span class="k">if</span> <span class="n">system</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="s2">&quot;&quot;</span>
+    <span class="n">histories</span> <span class="o">=</span> <span class="s2">&quot;&quot;</span>
+    <span class="k">for</span> <span class="n">user</span><span class="p">,</span> <span class="n">assistance</span> <span class="ow">in</span> <span class="n">history</span><span class="p">:</span>
+        <span class="n">histories</span> <span class="o">+=</span> <span class="sa">f</span><span class="s2">&quot;&lt;|im_start|&gt;user</span><span class="se">\n</span><span class="si">{</span><span class="n">user</span><span class="si">}</span><span class="s2">&lt;|im_end|&gt;</span><span class="se">\n</span><span class="s2">&lt;|im_start|&gt;assistant</span><span class="se">\n</span><span class="si">{</span><span class="n">assistance</span><span class="si">}</span><span class="s2">&lt;|im_end|&gt;</span><span class="se">\n</span><span class="s2">&quot;</span>
+    <span class="n">text</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&lt;|im_start|&gt;user</span><span class="se">\n</span><span class="si">{</span><span class="n">prompt</span><span class="si">}</span><span class="s2">&lt;|im_end|&gt;</span><span class="se">\n</span><span class="s2">&lt;|im_start|&gt;assistant</span><span class="se">\n</span><span class="s2">&quot;</span>
+    <span class="k">return</span> <span class="n">sys_str</span> <span class="o">+</span> <span class="n">histories</span> <span class="o">+</span> <span class="n">text</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.utils.prompters.antitoxin_prompter_chat_format" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">antitoxin_prompter_chat_format</span><span class="p">(</span><span class="n">history</span><span class="p">,</span> <span class="n">system</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The antitoxin_prompter_chat_format function takes a list of strings and returns a string.
+The input is the history of the chat, which is a list of tuples where each tuple contains two strings:
+the user's message and the assistant's response. The output is formatted as follows:</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>history</code></td>
+            <td>
+                  <code><span title="typing.List">List</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>typing.List[str]: Pass in the history of user and
+assistant messages</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>system</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>typing.Optional[str]: Pass in the system message</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Store the history of the conversation</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A string that contains the system message and</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/prompters.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">antitoxin_prompter_chat_format</span><span class="p">(</span>
+        <span class="n">history</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
+        <span class="n">system</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The antitoxin_prompter_chat_format function takes a list of strings and returns a string.</span>
+<span class="sd">    The input is the history of the chat, which is a list of tuples where each tuple contains two strings:</span>
+<span class="sd">    the user&#39;s message and the assistant&#39;s response. The output is formatted as follows:</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        history: typing.List[str]: Pass in the history of user and</span>
+<span class="sd">            assistant messages</span>
+<span class="sd">        system: typing.Optional[str]: Pass in the system message</span>
+<span class="sd">    :param : Store the history of the conversation</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A string that contains the system message and</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">sys_str</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;&lt;|im_start|&gt;system</span><span class="se">\n</span><span class="si">{</span><span class="n">system</span><span class="si">}</span><span class="s2">&lt;|im_end|&gt;</span><span class="se">\n</span><span class="s2">&quot;</span> <span class="k">if</span> <span class="n">system</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="s2">&quot;&quot;</span>
+    <span class="n">histories</span> <span class="o">=</span> <span class="s2">&quot;&quot;</span>
+    <span class="k">for</span> <span class="n">user</span><span class="p">,</span> <span class="n">assistance</span> <span class="ow">in</span> <span class="n">history</span><span class="p">:</span>
+        <span class="n">histories</span> <span class="o">+=</span> <span class="sa">f</span><span class="s2">&quot;&lt;|im_start|&gt;user</span><span class="se">\n</span><span class="si">{</span><span class="n">user</span><span class="si">}</span><span class="s2">&lt;|im_end|&gt;</span><span class="se">\n</span><span class="s2">&lt;|im_start|&gt;assistant</span><span class="se">\n</span><span class="si">{</span><span class="n">assistance</span><span class="si">}</span><span class="s2">&lt;|im_end|&gt;</span><span class="se">\n</span><span class="s2">&quot;</span>
+    <span class="k">return</span> <span class="n">sys_str</span> <span class="o">+</span> <span class="n">histories</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.utils.prompters.llama2_prompter" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">llama2_prompter</span><span class="p">(</span><span class="n">history</span><span class="p">,</span> <span class="n">prompt</span><span class="p">,</span> <span class="n">system</span><span class="o">=</span><span class="kc">None</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The llama2_prompter function takes a history of user-system interactions,
+a prompt for the next system response, and optionally a system response.
+It returns an LLAMA2 formatted string that can be used as input to the LLAMA2 model.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>history</code></td>
+            <td>
+                  <code><span title="typing.List">List</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>typing.List[str]: Store the history of user input and
+system response</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>prompt</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Specify the prompt to be displayed</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>system</code></td>
+            <td>
+                  <code><span title="typing.Optional">Optional</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>typing.Optional[str]: Indicate that the system is
+optional</p>
+              </div>
+            </td>
+            <td>
+                  <code>None</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Specify the system's response</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A string that is a concatenation of the</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/prompters.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span>
+<span class="normal">80</span>
+<span class="normal">81</span>
+<span class="normal">82</span>
+<span class="normal">83</span>
+<span class="normal">84</span>
+<span class="normal">85</span>
+<span class="normal">86</span>
+<span class="normal">87</span>
+<span class="normal">88</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">llama2_prompter</span><span class="p">(</span>
+        <span class="n">history</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
+        <span class="n">prompt</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+        <span class="n">system</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Optional</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The llama2_prompter function takes a history of user-system interactions,</span>
+<span class="sd">    a prompt for the next system response, and optionally a system response.</span>
+<span class="sd">    It returns an LLAMA2 formatted string that can be used as input to the LLAMA2 model.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        history: typing.List[str]: Store the history of user input and</span>
+<span class="sd">            system response</span>
+<span class="sd">        prompt: str: Specify the prompt to be displayed</span>
+<span class="sd">        system: typing.Optional[str]: Indicate that the system is</span>
+<span class="sd">            optional</span>
+<span class="sd">    :param : Specify the system&#39;s response</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A string that is a concatenation of the</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">do_strip</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="k">if</span> <span class="n">system</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">texts</span> <span class="o">=</span> <span class="p">[</span><span class="sa">f</span><span class="s1">&#39;&lt;s&gt;[INST] &lt;&lt;SYS&gt;&gt;</span><span class="se">\n</span><span class="si">{</span><span class="n">system</span><span class="si">}</span><span class="se">\n</span><span class="s1">&lt;&lt;/SYS&gt;&gt;</span><span class="se">\n\n</span><span class="s1">&#39;</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">texts</span> <span class="o">=</span> <span class="p">[</span><span class="sa">f</span><span class="s1">&#39;&lt;s&gt;[INST] &#39;</span><span class="p">]</span>
+    <span class="k">for</span> <span class="n">user_input</span><span class="p">,</span> <span class="n">response</span> <span class="ow">in</span> <span class="n">history</span><span class="p">:</span>
+        <span class="n">user_input</span> <span class="o">=</span> <span class="n">user_input</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span> <span class="k">if</span> <span class="n">do_strip</span> <span class="k">else</span> <span class="n">user_input</span>
+        <span class="n">do_strip</span> <span class="o">=</span> <span class="kc">True</span>
+        <span class="n">texts</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">user_input</span><span class="si">}</span><span class="s1"> [/INST] </span><span class="si">{</span><span class="n">response</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span><span class="si">}</span><span class="s1"> &lt;/s&gt;&lt;s&gt;[INST] &#39;</span><span class="p">)</span>
+    <span class="n">prompt</span> <span class="o">=</span> <span class="n">prompt</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span> <span class="k">if</span> <span class="n">do_strip</span> <span class="k">else</span> <span class="n">prompt</span>
+    <span class="n">texts</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">prompt</span><span class="si">}</span><span class="s1"> [/INST]&#39;</span><span class="p">)</span>
+    <span class="k">return</span> <span class="s2">&quot;&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">texts</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.utils.prompters.llama2_prompter_chat_format" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">llama2_prompter_chat_format</span><span class="p">(</span><span class="n">system</span><span class="p">,</span> <span class="n">messages</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The llama2_prompter_chat_format function takes a system message and a list of messages,
+and returns the formatted string that can be used to create an LLAMA2 chat file.
+The system message is optional, and if it is not provided then the function will return only the user messages.
+The user messages are expected to be in pairs: one for each speaker (system or human).  The first element of each
+ pair should be the name of that speaker.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>system</code></td>
+            <td>
+                  <code>str</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>str: Store the system message</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>messages</code></td>
+            <td>
+                  <code><span title="typing.List">List</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>typing.List[str]: Pass in a list of strings</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+      <p>:param : Add the system message to the beginning of the chat</p>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A string that is the</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/prompters.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal"> 91</span>
+<span class="normal"> 92</span>
+<span class="normal"> 93</span>
+<span class="normal"> 94</span>
+<span class="normal"> 95</span>
+<span class="normal"> 96</span>
+<span class="normal"> 97</span>
+<span class="normal"> 98</span>
+<span class="normal"> 99</span>
+<span class="normal">100</span>
+<span class="normal">101</span>
+<span class="normal">102</span>
+<span class="normal">103</span>
+<span class="normal">104</span>
+<span class="normal">105</span>
+<span class="normal">106</span>
+<span class="normal">107</span>
+<span class="normal">108</span>
+<span class="normal">109</span>
+<span class="normal">110</span>
+<span class="normal">111</span>
+<span class="normal">112</span>
+<span class="normal">113</span>
+<span class="normal">114</span>
+<span class="normal">115</span>
+<span class="normal">116</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">llama2_prompter_chat_format</span><span class="p">(</span>
+        <span class="n">system</span><span class="p">:</span> <span class="nb">str</span><span class="p">,</span>
+        <span class="n">messages</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">List</span><span class="p">[</span><span class="nb">str</span><span class="p">],</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The llama2_prompter_chat_format function takes a system message and a list of messages,</span>
+<span class="sd">    and returns the formatted string that can be used to create an LLAMA2 chat file.</span>
+<span class="sd">    The system message is optional, and if it is not provided then the function will return only the user messages.</span>
+<span class="sd">    The user messages are expected to be in pairs: one for each speaker (system or human).  The first element of each</span>
+<span class="sd">     pair should be the name of that speaker.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        system: str: Store the system message</span>
+<span class="sd">        messages: typing.List[str]: Pass in a list of strings</span>
+<span class="sd">    :param : Add the system message to the beginning of the chat</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A string that is the</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">if</span> <span class="n">system</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="p">[</span><span class="sa">f</span><span class="s1">&#39;&lt;s&gt;[INST] &lt;&lt;SYS&gt;&gt;</span><span class="se">\n</span><span class="si">{</span><span class="n">system</span><span class="si">}</span><span class="se">\n</span><span class="s1">&lt;&lt;/SYS&gt;&gt;</span><span class="se">\n\n</span><span class="s1">&#39;</span><span class="p">]</span>
+    <span class="k">else</span><span class="p">:</span>
+        <span class="n">string</span> <span class="o">=</span> <span class="p">[</span><span class="sa">f</span><span class="s1">&#39;&lt;s&gt;[INST] &#39;</span><span class="p">]</span>
+    <span class="k">for</span> <span class="n">index</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">messages</span><span class="p">),</span> <span class="mi">2</span><span class="p">):</span>
+        <span class="n">string</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s1">&#39;</span><span class="si">{</span><span class="n">messages</span><span class="p">[</span><span class="n">index</span><span class="p">]</span><span class="si">}</span><span class="s1"> [/INST] </span><span class="si">{</span><span class="n">messages</span><span class="p">[</span><span class="n">index</span><span class="w"> </span><span class="o">+</span><span class="w"> </span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span><span class="si">}</span><span class="s1"> &lt;/s&gt;&lt;s&gt;[INST] &#39;</span><span class="p">)</span>
+    <span class="k">return</span> <span class="s2">&quot;&quot;</span><span class="o">.</span><span class="n">join</span><span class="p">(</span><span class="n">string</span><span class="p">)</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-utils-tensor_utils/index.html b/generated-utils-tensor_utils/index.html
new file mode 100644
index 000000000..3233fb828
--- /dev/null
+++ b/generated-utils-tensor_utils/index.html
@@ -0,0 +1,6174 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-utils-prompters/">
+      
+      
+        <link rel="next" href="../generated-utils-utils/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Tensor Utils - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#utilstensor_utils" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Tensor Utils
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.tensor_utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      tensor_utils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.tensor_utils.np2jax" class="md-nav__link">
+    <span class="md-ellipsis">
+      np2jax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.tensor_utils.pt2jax" class="md-nav__link">
+    <span class="md-ellipsis">
+      pt2jax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.tensor_utils.pt2np" class="md-nav__link">
+    <span class="md-ellipsis">
+      pt2np
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.tensor_utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      tensor_utils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.tensor_utils.np2jax" class="md-nav__link">
+    <span class="md-ellipsis">
+      np2jax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.tensor_utils.pt2jax" class="md-nav__link">
+    <span class="md-ellipsis">
+      pt2jax
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.tensor_utils.pt2np" class="md-nav__link">
+    <span class="md-ellipsis">
+      pt2np
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="utilstensor_utils">utils.tensor_utils</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.utils.tensor_utils"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.utils.tensor_utils.np2jax" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">np2jax</span><span class="p">(</span><span class="n">array</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Convert Numpy Array to JAX Array</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/tensor_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">12</span>
+<span class="normal">13</span>
+<span class="normal">14</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">np2jax</span><span class="p">(</span><span class="n">array</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Convert Numpy Array to JAX Array&quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="n">jnp</span><span class="o">.</span><span class="n">asarray</span><span class="p">(</span><span class="n">array</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.utils.tensor_utils.pt2jax" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">pt2jax</span><span class="p">(</span><span class="n">array</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Convert Pytorch Array to JAX Array</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/tensor_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">17</span>
+<span class="normal">18</span>
+<span class="normal">19</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">pt2jax</span><span class="p">(</span><span class="n">array</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">chex</span><span class="o">.</span><span class="n">Array</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Convert Pytorch Array to JAX Array&quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="n">np2jax</span><span class="p">(</span><span class="n">pt2np</span><span class="p">(</span><span class="n">array</span><span class="p">))</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.utils.tensor_utils.pt2np" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">pt2np</span><span class="p">(</span><span class="n">array</span><span class="p">)</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>Convert Pytorch Array to Numpy Array</p>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/tensor_utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">7</span>
+<span class="normal">8</span>
+<span class="normal">9</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">pt2np</span><span class="p">(</span><span class="n">array</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Convert Pytorch Array to Numpy Array&quot;&quot;&quot;</span>
+    <span class="k">return</span> <span class="n">array</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/generated-utils-utils/index.html b/generated-utils-utils/index.html
new file mode 100644
index 000000000..f05d571ed
--- /dev/null
+++ b/generated-utils-utils/index.html
@@ -0,0 +1,7588 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="../generated-utils-tensor_utils/">
+      
+      
+        <link rel="next" href="../AvailableModels/">
+      
+      
+      <link rel="icon" href="../assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>Utils - EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="../assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL("..",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#utilsutils" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href=".." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Utils
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href=".." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--active md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" checked>
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="true">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+        
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="./" class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timer" class="md-nav__link">
+    <span class="md-ellipsis">
+      Timer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Timer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timer.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timer.elapsed" class="md-nav__link">
+    <span class="md-ellipsis">
+      elapsed
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timer.reset" class="md-nav__link">
+    <span class="md-ellipsis">
+      reset
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timer.start" class="md-nav__link">
+    <span class="md-ellipsis">
+      start
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timer.stop" class="md-nav__link">
+    <span class="md-ellipsis">
+      stop
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timers" class="md-nav__link">
+    <span class="md-ellipsis">
+      Timers
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Timers">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timers.log" class="md-nav__link">
+    <span class="md-ellipsis">
+      log
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timers.write" class="md-nav__link">
+    <span class="md-ellipsis">
+      write
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.get_mesh" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_mesh
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href=".." class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="../Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+    
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils" class="md-nav__link">
+    <span class="md-ellipsis">
+      utils
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timer" class="md-nav__link">
+    <span class="md-ellipsis">
+      Timer
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Timer">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timer.__init__" class="md-nav__link">
+    <span class="md-ellipsis">
+      __init__
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timer.elapsed" class="md-nav__link">
+    <span class="md-ellipsis">
+      elapsed
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timer.reset" class="md-nav__link">
+    <span class="md-ellipsis">
+      reset
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timer.start" class="md-nav__link">
+    <span class="md-ellipsis">
+      start
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timer.stop" class="md-nav__link">
+    <span class="md-ellipsis">
+      stop
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timers" class="md-nav__link">
+    <span class="md-ellipsis">
+      Timers
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Timers">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timers.log" class="md-nav__link">
+    <span class="md-ellipsis">
+      log
+    </span>
+  </a>
+  
+</li>
+        
+          <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.Timers.write" class="md-nav__link">
+    <span class="md-ellipsis">
+      write
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#src.python.easydel.utils.utils.get_mesh" class="md-nav__link">
+    <span class="md-ellipsis">
+      get_mesh
+    </span>
+  </a>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+<h1 id="utilsutils">utils.utils</h1>
+
+
+<div class="doc doc-object doc-module">
+
+
+
+<a id="src.python.easydel.utils.utils"></a>
+    <div class="doc doc-contents first">
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.utils.utils.Timer" class="doc doc-heading">
+            <code>Timer</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/utils/utils.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">14</span>
+<span class="normal">15</span>
+<span class="normal">16</span>
+<span class="normal">17</span>
+<span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span>
+<span class="normal">31</span>
+<span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span>
+<span class="normal">47</span>
+<span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span>
+<span class="normal">60</span>
+<span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span>
+<span class="normal">72</span>
+<span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span>
+<span class="normal">80</span>
+<span class="normal">81</span>
+<span class="normal">82</span>
+<span class="normal">83</span>
+<span class="normal">84</span>
+<span class="normal">85</span>
+<span class="normal">86</span>
+<span class="normal">87</span>
+<span class="normal">88</span>
+<span class="normal">89</span>
+<span class="normal">90</span>
+<span class="normal">91</span>
+<span class="normal">92</span>
+<span class="normal">93</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">Timer</span><span class="p">:</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">        It sets up the object with a name and initializes other variables.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            name: Give the timer a name</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            An instance of the class</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">name_</span> <span class="o">=</span> <span class="n">name</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">elapsed_</span> <span class="o">=</span> <span class="mf">0.0</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">started_</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">start_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">start</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The start function starts the timer.</span>
+<span class="sd">                Args:</span>
+<span class="sd">                    None</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Access the attributes and methods of the class in</span>
+<span class="sd">                python</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            Nothing</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">started_</span><span class="p">,</span> <span class="s2">&quot;timer has already been started&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">start_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">started_</span> <span class="o">=</span> <span class="kc">True</span>
+
+    <span class="k">def</span> <span class="nf">stop</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The stop function stops the timer and adds the time elapsed since start was called to the total elapsed time.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The time elapsed since the start function was called</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">started_</span><span class="p">,</span> <span class="s2">&quot;timer is not started&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">elapsed_</span> <span class="o">+=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">start_time</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">started_</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="k">def</span> <span class="nf">reset</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The reset function sets the elapsed time to 0.0 and the started flag to False.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            True if the timer was running, false otherwise</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">elapsed_</span> <span class="o">=</span> <span class="mf">0.0</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">started_</span> <span class="o">=</span> <span class="kc">False</span>
+
+    <span class="k">def</span> <span class="nf">elapsed</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">reset</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The elapsed function returns the elapsed time in seconds since the timer was started.</span>
+<span class="sd">        If reset is True, then it also resets the timer to zero and restarts it.</span>
+<span class="sd">        If reset is False, then it leaves the timer running.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            reset: Reset the timer</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The elapsed time in seconds</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">started_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">started_</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">started_</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+        <span class="n">elapsed_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">elapsed_</span>
+        <span class="k">if</span> <span class="n">reset</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+        <span class="k">if</span> <span class="n">started_</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">elapsed_</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.utils.utils.Timer.__init__" class="doc doc-heading">
+            <code class="highlight language-python"><span class="fm">__init__</span><span class="p">(</span><span class="n">name</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The <strong>init</strong> function is called when the class is instantiated.
+It sets up the object with a name and initializes other variables.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>name</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Give the timer a name</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>An instance of the class</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">16</span>
+<span class="normal">17</span>
+<span class="normal">18</span>
+<span class="normal">19</span>
+<span class="normal">20</span>
+<span class="normal">21</span>
+<span class="normal">22</span>
+<span class="normal">23</span>
+<span class="normal">24</span>
+<span class="normal">25</span>
+<span class="normal">26</span>
+<span class="normal">27</span>
+<span class="normal">28</span>
+<span class="normal">29</span>
+<span class="normal">30</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The __init__ function is called when the class is instantiated.</span>
+<span class="sd">    It sets up the object with a name and initializes other variables.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        name: Give the timer a name</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        An instance of the class</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">name_</span> <span class="o">=</span> <span class="n">name</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">elapsed_</span> <span class="o">=</span> <span class="mf">0.0</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">started_</span> <span class="o">=</span> <span class="kc">False</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">start_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.utils.utils.Timer.elapsed" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">elapsed</span><span class="p">(</span><span class="n">reset</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The elapsed function returns the elapsed time in seconds since the timer was started.
+If reset is True, then it also resets the timer to zero and restarts it.
+If reset is False, then it leaves the timer running.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>reset</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reset the timer</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The elapsed time in seconds</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">73</span>
+<span class="normal">74</span>
+<span class="normal">75</span>
+<span class="normal">76</span>
+<span class="normal">77</span>
+<span class="normal">78</span>
+<span class="normal">79</span>
+<span class="normal">80</span>
+<span class="normal">81</span>
+<span class="normal">82</span>
+<span class="normal">83</span>
+<span class="normal">84</span>
+<span class="normal">85</span>
+<span class="normal">86</span>
+<span class="normal">87</span>
+<span class="normal">88</span>
+<span class="normal">89</span>
+<span class="normal">90</span>
+<span class="normal">91</span>
+<span class="normal">92</span>
+<span class="normal">93</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">elapsed</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">reset</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The elapsed function returns the elapsed time in seconds since the timer was started.</span>
+<span class="sd">    If reset is True, then it also resets the timer to zero and restarts it.</span>
+<span class="sd">    If reset is False, then it leaves the timer running.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        reset: Reset the timer</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The elapsed time in seconds</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="n">started_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">started_</span>
+    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">started_</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">stop</span><span class="p">()</span>
+    <span class="n">elapsed_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">elapsed_</span>
+    <span class="k">if</span> <span class="n">reset</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+    <span class="k">if</span> <span class="n">started_</span><span class="p">:</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">start</span><span class="p">()</span>
+    <span class="k">return</span> <span class="n">elapsed_</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.utils.utils.Timer.reset" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">reset</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The reset function sets the elapsed time to 0.0 and the started flag to False.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>True if the timer was running, false otherwise</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">61</span>
+<span class="normal">62</span>
+<span class="normal">63</span>
+<span class="normal">64</span>
+<span class="normal">65</span>
+<span class="normal">66</span>
+<span class="normal">67</span>
+<span class="normal">68</span>
+<span class="normal">69</span>
+<span class="normal">70</span>
+<span class="normal">71</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">reset</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The reset function sets the elapsed time to 0.0 and the started flag to False.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        True if the timer was running, false otherwise</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">elapsed_</span> <span class="o">=</span> <span class="mf">0.0</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">started_</span> <span class="o">=</span> <span class="kc">False</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.utils.utils.Timer.start" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">start</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The start function starts the timer.
+        Args:
+            None</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Access the attributes and methods of the class in
+python</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Nothing</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">32</span>
+<span class="normal">33</span>
+<span class="normal">34</span>
+<span class="normal">35</span>
+<span class="normal">36</span>
+<span class="normal">37</span>
+<span class="normal">38</span>
+<span class="normal">39</span>
+<span class="normal">40</span>
+<span class="normal">41</span>
+<span class="normal">42</span>
+<span class="normal">43</span>
+<span class="normal">44</span>
+<span class="normal">45</span>
+<span class="normal">46</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">start</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The start function starts the timer.</span>
+<span class="sd">            Args:</span>
+<span class="sd">                None</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Access the attributes and methods of the class in</span>
+<span class="sd">            python</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        Nothing</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">started_</span><span class="p">,</span> <span class="s2">&quot;timer has already been started&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">start_time</span> <span class="o">=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">started_</span> <span class="o">=</span> <span class="kc">True</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.utils.utils.Timer.stop" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">stop</span><span class="p">()</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The stop function stops the timer and adds the time elapsed since start was called to the total elapsed time.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The time elapsed since the start function was called</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">48</span>
+<span class="normal">49</span>
+<span class="normal">50</span>
+<span class="normal">51</span>
+<span class="normal">52</span>
+<span class="normal">53</span>
+<span class="normal">54</span>
+<span class="normal">55</span>
+<span class="normal">56</span>
+<span class="normal">57</span>
+<span class="normal">58</span>
+<span class="normal">59</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">stop</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The stop function stops the timer and adds the time elapsed since start was called to the total elapsed time.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The time elapsed since the start function was called</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">started_</span><span class="p">,</span> <span class="s2">&quot;timer is not started&quot;</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">elapsed_</span> <span class="o">+=</span> <span class="n">time</span><span class="o">.</span><span class="n">time</span><span class="p">()</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">start_time</span>
+    <span class="bp">self</span><span class="o">.</span><span class="n">started_</span> <span class="o">=</span> <span class="kc">False</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-class">
+
+
+
+<h2 id="src.python.easydel.utils.utils.Timers" class="doc doc-heading">
+            <code>Timers</code>
+
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+
+      <p>Group of timers.</p>
+
+              <details class="quote">
+                <summary>Source code in <code>src/python/easydel/utils/utils.py</code></summary>
+                <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">131</span>
+<span class="normal">132</span>
+<span class="normal">133</span>
+<span class="normal">134</span>
+<span class="normal">135</span>
+<span class="normal">136</span>
+<span class="normal">137</span>
+<span class="normal">138</span>
+<span class="normal">139</span>
+<span class="normal">140</span>
+<span class="normal">141</span>
+<span class="normal">142</span>
+<span class="normal">143</span>
+<span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span>
+<span class="normal">168</span>
+<span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">class</span> <span class="nc">Timers</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;Group of timers.&quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">use_wandb</span><span class="p">,</span> <span class="n">tensorboard_writer</span><span class="p">):</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">timers</span> <span class="o">=</span> <span class="p">{}</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">use_wandb</span> <span class="o">=</span> <span class="n">use_wandb</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">tensorboard_writer</span> <span class="o">=</span> <span class="n">tensorboard_writer</span>
+
+    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">name</span><span class="p">):</span>
+        <span class="k">if</span> <span class="n">name</span> <span class="ow">not</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">timers</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">timers</span><span class="p">[</span><span class="n">name</span><span class="p">]</span> <span class="o">=</span> <span class="n">Timer</span><span class="p">(</span><span class="n">name</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">timers</span><span class="p">[</span><span class="n">name</span><span class="p">]</span>
+
+    <span class="k">def</span> <span class="nf">write</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">names</span><span class="p">,</span> <span class="n">iteration</span><span class="p">,</span> <span class="n">normalizer</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span> <span class="n">reset</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The write function is used to write the elapsed time of a timer to Tensorboard and/or Weights &amp;amp; Biases.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Make the function a method of the class</span>
+<span class="sd">            names: Specify which timer(s) to write</span>
+<span class="sd">            iteration: Keep track of the number of iterations</span>
+<span class="sd">            normalizer: Normalize the time elapsed by a certain value</span>
+<span class="sd">            reset: Reset the timer after it has been written to</span>
+<span class="sd">                tensorboard</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            Nothing</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="n">normalizer</span> <span class="o">&gt;</span> <span class="mf">0.0</span>
+        <span class="k">for</span> <span class="n">name</span> <span class="ow">in</span> <span class="n">names</span><span class="p">:</span>
+            <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">timers</span><span class="p">[</span><span class="n">name</span><span class="p">]</span><span class="o">.</span><span class="n">elapsed</span><span class="p">(</span><span class="n">reset</span><span class="o">=</span><span class="n">reset</span><span class="p">)</span> <span class="o">/</span> <span class="n">normalizer</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tensorboard_writer</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">tensorboard_writer</span><span class="o">.</span><span class="n">add_scalar</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;timers/</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">iteration</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_wandb</span><span class="p">:</span>
+                <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">({</span><span class="sa">f</span><span class="s2">&quot;timers/</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">:</span> <span class="n">value</span><span class="p">},</span> <span class="n">step</span><span class="o">=</span><span class="n">iteration</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">log</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">names</span><span class="p">,</span> <span class="n">normalizer</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span> <span class="n">reset</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;The log function is used to print the time elapsed for a given function.</span>
+
+<span class="sd">        Args:</span>
+<span class="sd">            self: Represent the instance of the class</span>
+<span class="sd">            names: Specify the name of the timer that we want to log</span>
+<span class="sd">            normalizer: Normalize the time taken to run a function</span>
+<span class="sd">            reset: Reset the timer after logging</span>
+
+<span class="sd">        Returns:</span>
+<span class="sd">            The time taken for the given name</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="n">normalizer</span> <span class="o">&gt;</span> <span class="mf">0.0</span>
+
+        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">names</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+            <span class="n">names</span> <span class="o">=</span> <span class="p">[</span><span class="n">names</span><span class="p">]</span>
+        <span class="k">for</span> <span class="n">name</span> <span class="ow">in</span> <span class="n">names</span><span class="p">:</span>
+            <span class="n">elapsed_time</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">timers</span><span class="p">[</span><span class="n">name</span><span class="p">]</span><span class="o">.</span><span class="n">elapsed</span><span class="p">(</span><span class="n">reset</span><span class="o">=</span><span class="n">reset</span><span class="p">)</span> <span class="o">*</span> <span class="mf">1000.0</span> <span class="o">/</span> <span class="n">normalizer</span>
+            <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+                <span class="sa">f</span><span class="s2">&quot;Time Took to Complete Task </span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2"> (microseconds) : &quot;</span>
+                <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span><span class="n">elapsed_time</span><span class="p">,</span><span class="w"> </span><span class="n">color</span><span class="o">=</span><span class="s1">&#39;white&#39;</span><span class="p">,</span><span class="w"> </span><span class="n">force_color</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+                <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+                <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+              </details>
+
+
+
+  <div class="doc doc-children">
+
+
+
+
+
+
+
+
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.utils.utils.Timers.log" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">log</span><span class="p">(</span><span class="n">names</span><span class="p">,</span> <span class="n">normalizer</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span> <span class="n">reset</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The log function is used to print the time elapsed for a given function.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Represent the instance of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>names</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify the name of the timer that we want to log</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>normalizer</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Normalize the time taken to run a function</p>
+              </div>
+            </td>
+            <td>
+                  <code>1.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>reset</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reset the timer after logging</p>
+              </div>
+            </td>
+            <td>
+                  <code>True</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>The time taken for the given name</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">169</span>
+<span class="normal">170</span>
+<span class="normal">171</span>
+<span class="normal">172</span>
+<span class="normal">173</span>
+<span class="normal">174</span>
+<span class="normal">175</span>
+<span class="normal">176</span>
+<span class="normal">177</span>
+<span class="normal">178</span>
+<span class="normal">179</span>
+<span class="normal">180</span>
+<span class="normal">181</span>
+<span class="normal">182</span>
+<span class="normal">183</span>
+<span class="normal">184</span>
+<span class="normal">185</span>
+<span class="normal">186</span>
+<span class="normal">187</span>
+<span class="normal">188</span>
+<span class="normal">189</span>
+<span class="normal">190</span>
+<span class="normal">191</span>
+<span class="normal">192</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">log</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">names</span><span class="p">,</span> <span class="n">normalizer</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span> <span class="n">reset</span><span class="o">=</span><span class="kc">True</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The log function is used to print the time elapsed for a given function.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Represent the instance of the class</span>
+<span class="sd">        names: Specify the name of the timer that we want to log</span>
+<span class="sd">        normalizer: Normalize the time taken to run a function</span>
+<span class="sd">        reset: Reset the timer after logging</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        The time taken for the given name</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="n">normalizer</span> <span class="o">&gt;</span> <span class="mf">0.0</span>
+
+    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">names</span><span class="p">,</span> <span class="nb">str</span><span class="p">):</span>
+        <span class="n">names</span> <span class="o">=</span> <span class="p">[</span><span class="n">names</span><span class="p">]</span>
+    <span class="k">for</span> <span class="n">name</span> <span class="ow">in</span> <span class="n">names</span><span class="p">:</span>
+        <span class="n">elapsed_time</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">timers</span><span class="p">[</span><span class="n">name</span><span class="p">]</span><span class="o">.</span><span class="n">elapsed</span><span class="p">(</span><span class="n">reset</span><span class="o">=</span><span class="n">reset</span><span class="p">)</span> <span class="o">*</span> <span class="mf">1000.0</span> <span class="o">/</span> <span class="n">normalizer</span>
+        <span class="n">termcolor</span><span class="o">.</span><span class="n">cprint</span><span class="p">(</span>
+            <span class="sa">f</span><span class="s2">&quot;Time Took to Complete Task </span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2"> (microseconds) : &quot;</span>
+            <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">termcolor</span><span class="o">.</span><span class="n">colored</span><span class="p">(</span><span class="n">elapsed_time</span><span class="p">,</span><span class="w"> </span><span class="n">color</span><span class="o">=</span><span class="s1">&#39;white&#39;</span><span class="p">,</span><span class="w"> </span><span class="n">force_color</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span>
+            <span class="n">color</span><span class="o">=</span><span class="s2">&quot;cyan&quot;</span><span class="p">,</span>
+            <span class="n">force_color</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+<div class="doc doc-object doc-function">
+
+
+<h3 id="src.python.easydel.utils.utils.Timers.write" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">write</span><span class="p">(</span><span class="n">names</span><span class="p">,</span> <span class="n">iteration</span><span class="p">,</span> <span class="n">normalizer</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span> <span class="n">reset</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span></code>
+
+</h3>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The write function is used to write the elapsed time of a timer to Tensorboard and/or Weights &amp; Biases.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>self</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Make the function a method of the class</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>names</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Specify which timer(s) to write</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>iteration</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Keep track of the number of iterations</p>
+              </div>
+            </td>
+            <td>
+                <em>required</em>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>normalizer</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Normalize the time elapsed by a certain value</p>
+              </div>
+            </td>
+            <td>
+                  <code>1.0</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>reset</code></td>
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Reset the timer after it has been written to
+tensorboard</p>
+              </div>
+            </td>
+            <td>
+                  <code>False</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>Nothing</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">144</span>
+<span class="normal">145</span>
+<span class="normal">146</span>
+<span class="normal">147</span>
+<span class="normal">148</span>
+<span class="normal">149</span>
+<span class="normal">150</span>
+<span class="normal">151</span>
+<span class="normal">152</span>
+<span class="normal">153</span>
+<span class="normal">154</span>
+<span class="normal">155</span>
+<span class="normal">156</span>
+<span class="normal">157</span>
+<span class="normal">158</span>
+<span class="normal">159</span>
+<span class="normal">160</span>
+<span class="normal">161</span>
+<span class="normal">162</span>
+<span class="normal">163</span>
+<span class="normal">164</span>
+<span class="normal">165</span>
+<span class="normal">166</span>
+<span class="normal">167</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">write</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">names</span><span class="p">,</span> <span class="n">iteration</span><span class="p">,</span> <span class="n">normalizer</span><span class="o">=</span><span class="mf">1.0</span><span class="p">,</span> <span class="n">reset</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The write function is used to write the elapsed time of a timer to Tensorboard and/or Weights &amp;amp; Biases.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        self: Make the function a method of the class</span>
+<span class="sd">        names: Specify which timer(s) to write</span>
+<span class="sd">        iteration: Keep track of the number of iterations</span>
+<span class="sd">        normalizer: Normalize the time elapsed by a certain value</span>
+<span class="sd">        reset: Reset the timer after it has been written to</span>
+<span class="sd">            tensorboard</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        Nothing</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="k">assert</span> <span class="n">normalizer</span> <span class="o">&gt;</span> <span class="mf">0.0</span>
+    <span class="k">for</span> <span class="n">name</span> <span class="ow">in</span> <span class="n">names</span><span class="p">:</span>
+        <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">timers</span><span class="p">[</span><span class="n">name</span><span class="p">]</span><span class="o">.</span><span class="n">elapsed</span><span class="p">(</span><span class="n">reset</span><span class="o">=</span><span class="n">reset</span><span class="p">)</span> <span class="o">/</span> <span class="n">normalizer</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">tensorboard_writer</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">tensorboard_writer</span><span class="o">.</span><span class="n">add_scalar</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;timers/</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">,</span> <span class="n">value</span><span class="p">,</span> <span class="n">iteration</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">use_wandb</span><span class="p">:</span>
+            <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">({</span><span class="sa">f</span><span class="s2">&quot;timers/</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">:</span> <span class="n">value</span><span class="p">},</span> <span class="n">step</span><span class="o">=</span><span class="n">iteration</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+<div class="doc doc-object doc-function">
+
+
+<h2 id="src.python.easydel.utils.utils.get_mesh" class="doc doc-heading">
+            <code class="highlight language-python"><span class="n">get_mesh</span><span class="p">(</span><span class="n">shape</span><span class="o">=</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span> <span class="n">axis_names</span><span class="o">=</span><span class="p">(</span><span class="s1">&#39;dp&#39;</span><span class="p">,</span> <span class="s1">&#39;fsdp&#39;</span><span class="p">,</span> <span class="s1">&#39;tp&#39;</span><span class="p">,</span> <span class="s1">&#39;sp&#39;</span><span class="p">))</span></code>
+
+</h2>
+
+
+    <div class="doc doc-contents ">
+
+      <p>The get_mesh function is a helper function that creates a JAX Mesh object.</p>
+
+
+<p><span class="doc-section-title">Parameters:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Name</th>
+          <th>Type</th>
+          <th>Description</th>
+          <th>Default</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td><code>shape</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[int]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>typing.Sequence[int]: Specify the shape of the array that
+is used to create the mesh</p>
+              </div>
+            </td>
+            <td>
+                  <code>(1, -1, 1, 1)</code>
+            </td>
+          </tr>
+          <tr class="doc-section-item">
+            <td><code>axis_names</code></td>
+            <td>
+                  <code><span title="typing.Sequence">Sequence</span>[str]</code>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>typing.Sequence[int]: Specify the Axis Names in mesh</p>
+              </div>
+            </td>
+            <td>
+                  <code>(&#39;dp&#39;, &#39;fsdp&#39;, &#39;tp&#39;, &#39;sp&#39;)</code>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+
+    <p><span class="doc-section-title">Returns:</span></p>
+    <table>
+      <thead>
+        <tr>
+          <th>Type</th>
+          <th>Description</th>
+        </tr>
+      </thead>
+      <tbody>
+          <tr class="doc-section-item">
+            <td>
+            </td>
+            <td>
+              <div class="doc-md-description">
+                <p>A mesh object</p>
+              </div>
+            </td>
+          </tr>
+      </tbody>
+    </table>
+
+            <details class="quote">
+              <summary>Source code in <code>src/python/easydel/utils/utils.py</code></summary>
+              <div class="highlight"><table class="highlighttable"><tr><td class="linenos"><div class="linenodiv"><pre><span></span><span class="normal">214</span>
+<span class="normal">215</span>
+<span class="normal">216</span>
+<span class="normal">217</span>
+<span class="normal">218</span>
+<span class="normal">219</span>
+<span class="normal">220</span>
+<span class="normal">221</span>
+<span class="normal">222</span>
+<span class="normal">223</span>
+<span class="normal">224</span>
+<span class="normal">225</span>
+<span class="normal">226</span>
+<span class="normal">227</span>
+<span class="normal">228</span>
+<span class="normal">229</span>
+<span class="normal">230</span>
+<span class="normal">231</span></pre></div></td><td class="code"><div><pre><span></span><code><span class="k">def</span> <span class="nf">get_mesh</span><span class="p">(</span>
+        <span class="n">shape</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Sequence</span><span class="p">[</span><span class="nb">int</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">),</span>
+        <span class="n">axis_names</span><span class="p">:</span> <span class="n">typing</span><span class="o">.</span><span class="n">Sequence</span><span class="p">[</span><span class="nb">str</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span><span class="s2">&quot;dp&quot;</span><span class="p">,</span> <span class="s2">&quot;fsdp&quot;</span><span class="p">,</span> <span class="s2">&quot;tp&quot;</span><span class="p">,</span> <span class="s2">&quot;sp&quot;</span><span class="p">)</span>
+<span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;The get_mesh function is a helper function that creates a JAX Mesh object.</span>
+
+<span class="sd">    Args:</span>
+<span class="sd">        shape: typing.Sequence[int]: Specify the shape of the array that</span>
+<span class="sd">            is used to create the mesh</span>
+<span class="sd">        axis_names: typing.Sequence[int]: Specify the Axis Names in mesh</span>
+
+<span class="sd">    Returns:</span>
+<span class="sd">        A mesh object</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+    <span class="kn">from</span> <span class="nn">jax.sharding</span> <span class="kn">import</span> <span class="n">Mesh</span>
+    <span class="kn">from</span> <span class="nn">jax.experimental</span> <span class="kn">import</span> <span class="n">mesh_utils</span>
+    <span class="n">array</span> <span class="o">=</span> <span class="n">jnp</span><span class="o">.</span><span class="n">ones</span><span class="p">((</span><span class="nb">len</span><span class="p">(</span><span class="n">jax</span><span class="o">.</span><span class="n">devices</span><span class="p">()),</span> <span class="mi">1</span><span class="p">))</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">shape</span><span class="p">)</span>
+    <span class="k">return</span> <span class="n">Mesh</span><span class="p">(</span><span class="n">mesh_utils</span><span class="o">.</span><span class="n">create_device_mesh</span><span class="p">(</span><span class="n">array</span><span class="o">.</span><span class="n">shape</span><span class="p">),</span> <span class="n">axis_names</span><span class="p">)</span>
+</code></pre></div></td></tr></table></div>
+            </details>
+    </div>
+
+</div>
+
+
+
+  </div>
+
+    </div>
+
+</div>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": "..", "features": [], "search": "../assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="../assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/index.html b/index.html
new file mode 100644
index 000000000..c960e1a72
--- /dev/null
+++ b/index.html
@@ -0,0 +1,6227 @@
+
+<!doctype html>
+<html lang="en" class="no-js">
+  <head>
+    
+      <meta charset="utf-8">
+      <meta name="viewport" content="width=device-width,initial-scale=1">
+      
+      
+        <meta name="author" content="Erfan Zare Chavoshi">
+      
+      
+      
+        <link rel="prev" href="PyTorchServer/">
+      
+      
+        <link rel="next" href="Install/">
+      
+      
+      <link rel="icon" href="assets/images/favicon.png">
+      <meta name="generator" content="mkdocs-1.6.0, mkdocs-material-9.5.24">
+    
+    
+      
+        <title>EasyDeL</title>
+      
+    
+    
+      <link rel="stylesheet" href="assets/stylesheets/main.6543a935.min.css">
+      
+      
+
+
+    
+    
+      
+    
+    
+      
+        
+        
+        <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
+        <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Roboto:300,300i,400,400i,700,700i%7CRoboto+Mono:400,400i,700,700i&display=fallback">
+        <style>:root{--md-text-font:"Roboto";--md-code-font:"Roboto Mono"}</style>
+      
+    
+    
+      <link rel="stylesheet" href="assets/_mkdocstrings.css">
+    
+    <script>__md_scope=new URL(".",location),__md_hash=e=>[...e].reduce((e,_)=>(e<<5)-e+_.charCodeAt(0),0),__md_get=(e,_=localStorage,t=__md_scope)=>JSON.parse(_.getItem(t.pathname+"."+e)),__md_set=(e,_,t=localStorage,a=__md_scope)=>{try{t.setItem(a.pathname+"."+e,JSON.stringify(_))}catch(e){}}</script>
+    
+      
+
+    
+    
+    
+  </head>
+  
+  
+    <body dir="ltr">
+  
+    
+    <input class="md-toggle" data-md-toggle="drawer" type="checkbox" id="__drawer" autocomplete="off">
+    <input class="md-toggle" data-md-toggle="search" type="checkbox" id="__search" autocomplete="off">
+    <label class="md-overlay" for="__drawer"></label>
+    <div data-md-component="skip">
+      
+        
+        <a href="#easydel" class="md-skip">
+          Skip to content
+        </a>
+      
+    </div>
+    <div data-md-component="announce">
+      
+    </div>
+    
+    
+      
+
+  
+
+<header class="md-header md-header--shadow" data-md-component="header">
+  <nav class="md-header__inner md-grid" aria-label="Header">
+    <a href="." title="EasyDeL" class="md-header__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    <label class="md-header__button md-icon" for="__drawer">
+      
+      <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M3 6h18v2H3V6m0 5h18v2H3v-2m0 5h18v2H3v-2Z"/></svg>
+    </label>
+    <div class="md-header__title" data-md-component="header-title">
+      <div class="md-header__ellipsis">
+        <div class="md-header__topic">
+          <span class="md-ellipsis">
+            EasyDeL
+          </span>
+        </div>
+        <div class="md-header__topic" data-md-component="header-topic">
+          <span class="md-ellipsis">
+            
+              Home
+            
+          </span>
+        </div>
+      </div>
+    </div>
+    
+    
+      <script>var media,input,key,value,palette=__md_get("__palette");if(palette&&palette.color){"(prefers-color-scheme)"===palette.color.media&&(media=matchMedia("(prefers-color-scheme: light)"),input=document.querySelector(media.matches?"[data-md-color-media='(prefers-color-scheme: light)']":"[data-md-color-media='(prefers-color-scheme: dark)']"),palette.color.media=input.getAttribute("data-md-color-media"),palette.color.scheme=input.getAttribute("data-md-color-scheme"),palette.color.primary=input.getAttribute("data-md-color-primary"),palette.color.accent=input.getAttribute("data-md-color-accent"));for([key,value]of Object.entries(palette.color))document.body.setAttribute("data-md-color-"+key,value)}</script>
+    
+    
+    
+      <label class="md-header__button md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+      </label>
+      <div class="md-search" data-md-component="search" role="dialog">
+  <label class="md-search__overlay" for="__search"></label>
+  <div class="md-search__inner" role="search">
+    <form class="md-search__form" name="search">
+      <input type="text" class="md-search__input" name="query" aria-label="Search" placeholder="Search" autocapitalize="off" autocorrect="off" autocomplete="off" spellcheck="false" data-md-component="search-query" required>
+      <label class="md-search__icon md-icon" for="__search">
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M9.5 3A6.5 6.5 0 0 1 16 9.5c0 1.61-.59 3.09-1.56 4.23l.27.27h.79l5 5-1.5 1.5-5-5v-.79l-.27-.27A6.516 6.516 0 0 1 9.5 16 6.5 6.5 0 0 1 3 9.5 6.5 6.5 0 0 1 9.5 3m0 2C7 5 5 7 5 9.5S7 14 9.5 14 14 12 14 9.5 12 5 9.5 5Z"/></svg>
+        
+        <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M20 11v2H8l5.5 5.5-1.42 1.42L4.16 12l7.92-7.92L13.5 5.5 8 11h12Z"/></svg>
+      </label>
+      <nav class="md-search__options" aria-label="Search">
+        
+        <button type="reset" class="md-search__icon md-icon" title="Clear" aria-label="Clear" tabindex="-1">
+          
+          <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M19 6.41 17.59 5 12 10.59 6.41 5 5 6.41 10.59 12 5 17.59 6.41 19 12 13.41 17.59 19 19 17.59 13.41 12 19 6.41Z"/></svg>
+        </button>
+      </nav>
+      
+    </form>
+    <div class="md-search__output">
+      <div class="md-search__scrollwrap" data-md-scrollfix>
+        <div class="md-search-result" data-md-component="search-result">
+          <div class="md-search-result__meta">
+            Initializing search
+          </div>
+          <ol class="md-search-result__list" role="presentation"></ol>
+        </div>
+      </div>
+    </div>
+  </div>
+</div>
+    
+    
+      <div class="md-header__source">
+        <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+      </div>
+    
+  </nav>
+  
+</header>
+    
+    <div class="md-container" data-md-component="container">
+      
+      
+        
+          
+        
+      
+      <main class="md-main" data-md-component="main">
+        <div class="md-main__inner md-grid">
+          
+            
+              
+              <div class="md-sidebar md-sidebar--primary" data-md-component="sidebar" data-md-type="navigation" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+
+
+<nav class="md-nav md-nav--primary" aria-label="Navigation" data-md-level="0">
+  <label class="md-nav__title" for="__drawer">
+    <a href="." title="EasyDeL" class="md-nav__button md-logo" aria-label="EasyDeL" data-md-component="logo">
+      
+  
+  <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 24 24"><path d="M12 8a3 3 0 0 0 3-3 3 3 0 0 0-3-3 3 3 0 0 0-3 3 3 3 0 0 0 3 3m0 3.54C9.64 9.35 6.5 8 3 8v11c3.5 0 6.64 1.35 9 3.54 2.36-2.19 5.5-3.54 9-3.54V8c-3.5 0-6.64 1.35-9 3.54Z"/></svg>
+
+    </a>
+    EasyDeL
+  </label>
+  
+    <div class="md-nav__source">
+      <a href="https://github.com/erfanzar/EasyDeL" title="Go to repository" class="md-source" data-md-component="source">
+  <div class="md-source__icon md-icon">
+    
+    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 448 512"><!--! Font Awesome Free 6.5.2 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc.--><path d="M439.55 236.05 244 40.45a28.87 28.87 0 0 0-40.81 0l-40.66 40.63 51.52 51.52c27.06-9.14 52.68 16.77 43.39 43.68l49.66 49.66c34.23-11.8 61.18 31 35.47 56.69-26.49 26.49-70.21-2.87-56-37.34L240.22 199v121.85c25.3 12.54 22.26 41.85 9.08 55a34.34 34.34 0 0 1-48.55 0c-17.57-17.6-11.07-46.91 11.25-56v-123c-20.8-8.51-24.6-30.74-18.64-45L142.57 101 8.45 235.14a28.86 28.86 0 0 0 0 40.81l195.61 195.6a28.86 28.86 0 0 0 40.8 0l194.69-194.69a28.86 28.86 0 0 0 0-40.81z"/></svg>
+  </div>
+  <div class="md-source__repository">
+    GitHub
+  </div>
+</a>
+    </div>
+  
+  <ul class="md-nav__list" data-md-scrollfix>
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1" id="__nav_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    APIs
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1">
+            <span class="md-nav__icon md-icon"></span>
+            APIs
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_1" id="__nav_1_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_1">
+            <span class="md-nav__icon md-icon"></span>
+            Cli
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-cli-cli/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cli
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_2" id="__nav_1_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Data Preprocessing
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_2">
+            <span class="md-nav__icon md-icon"></span>
+            Data Preprocessing
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-data_preprocessing-_processor/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Processor
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_3" id="__nav_1_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_3">
+            <span class="md-nav__icon md-icon"></span>
+            Etils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-etils-auto_tx/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Tx
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-etils-configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-etils-easystate/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easystate
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-etils-errors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Errors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-etils-etils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Etils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_4" id="__nav_1_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Eval
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_4">
+            <span class="md-nav__icon md-icon"></span>
+            Eval
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-eval-lm_eval/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lm Eval
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5" id="__nav_1_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Modules
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5">
+            <span class="md-nav__icon md-icon"></span>
+            Modules
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_1" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_1" id="__nav_1_5_1_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Arctic
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_1_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_1">
+            <span class="md-nav__icon md-icon"></span>
+            Arctic
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-arctic-arctic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Arctic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-arctic-modelling_arctic_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Arctic Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-attention_module/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Attention Module
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_3" id="__nav_1_5_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Attentions
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_3">
+            <span class="md-nav__icon md-icon"></span>
+            Attentions
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-_attentions-blockwise_attn/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Blockwise Attn
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-_attentions-flash/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flash
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-_attentions-ring/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ring
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-_attentions-vanilla/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vanilla
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-auto_easydel_model/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Auto Easydel Model
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_5" id="__nav_1_5_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Cohere
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_5">
+            <span class="md-nav__icon md-icon"></span>
+            Cohere
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-cohere-cohere_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cohere Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-cohere-modelling_cohere_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Cohere Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_6" id="__nav_1_5_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dbrx
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_6">
+            <span class="md-nav__icon md-icon"></span>
+            Dbrx
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-dbrx-dbrx_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dbrx Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-dbrx-modelling_dbrx_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Dbrx Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_7" id="__nav_1_5_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Deepseek V2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_7">
+            <span class="md-nav__icon md-icon"></span>
+            Deepseek V2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-deepseek_v2-deepseek_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Deepseek Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-deepseek_v2-modeling_deepseek_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Deepseek Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-easydel_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_9" id="__nav_1_5_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_9">
+            <span class="md-nav__icon md-icon"></span>
+            Falcon
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-falcon-falcon_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-falcon-modelling_falcon_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Falcon Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-flax_modelling_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Flax Modelling Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_11" id="__nav_1_5_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gemma
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_11">
+            <span class="md-nav__icon md-icon"></span>
+            Gemma
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-gemma-gemma_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-gemma-modelling_gemma_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gemma Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_12" id="__nav_1_5_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt J
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_12">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt J
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-gpt_j-gpt_j_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt J Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-gpt_j-modelling_gpt_j_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt J Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_13" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_13" id="__nav_1_5_13_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt Neo X
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_13_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_13">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt Neo X
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-gpt_neo_x-gpt_neo_x_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt Neo X Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt Neo X Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_14" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_14" id="__nav_1_5_14_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Gpt2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_14_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_14">
+            <span class="md-nav__icon md-icon"></span>
+            Gpt2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-gpt2-gpt2_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gpt2 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-gpt2-modelling_gpt2_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Gpt2 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_15" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_15" id="__nav_1_5_15_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Grok 1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_15_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_15">
+            <span class="md-nav__icon md-icon"></span>
+            Grok 1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-grok_1-grok_1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Grok 1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-grok_1-modelling_grok_1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Grok 1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_16" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_16" id="__nav_1_5_16_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Jetmoe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_16_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_16">
+            <span class="md-nav__icon md-icon"></span>
+            Jetmoe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-jetmoe-jetmoe_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jetmoe Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-jetmoe-modelling_jetmoe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Jetmoe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_17" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_17" id="__nav_1_5_17_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_17_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_17">
+            <span class="md-nav__icon md-icon"></span>
+            Llama
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-llama-llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-llama-modelling_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-llama-modelling_vision_llama_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Llama Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-llama-vision_llama_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Llama Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_18" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_18" id="__nav_1_5_18_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Lucid Transformer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_18_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_18">
+            <span class="md-nav__icon md-icon"></span>
+            Lucid Transformer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-lucid_transformer-lt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Lt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-lucid_transformer-modelling_lt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Lt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_19" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_19" id="__nav_1_5_19_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mamba
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_19_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_19">
+            <span class="md-nav__icon md-icon"></span>
+            Mamba
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-mamba-mamba_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mamba Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-mamba-modelling_mamba_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mamba Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_20" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_20" id="__nav_1_5_20_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_20_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_20">
+            <span class="md-nav__icon md-icon"></span>
+            Mistral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-mistral-mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-mistral-modelling_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-mistral-modelling_vision_mistral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Vision Mistral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-mistral-vision_mistral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Mistral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_21" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_21" id="__nav_1_5_21_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mixtral
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_21_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_21">
+            <span class="md-nav__icon md-icon"></span>
+            Mixtral
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-mixtral-mixtral_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mixtral Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-mixtral-modelling_mixtral_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mixtral Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_22" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_22" id="__nav_1_5_22_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Mosaic Mpt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_22_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_22">
+            <span class="md-nav__icon md-icon"></span>
+            Mosaic Mpt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-mosaic_mpt-modelling_mpt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Mpt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-mosaic_mpt-mosaic_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mosaic Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_23" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_23" id="__nav_1_5_23_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Olmo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_23_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_23">
+            <span class="md-nav__icon md-icon"></span>
+            Olmo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-olmo-modelling_olmo_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Olmo Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-olmo-olmo_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Olmo Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_24" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_24" id="__nav_1_5_24_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Openelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_24_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_24">
+            <span class="md-nav__icon md-icon"></span>
+            Openelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-openelm-modelling_openelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Openelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-openelm-openelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_25" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_25" id="__nav_1_5_25_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Opt
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_25_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_25">
+            <span class="md-nav__icon md-icon"></span>
+            Opt
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-opt-modelling_opt_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Opt Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-opt-opt_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Opt Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_26" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_26" id="__nav_1_5_26_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Palm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_26_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_26">
+            <span class="md-nav__icon md-icon"></span>
+            Palm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-palm-modelling_palm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Palm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-palm-palm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Palm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_27" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_27" id="__nav_1_5_27_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_27_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_27">
+            <span class="md-nav__icon md-icon"></span>
+            Phi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-phi-modelling_phi_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-phi-phi_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_28" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_28" id="__nav_1_5_28_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Phi3
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_28_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_28">
+            <span class="md-nav__icon md-icon"></span>
+            Phi3
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-phi3-modelling_phi3_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Phi3 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-phi3-phi3_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Phi3 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_29" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_29" id="__nav_1_5_29_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen1
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_29_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_29">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen1
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-qwen1-modelling_qwen1_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen1 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-qwen1-qwen1_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen1 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_30" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_30" id="__nav_1_5_30_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_30_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_30">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-qwen2-modelling_qwen_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Qwen Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-qwen2-qwen_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Qwen Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_31" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_31" id="__nav_1_5_31_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Qwen2 Moe
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_31_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_31">
+            <span class="md-nav__icon md-icon"></span>
+            Qwen2 Moe
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-qwen2_moe-configuration_qwen2_moe/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration Qwen2 Moe
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-qwen2_moe-modeling_qwen2_moe_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Qwen2 Moe Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_32" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_32" id="__nav_1_5_32_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Roberta
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_32_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_32">
+            <span class="md-nav__icon md-icon"></span>
+            Roberta
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-roberta-modelling_roberta_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Roberta Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-roberta-roberta_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Roberta Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_33" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_33" id="__nav_1_5_33_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Rwkv
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_33_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_33">
+            <span class="md-nav__icon md-icon"></span>
+            Rwkv
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-rwkv-modelling_rwkv_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Rwkv Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-rwkv-rwkv_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Rwkv Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_34" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_34" id="__nav_1_5_34_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Stablelm
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_34_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_34">
+            <span class="md-nav__icon md-icon"></span>
+            Stablelm
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-stablelm-modelling_stablelm_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Stablelm Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-stablelm-stablelm_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stablelm Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_35" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_35" id="__nav_1_5_35_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    T5
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_35_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_35">
+            <span class="md-nav__icon md-icon"></span>
+            T5
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-t5-modelling_t5_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling T5 Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-t5-t5_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    T5 Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_5_36" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_5_36" id="__nav_1_5_36_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Whisper
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_5_36_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_5_36">
+            <span class="md-nav__icon md-icon"></span>
+            Whisper
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-whisper-modelling_whisper_flax/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Whisper Flax
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-modules-whisper-whisper_configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Whisper Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_6" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_6" id="__nav_1_6_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Partitioning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_6_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_6">
+            <span class="md-nav__icon md-icon"></span>
+            Partitioning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-partitioning-partitioner/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7" id="__nav_1_7_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Reinforcement Learning
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_7_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7">
+            <span class="md-nav__icon md-icon"></span>
+            Reinforcement Learning
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-reinforcement_learning-core/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Core
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_2" id="__nav_1_7_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Models
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_2">
+            <span class="md-nav__icon md-icon"></span>
+            Models
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-reinforcement_learning-models-modelling_casual_language_rl/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Casual Language Rl
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_3" id="__nav_1_7_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_3">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-reinforcement_learning-trainer-partitioner_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Partitioner Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-reinforcement_learning-trainer-ppo_config/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Config
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-reinforcement_learning-trainer-ppo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Ppo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-reinforcement_learning-trainer-training_configs/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configs
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-reinforcement_learning-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_7_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_7_4" id="__nav_1_7_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_7_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_7_4">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-reinforcement_learning-utils-collectors/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Collectors
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8" id="__nav_1_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8">
+            <span class="md-nav__icon md-icon"></span>
+            Serve
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-gradio_user_interface_base/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gradio User Interface Base
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-jax_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Jax Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_3" id="__nav_1_8_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_3">
+            <span class="md-nav__icon md-icon"></span>
+            Prompters
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-prompters-base_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-prompters-cargo_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Cargo Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-prompters-chatml_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Chatml Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-prompters-gemma_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Gemma Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-prompters-guanaco_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Guanaco Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-prompters-llama2_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-prompters-openchat_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Openchat Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-prompters-zephyr_prompter/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Zephyr Prompter
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_8_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_8_4" id="__nav_1_8_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Serve Engine
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_8_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_8_4">
+            <span class="md-nav__icon md-icon"></span>
+            Serve Engine
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-serve_engine-client/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Client
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-serve_engine-configuration/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Configuration
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-serve_engine-serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-torch_serve/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Torch Serve
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-serve-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_9" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_9" id="__nav_1_9_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_9_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_9">
+            <span class="md-nav__icon md-icon"></span>
+            Smi
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-smi-smi/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Smi
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10" id="__nav_1_10_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_10_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10">
+            <span class="md-nav__icon md-icon"></span>
+            Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-base_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Base Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_2" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_2" id="__nav_1_10_2_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_2_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_2">
+            <span class="md-nav__icon md-icon"></span>
+            Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-causal_language_model_trainer-causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-causal_language_model_trainer-modeling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modeling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_3" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_3" id="__nav_1_10_3_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Dpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_3_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_3">
+            <span class="md-nav__icon md-icon"></span>
+            Dpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-dpo-dpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Dpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-dpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-dpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-dpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_4" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_4" id="__nav_1_10_4_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Orpo
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_4_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_4">
+            <span class="md-nav__icon md-icon"></span>
+            Orpo
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-orpo-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-orpo-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-orpo-orpo_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Orpo Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-orpo-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_5" id="__nav_1_10_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Sft
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_5">
+            <span class="md-nav__icon md-icon"></span>
+            Sft
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-sft-stf_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Stf Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-sft-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-training_configurations/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Training Configurations
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_10_8" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_10_8" id="__nav_1_10_8_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="3" aria-labelledby="__nav_1_10_8_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_10_8">
+            <span class="md-nav__icon md-icon"></span>
+            Vision Causal Language Model Trainer
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fwd Bwd Functions
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-vision_causal_language_model_trainer-modelling_output/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Modelling Output
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Vision Causal Language Model Trainer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_11" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_11" id="__nav_1_11_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Transform
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_11_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_11">
+            <span class="md-nav__icon md-icon"></span>
+            Transform
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-transform-easydel_transform/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easydel Transform
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-transform-falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-transform-llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-transform-mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-transform-mpt/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mpt
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-transform-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_1_12" >
+        
+          
+          <label class="md-nav__link" for="__nav_1_12" id="__nav_1_12_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="2" aria-labelledby="__nav_1_12_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_1_12">
+            <span class="md-nav__icon md-icon"></span>
+            Utils
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-utils-checker/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Checker
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-utils-prompters/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Prompters
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-utils-tensor_utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Tensor Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="generated-utils-utils/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Utils
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="AvailableModels/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Available models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="CONTRIBUTING/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Contributing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="Bits/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Bits
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    
+    
+    
+    
+    <li class="md-nav__item md-nav__item--nested">
+      
+        
+        
+        <input class="md-nav__toggle md-toggle " type="checkbox" id="__nav_5" >
+        
+          
+          <label class="md-nav__link" for="__nav_5" id="__nav_5_label" tabindex="0">
+            
+  
+  <span class="md-ellipsis">
+    Examples
+  </span>
+  
+
+            <span class="md-nav__icon md-icon"></span>
+          </label>
+        
+        <nav class="md-nav" data-md-level="1" aria-labelledby="__nav_5_label" aria-expanded="false">
+          <label class="md-nav__title" for="__nav_5">
+            <span class="md-nav__icon md-icon"></span>
+            Examples
+          </label>
+          <ul class="md-nav__list" data-md-scrollfix>
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="DataProcessing/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    DataProcessing
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="AttentionModuleExample.md" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Easy Attention
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="EasyStateExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    EasyState
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="Falcon/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Falcon Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="FineTuningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Fine Tuning Example
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="JAXServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    JAXServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="Llama/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="Llama2/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Llama2 Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="LoRA-TransferLearningExample/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    LoRA and Transfer Learning
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="Mistral/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Mistral Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="Parameter-Quantization/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Model Parameter Quantization
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="MosaicMPT/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    MosaicMPT Models
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+              
+                
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="PyTorchServer/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    PytorchServer
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+              
+            
+          </ul>
+        </nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+    
+  
+  
+  
+    <li class="md-nav__item md-nav__item--active">
+      
+      <input class="md-nav__toggle md-toggle" type="checkbox" id="__toc">
+      
+      
+      
+        <label class="md-nav__link md-nav__link--active" for="__toc">
+          
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+          <span class="md-nav__icon md-icon"></span>
+        </label>
+      
+      <a href="." class="md-nav__link md-nav__link--active">
+        
+  
+  <span class="md-ellipsis">
+    Home
+  </span>
+  
+
+      </a>
+      
+        
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeL 🔮
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#key-features" class="md-nav__link">
+    <span class="md-ellipsis">
+      Key Features
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#what-makes-easydel-special" class="md-nav__link">
+    <span class="md-ellipsis">
+      What Makes EasyDeL 🔮 Special
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="What Makes EasyDeL 🔮 Special">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#hands-on-code-kaggle-examples" class="md-nav__link">
+    <span class="md-ellipsis">
+      Hands on Code Kaggle Examples
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#citing-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      Citing EasyDeL 🥶
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Citing EasyDeL 🥶">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#to-cite-this-project" class="md-nav__link">
+    <span class="md-ellipsis">
+      To cite this Project
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+      
+    </li>
+  
+
+    
+      
+      
+  
+  
+  
+  
+    <li class="md-nav__item">
+      <a href="Install/" class="md-nav__link">
+        
+  
+  <span class="md-ellipsis">
+    Install
+  </span>
+  
+
+      </a>
+    </li>
+  
+
+    
+  </ul>
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+            
+              
+              <div class="md-sidebar md-sidebar--secondary" data-md-component="sidebar" data-md-type="toc" >
+                <div class="md-sidebar__scrollwrap">
+                  <div class="md-sidebar__inner">
+                    
+
+<nav class="md-nav md-nav--secondary" aria-label="Table of contents">
+  
+  
+  
+  
+    <label class="md-nav__title" for="__toc">
+      <span class="md-nav__icon md-icon"></span>
+      Table of contents
+    </label>
+    <ul class="md-nav__list" data-md-component="toc" data-md-scrollfix>
+      
+        <li class="md-nav__item">
+  <a href="#easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      EasyDeL 🔮
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#key-features" class="md-nav__link">
+    <span class="md-ellipsis">
+      Key Features
+    </span>
+  </a>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#what-makes-easydel-special" class="md-nav__link">
+    <span class="md-ellipsis">
+      What Makes EasyDeL 🔮 Special
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="What Makes EasyDeL 🔮 Special">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#hands-on-code-kaggle-examples" class="md-nav__link">
+    <span class="md-ellipsis">
+      Hands on Code Kaggle Examples
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+        <li class="md-nav__item">
+  <a href="#citing-easydel" class="md-nav__link">
+    <span class="md-ellipsis">
+      Citing EasyDeL 🥶
+    </span>
+  </a>
+  
+    <nav class="md-nav" aria-label="Citing EasyDeL 🥶">
+      <ul class="md-nav__list">
+        
+          <li class="md-nav__item">
+  <a href="#to-cite-this-project" class="md-nav__link">
+    <span class="md-ellipsis">
+      To cite this Project
+    </span>
+  </a>
+  
+</li>
+        
+      </ul>
+    </nav>
+  
+</li>
+      
+    </ul>
+  
+</nav>
+                  </div>
+                </div>
+              </div>
+            
+          
+          
+            <div class="md-content" data-md-component="content">
+              <article class="md-content__inner md-typeset">
+                
+                  
+
+  
+  
+
+
+  <h1>Home</h1>
+
+<h2 id="easydel">EasyDeL 🔮</h2>
+<p>EasyDeL is an open-source framework designed to enhance and streamline the training process of machine learning models.
+With a primary focus on Jax/Flax, EasyDeL aims to provide convenient and effective solutions for training Flax/Jax
+models on TPU/GPU for both serving and training purposes.</p>
+<h2 id="key-features">Key Features</h2>
+<ol>
+<li>
+<p><strong>Trainers</strong>: EasyDeL offers a range of trainers, including DPOTrainer, ORPOTrainer, SFTTrainer, and VideoCLM
+   Trainer, tailored for specific training requirements.</p>
+</li>
+<li>
+<p><strong>Serving and API Engines</strong>: EasyDeL provides serving and API engines for efficiently using and serving large
+   language models (LLMs) in JAX, enabling seamless integration into various applications.</p>
+</li>
+<li>
+<p><strong>Quantization Support</strong>: EasyDeL supports quantization methods for all models, allowing for efficient inference and
+   training.</p>
+</li>
+<li>
+<p><strong>Bit Operation Support</strong>: EasyDeL supports 8, 6, and 4-bit operations for inference and training in JAX, optimizing
+   performance and resource utilization.</p>
+</li>
+<li>
+<p><strong>Diverse Model Support</strong>: EasyDeL offers a wide range of models in JAX that have never been implemented before, such
+   as Falcon, Qwen2, Phi2, Mixtral, Qwen2Moe, Cohere, Dbrx, Phi3, and MPT.</p>
+</li>
+<li>
+<p><strong>FlashAttention Integration</strong>: EasyDeL integrates FlashAttention in JAX for GPUs and TPUs, enhancing performance and
+   efficiency.</p>
+</li>
+<li>
+<p><strong>Automatic LLM Serving</strong>: EasyDeL enables automatic serving of LLMs with mid and high-level APIs in both JAX and
+   PyTorch, simplifying deployment and integration.</p>
+</li>
+<li>
+<p><strong>LLM Training and Fine-tuning</strong>: EasyDeL provides LLM trainer and fine-tuner capabilities in JAX, allowing for
+   efficient training and customization of language models.</p>
+</li>
+<li>
+<p><strong>Video CLM Training and Fine-tuning</strong>: EasyDeL supports Video CLM trainer and fine-tuner for models such as Falcon,
+   Qwen2, Phi2, MPT, Mixtral, Grok-1, and Qwen2Moe, enabling advanced video-related applications.</p>
+</li>
+<li>
+<p><strong>Performance Optimization</strong>: EasyDeL provides various features to enhance the training process and optimize
+    performance, such as LoRA (Low-Rank Adaptation of Large Language Models), RingAttention, FlashAttention, BlockWise
+    FFN, and Efficient Attention support (through the FJFormer backbone).</p>
+</li>
+<li>
+<p><strong>Model Conversion</strong>: EasyDeL supports automatic conversion of models from JAX-EasyDeL to PyTorch-HF and vice versa,
+    facilitating seamless integration with different frameworks.</p>
+</li>
+</ol>
+<p>With its comprehensive set of features and tools, EasyDeL aims to streamline and accelerate the training and deployment
+of machine learning models, particularly in the domain of large language models and video-related applications.</p>
+<h2 id="what-makes-easydel-special">What Makes EasyDeL 🔮 Special</h2>
+<p>EasyDeL is built up on JAX and Flax and that's why EasyDeL can perform as fast and as easy
+as possible</p>
+<p>When comparing JAX to PyTorch and TensorFlow, there are several benefits to using JAX that are worth considering.</p>
+<ol>
+<li>
+<p><strong>Performance</strong>: JAX provides excellent performance through its XLA (Accelerated Linear Algebra) backend, which can
+   optimize and compile your code for various hardware accelerators such as GPUs and TPUs. This can lead to significant
+   speed improvements for certain types of computations.</p>
+</li>
+<li>
+<p><strong>Automatic Differentiation</strong>: JAX offers a powerful and flexible automatic differentiation system, which is
+   essential for training machine learning models. It allows for both forward-mode and reverse-mode automatic
+   differentiation, giving you more options for gradient computation.</p>
+</li>
+<li>
+<p><strong>Functional Programming</strong>: JAX is built around functional programming concepts, which can lead to more composable
+   and modular code. This can make it easier to reason about your code and to create abstractions that are reusable
+   across different parts of your project.</p>
+</li>
+<li>
+<p><strong>Interoperability with NumPy</strong>: JAX is designed to be compatible with NumPy, which means that you can often take
+   existing NumPy code and run it with minimal changes on JAX. This can be a significant advantage when transitioning
+   existing codebases to use JAX.</p>
+</li>
+<li>
+<p><strong>Flexibility</strong>: JAX provides a high degree of flexibility, allowing you to drop down to lower-level abstractions
+   when needed. This can be particularly useful when implementing custom operations or experimenting with new research
+   ideas.</p>
+</li>
+</ol>
+<p>While JAX offers these benefits, it's important to note that PyTorch and TensorFlow have large and active communities,
+extensive libraries, and a wide range of pre-trained models, which can be advantageous in certain scenarios.
+Additionally, the choice of framework often depends on the specific requirements of the project and the familiarity of
+the team with a particular toolset.</p>
+<h3 id="hands-on-code-kaggle-examples">Hands on Code Kaggle Examples</h3>
+<ol>
+<li><a href="https://www.kaggle.com/citifer/easydel-causal-language-model-trainer-example">script</a> for mindset of using EasyDeL
+   CausalLanguageModelTrainer on kaggle, but you can do much more.</li>
+<li><a href="https://www.kaggle.com/code/citifer/easydel-serve-example-mixtral">script</a> for using and serving LLMs with EasyDeL
+   JAXServer API (Mixtral Example).</li>
+<li><a href="https://www.kaggle.com/code/citifer/easydel-sfttrainer-example">script</a> SuperVised Finetuning with EasyDeL.</li>
+</ol>
+<h2 id="citing-easydel">Citing EasyDeL 🥶</h2>
+<h4 id="to-cite-this-project">To cite this Project</h4>
+<pre><code class="language-misc">@misc{Zare Chavoshi_2023,
+    title={EasyDeL, an open-source library, is specifically designed to enhance and streamline the training process of machine learning models. It focuses primarily on Jax/Flax and aims to provide convenient and effective solutions for training Flax/Jax Models on TPU/GPU for both Serving and Training purposes.},
+    url={https://github.com/erfanzar/EasyDeL},
+    journal={EasyDeL Easy and Fast DeepLearning with JAX},
+    publisher={Erfan Zare Chavoshi},
+    author={Zare Chavoshi, Erfan},
+    year={2023}
+} 
+</code></pre>
+
+
+
+
+
+
+
+
+
+
+
+
+                
+              </article>
+            </div>
+          
+          
+<script>var target=document.getElementById(location.hash.slice(1));target&&target.name&&(target.checked=target.name.startsWith("__tabbed_"))</script>
+        </div>
+        
+      </main>
+      
+        <footer class="md-footer">
+  
+  <div class="md-footer-meta md-typeset">
+    <div class="md-footer-meta__inner md-grid">
+      <div class="md-copyright">
+  
+    <div class="md-copyright__highlight">
+      Erfan Zare Chavoshi-easydel
+    </div>
+  
+  
+    Made with
+    <a href="https://squidfunk.github.io/mkdocs-material/" target="_blank" rel="noopener">
+      Material for MkDocs
+    </a>
+  
+</div>
+      
+    </div>
+  </div>
+</footer>
+      
+    </div>
+    <div class="md-dialog" data-md-component="dialog">
+      <div class="md-dialog__inner md-typeset"></div>
+    </div>
+    
+    
+    <script id="__config" type="application/json">{"base": ".", "features": [], "search": "assets/javascripts/workers/search.b8dbb3d2.min.js", "translations": {"clipboard.copied": "Copied to clipboard", "clipboard.copy": "Copy to clipboard", "search.result.more.one": "1 more on this page", "search.result.more.other": "# more on this page", "search.result.none": "No matching documents", "search.result.one": "1 matching document", "search.result.other": "# matching documents", "search.result.placeholder": "Type to start searching", "search.result.term.missing": "Missing", "select.version": "Select version"}}</script>
+    
+    
+      <script src="assets/javascripts/bundle.081f42fc.min.js"></script>
+      
+    
+  </body>
+</html>
\ No newline at end of file
diff --git a/objects.inv b/objects.inv
new file mode 100644
index 0000000000000000000000000000000000000000..754d97efe6c3f8886840f87a359a177b8295b7d2
GIT binary patch
literal 9707
zcmV<HB^25tAX9K?X>NERX>N99Zgg*Qc_4OWa&u{KZXhxWBOp+6Z)#;@bUGkKVRLyz
zWlRbqAXa5^b7^mGIv_AEFfK3(BOp|0Wgv28ZDDC{WMy(7Z)PBLXlZjGW@&6?AZc?T
zV{dJ6a%FRKWn>_Ab7^j8AbM<RVlE1J+U;FicjGpae&1h_b4IV?oVYhH`_}1BvXf(<
z_N05V^Tq>Hki?i54N0}_{QAX(lqeCG0tkYjIuDjD8CBm`1)u;F0IIH%=<wF;%Ob+4
ze%s(IdS4|?ntUjWZMysJ@b*7RhU)seyYF_mz!hrnW}TOtV}|QBVkO&Oal#~yq)1v8
zfB#!O)ZEHNTp$w3U81l5OQ7X_)8K-ZePHS|6uZJP|3uB}s_+0x%;(sYKasyb;(L(O
zNb$Ipr8qcKa~c#E0P1)>P`RJW>H|8~D7$~~$Z!BH<l6oh6}uzaVJ7pXLMdS;rrPj-
zt`jB~XRRQIk3s(x+SL9pQc7z6tFT3Ed%4FIhBTdom27_*^fxXLiR3QPh5SA~egf6S
z=1|ffkbg<Js8_a+A?ASbp~m?6_dAH6Hf`zn>)rWpxVw7dkyw1lN65PE0>4yflae^{
zVULsN$1*J%T-9O=aFb>=e-%<>|7l;9+Esi$9hx*x|8z;Br&5LdIoV_CV~5B+l}hA>
z04PC8xtbPI0e59CwMub6<Lavfw5I>!uQ4umq~-HBLUi_@s9(7K=nSIfpz1UNCi<=-
zV076*uAznee$LP<AMfE~6Q6Rhh?}LwE^a3gTcQdw=MV}?h)6l}m<i_GhV3(S8;G@>
z+qf+hln{|}{`geAf*Ef};T~W5R?n7}iUdMJcsb8gWQDWsg?on2;JXj?ynEqZEUq9X
zwd0qneEuG6!j6=Vzwf!6f1oGN%SA##F%K!@`wZm>%s8W^dxY70JzrKV5{Zd9NZCH5
zuVnH7pVa2Oe2;PaiJo&?FcOQ(*hrcG^92|1#{C~!y2qNn*HdOvkw8k!K+W}`#AbBK
zgczTD;^`wGZCW&vNJ~ixE%*iJIf6_WceEgXHJB%|@{vI50$9w9PTI<Ukpc7{#g>Hd
zB2ms0cC2`OB=2H2!P}w)$4{tM%@^cCLU;*J5<Ng3<N>UWJ_bJI@k=Ck0WM_s>-&GR
zIYy=O-5=;R)=jNWWqK;ri250oC9cX|79AnA!Gkl8t?;_wu~{H>0W4(pkk&N*LAd3-
zX!qNIUn>y_C9fz*SiZtpw!=jm=}lO+qlHNFih_{kr{91J?y@2)Zu$aRa?^rQzw`x=
zn8^VbKixk-{8f^oILo`=2L5U#BBA6J1tH7FefkbU@j%M47Xxy%cr=vhW6C%IDbXJ@
zLeW5?2PbCp_NA<ny*^epw3s$(^-5i-)}!m==12}IKhTK-Xf&gfj_>)aLEW(OkwEGK
zSjy}U%IuE48WOvUhC&yxa$aPr1*XQPeitC;860rxCy~D9BINt|=P#hpS#O(l-E2XD
zla!5mW&0Rn4h?$B@O=*PS<T9lxY_+-P^+CtB$mDAA>_&od0*|0IWC%7?KAe9XCZnp
zwbFMInQL4jx8Kv6l(pR%_{yYX^#%c?kkUSg0$3rfwF(~@&I?;UcGE+-uz-w$v&D?D
zg|?qKsuT!m3Hc{kN`EM44)ERgJ<{Yq^ylw?TS=tLA|V9}S~#X#AZc+p@~*c%773*y
z-CfzfY~m;K(-o|>dn^NqOZ*mFMwASvHSe(Twybj0G_)(9XzC~*rFs00A}awv5)-U2
zfg|0jJ`TGT{))0AA3^E{AGBQ6al*{;>W(g`5)(trUBQ4C?uDKWN(b~CH)%*OsM`4J
zSqcs+(liLrT84Kl$Bc&rbaZ)j%*pqPfr@a)N6(ipK;&VIFE`qtB~z}V!j|7wjg+nR
z&3wof{O+15<4$`ZyxyIY7I08eK25w_j1Zs+rJ1pyiJ{aPM%G!o$zb$YmWOmh$_6zk
zK2-Qnl?kqEG9QWJ_V2QiO#X&4>$8k>N(ea4F~eaI+4&A%M@D3)JbWD-xh(Aa_z0I^
zN9&qbNo(WCZ5d7LYD>*tpI1C)tJjXl4mWYxF^^HPiR(`OBHr2hov$%#Wev7vV44`?
z<g{v55QM2cHA*GLUh{@&lXM){nxi<T(Ke1Xz8H;CH<N>)!y$W%cWs2Orv>99qz{aE
z|8~ID0aYl+-B>mq=C;C^cIf!jrl-Uzb2{4ddB|p3u(U`UUxsBR+Dwn&!;%_(#cpw`
zs;t!EoEOpQp|5H+e9+Tt0nQv9Ac$rS4%CV!0b|sDZpsROIUX|n{<KaVuXTgBq?glE
zNV__INt=C4K0(K<(X}iv0v*}2a<|h?J>V+qlgc{I@K>CT(@YkXQI@mCrL66ef34dh
zAU#pLQdM+Nh{`R>$b2VOh2*OxYf;lo^O_6F7NNXQt6c^nBt$FoDwWLz=^Bw#i?i&x
z7D!4j$GJQemZ$VboCeEN_S5N50MvUa0%NbRl3RDSktvfy@vWZt=`C)^d_#)r?v9fP
zRY-4t-0eusu+w*EEr6!k;hjFww9-L&8MKflonWLWOKVIOB+o={RO=AwlK_*+^)Z=#
zpGgZOq}QHMHV!OIPE%w36L+Af(rsOu(`h9&gszX+!AP~8B=n1;C!T>`*c9*!{^Dk*
zEA&f@ot9-@B<vI}@xoM}`_e8>^|>$M0@VfI8@Nc-w`W-ws`|{AbFr$=dYKoj`W7tZ
zqSb)&VlP~EYQw%Z)F}z~I!&iy8P{sgY?pAorc<<x%PpOv5HGp(xCM0Cr4tVKvPYj`
zh?hPt_$}!2N2hIxhvF}}FZXbKr!_u3ORJ8avNCyop@~59VIkQ#=<MkUt}g|pxqlHR
znY-}ZGZ2cEH$te|1St@J7B|xW6%{FIPzDgKgchY;*)Jts*J@dE?nB`SP5mlezp_S^
zRQ_BH#K(9<ReF)GWK|>2{&y@SGTrv`<0-v;O~#dN!^1=KnZ~)eu?%fC^m!83h3X(o
zm6CI3JAHfus&?`tO<wy@d)!L7>FTor`h472NVi<kYg)&fG!LVZT{3cPWr2wA!ZMRn
za%blgN}h4C3C75dk2?zwsA^KSn5n367@>j&u3+NCiHx;v63yz#p$F4I76~VruvwvG
zV!N`(ZJP-(gkL+~uw7u#1ko26GKWb}mMKnS&qr*&Ni1EIoSWYjANPjNHlr2W37^!O
zm`TI;1}Eh2Dil-ul%_D3JrE$q`4ir3h*TYt-2-k@IG{W>;d)?5&b15JErS=F?)FU`
zTzsV$D^Z2pr&iDteBJeH)hR*G^`s{0+9h>(A*!A*MAZR@sM<$}szVM@wU-dpJF_^v
z*fXQ`16~stPL$Cn-34TF$7qDHfqk6|i1d%B#=pM*w-I+LXjCI20U5HrDf0UDzJ3;Q
zus7_yPjhnCTnkwNl@OM(XIdZmfPIhN`p?x1flau6`cP&WPQqwbVqRhSPPlCw02#5D
z{Ou=evRv-1y}2xv%+MRlQi;u!F4^a9!573_TMf?zgb-oAfi;WN@LOE7oQ?fVT49YJ
zO8g@|t2WoT#vdJ1l?|%i;zL=}^|#jHZq_40XnRXog1c<m&YaPk)lVrPu(>fthCa@o
z?vXxmLZ8fWpikx?p32hX&7)Zg686@SAdFEHKYxv%3czl%8*8pW)$FfQ0J?qEL3&|j
zreB`T@B$Yl$IXV_KdSfVlcD<I&^eC=*G=zess{!OJp*uU278)^_v%}Ilp0)R*Y$M4
zRr!@EhU!TI9znqmBAbkd{4oWyz|Z86MQ2i_<}59u!k*OQr$sE}(LV|c(wYuObiA0t
zW$kksmh$kBR?Cu~WT9|`X2evwer1g+sr<PZEb%6afo%)Bi2}Cl25+Jm*$%#m;-wEQ
z_9hD0!bRUiF}HG=H&Kl2T;xp@BMVJ$qId}v3%rS<vTd1bCe<VpHY=1&Y*+TU3p-+^
zG-b(&0pJ1zc*JVD<|3d1KmOvER)5PZ2x@@6OK&v7sx(FkdeCbILScCeoB{Ss27bb8
z>O76zDK9IF+3}kYEpCaqw|I%?+N=y+-nljlGnah(($d`9xqWHrfLpqKY2gAE855N3
zad2U~M{N?Tp$AxJu^V)V)xz>|hgf}2qLzHu)Y9DBxoc|afLpq2YT<(0IJa$Q_(IQZ
zn;Q!`sp&b^wx=kATHHU}KhEzXLLxA)1k!jyY%xYpk(z-}(B2YfaKa&X!^xIgc-)nx
zsoy}-<+dMtHNpwsVDd$g<p?qA8a<tB4uZG-gf2_Bd;^)2+kR5l2q%1l8I;?6Vwb(~
zx0p#;)QxkcB@4W9uC-^;cR7{T1%Kn5eTnPRzAu((V)7<8f*9$cly-6{L0jnISy?SW
zoF}aDl^x!~4$Ml;pbgh3bLifa0t)b4p)Wd1Ou!kMxV*HRk%3E2wiz3GJ1I6}({CxU
zW@NlkzRFMBy!8x~ku#Q@mohf=cCt~%rr%Ny%E<WJ$UK>vywH4;)XXJcpVO|<ffwi8
zkB$QZb1rd)WQ;D!O-BfPrO68g_(dkS2_@x%*rjzhwWt-FcteX?k%2e4sFfM|4J>M9
zrhgNQT9NTa*Hxwu!|)3#Mpllyn&M|LyvgOO%+POO`6@I0n^?YzjKA^atHk76TfQ#p
zsD#vt1s;=7+Op^)5>m^;KOTYcp~m<*{(2XEZ2$iK4zkhTlRW<oe*$bDSS&u|1Ga=k
zvXeCY)JM-G=2TXh-G};lVvm7XTtN(Mo7h>p(+z;iT8-tPXh7j`TH*s`?aW-*vt@0J
zyuruJ+PVS!#Mzm;-D00XYh&!9A4faN;AK9U*4E@jKBU&xSkvd#&J<`C_yk*knF~FO
ztDO-W%v)tM^3_-lOFOBnH|X3c%ueol@wSwl!G`zjL>IX+I?m(;Zj_EOc+nfDV-3Hd
zjnuKOxT%fRG0reMJv?)SzWH;-W1O?-joPt>-_XYGSXbQCM(!AA+{ni6NEa-1qgQYC
zqE9T3*;NW)xhExOaCmm|eL29IbV@(m=xS1B@=dNL<p!IbQk=298=PMp<ByT&8E1}M
z-^_eL>4MvxFG$UXJYII@#%cQG**WNj>c%jAx5T4<Fsqh*=udBB@W=loVOFy%Ck^N;
zD>TsZY+fGXIr{9JhLh--DakfX0-&YL`vt&Hos65A;JE3!N1}C@4X_Tp0oI{6K;?>S
zer}?rkVjVXV?i^Ln0?HYo<k0W59s*voCIZucIV_IKU*6FtKk9IxoL?Gsm{&G^em|_
zZo<Q(E(vW>M*4dD%jgOZ7g>uWp{QrFtroxu%obKCItq7Tr!JMI&{@IH?7h+YbvoZl
z37MVZnU3J1F5xOIc{-*U39?yP<}u3Br*uZIZmRM?rtvYESj@;`f%!_UJ&Vp%iWKU?
zzL50F97h}Gr$whzY_ediXq!mL>>sqQbqKEubJM~ns3?mxAz|rH9B-Pp1NI4Suy}BX
z3JE^bGXRE*>4~uANW87c;B=mI*9V+<=24;IxsFjmdLwCz9>KW-(!zH;RBZit1Fj3N
zz$H!0#e0-(r$OD}JV((l^c8aZjTPsw2G6D7AOfiiU;s~n3eA|SAiT0f6nkq1aQN4!
zPEEw<vi#I!Y;qxEIi0&5*8xZZa7dBh2u!v}WzGOTbJrIOvuE8-%*yBjr(Z56U(Y!W
zGuoHQteW*6GS@q8UCl+OZ8wK${c&jS*o)cVLIl=BDHvLhC)EIn7!*z*2EmK};IF3k
z#eb{?azMlju0#jSMgl1k1Ys7qj9<@x8C%Pw))ILG2A2kKT|nzO1(^aphpK#zzvuCV
z{P{ijL0w$156nK$AB}Dig@R%p5CfPHXiCa?x1a`-QjQ~%y8wrf6)DkGwTkx28ddDK
znFtup3q26Bnj4PiCF~op1|sQ?BXG}s5;{lp$OL{)*effu+3WPoe!MS}=g*`i*ZAT7
zarWxFq!Uyfe&h$&?$H}Ry*8_#`ecIj(uXq3a1umV5Yr0EbKskye!0Lef=)B<V|?uH
zeVW^9bP>>_z3_W~<~ENzJ?x<|w!=Y*f6U0>FjwCY)k{cRLWpJhwmT`eKX8+mxcz0c
zhT<Y?k>nWE=vUl4ls`chQ9c-$t)jdzvROtsAa-tFtroyCs)ZGbj>3(SGAE%I$2(#J
zAU!&YNS2`-vDkV~{{km<m|PE&z1I(Q98M%A<^bT%WFYw*PMIUZvpF0@Aawx@;Q4!6
z6DdQsUzt#BM_Mi{AOo;Kph(k46fR#`B8uyK25|T$>C{Aw!uZr=Y$EtrPNH}MYMJ8r
zWsP}`VZa2KFBb60pf^TFiLZ%S0TvQI7z9&Gj14qf<CjY?J_4s_{PBRNW+t4y*`;R8
zEftKtvs>D7a%!pM*v8DZ_E@>M7MgJLZ7(R{W@_=cbeq560=Ws`n@vcA!DsxRBQ6sB
zfqEz1rU`=HpO}~1QhZ3CdT>0<O;WojIz4_c6&66-4y*|qZ3p<}5~`0(vnbwp8620L
zgBf%K#UZzgbfQIyWgtJE0drC>mpQ5f`sX*UDyQJP{3NwpAE>#iY*~%NS2;HjLL;)b
zV|X5ubQ3ofDr&O)$#E5Bjak)QD_CDEu;9>(nGGo14M+?$Xj$Yae?t7#$N@}ZEs%pE
zo|tkS0CQVNf#3*C7B3&@TcbyF_~inhN_po6oJx7-Wi-l-;g;3}H;W$lZ^!`FigdpX
zMz0P`D0xKz#F__V3+`>?wKqYfKu8N@k5HX1sHm%BH3C`IDrTi&&}F?*GTKe{N6Thr
z;)vZj7PWdH!(#_66dsAqLoNRRxYO*PkHIkMpPSL{vp0V5D+RMq3a~~EHz?-g6`=2e
za#*llGFynu#43Eh87=}QWtpQUKW6cNZ{n;h5B|wq&9|*)69OG>nDkPX=bHR7q6f^!
zbZncOj`^*v^;BAcO<Qf*YCI3M(}SZnYQZy-@hfA@gZb;#bVk=sUk9=Bwby$9uwqde
z8;~Wf9IT_Y2DI2FJ*?#~lDwh-Vl7mp?M+Jhs}aaDFV0HCB!S|Kl3@bH7cIMZ;)I>B
zM?+h(B$AB6?ne`F0>w8UlS#cNZYBwe87KwrG3bf<naKs{Met$!IT*o@-A^|=YFXJG
zzPGd5=%}`L%i#yM?W`YnY};EiHF;LTw4}uK6dt2cq93GPPtCBbQJTd0q3M%6fKJ1l
zW!FR5amc)V9~$Vy%_9?o#^a6^`_pKV*vB49YthRrFMHmgZy`;BmRk$Ntns2x_YWmx
zQO}T>7<@U;K!-AYOg-tLJj6#LrYkEnp@;n9TCF>+=^TivERQ~s-#^_yfZ7HZ>3*BE
zkQPiRc|`%ly4S>8m5^T5@)rw(Jth`s0j{;gaI1AbUhp97jbl&_3)f4>tV#bDqYbZ5
z;P^f}y#;yF?A(htx<-5KbFm7rnn&%iPs{R_M&Kw%&p6(sbXV;u)8E6N%AhM6Ad7^W
zfKv(y|J4X&S-Y5(27D9AA0?wrB!9H5Ci4@r>mHT2Cu7~bOcXI<3M$P-tZHB@g=Rez
zvc%%U(BqeTj4CqzJf6PS<){AFx~Mw0S28Apw>2?Z*euRA>w%0G>3}W<D*6^u`?TCz
zAO^!@#Z7Eua6>6Q+CGgQ_bFuFK#I~IgW;7bA4v4zw9I<`BWfUCCme@DATJEXSTiSV
zfeWK)vCWnelW@^KjAJTPy8Dx`BUTh2HBIFY-e?2GErW3T<v<wFEd>-;7DytmIE8#i
z5#9kE|Bk(wx&B==l<8yY30}07cfh##ZY>alIYc1Xb&q%O;5an_;|MtsAxM~<4jLXS
zr{Q24FCDW8zV8m@AzfF*bY+Dm^pH#3|GePh`{<wa6;ctbIDa*$3JxNWx&Q|7JhvgP
z3=m5>W04@xHzHBieHeFOK=s7}zLN9C$SBTF%nESM#|ML8YRTwP#(ud3<0HeJUEgd%
z@{|2jKIi4O6dwYg@;Na{?TmSP{9r09fVLf26E<2=_~jC+kKj9Oo_QHO<#P^Z(7k-m
z+{PV#pN8yG7I*>`p!J=Q@X8WV?5!EV&GxycCS$X^J&x1esgvD-?^rXrtNx?EM#Iqr
zQep-G=1d0K<L=n2VTZemhC&yx0G0xa0sT$l-<2ie*~bRil<7H`O&2`yG0vn+#tE25
znHE2g`Z3O-_+k=>f55j>eX)SwNS$mfvAc<CY$otqpgfuh`3@*UGY!51%A29kFMzT!
z6?&=Iud$%Z#D?aMUr6}~C(sm-KQ7?}{&5N6xtJ}(e+J3m$tZ$S!Be6KQdP6J=%5;|
zaSGTMlQ8{bmj3m|$}susmzPQE*EO?cWOjxcK#3g@+m#)j*iqi0&6B9pQL#;-+B1st
z68DD*Y?er+;=KEGeSm!gTt_f)iL{gy(56ll+!2{67alw_0-7R`zUBh7K%x!OP1Uxn
zMlz84HVi%%9ojEH>t61NrliM#8<w=ck7aPt=S_0`bI>xJEY3pFd`G||P3R_pZ%W}-
ztoc^LeB{FQqS=PSJj4w5AUsXOMr=!1I>BUzVm2p$H!ZB3V7h-XlN*e-H0&K=w7W5<
zE8rU*R?cv+_c2do1E)ggq!;wyHFDD=9I}h`vdPwpN7k_27QckTtz+|Di22AZ#*2n~
z6*Cew-M*Ncs?m;yN3tf*NFUFwDxYxG^uI#8{REQ1YKyML!eH!9$Yk@RgBHr_kzby_
zM!%64NHUuiW-kVtN(^8q)5p{k?75X{f>a2lDiDJ?L?9TxlZNsTABmW*tk8rWa*10v
z=qaNQdi%`&xX&Tg(FvXYFsPOjpjh^r2aNo=ZJo3N+VjZ_i8$PO5(O;sb_M|x<TH_i
zPg&+7Xp|iHOHw<N_f99&>NJ|gPfu;pK~Jm;8uMgUtVW?rJvs%K=7(OzHa|c@e)Ge6
zAYz5XTJ@J7fI)pS*wZs%pHie>Y`CLQ@6&A)H{~-f>bRmyoyovSQIiHvV6G*!C@=f8
zKH#cnXZs1HNwr1SVqq|LCuCx42Q8G9Bh$ycR%IR^PES;q=I6=(i+WpDBnBTEVTe1G
zh}akO2y_ccoDNjb=hdFx@Gn{vSllnZ?iH6BDbs&>nnT`Yi~%d07Q_t+&PmUVGx~5|
z3Z0ad><ExpVofD%P}n(|`ncVuuTraAL+13W7m6}ZQRV}ab+NkFO%qffQ5I*Y*d5Uh
z$5m$LYp!suQaAy}=y#MIG5y90@u(3fS^b<cRO0IVzdzPIB3Au))W&SHX4~pn5A|3x
zI+Wv>oaDzdh#nt5siu#!P|;_~z0hj^wy&i2Z(9!RH|q?{l-iESwH8-wqTlcfsx~7U
zj~8aqu0orX$|ZZ8JRi!G%;oua2n-$>8!+Ga`K3Fu8z$`>y%LdP*X-xycx=+lvY#+f
zQ(PuQrf2MAUs)MKGwJnNdMtYM@$u6~)F67&5Rni5FKzaZNb#K+V|mrM`ii5U$h*(<
zFL6$X72>ZkX&}Ve{Ecvh!!`B`4?rMHR5>OAAANF3!0R#>a}BLv`3vpg<-f?Ae-v9>
z(UTM^rYs<o@sYeE!(xN0ElP0wgld%s<w8Pu1>0ZW|C`xWsW{Rr1-eQ-mFcO3;Ogtr
z5?x<Yk8fW{@7U|@Z)h<shhC{G)ld$4UyNj;_eoM=0@t0W!|`c;CQEB@UTt`ls%>ML
zOu2%Pys1l~vA$ca?C{h*do~JWI$hyIrI=3prc*cJuz5PB*@hJC)mH$ll09mA<!I)a
ztUL?FA(xT-PVrIMX?l?srcE?_I901(D~^Xi$L9Qf(Re~2TFq%TEkbL>Fvivs!s22x
zq4sS$X|2$NJEH3`)J%_(79=<xlZlb&!p(z0Cz!Y>ix?eJ4{#nG*g^TQj_vcH3gwst
z^(nh*r)yG(CeCqQD$bTT0I4wEyu}{O$x1Y3bgNN*m~>32_p~vy#x-TbsvFcCCj?Ms
zA{{A*&ZJ!cLFUNjIBnOHFV^yu{)iW9dCGn|9biDo7O?Fi@k%9#2Aw0OC`)Thv+~Jv
zn-a73fk>Z%$bp3K0}b2}or=fZTjgB)B(uJd(NwhrDf*GTd+fo=`p9&s(9Sa{14yqL
zOCUkjt~9OVOCdNGnOx<WG1#RP7;T619GQY$3c<0Cs6dIaAFsv0cv*&WbY}{8B?U&K
z-_Fe@#)fzUIWXd%_^^MgO!2OyG-wz3@o=^U#I%CmBe>L((G5Xmja^b@<xT1eau81M
z6H7dKmCOPU9jE+Ifect~nCP>AqRwilUlbK42C}M82cX6^HyRU`K6H&)kX1{~pSaav
zvQ*VCwjDFL*fXLuP8rP@6&rqVI{j0hHJOAKUtCijJJjsyL1kdN)h!#d{E=I1Py)j-
z<T<6`-QJ+*6}^pLWvIW{MqU9m%J$1AQ4ihtaRH^@zHos8*v4=I1K!SXhz88cJ3>6~
zJ8V(i08;ZVaZkGf9<gakY<D=qvg)n?*=g;VX1{x<6DP(6<l0@pfQBq5K#-)k10em%
z${7fBzU>kaGS`OVsZNnzB&zjVqR$v@OO&fTZ>$VD^uZN_4t0$I0Nw-xsqJk+Ot+08
z$?^NyGa!YlV=)Sh%1f1#A6fJ6RIilM!V0j_qw}$i&TH2h>WC+EeRoQ|eV|@@w~1ZO
z|8l--GF&xuN7NH0cfJ(G2Vl^DW!Fg=AEl(`zY1HFKKS_f31su;P|_ce9i&{;E8E9V
za{2TdkW5(-HuMEVhZc<br7wV#j6VPT1w^RcHtV|Cg6NR4QLk(tL&=2|dSC61d3XL$
z&gbeLN4r3+mAoV}*SJcKzo#{kvF%r1nRKk~UXVgcJ0S{Sg|yZxeZ@94)py%EoBKtj
zAycH6ZMzP9KN*C6LgW_ie2Q{|8bsG5+)S^~`b6SX$a(iT84sxVEAj=kC2gqQdjjhw
zK7XG69iNsR9^lz$6JmWy^ET}|47>b#nf$B|Uor64R*wPj0!AzA8Pzv4I~;+j8PZ01
zX*C&ZP_5sFJyt{50?h=CTnn@dHgtq)Sexm(e!d7VM62w`_mJxbA5>3j0vNe{*~Cxe
z=hVtagxP^EGehQaCo8mYPxfpW<HWyOokNHH)vlzVqh>z>cdVSUv+oCsGe*)z=eOhZ
zc=__!9FEPX26LrL&#WvGqQ0OIG0oKSujtYCVwwat>#H;sEU2+Qev7Rmd^+96zDX!Y
z4SO7q_NfO~kCjnibWd^7A*qS}HNY6T<eM5oS|$C)-yT-+*Ygw{AmnMVptTS0c#fG5
z2|#J{YMPVx6$1!ywryqAV%Q#;nE`C0%zc|-Hqh<?cfND-0uB)Br)?k?;T*KRWo9&J
zn@Z{wBkM-H%OKP*%Tv(!Pvb*K+wD|NG!qMU7RU%Mc@XUxu(W~niu$q!)2kk$S!)gY
z-pWWj=;@C#C+U|d6pb%c6gZ}QL0cRS{9=4gz$vEYIP4^t>JzaOK=S9Pb(gK^m8bdz
za4NzfgYN4&D%?IrEzZgvy}JBV`=kNd_i>0vk7BZbYH$|CF+7in^Wa+_q;SZgYxQwe
zzD$nm^Jv8YdjY2_t~oD$<|Z&^iL*F~8Oxi|nQppBD6cG#wCkqH@qwMm6AyJi@JK?@
zil=5l2jC~vBzwc@jvc-ZZOT3?!qyT#f2Ry+!;5mg76Ca%b!kkn(t>I<ex|=U7Io{@
zh7<o@F*>2EapP={OADl=+1;z1d@D{1q@>C6!QtH~VWMNELILFU`!*~wxi8kHi5W81
zD;q4U`GaEyBW4hjFwwN6>3P@;;A0pVj))A(ct{+CDhSGDAT&h~M_mtK@U)_PU|??1
zJuoc6=o;5D%jlYh%@KCj96)(S*Pu4Z#wj=$XB=IVuueO=CSsI(bOG)&|0qCTKn9Yr
zhO7r!b-)&B^!9d0x5BUFG=>fst&Fq_EuR+0?vC$R{3W#RYt9QvA5hwmK1r(()+Hs*
z)aaL1n;ly8D|-EylF3;5bR;mUhYy<iTd3KJqpVr`@XsYSe5yV%kL3A4pNQ1#WBf{-
zT+hviEkaAkBHRO!90Ts*d*RWLdEF*eJh#vz8`@ez;6XwHMmZ~c`if$}*yw@T3o15G
ztb<R+1~P=ehL1MA-^=a)Tvi`S`rtuI<x`Qp-9M;fr9&Y0T`4)LpZVfiACFA1)nn9H
z?PiyB#-bTbcgBJl?Rks^Ys!pNk|ULF9%S^_W1Gx){B?c6==y*&pMLXq4D2Xq#!*{W
zt)}2Qx^LZvg$DPU=QPf6j|)WAcn{3k(BXnTY#{Vyk-^aatypZesdST$0PSquq~)+@
zD|s=!sOfs6`y@VnB9BG<|LcK-4NA1lO4P&+S&5bvS(3(^=Iwx0o^gu4KkjxU&~H(K
zDR^7J8+^`AgFNH6m$KT_-eAe_zlmvL(i>upzTznnw<t@bUubt$&5MEcwZHhX|4?Dx
zn>GL&41tsgcS?j2W@xAZ`o<l!0^M{=4Po{jo!U0QN&#wymE*7RiD4P<w}9%m!7y)R
zMkp3dtkrLAfreI2GlhHtpscXA9Kg`FWcS;++U$|cE6*6qq5@ACqioU9J2d(#JTwqP
z4-NgXaVAv1jT5PEE8ZG9njMA~UY&*Qov?9qP)Cb1@rj@|)lWB^r0Zdh)t1rtM!3yr
zOZ=ov0eJdOWhMDjDGmMe_d27ZNt^ODEiS&=S=ce$L9}14#x^9J!wJ5LdrJKi*wQXr
zR6Ut1>=!i985M`SKhUd&t*!DyGp+LC;7+&R#b7Ph;c~Pp{aF(`wKzkES~33FX|1qo
t^U_Xd-Jr_7&hp?^W$m!eNpvZ9j_E}&RjT+-WmBcv12zMN{||a^UIwCz#<&0g

literal 0
HcmV?d00001

diff --git a/search/search_index.json b/search/search_index.json
new file mode 100644
index 000000000..c0bcf4eb0
--- /dev/null
+++ b/search/search_index.json
@@ -0,0 +1 @@
+{"config":{"lang":["en"],"separator":"[\\s\\-]+","pipeline":["stopWordFilter"]},"docs":[{"location":"","title":"Home","text":""},{"location":"#easydel","title":"EasyDeL \ud83d\udd2e","text":"<p>EasyDeL is an open-source framework designed to enhance and streamline the training process of machine learning models. With a primary focus on Jax/Flax, EasyDeL aims to provide convenient and effective solutions for training Flax/Jax models on TPU/GPU for both serving and training purposes.</p>"},{"location":"#key-features","title":"Key Features","text":"<ol> <li> <p>Trainers: EasyDeL offers a range of trainers, including DPOTrainer, ORPOTrainer, SFTTrainer, and VideoCLM    Trainer, tailored for specific training requirements.</p> </li> <li> <p>Serving and API Engines: EasyDeL provides serving and API engines for efficiently using and serving large    language models (LLMs) in JAX, enabling seamless integration into various applications.</p> </li> <li> <p>Quantization Support: EasyDeL supports quantization methods for all models, allowing for efficient inference and    training.</p> </li> <li> <p>Bit Operation Support: EasyDeL supports 8, 6, and 4-bit operations for inference and training in JAX, optimizing    performance and resource utilization.</p> </li> <li> <p>Diverse Model Support: EasyDeL offers a wide range of models in JAX that have never been implemented before, such    as Falcon, Qwen2, Phi2, Mixtral, Qwen2Moe, Cohere, Dbrx, Phi3, and MPT.</p> </li> <li> <p>FlashAttention Integration: EasyDeL integrates FlashAttention in JAX for GPUs and TPUs, enhancing performance and    efficiency.</p> </li> <li> <p>Automatic LLM Serving: EasyDeL enables automatic serving of LLMs with mid and high-level APIs in both JAX and    PyTorch, simplifying deployment and integration.</p> </li> <li> <p>LLM Training and Fine-tuning: EasyDeL provides LLM trainer and fine-tuner capabilities in JAX, allowing for    efficient training and customization of language models.</p> </li> <li> <p>Video CLM Training and Fine-tuning: EasyDeL supports Video CLM trainer and fine-tuner for models such as Falcon,    Qwen2, Phi2, MPT, Mixtral, Grok-1, and Qwen2Moe, enabling advanced video-related applications.</p> </li> <li> <p>Performance Optimization: EasyDeL provides various features to enhance the training process and optimize     performance, such as LoRA (Low-Rank Adaptation of Large Language Models), RingAttention, FlashAttention, BlockWise     FFN, and Efficient Attention support (through the FJFormer backbone).</p> </li> <li> <p>Model Conversion: EasyDeL supports automatic conversion of models from JAX-EasyDeL to PyTorch-HF and vice versa,     facilitating seamless integration with different frameworks.</p> </li> </ol> <p>With its comprehensive set of features and tools, EasyDeL aims to streamline and accelerate the training and deployment of machine learning models, particularly in the domain of large language models and video-related applications.</p>"},{"location":"#what-makes-easydel-special","title":"What Makes EasyDeL \ud83d\udd2e Special","text":"<p>EasyDeL is built up on JAX and Flax and that's why EasyDeL can perform as fast and as easy as possible</p> <p>When comparing JAX to PyTorch and TensorFlow, there are several benefits to using JAX that are worth considering.</p> <ol> <li> <p>Performance: JAX provides excellent performance through its XLA (Accelerated Linear Algebra) backend, which can    optimize and compile your code for various hardware accelerators such as GPUs and TPUs. This can lead to significant    speed improvements for certain types of computations.</p> </li> <li> <p>Automatic Differentiation: JAX offers a powerful and flexible automatic differentiation system, which is    essential for training machine learning models. It allows for both forward-mode and reverse-mode automatic    differentiation, giving you more options for gradient computation.</p> </li> <li> <p>Functional Programming: JAX is built around functional programming concepts, which can lead to more composable    and modular code. This can make it easier to reason about your code and to create abstractions that are reusable    across different parts of your project.</p> </li> <li> <p>Interoperability with NumPy: JAX is designed to be compatible with NumPy, which means that you can often take    existing NumPy code and run it with minimal changes on JAX. This can be a significant advantage when transitioning    existing codebases to use JAX.</p> </li> <li> <p>Flexibility: JAX provides a high degree of flexibility, allowing you to drop down to lower-level abstractions    when needed. This can be particularly useful when implementing custom operations or experimenting with new research    ideas.</p> </li> </ol> <p>While JAX offers these benefits, it's important to note that PyTorch and TensorFlow have large and active communities, extensive libraries, and a wide range of pre-trained models, which can be advantageous in certain scenarios. Additionally, the choice of framework often depends on the specific requirements of the project and the familiarity of the team with a particular toolset.</p>"},{"location":"#hands-on-code-kaggle-examples","title":"Hands on Code Kaggle Examples","text":"<ol> <li>script for mindset of using EasyDeL    CausalLanguageModelTrainer on kaggle, but you can do much more.</li> <li>script for using and serving LLMs with EasyDeL    JAXServer API (Mixtral Example).</li> <li>script SuperVised Finetuning with EasyDeL.</li> </ol>"},{"location":"#citing-easydel","title":"Citing EasyDeL \ud83e\udd76","text":""},{"location":"#to-cite-this-project","title":"To cite this Project","text":"<pre><code>@misc{Zare Chavoshi_2023,\n    title={EasyDeL, an open-source library, is specifically designed to enhance and streamline the training process of machine learning models. It focuses primarily on Jax/Flax and aims to provide convenient and effective solutions for training Flax/Jax Models on TPU/GPU for both Serving and Training purposes.},\n    url={https://github.com/erfanzar/EasyDeL},\n    journal={EasyDeL Easy and Fast DeepLearning with JAX},\n    publisher={Erfan Zare Chavoshi},\n    author={Zare Chavoshi, Erfan},\n    year={2023}\n} \n</code></pre>"},{"location":"AvailableModels/","title":"Available Models","text":"Model Video Model CausalLM AttentionModule Parameters Quantization Operation Bit Quantization Gptj \u274c \u2705 \u2705 \u2705 \u2705 LucidTransformer \u274c \u2705 \u2705 \u2705 \u2705 Mixtral \u2705 \u2705 \u2705 \u2705 \u2705 Opt \u274c \u2705 \u2705 \u2705 \u2705 Qwen2Moe \u274c \u2705 \u2705 \u2705 \u2705 Stablelm \u274c \u2705 \u2705 \u2705 \u2705 Cohere \u274c \u2705 \u2705 \u2705 \u2705 Arctic \u274c \u2705 \u2705 \u2705 \u2705 OpenELM \u274c \u2705 \u2705 \u2705 \u2705 Gemma \u274c \u2705 \u2705 \u2705 \u2705 GptNeoX \u274c \u2705 \u2705 \u2705 \u2705 Jetmoe \u274c \u2705 \u2705 \u2705 \u2705 Mamba \u274c \u2705 \u274c \u2705 \u2705 MosaicMpt \u274c \u2705 \u2705 \u2705 \u2705 Palm \u274c \u2705 \u2705 \u2705 \u2705 Qwen1 \u274c \u2705 \u2705 \u2705 \u2705 Roberta \u274c \u2705 \u2705 \u2705 \u2705 T5 \u274c \u2705 \u2705 \u2705 \u2705 Dbrx \u274c \u2705 \u2705 \u2705 \u2705 Falcon \u274c \u2705 \u2705 \u2705 \u2705 Gpt2 \u274c \u2705 \u2705 \u2705 \u2705 Grok1 \u274c \u2705 \u2705 \u2705 \u2705 Llama \u2705 \u2705 \u2705 \u2705 \u2705 Mistral \u2705 \u2705 \u2705 \u2705 \u2705 Olmo \u274c \u2705 \u2705 \u2705 \u2705 Phi \u274c \u2705 \u2705 \u2705 \u2705 Phi 3 \u274c \u2705 \u2705 \u2705 \u2705 Qwen2 \u274c \u2705 \u2705 \u2705 \u2705 Rwkv \u274c \u2705 \u274c \u2705 \u2705 Whisper \u274c \u2705 \u2705 \u2705 \u2705 <p>you can also tell me the model you want in Flax/Jax version and ill try my best to build it ;)</p> <p>More Models might have been added to <code>~HEAD</code> but not mentioned here </p>"},{"location":"Bits/","title":"Easy Bits","text":""},{"location":"Bits/#about-bits-in-easydel","title":"About Bits in EasyDeL","text":"<p>In easydel bits are totally different from huggingface and in EasyDeL training model with 8 bit is supported too without needs to change the code just change the bit and that's all you have todo but by the way you still have to pass the dtype and param_dtype cause unlike the transformers and bitsandbytes which store parameters in int8 and do operations in float16, bfloat16, float32 we don't do that like this in Jax we still store parameters as float16,bfloat16 or float32 and do operations in bits like 8 6 4, and you can still train your model in this way and make it much more accurate than bitsandbytes or peft fine-tuning</p> <p>Right now im looking to make EasyBITs in EasyDeL work on TPU-v3 cause on low amp GPUs and old TPUs it might now work as good as it does on TPU-v4/5</p>"},{"location":"CONTRIBUTING/","title":"Contributing to EasyDeL","text":"<p>Thank you for considering contributing to EasyDeL! We welcome your input. To ensure a smooth collaboration, please review and adhere to the following guidelines.</p>"},{"location":"CONTRIBUTING/#how-to-contribute","title":"How to Contribute","text":"<p>To contribute to EasyDeL, follow these steps: 1. Fork the repository. 2. Create a new branch for your feature or bug fix. 3. Make your changes and commit them with clear and descriptive messages. 4. Push your changes to your branch in your forked repository. 5. Submit a pull request to the main EasyDeL repository, detailing the changes you've made and the problem it solves.</p>"},{"location":"CONTRIBUTING/#code-of-conduct","title":"Code of Conduct","text":"<p>Please adhere to the Apache Code of Conduct in all interactions related to EasyDeL.</p>"},{"location":"CONTRIBUTING/#reporting-bugs","title":"Reporting Bugs","text":"<p>If you encounter a bug, please open an issue on the EasyDeL repository, providing a clear and detailed description of the issue, including steps to reproduce it.</p>"},{"location":"CONTRIBUTING/#suggesting-enhancements","title":"Suggesting Enhancements","text":"<p>If you have ideas for enhancements, feel free to open an issue on the EasyDeL repository. Provide a clear and detailed description of your proposed enhancement.</p>"},{"location":"CONTRIBUTING/#development-setup","title":"Development Setup","text":"<p>To set up EasyDeL for development, follow the instructions in the README.md file.</p>"},{"location":"CONTRIBUTING/#pull-request-guidelines","title":"Pull Request Guidelines","text":"<p>When submitting a pull request, please ensure the following: - Your code follows the project's coding standards. - Your commits are accompanied by clear and descriptive messages. - Your pull request addresses a single issue or feature.</p>"},{"location":"CONTRIBUTING/#license","title":"License","text":"<p>By contributing to EasyDeL, you agree that your contributions will be licensed under the Apache License, Version 2.0.</p> <p>Thank you for your interest in contributing to EasyDeL! We appreciate your support.</p>"},{"location":"DataProcessing/","title":"DataProcessing","text":""},{"location":"DataProcessing/#data-processing","title":"Data Processing","text":"<p>here in this case you will see an example data required by EasyDeL to pre-train or fine-tune models</p> <pre><code>from datasets import load_dataset\nfrom easydel.data_preprocessing import DataProcessor, DataProcessorArguments\nfrom transformers import LlamaTokenizerFast\n\n\ndef main():\n    tokenizer = LlamaTokenizerFast.from_pretrained(\"meta-llama/Llama-2-7b-chat-hf\")\n    dataset = load_dataset(\"erfanzar/orca-lite\")\n    print(dataset)\n\n    #     DatasetDict({\n    #         train: Dataset({\n    #             features: ['user', 'gpt', 'system', 'llama_2_prompt_style', 'prompt_length'],\n    #             num_rows: 101397\n    #         })\n    #     })\n\n    processor_arguments = DataProcessorArguments(\n        max_position_embeddings=2048,\n        num_proc=6,\n        prompt_field='llama_2_prompt_style',\n\n    )\n\n    easydel_dataset = DataProcessor.process_data(\n        data=dataset['train'],\n        tokenizer=tokenizer,\n        arguments=processor_arguments,\n        field='train'\n    )\n    print(easydel_dataset)\n    # DatasetDict({\n    #     train: Dataset({\n    #         features: ['input_ids', 'attention_mask'],\n    #         num_rows: 101397\n    #     })\n    # })\n\n\nif __name__ == \"__main__\":\n    main()\n</code></pre> <p>now you can pass this data to Trainer and train your model \ud83d\ude07.</p>"},{"location":"EasyAttentionExample/","title":"AttentionModule","text":""},{"location":"EasyAttentionExample/#what-is-attentionmodule","title":"what is <code>AttentionModule</code>","text":"<p>AttentionModule is a EasyDeL module that can perform attention operation with different strategies to help user achieve the best possible performance and numerical stability, here are some strategies supported right now.</p> <ol> <li>Flash Attention TPU known as \"flash\"</li> <li>Flash Attention GPU known as \"cudnn\"</li> <li>Ring Attention to Support higher context length such 1 Million or above known as \"ring\"</li> <li>Normal Attention which use flax.linen.attention with shard map known as \"vanilla\"</li> <li>Splash Attention on TPUs which is known as \"splash\"</li> <li>Local Ring attention via \"local_ring\"</li> <li>Wise Ring attention via \"wise_ring\"</li> <li>sharded Attention with shard map known as \"sharded_vanilla\"</li> </ol>"},{"location":"EasyAttentionExample/#example-of-using-flash-attention-on-tpu","title":"Example of Using Flash Attention on TPU","text":"<pre><code>import jax\nimport flax.linen.attention as flt\nfrom fjformer import GenerateRNG\nfrom easydel.modules.attention_module import AttentionModule\nfrom easydel.modules.easydel_modelling_utils import EasyDeLPretrainedConfig\nfrom jax import numpy as jnp, random, lax\nimport math\n\nrng_gen = GenerateRNG(seed=42)\nconfig = EasyDeLPretrainedConfig(\n    axis_dims=(1, -1, 1, 1),\n    axis_names=(\"dp\", \"fsdp\", \"tp\", \"sp\"),\n    block_q=512,\n    block_k=512\n)\n\nBATCH_SIZE = len(jax.devices())\nNUM_ATTN_HEADS = 32\nCONTEXT_LENGTH = 8192\nHEAD_DIM = 256\n\n\ndef make_fake_input_data(\n        batch_size: int,\n        num_attention_head: int,\n        context_length: int,\n        head_dim: int,\n):\n    q = random.normal(next(rng_gen), (batch_size, context_length, num_attention_head, head_dim), dtype=jnp.float32)\n    k = random.normal(next(rng_gen), (batch_size, context_length, num_attention_head, head_dim), dtype=jnp.float32)\n    v = random.normal(next(rng_gen), (batch_size, context_length, num_attention_head, head_dim), dtype=jnp.float32)\n\n    attention_mask = jnp.ones((batch_size, context_length))\n    causal_mask = flt.make_causal_mask(attention_mask)\n\n    cm_ = jnp.broadcast_to(causal_mask, (batch_size,) + causal_mask.shape[1:])\n    at_ = jnp.broadcast_to(jnp.expand_dims(attention_mask, axis=(-3, -2)), cm_.shape)\n    at_ = flt.combine_masks(at_, cm_)\n\n    attention_bias = lax.select(\n        at_ &gt; 0,\n        jnp.full(at_.shape, 0.0).astype(jnp.float32),\n        jnp.full(at_.shape, jnp.finfo(jnp.float32).min).astype(jnp.float32),\n    )\n\n    return (\n        q, k, v, attention_mask, causal_mask, attention_bias\n    )\n\n\nq, k, v, attention_mask, causal_mask, attention_bias = make_fake_input_data(\n    BATCH_SIZE,\n    NUM_ATTN_HEADS,\n    CONTEXT_LENGTH,\n    HEAD_DIM\n)\n\nflash_attention = AttentionModule(\n\n    block_k_major=config.block_k_major,\n    block_b=config.block_b,\n    block_q=config.block_q,\n    block_k=config.block_k,\n    block_q_major_dkv=config.block_q_major_dkv,\n    block_k_major_dkv=config.block_k_major_dkv,\n    block_k_major_dq=config.block_k_major_dq,\n    block_k_dkv=config.block_k_dkv,\n    block_q_dkv=config.block_q_dkv,\n    block_q_dq=config.block_q_dq,\n    block_k_dq=config.block_k_dq,\n    num_attention_heads=NUM_ATTN_HEADS,\n    attention_dropout=0.0,\n    head_dims=HEAD_DIM,\n    attention_partition_spec=config.attention_partition_spec,\n    shard_attention_computation=config.shard_attention_computation,\n    precision=lax.Precision(\"fastest\"),\n    force_float32_tpu=True,\n    attn_mechanism=\"flash\",\n    dtype=jnp.float32,\n    bias_partition_spec=config.bias_partition_spec,\n    key_partition_spec=config.key_partition_spec,\n    query_partition_spec=config.query_partition_spec,\n    generation_query_partition_spec=config.generation_query_partition_spec,\n    generation_bias_partition_spec=config.generation_bias_partition_spec,\n    value_partition_spec=config.value_partition_spec,\n    scan_ring_attention=config.scan_ring_attention,\n    mesh=config.jax_mesh(),\n    sm_scale=1 / math.sqrt(q.shape[-1]),\n)\n\nnormal_attention = AttentionModule(\n\n    block_k_major=config.block_k_major,\n    block_b=config.block_b,\n    block_q=config.block_q,\n    block_k=config.block_k,\n    block_q_major_dkv=config.block_q_major_dkv,\n    block_k_major_dkv=config.block_k_major_dkv,\n    block_k_major_dq=config.block_k_major_dq,\n    block_k_dkv=config.block_k_dkv,\n    block_q_dkv=config.block_q_dkv,\n    block_q_dq=config.block_q_dq,\n    block_k_dq=config.block_k_dq,\n    num_attention_heads=NUM_ATTN_HEADS,\n    attention_dropout=0.0,\n    head_dims=HEAD_DIM,\n    attention_partition_spec=config.attention_partition_spec,\n    shard_attention_computation=config.shard_attention_computation,\n    precision=lax.Precision(\"fastest\"),\n    force_float32_tpu=True,\n    attn_mechanism=\"normal\",\n    dtype=jnp.float32,\n    bias_partition_spec=config.bias_partition_spec,\n    key_partition_spec=config.key_partition_spec,\n    query_partition_spec=config.query_partition_spec,\n    generation_query_partition_spec=config.generation_query_partition_spec,\n    generation_bias_partition_spec=config.generation_bias_partition_spec,\n    value_partition_spec=config.value_partition_spec,\n    scan_ring_attention=config.scan_ring_attention,\n    mesh=config.jax_mesh(),\n    sm_scale=1 / math.sqrt(q.shape[-1]),\n)\n\nwith config.jax_mesh():\n    flash_attn_out = flash_attention(\n        query_states=q,\n        key_states=k,\n        value_states=v,\n        bias=attention_bias,\n        key_value_sequence_length=CONTEXT_LENGTH,\n        query_sequence_length=CONTEXT_LENGTH\n    )\n    normal_attn_out = normal_attention(\n        query_states=q,\n        key_states=k,\n        value_states=v,\n        bias=attention_bias,\n        key_value_sequence_length=CONTEXT_LENGTH,\n        query_sequence_length=CONTEXT_LENGTH\n    )\n\nprint(\n    flash_attn_out.attention_outputs[0, CONTEXT_LENGTH - 5, NUM_ATTN_HEADS - 1, HEAD_DIM - 10:]\n)\n# Array([-0.05915311,  0.0078501 ,  0.03785717,  0.0134844 ,  0.08464689,\n#        0.06667967, -0.02629154, -0.0180066 , -0.02972782,  0.02833381],      dtype=float32)\nprint(\n    normal_attn_out.attention_outputs[0, CONTEXT_LENGTH - 5, NUM_ATTN_HEADS - 1, HEAD_DIM - 10:]\n)\n\n# Array([-0.0590958 ,  0.00796138,  0.03789062,  0.01350671,  0.08461153,\n#        0.06662725, -0.0262386 , -0.01806086, -0.0296791 ,  0.02824247],      dtype=float32)\n</code></pre>"},{"location":"EasyStateExample/","title":"EasyState","text":""},{"location":"EasyStateExample/#easydelstate","title":"EasyDeLState","text":"<p>EasyDeLState is a cool feature in easydel and have a lot of options like storing <code>Model Parameters</code>, Optimizer State, Model Config, Model Type, Optimizer and Scheduler Configs</p> <p>Let see and examples of using EasyDeLState</p>"},{"location":"EasyStateExample/#fine-tuning","title":"Fine-tuning","text":"<p>Fine-tuning from a previous State or a new state</p> <pre><code>from easydel import (\n    AutoEasyDeLConfig,\n    EasyDeLState\n)\nfrom transformers import AutoTokenizer\nfrom jax import numpy as jnp, lax\nimport jax\n\nhuggingface_model_repo_id = \"REPO_ID\"\ncheckpoint_name = \"CKPT_NAME\"\n\nstate = EasyDeLState.from_pretrained(\n    pretrained_model_name_or_path=huggingface_model_repo_id,\n    filename=checkpoint_name,\n    optimizer=\"adamw\",\n    scheduler=\"none\",\n    tx_init=None,\n    device=jax.devices('cpu')[0],  # Offload Device\n    dtype=jnp.bfloat16,\n    param_dtype=jnp.bfloat16,\n    precision=lax.Precision(\"fastest\"),\n    sharding_axis_dims=(1, -1, 1, 1),\n    sharding_axis_names=(\"dp\", \"fsdp\", \"tp\", \"sp\"),\n    query_partition_spec=jax.sharding.PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n    key_partition_spec=jax.sharding.PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n    value_partition_spec=jax.sharding.PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n    bias_partition_spec=jax.sharding.PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n    attention_partition_spec=jax.sharding.PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n    shard_attention_computation=False,\n    input_shape=(1, 1),\n    backend=None,\n    init_optimizer_state=False,\n    free_optimizer_state=True,\n    verbose=True,\n    state_shard_fns=None,\n)\n\nconfig = AutoEasyDeLConfig.from_pretrained(\n    huggingface_model_repo_id\n)\n\ntokenizer = AutoTokenizer.from_pretrained(\n    huggingface_model_repo_id,\n    trust_remote_code=True\n)\n\nmax_length = config.max_position_embeddings\n\nconfigs_to_initialize_model_class = {\n    'config': config,\n    'dtype': jnp.bfloat16,\n    'param_dtype': jnp.bfloat16,\n    'input_shape': (8, 8)\n}\n</code></pre> <p><code>EasyDeLState</code> also has <code>.load_state()</code> and <code>.save_state()</code> with some other usable options like <code>.free_opt_state()</code> which free optimizer state or <code>.shard_params()</code> which shard parameters you can read docs in order to find out more about these options.</p>"},{"location":"EasyStateExample/#converting-to-huggingface-and-pytorch","title":"Converting to Huggingface and Pytorch","text":"<p>Let see how you can convert a EasyDeLMistral Model to Huggingface Pytorch Mistral Model from a trained State</p> <pre><code>\nfrom transformers import MistralForCausalLM\nfrom easydel import (\n    AutoEasyDeLConfig,\n    EasyDeLState,\n    easystate_to_huggingface_model\n)\nimport jax\n\nhuggingface_model_repo_id = \"REPO_ID\"\n\nconfig = AutoEasyDeLConfig.from_pretrained(\n    huggingface_model_repo_id\n)\nwith jax.default_device(jax.devices(\"cpu\")[0]):\n    model = easystate_to_huggingface_model(\n        state=EasyDeLState.load_state(\n            \"PATH_TO_CKPT\",\n            input_shape=(8, 2048)\n        ),  # You can Pass EasyDeLState here\n        base_huggingface_module=MistralForCausalLM,\n        config=config,\n    )\n\nmodel = model.half()  # it's a huggingface model now\n</code></pre>"},{"location":"EasyStateExample/#other-use-cases","title":"Other Use Cases","text":"<p><code>EasyDeLState</code> have a general use you can use it everywhere in easydel for example for a stand-alone model , serve, fine-tuning and many other features, it's up to you to test how creative you are \ud83d\ude07.</p>"},{"location":"Falcon/","title":"About Falcon Models","text":"<p>Sure, here is a document about Falcon Models:</p> <p>Falcon Models</p> <p>Falcon Models is a family of large language models (LLMs) developed by the Technology Innovation Institute (TII) in Abu Dhabi. The models are trained on a massive dataset of text and code, and can be used for a variety of tasks, including</p> <ul> <li>Natural language understanding (NLU)</li> <li>Natural language generation (NLG)</li> <li>Machine translation</li> <li>Text summarization</li> <li>Question answering</li> <li>Code generation</li> </ul> <p>The Falcon models are available under the Apache 2.0 license, which means that they can be freely used, modified, and redistributed.</p> <p>Falcon-40B</p> <p>The Falcon-40B is the largest model in the Falcon family. It has 40 billion parameters, and is trained on a dataset of 500 billion words. The model is capable of state-of-the-art performance on a variety of NLP tasks.</p> <p>Falcon-7B</p> <p>The Falcon-7B is a smaller version of the Falcon-40B. It has 7 billion parameters, and is trained on a dataset of 100 billion words. The model is still capable of achieving strong performance on NLP tasks, but it is more efficient to train and deploy.</p> <p>Falcon-180B</p> <p>The Falcon-180B is the newest model in the Falcon family. It has 180 billion parameters, and is trained on a dataset of 2 trillion words. The model is the largest openly available LLM, and it is capable of achieving state-of-the-art performance on a variety of NLP tasks.</p> <p>Use Cases</p> <p>The Falcon models can be used for a variety of tasks, including:</p> <ul> <li>Natural language understanding (NLU): The Falcon models can be used to understand the meaning of text, such as   identifying the entities and relationships in a sentence.</li> <li>Natural language generation (NLG): The Falcon models can be used to generate text, such as writing different kinds of   creative content, like poems, code, scripts, musical pieces, email, letters, etc.</li> <li>Machine translation: The Falcon models can be used to translate text from one language to another.</li> <li>Text summarization: The Falcon models can be used to summarize a text document into a shorter, more concise version.</li> <li>Question answering: The Falcon models can be used to answer questions about a text document.</li> <li>Code generation: The Falcon models can be used to generate code, such as Python scripts or Java classes.</li> </ul> <p>Availability</p> <p>The Falcon models are available through the Hugging Face Hub. The models are also available in the TensorFlow Hub and the PyTorch Hub ( and EasyDeL).</p> <p>Conclusion</p> <p>The Falcon models are a powerful family of LLMs that can be used for a variety of tasks. The models are open source and available for free, making them a valuable resource for researchers and developers.</p>"},{"location":"Falcon/#how-to-useload-them-in-easydel","title":"How to Use/Load Them in EasyDeL","text":"<pre><code>import jax\nfrom easydel import AutoEasyDeLModelForCausalLM\n\nmodel, params = AutoEasyDeLModelForCausalLM.from_pretrained(\n    'tiiuae/falcon-7b',\n    # other kwargs\n)\n</code></pre> <p>also keep that in mind that returned <code>config</code> includes <code>.get_partition_rules(fsdp=True)</code></p>"},{"location":"Falcon/#use-with-jaxserver","title":"Use With JaxServer","text":"<pre><code>from easydel.serve import JAXServer, JAXServerConfig\nfrom easydel import AutoEasyDeLModelForCausalLM\nfrom transformers import AutoTokenizer\n\nmodel, params = AutoEasyDeLModelForCausalLM.from_pretrained(\n    'tiiuae/falcon-7b',\n    # other kwargs\n)\n\n\nclass FalconJaxServer(JAXServer):\n    ...\n    # You have to Custom this one yourself as you \n    # need read JaxServer Documents inorder to learn how\n\n\nserver = FalconJaxServer.from_parameters(\n    params=params,\n    model=model,\n    config_model=model.config,\n    add_params_field=True,\n    tokenizer=AutoTokenizer.from_pretrained('tiiuae/falcon-7b'),\n    verbose=False,\n    do_memory_log=True,\n    server_config=JAXServerConfig()\n)\n\nserver.fire()  # Launch FastAPI functions\n\nshared_urls = server.launch(\n    share_chat=True,\n    share_inst=True\n)\n</code></pre> <p>Done \ud83d\ude07 this method can be used for all the Falcon models</p>"},{"location":"FineTuningExample/","title":"Fine Tuning Example","text":""},{"location":"FineTuningExample/#finetuning-causal-language-model","title":"FineTuning Causal Language Model \ud83e\udd75","text":"<p>with using EasyDeL FineTuning LLM (CausalLanguageModels) are easy as much as possible with using Jax and Flax and having the benefit of <code>TPUs</code> for the best speed here's a simple code to use in order to finetune your own Model</p> <p>Days Has Been Passed and now using easydel in Jax is way more similar to HF/PyTorch Style now it's time to finetune our model.</p> <pre><code>import jax.numpy\nfrom easydel import (\n    TrainArguments,\n    CausalLanguageModelTrainer,\n    AutoEasyDeLModelForCausalLM,\n    EasyDeLOptimizers,\n    EasyDeLSchedulers,\n    EasyDeLGradientCheckPointers\n)\nfrom datasets import load_dataset\nimport flax\nfrom jax import numpy as jnp\nfrom transformers import AutoTokenizer\n\nhuggingface_repo_id_or_path = \"TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T\"\n\nmodel, params = AutoEasyDeLModelForCausalLM.from_pretrained(huggingface_repo_id_or_path, )\n\nmax_length = 2048\ntokenizer = AutoTokenizer.from_pretrained(\n    huggingface_repo_id_or_path,\n    trust_remote_code=True\n)\ntokenizer.pad_token = tokenizer.eos_token\n\nmodel.config.add_basic_configurations(\n    attn_mechanism=\"flash\",  # Change to 'normal' if the model you are using\n    # don't support flash attention, or you don't want to apply flash attention for the model\n    block_b=1,\n    block_q=1024,\n    block_k=1024,\n    block_k_major=1024,\n)\n\nconfigs_to_initialize_model_class = {\n    \"config\": model.config,\n    \"dtype\": jnp.bfloat16,\n    \"param_dtype\": jnp.bfloat16,\n    \"input_shape\": (1, 1)\n}\n\ntrain_arguments = TrainArguments(\n    model_class=type(model),\n    model_name=\"my_first_model_to_train_using_easydel\",\n    num_train_epochs=3,\n    configs_to_initialize_model_class=configs_to_initialize_model_class,\n    learning_rate=5e-5,\n    learning_rate_end=1e-6,\n    optimizer=EasyDeLOptimizers.ADAMW,  # \"adamw\", \"lion\", \"adafactor\" are supported\n    scheduler=EasyDeLSchedulers.LINEAR,\n    # \"linear\",\"cosine\", \"none\" ,\"warm_up_cosine\" and \"warm_up_linear\"  are supported\n    weight_decay=0.01,\n    total_batch_size=64,\n    max_training_steps=None,  # None to let trainer Decide\n    do_train=True,\n    do_eval=False,  # it's optional but supported \n    backend=\"tpu\",  # default backed is set to cpu, so you must define you want to use tpu cpu or gpu\n    max_length=max_length,  # Note that you have to change this in the model config too\n    gradient_checkpointing=EasyDeLGradientCheckPointers.NOTHING_SAVEABLE,\n    sharding_array=(1, -1, 1, 1),  # the way to shard model across gpu,cpu or TPUs using sharding array (1, -1, 1, 1)\n    # everything training will be in fully FSDP automatic and share data between devices\n    remove_ckpt_after_load=True,\n    gradient_accumulation_steps=8,\n    loss_re_mat=\"\",\n    dtype=jnp.bfloat16\n)\n\n\ndef ultra_chat_prompting_process(\n        data_chunk\n):\n    user_part = [\n        chunk[\"content\"] for chunk in data_chunk[\"messages\"] if chunk[\"role\"] == \"user\"\n    ]\n    assistant_part = [\n        chunk[\"content\"] for chunk in data_chunk[\"messages\"] if chunk[\"role\"] == \"assistant\"\n    ]\n\n    prompt = \"\"\n\n    for uc, ac in zip(user_part, assistant_part):\n        prompt += f\"&lt;|user|&gt;\\n{uc}&lt;/s&gt;\\n&lt;|assistant|&gt;\\n{ac}&lt;/s&gt;\\n\"\n\n    return {\"prompt\": prompt}\n\n\ntokenization_process = lambda data_chunk: tokenizer(\n    data_chunk[\"prompt\"],\n    add_special_tokens=False,\n    max_length=max_length,\n    padding=\"max_length\"\n)\n\ndataset = load_dataset(\"HuggingFaceH4/ultrachat_200k\")\ndataset_train = dataset[\"train_gen\"].map(ultra_chat_prompting_process, num_proc=12)\ndataset_train = dataset_train.map(\n    tokenization_process,\n    num_proc=12,\n    remove_columns=dataset_train.column_names\n)\n\n# you can do the same for evaluation process dataset\n\ntrainer = CausalLanguageModelTrainer(\n    train_arguments,\n    dataset_train,\n    checkpoint_path=None\n)\n\noutput = trainer.train(flax.core.FrozenDict({\"params\": params}))\nprint(f\"Hey ! , here's where your model saved {output.checkpoint_path}\")\n</code></pre>"},{"location":"Install/","title":"Installing EasyDeL","text":"<p>EasyDeL uses FJFormer and JAX as main dependencies in order to run the scripts but there are some things that needs to be installed such as GO-lang to JAX specific platform installations, but you can simply install EasyDeL via pip:</p> <pre><code>pip install easydel\n</code></pre>"},{"location":"Install/#installing-jax","title":"Installing Jax","text":"<p>JAX uses XLA to compile and run your NumPy programs on GPUs and TPUs. Compilation happens under the hood by default, with library calls getting just-in-time compiled and executed. But JAX also lets you just-in-time compile your own Python functions into XLA-optimized kernels using a one-function API, jit.</p> <p>you can install other version too but easydel required at least version of 0.4.16</p>"},{"location":"Install/#tpu","title":"TPU","text":"<pre><code>!pip install jax[tpu] -f https://storage.googleapis.com/jax-releases/libtpu_releases.html -q\n</code></pre>"},{"location":"Install/#gpu","title":"GPU","text":""},{"location":"Install/#cuda-12","title":"CUDA-12","text":"<pre><code>pip install --upgrade pip\n# CUDA 12 installation\n# Note: wheels only available on linux.\npip install --upgrade \"jax[cuda12_pip]\" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html\n</code></pre>"},{"location":"Install/#cuda-11","title":"CUDA-11","text":"<pre><code>pip install --upgrade pip\n# CUDA 11 installation\n# Note: wheels only available on linux.\npip install --upgrade \"jax[cuda11_pip]\" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html\n</code></pre>"},{"location":"Install/#installing-go","title":"Installing GO","text":""},{"location":"Install/#note-this-library-needs-golang-to-run-for-some-tracking-stuff-on-tpugpucpu","title":"Note this Library needs golang to run (for some tracking stuff on TPU/GPU/CPU)","text":""},{"location":"Install/#ubuntu-go-installation","title":"Ubuntu GO installation","text":"<pre><code>sudo apt-get update &amp;&amp; apt-get upgrade -y\nsudo apt-get install golang -y \n</code></pre>"},{"location":"Install/#manjaroarch-go-installation","title":"Manjaro/Arch GO installation","text":"<pre><code>sudo pacman -Syyuu go\n</code></pre>"},{"location":"JAXServer/","title":"JAXServer","text":""},{"location":"JAXServer/#jaxserver","title":"JAXServer \ud83e\uddec","text":"<p><code>JAXServer</code> is one of offered utilities by EasyDeL, and it's help hosting using and doing process with LLMs and its also hackable, so you can override your own method in it and use it support both mid-level and high-level apis and also give you a Gradio Chat and Instruct Pre-build and ready to use page</p> <ul> <li>Supported Models are:<ul> <li>EveryModel that have <code>transformers.FlaxPretrainedModel</code> as their Parent :)</li> </ul> </li> </ul>"},{"location":"JAXServer/#input-configs","title":"Input Configs","text":"<p>The config input is a dictionary that contains the following keys:</p> <ul> <li><code>port</code>: The port number that the server will listen on.<ul> <li>Default Value has been set to  <code>2059</code></li> </ul> </li> <li><code>batch_size</code>: The batch size for training.<ul> <li>Default Value has been set to  <code>1</code></li> </ul> </li> <li><code>max_sequence_length</code>: The maximum length of a sequence.<ul> <li>Default Value has been set to  <code>2048</code></li> </ul> </li> <li><code>max_new_tokens</code>: The maximum number of new tokens generated by the model in a single step.<ul> <li>Default Value has been set to  <code>2048</code></li> </ul> </li> <li><code>max_compile_tokens</code>: The maximum number of tokens that can be streamed to the model in a single batch.<ul> <li>Default Value has been set to  <code>32</code></li> </ul> </li> <li><code>temperature</code>: The temperature parameter for sampling from the model's output distribution.<ul> <li>Default Value has been set to  <code>0.1</code></li> </ul> </li> <li><code>top_p</code>: The top-p parameter for sampling from the model's output distribution.<ul> <li>Default Value has been set to  <code>0.95</code></li> </ul> </li> <li><code>top_k</code>: The top-k parameter for sampling from the model's output distribution.<ul> <li>Default Value has been set to  <code>50</code></li> </ul> </li> <li><code>mesh_axes_shape</code>: The shape of the mesh axes for distributed training.<ul> <li>Default Value has been set to  <code>(1, -1, 1, 1)</code></li> </ul> </li> <li><code>host</code>: The host address for the server.<ul> <li>Default Value has been set to  <code>'0.0.0.0'</code></li> </ul> </li> <li><code>dtype</code>: The data type for the model's parameters.<ul> <li>Default Value has been set to  <code>'fp16'</code></li> </ul> </li> <li><code>mesh_axes_names</code>: The names of the mesh axes for distributed training.<ul> <li>Default Value has been set to  <code>(\"dp\", \"fsdp\", \"tp\", \"sp\")</code></li> </ul> </li> <li><code>logging</code>: Whether the model should log its training progress.:<ul> <li>Default Value has been set to  <code>True</code></li> </ul> </li> <li><code>stream_tokens_for_gradio</code>: Whether the model should stream tokens to Gradio.<ul> <li>Default Value has been set to  <code>True</code></li> </ul> </li> <li><code>use_prefix_tokenizer</code>: Whether the model should use a prefix tokenizer.<ul> <li>Default Value has been set to  <code>True</code></li> </ul> </li> <li><code>pre_compile</code>: Whether the model should be pre-compiled.<ul> <li>Default Value has been set to  <code>True</code></li> </ul> </li> </ul>"},{"location":"JAXServer/#jaxserver-functions","title":"JAXServer Functions","text":"<p><code>JAXServer</code> has <code>format_chat</code> and <code>format_instruct</code> funcs that you have to implement them to prompt your model</p> <pre><code>\ndef format_instruct(self, system: str, instruction: str) -&gt; str:\n    \"\"\"\n    Here you will get the system and instruction from user, and you can apply your prompting style\n    \"\"\"\n    raise NotImplementedError()\n\n\ndef format_chat(self, history: typing.List[str], prompt: str, system: typing.Union[str, None]) -&gt; str:\n    \"\"\"\n    Here you will get the system, prompt and history from user, and you can apply your prompting style\n    \"\"\"\n    raise NotImplementedError()\n</code></pre> <p><code>JAXServer</code> Contains a method named <code>.sample</code> and with using <code>sample</code> method you can generate text from text</p> <p>what does this do and how this works ? here's the inputs that <code>sample</code> function takes in</p> <pre><code>def sample(self,\n           string,\n           *,\n           greedy: bool = False,\n           max_new_tokens: int = None,\n           **kwargs\n           ) -&gt; [str, int]:\n    ...\n</code></pre> <ul> <li>Arguments:<ul> <li>string : String to be tokenized <code>(String)</code></li> <li>Greedy : Use Greedy Search Method or NO <code>(Bool)</code></li> <li>Max New Tokens : Number Of new Tokens to be Generated <code>(Int)</code></li> </ul> </li> <li>Yields:<ul> <li>String : Next Tokens Predicted to String <code>(String)</code></li> <li>Number of Used Tokens : Number of Used Tokens to generate answer <code>(Int)</code></li> </ul> </li> </ul> <p>you can use this function outside the class like this</p> <pre><code>for string, num_used_tokens in server.sample(\n        'im a string',\n        greedy=False,\n        max_new_tokens=256  # or None to use Maximum numbers passed in Config\n):\n    print(f'\\r{num_used_tokens}: {string}', end=\"\")\n</code></pre>"},{"location":"JAXServer/#gradio-functions","title":"Gradio Functions \ud83e\udd16","text":"<p>if you want to change gradio response functions you can override them like this</p>"},{"location":"JAXServer/#chat-gradio-function","title":"Chat Gradio Function","text":"<p>this is the default gradio functions and this is how it looks :</p> <pre><code>def sample_gradio_chat(self, prompt, history, max_new_tokens, system, greedy):\n    string = self.chat_format(history=history, prompt=prompt, system=system)\n\n    if not self.config.stream_tokens_for_gradio:\n        response = \"\"\n        for response, _ in self.sample(\n                string=string,\n                greedy=greedy,\n                max_new_tokens=max_new_tokens,\n        ):\n            ...\n        history.append([prompt, response])\n    else:\n        history.append([prompt, \"\"])\n        for response, _ in self.sample(\n                string=string,\n                greedy=greedy,\n                max_new_tokens=max_new_tokens,\n        ):\n            history[-1][-1] = response\n            yield \"\", history\n    return \"\", history\n</code></pre> <p>and here's a example of changing that in order to use Llama Models</p> <pre><code>def sample_gradio_chat(self, prompt, history, max_new_tokens, system, greedy):\n    def prompt_llama2_model(message: str, chat_history,\n                            system_prompt: str) -&gt; str:\n\n        do_strip = False\n        texts = [f'&lt;s&gt;[INST] &lt;&lt;SYS&gt;&gt;\\n{system_prompt}\\n&lt;&lt;/SYS&gt;&gt;\\n\\n']\n        for user_input, response in chat_history:\n            user_input = user_input.strip() if do_strip else user_input\n            do_strip = True\n            texts.append(f'{user_input} [/INST] {response.strip()} &lt;/s&gt;&lt;s&gt;[INST] ')\n        message = message.strip() if do_strip else message\n        texts.append(f'{message} [/INST]')\n        return \"\".join(texts)\n\n    string = prompt_llama2_model(\n        message=prompt,\n        chat_history=history or [],\n        system_prompt=system\n    )\n    if not self.config.stream_tokens_for_gradio:\n        response = \"\"\n        for response, _ in self.sample(\n                string=string,\n                greedy=greedy,\n                max_new_tokens=max_new_tokens,\n        ):\n            ...\n        history.append([prompt, response])\n    else:\n        history.append([prompt, \"\"])\n        for response, _ in self.sample(\n                string=string,\n                greedy=greedy,\n                max_new_tokens=max_new_tokens\n        ):\n            history[-1][-1] = response\n            yield \"\", history\n\n    return \"\", history\n\n</code></pre> <p>as you see you can easily override the functions just like how you want and use them with some simple changes, and you can Also Use Their <code>Gradio Client</code> or use <code>JAXServer</code> <code>FastAPI</code> builtin methods</p>"},{"location":"JAXServer/#fastapi","title":"FastAPI \ud83c\udf2a","text":""},{"location":"JAXServer/#instruct-api","title":"Instruct API","text":"<p>to Override this api you have to code <code>forward_instruct</code> just like what you want the default implementation of this function is</p> <pre><code>def forward_instruct(self, data: InstructRequest):\n    if not self._funcs_generated:\n        return {\n            'status': \"down\"\n        }\n\n    string = self.config.instruct_format.format(instruct=data.prompt, system=data.system)\n    response, used_tokens = [None] * 2\n    for response, used_tokens in self.sample(\n            string=string,\n            greedy=data.greedy,\n            max_new_tokens=None\n    ):\n        ...\n    self.number_of_served_request_until_last_up_time += 1\n    return {\n        'input': f'{string}',\n        'response': response,\n        'tokens_used': used_tokens,\n    }\n</code></pre> <ul> <li>BaseModel Class For PYData in FastAPI :</li> </ul> <pre><code>class InstructRequest(BaseModel):\n    prompt: str\n    system: Optional[str] = None\n    temperature: Optional[float] = None\n    greedy: Optional[bool] = False\n</code></pre> <ul> <li>And here's an example of using this api via python and creating a simple client with using <code>requests</code> library in   python :</li> </ul> <pre><code>import requests\n\ncontent = {\n    'prompt': 'can you code a simple neural network in c++ for me',\n    'system': 'You are an AI assistant generate short and useful response',\n    'temperature': 0.1,\n    'greedy': False\n}\n\nresponse = requests.post(\n    url='http://ip:port/instruct',\n    json=content\n).json()\n\nprint(response['response'])\n# Response of model\nprint(response['input'])\n# The input passed to the model\n\n</code></pre>"},{"location":"JAXServer/#chat-api","title":"Chat API","text":"<p>to Override this api you have to code <code>forward_chat</code> just like what you want the default implementation of this function is</p> <pre><code>def forward_chat(self, data: ChatRequest):\n    if not self._funcs_generated:\n        return {\n            'status': \"down\"\n        }\n\n    history = self.process_chat_history(data.history or [])\n    history += self.config.prompt_prefix_chat + data.prompt + self.config.prompt_postfix_chat\n\n    response, used_tokens = [None] * 2\n    for response, used_tokens in self.process(\n            string=history,\n            greedy=data.greedy,\n            max_new_tokens=None\n    ):\n        ...\n    self.number_of_served_request_until_last_up_time += 1\n    return {\n        'input': f'{history}',\n        'response': response,\n        'tokens_used': used_tokens,\n    }\n</code></pre> <ul> <li>BaseModel Class For PYData in FastAPI :</li> </ul> <pre><code>class ChatRequest(BaseModel):\n    prompt: str\n    history: Union[List[List], None] = None\n    temperature: Optional[float] = None\n    greedy: Optional[bool] = False\n</code></pre> <ul> <li>And here's an example of using this api via python and creating a simple client with using <code>requests</code> library in   python :</li> </ul> <pre><code>import requests\n\ncontent = {\n    'prompt': 'can you code a simple neural network in c++ for me',\n    'history': [\n        ['hello how are you', 'Hello\\nthanks, im here to assist you you have any question that i could help you with']\n    ],\n    'temperature': 0.1,\n    'greedy': False\n}\n\nresponse = requests.post(\n    url='http://ip:port/chat',\n    json=content\n).json()\n\nprint(response['response'])\n# Response of model\nprint(response['input'])\n# The input passed to the model\n\n</code></pre>"},{"location":"JAXServer/#status","title":"Status \ud83d\udce3","text":"<p>Simply by sending a get API to <code>https://ip:port/status</code> you will receive base information about the server and how it being run, num cores in use, number of generated prompt , number of request and ...</p>"},{"location":"Llama/","title":"About Llama Models","text":"<ul> <li>Introduction</li> </ul> <p>Llama models are a family of large language models (LLMs) developed by Meta AI. They are trained on a massive dataset of text and code, and they can be used for a variety of tasks, such as text generation, translation, summarization, question answering, code generation, and natural language inference.</p> <ul> <li>Model Architecture</li> </ul> <p>Llama models are based on the Transformer architecture, which is a neural network architecture that has been shown to be very effective for natural language processing tasks. The Transformer architecture uses self-attention to learn long-range dependencies between words in a sentence.</p> <ul> <li>Training Data</li> </ul> <p>Llama models are trained on a massive dataset of text and code. The text dataset includes text from a variety of sources, such as books, articles, and websites. The code dataset includes code from a variety of programming languages, such as Python, Java, and C++.</p> <ul> <li>Fine-tuning</li> </ul> <p>After being pre-trained on a massive dataset, Llama models can be fine-tuned for specific tasks. Fine-tuning involves training the model on a smaller dataset of data that is relevant to the specific task.</p> <ul> <li>Applications</li> </ul> <p>Llama models can be used for a variety of tasks, such as:</p> <pre><code>* Text generation: Llama models can be used to generate text, such as poems, code, scripts, and musical pieces.\n* Translation: Llama models can be used to translate text from one language to another.\n* Summarization: Llama models can be used to summarize text.\n* Question answering: Llama models can be used to answer questions about text.\n* Code generation: Llama models can be used to generate code.\n* Natural language inference: Llama models can be used to determine the relationship between two sentences.\n</code></pre> <ul> <li>Availability</li> </ul> <p>Llama models are available for free for research and commercial use. They can be downloaded from the Hugging Face Hub.</p> <ul> <li>Limitations</li> </ul> <p>Llama models are still under development, and they have some limitations. For example, they can sometimes generate incorrect or misleading text. They can also be biased, reflecting the biases that are present in the training data.</p> <ul> <li>Future Work</li> </ul> <p>Llama models are a promising new technology with the potential to be used for a variety of applications. Future work on Llama models will focus on improving their accuracy, reducing their bias, and making them more robust to errors.</p> <ul> <li>Text generation</li> <li>Translation</li> <li>Summarization</li> <li>Question answering</li> <li>Code generation</li> <li>Natural language inference</li> </ul> <p>Here is a table comparing the different sizes of Llama models:</p> Model Parameters Llama 7B 7 billion Llama 13B 13 billion Llama 33B 33 billion Llama 65B 65 billion Llama 70B 70 billion"},{"location":"Llama/#how-to-useload-them-in-easydel","title":"How to Use/Load Them in EasyDeL","text":"<pre><code>from easydel import AutoEasyDeLModelForCausalLM\n\nmodel, params = AutoEasyDeLModelForCausalLM.from_pretrained(\n    'meta-llama/Llama-2-7b',\n    # other kwargs\n)\n</code></pre> <p>also keep that in mind that returned <code>config</code> includes <code>.get_partition_rules(fsdp=True)</code></p>"},{"location":"Llama/#use-with-jaxserver","title":"Use With JaxServer","text":"<pre><code>from easydel.serve import JAXServer, JAXServerConfig\nimport jax\nfrom transformers import AutoTokenizer\n\nfrom easydel import AutoEasyDeLModelForCausalLM\n\nmodel, params = AutoEasyDeLModelForCausalLM.from_pretrained(\n    'meta-llama/Llama-2-7b',\n    # other kwargs\n)\n\nDEFAULT_SYSTEM_PROMPT = \"You are a helpful, respectful and honest assistant and act as wanted\"\n\n\nclass Llama2JaxServer(JAXServer):\n    def sample_gradio_chat(self, prompt, history, max_new_tokens, system, greedy):\n\n        system = None if system == \"\" else system\n        string = self.prompt_llama2_model(\n            message=prompt,\n            chat_history=history or [],\n            system_prompt=system or DEFAULT_SYSTEM_PROMPT\n        )\n        if not self.server_config.stream_tokens_for_gradio:\n            response = \"\"\n            for response, _ in self.sample(\n                    string=string,\n                    greedy=greedy,\n                    max_new_tokens=max_new_tokens,\n            ):\n                ...\n            history.append([prompt, response])\n        else:\n            history.append([prompt, \"\"])\n            for response, _ in self.sample(\n                    string=string,\n                    greedy=greedy,\n                    max_new_tokens=max_new_tokens\n            ):\n                history[-1][-1] = response\n                yield \"\", history\n\n        return \"\", history\n\n    def sample_gradio_instruct(self, prompt, system, max_new_tokens, greedy):\n        string = self.prompt_llama2_model(system_prompt=DEFAULT_SYSTEM_PROMPT, message=prompt, chat_history=[])\n        if not self.server_config.stream_tokens_for_gradio:\n            response = \"\"\n            for response, _ in self.sample(\n                    string=string,\n                    greedy=greedy,\n                    max_new_tokens=max_new_tokens,\n            ):\n                pass\n        else:\n            response = \"\"\n            for response, _ in self.sample(\n                    string=string,\n                    greedy=greedy,\n                    max_new_tokens=max_new_tokens,\n                    stream=True\n            ):\n                yield \"\", response\n        return \"\", response\n\n    @staticmethod\n    def prompt_llama2_model(message: str, chat_history,\n                            system_prompt: str) -&gt; str:\n\n        do_strip = False\n        texts = [f'&lt;s&gt;[INST] &lt;&lt;SYS&gt;&gt;\\n{system_prompt}\\n&lt;&lt;/SYS&gt;&gt;\\n\\n']\n        for user_input, response in chat_history:\n            user_input = user_input.strip() if do_strip else user_input\n            do_strip = True\n            texts.append(f'{user_input} [/INST] {response.strip()} &lt;/s&gt;&lt;s&gt;[INST] ')\n        message = message.strip() if do_strip else message\n        texts.append(f'{message} [/INST]')\n        return \"\".join(texts)\n\n\nserver = Llama2JaxServer.from_parameters(\n    params=params,\n    model=model,\n    config_model=model.config,\n    add_params_field=True,\n    tokenizer=AutoTokenizer.from_pretrained('meta-llama/Llama-2-7b'),\n    verbose=False,\n    do_memory_log=True,\n    server_config=JAXServerConfig()\n)\n\nserver.fire()  # Launch FastAPI functions\n\nshared_urls = server.launch(\n    share_chat=True,\n    share_inst=True\n)\n</code></pre> <p>Done \ud83d\ude07 this method can be used for all the llama models</p>"},{"location":"Llama2/","title":"Llama2 Models","text":""},{"location":"Llama2/#about-llama2-models","title":"About Llama2 Models","text":"<p>Llama2 Models</p> <p>Llama2 Models is a family of pretrained and fine-tuned large language models (LLMs) developed by Meta AI. The models are trained on a massive dataset of text and code, and can be used for a variety of tasks, including</p> <ul> <li>Natural language understanding (NLU)</li> <li>Natural language generation (NLG)</li> <li>Machine translation</li> <li>Text summarization</li> <li>Question answering</li> <li>Code generation</li> </ul> <p>The Llama2 models are available under the Apache 2.0 license, which means that they can be freely used, modified, and redistributed.</p> <p>Model Architecture</p> <p>The Llama2 models are based on the Transformer architecture, which is a neural network architecture that has been shown to be very effective for NLP tasks. The models are trained using a technique called masked language modeling, which involves predicting the missing words in a sequence of text.</p> <p>Model Sizes</p> <p>The Llama2 models come in a variety of sizes, ranging from 7 billion to 70 billion parameters. The larger models have more capacity to learn complex patterns in language, but they are also more computationally expensive to train and deploy.</p> <p>Fine-tuning</p> <p>The Llama2 models are pretrained on a massive dataset of text and code, but they can be further fine-tuned on a specific task to improve their performance. Fine-tuning involves training the model on a dataset of labeled data for the specific task.</p> <p>Use Cases</p> <p>The Llama2 models can be used for a variety of tasks, including:</p> <ul> <li>Natural language understanding (NLU): The Llama2 models can be used to understand the meaning of text, such as   identifying the entities and relationships in a sentence.</li> <li>Natural language generation (NLG): The Llama2 models can be used to generate text, such as writing different kinds of   creative content, like poems, code, scripts, musical pieces, email, letters, etc.</li> <li>Machine translation: The Llama2 models can be used to translate text from one language to another.</li> <li>Text summarization: The Llama2 models can be used to summarize a text document into a shorter, more concise version.</li> <li>Question answering: The Llama2 models can be used to answer questions about a text document.</li> <li>Code generation: The Llama2 models can be used to generate code, such as Python scripts or Java classes.</li> </ul> <p>Availability</p> <p>The Llama2 models are available through the Hugging Face Hub. The models are also available in the TensorFlow Hub , the PyTorch Hub and EasyDeL.</p> <p>Conclusion</p> <p>The Llama2 models are a powerful family of LLMs that can be used for a variety of tasks. The models are open source and available for free, making them a valuable resource for researchers and developers.</p>"},{"location":"Llama2/#how-to-useload-them-in-easydel","title":"How to Use/Load Them in EasyDeL","text":"<pre><code>from easydel import AutoEasyDeLModelForCausalLM\n\nmodel, params = AutoEasyDeLModelForCausalLM.from_pretrained(\n    'meta-llama/Llama-2-7b',\n    # other kwargs\n)\n</code></pre> <p>also keep that in mind that returned <code>config</code> includes <code>.get_partition_rules(fsdp=True)</code></p>"},{"location":"Llama2/#use-with-jaxserver","title":"Use With JaxServer","text":"<pre><code>from easydel.serve import JAXServer, JAXServerConfig\nimport jax\nfrom transformers import AutoTokenizer\n\nfrom easydel import AutoEasyDeLModelForCausalLM\n\nmodel, params = AutoEasyDeLModelForCausalLM.from_pretrained(\n    'meta-llama/Llama-2-7b',\n    # other kwargs\n)\n\nDEFAULT_SYSTEM_PROMPT = \"You are a helpful, respectful and honest assistant and act as wanted\"\n\n\nclass Llama2JaxServer(JAXServer):\n    def sample_gradio_chat(self, prompt, history, max_new_tokens, system, greedy):\n\n        system = None if system == \"\" else system\n        string = self.prompt_llama2_model(\n            message=prompt,\n            chat_history=history or [],\n            system_prompt=system or DEFAULT_SYSTEM_PROMPT\n        )\n        if not self.server_config.stream_tokens_for_gradio:\n            response = \"\"\n            for response, _ in self.sample(\n                    string=string,\n                    greedy=greedy,\n                    max_new_tokens=max_new_tokens,\n            ):\n                ...\n            history.append([prompt, response])\n        else:\n            history.append([prompt, \"\"])\n            for response, _ in self.sample(\n                    string=string,\n                    greedy=greedy,\n                    max_new_tokens=max_new_tokens\n            ):\n                history[-1][-1] = response\n                yield \"\", history\n\n        return \"\", history\n\n    def sample_gradio_instruct(self, prompt, system, max_new_tokens, greedy):\n        string = self.prompt_llama2_model(system_prompt=DEFAULT_SYSTEM_PROMPT, message=prompt, chat_history=[])\n        if not self.server_config.stream_tokens_for_gradio:\n            response = \"\"\n            for response, _ in self.sample(\n                    string=string,\n                    greedy=greedy,\n                    max_new_tokens=max_new_tokens,\n            ):\n                pass\n        else:\n            response = \"\"\n            for response, _ in self.sample(\n                    string=string,\n                    greedy=greedy,\n                    max_new_tokens=max_new_tokens,\n                    stream=True\n            ):\n                yield \"\", response\n        return \"\", response\n\n    @staticmethod\n    def prompt_llama2_model(message: str, chat_history,\n                            system_prompt: str) -&gt; str:\n\n        do_strip = False\n        texts = [f'&lt;s&gt;[INST] &lt;&lt;SYS&gt;&gt;\\n{system_prompt}\\n&lt;&lt;/SYS&gt;&gt;\\n\\n']\n        for user_input, response in chat_history:\n            user_input = user_input.strip() if do_strip else user_input\n            do_strip = True\n            texts.append(f'{user_input} [/INST] {response.strip()} &lt;/s&gt;&lt;s&gt;[INST] ')\n        message = message.strip() if do_strip else message\n        texts.append(f'{message} [/INST]')\n        return \"\".join(texts)\n\n\nserver = Llama2JaxServer.from_parameters(\n    params=params,\n    model=model,\n    config_model=model.config,\n    add_params_field=True,\n    tokenizer=AutoTokenizer.from_pretrained('meta-llama/Llama-2-7b'),\n    verbose=False,\n    do_memory_log=True,\n    server_config=JAXServerConfig()\n)\n\nserver.fire()  # Launch FastAPI functions\n\nshared_urls = server.launch(\n    share_chat=True,\n    share_inst=True\n)\n</code></pre> <p>Done \ud83d\ude07 this method can be used for all the llama2 models</p>"},{"location":"LoRA-TransferLearningExample/","title":"LoRA and Transfer Learning","text":""},{"location":"LoRA-TransferLearningExample/#easydelxrapture-for-layer-tuning-and-lora","title":"EasyDeLXRapTure for layer tuning and LoRA","text":"<p>in case of using LoRA and applying that on the EasyDeL models there are some other things that you might need to config on your own but a lot of things being handled by EasyDeL so let just jump into an example for LoRA fine-tuning section and use EasyDeLXRapTure in for mistral models with flash attention example</p> <pre><code>from flax.core import FrozenDict\nfrom easydel import (\n    TrainArguments,\n    CausalLanguageModelTrainer,\n    AutoEasyDeLModelForCausalLM,\n    EasyDeLOptimizers,\n    EasyDeLSchedulers,\n    EasyDeLGradientCheckPointers,\n    EasyDeLXRapTureConfig\n)\nfrom datasets import load_dataset\nimport flax\nfrom jax import numpy as jnp\nfrom transformers import AutoTokenizer\n\nhuggingface_repo_id_or_path = \"mistralai/Mistral-7B-Instruct-v0.1\"\n\nmodel, params = AutoEasyDeLModelForCausalLM.from_pretrained(huggingface_repo_id_or_path, )\n\nmax_length = 8196\nmodel_parameters = FrozenDict({\"params\": params})\n\ndtype = jnp.bfloat16\nparam_dtype = jnp.bfloat16  # you can change that if you want \n\ntokenizer = AutoTokenizer.from_pretrained(\n    huggingface_repo_id_or_path,\n    trust_remote_code=True\n)\n\nmodel.config.add_basic_configurations(\n    attn_mechanism=\"flash\",  # Using FlashAttention\n    block_b=1,\n    block_q=1024,\n    block_k=1024,\n    block_k_major=1024,\n)\n\ntokenizer.pad_token = tokenizer.eos_token\nconfigs_to_initialize_model_class = {\n    \"config\": model.config,\n    \"dtype\": dtype,\n    \"param_dtype\": param_dtype,\n    \"input_shape\": (1, 1)\n}\n\nrapture = EasyDeLXRapTureConfig(\n    parameters=model_parameters,\n    lora_dim=64,\n    fully_fine_tune_parameters=[\"embed_tokens\"],  # Model layer to be fully fine tuned\n    lora_fine_tune_parameters=[\"q_proj\", \"v_proj\", \"k_proj\", \"o_proj\"],  # LoRA Layer Targets you can pass this to none\n    # For only Layer Tuning or transfer learning\n    verbose=True\n)\n\ntrain_arguments = TrainArguments(\n    model_class=type(model),\n    model_name=\"EasyDeL-Lora-Example\",\n    num_train_epochs=3,\n    configs_to_initialize_model_class=configs_to_initialize_model_class,\n    learning_rate=1e-4,  # Using higher learning rate is recommended\n    learning_rate_end=8e-5,\n    optimizer=EasyDeLOptimizers.ADAMW,  # \"adamw\", \"lion\", \"adafactor\" are supported\n    scheduler=EasyDeLSchedulers.LINEAR,\n    # \"linear\",\"cosine\", \"none\" ,\"warm_up_cosine\" and \"warm_up_linear\"  are supported\n    weight_decay=0.01,\n    total_batch_size=512,\n    max_training_steps=None,  # None to let trainer Decide\n    do_train=True,\n    do_eval=False,  # it's optional but supported \n    backend=\"tpu\",  # default backed is set to cpu, so you must define you want to use tpu cpu or gpu\n    max_length=max_length,  # Note that you have to change this in the model config too\n    gradient_checkpointing=EasyDeLGradientCheckPointers.NOTHING_SAVEABLE,\n    sharding_array=(1, -1, 1, 1),  # the way to shard model across gpu,cpu or TPUs using sharding array (1, -1, 1, 1)\n    # everything training will be in fully FSDP automatic and share data between devices\n    remove_ckpt_after_load=True,\n    gradient_accumulation_steps=1,\n    loss_re_mat=\"\",\n    dtype=dtype,\n    param_dtype=param_dtype,\n    rapture_config=rapture,\n    merge_lora_rapture_parameters=True  # turning this off is still not supported and not recommended to do so\n    # What this does ? this will merge the lora parameters with the original model parameters and the end of training\n)\n\n\ndef ultra_chat_prompting_sample(\n        data_chunk\n):\n    user_part = [\n        chunk[\"content\"] for chunk in data_chunk[\"messages\"] if chunk[\"role\"] == \"user\"\n    ]\n    assistant_part = [\n        chunk[\"content\"] for chunk in data_chunk[\"messages\"] if chunk[\"role\"] == \"assistant\"\n    ]\n\n    prompt = \"\"\n\n    for uc, ac in zip(user_part, assistant_part):\n        prompt += f\"&lt;|user|&gt;\\n{uc}&lt;/s&gt;\\n&lt;|assistant|&gt;\\n{ac}&lt;/s&gt;\\n\"\n\n    return {\"prompt\": prompt}\n\n\ntokenization_process = lambda data_chunk: tokenizer(\n    data_chunk[\"prompt\"],\n    add_special_tokens=False,\n    max_length=max_length,\n    padding=\"max_length\"\n)\n\ndataset = load_dataset(\"HuggingFaceH4/ultrachat_200k\")\ndataset_train = dataset[\"train_gen\"].map(ultra_chat_prompting_process, num_proc=12)\ndataset_train = dataset_train.map(\n    tokenization_process,\n    num_proc=12,\n    remove_columns=dataset_train.column_names\n)\n\n# you can do the same for evaluation process dataset\n\ntrainer = CausalLanguageModelTrainer(\n    train_arguments,\n    dataset_train,\n    checkpoint_path=None\n)\n\noutput = trainer.train()  # you should not pass the parameters in Trainer.train anymore when\n# you are using LoRA or transfer Learning\nprint(f\"Hey ! , here's where your model saved {output.checkpoint_path}\")\n</code></pre>"},{"location":"Mistral/","title":"Mistral Models","text":""},{"location":"Mistral/#mistral-models","title":"Mistral Models","text":"<p>Mistral LLM models. Mistral AI is a French startup that develops large language models (LLMs). Mistral's first LLM, Mistral-7B-v0.1, was released in October 2023. It is a 7 billion parameter decoder-based LM with a number of architectural innovations, including sliding window attention, grouped query attention, and byte-fallback BPE tokenizer. Mistral-7B-v0.1 has been shown to achieve state-of-the-art performance on a number of NLP benchmarks, including GLUE, SuperGLUE, and the Stanford Question Answering Dataset.</p> <p>Mistral AI has not yet released a commercial version of Mistral-7B-v0.1, but it is available for free download and evaluation. The company is also working on developing larger and more powerful LLMs, including a 100 billion parameter model.</p> <p>Mistral's LLMs have been praised for their ability to generate creative and informative text, as well as their ability to perform a wide range of NLP tasks, such as translation, question answering, and summarization. However, some concerns have been raised about the potential for Mistral's LLMs to be used to generate harmful content, such as instructions on how to make bombs or how to self-harm.</p> <p>Overall, Mistral AI is a promising startup in the field of LLM development. Its LLMs have the potential to be used in a wide range of applications, such as customer service, education, and creative writing. However, it is important to be aware of the potential risks associated with using LLMs, such as the risk of generating harmful content.</p> <p>README.md</p> <p>Mistral LLM models</p> <p>Mistral LLM models are a set of large language models (LLMs) developed by Mistral AI, a French startup. Mistral's LLMs are trained on massive datasets of text and code, and can be used to perform a variety of NLP tasks, including:</p> <ul> <li>Text generation</li> <li>Translation</li> <li>Question answering</li> <li>Summarization</li> <li>Code generation</li> <li>Creative writing</li> </ul> <p>Mistral-7B-v0.1 is the first LLM released by Mistral AI. It is a 7 billion parameter decoder-based LM with a number of architectural innovations, including sliding window attention, grouped query attention, and byte-fallback BPE tokenizer. Mistral-7B-v0.1 has been shown to achieve state-of-the-art performance on a number of NLP benchmarks, including GLUE, SuperGLUE, and the Stanford Question Answering Dataset.</p> <p>To use a Mistral LLM model:</p> <ol> <li>Download the model weights from the Mistral AI website: https://mistral.ai/.</li> <li>Install the necessary dependencies, such as the Transformers library.</li> <li>Load the model weights into a Python script or notebook.</li> <li>Call the model's <code>generate()</code> method to generate text, translate languages, answer questions, or perform other NLP    tasks.</li> </ol> <p>Mistral LLM models are still under development, but they have the potential to be used in a wide range of applications. If you are interested in using Mistral's LLMs, please visit the Mistral AI website: https://mistral.ai/ for more information.</p>"},{"location":"Mistral/#mistral-model-in-easydel","title":"Mistral Model In EasyDeL","text":"<p>using Mistral Models are the same as all the other models in EasyDeL Collection but let take a look at how can we train or finetune a Mistral model</p> <pre><code>from easydel.trainer import TrainArguments, CausalLanguageModelTrainer\nfrom datasets import load_dataset\nfrom transformers import AutoTokenizer\nfrom jax import numpy as jnp\nimport flax\nimport easydel\nfrom easydel import (\n    AutoEasyDeLModelForCausalLM,\n    EasyDeLOptimizers,\n    EasyDeLSchedulers,\n    EasyDeLGradientCheckPointers\n)\n\nmodel_huggingface_repo_id = 'mistralai/Mistral-7B-v0.1'\ndataset_train = load_dataset('&lt;TOKENIZED_MISTRAL_DATASET_AT_HUGGINGFACE&gt;')\ntokenizer = AutoTokenizer.from_pretrained(model_huggingface_repo_id, trust_remote_code=True)\nmodel, params = AutoEasyDeLModelForCausalLM.from_pretrained(model_huggingface_repo_id)\nconfig = model.config\nconfig.freq_max_position_embeddings = config.max_position_embeddings  # 32768\nconfig.max_position_embeddings = 4096  # Let use context length of 4096 for training\nconfig.c_max_position_embeddings = config.max_position_embeddings\n\nmax_sequence_length = config.max_position_embeddings\n\ntrain_args = TrainArguments(\n    model_class=easydel.FlaxMistralForCausalLM,\n    configs_to_initialize_model_class={\n        'config': config,\n        'dtype': jnp.bfloat16,\n        'param_dtype': jnp.bfloat16,\n        'input_shape': (1, 1)\n    },\n    custom_rule=config.get_partition_rules(True),\n    model_name='Test',\n    num_train_epochs=2,\n    learning_rate=4e-5,\n    learning_rate_end=5e-6,\n    optimizer=EasyDeLOptimizers.ADAMW,\n    scheduler=EasyDeLSchedulers.WARM_UP_COSINE,\n    weight_decay=0.01,\n    total_batch_size=32,\n    max_training_steps=None,\n    do_train=True,\n    do_eval=False,\n    backend='tpu',\n    max_sequence_length=max_sequence_length,\n    gradient_checkpointing=EasyDeLGradientCheckPointers.NOTHING_SAVEABLE,\n    sharding_array=(1, -1, 1, 1),\n    gradient_accumulation_steps=8,\n    remove_ckpt_after_load=True,\n    ids_to_pop_from_dataset=['token_type_ids'],\n    loss_re_mat=\"\",\n    dtype=jnp.bfloat16\n)\n\ntrainer = CausalLanguageModelTrainer(\n    train_args,\n    dataset_train['train'],\n    checkpoint_path=None\n)\n\noutput = trainer.train(flax.core.FrozenDict({'params': params}))\n# And Here were easydel goes brrrrrr and start training \n</code></pre>"},{"location":"MosaicMPT/","title":"About MosaicMPT Models","text":"<p>MosaicMPT Models</p> <p>MosaicMPT Models is a family of large language models (LLMs) developed by MosaicML. The models are trained on a massive dataset of text and code, and can be used for a variety of tasks, including</p> <ul> <li>Natural language understanding (NLU)</li> <li>Natural language generation (NLG)</li> <li>Machine translation</li> <li>Text summarization</li> <li>Question answering</li> <li>Code generation</li> </ul> <p>The MosaicMPT models are available under the Apache 2.0 license, which means that they can be freely used, modified, and redistributed.</p> <p>Model Architecture</p> <p>The MosaicMPT models are based on the Transformer architecture, which is a neural network architecture that has been shown to be very effective for NLP tasks. The models are trained using a technique called masked language modeling, which involves predicting the missing words in a sequence of text.</p> <p>Model Sizes</p> <p>The MosaicMPT models come in a variety of sizes, ranging from 7 billion to 70 billion parameters. The larger models have more capacity to learn complex patterns in language, but they are also more computationally expensive to train and deploy.</p> <p>MosaicPretrainedTransformer (MPT) Architecture</p> <p>The MosaicPretrainedTransformer (MPT) architecture is a modified transformer architecture that is optimized for efficient training and inference. The MPT architecture includes the following changes:</p> <ul> <li>Performance-optimized layer implementations</li> <li>Architecture changes that provide greater training stability</li> <li>Elimination of context length limits by replacing positional embeddings with Attention with Linear Biases (ALiBi)</li> </ul> <p>Thanks to these modifications, MPT models can be trained with high throughput efficiency and stable convergence. MPT models can also be served efficiently with both standard HuggingFace pipelines and NVIDIA's FasterTransformer.</p> <p>Use Cases</p> <p>The MosaicMPT models can be used for a variety of tasks, including:</p> <ul> <li>Natural language understanding (NLU): The MosaicMPT models can be used to understand the meaning of text, such as   identifying the entities and relationships in a sentence.</li> <li>Natural language generation (NLG): The MosaicMPT models can be used to generate text, such as writing different kinds   of creative content, like poems, code, scripts, musical pieces, email, letters, etc.</li> <li>Machine translation: The MosaicMPT models can be used to translate text from one language to another.</li> <li>Text summarization: The MosaicMPT models can be used to summarize a text document into a shorter, more concise   version.</li> <li>Question answering: The MosaicMPT models can be used to answer questions about a text document.</li> <li>Code generation: The MosaicMPT models can be used to generate code, such as Python scripts or Java classes.</li> </ul> <p>Availability</p> <p>The MosaicMPT models are available through the Hugging Face Hub. The models are also available in the TensorFlow Hub, the PyTorch Hub and EasyDeL.</p> <p>Conclusion</p> <p>The MosaicMPT models are a powerful family of LLMs that can be used for a variety of tasks. The models are open source and available for free, making them a valuable resource for researchers and developers.</p>"},{"location":"MosaicMPT/#how-to-useload-them-in-easydel","title":"How to Use/Load Them in EasyDeL","text":""},{"location":"MosaicMPT/#open-an-issue-or-a-request-to-update-this-section","title":"Open an issue or a request to update this section","text":""},{"location":"Parameter-Quantization/","title":"What's 8-bit quantization? How does it help ?","text":"<p>Quantization in the context of deep learning is the process of constraining the number of bits that represent the weights and biases of the model.</p> <p>Weights and Biases numbers that we need in backpropagation.</p> <p>In 8-bit quantization, each weight or bias is represented using only 8 bits as opposed to the typical 32 bits used in single-precision floating-point format (float32).</p>"},{"location":"Parameter-Quantization/#why-does-it-use-less-gputpu-memory","title":"Why does it use less GPU/TPU Memory?","text":"<p>The primary advantage of using 8-bit quantization is the reduction in model size and memory usage. Here's a simple explanation:</p> <p>A float32 number takes up 32 bits of memory. A 8-bit quantized number takes up only 8 bits of memory. So, theoretically, you can fit 4 times more 8-bit quantized numbers into the same memory space as float32 numbers. This allows you to load larger models into the GPU memory or use smaller GPUs that might not have been able to handle the model otherwise.</p> <p>The amount of memory used by an integer in a computer system is directly related to the number of bits used to represent that integer.</p> <p>Memory Usage for 8-bit Integer A 8-bit integer uses 8 bits of memory.</p> <p>Memory Usage for 32-bit Integer A 32-bit integer uses 32 bits of memory.</p> <p>Conversion to Bytes To convert these to bytes (since memory is often measured in bytes):</p> <ul> <li>1 byte = 8 bits</li> <li>8-bit integer would use ( 8/8 = 1 ) bytes.</li> <li>A 16-bit integer would use ( 16/8 = 2 ) bytes.</li> </ul>"},{"location":"Parameter-Quantization/#example-of-using-parameters-quantization-in-easydel","title":"Example of Using Parameters Quantization in EasyDeL","text":"<p>in case of serving models or using them with <code>JAX</code> The Easiest and the best way you can find is EasyDeL (you can explore more if you want) you have 4 ways to use models</p> <ol> <li>Create The Pipeline and everything from scratch yourself.</li> <li>Use JAXServer API from EasyDeL.</li> <li>use ServeEngine from EasyDeL.</li> <li>use builtin generate method from HuggingFace Transformers and EasyDeL</li> </ol> <p>let assume we want to run a 7B model on only 12 GB of vram let just jump into codding</p>"},{"location":"Parameter-Quantization/#using-quantized-model-via-generate-function","title":"Using Quantized Model via generate Function","text":"<p>let assume we want to run <code>Qwen/Qwen1.5-7B-Chat</code></p> <pre><code>from jax import numpy as jnp\nfrom easydel import AutoEasyDeLModelForCausalLM, create_generate_function\n\nfrom transformers import AutoTokenizer, GenerationConfig\n\nimport pickle\nimport torch\n\nrepo_id = \"Qwen/Qwen1.5-7B-Chat\"\nmodel, params = AutoEasyDeLModelForCausalLM.from_pretrained(\n    repo_id,\n    sharding_axis_dims=(1, 1, 1, -1),\n    config_kwargs=dict(\n        gradient_checkpointing=\"\",\n        use_scan_mlp=False,  # Turn this one if you want to go beyond 32K sequence length.\n        shard_attention_computation=True,\n        use_sharded_kv_caching=True\n    ),\n    dtype=jnp.float16,\n    param_dtype=jnp.float16,\n    auto_shard_params=True,\n    load_in_8bit=True,\n    torch_dtype=torch.float16,\n    device_map=\"cpu\"  # this one will be passed to transformers.AutoModelForCausalLM\n)\n\n# params is now an 8 Bit pytree.\n\ntokenizer = AutoTokenizer.from_pretrained(repo_id)\nmesh = model.config.jax_mesh()\n\ngen_fn = create_generate_function(\n    model,\n    GenerationConfig(\n        do_sample=True,\n        max_new_tokens=512,\n        pad_token_id=tokenizer.pad_token_id,\n        bos_token_id=tokenizer.bos_token_id,\n        temperature=0.2,\n        top_p=0.95,\n        top_k=10,\n        num_beams=1\n    ),\n    {\"params\": params},\n    return_prediction_only=True\n)\n\ntokenizer.padding_side = \"left\"\nencoded = tokenizer.apply_chat_template(\n    [{\"role\": \"user\", \"content\": \"generate an story about stars\"}],\n    return_tensors=\"np\",\n    return_dict=True,\n    max_length=512,\n    padding=\"max_length\",\n    add_generation_prompt=True\n)\n\nrep = 1  # in case that you are using fsdp instead of sequence sharing change this to your fsdp mesh shape \ninput_ids, attention_mask = encoded.input_ids.repeat(rep, 0), encoded.attention_mask.repeat(rep, 0)\nwith mesh:\n    response = gen_fn(\n        {\"params\": params},\n        input_ids,\n        attention_mask\n    )\n\n    response_string = tokenizer.decode(response[0], skip_special_tokens=True)\nprint(\n    f\"Model Response:\\n{response_string}\"\n)\n\n# you want to save these quantized parameters for later?\n\npickle.dump((model, params, tokenizer), open(\"EasyDeL-Qwen7B-Chat\", \"wb\"))\n\n# And load that like this ;)\n\n(model, params, tokenizer) = pickle.load(open(\"EasyDeL-Qwen7B-Chat\", \"wb\"))\n\n</code></pre>"},{"location":"Parameter-Quantization/#using-quantized-model-via-jaxserver","title":"Using Quantized Model via JAXServer","text":"<pre><code>from jax import numpy as jnp\nfrom jax.sharding import PartitionSpec\nfrom easydel import JAXServer, JAXServerConfig\n\nimport torch\n\nserver_config = JAXServerConfig(\n    mesh_axes_shape=(1, 1, 1, -1),\n    generation_ps=PartitionSpec((\"dp\", \"fsdp\"), \"sp\"),\n    max_sequence_length=1024,\n    max_new_tokens=4096,\n    max_compile_tokens=128\n)\n\nserver = JAXServer.from_torch_pretrained(\n    pretrained_model_name_or_path=\"Qwen/Qwen1.5-7B-Chat\",\n    server_config=server_config,\n    sharding_axis_dims=(1, 1, 1, -1),\n    model_config_kwargs=dict(\n        gradient_checkpointing=\"\",\n        use_scan_mlp=False,\n        shard_attention_computation=True,\n        use_sharded_kv_caching=True\n    ),\n    dtype=jnp.float16,\n    param_dtype=jnp.float16,\n    auto_shard_params=True,\n    load_in_8bit=True,\n    torch_dtype=torch.float16,\n    device_map=\"cpu\"  # this one will be passed to transformers.AutoModelForCausalLM\n)\n\nconversation = []\nwhile True:\n    conversation.append({\"role\": \"user\", \"content\": input(\"\\n## User: \")})\n    printed_response_length = 0\n    print(\"\\n## Assistant : \", end=\"\")\n    response = \"\"\n    for response, used_tokens in server.sample(\n            server.tokenizer.apply_chat_template(\n                conversation,\n                tokenize=False\n            )\n    ):\n        print(response[printed_response_length:], end=\"\")\n        printed_response_length = len(response)\n    conversation.append({\"role\": \"assistant\", \"content\": response})\n\n</code></pre> <p>or you can launch it for serve </p> <pre><code>server.gradio_inference.launch()\n</code></pre>"},{"location":"PyTorchServer/","title":"PytorchServer","text":""},{"location":"PyTorchServer/#pytorchserver","title":"PyTorchServer \ud83e\uddec","text":"<p><code>PyTorchServer</code> is one of offered utilities by EasyDeL, and it's help hosting using and doing sample with LLMs and its also hackable, so you can override your own method in it and use it support both mid-level and high-level apis and also give you a Gradio Chat and Instruct Pre-build and ready to use page</p> <ul> <li>Supported Models are:<ul> <li>EveryModel that have <code>transformers.PretrainedModel</code> as their Parent :)</li> </ul> </li> </ul> <p>Documents are On The Way Amigos...</p>"},{"location":"generated-cli-cli/","title":"cli.cli","text":""},{"location":"generated-data_preprocessing-_processor/","title":"data_preprocessing._processor","text":""},{"location":"generated-etils-auto_tx/","title":"etils.auto_tx","text":""},{"location":"generated-etils-auto_tx/#src.python.easydel.etils.auto_tx.get_optimizer_and_scheduler","title":"<code>get_optimizer_and_scheduler(optimizer, scheduler, steps, learning_rate=1e-05, learning_rate_end=1e-05, gradient_accumulation_steps=1, extra_optimizer_kwargs=None, weight_decay=0.02, warmup_steps=0)</code>","text":"<p>The get_optimizer_and_scheduler function is a helper function that returns an optimizer and scheduler     based on the parameters passed to it.</p> <p>Parameters:</p> Name Type Description Default <code>optimizer</code> <code>AVAILABLE_OPTIMIZERS</code> <p>AVAILABLE_OPTIMIZERS: Choose the optimizer</p> required <code>scheduler</code> <code>AVAILABLE_SCHEDULERS</code> <p>AVAILABLE_SCHEDULERS: Determine the learning rate scheduler</p> required <code>steps</code> <code>int</code> <p>int: Specify the number of steps in the training process</p> required <code>learning_rate</code> <code>float</code> <p>float: Set the learning rate for the optimizer</p> <code>1e-05</code> <code>learning_rate_end</code> <code>float</code> <p>float: Set the final learning rate</p> <code>1e-05</code> <code>gradient_accumulation_steps</code> <code>int</code> <p>int: Accumulate the gradients before updating the weights</p> <code>1</code> <code>extra_optimizer_kwargs</code> <code>Optional[dict]</code> <p>dict | None: Pass extra arguments to the optimizer</p> <code>None</code> <code>weight_decay</code> <code>float</code> <p>float: Set the weight decay for adamw optimizer</p> <code>0.02</code> <code>warmup_steps</code> <code>int</code> <p>int: Specify the number of steps to warm up the learning rate</p> <code>0</code> <p>Returns:</p> Type Description <p>A tuple of two objects: (Optimizer and scheduler)</p> Source code in <code>src/python/easydel/etils/auto_tx.py</code> <pre><code>def get_optimizer_and_scheduler(\n        optimizer: AVAILABLE_OPTIMIZERS,\n        scheduler: AVAILABLE_SCHEDULERS,\n        steps: int,\n        learning_rate: float = 1e-5,\n        learning_rate_end: float = 1e-5,\n        gradient_accumulation_steps: int = 1,\n        extra_optimizer_kwargs: Optional[dict] = None,\n        weight_decay: float = 0.02,\n        warmup_steps: int = 0\n):\n    \"\"\"The get_optimizer_and_scheduler function is a helper function that returns an optimizer and scheduler\n        based on the parameters passed to it.\n\n    Args:\n        optimizer: AVAILABLE_OPTIMIZERS: Choose the optimizer\n        scheduler: AVAILABLE_SCHEDULERS: Determine the learning rate\n            scheduler\n        steps: int: Specify the number of steps in the training process\n        learning_rate: float: Set the learning rate for the optimizer\n        learning_rate_end: float: Set the final learning rate\n        gradient_accumulation_steps: int: Accumulate the gradients\n            before updating the weights\n        extra_optimizer_kwargs: dict | None: Pass extra arguments to the\n            optimizer\n        weight_decay: float: Set the weight decay for adamw optimizer\n        warmup_steps: int: Specify the number of steps to warm up the\n            learning rate\n\n    Returns:\n        A tuple of two objects: (Optimizer and scheduler)\n    \"\"\"\n    if extra_optimizer_kwargs is None:\n        extra_optimizer_kwargs = {}\n    if optimizer == EasyDeLOptimizers.ADAFACTOR:\n        if scheduler == EasyDeLSchedulers.LINEAR:\n            tx, sc = fjformer.optimizers.get_adafactor_with_linear_scheduler(\n                learning_rate_start=learning_rate,\n                learning_rate_end=learning_rate_end,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                steps=steps,\n                **extra_optimizer_kwargs\n            )\n        elif scheduler == EasyDeLSchedulers.COSINE:\n            tx, sc = fjformer.optimizers.get_adafactor_with_cosine_scheduler(\n                learning_rate=learning_rate,\n                steps=steps,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                **extra_optimizer_kwargs\n            )\n        elif scheduler == EasyDeLSchedulers.NONE:\n            tx, sc = fjformer.optimizers.get_adafactor_with_linear_scheduler(\n                learning_rate_start=learning_rate,\n                learning_rate_end=learning_rate,\n                steps=steps,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                **extra_optimizer_kwargs\n            )\n        elif scheduler == EasyDeLSchedulers.WARM_UP_COSINE:\n            tx, sc = fjformer.optimizers.get_adafactor_with_warm_up_cosine_scheduler(\n                learning_rate=learning_rate,\n                steps=steps,\n                weight_decay=weight_decay,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                **extra_optimizer_kwargs\n            )\n        elif scheduler == EasyDeLSchedulers.WARM_UP_LINEAR:\n            tx, sc = fjformer.optimizers.get_adafactor_with_warmup_linear_scheduler(\n                learning_rate_start=learning_rate,\n                steps=steps,\n                learning_rate_end=learning_rate_end,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                warmup_steps=warmup_steps,\n                **extra_optimizer_kwargs\n\n            )\n\n        else:\n            raise ValueError(\n                \"seems like you have choose wrong type or unavailable scheduler\"\n            )\n    elif optimizer == EasyDeLOptimizers.LION:\n        if scheduler == EasyDeLSchedulers.LINEAR:\n            tx, sc = fjformer.optimizers.get_lion_with_linear_scheduler(\n                learning_rate_start=learning_rate,\n                learning_rate_end=learning_rate_end,\n                steps=steps,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                **extra_optimizer_kwargs\n            )\n        elif scheduler == EasyDeLSchedulers.COSINE:\n            tx, sc = fjformer.optimizers.get_lion_with_cosine_scheduler(\n                learning_rate=learning_rate,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                steps=steps,\n                **extra_optimizer_kwargs\n            )\n        elif scheduler == EasyDeLSchedulers.NONE:\n            tx, sc = fjformer.optimizers.get_lion_with_linear_scheduler(\n                learning_rate_start=learning_rate,\n                learning_rate_end=learning_rate,\n                steps=steps,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                **extra_optimizer_kwargs\n            )\n        elif scheduler == EasyDeLSchedulers.WARM_UP_COSINE:\n            tx, sc = fjformer.optimizers.get_lion_with_warm_up_cosine_scheduler(\n                learning_rate=learning_rate,\n                steps=steps,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                **extra_optimizer_kwargs\n            )\n\n        elif scheduler == EasyDeLSchedulers.WARM_UP_LINEAR:\n            tx, sc = fjformer.optimizers.get_lion_with_with_warmup_linear_scheduler(\n                learning_rate_start=learning_rate,\n                steps=steps,\n                learning_rate_end=learning_rate_end,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                warmup_steps=warmup_steps,\n                **extra_optimizer_kwargs\n            )\n        else:\n            raise ValueError(\n                \"seems like you have choose wrong type or unavailable scheduler\")\n    elif optimizer == EasyDeLOptimizers.ADAMW:\n        if scheduler == EasyDeLSchedulers.LINEAR:\n            tx, sc = fjformer.optimizers.get_adamw_with_linear_scheduler(\n                learning_rate_start=learning_rate,\n                learning_rate_end=learning_rate_end,\n                steps=steps,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                **extra_optimizer_kwargs\n            )\n        elif scheduler == EasyDeLSchedulers.COSINE:\n            tx, sc = fjformer.optimizers.get_adamw_with_cosine_scheduler(\n                learning_rate=learning_rate,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                steps=steps,\n                weight_decay=weight_decay,\n                **extra_optimizer_kwargs\n            )\n        elif scheduler == EasyDeLSchedulers.NONE:\n            tx, sc = fjformer.optimizers.get_adamw_with_linear_scheduler(\n                learning_rate_start=learning_rate,\n                learning_rate_end=learning_rate,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                steps=steps,\n                **extra_optimizer_kwargs\n            )\n        elif scheduler == EasyDeLSchedulers.WARM_UP_COSINE:\n            tx, sc = fjformer.optimizers.get_adamw_with_warm_up_cosine_scheduler(\n                learning_rate=learning_rate,\n                steps=steps,\n                weight_decay=weight_decay,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                **extra_optimizer_kwargs\n            )\n        elif scheduler == EasyDeLSchedulers.WARM_UP_LINEAR:\n            tx, sc = fjformer.optimizers.get_adamw_with_warmup_linear_scheduler(\n                learning_rate_start=learning_rate,\n                steps=steps,\n                weight_decay=weight_decay,\n                learning_rate_end=learning_rate_end,\n                gradient_accumulation_steps=gradient_accumulation_steps,\n                warmup_steps=warmup_steps,\n                **extra_optimizer_kwargs\n            )\n        else:\n            raise ValueError(\n                \"seems like you have choose wrong type or unavailable scheduler\"\n            )\n    else:\n        raise ValueError(\n            f\"seems like you have choose wrong type or unavailable optimizer {optimizer} and scheduler {scheduler}\"\n        )\n    return tx, sc\n</code></pre>"},{"location":"generated-etils-configs/","title":"etils.configs","text":""},{"location":"generated-etils-configs/#src.python.easydel.etils.configs.get_config","title":"<code>get_config(model_type, struct)</code>","text":"<p>The get_config function takes in a model_type and struct, and returns the corresponding config.</p> <p>Parameters:</p> Name Type Description Default <code>model_type</code> <code>str</code> <p>str: Determine which model to use</p> required <code>struct</code> <code>str</code> <p>str: Specify the structure of the model</p> required <p>Returns:</p> Type Description <p>A dictionary of hyperparameters</p> Source code in <code>src/python/easydel/etils/configs.py</code> <pre><code>def get_config(model_type: str, struct: str):\n    \"\"\"The get_config function takes in a model_type and struct, and returns the corresponding config.\n\n    Args:\n        model_type: str: Determine which model to use\n        struct: str: Specify the structure of the model\n\n    Returns:\n        A dictionary of hyperparameters\n    \"\"\"\n    if model_type == \"llama\":\n        return llama_configs[struct]\n    elif model_type == \"llama2\":\n        return llama_2_configs[struct]\n    elif model_type == \"opt\":\n        return opt_configs[struct]\n    elif model_type == \"gptj\":\n        return gptj_configs[struct]\n    elif model_type == \"falcon\":\n        return falcon_configs[struct]\n    elif model_type == \"mpt\":\n        return mpt_configs[struct]\n    else:\n        raise ValueError(f\"Unknown ModelType : {model_type}\")\n</code></pre>"},{"location":"generated-etils-easystate/","title":"etils.easystate","text":""},{"location":"generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState","title":"<code>EasyDeLState</code>","text":"<p>               Bases: <code>PyTreeNode</code></p> Source code in <code>src/python/easydel/etils/easystate.py</code> <pre><code>class EasyDeLState(struct.PyTreeNode):\n    step: int\n    module: Optional[\"EasyDeLFlaxPretrainedModel\"] = struct.field(pytree_node=False)  # type:ignore\n    module_config: Optional[\"EasyDeLPretrainedConfig\"] = struct.field(pytree_node=False)  # type:ignore\n    module_config_args: Optional[dict] = struct.field(pytree_node=True)\n    apply_fn: Callable = struct.field(pytree_node=False)\n    params: core.FrozenDict[str, Any] = struct.field(pytree_node=True)\n    tx: optax.GradientTransformation = struct.field(pytree_node=False)\n    opt_state: Optional[optax.OptState] = struct.field(pytree_node=True)\n    tx_init: Optional[dict] = struct.field(pytree_node=True)\n    hyperparameters: Optional[dict] = struct.field(pytree_node=True)\n\n    def apply_gradients(self, *, grads, **kwargs):\n\n        \"\"\"The apply_gradients function is the core of the optimizer. It takes in a dictionary of gradients,\n        and returns an updated version of itself with new parameters and state. The function also updates\n        the step count.\n\n        Args:\n            self: Refer to the current instance of the class\n            : Unpack the grads dictionary into positional arguments\n            grads: Pass in the gradients of the loss function with\n                respect to each parameter\n            **kwargs: Pass in additional arguments to the function\n\n        Returns:\n            A new State with the updated parameters and params\n        \"\"\"\n        if OVERWRITE_WITH_GRADIENT in grads:\n            grads_with_opt = grads['params']\n            params_with_opt = self.params['params']\n        else:\n            grads_with_opt = grads\n            params_with_opt = self.params\n\n        updates, new_opt_state = self.tx.update(\n            grads_with_opt, self.opt_state, params_with_opt\n        )\n        new_params_with_opt = optax.apply_updates(params_with_opt, updates)\n        if OVERWRITE_WITH_GRADIENT in grads:\n            new_params = {\n                'params': new_params_with_opt,\n                OVERWRITE_WITH_GRADIENT: grads[OVERWRITE_WITH_GRADIENT]\n            }\n        else:\n            new_params = new_params_with_opt\n        return self.replace(\n            step=self.step + 1,\n            params=new_params,\n            opt_state=new_opt_state,\n            **kwargs,\n        )\n\n    @classmethod\n    def create(\n            cls,\n            *,\n            apply_fn: Callable,\n            params: Union[core.FrozenDict[str, Any], Mapping[str, Any]],\n            tx: optax.GradientTransformation,\n            tx_init: Optional[dict] = None,\n            hyperparameters: Optional[dict] = None,\n            module: Optional[\"EasyDeLFlaxPretrainedModel\"] = None,  # type:ignore\n            module_config: Optional[\"EasyDeLPretrainedConfig\"] = None,  # type:ignore\n            module_config_args: Optional[dict] = None,\n            **kwargs\n    ):\n\n        \"\"\"The create function is used to create a new instance of the class.\n\n        Args:\n            cls: Create a new instance of the class\n            : Pass a list of parameters to the function\n            apply_fn: Callable: Apply the model to a batch of data\n            params: core.FrozenDict[str,Any] | Mapping[str,Any]: Pass in\n                the parameters of the model\n            tx: optax.GradientTransformation: Initialize the optimizer\n            tx_init: Optional[dict]: Initialize the optimizer\n            hyperparameters: Optional[dict]: Pass hyperparameters to the\n                state for init\n            module: Optional[EasyDeLFlaxPretrainedModel]: Pass the\n                module to be used int state\n            module_config: Optional[EasyDeLPretrainedConfig]: Pass in\n                the module config\n            module_config_args: Optional[dict]: Store the config args of\n                the model\n            **kwargs: Pass in additional parameters to the\n\n        Returns:\n            A EasyDeLState object\n        \"\"\"\n        if hyperparameters is None:\n            hyperparameters = {}\n        params_with_opt = (\n            params['params'] if OVERWRITE_WITH_GRADIENT in params else params\n        )\n        opt_state = tx.init(params_with_opt)\n        if module_config is not None:\n            module_config = copy.deepcopy(module_config)\n            cls.safe_dict(module_config.__dict__)\n        return cls(\n            step=0,\n            apply_fn=apply_fn,\n            module=module,\n            params=params,\n            tx=tx,\n            opt_state=opt_state,\n            tx_init=cls.safe_dict(tx_init),\n            hyperparameters=hyperparameters,\n            module_config=module_config,\n            module_config_args=None,\n            **kwargs,\n        )\n\n    @classmethod\n    def load(\n            cls,\n            *,\n            apply_fn: Callable,\n            params: Union[core.FrozenDict[str, Any], Mapping[str, Any]],\n            step: int = 0,\n            opt_state: Optional[optax.OptState] = None,\n            tx_init: Optional[dict] = None,\n            hyperparameters: Optional[dict] = None,\n            module: Optional[\"EasyDeLFlaxPretrainedModel\"] = None,  # type:ignore\n            module_config: Optional[\"EasyDeLPretrainedConfig\"] = None,  # type:ignore\n            module_config_args: Optional[dict] = None,\n            **kwargs\n    ):\n\n        \"\"\"The load function is used to load a saved state of the Model and optimizer or Model Only.\n\n        Args:\n            cls: Make the function a class method\n            : Pass in a variable number of arguments\n            step: int: Keep track of the number of steps that have been\n                taken\n            apply_fn: Callable: Apply the optimizer to the model\n            params: core.FrozenDict[str,Any] | Mapping[str,Any]: Pass in\n                the parameters of the model\n            opt_state: Optional[optax.OptState]: optimizer state\n            tx_init: Optional[dict]: Pass the hyperparameters to the\n                optimizer\n            hyperparameters: Optional[dict]: Load hyperparameters from\n                the state dict\n            module: Optional[EasyDeLFlaxPretrainedModel]: Pass in the\n                module\n            module_config: Optional[EasyDeLPretrainedConfig]: Pass the\n                module config\n            module_config_args: Optional[dict]: Pass the config_args to\n                the model\n            **kwargs: Pass in any additional parameters that may be\n                needed for the model\n\n        Returns:\n            A new instance of the class\n        \"\"\"\n        if module_config is not None:\n            module_config = copy.deepcopy(module_config)\n\n        if tx_init is None:\n            tx_init = {}\n        tx_init = copy.deepcopy(tx_init)\n        tx_init = cls.unsafe_dict(tx_init)\n\n        tx_init[\"optimizer\"] = cls.search(\"optimizer\", tx_init, \"adamw\")\n        tx_init[\"scheduler\"] = cls.search(\"scheduler\", tx_init, \"none\")\n        tx_init[\"steps\"] = cls.search(\"steps\", tx_init, 1e6)\n\n        def fix_dict_types(input_dict):\n            fixed_dict = input_dict.copy()\n\n            # Fix extra_optimizer_kwargs\n            if 'extra_optimizer_kwargs' in fixed_dict:\n                fixed_dict['extra_optimizer_kwargs'] = eval(fixed_dict['extra_optimizer_kwargs'])\n\n            # Fix gradient_accumulation_steps\n            if 'gradient_accumulation_steps' in fixed_dict:\n                fixed_dict['gradient_accumulation_steps'] = int(fixed_dict['gradient_accumulation_steps'])\n\n            # Fix steps\n            if 'steps' in fixed_dict:\n                fixed_dict['steps'] = int(fixed_dict['steps'])\n\n            # Fix warmup_steps\n            if 'warmup_steps' in fixed_dict:\n                fixed_dict['warmup_steps'] = int(fixed_dict['warmup_steps'])\n\n            return fixed_dict\n\n        try:\n            tx, sc = get_optimizer_and_scheduler(\n                **tx_init\n            )\n        except TypeError:\n            tx, sc = get_optimizer_and_scheduler(\n                **fix_dict_types(tx_init)\n            )\n        if hyperparameters is None:\n            hyperparameters = {}\n\n        if module_config is not None:\n            hyperparameters = cls.create_hyperparameters(module_config.model_type)\n            cls.safe_dict(module_config.__dict__)\n        return cls(\n            step=step,\n            apply_fn=apply_fn,\n            params=params,\n            tx=tx,\n            opt_state=opt_state,\n            tx_init=cls.safe_dict(tx_init),\n            hyperparameters=hyperparameters,\n            module=module,\n            module_config=module_config,\n            module_config_args=None,\n            **kwargs,\n        )\n\n    @classmethod\n    def load_state(\n            cls,\n            checkpoint_path: Union[str, os.PathLike],\n            dtype: jnp.dtype = jnp.float32,\n            param_dtype: jnp.dtype = jnp.float32,\n            precision: Optional[Union[str, jax.lax.Precision]] = None,\n            init_optimizer_state: bool = False,\n            state_shard_fns: Optional[Mapping[str, Callable]] = None,\n            verbose: bool = False,\n            input_shape: Tuple = (1, 1),\n            config_kwargs: Optional[dict] = None\n    ):\n\n        \"\"\"The load_state function is a class method that loads the state of an EasyDeLModel from a checkpoint.\n\n        Args:\n            cls: Create an instance of the class\n            checkpoint_path: str | os.PathLike: Specify the path to the\n                checkpoint file\n            dtype: jnp.dtype: The dtype of the model\n            param_dtype: jnp.dtype: The dtype of the model parameters\n            precision: Optional[Union[str, jax.lax.Precision]]:\n                precision of the model\n            init_optimizer_state: bool: Initialize the optimizer if it's\n                not Initialized yet (if it Initialized the option\n            state_shard_fns: Optional[Mapping[str,Callable]]: Specify\n                the function that will be used\n            verbose: bool: Print out the progress of loading\n            input_shape: Tuple: input_shape to init module\n            config_kwargs: Optional[dict] : config kwargs to be passed\n                to model config\n        will be ignored )\n        to shard the loaded state\n\n        Returns:\n            A state object\n        \"\"\"\n        from ..modules.auto_easydel_model import get_modules_by_type\n\n        checkpoint = fjformer.CheckpointManager.load_checkpoint(\n            path=checkpoint_path,\n            shard_fns=state_shard_fns,\n            verbose=verbose,\n        )\n        hyperparameters = checkpoint.get(\"hyperparameters\")\n        cfg, module, convertor = get_modules_by_type(model_type=cls.get_model_type(hyperparameters))\n        checkpoint.pop(\"module_config\", None)\n        if checkpoint[\"module_config_args\"] is not None:\n            cfg_behave = cls.unsafe_dict(checkpoint.get(\"module_config_args\", {}))\n            cfg_behave.pop(\"id2label\", None)\n            cfg_behave.pop(\"label2id\", None)\n            cfg_behave.pop(\"torch_dtype\", None)\n            for k, v in cfg_behave.items():\n                if v is None:\n                    cfg_behave.pop(k, None)\n                elif v == \"None\":\n                    cfg_behave[k] = None\n                elif isinstance(v, str):\n                    if v.startswith(\"{\") or v.startswith(\"(\") or v.startswith(\"PartitionSpec\"):\n                        cfg_behave[k] = eval(v)\n            module_config = cfg.from_dict(cfg_behave)\n            if config_kwargs is not None:\n                for k, v in config_kwargs.items():\n                    setattr(module_config, k, v)\n            module_in = module(\n                config=module_config,\n                dtype=dtype,\n                param_dtype=param_dtype,\n                precision=precision,\n                input_shape=input_shape\n            )\n        else:\n            raise TypeError(\n                \"Om seems like i couldn't read model correctly ;(\"\n            )\n        state = cls.load(\n            apply_fn=module_in.__call__,\n            module=module_in,\n            module_config=module_config,\n            **checkpoint\n        )\n        state = state.replace(\n            module_config_args=None  # removing because it's not needed anymore\n        )\n        if init_optimizer_state:\n            state = state.init_opt_state()\n        return state\n\n    @classmethod\n    def get_model_type(cls, dictionary):\n        return cls.find_key(\"model_type\", dictionary)\n\n    def save_state(\n            self,\n            filename: Union[str, os.PathLike],\n            save_optimizer: bool = False,\n            checkpoint_dir: Optional[Union[str, os.PathLike]] = None,\n            verbose: bool = False,\n            gather_fns: dict[Callable] = None,\n            float_dtype: Union[str, jax.numpy.dtype] = None,\n    ):\n\n        \"\"\"The save_state function saves the state of a model to disk.\n\n        Args:\n            self: Pass the object itself to the function\n            filename: str | os.PathLike: Specify the name of the file to\n                save\n            save_optimizer: bool: Determine whether to save the\n                optimizer state or not\n            checkpoint_dir: Optional[str | os.PathLike]: Specify the\n                directory where the checkpoint is saved\n            verbose: bool: Print out the path of the saved file\n            gather_fns: dict[Callable]: Specify a dictionary of\n                functions that can be used to gather\n            float_dtype: str | jax.numpy.dtype: Specify the precision of\n                the saved model\n        :param : Save the optimizer state\n\n        Returns:\n            None\n        \"\"\"\n        state = self\n        if not save_optimizer:\n            state = self.replace(\n                opt_state=None\n            )\n        state = state.replace(\n            module_config_args={\n                k: v for k, v in state.module.config.__dict__.items() if\n                isinstance(\n                    v, (int, bool, float)\n                )\n            }\n        )\n        fjformer.CheckpointManager.save_state_to_file(\n            state=state,\n            path=os.path.join(checkpoint_dir, filename) if checkpoint_dir is not None else filename,\n            verbose=verbose,\n            gather_fns=gather_fns,\n            float_dtype=float_dtype,\n        )\n\n    def free_opt_state(self) -&gt; \"EasyDeLState\":\n\n        \"\"\"The free_opt_state function is used to free the memory allocated by a previous call to setopt.\n        It should be called after all the options have been set, and before you perform any of the transfers.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A new state with the opt_state field set to none\n        \"\"\"\n        return self.replace(\n            opt_state=None\n        )\n\n    def init_opt_state(self) -&gt; \"EasyDeLState\":\n\n        \"\"\"The init_opt_state function initializes the optimizer state.\n\n        Args:\n            self: Make the object callable, and params is used to pass\n                in a dictionary of parameters\n\n        Returns:\n            A new instance of the class with opt_state initialized\n        \"\"\"\n        if self.opt_state is None:\n            params_with_opt = (\n                self.params['params'] if OVERWRITE_WITH_GRADIENT in self.params else self.params\n            )\n            opt_state = self.tx.init(params_with_opt)\n\n            return self.replace(\n                opt_state=opt_state\n            )\n        return self\n\n    @classmethod\n    def from_pretrained(\n            cls,\n            pretrained_model_name_or_path: str,\n            filename: Optional[str] = None,\n            optimizer: AVAILABLE_OPTIMIZERS = \"adamw\",\n            scheduler: AVAILABLE_SCHEDULERS = \"none\",\n            tx_init: Optional[dict] = None,\n            device=jax.devices('cpu')[0],\n            dtype: jax.numpy.dtype = jax.numpy.float32,\n            param_dtype: jax.numpy.dtype = jax.numpy.float32,\n            precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\"),\n            sharding_axis_dims: Sequence[int] = (1, -1, 1, 1),\n            sharding_axis_names: Sequence[str] = (\"dp\", \"fsdp\", \"tp\", \"sp\"),\n            query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            generation_query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"tp\", None, None),\n            key_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            value_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n            generation_bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n            attention_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            shard_attention_computation: bool = True,\n            input_shape: Sequence[int] = (1, 1),\n            backend: Optional[str] = None,\n            init_optimizer_state: bool = False,\n            free_optimizer_state: bool = True,\n            verbose: bool = True,\n            state_shard_fns: Optional[Mapping[str, Callable]] = None,\n            config_kwargs: Optional[Mapping[str, Any]] = None,\n            **kwargs\n    ) -&gt; \"EasyDeLState\":\n\n        \"\"\"The from_pretrained function is a helper function to quickly load a pretrained model and its associated configuration.\n        This method takes care of returning the correct model class instance based on the `model_type` property in the\n        config object, or when it's missing, falling back to using pattern matching on the\n         `pretrained_model_name_or_path` string:\n\n        Args:\n            cls: Refer to the class that is being defined\n            pretrained_model_name_or_path: str: Load the pretrained\n                model\n            filename: Optional[str]: Specify the name of the file to\n                download from huggingface hub\n            optimizer: AVAILABLE_OPTIMIZERS: Specify the optimizer used\n                for training\n            scheduler: AVAILABLE_SCHEDULERS: Specify the name of the\n                scheduler to use\n            tx_init: Optional[dict]: Pass the hyperparameters of the\n                optimizer\n            device: Specify the device on which to run the model\n            dtype: jax.numpy.dtype: Specify the dtype of the model\n                parameters\n            param_dtype: jax.numpy.dtype: Specify the data type of the\n                parameters\n            precision: jax.lax.Precision: Control the precision of the\n                calculation\n            sharding_axis_dims: Sequence[int]: Specify the dimension of\n                each axis\n            sharding_axis_names: Sequence[str]: Specify the names of the\n                axes in each shard\n            query_partition_spec: PartitionSpec: Specify the\n                partitioning of the query matrix\n            generation_query_partition_spec: PartitionSpec: Specify the\n                partitioning of the query tensor in\n            value_partition_spec: PartitionSpec: Specify the\n                partitioning of the value tensor\n            bias_partition_spec: PartitionSpec: Specify the partitioning\n                of the bias\n            attention_partition_spec: PartitionSpec: Partition the\n                attention weights\n            shard_attention_computation: bool: Determine whether to use\n                shard_map or not\n            input_shape: Sequence[int]: Specify the shape of the input\n                to be used for training\n            backend: Optional[str]: Specify the backend used for the\n                model\n            init_optimizer_state: bool: Initialize the optimizer state\n            free_optimizer_state: bool: Free the optimizer state from\n                memory\n            verbose: bool: Print the progress of loading the model\n            state_shard_fns: Optional[Mapping[str,Callable]]: Specify\n                the function to use for sharding the state\n            **kwargs: Pass keyword arguments to the function\n            config_kwargs: Optional[Mapping[str, Any]]: Config kwargs to\n                be added to config before creating module\n        generation process:param key_partition_spec: PartitionSpec: Specify the partitioning of the key matrix\n\n        Returns:\n            An `EasyDeLState` object\n        \"\"\"\n        if free_optimizer_state and init_optimizer_state:\n            raise EasyDeLRuntimeError(\n                \"You can't use `free_optimizer_state` and `init_optimizer_state` True at same Time\"\n            )\n\n        if filename is None:\n            from ..modules.auto_easydel_model import AutoEasyDeLModelForCausalLM\n\n            model, params = AutoEasyDeLModelForCausalLM.from_pretrained(\n                pretrained_model_name_or_path,\n                device=device,\n                dtype=dtype,\n                param_dtype=param_dtype,\n                precision=precision,\n                sharding_axis_dims=sharding_axis_dims,\n                sharding_axis_names=sharding_axis_names,\n                query_partition_spec=query_partition_spec,\n                generation_query_partition_spec=generation_query_partition_spec,\n                generation_bias_partition_spec=generation_bias_partition_spec,\n                key_partition_spec=key_partition_spec,\n                value_partition_spec=value_partition_spec,\n                bias_partition_spec=bias_partition_spec,\n                attention_partition_spec=attention_partition_spec,\n                shard_attention_computation=shard_attention_computation,\n                input_shape=input_shape,\n                backend=backend,\n                config_kwargs=config_kwargs,\n                **kwargs\n            )\n            if tx_init is None:\n                tx_init = {}\n\n            tx_init[\"optimizer\"] = optimizer\n            tx_init[\"scheduler\"] = scheduler\n\n            state = cls.load(\n                apply_fn=model.__call__,\n                params=FrozenDict({'params': params}),\n                step=0,\n                opt_state=None,\n                tx_init=tx_init,\n                hyperparameters=None,\n                module=model,\n                module_config=model.config,\n                module_config_args=model.config.to_dict()\n            )\n        else:\n            with jax.default_device(device):\n                from huggingface_hub import hf_hub_download\n                checkpoint_path = hf_hub_download(\n                    repo_id=pretrained_model_name_or_path,\n                    filename=filename,\n                )\n                state = cls.load_state(\n                    checkpoint_path=checkpoint_path,\n                    init_optimizer_state=init_optimizer_state,\n                    verbose=verbose,\n                    state_shard_fns=state_shard_fns,\n                    dtype=dtype,\n                    param_dtype=param_dtype,\n                    precision=precision,\n                    input_shape=input_shape\n                )\n        if init_optimizer_state:\n            with jax.default_device(device):\n                state = state.init_opt_state()\n        if free_optimizer_state:\n            state = state.free_opt_state()\n        return state\n\n    def shard_params(\n            self,\n            fully_sharded_data_parallel: bool = True,\n            shard_fns: Optional[Mapping[str, Callable]] = None,\n            dtype: Union[jax.numpy.dtype, str] = \"bf16\",\n            mesh: Optional[Mesh] = None,\n            rules: Optional[Sequence[Mapping[str, PartitionSpec]]] = None\n    ):\n        dtype = fjformer.get_dtype(dtype)\n        if shard_fns is None and self.module_config is None and rules is None:\n            raise EasyDeLRuntimeError(\n                \"the model doesn't carrying `module_config` you should pass `shard_fns` or `rules`\"\n            )\n        elif shard_fns is None and rules is not None or self.module_config is not None:\n            from fjformer import match_partition_rules, make_shard_and_gather_fns\n            rules = rules or self.module_config.get_partition_rules(fully_sharded_data_parallel)\n            partition_specs = match_partition_rules(\n                rules=rules, params=self.params\n            )\n            shard_fns, gather_fns = make_shard_and_gather_fns(\n                partition_specs=partition_specs,\n                dtype_specs=dtype\n            )\n        if mesh is None:\n            mesh = self.module_config.jax_mesh()\n        with mesh:\n            return self.replace(\n                params=jax.tree_util.tree_map(\n                    lambda f, p: f(p), shard_fns, self.params\n                )\n            )\n\n    @staticmethod\n    def create_hyperparameters(model_type: str):\n        \"\"\"it's the only way we can dump xla compiler\"\"\"\n        return {\n            STRING_REP.format(\n                type=\"str\",\n                key=\"model_type\",\n                value=model_type\n            ): DEFAULT_ES_VAL\n        }\n\n    @staticmethod\n    def safe_dict(dictionary: dict):\n        for k in list(dictionary.keys()):\n            val = dictionary.get(k)\n            if not isinstance(val, (int, bool)):\n                val = dictionary.pop(k)\n                string_value_format = STRING_REP.format(\n                    type=type(val).__name__,\n                    key=k,\n                    value=val\n                )\n                dictionary[string_value_format] = DEFAULT_ES_VAL\n        return dictionary\n\n    @staticmethod\n    def unsafe_dict(dictionary: dict):\n        result = {}\n        for k in list(dictionary.keys()):\n            if VALUE_SEP in k and TYPE_SEP in k:\n                v = dictionary[k]\n                key, value = break_format(key=k, value=v)\n                result[key] = value\n            else:\n                result[k] = dictionary[k]\n        return result\n\n    def __str__(self):\n\n        \"\"\"The __str__ function is called when you call str(object) or print(object).\n        The __repr__ function is called when you type the object name in the interpreter.\n        If no __str__ method exists, Python will use __repr__ as a fallback.\n\n        Args:\n            self: Refer to the object itself\n\n        Returns:\n            string\n        \"\"\"\n        params_size = sum(getattr(n, \"size\", 0) for n in jax.tree_util.tree_flatten(self.params)[0])\n        opt_state_size = sum(getattr(n, \"size\", 0) for n in jax.tree_util.tree_flatten(self.opt_state)[0])\n\n        def make_depth(mdl=None):\n            if mdl is not None:\n                try:\n                    return mdl.__str__().replace(\n                        \"\\n\",\n                        \"\\n\\t\"\n                        \"\"\n                    ) if hasattr(mdl, \"__str__\") else None\n                except TypeError:\n                    ...\n            return mdl\n\n        optimizer = self.tx_init.get(\"optimizer\", None)\n        scheduler = self.tx_init.get(\"scheduler\", None)\n\n        if optimizer is None:\n            optimizer = self.find_key(\n                \"optimizer\",\n                self.tx_init\n            )\n        if scheduler is None:\n            scheduler = self.find_key(\n                \"scheduler\",\n                self.tx_init\n            )\n\n        string = (\n            f\"{self.__class__.__name__}(\"\n            f\"\\n\\tstep = {self.step}\"\n            f\"\\n\\tmodule = {make_depth(self.module)}\"\n            f\"\\n\\tmodule_config = {make_depth(self.module_config)}\"\n            f\"\\n\\tapply_fn: Callable = {make_depth(self.apply_fn)}\"\n            f\"\\n\\tparams : {params_size} Parameters\"\n            f\"\\n\\ttx = {optimizer} Optimizer with {scheduler} Scheduler\"\n            f\"\\n\\topt_state : {opt_state_size} Parameters\"\n            f\"\\n\\thyperparameters : {self.hyperparameters}\"\n            f\"\\n)\"\n        )\n        return string\n\n    @classmethod\n    def search(cls, key, dictionary: dict, default: Any = None):\n        req = dictionary.get(key, None)\n        if req is None:\n            req = cls.find_key(key, dictionary)\n        return req or default\n\n    @staticmethod\n    def find_key(key, dictionary: dict) -&gt; Union[str, None]:\n        result = None\n        for k, v in dictionary.items():\n            k_, v_ = break_format(key=k, value=v)\n            if k_ == key:\n                result = v_\n                break\n        return result\n\n    def __repr__(self):\n\n        \"\"\"The __repr__ function is the &amp;quot;official&amp;quot; string representation of an object.\n        It's what you get when you type the object name at the Python prompt, or pass it to str().\n        The goal of __repr__ is to be unambiguous: if eval(repr(x)) == x, then __repr__ should return a string that\n        looks like a valid Python expression that could be used to recreate an object with the same value (\n        given an appropriate environment). If this is not possible, a string formatted using %s\n        formatting is also acceptable.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A string that is a valid python expression\n        \"\"\"\n        return self.__str__()\n</code></pre>"},{"location":"generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState.__repr__","title":"<code>__repr__()</code>","text":"<p>The repr function is the \"official\" string representation of an object. It's what you get when you type the object name at the Python prompt, or pass it to str(). The goal of repr is to be unambiguous: if eval(repr(x)) == x, then repr should return a string that looks like a valid Python expression that could be used to recreate an object with the same value ( given an appropriate environment). If this is not possible, a string formatted using %s formatting is also acceptable.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>A string that is a valid python expression</p> Source code in <code>src/python/easydel/etils/easystate.py</code> <pre><code>def __repr__(self):\n\n    \"\"\"The __repr__ function is the &amp;quot;official&amp;quot; string representation of an object.\n    It's what you get when you type the object name at the Python prompt, or pass it to str().\n    The goal of __repr__ is to be unambiguous: if eval(repr(x)) == x, then __repr__ should return a string that\n    looks like a valid Python expression that could be used to recreate an object with the same value (\n    given an appropriate environment). If this is not possible, a string formatted using %s\n    formatting is also acceptable.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A string that is a valid python expression\n    \"\"\"\n    return self.__str__()\n</code></pre>"},{"location":"generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState.__str__","title":"<code>__str__()</code>","text":"<p>The str function is called when you call str(object) or print(object). The repr function is called when you type the object name in the interpreter. If no str method exists, Python will use repr as a fallback.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <p>Returns:</p> Type Description <p>string</p> Source code in <code>src/python/easydel/etils/easystate.py</code> <pre><code>def __str__(self):\n\n    \"\"\"The __str__ function is called when you call str(object) or print(object).\n    The __repr__ function is called when you type the object name in the interpreter.\n    If no __str__ method exists, Python will use __repr__ as a fallback.\n\n    Args:\n        self: Refer to the object itself\n\n    Returns:\n        string\n    \"\"\"\n    params_size = sum(getattr(n, \"size\", 0) for n in jax.tree_util.tree_flatten(self.params)[0])\n    opt_state_size = sum(getattr(n, \"size\", 0) for n in jax.tree_util.tree_flatten(self.opt_state)[0])\n\n    def make_depth(mdl=None):\n        if mdl is not None:\n            try:\n                return mdl.__str__().replace(\n                    \"\\n\",\n                    \"\\n\\t\"\n                    \"\"\n                ) if hasattr(mdl, \"__str__\") else None\n            except TypeError:\n                ...\n        return mdl\n\n    optimizer = self.tx_init.get(\"optimizer\", None)\n    scheduler = self.tx_init.get(\"scheduler\", None)\n\n    if optimizer is None:\n        optimizer = self.find_key(\n            \"optimizer\",\n            self.tx_init\n        )\n    if scheduler is None:\n        scheduler = self.find_key(\n            \"scheduler\",\n            self.tx_init\n        )\n\n    string = (\n        f\"{self.__class__.__name__}(\"\n        f\"\\n\\tstep = {self.step}\"\n        f\"\\n\\tmodule = {make_depth(self.module)}\"\n        f\"\\n\\tmodule_config = {make_depth(self.module_config)}\"\n        f\"\\n\\tapply_fn: Callable = {make_depth(self.apply_fn)}\"\n        f\"\\n\\tparams : {params_size} Parameters\"\n        f\"\\n\\ttx = {optimizer} Optimizer with {scheduler} Scheduler\"\n        f\"\\n\\topt_state : {opt_state_size} Parameters\"\n        f\"\\n\\thyperparameters : {self.hyperparameters}\"\n        f\"\\n)\"\n    )\n    return string\n</code></pre>"},{"location":"generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState.apply_gradients","title":"<code>apply_gradients(*, grads, **kwargs)</code>","text":"<p>The apply_gradients function is the core of the optimizer. It takes in a dictionary of gradients, and returns an updated version of itself with new parameters and state. The function also updates the step count.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the current instance of the class</p> required <code></code> <p>Unpack the grads dictionary into positional arguments</p> required <code>grads</code> <p>Pass in the gradients of the loss function with respect to each parameter</p> required <code>**kwargs</code> <p>Pass in additional arguments to the function</p> <code>{}</code> <p>Returns:</p> Type Description <p>A new State with the updated parameters and params</p> Source code in <code>src/python/easydel/etils/easystate.py</code> <pre><code>def apply_gradients(self, *, grads, **kwargs):\n\n    \"\"\"The apply_gradients function is the core of the optimizer. It takes in a dictionary of gradients,\n    and returns an updated version of itself with new parameters and state. The function also updates\n    the step count.\n\n    Args:\n        self: Refer to the current instance of the class\n        : Unpack the grads dictionary into positional arguments\n        grads: Pass in the gradients of the loss function with\n            respect to each parameter\n        **kwargs: Pass in additional arguments to the function\n\n    Returns:\n        A new State with the updated parameters and params\n    \"\"\"\n    if OVERWRITE_WITH_GRADIENT in grads:\n        grads_with_opt = grads['params']\n        params_with_opt = self.params['params']\n    else:\n        grads_with_opt = grads\n        params_with_opt = self.params\n\n    updates, new_opt_state = self.tx.update(\n        grads_with_opt, self.opt_state, params_with_opt\n    )\n    new_params_with_opt = optax.apply_updates(params_with_opt, updates)\n    if OVERWRITE_WITH_GRADIENT in grads:\n        new_params = {\n            'params': new_params_with_opt,\n            OVERWRITE_WITH_GRADIENT: grads[OVERWRITE_WITH_GRADIENT]\n        }\n    else:\n        new_params = new_params_with_opt\n    return self.replace(\n        step=self.step + 1,\n        params=new_params,\n        opt_state=new_opt_state,\n        **kwargs,\n    )\n</code></pre>"},{"location":"generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState.create","title":"<code>create(*, apply_fn, params, tx, tx_init=None, hyperparameters=None, module=None, module_config=None, module_config_args=None, **kwargs)</code>  <code>classmethod</code>","text":"<p>The create function is used to create a new instance of the class.</p> <p>Parameters:</p> Name Type Description Default <code>cls</code> <p>Create a new instance of the class</p> required <code></code> <p>Pass a list of parameters to the function</p> required <code>apply_fn</code> <code>Callable</code> <p>Callable: Apply the model to a batch of data</p> required <code>params</code> <code>Union[FrozenDict[str, Any], Mapping[str, Any]]</code> <p>core.FrozenDict[str,Any] | Mapping[str,Any]: Pass in the parameters of the model</p> required <code>tx</code> <code>GradientTransformation</code> <p>optax.GradientTransformation: Initialize the optimizer</p> required <code>tx_init</code> <code>Optional[dict]</code> <p>Optional[dict]: Initialize the optimizer</p> <code>None</code> <code>hyperparameters</code> <code>Optional[dict]</code> <p>Optional[dict]: Pass hyperparameters to the state for init</p> <code>None</code> <code>module</code> <code>Optional[EasyDeLFlaxPretrainedModel]</code> <p>Optional[EasyDeLFlaxPretrainedModel]: Pass the module to be used int state</p> <code>None</code> <code>module_config</code> <code>Optional[EasyDeLPretrainedConfig]</code> <p>Optional[EasyDeLPretrainedConfig]: Pass in the module config</p> <code>None</code> <code>module_config_args</code> <code>Optional[dict]</code> <p>Optional[dict]: Store the config args of the model</p> <code>None</code> <code>**kwargs</code> <p>Pass in additional parameters to the</p> <code>{}</code> <p>Returns:</p> Type Description <p>A EasyDeLState object</p> Source code in <code>src/python/easydel/etils/easystate.py</code> <pre><code>@classmethod\ndef create(\n        cls,\n        *,\n        apply_fn: Callable,\n        params: Union[core.FrozenDict[str, Any], Mapping[str, Any]],\n        tx: optax.GradientTransformation,\n        tx_init: Optional[dict] = None,\n        hyperparameters: Optional[dict] = None,\n        module: Optional[\"EasyDeLFlaxPretrainedModel\"] = None,  # type:ignore\n        module_config: Optional[\"EasyDeLPretrainedConfig\"] = None,  # type:ignore\n        module_config_args: Optional[dict] = None,\n        **kwargs\n):\n\n    \"\"\"The create function is used to create a new instance of the class.\n\n    Args:\n        cls: Create a new instance of the class\n        : Pass a list of parameters to the function\n        apply_fn: Callable: Apply the model to a batch of data\n        params: core.FrozenDict[str,Any] | Mapping[str,Any]: Pass in\n            the parameters of the model\n        tx: optax.GradientTransformation: Initialize the optimizer\n        tx_init: Optional[dict]: Initialize the optimizer\n        hyperparameters: Optional[dict]: Pass hyperparameters to the\n            state for init\n        module: Optional[EasyDeLFlaxPretrainedModel]: Pass the\n            module to be used int state\n        module_config: Optional[EasyDeLPretrainedConfig]: Pass in\n            the module config\n        module_config_args: Optional[dict]: Store the config args of\n            the model\n        **kwargs: Pass in additional parameters to the\n\n    Returns:\n        A EasyDeLState object\n    \"\"\"\n    if hyperparameters is None:\n        hyperparameters = {}\n    params_with_opt = (\n        params['params'] if OVERWRITE_WITH_GRADIENT in params else params\n    )\n    opt_state = tx.init(params_with_opt)\n    if module_config is not None:\n        module_config = copy.deepcopy(module_config)\n        cls.safe_dict(module_config.__dict__)\n    return cls(\n        step=0,\n        apply_fn=apply_fn,\n        module=module,\n        params=params,\n        tx=tx,\n        opt_state=opt_state,\n        tx_init=cls.safe_dict(tx_init),\n        hyperparameters=hyperparameters,\n        module_config=module_config,\n        module_config_args=None,\n        **kwargs,\n    )\n</code></pre>"},{"location":"generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState.create_hyperparameters","title":"<code>create_hyperparameters(model_type)</code>  <code>staticmethod</code>","text":"<p>it's the only way we can dump xla compiler</p> Source code in <code>src/python/easydel/etils/easystate.py</code> <pre><code>@staticmethod\ndef create_hyperparameters(model_type: str):\n    \"\"\"it's the only way we can dump xla compiler\"\"\"\n    return {\n        STRING_REP.format(\n            type=\"str\",\n            key=\"model_type\",\n            value=model_type\n        ): DEFAULT_ES_VAL\n    }\n</code></pre>"},{"location":"generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState.free_opt_state","title":"<code>free_opt_state()</code>","text":"<p>The free_opt_state function is used to free the memory allocated by a previous call to setopt. It should be called after all the options have been set, and before you perform any of the transfers.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <code>EasyDeLState</code> <p>A new state with the opt_state field set to none</p> Source code in <code>src/python/easydel/etils/easystate.py</code> <pre><code>def free_opt_state(self) -&gt; \"EasyDeLState\":\n\n    \"\"\"The free_opt_state function is used to free the memory allocated by a previous call to setopt.\n    It should be called after all the options have been set, and before you perform any of the transfers.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A new state with the opt_state field set to none\n    \"\"\"\n    return self.replace(\n        opt_state=None\n    )\n</code></pre>"},{"location":"generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState.from_pretrained","title":"<code>from_pretrained(pretrained_model_name_or_path, filename=None, optimizer='adamw', scheduler='none', tx_init=None, device=jax.devices('cpu')[0], dtype=jax.numpy.float32, param_dtype=jax.numpy.float32, precision=jax.lax.Precision('fastest'), sharding_axis_dims=(1, -1, 1, 1), sharding_axis_names=('dp', 'fsdp', 'tp', 'sp'), query_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None), generation_query_partition_spec=PartitionSpec(('dp', 'fsdp'), 'tp', None, None), key_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None), value_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None), bias_partition_spec=PartitionSpec(('dp', 'fsdp'), None, None, None), generation_bias_partition_spec=PartitionSpec(('dp', 'fsdp'), None, None, None), attention_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None), shard_attention_computation=True, input_shape=(1, 1), backend=None, init_optimizer_state=False, free_optimizer_state=True, verbose=True, state_shard_fns=None, config_kwargs=None, **kwargs)</code>  <code>classmethod</code>","text":"<p>The from_pretrained function is a helper function to quickly load a pretrained model and its associated configuration. This method takes care of returning the correct model class instance based on the <code>model_type</code> property in the config object, or when it's missing, falling back to using pattern matching on the  <code>pretrained_model_name_or_path</code> string:</p> <p>Parameters:</p> Name Type Description Default <code>cls</code> <p>Refer to the class that is being defined</p> required <code>pretrained_model_name_or_path</code> <code>str</code> <p>str: Load the pretrained model</p> required <code>filename</code> <code>Optional[str]</code> <p>Optional[str]: Specify the name of the file to download from huggingface hub</p> <code>None</code> <code>optimizer</code> <code>AVAILABLE_OPTIMIZERS</code> <p>AVAILABLE_OPTIMIZERS: Specify the optimizer used for training</p> <code>'adamw'</code> <code>scheduler</code> <code>AVAILABLE_SCHEDULERS</code> <p>AVAILABLE_SCHEDULERS: Specify the name of the scheduler to use</p> <code>'none'</code> <code>tx_init</code> <code>Optional[dict]</code> <p>Optional[dict]: Pass the hyperparameters of the optimizer</p> <code>None</code> <code>device</code> <p>Specify the device on which to run the model</p> <code>devices('cpu')[0]</code> <code>dtype</code> <code>dtype</code> <p>jax.numpy.dtype: Specify the dtype of the model parameters</p> <code>float32</code> <code>param_dtype</code> <code>dtype</code> <p>jax.numpy.dtype: Specify the data type of the parameters</p> <code>float32</code> <code>precision</code> <code>Optional[Precision]</code> <p>jax.lax.Precision: Control the precision of the calculation</p> <code>Precision('fastest')</code> <code>sharding_axis_dims</code> <code>Sequence[int]</code> <p>Sequence[int]: Specify the dimension of each axis</p> <code>(1, -1, 1, 1)</code> <code>sharding_axis_names</code> <code>Sequence[str]</code> <p>Sequence[str]: Specify the names of the axes in each shard</p> <code>('dp', 'fsdp', 'tp', 'sp')</code> <code>query_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the partitioning of the query matrix</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>generation_query_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the partitioning of the query tensor in</p> <code>PartitionSpec(('dp', 'fsdp'), 'tp', None, None)</code> <code>value_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the partitioning of the value tensor</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>bias_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the partitioning of the bias</p> <code>PartitionSpec(('dp', 'fsdp'), None, None, None)</code> <code>attention_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Partition the attention weights</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>shard_attention_computation</code> <code>bool</code> <p>bool: Determine whether to use shard_map or not</p> <code>True</code> <code>input_shape</code> <code>Sequence[int]</code> <p>Sequence[int]: Specify the shape of the input to be used for training</p> <code>(1, 1)</code> <code>backend</code> <code>Optional[str]</code> <p>Optional[str]: Specify the backend used for the model</p> <code>None</code> <code>init_optimizer_state</code> <code>bool</code> <p>bool: Initialize the optimizer state</p> <code>False</code> <code>free_optimizer_state</code> <code>bool</code> <p>bool: Free the optimizer state from memory</p> <code>True</code> <code>verbose</code> <code>bool</code> <p>bool: Print the progress of loading the model</p> <code>True</code> <code>state_shard_fns</code> <code>Optional[Mapping[str, Callable]]</code> <p>Optional[Mapping[str,Callable]]: Specify the function to use for sharding the state</p> <code>None</code> <code>**kwargs</code> <p>Pass keyword arguments to the function</p> <code>{}</code> <code>config_kwargs</code> <code>Optional[Mapping[str, Any]]</code> <p>Optional[Mapping[str, Any]]: Config kwargs to be added to config before creating module</p> <code>None</code> <p>generation process:param key_partition_spec: PartitionSpec: Specify the partitioning of the key matrix</p> <p>Returns:</p> Type Description <code>EasyDeLState</code> <p>An <code>EasyDeLState</code> object</p> Source code in <code>src/python/easydel/etils/easystate.py</code> <pre><code>@classmethod\ndef from_pretrained(\n        cls,\n        pretrained_model_name_or_path: str,\n        filename: Optional[str] = None,\n        optimizer: AVAILABLE_OPTIMIZERS = \"adamw\",\n        scheduler: AVAILABLE_SCHEDULERS = \"none\",\n        tx_init: Optional[dict] = None,\n        device=jax.devices('cpu')[0],\n        dtype: jax.numpy.dtype = jax.numpy.float32,\n        param_dtype: jax.numpy.dtype = jax.numpy.float32,\n        precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\"),\n        sharding_axis_dims: Sequence[int] = (1, -1, 1, 1),\n        sharding_axis_names: Sequence[str] = (\"dp\", \"fsdp\", \"tp\", \"sp\"),\n        query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        generation_query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"tp\", None, None),\n        key_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        value_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n        generation_bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n        attention_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        shard_attention_computation: bool = True,\n        input_shape: Sequence[int] = (1, 1),\n        backend: Optional[str] = None,\n        init_optimizer_state: bool = False,\n        free_optimizer_state: bool = True,\n        verbose: bool = True,\n        state_shard_fns: Optional[Mapping[str, Callable]] = None,\n        config_kwargs: Optional[Mapping[str, Any]] = None,\n        **kwargs\n) -&gt; \"EasyDeLState\":\n\n    \"\"\"The from_pretrained function is a helper function to quickly load a pretrained model and its associated configuration.\n    This method takes care of returning the correct model class instance based on the `model_type` property in the\n    config object, or when it's missing, falling back to using pattern matching on the\n     `pretrained_model_name_or_path` string:\n\n    Args:\n        cls: Refer to the class that is being defined\n        pretrained_model_name_or_path: str: Load the pretrained\n            model\n        filename: Optional[str]: Specify the name of the file to\n            download from huggingface hub\n        optimizer: AVAILABLE_OPTIMIZERS: Specify the optimizer used\n            for training\n        scheduler: AVAILABLE_SCHEDULERS: Specify the name of the\n            scheduler to use\n        tx_init: Optional[dict]: Pass the hyperparameters of the\n            optimizer\n        device: Specify the device on which to run the model\n        dtype: jax.numpy.dtype: Specify the dtype of the model\n            parameters\n        param_dtype: jax.numpy.dtype: Specify the data type of the\n            parameters\n        precision: jax.lax.Precision: Control the precision of the\n            calculation\n        sharding_axis_dims: Sequence[int]: Specify the dimension of\n            each axis\n        sharding_axis_names: Sequence[str]: Specify the names of the\n            axes in each shard\n        query_partition_spec: PartitionSpec: Specify the\n            partitioning of the query matrix\n        generation_query_partition_spec: PartitionSpec: Specify the\n            partitioning of the query tensor in\n        value_partition_spec: PartitionSpec: Specify the\n            partitioning of the value tensor\n        bias_partition_spec: PartitionSpec: Specify the partitioning\n            of the bias\n        attention_partition_spec: PartitionSpec: Partition the\n            attention weights\n        shard_attention_computation: bool: Determine whether to use\n            shard_map or not\n        input_shape: Sequence[int]: Specify the shape of the input\n            to be used for training\n        backend: Optional[str]: Specify the backend used for the\n            model\n        init_optimizer_state: bool: Initialize the optimizer state\n        free_optimizer_state: bool: Free the optimizer state from\n            memory\n        verbose: bool: Print the progress of loading the model\n        state_shard_fns: Optional[Mapping[str,Callable]]: Specify\n            the function to use for sharding the state\n        **kwargs: Pass keyword arguments to the function\n        config_kwargs: Optional[Mapping[str, Any]]: Config kwargs to\n            be added to config before creating module\n    generation process:param key_partition_spec: PartitionSpec: Specify the partitioning of the key matrix\n\n    Returns:\n        An `EasyDeLState` object\n    \"\"\"\n    if free_optimizer_state and init_optimizer_state:\n        raise EasyDeLRuntimeError(\n            \"You can't use `free_optimizer_state` and `init_optimizer_state` True at same Time\"\n        )\n\n    if filename is None:\n        from ..modules.auto_easydel_model import AutoEasyDeLModelForCausalLM\n\n        model, params = AutoEasyDeLModelForCausalLM.from_pretrained(\n            pretrained_model_name_or_path,\n            device=device,\n            dtype=dtype,\n            param_dtype=param_dtype,\n            precision=precision,\n            sharding_axis_dims=sharding_axis_dims,\n            sharding_axis_names=sharding_axis_names,\n            query_partition_spec=query_partition_spec,\n            generation_query_partition_spec=generation_query_partition_spec,\n            generation_bias_partition_spec=generation_bias_partition_spec,\n            key_partition_spec=key_partition_spec,\n            value_partition_spec=value_partition_spec,\n            bias_partition_spec=bias_partition_spec,\n            attention_partition_spec=attention_partition_spec,\n            shard_attention_computation=shard_attention_computation,\n            input_shape=input_shape,\n            backend=backend,\n            config_kwargs=config_kwargs,\n            **kwargs\n        )\n        if tx_init is None:\n            tx_init = {}\n\n        tx_init[\"optimizer\"] = optimizer\n        tx_init[\"scheduler\"] = scheduler\n\n        state = cls.load(\n            apply_fn=model.__call__,\n            params=FrozenDict({'params': params}),\n            step=0,\n            opt_state=None,\n            tx_init=tx_init,\n            hyperparameters=None,\n            module=model,\n            module_config=model.config,\n            module_config_args=model.config.to_dict()\n        )\n    else:\n        with jax.default_device(device):\n            from huggingface_hub import hf_hub_download\n            checkpoint_path = hf_hub_download(\n                repo_id=pretrained_model_name_or_path,\n                filename=filename,\n            )\n            state = cls.load_state(\n                checkpoint_path=checkpoint_path,\n                init_optimizer_state=init_optimizer_state,\n                verbose=verbose,\n                state_shard_fns=state_shard_fns,\n                dtype=dtype,\n                param_dtype=param_dtype,\n                precision=precision,\n                input_shape=input_shape\n            )\n    if init_optimizer_state:\n        with jax.default_device(device):\n            state = state.init_opt_state()\n    if free_optimizer_state:\n        state = state.free_opt_state()\n    return state\n</code></pre>"},{"location":"generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState.init_opt_state","title":"<code>init_opt_state()</code>","text":"<p>The init_opt_state function initializes the optimizer state.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Make the object callable, and params is used to pass in a dictionary of parameters</p> required <p>Returns:</p> Type Description <code>EasyDeLState</code> <p>A new instance of the class with opt_state initialized</p> Source code in <code>src/python/easydel/etils/easystate.py</code> <pre><code>def init_opt_state(self) -&gt; \"EasyDeLState\":\n\n    \"\"\"The init_opt_state function initializes the optimizer state.\n\n    Args:\n        self: Make the object callable, and params is used to pass\n            in a dictionary of parameters\n\n    Returns:\n        A new instance of the class with opt_state initialized\n    \"\"\"\n    if self.opt_state is None:\n        params_with_opt = (\n            self.params['params'] if OVERWRITE_WITH_GRADIENT in self.params else self.params\n        )\n        opt_state = self.tx.init(params_with_opt)\n\n        return self.replace(\n            opt_state=opt_state\n        )\n    return self\n</code></pre>"},{"location":"generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState.load","title":"<code>load(*, apply_fn, params, step=0, opt_state=None, tx_init=None, hyperparameters=None, module=None, module_config=None, module_config_args=None, **kwargs)</code>  <code>classmethod</code>","text":"<p>The load function is used to load a saved state of the Model and optimizer or Model Only.</p> <p>Parameters:</p> Name Type Description Default <code>cls</code> <p>Make the function a class method</p> required <code></code> <p>Pass in a variable number of arguments</p> required <code>step</code> <code>int</code> <p>int: Keep track of the number of steps that have been taken</p> <code>0</code> <code>apply_fn</code> <code>Callable</code> <p>Callable: Apply the optimizer to the model</p> required <code>params</code> <code>Union[FrozenDict[str, Any], Mapping[str, Any]]</code> <p>core.FrozenDict[str,Any] | Mapping[str,Any]: Pass in the parameters of the model</p> required <code>opt_state</code> <code>Optional[OptState]</code> <p>Optional[optax.OptState]: optimizer state</p> <code>None</code> <code>tx_init</code> <code>Optional[dict]</code> <p>Optional[dict]: Pass the hyperparameters to the optimizer</p> <code>None</code> <code>hyperparameters</code> <code>Optional[dict]</code> <p>Optional[dict]: Load hyperparameters from the state dict</p> <code>None</code> <code>module</code> <code>Optional[EasyDeLFlaxPretrainedModel]</code> <p>Optional[EasyDeLFlaxPretrainedModel]: Pass in the module</p> <code>None</code> <code>module_config</code> <code>Optional[EasyDeLPretrainedConfig]</code> <p>Optional[EasyDeLPretrainedConfig]: Pass the module config</p> <code>None</code> <code>module_config_args</code> <code>Optional[dict]</code> <p>Optional[dict]: Pass the config_args to the model</p> <code>None</code> <code>**kwargs</code> <p>Pass in any additional parameters that may be needed for the model</p> <code>{}</code> <p>Returns:</p> Type Description <p>A new instance of the class</p> Source code in <code>src/python/easydel/etils/easystate.py</code> <pre><code>@classmethod\ndef load(\n        cls,\n        *,\n        apply_fn: Callable,\n        params: Union[core.FrozenDict[str, Any], Mapping[str, Any]],\n        step: int = 0,\n        opt_state: Optional[optax.OptState] = None,\n        tx_init: Optional[dict] = None,\n        hyperparameters: Optional[dict] = None,\n        module: Optional[\"EasyDeLFlaxPretrainedModel\"] = None,  # type:ignore\n        module_config: Optional[\"EasyDeLPretrainedConfig\"] = None,  # type:ignore\n        module_config_args: Optional[dict] = None,\n        **kwargs\n):\n\n    \"\"\"The load function is used to load a saved state of the Model and optimizer or Model Only.\n\n    Args:\n        cls: Make the function a class method\n        : Pass in a variable number of arguments\n        step: int: Keep track of the number of steps that have been\n            taken\n        apply_fn: Callable: Apply the optimizer to the model\n        params: core.FrozenDict[str,Any] | Mapping[str,Any]: Pass in\n            the parameters of the model\n        opt_state: Optional[optax.OptState]: optimizer state\n        tx_init: Optional[dict]: Pass the hyperparameters to the\n            optimizer\n        hyperparameters: Optional[dict]: Load hyperparameters from\n            the state dict\n        module: Optional[EasyDeLFlaxPretrainedModel]: Pass in the\n            module\n        module_config: Optional[EasyDeLPretrainedConfig]: Pass the\n            module config\n        module_config_args: Optional[dict]: Pass the config_args to\n            the model\n        **kwargs: Pass in any additional parameters that may be\n            needed for the model\n\n    Returns:\n        A new instance of the class\n    \"\"\"\n    if module_config is not None:\n        module_config = copy.deepcopy(module_config)\n\n    if tx_init is None:\n        tx_init = {}\n    tx_init = copy.deepcopy(tx_init)\n    tx_init = cls.unsafe_dict(tx_init)\n\n    tx_init[\"optimizer\"] = cls.search(\"optimizer\", tx_init, \"adamw\")\n    tx_init[\"scheduler\"] = cls.search(\"scheduler\", tx_init, \"none\")\n    tx_init[\"steps\"] = cls.search(\"steps\", tx_init, 1e6)\n\n    def fix_dict_types(input_dict):\n        fixed_dict = input_dict.copy()\n\n        # Fix extra_optimizer_kwargs\n        if 'extra_optimizer_kwargs' in fixed_dict:\n            fixed_dict['extra_optimizer_kwargs'] = eval(fixed_dict['extra_optimizer_kwargs'])\n\n        # Fix gradient_accumulation_steps\n        if 'gradient_accumulation_steps' in fixed_dict:\n            fixed_dict['gradient_accumulation_steps'] = int(fixed_dict['gradient_accumulation_steps'])\n\n        # Fix steps\n        if 'steps' in fixed_dict:\n            fixed_dict['steps'] = int(fixed_dict['steps'])\n\n        # Fix warmup_steps\n        if 'warmup_steps' in fixed_dict:\n            fixed_dict['warmup_steps'] = int(fixed_dict['warmup_steps'])\n\n        return fixed_dict\n\n    try:\n        tx, sc = get_optimizer_and_scheduler(\n            **tx_init\n        )\n    except TypeError:\n        tx, sc = get_optimizer_and_scheduler(\n            **fix_dict_types(tx_init)\n        )\n    if hyperparameters is None:\n        hyperparameters = {}\n\n    if module_config is not None:\n        hyperparameters = cls.create_hyperparameters(module_config.model_type)\n        cls.safe_dict(module_config.__dict__)\n    return cls(\n        step=step,\n        apply_fn=apply_fn,\n        params=params,\n        tx=tx,\n        opt_state=opt_state,\n        tx_init=cls.safe_dict(tx_init),\n        hyperparameters=hyperparameters,\n        module=module,\n        module_config=module_config,\n        module_config_args=None,\n        **kwargs,\n    )\n</code></pre>"},{"location":"generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState.load_state","title":"<code>load_state(checkpoint_path, dtype=jnp.float32, param_dtype=jnp.float32, precision=None, init_optimizer_state=False, state_shard_fns=None, verbose=False, input_shape=(1, 1), config_kwargs=None)</code>  <code>classmethod</code>","text":"<p>The load_state function is a class method that loads the state of an EasyDeLModel from a checkpoint.</p> <p>Parameters:</p> Name Type Description Default <code>cls</code> <p>Create an instance of the class</p> required <code>checkpoint_path</code> <code>Union[str, PathLike]</code> <p>str | os.PathLike: Specify the path to the checkpoint file</p> required <code>dtype</code> <code>dtype</code> <p>jnp.dtype: The dtype of the model</p> <code>float32</code> <code>param_dtype</code> <code>dtype</code> <p>jnp.dtype: The dtype of the model parameters</p> <code>float32</code> <code>precision</code> <code>Optional[Union[str, Precision]]</code> <p>Optional[Union[str, jax.lax.Precision]]: precision of the model</p> <code>None</code> <code>init_optimizer_state</code> <code>bool</code> <p>bool: Initialize the optimizer if it's not Initialized yet (if it Initialized the option</p> <code>False</code> <code>state_shard_fns</code> <code>Optional[Mapping[str, Callable]]</code> <p>Optional[Mapping[str,Callable]]: Specify the function that will be used</p> <code>None</code> <code>verbose</code> <code>bool</code> <p>bool: Print out the progress of loading</p> <code>False</code> <code>input_shape</code> <code>Tuple</code> <p>Tuple: input_shape to init module</p> <code>(1, 1)</code> <code>config_kwargs</code> <code>Optional[dict]</code> <p>Optional[dict] : config kwargs to be passed to model config</p> <code>None</code> <p>will be ignored ) to shard the loaded state</p> <p>Returns:</p> Type Description <p>A state object</p> Source code in <code>src/python/easydel/etils/easystate.py</code> <pre><code>@classmethod\ndef load_state(\n        cls,\n        checkpoint_path: Union[str, os.PathLike],\n        dtype: jnp.dtype = jnp.float32,\n        param_dtype: jnp.dtype = jnp.float32,\n        precision: Optional[Union[str, jax.lax.Precision]] = None,\n        init_optimizer_state: bool = False,\n        state_shard_fns: Optional[Mapping[str, Callable]] = None,\n        verbose: bool = False,\n        input_shape: Tuple = (1, 1),\n        config_kwargs: Optional[dict] = None\n):\n\n    \"\"\"The load_state function is a class method that loads the state of an EasyDeLModel from a checkpoint.\n\n    Args:\n        cls: Create an instance of the class\n        checkpoint_path: str | os.PathLike: Specify the path to the\n            checkpoint file\n        dtype: jnp.dtype: The dtype of the model\n        param_dtype: jnp.dtype: The dtype of the model parameters\n        precision: Optional[Union[str, jax.lax.Precision]]:\n            precision of the model\n        init_optimizer_state: bool: Initialize the optimizer if it's\n            not Initialized yet (if it Initialized the option\n        state_shard_fns: Optional[Mapping[str,Callable]]: Specify\n            the function that will be used\n        verbose: bool: Print out the progress of loading\n        input_shape: Tuple: input_shape to init module\n        config_kwargs: Optional[dict] : config kwargs to be passed\n            to model config\n    will be ignored )\n    to shard the loaded state\n\n    Returns:\n        A state object\n    \"\"\"\n    from ..modules.auto_easydel_model import get_modules_by_type\n\n    checkpoint = fjformer.CheckpointManager.load_checkpoint(\n        path=checkpoint_path,\n        shard_fns=state_shard_fns,\n        verbose=verbose,\n    )\n    hyperparameters = checkpoint.get(\"hyperparameters\")\n    cfg, module, convertor = get_modules_by_type(model_type=cls.get_model_type(hyperparameters))\n    checkpoint.pop(\"module_config\", None)\n    if checkpoint[\"module_config_args\"] is not None:\n        cfg_behave = cls.unsafe_dict(checkpoint.get(\"module_config_args\", {}))\n        cfg_behave.pop(\"id2label\", None)\n        cfg_behave.pop(\"label2id\", None)\n        cfg_behave.pop(\"torch_dtype\", None)\n        for k, v in cfg_behave.items():\n            if v is None:\n                cfg_behave.pop(k, None)\n            elif v == \"None\":\n                cfg_behave[k] = None\n            elif isinstance(v, str):\n                if v.startswith(\"{\") or v.startswith(\"(\") or v.startswith(\"PartitionSpec\"):\n                    cfg_behave[k] = eval(v)\n        module_config = cfg.from_dict(cfg_behave)\n        if config_kwargs is not None:\n            for k, v in config_kwargs.items():\n                setattr(module_config, k, v)\n        module_in = module(\n            config=module_config,\n            dtype=dtype,\n            param_dtype=param_dtype,\n            precision=precision,\n            input_shape=input_shape\n        )\n    else:\n        raise TypeError(\n            \"Om seems like i couldn't read model correctly ;(\"\n        )\n    state = cls.load(\n        apply_fn=module_in.__call__,\n        module=module_in,\n        module_config=module_config,\n        **checkpoint\n    )\n    state = state.replace(\n        module_config_args=None  # removing because it's not needed anymore\n    )\n    if init_optimizer_state:\n        state = state.init_opt_state()\n    return state\n</code></pre>"},{"location":"generated-etils-easystate/#src.python.easydel.etils.easystate.EasyDeLState.save_state","title":"<code>save_state(filename, save_optimizer=False, checkpoint_dir=None, verbose=False, gather_fns=None, float_dtype=None)</code>","text":"<p>The save_state function saves the state of a model to disk.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Pass the object itself to the function</p> required <code>filename</code> <code>Union[str, PathLike]</code> <p>str | os.PathLike: Specify the name of the file to save</p> required <code>save_optimizer</code> <code>bool</code> <p>bool: Determine whether to save the optimizer state or not</p> <code>False</code> <code>checkpoint_dir</code> <code>Optional[Union[str, PathLike]]</code> <p>Optional[str | os.PathLike]: Specify the directory where the checkpoint is saved</p> <code>None</code> <code>verbose</code> <code>bool</code> <p>bool: Print out the path of the saved file</p> <code>False</code> <code>gather_fns</code> <code>dict[Callable]</code> <p>dict[Callable]: Specify a dictionary of functions that can be used to gather</p> <code>None</code> <code>float_dtype</code> <code>Union[str, dtype]</code> <p>str | jax.numpy.dtype: Specify the precision of the saved model</p> <code>None</code> <p>:param : Save the optimizer state</p> <p>Returns:</p> Type Description <p>None</p> Source code in <code>src/python/easydel/etils/easystate.py</code> <pre><code>def save_state(\n        self,\n        filename: Union[str, os.PathLike],\n        save_optimizer: bool = False,\n        checkpoint_dir: Optional[Union[str, os.PathLike]] = None,\n        verbose: bool = False,\n        gather_fns: dict[Callable] = None,\n        float_dtype: Union[str, jax.numpy.dtype] = None,\n):\n\n    \"\"\"The save_state function saves the state of a model to disk.\n\n    Args:\n        self: Pass the object itself to the function\n        filename: str | os.PathLike: Specify the name of the file to\n            save\n        save_optimizer: bool: Determine whether to save the\n            optimizer state or not\n        checkpoint_dir: Optional[str | os.PathLike]: Specify the\n            directory where the checkpoint is saved\n        verbose: bool: Print out the path of the saved file\n        gather_fns: dict[Callable]: Specify a dictionary of\n            functions that can be used to gather\n        float_dtype: str | jax.numpy.dtype: Specify the precision of\n            the saved model\n    :param : Save the optimizer state\n\n    Returns:\n        None\n    \"\"\"\n    state = self\n    if not save_optimizer:\n        state = self.replace(\n            opt_state=None\n        )\n    state = state.replace(\n        module_config_args={\n            k: v for k, v in state.module.config.__dict__.items() if\n            isinstance(\n                v, (int, bool, float)\n            )\n        }\n    )\n    fjformer.CheckpointManager.save_state_to_file(\n        state=state,\n        path=os.path.join(checkpoint_dir, filename) if checkpoint_dir is not None else filename,\n        verbose=verbose,\n        gather_fns=gather_fns,\n        float_dtype=float_dtype,\n    )\n</code></pre>"},{"location":"generated-etils-errors/","title":"etils.errors","text":""},{"location":"generated-etils-etils/","title":"etils.etils","text":""},{"location":"generated-etils-etils/#src.python.easydel.etils.etils.EasyDeLGradientCheckPointers","title":"<code>EasyDeLGradientCheckPointers</code>  <code>dataclass</code>","text":"<p>The code snippet is defining a data class called <code>EasyDeLGradientCheckPointers</code> using the <code>@dataclass</code> decorator. A data class is a class that is primarily used to store data, and it automatically generates special methods such as <code>__init__</code>, <code>__repr__</code>, and <code>__eq__</code> based on the class attributes.</p> Source code in <code>src/python/easydel/etils/etils.py</code> <pre><code>@dataclass\nclass EasyDeLGradientCheckPointers:\n    \"\"\"The code snippet is defining a data class called `EasyDeLGradientCheckPointers` using the `@dataclass`\n    decorator. A data class is a class that is primarily used to store data, and it automatically\n    generates special methods such as `__init__`, `__repr__`, and `__eq__` based on the class\n    attributes.\n    \"\"\"\n    EVERYTHING_SAVEABLE: Literal[\"everything_saveable\"] = \"everything_saveable\"  # Fix Pycharm Debugging Issue\n    NOTHING_SAVEABLE: Literal[\"nothing_saveable\"] = \"nothing_saveable\"  # Fix Pycharm Debugging Issue\n    CHECKPOINT_DOTS: Literal[\"checkpoint_dots\"] = \"checkpoint_dots\"  # Fix Pycharm Debugging Issue\n    CHECKPOINT_DOTS_WITH_NO_BATCH_DMIS: Literal[\"checkpoint_dots_with_no_batch_dims\"] = \\\n        \"checkpoint_dots_with_no_batch_dims\"  # Fix Pycharm Debugging Issue\n</code></pre>"},{"location":"generated-etils-etils/#src.python.easydel.etils.etils.EasyDeLOptimizers","title":"<code>EasyDeLOptimizers</code>  <code>dataclass</code>","text":"<p>The code snippet is defining a data class called <code>EasyDeLOptimizers</code> using the <code>@dataclass</code> decorator. A data class is a class that is primarily used to store data, and it automatically generates special methods such as <code>__init__</code>, <code>__repr__</code>, and <code>__eq__</code> based on the class attributes.</p> Source code in <code>src/python/easydel/etils/etils.py</code> <pre><code>@dataclass\nclass EasyDeLOptimizers:\n    \"\"\"The code snippet is defining a data class called `EasyDeLOptimizers` using the `@dataclass`\n    decorator. A data class is a class that is primarily used to store data, and it automatically\n    generates special methods such as `__init__`, `__repr__`, and `__eq__` based on the class\n    attributes.\n    \"\"\"\n    ADAFACTOR: Literal[\"adafactor\"] = \"adafactor\"  # Fix Pycharm Debugging Issue\n    LION: Literal[\"lion\"] = \"lion\"  # Fix Pycharm Debugging Issue\n    ADAMW: Literal[\"adamw\"] = 'adamw'  # Fix Pycharm Debugging Issue\n</code></pre>"},{"location":"generated-etils-etils/#src.python.easydel.etils.etils.EasyDeLSchedulers","title":"<code>EasyDeLSchedulers</code>  <code>dataclass</code>","text":"<p>The code snippet is defining a data class called <code>EasyDeLSchedulers</code> using the <code>@dataclass</code> decorator. A data class is a class that is primarily used to store data, and it automatically generates special methods such as <code>__init__</code>, <code>__repr__</code>, and <code>__eq__</code> based on the class attributes.</p> Source code in <code>src/python/easydel/etils/etils.py</code> <pre><code>@dataclass\nclass EasyDeLSchedulers:\n    \"\"\"The code snippet is defining a data class called `EasyDeLSchedulers` using the `@dataclass`\n    decorator. A data class is a class that is primarily used to store data, and it automatically\n    generates special methods such as `__init__`, `__repr__`, and `__eq__` based on the class\n    attributes.\n    \"\"\"\n    LINEAR: Literal[\"linear\"] = \"linear\"  # Fix Pycharm Debugging Issue\n    COSINE: Literal[\"cosine\"] = \"cosine\"  # Fix Pycharm Debugging Issue\n    NONE: Literal[\"none\"] = \"none\"  # Fix Pycharm Debugging Issue\n    WARM_UP_COSINE: Literal[\"warm_up_cosine\"] = \"warm_up_cosine\"  # Fix Pycharm Debugging Issue\n    WARM_UP_LINEAR: Literal[\"warm_up_linear\"] = \"warm_up_linear\"  # Fix Pycharm Debugging Issue\n</code></pre>"},{"location":"generated-etils-etils/#src.python.easydel.etils.etils.StoreTupleAction","title":"<code>StoreTupleAction</code>","text":"<p>               Bases: <code>Action</code></p> <p>Custom action to store a comma-separated string as a tuple of ints.</p> Source code in <code>src/python/easydel/etils/etils.py</code> <pre><code>class StoreTupleAction(argparse.Action):\n    \"\"\"Custom action to store a comma-separated string as a tuple of ints.\"\"\"\n\n    def __call__(self, parser, namespace, values, option_string=None):\n        try:\n            setattr(namespace, self.dest, tuple(int(v) for v in values.split(\",\")))\n        except ValueError:\n            raise argparse.ArgumentTypeError(\n                f\"Invalid value for {option_string}: {values} \"\n                f\"(should be comma-separated integers)\"\n            )\n</code></pre>"},{"location":"generated-etils-etils/#src.python.easydel.etils.etils.define_flags_with_default","title":"<code>define_flags_with_default(_required_fields=None, **kwargs)</code>","text":"<p>Defines flags with default values using argparse.</p> <p>Parameters:</p> Name Type Description Default <code>_required_fields</code> <code>List</code> <p>A dictionary with required flag names</p> <code>None</code> <code>**kwargs</code> <p>Keyword arguments representing flag names and default values.</p> <code>{}</code> <p>Returns:</p> Type Description <code>Tuple[Namespace, Dict[str, Any]]</code> <p>A tuple containing: - An argparse.Namespace object containing parsed arguments. - A dictionary mapping flag names to default values.</p> Source code in <code>src/python/easydel/etils/etils.py</code> <pre><code>def define_flags_with_default(\n        _required_fields: List = None,\n        **kwargs\n) -&gt; Tuple[argparse.Namespace, Dict[str, Any]]:\n    \"\"\"Defines flags with default values using argparse.\n\n    Args:\n        _required_fields: A dictionary with required flag names\n        **kwargs: Keyword arguments representing flag names and default values.\n\n    Returns:\n        A tuple containing:\n            - An argparse.Namespace object containing parsed arguments.\n            - A dictionary mapping flag names to default values.\n    \"\"\"\n    _required_fields = _required_fields if _required_fields is not None else []\n    parser = argparse.ArgumentParser()\n\n    default_values = {}\n\n    for name, value in kwargs.items():\n        default_values[name] = value\n\n        # Custom type handling:\n        if isinstance(value, tuple):\n            # For tuples, use a custom action to convert the string to a tuple of ints\n            parser.add_argument(\n                f\"--{name}\",\n                type=str,  # Read as string\n                default=str(value),  # Store default as string\n                help=f\"Value for {name} (comma-separated integers)\",\n                action=StoreTupleAction\n            )\n        else:\n            # For other types, infer type from default value\n            parser.add_argument(\n                f\"--{name}\",\n                type=type(value),\n                default=value,\n                help=f\"Value for {name}\"\n            )\n\n    args = parser.parse_args()\n    for key in _required_fields:\n        if getattr(args, key) == \"\":\n            raise ValueError(f\"Required field {key} for argument parser.\")\n    return args, default_values\n</code></pre>"},{"location":"generated-etils-etils/#src.python.easydel.etils.etils.get_logger","title":"<code>get_logger(name, level=logging.INFO)</code>","text":"<p>Function to create and configure a logger. :param name: str: The name of the logger. :param level: int: The logging level. Defaults to logging.INFO. :return logging.Logger: The configured logger instance.</p> Source code in <code>src/python/easydel/etils/etils.py</code> <pre><code>def get_logger(name, level: int = logging.INFO) -&gt; logging.Logger:\n    \"\"\"\n    Function to create and configure a logger.\n    :param name: str: The name of the logger.\n    :param level: int: The logging level. Defaults to logging.INFO.\n    :return logging.Logger: The configured logger instance.\n    \"\"\"\n    logger = logging.getLogger(name)\n    logger.propagate = False\n\n    # Set the logging level\n    logger.setLevel(level)\n\n    # Create a console handler\n    console_handler = logging.StreamHandler()\n    console_handler.setLevel(level)\n\n    formatter = logging.Formatter(\"%(asctime)s %(levelname)-8s [%(name)s] %(message)s\")\n    console_handler.setFormatter(formatter)\n    logger.addHandler(console_handler)\n    return logger\n</code></pre>"},{"location":"generated-etils-etils/#src.python.easydel.etils.etils.set_loggers_level","title":"<code>set_loggers_level(level=logging.WARNING)</code>","text":"<p>Function to set the logging level of all loggers to the specified level.</p> <p>Parameters:</p> Name Type Description Default <code>level</code> <code>int</code> <p>int: The logging level to set. Defaults to logging.WARNING.</p> <code>WARNING</code> Source code in <code>src/python/easydel/etils/etils.py</code> <pre><code>def set_loggers_level(level: int = logging.WARNING):\n    \"\"\"Function to set the logging level of all loggers to the specified level.\n\n    Args:\n        level: int: The logging level to set. Defaults to\n            logging.WARNING.\n    \"\"\"\n    logging.root.setLevel(level)\n    for handler in logging.root.handlers:\n        handler.setLevel(level)\n</code></pre>"},{"location":"generated-eval-lm_eval/","title":"eval.lm_eval","text":""},{"location":"generated-eval-lm_eval/#src.python.easydel.eval.lm_eval.evaluate","title":"<code>evaluate(model, task_list=None, write_out=True, limit=0, shots=5)</code>","text":"<p>The evaluate function takes a model and evaluates it on the tasks specified in task_list. The results are printed to stdout, and optionally written out to a file.</p> <p>:param model: Specify the model to be evaluated :param task_list: Optional[List[str]]: Specify which tasks to evaluate on :param write_out: bool: Write the output to a file :param limit: int: Limit the number of examples that are evaluated :param shots: int: Specify how many times to run the model on a given task :return: A dictionary with the following keys</p> Source code in <code>src/python/easydel/eval/lm_eval.py</code> <pre><code>def evaluate(model, task_list: Optional[List[str]] = None, write_out: bool = True, limit: int = 0, shots: int = 5):\n    \"\"\"\n    The evaluate function takes a model and evaluates it on the tasks specified in task_list.\n    The results are printed to stdout, and optionally written out to a file.\n\n\n    :param model: Specify the model to be evaluated\n    :param task_list: Optional[List[str]]: Specify which tasks to evaluate on\n    :param write_out: bool: Write the output to a file\n    :param limit: int: Limit the number of examples that are evaluated\n    :param shots: int: Specify how many times to run the model on a given task\n    :return: A dictionary with the following keys\n\n    \"\"\"\n    if task_list is None:\n        task_list = ['wsc', \"piqa\"]\n\n    for task in task_list:\n        assert task in AVAILABLE_TASKS, f'UnKnown Task {tasks} available tasks are {AVAILABLE_TASKS}'\n    results = evaluator.evaluate(\n        model, tasks.get_task_dict(task_list), False, shots,\n        limit=None if limit &lt;= 0 else limit,\n        write_out=write_out,\n    )\n    pprint.pprint(results)\n    return results\n</code></pre>"},{"location":"generated-modules-_attentions-blockwise_attn/","title":"modules._attentions.blockwise_attn","text":"<p>An implementation of Blockwise parallel transformer https://arxiv.org/abs/2305.19370 Also include a reference implementation of memory-efficient transformer https://arxiv.org/abs/2112.05682 from EasyLM https://github.com/young-geng/EasyLM/blob/main/EasyLM/bpt.py</p>"},{"location":"generated-modules-_attentions-flash/","title":"modules._attentions.flash","text":""},{"location":"generated-modules-_attentions-ring/","title":"modules._attentions.ring","text":""},{"location":"generated-modules-_attentions-vanilla/","title":"modules._attentions.vanilla","text":""},{"location":"generated-modules-arctic-arctic_configuration/","title":"modules.arctic.arctic_configuration","text":""},{"location":"generated-modules-arctic-arctic_configuration/#src.python.easydel.modules.arctic.arctic_configuration.ArcticConfig","title":"<code>ArcticConfig</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> Source code in <code>src/python/easydel/modules/arctic/arctic_configuration.py</code> <pre><code>class ArcticConfig(EasyDeLPretrainedConfig):\n    model_type: str = \"arctic\"\n\n    def __init__(\n            self,\n            vocab_size=32000,\n            hidden_size=4096,\n            intermediate_size=14336,\n            num_hidden_layers=32,\n            num_attention_heads=32,\n            num_key_value_heads=None,\n            hidden_act=\"silu\",\n            max_position_embeddings=4096,\n            initializer_range=0.02,\n            rms_norm_eps=1e-5,\n            use_cache=True,\n            pad_token_id=None,\n            bos_token_id=1,\n            eos_token_id=2,\n            tie_word_embeddings=False,\n            rope_theta=1e6,\n            sliding_window=None,\n            attention_dropout=0.0,\n            num_experts_per_tok=1,\n            num_local_experts=8,\n            router_aux_loss_coef=0.001,\n            moe_layer_frequency=2,\n            parallel_attn_mlp_res=False,\n            moe_train_capacity_factor=1,\n            moe_eval_capacity_factor=1,\n            enable_expert_tensor_parallelism=False,\n            moe_min_capacity=0,\n            moe_token_dropping=True,\n            quantization=None,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            use_scan_mlp: bool = False,\n            scan_mlp_chunk_size: int = 1024,\n            bits: Optional[int] = None,\n            rope_scaling: Dict[str, Union[str, float]] = None,\n            **kwargs,\n    ):\n        self.vocab_size = vocab_size\n        self.max_position_embeddings = max_position_embeddings\n        self.hidden_size = hidden_size\n        self.intermediate_size = intermediate_size\n        self.num_hidden_layers = num_hidden_layers\n        self.num_attention_heads = num_attention_heads\n        self.sliding_window = sliding_window\n\n        # for backward compatibility\n        if num_key_value_heads is None:\n            num_key_value_heads = num_attention_heads\n\n        self.num_key_value_heads = num_key_value_heads\n        self.hidden_act = hidden_act\n        self.initializer_range = initializer_range\n        self.rms_norm_eps = rms_norm_eps\n        self.use_cache = use_cache\n        self.rope_theta = rope_theta\n        self.attention_dropout = attention_dropout\n\n        self.num_experts_per_tok = num_experts_per_tok\n        self.num_local_experts = num_local_experts\n        self.router_aux_loss_coef = router_aux_loss_coef\n        self.moe_layer_frequency = moe_layer_frequency\n        self.moe_train_capacity_factor = moe_train_capacity_factor\n        self.moe_eval_capacity_factor = moe_eval_capacity_factor\n        self.enable_expert_tensor_parallelism = enable_expert_tensor_parallelism\n        self.moe_min_capacity = moe_min_capacity\n        self.moe_token_dropping = moe_token_dropping\n        self.parallel_attn_mlp_res = parallel_attn_mlp_res\n        self.quantization = quantization\n\n        self.gradient_checkpointing = gradient_checkpointing\n        self.use_scan_mlp = use_scan_mlp\n        self.scan_mlp_chunk_size = scan_mlp_chunk_size\n        self.bits = bits\n        self.rope_scaling = rope_scaling\n\n        super().__init__(\n            pad_token_id=pad_token_id,\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            tie_word_embeddings=tie_word_embeddings,\n            **kwargs,\n        )\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"\n        The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n          1) A regex string that matches the name of one or more parameters in the model.\n          2) A PartitionScheme object that defines how those parameters should be partitioned.\n\n        :param fully_sharded_data_parallel: bool: Determine whether to use the fully_sharded_data_parallel partitioning\n         scheme or not\n        :return: A list of tuples\n\n        \"\"\"\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"sp\", \"fsdp\")),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"w2/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"w3/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec(\"fsdp\", \"sp\")),\n            (\".*\", PartitionSpec(None)),\n        ) if not fully_sharded_data_parallel else (\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"w2/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"w3/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n\n    def add_jax_args(\n            self,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            use_scan_mlp: bool = False,\n            scan_mlp_chunk_size: int = 1024,\n            bits: Optional[int] = None,\n            rope_scaling: Dict[str, Union[str, float]] = None,\n            **kwargs,\n    ):\n        \"\"\"\n        The add_jax_args function adds the following arguments to the model:\n\n        :param self: Bind the attributes and methods of a class to an instance of that class\n        :param gradient_checkpointing: str: Determine whether to use gradient checkpointing\n        :param use_scan_mlp: bool: Determine whether to use the scan_mlp function or not\n        :param scan_mlp_chunk_size: int: Chunk the input to the mlp\n        :param bits: Optional[int]: Specify the number of bits to use for quantization\n         variable will turn them off.\n        :param rope_scaling: Dict[str, Union[str, float]]: rope_scaling for rope\n        :return: A tuple of the following:\n\n        \"\"\"\n        self.rope_scaling = rope_scaling\n        self.gradient_checkpointing = gradient_checkpointing\n        self.use_scan_mlp = use_scan_mlp\n        self.scan_mlp_chunk_size = scan_mlp_chunk_size\n        self.bits = bits\n\n    @staticmethod\n    def get_weight_decay_exclusions():\n        return tuple()\n\n    @staticmethod\n    def rng_keys():\n        return 'params', 'dropout', 'fcm'\n</code></pre>"},{"location":"generated-modules-arctic-arctic_configuration/#src.python.easydel.modules.arctic.arctic_configuration.ArcticConfig.add_jax_args","title":"<code>add_jax_args(gradient_checkpointing='nothing_saveable', use_scan_mlp=False, scan_mlp_chunk_size=1024, bits=None, rope_scaling=None, **kwargs)</code>","text":"<p>The add_jax_args function adds the following arguments to the model:</p> <p>:param self: Bind the attributes and methods of a class to an instance of that class :param gradient_checkpointing: str: Determine whether to use gradient checkpointing :param use_scan_mlp: bool: Determine whether to use the scan_mlp function or not :param scan_mlp_chunk_size: int: Chunk the input to the mlp :param bits: Optional[int]: Specify the number of bits to use for quantization  variable will turn them off. :param rope_scaling: Dict[str, Union[str, float]]: rope_scaling for rope :return: A tuple of the following:</p> Source code in <code>src/python/easydel/modules/arctic/arctic_configuration.py</code> <pre><code>def add_jax_args(\n        self,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        use_scan_mlp: bool = False,\n        scan_mlp_chunk_size: int = 1024,\n        bits: Optional[int] = None,\n        rope_scaling: Dict[str, Union[str, float]] = None,\n        **kwargs,\n):\n    \"\"\"\n    The add_jax_args function adds the following arguments to the model:\n\n    :param self: Bind the attributes and methods of a class to an instance of that class\n    :param gradient_checkpointing: str: Determine whether to use gradient checkpointing\n    :param use_scan_mlp: bool: Determine whether to use the scan_mlp function or not\n    :param scan_mlp_chunk_size: int: Chunk the input to the mlp\n    :param bits: Optional[int]: Specify the number of bits to use for quantization\n     variable will turn them off.\n    :param rope_scaling: Dict[str, Union[str, float]]: rope_scaling for rope\n    :return: A tuple of the following:\n\n    \"\"\"\n    self.rope_scaling = rope_scaling\n    self.gradient_checkpointing = gradient_checkpointing\n    self.use_scan_mlp = use_scan_mlp\n    self.scan_mlp_chunk_size = scan_mlp_chunk_size\n    self.bits = bits\n</code></pre>"},{"location":"generated-modules-arctic-arctic_configuration/#src.python.easydel.modules.arctic.arctic_configuration.ArcticConfig.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:   1) A regex string that matches the name of one or more parameters in the model.   2) A PartitionScheme object that defines how those parameters should be partitioned.</p> <p>:param fully_sharded_data_parallel: bool: Determine whether to use the fully_sharded_data_parallel partitioning  scheme or not :return: A list of tuples</p> Source code in <code>src/python/easydel/modules/arctic/arctic_configuration.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"\n    The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n      1) A regex string that matches the name of one or more parameters in the model.\n      2) A PartitionScheme object that defines how those parameters should be partitioned.\n\n    :param fully_sharded_data_parallel: bool: Determine whether to use the fully_sharded_data_parallel partitioning\n     scheme or not\n    :return: A list of tuples\n\n    \"\"\"\n    return (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec(\"sp\", \"fsdp\")),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n        (\"w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"w2/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"w3/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec(\"fsdp\", \"sp\")),\n        (\".*\", PartitionSpec(None)),\n    ) if not fully_sharded_data_parallel else (\n        (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n        (\"w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"w2/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"w3/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-arctic-modelling_arctic_flax/","title":"modules.arctic.modelling_arctic_flax","text":""},{"location":"generated-modules-arctic-modelling_arctic_flax/#src.python.easydel.modules.arctic.modelling_arctic_flax.ArcticPreTrainedModel","title":"<code>ArcticPreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code> <pre><code>class ArcticPreTrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class: ArcticConfig = ArcticConfig\n    module_class: nn.Module = None\n    base_model_prefix = \"model\"\n\n    # main_input_name = \"input_ids\"\n\n    def __init__(\n            self,\n            config: ArcticConfig,\n            dtype: jnp.dtype = jnp.bfloat16,\n            param_dtype: jnp.dtype = jnp.bfloat16,\n            precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\"),\n            input_shape: Tuple[int, int] = (1, 1),\n            seed: int = 0,\n            _do_init: bool = False,\n            **kwargs\n    ):\n        module = self.module_class(\n            config=config,\n            dtype=dtype,\n            param_dtype=param_dtype,\n            precision=precision,\n            **kwargs\n        )\n\n        super().__init__(\n            dtype=dtype, _do_init=_do_init,\n            module=module, config=config, input_shape=input_shape,\n            seed=seed,\n        )\n\n    def init_weights(\n            self,\n            rng: jax.random.PRNGKey,\n            input_shape: Tuple,\n            params: FrozenDict = None\n    ) -&gt; FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n        It takes in a rng, which is a random number generator key that can be used to generate random numbers.\n        The input_shape parameter specifies the shape of the inputs that will be fed into this model.\n        The params parameter allows you to pass in pre-trained weights for your model, if you have them available.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Initialize the input_ids, attention_mask\n                and position_ids\n            params: flax.core.FrozenDict: Pass in the parameters of a\n                pre-trained model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n\n        self.config.initialization_of_moe = True\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids, dtype=\"i4\")\n        position_ids = jnp.broadcast_to(\n            jnp.arange(jnp.atleast_2d(input_ids).shape[-1], dtype=\"i4\"),\n            input_shape,\n        )\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n        if self.config.add_cross_attention:\n            encoder_hidden_states = jnp.zeros(\n                input_shape + (self.config.hidden_size,))\n            encoder_attention_mask = attention_mask\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids,\n                attention_mask,\n                position_ids,\n                encoder_hidden_states,\n                encoder_attention_mask,\n                return_dict=False,\n            )\n        else:\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids=input_ids,\n                attention_mask=attention_mask,\n                position_ids=position_ids,\n                return_dict=False\n            )\n        random_params = module_init_outputs[\"params\"]\n\n        self.config.initialization_of_moe = False\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def init_cache(self, batch_size, max_length):\n\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: Optional[chex.Array] = None,\n            position_ids: Optional[chex.Array] = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It takes as input:\n        - The parameters of the model (self.params)\n        - The inputs to the model (input_ids, attention_mask, position_ids)\n        - Whether we are training (train=True/False) and whether we want to return all hidden states and\n        attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: Pass the input sequence to the model\n            attention_mask: Mask out the padding tokens\n            position_ids: Specify the position of each token in the\n                sequence\n            params: dict: Pass in the parameters of the model\n            past_key_values: dict: Pass the past key values to the model\n            dropout_rng: jax.random.PRNGKey: Pass in a random number\n                generator key to the model\n            train: bool: Determine whether to use dropout or not\n            output_attentions: Optional[bool]: Determine whether to\n                return the attention weights\n            output_hidden_states: Optional[bool]: Determine whether to\n                return the hidden states of all layers\n            return_dict: Optional[bool]: Return a dictionary of the\n                outputs\n            add_params_field: bool: Add a params field to the inputs\n                dictionary\n\n        Returns:\n            A tuple of (last_hidden_state, past_key_values)\n        \"\"\"\n\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\n                    \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                            None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rng_s = {}\n        if dropout_rng is not None:\n            rng_s[\"dropout\"] = dropout_rng\n\n        inputs = {\n            \"params\": params or self.params} if add_params_field else params or self.params\n\n        if self.config.bits is not None:\n            rng_s['params'] = jax.random.key(0)\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),  # input_ids: chex.Array\n            # attention_mask: Optional[chex.Array] = None\n            jnp.array(attention_mask, dtype=\"i4\"),\n            # position_ids: Optional[chex.Array] = None\n            jnp.array(position_ids, dtype=\"i4\"),\n            None,  # inputs_embeds: Optional[chex.Array] = None\n            output_attentions,  # output_attentions: Optional[bool] = None\n            # output_hidden_states: Optional[bool] = None\n            output_hidden_states,\n            False,  # init_cache: bool = False\n            not train,  # deterministic: bool = True\n            return_dict,  # return_dict: bool = True\n            rngs=rng_s,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + \\\n                      (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-arctic-modelling_arctic_flax/#src.python.easydel.modules.arctic.modelling_arctic_flax.ArcticPreTrainedModel.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, params=None, past_key_values=None, dropout_rng=None, train=False, output_attentions=None, output_hidden_states=None, return_dict=None, add_params_field=False, **kwargs)</code>","text":"<p>The call function is the main function of a JAX module. It takes as input: - The parameters of the model (self.params) - The inputs to the model (input_ids, attention_mask, position_ids) - Whether we are training (train=True/False) and whether we want to return all hidden states and attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Array</code> <p>Pass the input sequence to the model</p> required <code>attention_mask</code> <code>Optional[Array]</code> <p>Mask out the padding tokens</p> <code>None</code> <code>position_ids</code> <code>Optional[Array]</code> <p>Specify the position of each token in the sequence</p> <code>None</code> <code>params</code> <code>dict</code> <p>dict: Pass in the parameters of the model</p> <code>None</code> <code>past_key_values</code> <code>dict</code> <p>dict: Pass the past key values to the model</p> <code>None</code> <code>dropout_rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Pass in a random number generator key to the model</p> <code>None</code> <code>train</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the attention weights</p> <code>None</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the hidden states of all layers</p> <code>None</code> <code>return_dict</code> <code>Optional[bool]</code> <p>Optional[bool]: Return a dictionary of the outputs</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add a params field to the inputs dictionary</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of (last_hidden_state, past_key_values)</p> Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: Optional[chex.Array] = None,\n        position_ids: Optional[chex.Array] = None,\n        params: dict = None,\n        past_key_values: dict = None,\n        dropout_rng: jax.random.PRNGKey = None,\n        train: bool = False,\n        output_attentions: Optional[bool] = None,\n        output_hidden_states: Optional[bool] = None,\n        return_dict: Optional[bool] = None,\n        add_params_field: bool = False,\n        **kwargs\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It takes as input:\n    - The parameters of the model (self.params)\n    - The inputs to the model (input_ids, attention_mask, position_ids)\n    - Whether we are training (train=True/False) and whether we want to return all hidden states and\n    attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: Pass the input sequence to the model\n        attention_mask: Mask out the padding tokens\n        position_ids: Specify the position of each token in the\n            sequence\n        params: dict: Pass in the parameters of the model\n        past_key_values: dict: Pass the past key values to the model\n        dropout_rng: jax.random.PRNGKey: Pass in a random number\n            generator key to the model\n        train: bool: Determine whether to use dropout or not\n        output_attentions: Optional[bool]: Determine whether to\n            return the attention weights\n        output_hidden_states: Optional[bool]: Determine whether to\n            return the hidden states of all layers\n        return_dict: Optional[bool]: Return a dictionary of the\n            outputs\n        add_params_field: bool: Add a params field to the inputs\n            dictionary\n\n    Returns:\n        A tuple of (last_hidden_state, past_key_values)\n    \"\"\"\n\n    output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n    output_hidden_states = (\n        output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n    )\n    return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n    batch_size, sequence_length = input_ids.shape\n\n    if position_ids is None:\n        if past_key_values is not None:\n            raise ValueError(\n                \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n        position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                        None, :], (batch_size, sequence_length))\n\n    if attention_mask is None:\n        attention_mask = jnp.ones((batch_size, sequence_length))\n\n    rng_s = {}\n    if dropout_rng is not None:\n        rng_s[\"dropout\"] = dropout_rng\n\n    inputs = {\n        \"params\": params or self.params} if add_params_field else params or self.params\n\n    if self.config.bits is not None:\n        rng_s['params'] = jax.random.key(0)\n    if past_key_values:\n        inputs[\"cache\"] = past_key_values\n        mutable = [\"cache\"]\n    else:\n        mutable = False\n\n    outputs = self.module.apply(\n        inputs,\n        jnp.array(input_ids, dtype=\"i4\"),  # input_ids: chex.Array\n        # attention_mask: Optional[chex.Array] = None\n        jnp.array(attention_mask, dtype=\"i4\"),\n        # position_ids: Optional[chex.Array] = None\n        jnp.array(position_ids, dtype=\"i4\"),\n        None,  # inputs_embeds: Optional[chex.Array] = None\n        output_attentions,  # output_attentions: Optional[bool] = None\n        # output_hidden_states: Optional[bool] = None\n        output_hidden_states,\n        False,  # init_cache: bool = False\n        not train,  # deterministic: bool = True\n        return_dict,  # return_dict: bool = True\n        rngs=rng_s,\n        mutable=mutable,\n    )\n\n    if past_key_values is not None and return_dict:\n        outputs, past_key_values = outputs\n        outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n        return outputs\n    elif past_key_values is not None and not return_dict:\n        outputs, past_key_values = outputs\n        outputs = outputs[:1] + \\\n                  (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-arctic-modelling_arctic_flax/#src.python.easydel.modules.arctic.modelling_arctic_flax.ArcticPreTrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model. It takes in a rng, which is a random number generator key that can be used to generate random numbers. The input_shape parameter specifies the shape of the inputs that will be fed into this model. The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Initialize the input_ids, attention_mask and position_ids</p> required <code>params</code> <code>FrozenDict</code> <p>flax.core.FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code> <pre><code>def init_weights(\n        self,\n        rng: jax.random.PRNGKey,\n        input_shape: Tuple,\n        params: FrozenDict = None\n) -&gt; FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n    It takes in a rng, which is a random number generator key that can be used to generate random numbers.\n    The input_shape parameter specifies the shape of the inputs that will be fed into this model.\n    The params parameter allows you to pass in pre-trained weights for your model, if you have them available.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Initialize the input_ids, attention_mask\n            and position_ids\n        params: flax.core.FrozenDict: Pass in the parameters of a\n            pre-trained model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n\n    self.config.initialization_of_moe = True\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids, dtype=\"i4\")\n    position_ids = jnp.broadcast_to(\n        jnp.arange(jnp.atleast_2d(input_ids).shape[-1], dtype=\"i4\"),\n        input_shape,\n    )\n    params_rng, dropout_rng = jax.random.split(rng)\n    rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n    if self.config.add_cross_attention:\n        encoder_hidden_states = jnp.zeros(\n            input_shape + (self.config.hidden_size,))\n        encoder_attention_mask = attention_mask\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids,\n            attention_mask,\n            position_ids,\n            encoder_hidden_states,\n            encoder_attention_mask,\n            return_dict=False,\n        )\n    else:\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids=input_ids,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            return_dict=False\n        )\n    random_params = module_init_outputs[\"params\"]\n\n    self.config.initialization_of_moe = False\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-arctic-modelling_arctic_flax/#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticAttention","title":"<code>FlaxArcticAttention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code> <pre><code>class FlaxArcticAttention(BaseJAXAttentionModule):\n    config: ArcticConfig\n    layer_index: int\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[Union[str, jax.lax.Precision]] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        config = self.config\n        self.hidden_size = config.hidden_size\n        self.num_heads = config.num_attention_heads\n        self.head_dim = self.hidden_size // self.num_heads\n        self.num_key_value_heads = config.num_key_value_heads\n        self.num_key_value_groups = self.num_heads // self.num_key_value_heads\n        self.max_position_embeddings = config.max_position_embeddings\n\n        dense = functools.partial(\n            Linear,\n            use_bias=getattr(self.config, \"attention_bias\", False),\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            kernel_init=nn.initializers.normal(),\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n        self.q_proj = dense(self.num_heads * self.head_dim)\n        self.k_proj = dense(self.num_key_value_heads * self.head_dim)\n        self.v_proj = dense(self.num_key_value_heads * self.head_dim)\n        self.o_proj = dense(self.num_key_value_heads * self.head_dim)\n        self.rotary = FlaxArcticRotaryEmbedding(self.dtype)\n        self.attention_performer = AttentionModule(\n            use_sharding_constraint=self.config.use_sharding_constraint,\n            block_k_major=self.config.block_k_major,\n            block_b=self.config.block_b,\n            block_q=self.config.block_q,\n            block_k=self.config.block_k,\n            block_q_major_dkv=self.config.block_q_major_dkv,\n            block_k_major_dkv=self.config.block_k_major_dkv,\n            block_k_major_dq=self.config.block_k_major_dq,\n            block_k_dkv=self.config.block_k_dkv,\n            block_q_dkv=self.config.block_q_dkv,\n            block_q_dq=self.config.block_q_dq,\n            block_k_dq=self.config.block_k_dq,\n            num_attention_heads=self.config.num_attention_heads,\n            attention_dropout=self.config.attention_dropout,\n            head_dims=self.head_dim,\n            attention_partition_spec=self.config.attention_partition_spec,\n            shard_attention_computation=self.config.shard_attention_computation,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            bias_partition_spec=self.config.bias_partition_spec,\n            key_partition_spec=self.config.key_partition_spec,\n            query_partition_spec=self.config.query_partition_spec,\n            generation_query_partition_spec=self.config.generation_query_partition_spec,\n            generation_bias_partition_spec=self.config.generation_bias_partition_spec,\n            generation_attention_partition_spec=self.config.generation_attention_partition_spec,\n            value_partition_spec=self.config.value_partition_spec,\n            scan_ring_attention=self.config.scan_ring_attention,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name,\n            backward_pass_impl=self.config.flash_attention_backward_pass_impl\n        )\n\n    @staticmethod\n    def _transpose_sequence_head(query, key, value):\n        return jnp.transpose(query, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value, (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n        query = query.reshape(batch_size, sequence_length,\n                              self.config.num_attention_heads, self.head_dim)\n        key = key.reshape(batch_size, sequence_length,\n                          self.config.num_key_value_heads, self.head_dim)\n        value = value.reshape(batch_size, sequence_length,\n                              self.config.num_key_value_heads, self.head_dim)\n\n        query, key, value = self._transpose_sequence_head(query, key, value)\n        query, key = self.rotary(\n            position_ids=position_ids, query=query, key=key, freq_cis=freq_cis)\n        key = repeat_kv_bnsh(key, self.num_key_value_groups)\n        value = repeat_kv_bnsh(value, self.num_key_value_groups)\n        return self._transpose_sequence_head(query, key, value)\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.hidden_size,))\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            causal_mask: chex.Array,\n            position_ids: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = True\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It defines how the module behaves when called as a function, and it's what you'll use to call your model in practice.\n        The __call__ method takes an input tensor (x) and returns an output tensor (y).\n        In this case, we're defining our model to be a simple linear layer with no activation: y = x @ w + b.\n\n        Args:\n            self: Refer to the object itself\n            hidden_states: chex.Array: Pass in the hidden state of the\n                model\n            freq_cis: Tuple[chex.Array, chex.Array],: Create the\n                apply_rotary variable\n            attention_mask: chex.Array: Mask the attention weights\n            causal_mask: chex.Array: Mask the attention weights\n            position_ids: chex.Array: Specify the position of each token\n                in a sequence\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attention weights\n\n        Returns:\n            A tuple of (out, attn_output)\n        \"\"\"\n        batch_size, sequence_length = hidden_states.shape[:2]\n        query_states, key_states, value_states = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(\n            hidden_states)\n\n        query_states = query_states.reshape(\n            batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n        key_states = key_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n        value_states = value_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query=query_states,\n            key=key_states,\n            value=value_states,\n            position_ids=position_ids,\n            freq_cis=freq_cis,\n            batch_size=batch_size,\n            sequence_length=sequence_length\n        )\n\n        assert_msg = (\n            \"num_attention_heads repeat wont work likely\\n\"\n            f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n            f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n        )\n\n        assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                     query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        attention_mask = jnp.broadcast_to(jnp.expand_dims(\n            attention_mask, axis=(-3, -2)), causal_mask.shape)\n        attention_mask = combine_masks(attention_mask, causal_mask)\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n        dropout_rng = None\n\n        if not deterministic and self.config.attention_dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n        # if self.config.use_sharding_constraint:\n        #     query_states = with_sharding_constraint(\n        #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n        #     )\n        #     key_states = with_sharding_constraint(\n        #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        #     value_states = with_sharding_constraint(\n        #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        attention_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=attention_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        attn_output = self.o_proj(attn_output)\n        outputs = (\n            attn_output, attentions.attention_weights\n        )\n        return outputs\n</code></pre>"},{"location":"generated-modules-arctic-modelling_arctic_flax/#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticAttention.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, causal_mask, position_ids, segment_ids=None, deterministic=True, init_cache=False, output_attentions=True)</code>","text":"<p>The call function is the main function of a JAX module. It defines how the module behaves when called as a function, and it's what you'll use to call your model in practice. The call method takes an input tensor (x) and returns an output tensor (y). In this case, we're defining our model to be a simple linear layer with no activation: y = x @ w + b.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass in the hidden state of the model</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Create the apply_rotary variable</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask the attention weights</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the attention weights</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in a sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights</p> <code>True</code> <p>Returns:</p> Type Description <p>A tuple of (out, attn_output)</p> Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        causal_mask: chex.Array,\n        position_ids: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = True\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It defines how the module behaves when called as a function, and it's what you'll use to call your model in practice.\n    The __call__ method takes an input tensor (x) and returns an output tensor (y).\n    In this case, we're defining our model to be a simple linear layer with no activation: y = x @ w + b.\n\n    Args:\n        self: Refer to the object itself\n        hidden_states: chex.Array: Pass in the hidden state of the\n            model\n        freq_cis: Tuple[chex.Array, chex.Array],: Create the\n            apply_rotary variable\n        attention_mask: chex.Array: Mask the attention weights\n        causal_mask: chex.Array: Mask the attention weights\n        position_ids: chex.Array: Specify the position of each token\n            in a sequence\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attention weights\n\n    Returns:\n        A tuple of (out, attn_output)\n    \"\"\"\n    batch_size, sequence_length = hidden_states.shape[:2]\n    query_states, key_states, value_states = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(\n        hidden_states)\n\n    query_states = query_states.reshape(\n        batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n    key_states = key_states.reshape(\n        batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n    value_states = value_states.reshape(\n        batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n    query_states, key_states, value_states = self.apply_rotary(\n        query=query_states,\n        key=key_states,\n        value=value_states,\n        position_ids=position_ids,\n        freq_cis=freq_cis,\n        batch_size=batch_size,\n        sequence_length=sequence_length\n    )\n\n    assert_msg = (\n        \"num_attention_heads repeat wont work likely\\n\"\n        f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n        f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n    )\n\n    assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    if self.has_variable(\"cache\", \"cached_key\"):\n        mask_shift = self.variables[\"cache\"][\"cache_index\"]\n        max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n        causal_mask = lax.dynamic_slice(\n            causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                 query_length, max_decoder_length)\n        )\n    else:\n        causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n    batch_size = hidden_states.shape[0]\n    causal_mask = jnp.broadcast_to(\n        causal_mask, (batch_size,) + causal_mask.shape[1:])\n    attention_mask = jnp.broadcast_to(jnp.expand_dims(\n        attention_mask, axis=(-3, -2)), causal_mask.shape)\n    attention_mask = combine_masks(attention_mask, causal_mask)\n    if attention_mask.ndim == 2:\n        attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n    dropout_rng = None\n\n    if not deterministic and self.config.attention_dropout &gt; 0.0:\n        dropout_rng = self.make_rng(\"dropout\")\n\n    if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n        key_states, value_states, attention_mask = self._concatenate_to_cache(\n            key_states,\n            value_states,\n            query_states,\n            attention_mask\n        )\n    # if self.config.use_sharding_constraint:\n    #     query_states = with_sharding_constraint(\n    #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n    #     )\n    #     key_states = with_sharding_constraint(\n    #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    #     value_states = with_sharding_constraint(\n    #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    attention_bias = lax.select(\n        attention_mask &gt; 0,\n        jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n        jnp.full(attention_mask.shape, jnp.finfo(\n            self.dtype).min).astype(self.dtype),\n    )\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    attentions = self.attention_performer.__call__(\n        query_states=query_states,\n        key_states=key_states,\n        value_states=value_states,\n        bias=attention_bias,\n        attention_mask=attention_mask,\n        causal=True,\n        dropout_rng=dropout_rng,\n        deterministic=deterministic,\n        query_sequence_length=query_length,\n        key_value_sequence_length=key_length,\n        uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n        segment_ids=segment_ids,\n        causal_mask=causal_mask\n    )\n\n    attn_output = self._merge_heads(attentions.attention_outputs)\n    if self.config.shard_attention_computation:\n        attn_output = with_sharding_constraint(\n            attn_output, PartitionSpec(\n                (\"dp\", \"fsdp\"),\n                \"sp\" if attn_output.shape[1] != 1 else None,\n                \"tp\"\n            )\n        )\n    attn_output = self.o_proj(attn_output)\n    outputs = (\n        attn_output, attentions.attention_weights\n    )\n    return outputs\n</code></pre>"},{"location":"generated-modules-arctic-modelling_arctic_flax/#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayer","title":"<code>FlaxArcticDecoderLayer</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code> <pre><code>class FlaxArcticDecoderLayer(nn.Module):\n    config: ArcticConfig\n    layer_index: int\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[Union[str, jax.lax.Precision]] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        # hidden_states: chex.Array\n        # freq_cis: Tuple[chex.Array, chex.Array],\n        # attention_mask: chex.Array\n        # causal_mask: chex.Array\n        # position_ids: chex.Array\n        # deterministic: bool = True\n        # init_cache: bool = False\n        # output_attentions: bool = True\n\n        attn_block = FlaxArcticAttention\n        mlp_block = FlaxArcticSparseMoeBlock\n        if self.config.gradient_checkpointing != \"\":\n            attn_block = re_mat(\n                attn_block,\n                policy=get_gradient_checkpoint_policy(self.config.gradient_checkpointing),\n                static_argnums=(\n                    1, 3, 4, 6, 7, 8, 9\n                )\n            )\n            mlp_block = re_mat(\n                mlp_block,\n                policy=get_gradient_checkpoint_policy(self.config.gradient_checkpointing),\n                static_argnums=(\n                    1,\n                )\n            )\n        self.self_attn = attn_block(\n            config=self.config,\n            layer_index=self.layer_index,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.block_sparse_moe = mlp_block(\n            config=self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.input_layernorm = ArcticRMSNorm(\n            dim=self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n        self.post_attention_layernorm = ArcticRMSNorm(\n            dim=self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n        self.parallel_attn_mlp_res = self.config.parallel_attn_mlp_res and self.block_sparse_moe.is_moe_layer\n        if self.parallel_attn_mlp_res:\n            self.residual_layernorm = ArcticRMSNorm(\n                dim=self.config.hidden_size,\n                eps=self.config.rms_norm_eps,\n                dtype=self.dtype,\n                param_dtype=self.param_dtype\n            )\n            self.residual_mlp = ArcticMLP(\n                config=self.config,\n                dtype=self.dtype,\n                param_dtype=self.param_dtype,\n                precision=self.precision,\n                is_residual_mlp=True\n            )\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            causal_mask: chex.Array,\n            position_ids: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = True,\n    ):\n        \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n        It takes in the following arguments:\n            hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed\n            by all sublayers.\n            freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector,\n             used for computing self-attention weights and biases in a more efficient manner than using position\n             embeddings or sinusoidal positional encoding vectors would allow\n\n        Args:\n            self: Represent the instance of the class\n            hidden_states: chex.Array: Represent the input to the\n                encoder layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency\n                information to the attention layer\n            attention_mask: chex.Array: Mask out the attention weights\n                for certain positions\n            causal_mask: chex.Array: Mask the future tokens\n            position_ids: chex.Array: Indicate the position of each\n                token in the sequence\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache for the self-\n                attention layer\n\n        Returns:\n            A tuple of hidden_states and attention_output\n        \"\"\"\n        residual_input = hidden_states\n        hidden_states = self.input_layernorm(hidden_states)\n\n        # hidden_states: chex.Array\n        # freq_cis: Tuple[chex.Array, chex.Array],\n        # attention_mask: chex.Array\n        # causal_mask: chex.Array\n        # position_ids: chex.Array\n        # segment_ids: Optional[chex.Array] = None\n        # deterministic: bool = True\n        # init_cache: bool = False\n        # output_attentions: bool = True\n\n        hidden_states, self_attn_weights = self.self_attn(\n            hidden_states,\n            freq_cis,\n            attention_mask,\n            causal_mask,\n            position_ids,\n            segment_ids,\n            deterministic,\n            init_cache,\n            output_attentions\n        )\n\n        hidden_states = residual_input + hidden_states\n\n        residual_attn = hidden_states\n        if self.parallel_attn_mlp_res:\n\n            hidden_states = self.residual_layernorm(hidden_states)\n            hidden_states = self.residual_mlp(hidden_states)\n            residual_residual = residual_attn + hidden_states\n            # parallel mlp moe part\n            hidden_states = self.post_attention_layernorm(residual_input)\n            hidden_states, gate_loss = self.block_sparse_moe(hidden_states)\n            hidden_states = residual_residual + hidden_states\n        else:\n            hidden_states = self.post_attention_layernorm(hidden_states)\n            hidden_states, gate_loss = self.block_sparse_moe(hidden_states)\n            hidden_states = residual_attn + hidden_states\n\n        outputs = (hidden_states,)\n        if output_attentions:\n            outputs += (self_attn_weights,)\n\n        outputs += (gate_loss,)\n        return outputs\n</code></pre>"},{"location":"generated-modules-arctic-modelling_arctic_flax/#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayer.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, causal_mask, position_ids, segment_ids=None, deterministic=True, init_cache=False, output_attentions=True)</code>","text":"<p>The call function is the main function of a TransformerEncoderLayer. It takes in the following arguments:     hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed     by all sublayers.     freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector,      used for computing self-attention weights and biases in a more efficient manner than using position      embeddings or sinusoidal positional encoding vectors would allow</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Represent the input to the encoder layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass the frequency information to the attention layer</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the attention weights for certain positions</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the future tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Indicate the position of each token in the sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the self- attention layer</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of hidden_states and attention_output</p> Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        causal_mask: chex.Array,\n        position_ids: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = True,\n):\n    \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n    It takes in the following arguments:\n        hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed\n        by all sublayers.\n        freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector,\n         used for computing self-attention weights and biases in a more efficient manner than using position\n         embeddings or sinusoidal positional encoding vectors would allow\n\n    Args:\n        self: Represent the instance of the class\n        hidden_states: chex.Array: Represent the input to the\n            encoder layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency\n            information to the attention layer\n        attention_mask: chex.Array: Mask out the attention weights\n            for certain positions\n        causal_mask: chex.Array: Mask the future tokens\n        position_ids: chex.Array: Indicate the position of each\n            token in the sequence\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache for the self-\n            attention layer\n\n    Returns:\n        A tuple of hidden_states and attention_output\n    \"\"\"\n    residual_input = hidden_states\n    hidden_states = self.input_layernorm(hidden_states)\n\n    # hidden_states: chex.Array\n    # freq_cis: Tuple[chex.Array, chex.Array],\n    # attention_mask: chex.Array\n    # causal_mask: chex.Array\n    # position_ids: chex.Array\n    # segment_ids: Optional[chex.Array] = None\n    # deterministic: bool = True\n    # init_cache: bool = False\n    # output_attentions: bool = True\n\n    hidden_states, self_attn_weights = self.self_attn(\n        hidden_states,\n        freq_cis,\n        attention_mask,\n        causal_mask,\n        position_ids,\n        segment_ids,\n        deterministic,\n        init_cache,\n        output_attentions\n    )\n\n    hidden_states = residual_input + hidden_states\n\n    residual_attn = hidden_states\n    if self.parallel_attn_mlp_res:\n\n        hidden_states = self.residual_layernorm(hidden_states)\n        hidden_states = self.residual_mlp(hidden_states)\n        residual_residual = residual_attn + hidden_states\n        # parallel mlp moe part\n        hidden_states = self.post_attention_layernorm(residual_input)\n        hidden_states, gate_loss = self.block_sparse_moe(hidden_states)\n        hidden_states = residual_residual + hidden_states\n    else:\n        hidden_states = self.post_attention_layernorm(hidden_states)\n        hidden_states, gate_loss = self.block_sparse_moe(hidden_states)\n        hidden_states = residual_attn + hidden_states\n\n    outputs = (hidden_states,)\n    if output_attentions:\n        outputs += (self_attn_weights,)\n\n    outputs += (gate_loss,)\n    return outputs\n</code></pre>"},{"location":"generated-modules-arctic-modelling_arctic_flax/#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayerCollection","title":"<code>FlaxArcticDecoderLayerCollection</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code> <pre><code>class FlaxArcticDecoderLayerCollection(nn.Module):\n    config: ArcticConfig\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        self.blocks = [\n            FlaxArcticDecoderLayer(\n                layer_index=layer_index,\n                config=self.config,\n                dtype=self.dtype,\n                param_dtype=self.param_dtype,\n                precision=self.precision,\n                name=str(layer_index)\n            )\n\n            for layer_index in range(self.config.num_hidden_layers)\n        ]\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            causal_mask: chex.Array,\n            position_ids: chex.Array,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_hidden_states: Optional[bool] = False,\n            output_attentions: Optional[bool] = False,\n    ):\n        \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n        It takes in the following arguments:\n            hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed\n             by all sublayers.\n            freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector\n            , used for computing self-attention weights and biases in a more efficient manner than using position\n            embeddings or sinusoidal positional encoding vectors would allow for [2].\n\n        Args:\n            self: Represent the instance of the class\n            hidden_states: chex.Array: Represent the input to the\n                encoder layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency\n                information to the attention layer\n            attention_mask: chex.Array: Mask out the attention weights\n                for certain positions\n            causal_mask: chex.Array: Mask the future tokens\n            position_ids: chex.Array: Indicate the position of each\n                token in the sequence\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache for the self-\n                attention layer\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n\n        Returns:\n            A tuple of hidden_states, attention_output,\n            all_hidden_states and all_router_losses\n        \"\"\"\n        all_hidden_states = () if output_hidden_states else None\n        all_self_attns = () if output_attentions else None\n        all_router_losses = ()\n        for block in self.blocks:\n            if output_hidden_states:\n                all_hidden_states += (hidden_states,)\n            layer_outputs = block(\n                hidden_states=hidden_states,\n                attention_mask=attention_mask,\n                position_ids=position_ids,\n                output_attentions=output_attentions,\n                init_cache=init_cache,\n                freq_cis=freq_cis,\n                causal_mask=causal_mask,\n                deterministic=deterministic,\n            )\n\n            hidden_states = layer_outputs[0]\n\n            if output_attentions:\n                all_self_attns += (layer_outputs[1],)\n\n            all_router_losses += (layer_outputs[-1],)\n\n        outputs = (hidden_states,)\n        if output_attentions:\n            outputs += (all_self_attns,)\n        if output_hidden_states:\n            outputs += (all_hidden_states,)\n        outputs += (all_router_losses,)\n        return outputs\n</code></pre>"},{"location":"generated-modules-arctic-modelling_arctic_flax/#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticDecoderLayerCollection.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, causal_mask, position_ids, deterministic=True, init_cache=False, output_hidden_states=False, output_attentions=False)</code>","text":"<p>The call function is the main function of a TransformerEncoderLayer. It takes in the following arguments:     hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed      by all sublayers.     freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector     , used for computing self-attention weights and biases in a more efficient manner than using position     embeddings or sinusoidal positional encoding vectors would allow for [2].</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Represent the input to the encoder layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass the frequency information to the attention layer</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the attention weights for certain positions</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the future tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Indicate the position of each token in the sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the self- attention layer</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of hidden_states, attention_output,</p> <p>all_hidden_states and all_router_losses</p> Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        causal_mask: chex.Array,\n        position_ids: chex.Array,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_hidden_states: Optional[bool] = False,\n        output_attentions: Optional[bool] = False,\n):\n    \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n    It takes in the following arguments:\n        hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed\n         by all sublayers.\n        freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector\n        , used for computing self-attention weights and biases in a more efficient manner than using position\n        embeddings or sinusoidal positional encoding vectors would allow for [2].\n\n    Args:\n        self: Represent the instance of the class\n        hidden_states: chex.Array: Represent the input to the\n            encoder layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency\n            information to the attention layer\n        attention_mask: chex.Array: Mask out the attention weights\n            for certain positions\n        causal_mask: chex.Array: Mask the future tokens\n        position_ids: chex.Array: Indicate the position of each\n            token in the sequence\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache for the self-\n            attention layer\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n\n    Returns:\n        A tuple of hidden_states, attention_output,\n        all_hidden_states and all_router_losses\n    \"\"\"\n    all_hidden_states = () if output_hidden_states else None\n    all_self_attns = () if output_attentions else None\n    all_router_losses = ()\n    for block in self.blocks:\n        if output_hidden_states:\n            all_hidden_states += (hidden_states,)\n        layer_outputs = block(\n            hidden_states=hidden_states,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            output_attentions=output_attentions,\n            init_cache=init_cache,\n            freq_cis=freq_cis,\n            causal_mask=causal_mask,\n            deterministic=deterministic,\n        )\n\n        hidden_states = layer_outputs[0]\n\n        if output_attentions:\n            all_self_attns += (layer_outputs[1],)\n\n        all_router_losses += (layer_outputs[-1],)\n\n    outputs = (hidden_states,)\n    if output_attentions:\n        outputs += (all_self_attns,)\n    if output_hidden_states:\n        outputs += (all_hidden_states,)\n    outputs += (all_router_losses,)\n    return outputs\n</code></pre>"},{"location":"generated-modules-arctic-modelling_arctic_flax/#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticForCausalLM","title":"<code>FlaxArcticForCausalLM</code>","text":"<p>               Bases: <code>ArcticPreTrainedModel</code></p> Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code> <pre><code>class FlaxArcticForCausalLM(ArcticPreTrainedModel):\n    module_class = FlaxArcticForCausalLMModule\n\n    def set_input_embeddings(self, value):\n        self.module.model.embed_tokens = value\n\n    def get_input_embeddings(self):\n        return self.module.model.embed_tokens\n\n    def set_decoder(self, decoder):\n        self.module.model = decoder\n\n    def get_decoder(self):\n        return self.module.model\n\n    def get_output_embeddings(self):\n        return self.module.lm_head\n\n    def set_output_embeddings(self, new_embeddings):\n        self.module.lm_head = new_embeddings\n\n    def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n        \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n        Args:\n            self: Access variables that belong to the class\n            input_ids: Pass in the input tokens\n            max_length: Set the length of the sequence to be generated\n            attention_mask: Optional[chex.Array]: Mask the attention\n                weights\n\n        Returns:\n            A dictionary of the past_key_values, attention_mask and\n            position ids\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n\n        past_key_values = self.init_cache(batch_size, max_length)\n        extended_attention_mask = jnp.ones(\n            (batch_size, max_length), dtype=\"i4\")\n        if attention_mask is not None:\n            position_ids = attention_mask.cumsum(axis=-1) - 1\n            extended_attention_mask = lax.dynamic_update_slice(\n                extended_attention_mask, attention_mask, (0, 0))\n        else:\n            position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                            None, :], (batch_size, seq_length))\n\n        return {\n            \"past_key_values\": past_key_values,\n            \"attention_mask\": extended_attention_mask,\n            \"position_ids\": position_ids,\n        }\n\n    def update_inputs_for_generation(self, model_outputs, model_kwargs):\n        model_kwargs[\"past_key_values\"] = model_outputs.past_key_values\n        model_kwargs[\"position_ids\"] = model_kwargs[\"position_ids\"][:, -1:] + 1\n        return model_kwargs\n</code></pre>"},{"location":"generated-modules-arctic-modelling_arctic_flax/#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticForCausalLM.prepare_inputs_for_generation","title":"<code>prepare_inputs_for_generation(input_ids, max_length, attention_mask=None)</code>","text":"<p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>input_ids</code> <p>Pass in the input tokens</p> required <code>max_length</code> <p>Set the length of the sequence to be generated</p> required <code>attention_mask</code> <code>Optional[Array]</code> <p>Optional[chex.Array]: Mask the attention weights</p> <code>None</code> <p>Returns:</p> Type Description <p>A dictionary of the past_key_values, attention_mask and</p> <p>position ids</p> Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code> <pre><code>def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n    \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n    Args:\n        self: Access variables that belong to the class\n        input_ids: Pass in the input tokens\n        max_length: Set the length of the sequence to be generated\n        attention_mask: Optional[chex.Array]: Mask the attention\n            weights\n\n    Returns:\n        A dictionary of the past_key_values, attention_mask and\n        position ids\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n\n    past_key_values = self.init_cache(batch_size, max_length)\n    extended_attention_mask = jnp.ones(\n        (batch_size, max_length), dtype=\"i4\")\n    if attention_mask is not None:\n        position_ids = attention_mask.cumsum(axis=-1) - 1\n        extended_attention_mask = lax.dynamic_update_slice(\n            extended_attention_mask, attention_mask, (0, 0))\n    else:\n        position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                        None, :], (batch_size, seq_length))\n\n    return {\n        \"past_key_values\": past_key_values,\n        \"attention_mask\": extended_attention_mask,\n        \"position_ids\": position_ids,\n    }\n</code></pre>"},{"location":"generated-modules-arctic-modelling_arctic_flax/#src.python.easydel.modules.arctic.modelling_arctic_flax.FlaxArcticSparseMoeBlock","title":"<code>FlaxArcticSparseMoeBlock</code>","text":"<p>               Bases: <code>Module</code></p> <p>This implementation is strictly equivalent to standard MoE with full capacity (no dropped tokens). It's faster since it formulates MoE operations in terms of block-sparse operations to accomodate imbalanced assignments of tokens to experts, whereas standard MoE either (1) drop tokens at the cost of reduced performance or (2) set capacity factor to number of experts and thus waste computation and memory on padding.</p> Source code in <code>src/python/easydel/modules/arctic/modelling_arctic_flax.py</code> <pre><code>class FlaxArcticSparseMoeBlock(nn.Module):\n    \"\"\"This implementation is\n    strictly equivalent to standard MoE with full capacity (no\n    dropped tokens). It's faster since it formulates MoE operations\n    in terms of block-sparse operations to accomodate imbalanced\n    assignments of tokens to experts, whereas standard MoE either\n    (1) drop tokens at the cost of reduced performance or (2) set\n    capacity factor to number of experts and thus waste computation\n    and memory on padding.\n    \"\"\"\n    config: ArcticConfig\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[\n        Union[None, jax.lax.Precision]\n    ] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        self.gate = Linear(\n            self.config.num_local_experts,\n            use_bias=False,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            kernel_init=nn.initializers.normal(),\n        )\n\n        self.experts = FlaxArcticBlocKSparesMLPCollection(\n            config=self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            e: bool = False  # Ignored\n    ) -&gt; Tuple[chex.Array, chex.Array]:\n        batch_size, sequence_length, hidden_dim = hidden_states.shape\n\n        router_logits = self.gate(hidden_states).astype(  # no reshaping is needed\n            jnp.promote_types(self.dtype, jnp.float32)\n        )\n        routing_weights, selected_experts = jax.lax.top_k(\n            router_logits,\n            k=self.config.num_experts_per_tok\n        )\n        routing_weights = jax.nn.softmax(\n            routing_weights.astype(\n                jnp.promote_types(self.dtype, jnp.float32)\n            ), axis=-1\n        )\n\n        return self.experts(\n            selected_experts=selected_experts,\n            batch_size=batch_size,\n            sequence_length=sequence_length,\n            hidden_dim=hidden_dim,\n            hidden_states=hidden_states,\n            routing_weights=routing_weights\n        ), router_logits\n</code></pre>"},{"location":"generated-modules-attention_module/","title":"modules.attention_module","text":""},{"location":"generated-modules-attention_module/#src.python.easydel.modules.attention_module.AttentionModule","title":"<code>AttentionModule</code>","text":"Source code in <code>src/python/easydel/modules/attention_module.py</code> <pre><code>class AttentionModule:\n    def __init__(\n            self,\n            mesh: Mesh,\n            attn_mechanism: Literal[\n                \"vanilla\",\n                \"flash\",\n                \"splash\",\n                \"ring\",\n                \"cudnn\",\n                \"local_ring\",\n                \"sharded_vanilla\",\n                \"wise_ring\",\n                \"blockwise\",\n                \"pallas_flash\"\n            ],\n            sm_scale: float,\n            num_attention_heads: int,\n            head_dims: int,\n            block_k: int = ...,\n            block_q: int = ...,\n            block_b: int = ...,\n            block_k_major: int = ...,\n            block_q_major_dkv: int = ...,\n            block_k_major_dkv: int = ...,\n            block_k_dkv: int = ...,\n            block_q_dkv: int = ...,\n            block_k_major_dq: int = ...,\n            block_k_dq: int = ...,\n            block_q_dq: int = ...,\n            query_partition_spec: PartitionSpec = ...,\n            generation_query_partition_spec: PartitionSpec = ...,\n            key_partition_spec: PartitionSpec = ...,\n            value_partition_spec: PartitionSpec = ...,\n            bias_partition_spec: PartitionSpec = ...,\n            generation_bias_partition_spec: PartitionSpec = ...,\n            attention_partition_spec: PartitionSpec = ...,\n            generation_attention_partition_spec: PartitionSpec = ...,\n            scan_ring_attention: bool = ...,\n            scan_attention_layers: bool = ...,\n            attention_dropout: float = 0.0,\n            dtype: jnp.dtype = jnp.float32,\n            precision: lax.Precision = ...,\n            force_float32_tpu: bool = ...,\n            shard_attention_computation: bool = ...,\n            use_sharding_constraint: Optional[bool] = ...,\n            axis_name: str = ...,\n            backward_pass_impl: Literal[\"triton\", \"xla\"] = \"triton\",\n            base_module_class: Optional[EasyDeLPretrainedConfig] = None,\n            _do_check: bool = True\n    ):\n\n        self.block_k: int = ...\n        self.block_q: int = ...\n        self.block_b: int = ...\n        self.block_k_major: int = ...\n        self.block_q_major_dkv: int = ...\n        self.block_k_major_dkv: int = ...\n        self.block_k_dkv: int = ...\n        self.block_q_dkv: int = ...\n        self.block_k_major_dq: int = ...\n        self.block_k_dq: int = ...\n        self.block_q_dq: int = ...\n        self.query_partition_spec: PartitionSpec = ...\n        self.generation_query_partition_spec: PartitionSpec = ...\n        self.key_partition_spec: PartitionSpec = ...\n        self.value_partition_spec: PartitionSpec = ...\n        self.bias_partition_spec: PartitionSpec = ...\n        self.generation_bias_partition_spec: PartitionSpec = ...\n        self.attention_partition_spec: PartitionSpec = ...\n        self.generation_attention_partition_spec: PartitionSpec = ...\n        self.scan_ring_attention: bool = ...\n        self.precision: lax.Precision = ...\n        self.force_float32_tpu: bool = ...\n        self.shard_attention_computation: bool = ...\n        self.use_sharding_constraint: Optional[bool] = ...\n        self.axis_name: str = ...\n\n        set_attrs_smartly_with_prp(self, \"use_sharding_constraint\", False, use_sharding_constraint, base_module_class)\n\n        set_attrs_smartly_with_prp(self, \"block_k_major\", DEFAULT_K_BLOCK, block_k_major, base_module_class)\n        set_attrs_smartly_with_prp(self, \"block_b\", 1, block_b, base_module_class)\n        set_attrs_smartly_with_prp(self, \"block_q\", DEFAULT_Q_BLOCK, block_q, base_module_class)\n        set_attrs_smartly_with_prp(self, \"block_k\", DEFAULT_K_BLOCK, block_k, base_module_class)\n        set_attrs_smartly_with_prp(self, \"block_q_major_dkv\", DEFAULT_Q_BLOCK, block_q_major_dkv, base_module_class)\n        set_attrs_smartly_with_prp(self, \"block_k_major_dkv\", DEFAULT_K_BLOCK, block_k_major_dkv, base_module_class)\n        set_attrs_smartly_with_prp(self, \"block_k_major_dq\", DEFAULT_K_BLOCK, block_k_major_dq, base_module_class)\n        set_attrs_smartly_with_prp(self, \"block_k_dkv\", DEFAULT_K_BLOCK, block_k_dkv, base_module_class)\n        set_attrs_smartly_with_prp(self, \"block_q_dkv\", DEFAULT_Q_BLOCK, block_q_dkv, base_module_class)\n        set_attrs_smartly_with_prp(self, \"block_q_dq\", DEFAULT_Q_BLOCK, block_q_dq, base_module_class)\n        set_attrs_smartly_with_prp(self, \"block_k_dq\", DEFAULT_K_BLOCK, block_k_dq, base_module_class)\n\n        set_attrs_smartly_with_prp(\n            self,\n            \"shard_attention_computation\",\n            True,\n            shard_attention_computation,\n            base_module_class\n        )\n        set_attrs_smartly_with_prp(\n            self,\n            \"scan_ring_attention\",\n            True,\n            scan_ring_attention,\n            base_module_class\n        )\n\n        set_attrs_smartly_with_prp(\n            self,\n            \"query_partition_spec\",\n            DEFAULT_QPS,\n            query_partition_spec,\n            base_module_class\n        )\n        set_attrs_smartly_with_prp(\n            self,\n            \"key_partition_spec\",\n            DEFAULT_KPS,\n            key_partition_spec,\n            base_module_class\n        )\n        set_attrs_smartly_with_prp(\n            self,\n            \"value_partition_spec\",\n            DEFAULT_VPS,\n            value_partition_spec,\n            base_module_class\n        )\n        set_attrs_smartly_with_prp(\n            self,\n            \"bias_partition_spec\",\n            DEFAULT_BPS,\n            bias_partition_spec,\n            base_module_class\n        )\n        set_attrs_smartly_with_prp(\n            self,\n            \"attention_partition_spec\",\n            DEFAULT_APS,\n            attention_partition_spec,\n            base_module_class\n        )\n        set_attrs_smartly_with_prp(\n            self,\n            \"generation_query_partition_spec\",\n            DEFAULT_G_QPS,\n            generation_query_partition_spec,\n            base_module_class\n        )\n        set_attrs_smartly_with_prp(\n            self,\n            \"generation_bias_partition_spec\",\n            DEFAULT_G_BPS,\n            generation_bias_partition_spec,\n            base_module_class\n        )\n        set_attrs_smartly_with_prp(\n            self,\n            \"generation_attention_partition_spec\",\n            DEFAULT_G_APS,\n            generation_attention_partition_spec,\n            base_module_class\n        )\n\n        set_attrs_smartly_with_prp(self, \"precision\", lax.Precision(\"fastest\"), precision)  # DON'T READ FROM CONFIG\n        set_attrs_smartly_with_prp(self, \"force_float32_tpu\", True, force_float32_tpu)  # DON'T READ FROM CONFIG\n        set_attrs_smartly_with_prp(self, \"axis_name\", \"sp\", axis_name)  # DON'T READ FROM CONFIG\n\n        self.mesh = mesh\n        self.attn_mechanism = attn_mechanism\n        self.platform = jax.lib.xla_bridge.get_backend().platform\n        self.sm_scale = sm_scale\n        self.num_attention_heads = num_attention_heads\n        self.head_dims = head_dims\n\n        self.scan_attention_layers = scan_attention_layers\n        self.attention_dropout = attention_dropout\n        self.dtype = dtype\n        self.backward_pass_impl = backward_pass_impl\n        self._do_check = _do_check\n        if attn_mechanism == \"splash\" and self.platform != \"tpu\":\n            raise OSError(\"splash attention is only supported on TPU.\")\n        if attn_mechanism == \"flash\" and self.platform != \"tpu\":\n            error_msg = \"flash attention is only supported on TPU\"\n            if self.platform == \"gpu\":\n                error_msg += \", for GPUs flash attention you can use `cudnn`.\"\n            raise OSError(error_msg)\n        if attn_mechanism == \"cudnn\" and self.platform != \"gpu\":\n            raise OSError(\"flash attention is only supported on GPU.\")\n\n    def get_block_size_splash_attn(self, q_seq, k_seq):\n        return BlockSizesSplashAttn(\n            block_q=min(self.block_q, q_seq),\n            block_kv_compute=min(self.block_k, k_seq),\n            block_kv=min(self.block_k, k_seq),\n            block_q_dkv=min(self.block_q_dkv, q_seq),\n            block_kv_dkv=min(self.block_k_dkv, k_seq),\n            block_kv_dkv_compute=min(self.block_k_dkv, k_seq),\n            block_q_dq=min(self.block_q_dq, q_seq),\n            block_kv_dq=min(self.block_k_dq, k_seq),\n        )\n\n    def get_block_size_flash_attn(self, q_seq, k_seq):\n        return BlockSizesFlashAttn(\n            block_q=min(self.block_q, q_seq),\n            block_k=min(self.block_k, k_seq),\n            block_q_dkv=min(self.block_q_dkv, q_seq),\n            block_k_dq=min(self.block_k_dkv, k_seq),\n            block_k_dkv=min(self.block_k_dkv, k_seq),\n            block_q_dq=min(self.block_q_dq, q_seq),\n            block_b=min(self.block_b, 1),\n            block_k_major=min(self.block_k_major, k_seq),\n            block_k_major_dq=min(self.block_k_major_dq, k_seq),\n            block_k_major_dkv=min(self.block_k_major_dkv, k_seq),\n            block_q_major_dkv=min(self.block_q_major_dkv, q_seq)\n        )\n\n    def get_partition_specs(self, qs) -&gt; Tuple[\n        PartitionSpec, PartitionSpec, PartitionSpec, PartitionSpec, PartitionSpec, bool\n    ]:\n        is_generating = qs == 1\n        query_sequence_partition = self.generation_query_partition_spec if is_generating else self.query_partition_spec\n        bias_partition_spec = self.generation_bias_partition_spec if is_generating else self.bias_partition_spec\n        attention_partition_spec = self.generation_attention_partition_spec if is_generating else self.attention_partition_spec\n\n        return (\n            query_sequence_partition,\n            self.key_partition_spec,\n            self.value_partition_spec,\n            bias_partition_spec,\n            attention_partition_spec,\n            is_generating\n        )\n\n    def _check_states(\n            self,\n            query_states: Array,\n            key_states: Array,\n            value_states: Array,\n            query_sequence_length: int,\n            key_value_sequence_length: int,\n    ):\n        batch_size = query_states.shape[0]\n        assert batch_size == key_states.shape[0] == value_states.shape[0], \"Batch Size for q,k,v wont match\"\n        k_v_req_shape = (\n            batch_size,\n            key_value_sequence_length,\n            self.num_attention_heads,\n            self.head_dims\n        )\n        q_shape = (\n            batch_size,\n            query_sequence_length,\n            self.num_attention_heads,\n            self.head_dims\n        )\n\n        assertion_mkv_err = f\"\"\"\n        query_states, key_states, value_states and bias shapes must be like\n        query_states Shape : [batch_size, q_seq_len , {self.num_attention_heads=}, {self.head_dims=}]\n        key_states   Shape : [batch_size, kv_seq_len, {self.num_attention_heads=}, {self.head_dims=}]\n        value_states Shape : [batch_size, kv_seq_len, {self.num_attention_heads=}, {self.head_dims=}]\n        bias         Shape : [batch_size, {self.num_attention_heads=}, q_seq_len , kv_seq_len]\n            \"\"\"\n\n        assert query_states.shape == q_shape, assertion_mkv_err + (\n            f\"\\nMiss Match {query_states.shape} and \"\n            f\"required Shape {q_shape}\"\n        )\n        assert key_states.shape == k_v_req_shape, assertion_mkv_err + (\n            f\"\\nMiss Match {key_states.shape} and \"\n            f\"required Shape {k_v_req_shape}\"\n        )\n        assert value_states.shape == k_v_req_shape, assertion_mkv_err + (\n            f\"\\nMiss Match {value_states.shape} and \"\n            f\"required Shape {k_v_req_shape}\"\n        )\n\n    def __call__(\n            self,\n            query_states: Array,\n            key_states: Array,\n            value_states: Array,\n            causal_mask: Optional[Array] = None,\n            query_sequence_length: Optional[int] = None,\n            key_value_sequence_length: Optional[int] = None,\n            bias: Optional[Array] = None,\n            attention_mask: Optional[Array] = None,\n            segment_ids: Optional[Array] = None,\n            causal: bool = True,\n            deterministic: bool = False,\n            dropout_rng: Optional[random.PRNGKey] = None,\n            uses_cache: bool = False\n    ):\n        if query_sequence_length is None:\n            query_sequence_length = query_states.shape[1]\n        if key_value_sequence_length is None:\n            key_value_sequence_length = key_states.shape[1]\n        with self.mesh:\n            if self._do_check:\n                self._check_states(\n                    query_states=query_states,\n                    key_states=key_states,\n                    value_states=value_states,\n                    query_sequence_length=query_sequence_length,\n                    key_value_sequence_length=key_value_sequence_length\n                )\n            if self.attn_mechanism == \"flash\":\n                if segment_ids is not None:\n                    warnings.warn(\n                        \"Flash attention don't support `segment_ids` this argument will be ignored\",\n                        UserWarning\n                    )\n                if self.attention_dropout != 0.0:\n                    warnings.warn(\n                        \"Flash attention don't support `attention_dropout` this argument will be ignored\",\n                        UserWarning\n                    )\n\n                return self.flash_attention(\n                    query_states=query_states,\n                    key_states=key_states,\n                    value_states=value_states,\n                    bias=bias,\n                    causal=causal,\n                    query_sequence_length=query_sequence_length,\n                    key_value_sequence_length=key_value_sequence_length\n                )\n\n            elif self.attn_mechanism == \"vanilla\":\n\n                return self.vanilla_attention(\n                    query_states=query_states,\n                    key_states=key_states,\n                    value_states=value_states,\n                    bias=bias,\n                    dropout_rng=dropout_rng,\n                    deterministic=deterministic,\n                    query_sequence_length=query_sequence_length,\n                    key_value_sequence_length=key_value_sequence_length\n                )\n            elif self.attn_mechanism == \"sharded_vanilla\":\n                return self.sharded_vanilla_attention(\n                    query_states=query_states,\n                    key_states=key_states,\n                    value_states=value_states,\n                    bias=bias,\n                    dropout_rng=dropout_rng,\n                    deterministic=deterministic,\n                    query_sequence_length=query_sequence_length,\n                    key_value_sequence_length=key_value_sequence_length\n                )\n            elif self.attn_mechanism == \"ring\":\n                return self.ring_attention(\n                    query_states=query_states,\n                    key_states=key_states,\n                    value_states=value_states,\n                    bias=bias,\n                    dropout_rng=dropout_rng,\n                    deterministic=deterministic,\n                    segment_ids=segment_ids,\n                    attention_mask=attention_mask,\n                    query_sequence_length=query_sequence_length,\n                    key_value_sequence_length=key_value_sequence_length\n                )\n            elif self.attn_mechanism == \"pallas_flash\":\n                return self.pallas_flash_attention(\n                    query_states=query_states,\n                    key_states=key_states,\n                    value_states=value_states,\n                    query_sequence_length=query_sequence_length,\n                    bias=bias,\n                )\n            elif self.attn_mechanism == \"splash\":\n                if segment_ids is not None:\n                    warnings.warn(\n                        \"Splash attention don't support `segment_ids` this argument will be ignored\",\n                        UserWarning\n                    )\n                if self.attention_dropout != 0.0:\n                    warnings.warn(\n                        \"Splash attention don't support `attention_dropout` this argument will be ignored\",\n                        UserWarning\n                    )\n                if bias is not None:\n                    warnings.warn(\n                        \"Splash attention don't support `bias` this argument will be ignored\",\n                        UserWarning\n                    )\n\n                return self.splash_attention(\n                    query_states=query_states,\n                    key_states=key_states,\n                    value_states=value_states,\n                    query_sequence_length=query_sequence_length,\n                    key_value_sequence_length=key_value_sequence_length,\n                    attention_mask=attention_mask\n                )\n            elif self.attn_mechanism == \"blockwise\":\n                if segment_ids is not None:\n                    warnings.warn(\n                        \"BlockWise Attention don't support `segment_ids` this argument will be ignored\",\n                        UserWarning\n                    )\n                return self.blockwise_attention(\n                    query_states=query_states,\n                    key_states=key_states,\n                    value_states=value_states,\n                    bias=bias,\n                    deterministic=deterministic,\n                    dropout_rng=dropout_rng,\n                    query_sequence_length=query_sequence_length,\n                    key_value_sequence_length=key_value_sequence_length\n                )\n            elif self.attn_mechanism == \"cudnn\":\n                return self.cuddn_flash_attention(\n                    query_states=query_states,\n                    key_states=key_states,\n                    value_states=value_states,\n                    bias=bias,\n                    causal=causal,\n                    deterministic=deterministic,\n                    query_sequence_length=query_sequence_length,\n                    key_value_sequence_length=key_value_sequence_length\n                )\n            elif self.attn_mechanism == \"local_ring\":\n                if segment_ids is not None:\n                    warnings.warn(\n                        \"LocalRing Attention don't support `segment_ids` this argument will be ignored\",\n                        UserWarning\n                    )\n                if self.attention_dropout != 0.0:\n                    warnings.warn(\n                        \"LocalRing Attention don't support `attention_dropout` this argument will be ignored\",\n                        UserWarning\n                    )\n\n                return self.local_ring_attention(\n                    query_states=query_states,\n                    key_states=key_states,\n                    value_states=value_states,\n                    bias=bias,\n                    query_sequence_length=query_sequence_length,\n                    key_value_sequence_length=key_value_sequence_length\n                )\n            elif self.attn_mechanism == \"wise_ring\":\n                if segment_ids is not None:\n                    warnings.warn(\n                        \"WiseRing Attention don't support `segment_ids` this argument will be ignored\",\n                        UserWarning\n                    )\n                if self.attention_dropout != 0.0:\n                    warnings.warn(\n                        \"WiseRing Attention don't support `attention_dropout` this argument will be ignored\",\n                        UserWarning\n                    )\n\n                return self.wise_ring_attention(\n                    query_states=query_states,\n                    bias=bias,\n                    value_states=value_states,\n                    key_states=key_states,\n                    segment_ids=segment_ids,\n                    query_sequence_length=query_sequence_length,\n                    key_value_sequence_length=key_value_sequence_length\n                )\n            else:\n                raise ValueError(f\"Unknown Attention mechanism of {self.attn_mechanism}\")\n\n    def local_ring_attention(\n            self,\n            *,  # it's Kwarg Only\n            query_states: Array,\n            key_states: Array,\n            value_states: Array,\n            query_sequence_length: int,\n            key_value_sequence_length: int,\n            bias: Optional[Array] = None,\n    ):\n        qps, kps, vps, bps, aps, _ = self.get_partition_specs(query_sequence_length)\n        attention_outputs = shard_map(\n            partial(\n                ring_attention_standard,\n                axis_name=self.axis_name,\n                scale=1 / self.sm_scale,\n                float32_logits=True,\n            ),\n            mesh=self.mesh,\n            in_specs=(qps, kps, vps, bps,),\n            out_specs=aps,\n            check_rep=False\n        )(\n            query_states, key_states, value_states, bias\n        )\n        return AttentionOutput(\n            attention_weights=None,\n            attention_outputs=attention_outputs\n        )\n\n    def ring_attention(\n            self,\n            *,  # it's Kwarg Only\n            query_states: Array,\n            key_states: Array,\n            value_states: Array,\n            query_sequence_length: int,\n            key_value_sequence_length: int,\n            bias: Optional[Array] = None,\n            attention_mask: Optional[Array] = None,\n            deterministic: bool = False,\n            dropout_rng: Optional[random.PRNGKey] = None,\n            segment_ids: Optional[Array] = None,\n    ):\n        if segment_ids is None:\n            segment_ids = jnp.zeros((query_states.shape[0], query_sequence_length), dtype=\"i4\")\n        if self.scan_ring_attention and query_states.shape[1] &gt; max(\n                self.block_q,\n                self.block_k\n        ):\n            if self.platform == \"tpu\":\n                ring_attention_fn = ring_flash_attention_tpu\n            else:\n                ring_attention_fn = fjformer.pallas_operations.ring_attention\n            ring_attention_sharded = shard_map(\n                partial(\n                    ring_attention_fn,\n                    axis_name=self.axis_name,\n                    float32_logits=True,\n                    blockwise_kwargs=dict(\n                        deterministic=deterministic,\n                        dropout_rng=dropout_rng,\n                        attn_pdrop=self.attention_dropout,\n                        causal=True,\n                        query_chunk_size=self.block_q,\n                        key_chunk_size=self.block_k,\n                        dtype=self.dtype,\n                        policy=get_gradient_checkpoint_policy(\"nothing_saveable\"),\n                        precision=self.precision,\n                        prevent_cse=not self.scan_attention_layers,\n                    )\n                ),\n                mesh=self.mesh,\n                in_specs=(\n                    self.query_partition_spec,\n                    self.key_partition_spec,\n                    self.value_partition_spec,\n                    self.bias_partition_spec,\n                    PartitionSpec((\"dp\", \"fsdp\"), None),\n                ),\n                out_specs=self.attention_partition_spec,\n                check_rep=False\n            )\n            attn_output = ring_attention_sharded(query_states, key_states, value_states, bias, segment_ids)\n            attn_output = with_sharding_constraint(attn_output, self.attention_partition_spec)\n        else:\n            if self.platform != \"tpu\":\n                warnings.warn(\n                    \"Using Ring attention on CPUs or GPUs are not recommended due to miss computations at the moment. \"\n                    \"please refer to other types of attention mechanism.your are bing fell back on \"\n                    \"`ring_attention_sharded`\"\n                    f\" Usage conditions was\\nscan_ring_attention = {self.scan_ring_attention} [MUST BE TRUE]\"\n                    f\"\\nquery_states.shape[1]({query_states.shape[1]}) &gt; max({self.block_q},{self.block_k})\"\n                    f\"({max(self.block_q, self.block_k)})\"\n                )\n            query_sequence_partition = None if query_states.shape[1] == 1 else \"sp\"\n            ring_attention_sharded = shard_map(\n                partial(\n                    ring_attention_standard,\n                    axis_name=self.axis_name,\n                    scale=self.sm_scale\n                ),\n                mesh=self.mesh,\n                in_specs=(\n                    PartitionSpec((\"dp\", \"fsdp\"), query_sequence_partition, \"tp\", None),\n                    PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n                    PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n                    PartitionSpec((\"dp\", \"fsdp\"), None, query_sequence_partition, None)\n                ),\n                out_specs=PartitionSpec((\"dp\", \"fsdp\"), query_sequence_partition, \"tp\", None),\n                check_rep=False\n            )\n            attn_output = ring_attention_sharded(\n                query_states, key_states, value_states, attention_mask\n            )\n        return AttentionOutput(\n            attention_weights=None,\n            attention_outputs=attn_output\n        )\n\n    def wise_ring_attention(\n            self,\n            *,  # it's Kwarg Only\n            query_states: Array,\n            key_states: Array,\n            value_states: Array,\n            query_sequence_length: int,\n            key_value_sequence_length: int,\n            bias: Optional[Array] = None,\n            deterministic: bool = False,\n            dropout_rng: Optional[random.PRNGKey] = None,\n            segment_ids: Optional[Array] = None\n    ):\n        if segment_ids is None:\n            segment_ids = jnp.zeros((query_states.shape[0], query_sequence_length), dtype=\"i4\")\n        if self.scan_ring_attention and query_states.shape[1] &gt; max(self.block_q, self.block_k):\n            ring_attention_sharded = shard_map(\n                partial(\n                    wise_ring_attention,\n                    axis_name=self.axis_name,\n                    float32_logits=True,\n                    block_wise_kwargs=dict(\n                        deterministic=deterministic,\n                        dropout_rng=dropout_rng,\n                        attn_pdrop=self.attention_dropout,\n                        causal=True,\n                        query_chunk_size=self.block_q,\n                        key_chunk_size=self.block_k,\n                        dtype=self.dtype,\n                        policy=get_gradient_checkpoint_policy(\"nothing_saveable\"),\n                        precision=self.precision,\n                        prevent_cse=not self.scan_attention_layers,\n                    )\n                ),\n                mesh=self.mesh,\n                in_specs=(\n                    self.query_partition_spec,\n                    self.key_partition_spec,\n                    self.value_partition_spec,\n                    self.bias_partition_spec,\n                    PartitionSpec((\"dp\", \"fsdp\"), \"sp\"),\n                ),\n                out_specs=self.attention_partition_spec,\n                check_rep=False\n            )\n            attn_output = ring_attention_sharded(query_states, key_states, value_states, bias, segment_ids)\n            attn_output = with_sharding_constraint(attn_output, self.attention_partition_spec)\n            return AttentionOutput(\n                attention_weights=None,\n                attention_outputs=attn_output\n            )\n        else:\n            seq_length = query_states.shape[1]\n            chunk = seq_length &gt; max(self.block_q, self.block_k)\n            warnings.warn(\n                f\"generation process detected, switching to local ring attention\"\n                f\" [CHUNK : {chunk}, SCAN : {self.scan_ring_attention}, {self.block_k=}, {self.block_q=}, {seq_length=}]\"\n            )\n            return self.local_ring_attention(\n                query_states=query_states,\n                key_states=key_states,\n                value_states=value_states,\n                bias=bias,\n                query_sequence_length=query_sequence_length,\n                key_value_sequence_length=key_value_sequence_length\n            )\n\n    def vanilla_attention(\n            self,\n            *,  # it's Kwarg Only\n            query_states: Array,\n            key_states: Array,\n            value_states: Array,\n            bias: Optional[Array] = None,\n            deterministic: bool = False,\n            dropout_rng: Optional[random.PRNGKey] = None,\n            query_sequence_length: int,\n            key_value_sequence_length: int,\n    ) -&gt; AttentionOutput:\n        dtype = jnp.promote_types(self.dtype, jnp.float32)\n        with self.mesh:\n            o, w = vanilla_attention(\n                query_states=query_states,\n                key_states=key_states,\n                value_states=value_states,\n                bias=bias,\n                deterministic=deterministic,\n                dtype=dtype,\n                dropout_rng=dropout_rng,\n                precision=self.precision,\n                attention_dropout=self.attention_dropout,\n                shard_attention_computation=self.shard_attention_computation,\n            )\n            return AttentionOutput(\n                attention_weights=w,\n                attention_outputs=o\n            )\n\n    def blockwise_attention(\n            self,\n            *,  # it's Kwarg Only\n            query_states: Array,\n            key_states: Array,\n            value_states: Array,\n            bias: Optional[Array] = None,\n            deterministic: bool = False,\n            dropout_rng: Optional[random.PRNGKey] = None,\n            query_sequence_length: int,\n            key_value_sequence_length: int,\n    ) -&gt; AttentionOutput:\n        dtype = jnp.promote_types(self.dtype, jnp.float32)\n        qps, kps, vps, bps, aps, is_gen = self.get_partition_specs(qs=query_sequence_length)\n        block_size = self.get_block_size_flash_attn(query_sequence_length, key_value_sequence_length)\n        with self.mesh:\n            query_states = with_sharding_constraint(query_states, qps)\n            key_states = with_sharding_constraint(key_states, self.key_partition_spec)\n            value_states = with_sharding_constraint(value_states, self.value_partition_spec)\n            bias = with_sharding_constraint(bias, bps)\n            o = blockwise_attn(\n                query=query_states,\n                key=key_states,\n                value=value_states,\n                bias=bias,\n                deterministic=deterministic,\n                dtype=dtype,\n                dropout_rng=dropout_rng,\n                precision=self.precision,\n                attn_pdrop=self.attention_dropout,\n                key_chunk_size=block_size.block_k,\n                query_chunk_size=block_size.block_q,\n                prevent_cse=not self.scan_attention_layers,\n                causal=True,\n                float32_logits=True\n            )\n\n            o = with_sharding_constraint(o, aps)\n            return AttentionOutput(\n                attention_weights=None,\n                attention_outputs=o\n            )\n\n    def sharded_vanilla_attention(\n            self,\n            *,  # it's Kwarg Only\n            query_states: Array,\n            key_states: Array,\n            value_states: Array,\n            bias: Optional[Array] = None,\n            deterministic: bool = False,\n            dropout_rng: Optional[random.PRNGKey] = None,\n            query_sequence_length: int,\n            key_value_sequence_length: int,\n    ) -&gt; AttentionOutput:\n        dtype = jnp.promote_types(self.dtype, jnp.float32)\n\n        qps, kps, vps, bps, aps, is_gen = self.get_partition_specs(qs=query_sequence_length)\n\n        with self.mesh:\n            query_states = fjformer.with_sharding_constraint(query_states, qps)\n            key_states = fjformer.with_sharding_constraint(key_states, kps)\n            value_states = fjformer.with_sharding_constraint(value_states, vps)\n\n            query_states, key_states, value_states = promote_dtype(\n                query_states, key_states, value_states,\n                dtype=dtype\n            )\n\n            depth = query_states.shape[-1]\n            query_states = query_states / jnp.sqrt(depth).astype(dtype)\n            attention_weight = jnp.einsum(\"...qhd,...khd-&gt;...hqk\", query_states, key_states, precision=self.precision)\n            if bias is not None:\n                bias = fjformer.with_sharding_constraint(bias, bps)\n                attention_weight = jnp.add(attention_weight, bias)\n\n            attention_weight = jax.nn.softmax(\n                attention_weight.astype(jnp.float32)\n            ).astype(dtype)\n\n            if not deterministic and self.attention_dropout &gt; 0.0:\n                keep_prob = 1.0 - self.attention_dropout\n                dropout_shape = tuple([1] * (key_states.ndim - 2)) + attention_weight.shape[-2:]\n                keep = random.bernoulli(dropout_rng, keep_prob, dropout_shape)  # type: ignore\n\n                multiplier = keep.astype(dtype) / jnp.asarray(keep_prob, dtype=dtype)\n                attention_weight = attention_weight * multiplier\n\n            attention = jnp.einsum(\n                \"...hqk,...khd-&gt;...qhd\",\n                attention_weight,\n                value_states,\n                precision=self.precision\n            )\n            attention = fjformer.with_sharding_constraint(attention, aps)\n            return AttentionOutput(\n                attention_weights=attention_weight,\n                attention_outputs=attention\n            )\n\n    def flash_attention(\n            self,\n            *,  # it's Kwarg Only\n            query_states: Array,\n            key_states: Array,\n            value_states: Array,\n            query_sequence_length: int,\n            key_value_sequence_length: int,\n            bias: Optional[Array] = None,\n            causal: bool = False,\n    ) -&gt; AttentionOutput:\n\n        qps, kps, vps, bps, aps, is_gen = self.get_partition_specs(qs=query_sequence_length)\n        block_size = self.get_block_size_flash_attn(query_sequence_length, key_value_sequence_length)\n        query_states = query_states.transpose(0, 2, 1, 3)\n        key_states = key_states.transpose(0, 2, 1, 3)\n        value_states = value_states.transpose(0, 2, 1, 3)\n\n        batch_size, num_attention_heads, query_sequence_length, head_dims = query_states.shape\n        if bias is not None:\n            if bias.shape[1] != num_attention_heads:\n                bias = bias.repeat(num_attention_heads, 1, )\n\n        flash_func, float32_logits, _ = get_flash_attention()\n        if float32_logits:\n            query_states, key_states, value_states = map(\n                lambda s: s.astype(jnp.float32),\n                (query_states, key_states, value_states)\n            )\n\n        if self.sm_scale is None:\n            self.sm_scale = 1 / math.sqrt(query_states[-1])\n        attention_o = shard_map(\n            partial(\n                flash_func,\n                causal=causal,\n                sm_scale=self.sm_scale,\n                block_sizes=block_size,\n                debug=False\n            ),\n            in_specs=(qps, kps, vps, bps),\n            out_specs=aps,\n            mesh=self.mesh,\n            check_rep=False,\n        )(\n            query_states,\n            key_states,\n            value_states,\n            bias,\n        )\n\n        attention_o = attention_o.transpose(0, 2, 1, 3)\n        return AttentionOutput(\n            attention_outputs=attention_o,\n            attention_weights=None\n        )\n\n    def splash_attention(\n            self,\n            query_states: Array,\n            key_states: Array,\n            value_states: Array,\n            query_sequence_length: int,\n            key_value_sequence_length: int,\n            attention_mask: Array\n    ) -&gt; AttentionOutput:\n\n        qps, kps, vps, bps, aps, is_gen = self.get_partition_specs(qs=query_sequence_length)\n\n        query_states = query_states.transpose(0, 2, 1, 3)\n        key_states = key_states.transpose(0, 2, 1, 3)\n        value_states = value_states.transpose(0, 2, 1, 3)\n\n        query_states, key_states, value_states = map(\n            lambda s: s.astype(jnp.float32),\n            (query_states, key_states, value_states)\n        )\n        if attention_mask is not None:\n            if attention_mask.ndim == 4:\n                attention_mask = attention_mask[:, 0, -1]\n            attention_mask = SegmentIds(attention_mask, attention_mask)\n        else:\n            warnings.warn(\"`attention_mask` is not passed to SplashAttention. (except miss computation problem)\")\n\n        @partial(\n            shard_map,\n            in_specs=(qps, kps, vps, PartitionSpec(qps[0], qps[2])),  # make it easier\n            out_specs=qps,\n            mesh=self.mesh,\n            check_rep=False,\n        )\n        def splash_attention_call(q, k, v, am):\n            block_size = self.get_block_size_splash_attn(query_sequence_length, key_value_sequence_length)\n            masks = [CausalMask(shape=(q.shape[2], k.shape[2])) for _ in range(q.shape[1])]\n            multi_head_mask = MultiHeadMask(masks=masks)\n            splash_kernel = make_splash_mha(\n                mask=multi_head_mask,\n                head_shards=1,\n                q_seq_shards=1,\n                block_sizes=block_size\n            )\n\n            return jax.vmap(splash_kernel)(q, k, v, segment_ids=am)\n\n        attention_o = splash_attention_call(query_states, key_states, value_states, attention_mask)\n\n        attention_o = attention_o.transpose(0, 2, 1, 3)\n        return AttentionOutput(\n            attention_outputs=attention_o,\n            attention_weights=None\n        )\n\n    def pallas_flash_attention(\n            self,\n            *,\n            query_states: Array,\n            key_states: Array,\n            value_states: Array,\n            query_sequence_length: int = None,\n            bias: Optional[Array] = None,\n    ) -&gt; AttentionOutput:\n        if query_sequence_length is None:\n            query_sequence_length = query_states.shape[1]\n        qps, kps, vps, bps, aps, is_gen = self.get_partition_specs(qs=query_sequence_length)\n\n        query_states, key_states, value_states = map(\n            lambda s: s.astype(jnp.float32),\n            (query_states, key_states, value_states)\n        )\n        # query_states = with_sharding_constraint(query_states, qps)\n        # key_states = with_sharding_constraint(key_states, kps)\n        # value_states = with_sharding_constraint(value_states, vps)\n        # bias = with_sharding_constraint(bias, bps)\n        wrapped_fn = partial(\n            flash_attention,\n            sm_scale=self.sm_scale,\n            block_k=self.block_k,\n            block_q=self.block_q,\n            interpret=True if self.platform == \"cpu\" else None,  # auto-decide\n            backward_pass_impl=self.backward_pass_impl,\n            debug=False\n        )\n        attention_outputs = shard_map(\n            f=wrapped_fn,\n            in_specs=(qps, kps, vps, bps),\n            out_specs=aps,\n            mesh=self.mesh,\n            check_rep=False,\n        )(\n            query_states,\n            key_states,\n            value_states,\n            bias,\n        )\n        attention_outputs = with_sharding_constraint(attention_outputs, aps)\n        return AttentionOutput(\n            attention_weights=None,\n            attention_outputs=attention_outputs\n        )\n\n    def cuddn_flash_attention(\n            self,\n            *,  # it's Kwarg Only\n            query_states: Array,\n            key_states: Array,\n            value_states: Array,\n            bias: Optional[Array] = None,\n            causal: bool = False,\n            deterministic: bool = True,\n            query_sequence_length: int,\n            key_value_sequence_length: int,\n    ) -&gt; AttentionOutput:\n        \"\"\"CUDNN Flash Attention with Transformer Engine.\"\"\"\n        try:\n            import transformer_engine.jax.fused_attn as fused_attn\n            from transformer_engine.jax.fused_attn import AttnBiasType, AttnMaskType, QKVLayout\n            from transformer_engine.jax.fused_attn import is_fused_attn_kernel_available\n        except (ModuleNotFoundError, ImportError) as err:\n            raise RuntimeError(\n                \"Please install transformer_engine first. you can install that by running \"\n                f\"`pip install git+https://github.com/NVIDIA/TransformerEngine`\"\n                f\"\\nhere's extra information on error\\n{err}\"\n            )\n        batch, query_sequence_length, num_attention_heads, head_dim = query_states.shape\n\n        qkv_layout = QKVLayout.BS3HD\n        attn_mask_type = AttnMaskType.CAUSAL_MASK\n        attn_bias_type = AttnBiasType.NO_BIAS\n\n        if self.sm_scale is None:\n            self.sm_scale = 1 / math.sqrt(head_dim)\n        has_fused_attn_kernel = is_fused_attn_kernel_available(\n            self.dtype, self.dtype, qkv_layout,\n            attn_bias_type,\n            attn_mask_type,\n            self.attention_dropout,\n            self.num_attention_heads,\n            key_states.shape[2],\n            query_sequence_length,\n            key_value_sequence_length,\n            head_dim\n        )\n\n        if not has_fused_attn_kernel:\n            raise ValueError(\n                \"Flash attention kernel is not supported for current requested arrays\"\n                \" for details check this repo https://github.com/NVIDIA/TransformerEngine/\"\n            )\n\n        return AttentionOutput(\n            attention_weights=None,\n            attention_outputs=fused_attn.self_fused_attn(\n                qkv=jnp.concatenate(\n                    (\n                        jnp.reshape(query_states, (*query_states.shape[:2], 1, *query_states.shape[-2:])),\n                        jnp.reshape(key_states, (*query_states.shape[:2], 1, *query_states.shape[-2:])),\n                        jnp.reshape(value_states, (*query_states.shape[:2], 1, *query_states.shape[-2:]))\n                    ),\n                    axis=2\n                ),\n                bias=bias,\n                mask=jnp.zeros((batch, 1, query_sequence_length, key_value_sequence_length)) if causal else None,\n                seed=None,\n                attn_bias_type=attn_bias_type,\n                attn_mask_type=attn_mask_type,\n                scaling_factor=self.sm_scale,\n                dropout_probability=self.attention_dropout,\n                is_training=deterministic\n            )\n        )\n\n    @staticmethod\n    def test_attentions(\n            batch_size=8,\n            sequence_length=128 * 8,\n            num_attention_heads=32,\n            num_key_value_heads=32,\n            chunk_size=128,\n            axis_dims=(1, -1, 1, 1)\n    ):\n        \"\"\"creates a test for attention module to help you find the best attention mechanism you can use.\"\"\"\n        import flax\n        try:\n            import pandas\n        except (ModuleNotFoundError, ImportError):\n            warnings.warn(\"couldn't import pandas ... please install pandas\")\n            pandas = None\n        from ..modules.mistral import MistralConfig\n        from fjformer import GenerateRNG\n        head_dim = 128\n        rng = GenerateRNG()\n\n        config = MistralConfig(\n            axis_dims=axis_dims,\n            block_q=chunk_size,\n            block_k=chunk_size\n        )\n\n        def value_and_grad_wrapper(fn, **kwargs):\n            @partial(jax.value_and_grad, **kwargs)\n            def inner(*args, **kwargs):\n                return jnp.sum(fn(*args, **kwargs))\n\n            return inner\n\n        def diff(t1, t2):\n            return jnp.max(jnp.abs(t1 - t2))\n\n        @value_and_grad_wrapper\n        def call_dot_product(q, k, v, b, ):\n            attention_pred = flax.linen.dot_product_attention(q, k, v, b, )\n            return attention_pred\n\n        @value_and_grad_wrapper\n        def call_attention_module(q, k, v, b, a, attn_mechanism):\n            attention_pred = AttentionModule(\n                attn_mechanism=attn_mechanism,\n                axis_name=\"sp\",\n                dtype=jnp.float32,\n                mesh=config.jax_mesh(),\n                head_dims=q.shape[-1],\n                sm_scale=1 / math.sqrt(q.shape[-1]),\n                num_attention_heads=q.shape[-2],\n                block_q=config.block_q,\n                block_k=config.block_k,\n                base_module_class=config,\n            )(\n                query_states=q,\n                key_states=k,\n                value_states=v,\n                bias=b,\n                attention_mask=a\n            ).attention_outputs\n            return attention_pred\n\n        def make_inputs():\n            q = jax.random.normal(\n                rng.rng,\n                (batch_size, sequence_length, num_attention_heads, head_dim),\n                dtype=\"float32\"\n            )\n            k = jax.random.normal(\n                rng.rng,\n                (batch_size, sequence_length, num_key_value_heads, head_dim),\n                dtype=\"float32\"\n            )\n            v = jax.random.normal(\n                rng.rng,\n                (batch_size, sequence_length, num_key_value_heads, head_dim),\n                dtype=\"float32\"\n            )\n            c = flax.linen.attention.make_causal_mask(jnp.ones((batch_size, sequence_length)))\n            a = jnp.ones((batch_size, sequence_length))\n            a = a.at[:, sequence_length // 2:].set(0)\n            b = jnp.where(flax.linen.attention.combine_masks(jnp.expand_dims(jnp.expand_dims(a, 1), 1), c), 0, -jnp.inf)\n\n            return q, k, v, b, a\n\n        q, k, v, b, a = make_inputs()\n        excepted_output, excepted_grads = call_dot_product(q, k, v, b)\n        test_attentions = [\n            \"local_ring\",\n            \"blockwise\",\n            \"vanilla\",\n            \"wise_ring\",\n            \"sharded_vanilla\",\n            \"flash\",\n            \"splash\",\n            \"cudnn\",\n            \"pallas_flash\"\n        ]\n        fns = {\n            k: partial(call_attention_module, attn_mechanism=k) for k in test_attentions\n        }\n        outs_and_grads = {}\n        for nm, fn in fns.items():\n            try:\n                start = time.time()\n                out = jax.block_until_ready(fn(q, k, v, b, a))\n                end = time.time() - start\n                outs_and_grads[nm] = out + (end,)\n            except Exception as e:\n                print(f\"{nm} is Failed :\\n\\n{e}\")\n                outs_and_grads[nm] = (None, None, None)\n        frame_out = {}\n        for key, (out, grad, time_took) in outs_and_grads.items():\n\n            if out is None and grad is None:\n                frame_out[key.upper()] = {\n                    \"OUT DIFF\": \"NA\",\n                    \"GRADIENT DIFF SUM\": \"NA\",\n                    \"TEST PASSED\": \"NA\",\n                    \"COMP TIME\": \"NA\"\n                }\n            else:\n                output_diff = diff(excepted_output, out)\n                g_diff = [diff(*args) for args in zip(excepted_grads, grad)]\n                sum_g = sum(g_diff)\n                # TODO : Fix this\n                # XlaRuntimeError: FAILED_PRECONDITION: The program continuator has halted unexpectedly.\n                # sum_g = jax.device_get(sum_g)\n                # output_diff = jax.device_get(output_diff)\n                frame_out[key.upper()] = {\n                    \"OUT DIFF\": output_diff,\n                    \"GRADIENT DIFF SUM\": sum_g,\n                    \"TEST PASSED\": sum_g &lt; 1 and output_diff &lt; 1e-2,\n                    \"COMP TIME\": time_took\n                }\n        if pandas is not None:\n            result = pandas.DataFrame.from_dict(frame_out)\n            result = result.transpose()\n            return result\n        else:\n            return frame_out\n</code></pre>"},{"location":"generated-modules-attention_module/#src.python.easydel.modules.attention_module.AttentionModule.cuddn_flash_attention","title":"<code>cuddn_flash_attention(*, query_states, key_states, value_states, bias=None, causal=False, deterministic=True, query_sequence_length, key_value_sequence_length)</code>","text":"<p>CUDNN Flash Attention with Transformer Engine.</p> Source code in <code>src/python/easydel/modules/attention_module.py</code> <pre><code>def cuddn_flash_attention(\n        self,\n        *,  # it's Kwarg Only\n        query_states: Array,\n        key_states: Array,\n        value_states: Array,\n        bias: Optional[Array] = None,\n        causal: bool = False,\n        deterministic: bool = True,\n        query_sequence_length: int,\n        key_value_sequence_length: int,\n) -&gt; AttentionOutput:\n    \"\"\"CUDNN Flash Attention with Transformer Engine.\"\"\"\n    try:\n        import transformer_engine.jax.fused_attn as fused_attn\n        from transformer_engine.jax.fused_attn import AttnBiasType, AttnMaskType, QKVLayout\n        from transformer_engine.jax.fused_attn import is_fused_attn_kernel_available\n    except (ModuleNotFoundError, ImportError) as err:\n        raise RuntimeError(\n            \"Please install transformer_engine first. you can install that by running \"\n            f\"`pip install git+https://github.com/NVIDIA/TransformerEngine`\"\n            f\"\\nhere's extra information on error\\n{err}\"\n        )\n    batch, query_sequence_length, num_attention_heads, head_dim = query_states.shape\n\n    qkv_layout = QKVLayout.BS3HD\n    attn_mask_type = AttnMaskType.CAUSAL_MASK\n    attn_bias_type = AttnBiasType.NO_BIAS\n\n    if self.sm_scale is None:\n        self.sm_scale = 1 / math.sqrt(head_dim)\n    has_fused_attn_kernel = is_fused_attn_kernel_available(\n        self.dtype, self.dtype, qkv_layout,\n        attn_bias_type,\n        attn_mask_type,\n        self.attention_dropout,\n        self.num_attention_heads,\n        key_states.shape[2],\n        query_sequence_length,\n        key_value_sequence_length,\n        head_dim\n    )\n\n    if not has_fused_attn_kernel:\n        raise ValueError(\n            \"Flash attention kernel is not supported for current requested arrays\"\n            \" for details check this repo https://github.com/NVIDIA/TransformerEngine/\"\n        )\n\n    return AttentionOutput(\n        attention_weights=None,\n        attention_outputs=fused_attn.self_fused_attn(\n            qkv=jnp.concatenate(\n                (\n                    jnp.reshape(query_states, (*query_states.shape[:2], 1, *query_states.shape[-2:])),\n                    jnp.reshape(key_states, (*query_states.shape[:2], 1, *query_states.shape[-2:])),\n                    jnp.reshape(value_states, (*query_states.shape[:2], 1, *query_states.shape[-2:]))\n                ),\n                axis=2\n            ),\n            bias=bias,\n            mask=jnp.zeros((batch, 1, query_sequence_length, key_value_sequence_length)) if causal else None,\n            seed=None,\n            attn_bias_type=attn_bias_type,\n            attn_mask_type=attn_mask_type,\n            scaling_factor=self.sm_scale,\n            dropout_probability=self.attention_dropout,\n            is_training=deterministic\n        )\n    )\n</code></pre>"},{"location":"generated-modules-attention_module/#src.python.easydel.modules.attention_module.AttentionModule.test_attentions","title":"<code>test_attentions(batch_size=8, sequence_length=128 * 8, num_attention_heads=32, num_key_value_heads=32, chunk_size=128, axis_dims=(1, -1, 1, 1))</code>  <code>staticmethod</code>","text":"<p>creates a test for attention module to help you find the best attention mechanism you can use.</p> Source code in <code>src/python/easydel/modules/attention_module.py</code> <pre><code>@staticmethod\ndef test_attentions(\n        batch_size=8,\n        sequence_length=128 * 8,\n        num_attention_heads=32,\n        num_key_value_heads=32,\n        chunk_size=128,\n        axis_dims=(1, -1, 1, 1)\n):\n    \"\"\"creates a test for attention module to help you find the best attention mechanism you can use.\"\"\"\n    import flax\n    try:\n        import pandas\n    except (ModuleNotFoundError, ImportError):\n        warnings.warn(\"couldn't import pandas ... please install pandas\")\n        pandas = None\n    from ..modules.mistral import MistralConfig\n    from fjformer import GenerateRNG\n    head_dim = 128\n    rng = GenerateRNG()\n\n    config = MistralConfig(\n        axis_dims=axis_dims,\n        block_q=chunk_size,\n        block_k=chunk_size\n    )\n\n    def value_and_grad_wrapper(fn, **kwargs):\n        @partial(jax.value_and_grad, **kwargs)\n        def inner(*args, **kwargs):\n            return jnp.sum(fn(*args, **kwargs))\n\n        return inner\n\n    def diff(t1, t2):\n        return jnp.max(jnp.abs(t1 - t2))\n\n    @value_and_grad_wrapper\n    def call_dot_product(q, k, v, b, ):\n        attention_pred = flax.linen.dot_product_attention(q, k, v, b, )\n        return attention_pred\n\n    @value_and_grad_wrapper\n    def call_attention_module(q, k, v, b, a, attn_mechanism):\n        attention_pred = AttentionModule(\n            attn_mechanism=attn_mechanism,\n            axis_name=\"sp\",\n            dtype=jnp.float32,\n            mesh=config.jax_mesh(),\n            head_dims=q.shape[-1],\n            sm_scale=1 / math.sqrt(q.shape[-1]),\n            num_attention_heads=q.shape[-2],\n            block_q=config.block_q,\n            block_k=config.block_k,\n            base_module_class=config,\n        )(\n            query_states=q,\n            key_states=k,\n            value_states=v,\n            bias=b,\n            attention_mask=a\n        ).attention_outputs\n        return attention_pred\n\n    def make_inputs():\n        q = jax.random.normal(\n            rng.rng,\n            (batch_size, sequence_length, num_attention_heads, head_dim),\n            dtype=\"float32\"\n        )\n        k = jax.random.normal(\n            rng.rng,\n            (batch_size, sequence_length, num_key_value_heads, head_dim),\n            dtype=\"float32\"\n        )\n        v = jax.random.normal(\n            rng.rng,\n            (batch_size, sequence_length, num_key_value_heads, head_dim),\n            dtype=\"float32\"\n        )\n        c = flax.linen.attention.make_causal_mask(jnp.ones((batch_size, sequence_length)))\n        a = jnp.ones((batch_size, sequence_length))\n        a = a.at[:, sequence_length // 2:].set(0)\n        b = jnp.where(flax.linen.attention.combine_masks(jnp.expand_dims(jnp.expand_dims(a, 1), 1), c), 0, -jnp.inf)\n\n        return q, k, v, b, a\n\n    q, k, v, b, a = make_inputs()\n    excepted_output, excepted_grads = call_dot_product(q, k, v, b)\n    test_attentions = [\n        \"local_ring\",\n        \"blockwise\",\n        \"vanilla\",\n        \"wise_ring\",\n        \"sharded_vanilla\",\n        \"flash\",\n        \"splash\",\n        \"cudnn\",\n        \"pallas_flash\"\n    ]\n    fns = {\n        k: partial(call_attention_module, attn_mechanism=k) for k in test_attentions\n    }\n    outs_and_grads = {}\n    for nm, fn in fns.items():\n        try:\n            start = time.time()\n            out = jax.block_until_ready(fn(q, k, v, b, a))\n            end = time.time() - start\n            outs_and_grads[nm] = out + (end,)\n        except Exception as e:\n            print(f\"{nm} is Failed :\\n\\n{e}\")\n            outs_and_grads[nm] = (None, None, None)\n    frame_out = {}\n    for key, (out, grad, time_took) in outs_and_grads.items():\n\n        if out is None and grad is None:\n            frame_out[key.upper()] = {\n                \"OUT DIFF\": \"NA\",\n                \"GRADIENT DIFF SUM\": \"NA\",\n                \"TEST PASSED\": \"NA\",\n                \"COMP TIME\": \"NA\"\n            }\n        else:\n            output_diff = diff(excepted_output, out)\n            g_diff = [diff(*args) for args in zip(excepted_grads, grad)]\n            sum_g = sum(g_diff)\n            # TODO : Fix this\n            # XlaRuntimeError: FAILED_PRECONDITION: The program continuator has halted unexpectedly.\n            # sum_g = jax.device_get(sum_g)\n            # output_diff = jax.device_get(output_diff)\n            frame_out[key.upper()] = {\n                \"OUT DIFF\": output_diff,\n                \"GRADIENT DIFF SUM\": sum_g,\n                \"TEST PASSED\": sum_g &lt; 1 and output_diff &lt; 1e-2,\n                \"COMP TIME\": time_took\n            }\n    if pandas is not None:\n        result = pandas.DataFrame.from_dict(frame_out)\n        result = result.transpose()\n        return result\n    else:\n        return frame_out\n</code></pre>"},{"location":"generated-modules-attention_module/#src.python.easydel.modules.attention_module.get_flash_attention","title":"<code>get_flash_attention()</code>","text":"<p>return: FlashAttention FN, Upcast Needed to float32,do_shard_map</p> Source code in <code>src/python/easydel/modules/attention_module.py</code> <pre><code>def get_flash_attention() -&gt; Tuple[Callable, bool, bool]:\n    \"\"\"return: FlashAttention FN, Upcast Needed to float32,do_shard_map\"\"\"\n    platform = jax.lib.xla_bridge.get_backend().platform\n    if platform == \"gpu\":\n        warnings.warn(\"for GPU backend use `cudnn` or `pallas_flash`\")\n        float32_logits = False\n        ring_attention_fn = flash_attention\n        do_shard_map = True\n    elif platform == \"tpu\":\n        float32_logits = True\n        ring_attention_fn = tpu_flash_attention\n        do_shard_map = False\n    else:\n        raise ValueError(f\"Unsupported platform {platform}\")\n\n    return ring_attention_fn, float32_logits, do_shard_map\n</code></pre>"},{"location":"generated-modules-auto_easydel_model/","title":"modules.auto_easydel_model","text":""},{"location":"generated-modules-auto_easydel_model/#src.python.easydel.modules.auto_easydel_model.AutoEasyDeLConfig","title":"<code>AutoEasyDeLConfig</code>","text":"Source code in <code>src/python/easydel/modules/auto_easydel_model.py</code> <pre><code>class AutoEasyDeLConfig:\n    @classmethod\n    def from_pretrained(\n            cls,\n            pretrained_model_name_or_path: str,\n            sharding_axis_dims: Sequence[int] = (1, -1, 1, 1),\n            sharding_axis_names: Sequence[str] = (\"dp\", \"fsdp\", \"tp\", \"sp\"),\n            query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            generation_query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", None, None),\n            key_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            value_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n            generation_bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n            attention_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            shard_attention_computation: bool = True,\n            backend: Optional[str] = None,\n            **kwargs\n    ) -&gt; EasyDeLPretrainedConfig:\n        \"\"\"The from_pretrained function is a helper function that allows you to instantiate a model from the pretrained\n        model repository. It takes as input the name of the model (e.g., 'bert-base-uncased') and returns an instance of\n        the class corresponding to your model, with all weights loaded from disk.\n\n        Args:\n            cls: Create an instance of the class that called this\n                function\n            pretrained_model_name_or_path: str: Identify the model in\n                the huggingface model hub\n            sharding_axis_dims: Sequence[int]: Specify the dimension of\n                each axis in the sharded model\n            sharding_axis_names: Sequence[str]: Specify the order of\n                sharding\n            query_partition_spec: PartitionSpec: Specify the\n                partitioning of the query tensor\n            generation_query_partition_spec: PartitionSpec: Specify the\n                partitioning of the query tensor in\n            key_partition_spec: PartitionSpec: Partition the key matrix\n            value_partition_spec: PartitionSpec: Specify the\n                partitioning of the value tensor\n            bias_partition_spec: PartitionSpec: Specify the Attention\n                Bias partition spec\n            generation_bias_partition_spec: PartitionSpec: Specify the\n                Attention Bias partition spec for generation\n            attention_partition_spec: PartitionSpec: Specify the\n                partitioning of the attention weights\n            shard_attention_computation: bool: whenever to use shard_map\n                for attention\n            backend: Optional[str]: backend to use for model\n            **kwargs: Pass additional arguments to the model and config\n                classes\n        generation process\n\n        Returns:\n            A Model Config\n        \"\"\"\n\n        config = AutoConfig.from_pretrained(pretrained_model_name_or_path)\n        model_type: str = config.model_type\n\n        cfg, module, trf = get_modules_by_type(model_type)\n        cfg = cfg.from_pretrained(pretrained_model_name_or_path)\n        if hasattr(cfg, 'add_jax_args'):\n            cfg.add_jax_args()\n        cfg.add_basic_configurations(\n            axis_dims=sharding_axis_dims,\n            axis_names=sharding_axis_names,\n            query_partition_spec=query_partition_spec,\n            generation_query_partition_spec=generation_query_partition_spec,\n            generation_bias_partition_spec=generation_bias_partition_spec,\n            key_partition_spec=key_partition_spec,\n            value_partition_spec=value_partition_spec,\n            bias_partition_spec=bias_partition_spec,\n            attention_partition_spec=attention_partition_spec,\n            backend=backend,\n            shard_attention_computation=shard_attention_computation,\n        )\n\n        return cfg\n</code></pre>"},{"location":"generated-modules-auto_easydel_model/#src.python.easydel.modules.auto_easydel_model.AutoEasyDeLConfig.from_pretrained","title":"<code>from_pretrained(pretrained_model_name_or_path, sharding_axis_dims=(1, -1, 1, 1), sharding_axis_names=('dp', 'fsdp', 'tp', 'sp'), query_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None), generation_query_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp', None, None), key_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None), value_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None), bias_partition_spec=PartitionSpec(('dp', 'fsdp'), None, None, None), generation_bias_partition_spec=PartitionSpec(('dp', 'fsdp'), None, None, None), attention_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None), shard_attention_computation=True, backend=None, **kwargs)</code>  <code>classmethod</code>","text":"<p>The from_pretrained function is a helper function that allows you to instantiate a model from the pretrained model repository. It takes as input the name of the model (e.g., 'bert-base-uncased') and returns an instance of the class corresponding to your model, with all weights loaded from disk.</p> <p>Parameters:</p> Name Type Description Default <code>cls</code> <p>Create an instance of the class that called this function</p> required <code>pretrained_model_name_or_path</code> <code>str</code> <p>str: Identify the model in the huggingface model hub</p> required <code>sharding_axis_dims</code> <code>Sequence[int]</code> <p>Sequence[int]: Specify the dimension of each axis in the sharded model</p> <code>(1, -1, 1, 1)</code> <code>sharding_axis_names</code> <code>Sequence[str]</code> <p>Sequence[str]: Specify the order of sharding</p> <code>('dp', 'fsdp', 'tp', 'sp')</code> <code>query_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the partitioning of the query tensor</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>generation_query_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the partitioning of the query tensor in</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', None, None)</code> <code>key_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Partition the key matrix</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>value_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the partitioning of the value tensor</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>bias_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the Attention Bias partition spec</p> <code>PartitionSpec(('dp', 'fsdp'), None, None, None)</code> <code>generation_bias_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the Attention Bias partition spec for generation</p> <code>PartitionSpec(('dp', 'fsdp'), None, None, None)</code> <code>attention_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the partitioning of the attention weights</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>shard_attention_computation</code> <code>bool</code> <p>bool: whenever to use shard_map for attention</p> <code>True</code> <code>backend</code> <code>Optional[str]</code> <p>Optional[str]: backend to use for model</p> <code>None</code> <code>**kwargs</code> <p>Pass additional arguments to the model and config classes</p> <code>{}</code> <p>generation process</p> <p>Returns:</p> Type Description <code>EasyDeLPretrainedConfig</code> <p>A Model Config</p> Source code in <code>src/python/easydel/modules/auto_easydel_model.py</code> <pre><code>@classmethod\ndef from_pretrained(\n        cls,\n        pretrained_model_name_or_path: str,\n        sharding_axis_dims: Sequence[int] = (1, -1, 1, 1),\n        sharding_axis_names: Sequence[str] = (\"dp\", \"fsdp\", \"tp\", \"sp\"),\n        query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        generation_query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", None, None),\n        key_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        value_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n        generation_bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n        attention_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        shard_attention_computation: bool = True,\n        backend: Optional[str] = None,\n        **kwargs\n) -&gt; EasyDeLPretrainedConfig:\n    \"\"\"The from_pretrained function is a helper function that allows you to instantiate a model from the pretrained\n    model repository. It takes as input the name of the model (e.g., 'bert-base-uncased') and returns an instance of\n    the class corresponding to your model, with all weights loaded from disk.\n\n    Args:\n        cls: Create an instance of the class that called this\n            function\n        pretrained_model_name_or_path: str: Identify the model in\n            the huggingface model hub\n        sharding_axis_dims: Sequence[int]: Specify the dimension of\n            each axis in the sharded model\n        sharding_axis_names: Sequence[str]: Specify the order of\n            sharding\n        query_partition_spec: PartitionSpec: Specify the\n            partitioning of the query tensor\n        generation_query_partition_spec: PartitionSpec: Specify the\n            partitioning of the query tensor in\n        key_partition_spec: PartitionSpec: Partition the key matrix\n        value_partition_spec: PartitionSpec: Specify the\n            partitioning of the value tensor\n        bias_partition_spec: PartitionSpec: Specify the Attention\n            Bias partition spec\n        generation_bias_partition_spec: PartitionSpec: Specify the\n            Attention Bias partition spec for generation\n        attention_partition_spec: PartitionSpec: Specify the\n            partitioning of the attention weights\n        shard_attention_computation: bool: whenever to use shard_map\n            for attention\n        backend: Optional[str]: backend to use for model\n        **kwargs: Pass additional arguments to the model and config\n            classes\n    generation process\n\n    Returns:\n        A Model Config\n    \"\"\"\n\n    config = AutoConfig.from_pretrained(pretrained_model_name_or_path)\n    model_type: str = config.model_type\n\n    cfg, module, trf = get_modules_by_type(model_type)\n    cfg = cfg.from_pretrained(pretrained_model_name_or_path)\n    if hasattr(cfg, 'add_jax_args'):\n        cfg.add_jax_args()\n    cfg.add_basic_configurations(\n        axis_dims=sharding_axis_dims,\n        axis_names=sharding_axis_names,\n        query_partition_spec=query_partition_spec,\n        generation_query_partition_spec=generation_query_partition_spec,\n        generation_bias_partition_spec=generation_bias_partition_spec,\n        key_partition_spec=key_partition_spec,\n        value_partition_spec=value_partition_spec,\n        bias_partition_spec=bias_partition_spec,\n        attention_partition_spec=attention_partition_spec,\n        backend=backend,\n        shard_attention_computation=shard_attention_computation,\n    )\n\n    return cfg\n</code></pre>"},{"location":"generated-modules-auto_easydel_model/#src.python.easydel.modules.auto_easydel_model.AutoEasyDeLModelForCausalLM","title":"<code>AutoEasyDeLModelForCausalLM</code>","text":"<p>This class provides a convenient way to load and shard pretrained causal language models from the Hugging Face Hub and convert them into EasyDeL compatible models. It utilizes the EasyDeL library for distributed training and inference with JAX.</p> <p>This class inherits from the <code>EasyDeLFlaxPretrainedModel</code> class, providing functionalities for model loading, parameter sharding, and interaction with the EasyDeL framework.</p> <p>Examples:</p> <pre><code>import jax\nfrom easydel import AutoEasyDeLModelForCausalLM\n\n# Load a GPT-2 model on a single CPU\nmodel, params = AutoEasyDeLModelForCausalLM.from_pretrained(\n    \"gpt2\",\n    device=jax.devices(\"cpu\")[0]\n)\n\n# Load a GPT-2 model sharded across 8 GPUs with data parallelism (DP) and fully sharded data parallelism (FSDP)\nmodel, params = AutoEasyDeLModelForCausalLM.from_pretrained(\n    \"gpt2\",\n    sharding_axis_dims=(1, 8, 1, 1),\n    sharding_axis_names=(\"dp\", \"fsdp\", \"tp\", \"sp\"),\n    device=jax.devices(\"cpu\")[0] # offload to CPU [OPTIONAL]\n)\n</code></pre> Source code in <code>src/python/easydel/modules/auto_easydel_model.py</code> <pre><code>class AutoEasyDeLModelForCausalLM:\n    \"\"\"This class provides a convenient way to load and shard pretrained causal language models from the Hugging Face Hub\n    and convert them into EasyDeL compatible models. It utilizes the EasyDeL library for distributed training and inference\n    with JAX.\n\n    This class inherits from the `EasyDeLFlaxPretrainedModel` class, providing functionalities for model loading,\n    parameter sharding, and interaction with the EasyDeL framework.\n\n    Attributes:\n        None\n\n    Examples:\n        ```python\n        import jax\n        from easydel import AutoEasyDeLModelForCausalLM\n\n        # Load a GPT-2 model on a single CPU\n        model, params = AutoEasyDeLModelForCausalLM.from_pretrained(\n            \"gpt2\",\n            device=jax.devices(\"cpu\")[0]\n        )\n\n        # Load a GPT-2 model sharded across 8 GPUs with data parallelism (DP) and fully sharded data parallelism (FSDP)\n        model, params = AutoEasyDeLModelForCausalLM.from_pretrained(\n            \"gpt2\",\n            sharding_axis_dims=(1, 8, 1, 1),\n            sharding_axis_names=(\"dp\", \"fsdp\", \"tp\", \"sp\"),\n            device=jax.devices(\"cpu\")[0] # offload to CPU [OPTIONAL]\n        )\n        ```\n    \"\"\"\n\n    @classmethod\n    def from_pretrained(\n            cls,\n            pretrained_model_name_or_path: str,\n            device=jax.devices('cpu')[0],\n            dtype: jax.numpy.dtype = jax.numpy.float32,\n            param_dtype: jax.numpy.dtype = jax.numpy.float32,\n            precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\"),\n            sharding_axis_dims: Sequence[int] = (1, -1, 1, 1),\n            sharding_axis_names: Sequence[str] = (\"dp\", \"fsdp\", \"tp\", \"sp\"),\n            query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            generation_query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, \"tp\", None),\n            key_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            value_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n            generation_bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n            attention_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            shard_attention_computation: bool = True,\n            input_shape: Sequence[int] = (1, 1),\n            shard_fns: Optional[Mapping[tuple, Callable] | dict] = None,\n            backend: Optional[str] = None,\n            config_kwargs: Optional[Mapping[str, Any]] = None,\n            auto_shard_params: bool = False,\n            partition_rules: Optional[Tuple[Tuple[str, PartitionSpec], ...]] = None,\n            load_in_8bit: bool = False,\n            bit_targeted_params: Optional[List[str]] = None,\n            **kwargs\n    ) -&gt; Tuple[EasyDeLFlaxPretrainedModel, dict]:\n        \"\"\"Loads and shards a pretrained causal language model from the Hugging Face Hub and converts it into an\n        EasyDeL compatible model.\n\n        Args:\n            pretrained_model_name_or_path (str): Path or name of the pretrained model in the Hugging Face Hub.\n            device (jax.Array, optional): Device to load the model on. Defaults to the first CPU.\n            dtype (jax.numpy.dtype, optional): Data type of the model. Defaults to jax.numpy.float32.\n            param_dtype (jax.numpy.dtype, optional): Data type of the model parameters. Defaults to jax.numpy.float32.\n            precision (jax.lax.Precision, optional): Precision for computations. Defaults to jax.lax.Precision(\"fastest\").\n            sharding_axis_dims (Sequence[int], optional): Dimensions of each sharding axis. Defaults to (1, -1, 1, 1).\n            sharding_axis_names (Sequence[str], optional): Names of the sharding axes. Defaults to (\"dp\", \"fsdp\", \"tp\", \"sp\").\n            query_partition_spec (PartitionSpec, optional): Partitioning specification for the query tensor. Defaults to\n                PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None).\n            generation_query_partition_spec (PartitionSpec, optional): Partitioning specification for the query tensor during\n                generation. Defaults to PartitionSpec((\"dp\", \"fsdp\"), None, \"tp\", None).\n            key_partition_spec (PartitionSpec, optional): Partitioning specification for the key tensor. Defaults to\n                PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None).\n            value_partition_spec (PartitionSpec, optional): Partitioning specification for the value tensor. Defaults to\n                PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None).\n            bias_partition_spec (PartitionSpec, optional): Partitioning specification for the attention bias. Defaults to\n                PartitionSpec((\"dp\", \"fsdp\"), None, None, None).\n            generation_bias_partition_spec (PartitionSpec, optional): Partitioning specification for the attention bias during\n                generation. Defaults to PartitionSpec((\"dp\", \"fsdp\"), None, None, None).\n            attention_partition_spec (PartitionSpec, optional): Partitioning specification for the attention weights. Defaults to\n                PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None).\n            shard_attention_computation (bool, optional): Whether to shard attention computation. Defaults to True.\n            input_shape (Sequence[int], optional): Shape of the input to the model. Defaults to (1, 1).\n            shard_fns (Optional[Mapping[tuple, Callable] | dict], optional): Sharding functions to use for the model. If None,\n                auto-sharding is used if auto_shard_params is True. Defaults to None.\n            backend (Optional[str], optional): Backend to use for the model. Defaults to None.\n            config_kwargs (Optional[Mapping[str, Any]], optional): Configuration keyword arguments to pass to the model config.\n                Defaults to None.\n            auto_shard_params (bool, optional): Whether to automatically shard the model parameters. Defaults to False.\n            partition_rules (Optional[Tuple[Tuple[str, PartitionSpec]]], optional): Custom partition rules for parameter\n                sharding. If not None, shard_fns should also be provided. Defaults to None.\n            load_in_8bit (bool, optional): Whether to load the model parameters in 8-bit precision. Defaults to False.\n            bit_targeted_params (Optional[List[str]], optional): List of parameter names to convert to 8-bit precision. If\n                None and load_in_8bit is True, all kernels and embeddings are converted to 8-bit. Defaults to None.\n            **kwargs: Additional keyword arguments to pass to the model and config classes.\n\n        Returns:\n            Tuple[EasyDeLFlaxPretrainedModel, dict]: A tuple containing the EasyDeL model and the loaded and sharded\n                model parameters.\n        \"\"\"\n\n        logger.debug(f\"Downloading model config from {pretrained_model_name_or_path}\")\n        config = AutoConfig.from_pretrained(pretrained_model_name_or_path)\n        model_type: str = config.model_type\n\n        cfg, module, trf = get_modules_by_type(model_type)\n\n        logger.debug(f\"Downloading model weights from {pretrained_model_name_or_path}\")\n        model = AutoModelForCausalLM.from_pretrained(pretrained_model_name_or_path, **kwargs)\n        cfg = cfg.from_pretrained(pretrained_model_name_or_path)\n        state_dict = model.state_dict()\n        logger.debug(f\"adding model basic EasyDeL configurations.\")\n        if hasattr(cfg, 'add_jax_args'):\n            cfg.add_jax_args()\n        cfg.add_basic_configurations(\n            axis_dims=sharding_axis_dims,\n            axis_names=sharding_axis_names,\n            query_partition_spec=query_partition_spec,\n            generation_query_partition_spec=generation_query_partition_spec,\n            generation_bias_partition_spec=generation_bias_partition_spec,\n            key_partition_spec=key_partition_spec,\n            value_partition_spec=value_partition_spec,\n            bias_partition_spec=bias_partition_spec,\n            attention_partition_spec=attention_partition_spec,\n            backend=backend,\n            shard_attention_computation=shard_attention_computation,\n        )\n        if config_kwargs is not None:\n            for k, v in config_kwargs.items():\n                setattr(cfg, k, v)\n\n        logger.debug(\"creating easydel model\")\n        ed_model = module(\n            config=cfg,\n            _do_init=False,\n            dtype=dtype,\n            param_dtype=param_dtype,\n            precision=precision,\n            input_shape=input_shape\n        )\n\n        needs = [\n            s.replace(\".kernel\", \".weight\").replace(\".scale\", \".weight\").replace(\".embedding\", \".weight\") for s in\n            list(flax.traverse_util.flatten_dict(ed_model.params_shape_tree, sep=\".\").keys())\n        ]\n        for k in list(state_dict.keys()):\n            if k not in needs:\n                logger.debug(f\"removing {k} from weights as it was not needed by flax model\")\n                del state_dict[k]\n        if shard_fns is not None:\n            if auto_shard_params:\n                warnings.warn(\n                    \"`auto_shard_params` will be ignored since you are passing custom sharding functions\"\n                )\n            logger.debug(\"sharding model parameters based on the given shard_fns.\")\n            if not is_flatten(shard_fns):\n                shard_fns = flax.traverse_util.flatten_dict(shard_fns)\n        elif auto_shard_params:\n            shard_fns, _ = AutoShardAndGatherFunctions.from_pretrained(\n                pretrained_model_name_or_path=pretrained_model_name_or_path,\n                dtype_specs=param_dtype,\n                partition_rules=partition_rules,\n                sharding_axis_dims=sharding_axis_dims,\n                sharding_axis_names=sharding_axis_names,\n                query_partition_spec=query_partition_spec,\n                generation_query_partition_spec=generation_query_partition_spec,\n                key_partition_spec=key_partition_spec,\n                value_partition_spec=value_partition_spec,\n                bias_partition_spec=bias_partition_spec,\n                generation_bias_partition_spec=generation_bias_partition_spec,\n                attention_partition_spec=attention_partition_spec,\n                shard_attention_computation=shard_attention_computation,\n                backend=backend,\n                input_shape=input_shape,  # type:ignore\n                config_kwargs=config_kwargs\n            )\n        with cfg.jax_mesh():\n            logger.debug(\"converting huggingface-model to easydel-model.\")\n            params_pattern_selection = None\n            if load_in_8bit:\n                if bit_targeted_params is None:\n                    warnings.warn(\n                        \"since `bit_targeted_params` is set to None, auto loader will convert all of\"\n                        \" kernels(weights) and embeddings to 8bit by default\"\n                    )\n                    bit_targeted_params = [\n                        \"kernel\",\n                        \"embedding\"\n                    ]\n\n                    params_pattern_selection = re.compile(\"({})\".format(\"|\".join(bit_targeted_params)))\n\n            params = trf(\n                state_dict,\n                config=config,\n                device=device,\n                shard_fns=shard_fns,\n                convert_to_8bit=load_in_8bit,\n                params_pattern_selection=params_pattern_selection,\n                remove_state_dict=True\n            )\n        logger.debug(\"deleting huggingface-model\")\n\n        del state_dict\n        del model\n        gc.collect()\n\n        if is_flatten(params):\n            logger.info(\"converted parameters are flatten making them unflatten \")\n            params = unflatten_dict(params)\n\n        return ed_model, params\n</code></pre>"},{"location":"generated-modules-auto_easydel_model/#src.python.easydel.modules.auto_easydel_model.AutoEasyDeLModelForCausalLM.from_pretrained","title":"<code>from_pretrained(pretrained_model_name_or_path, device=jax.devices('cpu')[0], dtype=jax.numpy.float32, param_dtype=jax.numpy.float32, precision=jax.lax.Precision('fastest'), sharding_axis_dims=(1, -1, 1, 1), sharding_axis_names=('dp', 'fsdp', 'tp', 'sp'), query_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None), generation_query_partition_spec=PartitionSpec(('dp', 'fsdp'), None, 'tp', None), key_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None), value_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None), bias_partition_spec=PartitionSpec(('dp', 'fsdp'), None, None, None), generation_bias_partition_spec=PartitionSpec(('dp', 'fsdp'), None, None, None), attention_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None), shard_attention_computation=True, input_shape=(1, 1), shard_fns=None, backend=None, config_kwargs=None, auto_shard_params=False, partition_rules=None, load_in_8bit=False, bit_targeted_params=None, **kwargs)</code>  <code>classmethod</code>","text":"<p>Loads and shards a pretrained causal language model from the Hugging Face Hub and converts it into an EasyDeL compatible model.</p> <p>Parameters:</p> Name Type Description Default <code>pretrained_model_name_or_path</code> <code>str</code> <p>Path or name of the pretrained model in the Hugging Face Hub.</p> required <code>device</code> <code>Array</code> <p>Device to load the model on. Defaults to the first CPU.</p> <code>devices('cpu')[0]</code> <code>dtype</code> <code>dtype</code> <p>Data type of the model. Defaults to jax.numpy.float32.</p> <code>float32</code> <code>param_dtype</code> <code>dtype</code> <p>Data type of the model parameters. Defaults to jax.numpy.float32.</p> <code>float32</code> <code>precision</code> <code>Precision</code> <p>Precision for computations. Defaults to jax.lax.Precision(\"fastest\").</p> <code>Precision('fastest')</code> <code>sharding_axis_dims</code> <code>Sequence[int]</code> <p>Dimensions of each sharding axis. Defaults to (1, -1, 1, 1).</p> <code>(1, -1, 1, 1)</code> <code>sharding_axis_names</code> <code>Sequence[str]</code> <p>Names of the sharding axes. Defaults to (\"dp\", \"fsdp\", \"tp\", \"sp\").</p> <code>('dp', 'fsdp', 'tp', 'sp')</code> <code>query_partition_spec</code> <code>PartitionSpec</code> <p>Partitioning specification for the query tensor. Defaults to PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None).</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>generation_query_partition_spec</code> <code>PartitionSpec</code> <p>Partitioning specification for the query tensor during generation. Defaults to PartitionSpec((\"dp\", \"fsdp\"), None, \"tp\", None).</p> <code>PartitionSpec(('dp', 'fsdp'), None, 'tp', None)</code> <code>key_partition_spec</code> <code>PartitionSpec</code> <p>Partitioning specification for the key tensor. Defaults to PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None).</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>value_partition_spec</code> <code>PartitionSpec</code> <p>Partitioning specification for the value tensor. Defaults to PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None).</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>bias_partition_spec</code> <code>PartitionSpec</code> <p>Partitioning specification for the attention bias. Defaults to PartitionSpec((\"dp\", \"fsdp\"), None, None, None).</p> <code>PartitionSpec(('dp', 'fsdp'), None, None, None)</code> <code>generation_bias_partition_spec</code> <code>PartitionSpec</code> <p>Partitioning specification for the attention bias during generation. Defaults to PartitionSpec((\"dp\", \"fsdp\"), None, None, None).</p> <code>PartitionSpec(('dp', 'fsdp'), None, None, None)</code> <code>attention_partition_spec</code> <code>PartitionSpec</code> <p>Partitioning specification for the attention weights. Defaults to PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None).</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>shard_attention_computation</code> <code>bool</code> <p>Whether to shard attention computation. Defaults to True.</p> <code>True</code> <code>input_shape</code> <code>Sequence[int]</code> <p>Shape of the input to the model. Defaults to (1, 1).</p> <code>(1, 1)</code> <code>shard_fns</code> <code>Optional[Mapping[tuple, Callable] | dict]</code> <p>Sharding functions to use for the model. If None, auto-sharding is used if auto_shard_params is True. Defaults to None.</p> <code>None</code> <code>backend</code> <code>Optional[str]</code> <p>Backend to use for the model. Defaults to None.</p> <code>None</code> <code>config_kwargs</code> <code>Optional[Mapping[str, Any]]</code> <p>Configuration keyword arguments to pass to the model config. Defaults to None.</p> <code>None</code> <code>auto_shard_params</code> <code>bool</code> <p>Whether to automatically shard the model parameters. Defaults to False.</p> <code>False</code> <code>partition_rules</code> <code>Optional[Tuple[Tuple[str, PartitionSpec]]]</code> <p>Custom partition rules for parameter sharding. If not None, shard_fns should also be provided. Defaults to None.</p> <code>None</code> <code>load_in_8bit</code> <code>bool</code> <p>Whether to load the model parameters in 8-bit precision. Defaults to False.</p> <code>False</code> <code>bit_targeted_params</code> <code>Optional[List[str]]</code> <p>List of parameter names to convert to 8-bit precision. If None and load_in_8bit is True, all kernels and embeddings are converted to 8-bit. Defaults to None.</p> <code>None</code> <code>**kwargs</code> <p>Additional keyword arguments to pass to the model and config classes.</p> <code>{}</code> <p>Returns:</p> Type Description <code>Tuple[EasyDeLFlaxPretrainedModel, dict]</code> <p>Tuple[EasyDeLFlaxPretrainedModel, dict]: A tuple containing the EasyDeL model and the loaded and sharded model parameters.</p> Source code in <code>src/python/easydel/modules/auto_easydel_model.py</code> <pre><code>@classmethod\ndef from_pretrained(\n        cls,\n        pretrained_model_name_or_path: str,\n        device=jax.devices('cpu')[0],\n        dtype: jax.numpy.dtype = jax.numpy.float32,\n        param_dtype: jax.numpy.dtype = jax.numpy.float32,\n        precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\"),\n        sharding_axis_dims: Sequence[int] = (1, -1, 1, 1),\n        sharding_axis_names: Sequence[str] = (\"dp\", \"fsdp\", \"tp\", \"sp\"),\n        query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        generation_query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, \"tp\", None),\n        key_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        value_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n        generation_bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n        attention_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        shard_attention_computation: bool = True,\n        input_shape: Sequence[int] = (1, 1),\n        shard_fns: Optional[Mapping[tuple, Callable] | dict] = None,\n        backend: Optional[str] = None,\n        config_kwargs: Optional[Mapping[str, Any]] = None,\n        auto_shard_params: bool = False,\n        partition_rules: Optional[Tuple[Tuple[str, PartitionSpec], ...]] = None,\n        load_in_8bit: bool = False,\n        bit_targeted_params: Optional[List[str]] = None,\n        **kwargs\n) -&gt; Tuple[EasyDeLFlaxPretrainedModel, dict]:\n    \"\"\"Loads and shards a pretrained causal language model from the Hugging Face Hub and converts it into an\n    EasyDeL compatible model.\n\n    Args:\n        pretrained_model_name_or_path (str): Path or name of the pretrained model in the Hugging Face Hub.\n        device (jax.Array, optional): Device to load the model on. Defaults to the first CPU.\n        dtype (jax.numpy.dtype, optional): Data type of the model. Defaults to jax.numpy.float32.\n        param_dtype (jax.numpy.dtype, optional): Data type of the model parameters. Defaults to jax.numpy.float32.\n        precision (jax.lax.Precision, optional): Precision for computations. Defaults to jax.lax.Precision(\"fastest\").\n        sharding_axis_dims (Sequence[int], optional): Dimensions of each sharding axis. Defaults to (1, -1, 1, 1).\n        sharding_axis_names (Sequence[str], optional): Names of the sharding axes. Defaults to (\"dp\", \"fsdp\", \"tp\", \"sp\").\n        query_partition_spec (PartitionSpec, optional): Partitioning specification for the query tensor. Defaults to\n            PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None).\n        generation_query_partition_spec (PartitionSpec, optional): Partitioning specification for the query tensor during\n            generation. Defaults to PartitionSpec((\"dp\", \"fsdp\"), None, \"tp\", None).\n        key_partition_spec (PartitionSpec, optional): Partitioning specification for the key tensor. Defaults to\n            PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None).\n        value_partition_spec (PartitionSpec, optional): Partitioning specification for the value tensor. Defaults to\n            PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None).\n        bias_partition_spec (PartitionSpec, optional): Partitioning specification for the attention bias. Defaults to\n            PartitionSpec((\"dp\", \"fsdp\"), None, None, None).\n        generation_bias_partition_spec (PartitionSpec, optional): Partitioning specification for the attention bias during\n            generation. Defaults to PartitionSpec((\"dp\", \"fsdp\"), None, None, None).\n        attention_partition_spec (PartitionSpec, optional): Partitioning specification for the attention weights. Defaults to\n            PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None).\n        shard_attention_computation (bool, optional): Whether to shard attention computation. Defaults to True.\n        input_shape (Sequence[int], optional): Shape of the input to the model. Defaults to (1, 1).\n        shard_fns (Optional[Mapping[tuple, Callable] | dict], optional): Sharding functions to use for the model. If None,\n            auto-sharding is used if auto_shard_params is True. Defaults to None.\n        backend (Optional[str], optional): Backend to use for the model. Defaults to None.\n        config_kwargs (Optional[Mapping[str, Any]], optional): Configuration keyword arguments to pass to the model config.\n            Defaults to None.\n        auto_shard_params (bool, optional): Whether to automatically shard the model parameters. Defaults to False.\n        partition_rules (Optional[Tuple[Tuple[str, PartitionSpec]]], optional): Custom partition rules for parameter\n            sharding. If not None, shard_fns should also be provided. Defaults to None.\n        load_in_8bit (bool, optional): Whether to load the model parameters in 8-bit precision. Defaults to False.\n        bit_targeted_params (Optional[List[str]], optional): List of parameter names to convert to 8-bit precision. If\n            None and load_in_8bit is True, all kernels and embeddings are converted to 8-bit. Defaults to None.\n        **kwargs: Additional keyword arguments to pass to the model and config classes.\n\n    Returns:\n        Tuple[EasyDeLFlaxPretrainedModel, dict]: A tuple containing the EasyDeL model and the loaded and sharded\n            model parameters.\n    \"\"\"\n\n    logger.debug(f\"Downloading model config from {pretrained_model_name_or_path}\")\n    config = AutoConfig.from_pretrained(pretrained_model_name_or_path)\n    model_type: str = config.model_type\n\n    cfg, module, trf = get_modules_by_type(model_type)\n\n    logger.debug(f\"Downloading model weights from {pretrained_model_name_or_path}\")\n    model = AutoModelForCausalLM.from_pretrained(pretrained_model_name_or_path, **kwargs)\n    cfg = cfg.from_pretrained(pretrained_model_name_or_path)\n    state_dict = model.state_dict()\n    logger.debug(f\"adding model basic EasyDeL configurations.\")\n    if hasattr(cfg, 'add_jax_args'):\n        cfg.add_jax_args()\n    cfg.add_basic_configurations(\n        axis_dims=sharding_axis_dims,\n        axis_names=sharding_axis_names,\n        query_partition_spec=query_partition_spec,\n        generation_query_partition_spec=generation_query_partition_spec,\n        generation_bias_partition_spec=generation_bias_partition_spec,\n        key_partition_spec=key_partition_spec,\n        value_partition_spec=value_partition_spec,\n        bias_partition_spec=bias_partition_spec,\n        attention_partition_spec=attention_partition_spec,\n        backend=backend,\n        shard_attention_computation=shard_attention_computation,\n    )\n    if config_kwargs is not None:\n        for k, v in config_kwargs.items():\n            setattr(cfg, k, v)\n\n    logger.debug(\"creating easydel model\")\n    ed_model = module(\n        config=cfg,\n        _do_init=False,\n        dtype=dtype,\n        param_dtype=param_dtype,\n        precision=precision,\n        input_shape=input_shape\n    )\n\n    needs = [\n        s.replace(\".kernel\", \".weight\").replace(\".scale\", \".weight\").replace(\".embedding\", \".weight\") for s in\n        list(flax.traverse_util.flatten_dict(ed_model.params_shape_tree, sep=\".\").keys())\n    ]\n    for k in list(state_dict.keys()):\n        if k not in needs:\n            logger.debug(f\"removing {k} from weights as it was not needed by flax model\")\n            del state_dict[k]\n    if shard_fns is not None:\n        if auto_shard_params:\n            warnings.warn(\n                \"`auto_shard_params` will be ignored since you are passing custom sharding functions\"\n            )\n        logger.debug(\"sharding model parameters based on the given shard_fns.\")\n        if not is_flatten(shard_fns):\n            shard_fns = flax.traverse_util.flatten_dict(shard_fns)\n    elif auto_shard_params:\n        shard_fns, _ = AutoShardAndGatherFunctions.from_pretrained(\n            pretrained_model_name_or_path=pretrained_model_name_or_path,\n            dtype_specs=param_dtype,\n            partition_rules=partition_rules,\n            sharding_axis_dims=sharding_axis_dims,\n            sharding_axis_names=sharding_axis_names,\n            query_partition_spec=query_partition_spec,\n            generation_query_partition_spec=generation_query_partition_spec,\n            key_partition_spec=key_partition_spec,\n            value_partition_spec=value_partition_spec,\n            bias_partition_spec=bias_partition_spec,\n            generation_bias_partition_spec=generation_bias_partition_spec,\n            attention_partition_spec=attention_partition_spec,\n            shard_attention_computation=shard_attention_computation,\n            backend=backend,\n            input_shape=input_shape,  # type:ignore\n            config_kwargs=config_kwargs\n        )\n    with cfg.jax_mesh():\n        logger.debug(\"converting huggingface-model to easydel-model.\")\n        params_pattern_selection = None\n        if load_in_8bit:\n            if bit_targeted_params is None:\n                warnings.warn(\n                    \"since `bit_targeted_params` is set to None, auto loader will convert all of\"\n                    \" kernels(weights) and embeddings to 8bit by default\"\n                )\n                bit_targeted_params = [\n                    \"kernel\",\n                    \"embedding\"\n                ]\n\n                params_pattern_selection = re.compile(\"({})\".format(\"|\".join(bit_targeted_params)))\n\n        params = trf(\n            state_dict,\n            config=config,\n            device=device,\n            shard_fns=shard_fns,\n            convert_to_8bit=load_in_8bit,\n            params_pattern_selection=params_pattern_selection,\n            remove_state_dict=True\n        )\n    logger.debug(\"deleting huggingface-model\")\n\n    del state_dict\n    del model\n    gc.collect()\n\n    if is_flatten(params):\n        logger.info(\"converted parameters are flatten making them unflatten \")\n        params = unflatten_dict(params)\n\n    return ed_model, params\n</code></pre>"},{"location":"generated-modules-auto_easydel_model/#src.python.easydel.modules.auto_easydel_model.get_modules_by_type","title":"<code>get_modules_by_type(model_type)</code>","text":"The get_modules_by_type function is a helper function that returns the following <ol> <li>The config class for the model type specified (e.g., LlamaConfig, FalconConfig)</li> <li>The Flax Model class for the model type specified (e.g., FlaxLlamaForCausalLM, FlaxFalconForCausalLM)</li> <li>A function to convert a HuggingFace pretrained checkpoint into an easydel checkpoint</li> </ol> <p>:param model_type: str: Determine which model to use :return: A tuple of three elements (BaseConfig,BaseModel,Func To Transform Model from Torch to EasyDeL)</p> Source code in <code>src/python/easydel/modules/auto_easydel_model.py</code> <pre><code>def get_modules_by_type(model_type: str) -&gt; Tuple[\n    Type[EasyDeLPretrainedConfig], Type[EasyDeLFlaxPretrainedModel] | Any, partial | Any\n]:\n    \"\"\"\n    The get_modules_by_type function is a helper function that returns the following:\n        1. The config class for the model type specified (e.g., LlamaConfig, FalconConfig)\n        2. The Flax Model class for the model type specified (e.g., FlaxLlamaForCausalLM, FlaxFalconForCausalLM)\n        3. A function to convert a HuggingFace pretrained checkpoint into an easydel checkpoint\n\n    :param model_type: str: Determine which model to use\n    :return: A tuple of three elements (BaseConfig,BaseModel,Func To Transform Model from Torch to EasyDeL)\n\n    \"\"\"\n    if model_type == \"llama\":\n        from .llama import LlamaConfig as _LlamaConfig\n        from .llama import FlaxLlamaForCausalLM as _FlaxLlamaForCausalLM\n        return (\n            _LlamaConfig,\n            _FlaxLlamaForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embed_tokens\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"gemma\":\n\n        from .gemma import GemmaConfig as _GemmaConfig\n        from .gemma import FlaxGemmaForCausalLM as _FlaxGemmaForCausalLM\n        return (\n            _GemmaConfig,\n            _FlaxGemmaForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embed_tokens\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"falcon\":\n        from .falcon import FlaxFalconForCausalLM as _FlaxFalconForCausalLM\n        from .falcon import FalconConfig as _FalconConfig\n        return (\n            _FalconConfig,\n            _FlaxFalconForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"word_embeddings\"],\n                layer_norm_names=[\n                    \"input_layernorm\",\n                    \"ln_f\",\n                    \"ln_attn\",\n                    \"ln_mlp\",\n                    \"post_attention_layernorm\"\n                ],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"mpt\":\n        from .mosaic_mpt import FlaxMptForCausalLM as _FlaxMptForCausalLM\n        from .mosaic_mpt import MptConfig as _MptConfig\n        return (\n            _MptConfig,\n            _FlaxMptForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"wte\"],\n                rnn_based_or_rwkv=False,\n                layer_norm_names=[\n                    \"norm_1\", \"norm_2\", \"norm_f\"\n                ]\n            )\n        )\n\n    elif model_type == \"mistral\":\n        from .mistral import FlaxMistralForCausalLM as _FlaxMistralForCausalLM\n        from .mistral import MistralConfig as _MistralConfig\n        return (\n            _MistralConfig,\n            _FlaxMistralForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embed_tokens\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"gptj\":\n        from .gpt_j import FlaxGPTJForCausalLM as _FlaxGPTJForCausalLM\n        from .gpt_j import GPTJConfig as _GPTJConfig\n        return (\n            _GPTJConfig,\n            _FlaxGPTJForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=\"wte\",\n                layer_norm_names=[\n                    \"ln_1\", \"ln_2\", \"ln_f\",\n                ],\n                rnn_based_or_rwkv=False\n            )\n        )\n\n    elif model_type == \"gpt_neox\":\n        from .gpt_neo_x import FlaxGPTNeoXForCausalLM as _FlaxGPTNeoXForCausalLM\n        from .gpt_neo_x import GPTNeoXConfig as _GPTNeoXConfig\n\n        return (\n            _GPTNeoXConfig,\n            _FlaxGPTNeoXForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=\"wte\",\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"palm\":\n        from .palm import FlaxPalmForCausalLM as _FlaxPalmForCausalLM\n        from .palm import PalmConfig as _PalmConfig\n        return (\n            _PalmConfig,\n            _FlaxPalmForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=\"wte\",\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"lt\":\n        from .lucid_transformer import FlaxLTForCausalLM as _FlaxLTForCausalLM\n        from .lucid_transformer import FlaxLTConfig as _FlaxLTConfig\n\n        return (\n            _FlaxLTConfig,\n            _FlaxLTForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=\"wte\",\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"gpt2\":\n        from .gpt2 import FlaxGPT2LMHeadModel as _FlaxGPT2LMHeadModel\n        from .gpt2 import GPT2Config as _GPT2Config\n\n        return (\n            _GPT2Config,\n            _FlaxGPT2LMHeadModel,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"wte\", \"wpe\"],\n                layer_norm_names=[\n                    \"ln_1\", \"ln_2\", \"ln_f\"\n                ],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"mixtral\":\n        from .mixtral import FlaxMixtralForCausalLM as _FlaxMixtralForCausalLM\n        from .mixtral import MixtralConfig as _MixtralConfig\n        return (\n            _MixtralConfig,\n            _FlaxMixtralForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embed_tokens\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"phi\":\n        from .phi import FlaxPhiForCausalLM as _FlaxPhiForCausalLM\n        from .phi import PhiConfig as _PhiConfig\n        return (\n            _PhiConfig,\n            _FlaxPhiForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embed_tokens\"],\n                layer_norm_names=[\n                    \"input_layernorm\",\n                    \"final_layernorm\",\n                    \"q_layernorm\",\n                    \"k_layernorm\"\n                ],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"qwen\":\n        from .qwen1 import Qwen1Config as _Qwen1Config\n        from .qwen1 import FlaxQwen1ForCausalLM as _FlaxQwen1ForCausalLM\n        return (\n            _Qwen1Config,\n            _FlaxQwen1ForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"wte\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n\n    elif model_type == \"qwen2\":\n        from .qwen2 import Qwen2Config as _Qwen2Config\n        from .qwen2 import FlaxQwen2ForCausalLM as _FlaxQwen2ForCausalLM\n        return (\n            _Qwen2Config,\n            _FlaxQwen2ForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embed_tokens\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"stablelm\":\n        from .stablelm import StableLmConfig as _StableLmConfig\n        from .stablelm import FlaxStableLmForCausalLM as _FlaxStableLmForCausalLM\n\n        return (\n            _StableLmConfig,\n            _FlaxStableLmForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embed_tokens\"],\n                layer_norm_names=[\"input_layernorm\", \"post_attention_layernorm\", \"norm\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"rwkv\":\n        from .rwkv import RwkvConfig as _RwkvConfig\n        from .rwkv import FlaxRwkvForCausalLM as _FlaxRwkvForCausalLM\n        return (\n            _RwkvConfig,\n            _FlaxRwkvForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embeddings\"],\n                layer_norm_names=[\"ln_out\", \"ln2\", \"ln1\", \"pre_ln\"],\n                rnn_based_or_rwkv=True\n            )\n        )\n    elif model_type == \"mamba\":\n        from .mamba import MambaConfig as _MambaConfig\n        from .mamba import FlaxMambaForCausalLM as _FlaxMambaForCausalLM\n        return (\n            _MambaConfig,\n            _FlaxMambaForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embeddings\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"grok-1\":\n        from .grok_1 import Grok1Config as _Grok1Config\n        from .grok_1 import FlaxGrok1ForCausalLM as _FlaxGrok1ForCausalLM\n        return (\n            _Grok1Config,\n            _FlaxGrok1ForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embed_tokens\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"qwen2_moe\":\n        from .qwen2_moe import Qwen2MoeConfig as _Qwen2MoeConfig\n        from .qwen2_moe import FlaxQwen2MoeForCausalLM as _FlaxQwen2MoeForCausalLM\n        return (\n            _Qwen2MoeConfig,\n            _FlaxQwen2MoeForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embed_tokens\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"cohere\":\n        from .cohere import CohereConfig as _CohereConfig\n        from .cohere import FlaxCohereForCausalLM as _FlaxCohereForCausalLM\n        return (\n            _CohereConfig,\n            _FlaxCohereForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embed_tokens\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"dbrx\":\n        from .dbrx import DbrxConfig as _DbrxConfig\n        from .dbrx import FlaxDbrxForCausalLM as _FlaxDbrxForCausalLM\n        return (\n            _DbrxConfig,\n            _FlaxDbrxForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"wte\"],\n                rnn_based_or_rwkv=False,\n                layer_norm_names=[\"norm_1\", \"norm_2\", \"norm_f\"]\n            )\n        )\n    elif model_type == \"phi3\":\n        from .phi3 import Phi3Config as _Phi3Config\n        from .phi3 import FlaxPhi3ForCausalLM as _FlaxPhi3ForCausalLM\n        return (\n            _Phi3Config,\n            _FlaxPhi3ForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embed_tokens\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n\n    elif model_type == \"arctic\":\n        from .arctic import ArcticConfig as _ArcticConfig\n        from .arctic import FlaxArcticForCausalLM as _FlaxArcticForCausalLM\n        return (\n            _ArcticConfig,\n            _FlaxArcticForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embed_tokens\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"openelm\":\n        from .openelm import OpenELMConfig as _OpenELMConfig\n        from .openelm import FlaxOpenELMForCausalLM as _FlaxOpenELMForCausalLM\n        return (\n            _OpenELMConfig,\n            _FlaxOpenELMForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"token_embeddings\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n    elif model_type == \"deepseek_v2\":\n        from .deepseek_v2 import DeepseekV2Config as _DeepseekV2Config\n        from .deepseek_v2 import FlaxDeepseekV2ForCausalLM as _FlaxDeepseekV2ForCausalLM\n\n        return (\n            _DeepseekV2Config,\n            _FlaxDeepseekV2ForCausalLM,\n            functools.partial(\n                huggingface_to_easydel,\n                embedding_layer_names=[\"embed_tokens\"],\n                rnn_based_or_rwkv=False\n            )\n        )\n    raise EasyDeLRuntimeError(f'Model Type ({model_type}) is not supported or is not found')\n</code></pre>"},{"location":"generated-modules-auto_easydel_model/#src.python.easydel.modules.auto_easydel_model.is_flatten","title":"<code>is_flatten(pytree)</code>","text":"<p>The is_flatten function checks if the pytree is flattened.     If it is, then the first key in the dictionary will be a tuple of (mpl, mpl_id).     Otherwise, it will be an integer representing mpl_id.</p> <p>Parameters:</p> Name Type Description Default <code>pytree</code> <code>dict</code> <p>dict: Pass the pytree to the function</p> required <p>Returns:</p> Type Description <p>True if the pytree is a flattened tree, and false otherwise</p> Source code in <code>src/python/easydel/modules/auto_easydel_model.py</code> <pre><code>def is_flatten(pytree: dict):\n    \"\"\"The is_flatten function checks if the pytree is flattened.\n        If it is, then the first key in the dictionary will be a tuple of (mpl, mpl_id).\n        Otherwise, it will be an integer representing mpl_id.\n\n    Args:\n        pytree: dict: Pass the pytree to the function\n\n    Returns:\n        True if the pytree is a flattened tree, and false otherwise\n    \"\"\"\n    mpl = [k for k in pytree.keys()][0]\n    return True if isinstance(mpl, tuple) else False\n</code></pre>"},{"location":"generated-modules-cohere-cohere_configuration/","title":"modules.cohere.cohere_configuration","text":""},{"location":"generated-modules-cohere-cohere_configuration/#src.python.easydel.modules.cohere.cohere_configuration.CohereConfig","title":"<code>CohereConfig</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> Source code in <code>src/python/easydel/modules/cohere/cohere_configuration.py</code> <pre><code>class CohereConfig(EasyDeLPretrainedConfig):\n    model_type: str = \"cohere\"\n\n    def __init__(\n            self,\n            vocab_size=256000,\n            hidden_size=8192,\n            intermediate_size=22528,\n            logit_scale=0.0625,\n            num_hidden_layers=40,\n            num_attention_heads=64,\n            num_key_value_heads=None,\n            hidden_act=\"silu\",\n            max_position_embeddings=8192,\n            initializer_range=0.02,\n            layer_norm_eps=1e-5,\n            use_cache=True,\n            pad_token_id=0,\n            bos_token_id=5,\n            eos_token_id=255001,\n            tie_word_embeddings=True,\n            rope_theta=10000.0,\n            attention_bias=False,\n            attention_dropout=0.0,\n            use_qk_norm: bool = False,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            bits: Optional[int] = None,\n            **kwargs,\n    ):\n        self.vocab_size = vocab_size\n        self.max_position_embeddings = max_position_embeddings\n        self.hidden_size = hidden_size\n        self.logit_scale = logit_scale\n        self.intermediate_size = intermediate_size\n        self.num_hidden_layers = num_hidden_layers\n        self.num_attention_heads = num_attention_heads\n        self.use_qk_norm = use_qk_norm\n        # for backward compatibility\n        if num_key_value_heads is None:\n            num_key_value_heads = num_attention_heads\n\n        self.num_key_value_heads = num_key_value_heads\n        self.hidden_act = hidden_act\n        self.initializer_range = initializer_range\n        self.layer_norm_eps = layer_norm_eps\n        self.use_cache = use_cache\n        self.rope_theta = rope_theta\n        self.attention_bias = attention_bias\n        self.attention_dropout = attention_dropout\n        self.gradient_checkpointing = gradient_checkpointing\n        self.bits = bits\n        super().__init__(\n            pad_token_id=pad_token_id,\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            tie_word_embeddings=tie_word_embeddings,\n            **kwargs,\n        )\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n            1) A regex string that matches the name of one or more parameters in the model.\n            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to\n                partition the model fully or not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"linear/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"linear_1/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"linear_v/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"post_attn_norm/kernel\", PartitionSpec(None)),\n            (\"pre_attn_norm/kernel\", PartitionSpec(None)),\n            (\"pre_moe_norm/kernel\", PartitionSpec(None)),\n            (\"post_moe_norm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec(None)),\n        ) if not fully_sharded_data_parallel else (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"attn/o_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"linear/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"linear_1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"linear_v/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"post_attn_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"pre_attn_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"pre_moe_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"post_moe_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"model/norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n\n    def add_jax_args(\n            self,\n            tie_word_embeddings: bool = False,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            bits: Optional[int] = None,\n            **kwargs,\n    ):\n        \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n        Args:\n            self: Refer to the current object\n            tie_word_embeddings: bool: Tie the word embeddings to the\n                decoder\n            gradient_checkpointing: str: Control the amount of memory\n                used by jax\n            bits: Optional[int]: Determine the number of bits used in\n                the quantization\n        \"\"\"\n        self.tie_word_embeddings = tie_word_embeddings\n        self.gradient_checkpointing = gradient_checkpointing\n        self.bits = bits\n\n    @staticmethod\n    def get_weight_decay_exclusions():\n        return tuple()\n\n    @staticmethod\n    def rng_keys():\n        return 'params', 'dropout'\n</code></pre>"},{"location":"generated-modules-cohere-cohere_configuration/#src.python.easydel.modules.cohere.cohere_configuration.CohereConfig.add_jax_args","title":"<code>add_jax_args(tie_word_embeddings=False, gradient_checkpointing='nothing_saveable', bits=None, **kwargs)</code>","text":"<p>The add_jax_args function adds the following arguments to the Transformer class:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the current object</p> required <code>tie_word_embeddings</code> <code>bool</code> <p>bool: Tie the word embeddings to the decoder</p> <code>False</code> <code>gradient_checkpointing</code> <code>str</code> <p>str: Control the amount of memory used by jax</p> <code>'nothing_saveable'</code> <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Determine the number of bits used in the quantization</p> <code>None</code> Source code in <code>src/python/easydel/modules/cohere/cohere_configuration.py</code> <pre><code>def add_jax_args(\n        self,\n        tie_word_embeddings: bool = False,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        bits: Optional[int] = None,\n        **kwargs,\n):\n    \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n    Args:\n        self: Refer to the current object\n        tie_word_embeddings: bool: Tie the word embeddings to the\n            decoder\n        gradient_checkpointing: str: Control the amount of memory\n            used by jax\n        bits: Optional[int]: Determine the number of bits used in\n            the quantization\n    \"\"\"\n    self.tie_word_embeddings = tie_word_embeddings\n    self.gradient_checkpointing = gradient_checkpointing\n    self.bits = bits\n</code></pre>"},{"location":"generated-modules-cohere-cohere_configuration/#src.python.easydel.modules.cohere.cohere_configuration.CohereConfig.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:     1) A regex string that matches the name of one or more parameters in the model.     2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to partition the model fully or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/cohere/cohere_configuration.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n        1) A regex string that matches the name of one or more parameters in the model.\n        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to\n            partition the model fully or not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"linear/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"linear_1/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n        (\"linear_v/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"post_attn_norm/kernel\", PartitionSpec(None)),\n        (\"pre_attn_norm/kernel\", PartitionSpec(None)),\n        (\"pre_moe_norm/kernel\", PartitionSpec(None)),\n        (\"post_moe_norm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\".*\", PartitionSpec(None)),\n    ) if not fully_sharded_data_parallel else (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"attn/o_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"linear/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"linear_1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"linear_v/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"post_attn_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"pre_attn_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"pre_moe_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"post_moe_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"model/norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/","title":"modules.cohere.modelling_cohere_flax","text":""},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereAttention","title":"<code>FlaxCohereAttention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>class FlaxCohereAttention(BaseJAXAttentionModule):\n    config: CohereConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        config = self.config\n        self.hidden_size = config.hidden_size\n        self.head_dim = self.config.hidden_size // self.config.num_attention_heads\n        self.num_key_value_groups = self.config.num_attention_heads // self.config.num_key_value_heads\n\n        if self.num_key_value_groups == 1:\n            assert self.config.num_attention_heads == self.config.num_key_value_heads\n\n        if config.use_qk_norm:\n            self.q_norm = RMSNorm(\n                dim=(self.head_dim, self.config.num_attention_heads),\n                eps=config.layer_norm_eps,\n                dtype=self.dtype,\n                param_dtype=self.param_dtype,\n                do_t=True\n            )\n            self.k_norm = RMSNorm(\n                dim=(self.head_dim, self.config.num_key_value_heads,),\n                eps=config.layer_norm_eps,\n                dtype=self.dtype,\n                param_dtype=self.param_dtype,\n                do_t=True\n            )\n        self.q_proj = nn.Linear(\n            config.num_attention_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=self.config.attention_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.k_proj = nn.Linear(\n            config.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=self.config.attention_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.v_proj = nn.Linear(\n            config.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=self.config.attention_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.o_proj = nn.Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n        self.rotary = FlaxCohereEmbedding(self.dtype)\n        self.attention_performer = AttentionModule(\n            use_sharding_constraint=self.config.use_sharding_constraint,\n            block_k_major=self.config.block_k_major,\n            block_b=self.config.block_b,\n            block_q=self.config.block_q,\n            block_k=self.config.block_k,\n            block_q_major_dkv=self.config.block_q_major_dkv,\n            block_k_major_dkv=self.config.block_k_major_dkv,\n            block_k_major_dq=self.config.block_k_major_dq,\n            block_k_dkv=self.config.block_k_dkv,\n            block_q_dkv=self.config.block_q_dkv,\n            block_q_dq=self.config.block_q_dq,\n            block_k_dq=self.config.block_k_dq,\n            num_attention_heads=self.config.num_attention_heads,\n            attention_dropout=self.config.attention_dropout,\n            head_dims=self.head_dim,\n            attention_partition_spec=self.config.attention_partition_spec,\n            shard_attention_computation=self.config.shard_attention_computation,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            bias_partition_spec=self.config.bias_partition_spec,\n            key_partition_spec=self.config.key_partition_spec,\n            query_partition_spec=self.config.query_partition_spec,\n            generation_query_partition_spec=self.config.generation_query_partition_spec,\n            generation_bias_partition_spec=self.config.generation_bias_partition_spec,\n            generation_attention_partition_spec=self.config.generation_attention_partition_spec,\n            value_partition_spec=self.config.value_partition_spec,\n            scan_ring_attention=self.config.scan_ring_attention,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name,\n            backward_pass_impl=self.config.flash_attention_backward_pass_impl\n        )\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.hidden_size,))\n\n    @staticmethod\n    def _transpose_sequence_head(query, key, value):\n        \"\"\"The _transpose_sequence_head function transposes the query, key and value matrices.\n\n        Args:\n            query: Get the attention weights for each of the heads\n            key: Determine the number of heads\n            value: Store the values of the input\n\n        Returns:\n            The transpose of the query, key and value matrices\n        \"\"\"\n        return jnp.transpose(query, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value, (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n        \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n        Args:\n            self: Access variables that belong to the class\n            batch_size: Reshape the query, key and value tensors\n            sequence_length: Reshape the query, key and value tensors\n            query: Calculate the attention weights\n            key: Calculate the attention\n            value: Compute the attention weights\n            freq_cis: Calculate the frequency of each word in the\n                vocabulary\n            position_ids: Identify the position of each token in the\n                sequence\n\n        Returns:\n            A tuple of 3 tensors: query, key and value\n        \"\"\"\n        query = query.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_attention_heads,\n            self.head_dim\n        )\n        key = key.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n        value = value.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n\n        query, key, value = self._transpose_sequence_head(query, key, value)\n        query, key = self.rotary(\n            position_ids=position_ids, query=query, key=key, freq_cis=freq_cis\n        )\n        key = repeat_kv_bnsh(key, self.num_key_value_groups)\n        value = repeat_kv_bnsh(value, self.num_key_value_groups)\n        return self._transpose_sequence_head(query, key, value)\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            fcm_mask=None,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n        and it should return all outputs that are needed for training or inference.\n\n        Args:\n            self: Access variables that belong to the class\n            hidden_states: chex.Array: Pass the hidden states of the\n                previous layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency coefficients for each position\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Determine the position of each\n                token in a sequence\n            causal_mask: chex.Array: Mask out the future tokens in the\n                decoder\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n            fcm_mask: Mask out the attention weights between the input\n                and output tokens\n        :param : Determine if the attention is causal or not\n\n        Returns:\n            A tuple of two arrays\n        \"\"\"\n        batch_size, sequence_length = hidden_states.shape[:2]\n        (\n            query_states,\n            key_states,\n            value_states\n        ) = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(hidden_states)\n\n        query_states = query_states.reshape(\n            batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n        key_states = key_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n        if self.config.use_qk_norm:\n            query_states = self.q_norm(query_states)\n            key_states = self.k_norm(key_states)\n        value_states = value_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query=query_states,\n            key=key_states,\n            value=value_states,\n            position_ids=position_ids,\n            freq_cis=freq_cis,\n            batch_size=batch_size,\n            sequence_length=sequence_length\n        )\n\n        assert_msg = (\n            \"num_attention_heads repeat wont work likely\\n\"\n            f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n            f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n        )\n\n        assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask,\n                (0, 0, mask_shift, 0),\n                (1, 1, query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        attention_mask = jnp.broadcast_to(jnp.expand_dims(\n            attention_mask, axis=(-3, -2)), causal_mask.shape)\n        attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n        dropout_rng = None\n\n        if not deterministic and self.config.attention_dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n\n        # if self.config.use_sharding_constraint:\n        #     query_states = with_sharding_constraint(\n        #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n        #     )\n        #     key_states = with_sharding_constraint(\n        #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        #     value_states = with_sharding_constraint(\n        #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        attention_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=attention_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        attn_output = self.o_proj(attn_output)\n\n        outputs = (attn_output, attentions.attention_weights) if output_attentions else (attn_output,)\n        return outputs\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereAttention.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, segment_ids=None, deterministic=True, init_cache=False, output_attentions=False, fcm_mask=None)</code>","text":"<p>The call function is the main function of a JAX module. It defines how the module behaves when called with inputs. The call function can be thought of as a \"forward pass\" through the model, and it should return all outputs that are needed for training or inference.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the hidden states of the previous layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency coefficients for each position</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask out the future tokens in the decoder</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <code>fcm_mask</code> <p>Mask out the attention weights between the input and output tokens</p> <code>None</code> <p>:param : Determine if the attention is causal or not</p> <p>Returns:</p> Type Description <p>A tuple of two arrays</p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        fcm_mask=None,\n):\n    \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n    and it should return all outputs that are needed for training or inference.\n\n    Args:\n        self: Access variables that belong to the class\n        hidden_states: chex.Array: Pass the hidden states of the\n            previous layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency coefficients for each position\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Determine the position of each\n            token in a sequence\n        causal_mask: chex.Array: Mask out the future tokens in the\n            decoder\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n        fcm_mask: Mask out the attention weights between the input\n            and output tokens\n    :param : Determine if the attention is causal or not\n\n    Returns:\n        A tuple of two arrays\n    \"\"\"\n    batch_size, sequence_length = hidden_states.shape[:2]\n    (\n        query_states,\n        key_states,\n        value_states\n    ) = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(hidden_states)\n\n    query_states = query_states.reshape(\n        batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n    key_states = key_states.reshape(\n        batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n    if self.config.use_qk_norm:\n        query_states = self.q_norm(query_states)\n        key_states = self.k_norm(key_states)\n    value_states = value_states.reshape(\n        batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n    query_states, key_states, value_states = self.apply_rotary(\n        query=query_states,\n        key=key_states,\n        value=value_states,\n        position_ids=position_ids,\n        freq_cis=freq_cis,\n        batch_size=batch_size,\n        sequence_length=sequence_length\n    )\n\n    assert_msg = (\n        \"num_attention_heads repeat wont work likely\\n\"\n        f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n        f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n    )\n\n    assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    if self.has_variable(\"cache\", \"cached_key\"):\n        mask_shift = self.variables[\"cache\"][\"cache_index\"]\n        max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n        causal_mask = lax.dynamic_slice(\n            causal_mask,\n            (0, 0, mask_shift, 0),\n            (1, 1, query_length, max_decoder_length)\n        )\n    else:\n        causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n    batch_size = hidden_states.shape[0]\n    causal_mask = jnp.broadcast_to(\n        causal_mask, (batch_size,) + causal_mask.shape[1:])\n    attention_mask = jnp.broadcast_to(jnp.expand_dims(\n        attention_mask, axis=(-3, -2)), causal_mask.shape)\n    attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n    if attention_mask.ndim == 2:\n        attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n    dropout_rng = None\n\n    if not deterministic and self.config.attention_dropout &gt; 0.0:\n        dropout_rng = self.make_rng(\"dropout\")\n\n    if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n        key_states, value_states, attention_mask = self._concatenate_to_cache(\n            key_states,\n            value_states,\n            query_states,\n            attention_mask\n        )\n\n    # if self.config.use_sharding_constraint:\n    #     query_states = with_sharding_constraint(\n    #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n    #     )\n    #     key_states = with_sharding_constraint(\n    #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    #     value_states = with_sharding_constraint(\n    #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    attention_bias = lax.select(\n        attention_mask &gt; 0,\n        jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n        jnp.full(attention_mask.shape, jnp.finfo(\n            self.dtype).min).astype(self.dtype),\n    )\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    attentions = self.attention_performer.__call__(\n        query_states=query_states,\n        key_states=key_states,\n        value_states=value_states,\n        bias=attention_bias,\n        attention_mask=attention_mask,\n        causal=True,\n        dropout_rng=dropout_rng,\n        deterministic=deterministic,\n        query_sequence_length=query_length,\n        key_value_sequence_length=key_length,\n        uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n        segment_ids=segment_ids,\n        causal_mask=causal_mask\n    )\n\n    attn_output = self._merge_heads(attentions.attention_outputs)\n    if self.config.shard_attention_computation:\n        attn_output = with_sharding_constraint(\n            attn_output, PartitionSpec(\n                (\"dp\", \"fsdp\"),\n                \"sp\" if attn_output.shape[1] != 1 else None,\n                \"tp\"\n            )\n        )\n    attn_output = self.o_proj(attn_output)\n\n    outputs = (attn_output, attentions.attention_weights) if output_attentions else (attn_output,)\n    return outputs\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereAttention.apply_rotary","title":"<code>apply_rotary(batch_size, sequence_length, query, key, value, freq_cis, position_ids)</code>","text":"<p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class. The main difference is that it takes in an additional argument, freq_cis, which are used to calculate the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>batch_size</code> <p>Reshape the query, key and value tensors</p> required <code>sequence_length</code> <p>Reshape the query, key and value tensors</p> required <code>query</code> <p>Calculate the attention weights</p> required <code>key</code> <p>Calculate the attention</p> required <code>value</code> <p>Compute the attention weights</p> required <code>freq_cis</code> <p>Calculate the frequency of each word in the vocabulary</p> required <code>position_ids</code> <p>Identify the position of each token in the sequence</p> required <p>Returns:</p> Type Description <p>A tuple of 3 tensors: query, key and value</p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n    \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n    Args:\n        self: Access variables that belong to the class\n        batch_size: Reshape the query, key and value tensors\n        sequence_length: Reshape the query, key and value tensors\n        query: Calculate the attention weights\n        key: Calculate the attention\n        value: Compute the attention weights\n        freq_cis: Calculate the frequency of each word in the\n            vocabulary\n        position_ids: Identify the position of each token in the\n            sequence\n\n    Returns:\n        A tuple of 3 tensors: query, key and value\n    \"\"\"\n    query = query.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_attention_heads,\n        self.head_dim\n    )\n    key = key.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n    value = value.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n\n    query, key, value = self._transpose_sequence_head(query, key, value)\n    query, key = self.rotary(\n        position_ids=position_ids, query=query, key=key, freq_cis=freq_cis\n    )\n    key = repeat_kv_bnsh(key, self.num_key_value_groups)\n    value = repeat_kv_bnsh(value, self.num_key_value_groups)\n    return self._transpose_sequence_head(query, key, value)\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlock","title":"<code>FlaxCohereBlock</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>class FlaxCohereBlock(nn.Module):\n    config: CohereConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self) -&gt; None:\n        attn_block = FlaxCohereAttention\n        if self.config.gradient_checkpointing != \"\":\n            attn_block = re_mat(\n                FlaxCohereAttention, static_argnums=(1, 3, 4, 6, 7, 8),\n                policy=get_gradient_checkpoint_policy(\n                    self.config.gradient_checkpointing)\n            )\n\n        self.self_attn = attn_block(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        mlp_block = FlaxCohereMLP\n\n        if self.config.gradient_checkpointing != \"\":\n            mlp_block = re_mat(\n                FlaxCohereMLP, static_argnums=(1,),\n                policy=get_gradient_checkpoint_policy(\n                    self.config.gradient_checkpointing\n                )\n            )\n\n        self.mlp = mlp_block(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n        )\n        self.input_layernorm = RMSNorm(\n            self.config.hidden_size,\n            eps=self.config.layer_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n        )\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            fcm_mask: Optional[jnp.ndarray] = None,\n    ):\n        \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n        It takes in hidden states, frequency-domain inputs, and masks as input. It then\n        applies self-attention to the hidden states using those inputs and returns an\n        output tensor with shape (batch_size, sequence_length, model_dim).\n\n        Args:\n            self: Refer to the class instance itself\n            hidden_states: chex.Array: Pass in the hidden state of the\n                previous layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency information\n            attention_mask: chex.Array: Mask out the attention weights\n                for padding tokens\n            position_ids: chex.Array: Determine the position of each\n                token in the sequence\n            causal_mask: chex.Array: Mask the attention weights\n            deterministic: bool: Control whether the dropout is applied\n                or not\n            init_cache: bool: Initialize the cache in the attention\n                layer\n            output_attentions: bool: Return the attention weights\n            fcm_mask: Optional[jnp.ndarray]: Mask the self-attention\n        :param : Control the dropout in the self attention layer\n\n        Returns:\n            A tuple of two items\n        \"\"\"\n        residual = hidden_states\n        hidden_states = self.input_layernorm(hidden_states)\n        attn_outputs = self.self_attn(\n            hidden_states,\n            freq_cis,\n            attention_mask,\n            position_ids,\n            causal_mask,\n            segment_ids,\n            deterministic,\n            init_cache,\n            output_attentions,\n            fcm_mask,\n        )\n        attn_output = attn_outputs[0]\n\n        feed_forward_input = hidden_states\n\n        if self.config.use_scan_mlp:\n            feed_forward_hidden_states = block_wise_ffn(\n                self.mlp,\n                feed_forward_input,\n                self.config.scan_mlp_chunk_size,\n                deterministic,\n            )\n        else:\n            feed_forward_hidden_states = self.mlp(\n                feed_forward_input,\n                deterministic,\n            )\n\n        hidden_states = attn_output + feed_forward_hidden_states + residual\n\n        return (hidden_states,) + attn_outputs[1:]\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlock.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, segment_ids=None, deterministic=True, init_cache=False, output_attentions=False, fcm_mask=None)</code>","text":"<p>The call function is the main function of a TransformerEncoderLayer. It takes in hidden states, frequency-domain inputs, and masks as input. It then applies self-attention to the hidden states using those inputs and returns an output tensor with shape (batch_size, sequence_length, model_dim).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the class instance itself</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass in the hidden state of the previous layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency information</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the attention weights for padding tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in the sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the attention weights</p> required <code>deterministic</code> <code>bool</code> <p>bool: Control whether the dropout is applied or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache in the attention layer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>fcm_mask</code> <code>Optional[ndarray]</code> <p>Optional[jnp.ndarray]: Mask the self-attention</p> <code>None</code> <p>:param : Control the dropout in the self attention layer</p> <p>Returns:</p> Type Description <p>A tuple of two items</p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        fcm_mask: Optional[jnp.ndarray] = None,\n):\n    \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n    It takes in hidden states, frequency-domain inputs, and masks as input. It then\n    applies self-attention to the hidden states using those inputs and returns an\n    output tensor with shape (batch_size, sequence_length, model_dim).\n\n    Args:\n        self: Refer to the class instance itself\n        hidden_states: chex.Array: Pass in the hidden state of the\n            previous layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency information\n        attention_mask: chex.Array: Mask out the attention weights\n            for padding tokens\n        position_ids: chex.Array: Determine the position of each\n            token in the sequence\n        causal_mask: chex.Array: Mask the attention weights\n        deterministic: bool: Control whether the dropout is applied\n            or not\n        init_cache: bool: Initialize the cache in the attention\n            layer\n        output_attentions: bool: Return the attention weights\n        fcm_mask: Optional[jnp.ndarray]: Mask the self-attention\n    :param : Control the dropout in the self attention layer\n\n    Returns:\n        A tuple of two items\n    \"\"\"\n    residual = hidden_states\n    hidden_states = self.input_layernorm(hidden_states)\n    attn_outputs = self.self_attn(\n        hidden_states,\n        freq_cis,\n        attention_mask,\n        position_ids,\n        causal_mask,\n        segment_ids,\n        deterministic,\n        init_cache,\n        output_attentions,\n        fcm_mask,\n    )\n    attn_output = attn_outputs[0]\n\n    feed_forward_input = hidden_states\n\n    if self.config.use_scan_mlp:\n        feed_forward_hidden_states = block_wise_ffn(\n            self.mlp,\n            feed_forward_input,\n            self.config.scan_mlp_chunk_size,\n            deterministic,\n        )\n    else:\n        feed_forward_hidden_states = self.mlp(\n            feed_forward_input,\n            deterministic,\n        )\n\n    hidden_states = attn_output + feed_forward_hidden_states + residual\n\n    return (hidden_states,) + attn_outputs[1:]\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlockCollection","title":"<code>FlaxCohereBlockCollection</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>class FlaxCohereBlockCollection(nn.Module):\n    config: CohereConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        self.blocks = [\n            FlaxCohereBlock(\n                self.config,\n                name=str(i),\n                dtype=self.dtype,\n                param_dtype=self.param_dtype,\n                precision=self.precision\n            )\n            for i in range(self.config.num_hidden_layers)\n        ]\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX nn.Module.\n        It defines how the module behaves when called as a function, and it's what you'll use to call your model\n         in training loops or inference scripts.\n        The __call__ method should take all inputs that are necessary for computing outputs from the module,\n        and return all outputs that are computed by this module.\n\n        Args:\n            self: Represent the instance of the class\n            hidden_states: chex.Array: Pass the input tensor to the\n                encoder\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency of each token\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Specify the position of each token\n                in a sequence\n            causal_mask: chex.Array: Mask the attention weights\n            deterministic: bool: Determine whether the model is in\n                training or evaluation mode\n            init_cache: bool: Initialize the cache for each layer\n            output_attentions: bool: Determine whether to output the\n                attention weights\n            output_hidden_states: bool: Determine whether to return the\n                hidden states of each layer\n            return_dict: bool: Return a dictionary of the outputs\n        :param : Determine whether to use the forgetful causal mask\n\n        Returns:\n            A tuple of 3 values\n        \"\"\"\n        all_attentions = () if output_attentions else None\n        all_hidden_states = () if output_hidden_states else None\n\n        if not deterministic and self.config.fcm_max_ratio &gt; 0:\n            # Apply forgetful causal mask\n            batch_size, seq_length = hidden_states.shape[0], hidden_states.shape[1]\n            fcm_ratio = jax.random.uniform(\n                self.make_rng('fcm'), shape=(batch_size, 1, 1, 1),\n                minval=self.config.fcm_min_ratio,\n                maxval=self.config.fcm_max_ratio\n            )\n            fcm_mask = jax.random.uniform(\n                self.make_rng('fcm'),\n                shape=(batch_size, 1, seq_length, seq_length)\n            ) &gt; fcm_ratio\n            fcm_mask = fcm_mask.at[:, :, :, 0].set(True)\n            fcm_mask = fcm_mask.astype('bool')\n        else:\n            fcm_mask = None\n\n        for block in self.blocks:\n            if output_hidden_states:\n                all_hidden_states += (hidden_states,)\n\n            layer_outputs = block(\n                hidden_states=hidden_states,\n                freq_cis=freq_cis,\n                attention_mask=attention_mask,\n                position_ids=position_ids,\n                causal_mask=causal_mask,\n                deterministic=deterministic,\n                init_cache=init_cache,\n                output_attentions=output_attentions,\n                fcm_mask=fcm_mask,\n            )\n            hidden_states = layer_outputs[0]\n\n            if output_attentions:\n                all_attentions += (layer_outputs[1],)\n\n        outputs = (hidden_states, all_hidden_states, all_attentions)\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereBlockCollection.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, deterministic=True, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True)</code>","text":"<p>The call function is the main function of a JAX nn.Module. It defines how the module behaves when called as a function, and it's what you'll use to call your model  in training loops or inference scripts. The call method should take all inputs that are necessary for computing outputs from the module, and return all outputs that are computed by this module.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the input tensor to the encoder</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency of each token</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the attention weights</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether the model is in training or evaluation mode</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for each layer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to output the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Determine whether to return the hidden states of each layer</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs</p> <code>True</code> <p>:param : Determine whether to use the forgetful causal mask</p> <p>Returns:</p> Type Description <p>A tuple of 3 values</p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n):\n    \"\"\"The __call__ function is the main function of a JAX nn.Module.\n    It defines how the module behaves when called as a function, and it's what you'll use to call your model\n     in training loops or inference scripts.\n    The __call__ method should take all inputs that are necessary for computing outputs from the module,\n    and return all outputs that are computed by this module.\n\n    Args:\n        self: Represent the instance of the class\n        hidden_states: chex.Array: Pass the input tensor to the\n            encoder\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency of each token\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Specify the position of each token\n            in a sequence\n        causal_mask: chex.Array: Mask the attention weights\n        deterministic: bool: Determine whether the model is in\n            training or evaluation mode\n        init_cache: bool: Initialize the cache for each layer\n        output_attentions: bool: Determine whether to output the\n            attention weights\n        output_hidden_states: bool: Determine whether to return the\n            hidden states of each layer\n        return_dict: bool: Return a dictionary of the outputs\n    :param : Determine whether to use the forgetful causal mask\n\n    Returns:\n        A tuple of 3 values\n    \"\"\"\n    all_attentions = () if output_attentions else None\n    all_hidden_states = () if output_hidden_states else None\n\n    if not deterministic and self.config.fcm_max_ratio &gt; 0:\n        # Apply forgetful causal mask\n        batch_size, seq_length = hidden_states.shape[0], hidden_states.shape[1]\n        fcm_ratio = jax.random.uniform(\n            self.make_rng('fcm'), shape=(batch_size, 1, 1, 1),\n            minval=self.config.fcm_min_ratio,\n            maxval=self.config.fcm_max_ratio\n        )\n        fcm_mask = jax.random.uniform(\n            self.make_rng('fcm'),\n            shape=(batch_size, 1, seq_length, seq_length)\n        ) &gt; fcm_ratio\n        fcm_mask = fcm_mask.at[:, :, :, 0].set(True)\n        fcm_mask = fcm_mask.astype('bool')\n    else:\n        fcm_mask = None\n\n    for block in self.blocks:\n        if output_hidden_states:\n            all_hidden_states += (hidden_states,)\n\n        layer_outputs = block(\n            hidden_states=hidden_states,\n            freq_cis=freq_cis,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            causal_mask=causal_mask,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            fcm_mask=fcm_mask,\n        )\n        hidden_states = layer_outputs[0]\n\n        if output_attentions:\n            all_attentions += (layer_outputs[1],)\n\n    outputs = (hidden_states, all_hidden_states, all_attentions)\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLM","title":"<code>FlaxCohereForCausalLM</code>","text":"<p>               Bases: <code>FlaxCoherePreTrainedModel</code></p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>class FlaxCohereForCausalLM(FlaxCoherePreTrainedModel):\n    module_class = FlaxCohereForCausalLMModule\n\n    def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n        \"\"\"\n        The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n        :param self: Access variables that belong to the class\n        :param input_ids: Pass in the input tokens\n        :param max_length: Set the length of the sequence to be generated\n        :param attention_mask: Optional[chex.Array]: Mask the attention weights\n        :return: A dictionary of the past_key_values, attention_mask and position ids\n\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n\n        past_key_values = self.init_cache(batch_size, max_length)\n        extended_attention_mask = jnp.ones(\n            (batch_size, max_length), dtype=\"i4\")\n        if attention_mask is not None:\n            position_ids = attention_mask.cumsum(axis=-1) - 1\n            extended_attention_mask = lax.dynamic_update_slice(\n                extended_attention_mask, attention_mask, (0, 0))\n        else:\n            position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                            None, :], (batch_size, seq_length))\n\n        return {\n            \"past_key_values\": past_key_values,\n            \"attention_mask\": extended_attention_mask,\n            \"position_ids\": position_ids,\n        }\n\n    def update_inputs_for_generation(self, model_outputs, model_kwargs):\n        model_kwargs[\"past_key_values\"] = model_outputs.past_key_values\n        model_kwargs[\"position_ids\"] = model_kwargs[\"position_ids\"][:, -1:] + 1\n        return model_kwargs\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLM.prepare_inputs_for_generation","title":"<code>prepare_inputs_for_generation(input_ids, max_length, attention_mask=None)</code>","text":"<p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p> <p>:param self: Access variables that belong to the class :param input_ids: Pass in the input tokens :param max_length: Set the length of the sequence to be generated :param attention_mask: Optional[chex.Array]: Mask the attention weights :return: A dictionary of the past_key_values, attention_mask and position ids</p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n    \"\"\"\n    The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n    :param self: Access variables that belong to the class\n    :param input_ids: Pass in the input tokens\n    :param max_length: Set the length of the sequence to be generated\n    :param attention_mask: Optional[chex.Array]: Mask the attention weights\n    :return: A dictionary of the past_key_values, attention_mask and position ids\n\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n\n    past_key_values = self.init_cache(batch_size, max_length)\n    extended_attention_mask = jnp.ones(\n        (batch_size, max_length), dtype=\"i4\")\n    if attention_mask is not None:\n        position_ids = attention_mask.cumsum(axis=-1) - 1\n        extended_attention_mask = lax.dynamic_update_slice(\n            extended_attention_mask, attention_mask, (0, 0))\n    else:\n        position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                        None, :], (batch_size, seq_length))\n\n    return {\n        \"past_key_values\": past_key_values,\n        \"attention_mask\": extended_attention_mask,\n        \"position_ids\": position_ids,\n    }\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLMModule","title":"<code>FlaxCohereForCausalLMModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>class FlaxCohereForCausalLMModule(nn.Module):\n    config: CohereConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        self.model = FlaxCohereModule(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n        )\n\n        self.lm_head = nn.Linear(\n            self.config.vocab_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                stddev=self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.logit_scale = self.config.logit_scale\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n    ):\n        \"\"\"The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.\n\n        Args:\n            self: Refer to the object itself\n            input_ids: chex.Array: Pass the input token ids to the model\n            attention_mask: chex.Array: Mask out the padding tokens\n            position_ids: chex.Array: Specify the position of each token\n                in the input sequence\n            deterministic: bool: Control whether the model is trained or\n                not\n            init_cache: bool: Initialize the cache for the decoder\n            output_attentions: bool: Return the attention weights\n            output_hidden_states: bool: Determine whether to return the\n                hidden states\n            return_dict: bool: Return a dictionary of the outputs or not\n            extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n                embedding of the word that we want to predict\n            None]]: Pass in the extra embedding\n\n        Returns:\n            The logits and the hidden states\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n        if attention_mask is None:\n            attention_mask = jnp.ones_like(input_ids)\n        if position_ids is None:\n            position_ids = jnp.broadcast_to(\n                jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n                (batch_size, seq_length)\n            )\n        outputs = self.model(\n            input_ids,\n            attention_mask,\n            position_ids,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n            extra_embedding=extra_embedding\n        )\n\n        hidden_states = outputs[0]\n\n        if self.config.tie_word_embeddings:\n            shared_kernel = self.model.variables[\"params\"][\"embed_tokens\"][\"embedding\"]\n            shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n            lm_logits = self.lm_head.apply(\n                {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n        else:\n            lm_logits = self.lm_head(hidden_states)\n\n        lm_logits = (lm_logits * self.logit_scale).astype(jnp.float32)\n\n        if not return_dict:\n            return (lm_logits,) + outputs[1:]\n\n        return FlaxCausalLMOutput(logits=lm_logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions)\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereForCausalLMModule.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, deterministic=True, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True, extra_embedding=None)</code>","text":"<p>The call function is the main function of a Flax module. It takes in inputs and returns outputs.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass the input token ids to the model</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the padding tokens</p> <code>None</code> <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in the input sequence</p> <code>None</code> <code>deterministic</code> <code>bool</code> <p>bool: Control whether the model is trained or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the decoder</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Determine whether to return the hidden states</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs or not</p> <code>True</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray: Pass in the embedding of the word that we want to predict</p> <code>None</code> <code>None]]</code> <p>Pass in the extra embedding</p> required <p>Returns:</p> Type Description <p>The logits and the hidden states</p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array = None,\n        position_ids: chex.Array = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n):\n    \"\"\"The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.\n\n    Args:\n        self: Refer to the object itself\n        input_ids: chex.Array: Pass the input token ids to the model\n        attention_mask: chex.Array: Mask out the padding tokens\n        position_ids: chex.Array: Specify the position of each token\n            in the input sequence\n        deterministic: bool: Control whether the model is trained or\n            not\n        init_cache: bool: Initialize the cache for the decoder\n        output_attentions: bool: Return the attention weights\n        output_hidden_states: bool: Determine whether to return the\n            hidden states\n        return_dict: bool: Return a dictionary of the outputs or not\n        extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n            embedding of the word that we want to predict\n        None]]: Pass in the extra embedding\n\n    Returns:\n        The logits and the hidden states\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n    if attention_mask is None:\n        attention_mask = jnp.ones_like(input_ids)\n    if position_ids is None:\n        position_ids = jnp.broadcast_to(\n            jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n            (batch_size, seq_length)\n        )\n    outputs = self.model(\n        input_ids,\n        attention_mask,\n        position_ids,\n        deterministic=deterministic,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict,\n        extra_embedding=extra_embedding\n    )\n\n    hidden_states = outputs[0]\n\n    if self.config.tie_word_embeddings:\n        shared_kernel = self.model.variables[\"params\"][\"embed_tokens\"][\"embedding\"]\n        shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n        lm_logits = self.lm_head.apply(\n            {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n    else:\n        lm_logits = self.lm_head(hidden_states)\n\n    lm_logits = (lm_logits * self.logit_scale).astype(jnp.float32)\n\n    if not return_dict:\n        return (lm_logits,) + outputs[1:]\n\n    return FlaxCausalLMOutput(logits=lm_logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions)\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereMLP","title":"<code>FlaxCohereMLP</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>class FlaxCohereMLP(nn.Module):\n    config: CohereConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self) -&gt; None:\n        config = self.config\n\n        self.gate_proj = nn.Linear(\n            config.intermediate_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.down_proj = nn.Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.up_proj = nn.Linear(\n            config.intermediate_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n    def __call__(self, x: jnp.ndarray, deterministic: bool = True) -&gt; jnp.ndarray:\n        \"\"\"The __call__ function is the main function of a class.\n        It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).\n        The __call__ method enables instances of a class to be called like standard Python functions.\n\n        Args:\n            self: Represent the instance of the class\n            x: jnp.ndarray: Pass in the input to the layer\n            deterministic: bool: Determine whether to use dropout\n\n        Returns:\n            A tensor that is the result of applying a dropout function\n            to x\n        \"\"\"\n        x = self.down_proj(jax.nn.silu(self.gate_proj(x)) * self.up_proj(x))\n        return x\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereMLP.__call__","title":"<code>__call__(x, deterministic=True)</code>","text":"<p>The call function is the main function of a class. It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments). The call method enables instances of a class to be called like standard Python functions.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>x</code> <code>ndarray</code> <p>jnp.ndarray: Pass in the input to the layer</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout</p> <code>True</code> <p>Returns:</p> Type Description <code>ndarray</code> <p>A tensor that is the result of applying a dropout function</p> <code>ndarray</code> <p>to x</p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>def __call__(self, x: jnp.ndarray, deterministic: bool = True) -&gt; jnp.ndarray:\n    \"\"\"The __call__ function is the main function of a class.\n    It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).\n    The __call__ method enables instances of a class to be called like standard Python functions.\n\n    Args:\n        self: Represent the instance of the class\n        x: jnp.ndarray: Pass in the input to the layer\n        deterministic: bool: Determine whether to use dropout\n\n    Returns:\n        A tensor that is the result of applying a dropout function\n        to x\n    \"\"\"\n    x = self.down_proj(jax.nn.silu(self.gate_proj(x)) * self.up_proj(x))\n    return x\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereModule","title":"<code>FlaxCohereModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>class FlaxCohereModule(nn.Module):\n    config: CohereConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n\n        self.embed_tokens = nn.Embed(\n            self.config.vocab_size,\n            self.config.hidden_size,\n            embedding_init=jax.nn.initializers.normal(\n                stddev=self.config.initializer_range),\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n        )\n        self.layers = FlaxCohereBlockCollection(self.config, dtype=self.dtype, param_dtype=self.param_dtype,\n                                                precision=self.precision)\n        self.norm = RMSNorm(\n            self.config.hidden_size,\n            eps=self.config.layer_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n        config = self.config\n        self.causal_mask = flax.linen.make_causal_mask(\n            jnp.ones(\n                (1, getattr(self.config, \"c_max_position_embeddings\", self.config.max_position_embeddings)),\n                dtype=\"bool\"\n            ), dtype=\"bool\"\n        )\n\n        initial_rope_kwargs = dict(\n            rope_type=\"none\"\n        )\n        if getattr(config, \"rope_scaling\", None) is not None:\n            scaling_type = config.rope_scaling[\"type\"]\n            scaling_factor = config.rope_scaling[\"factor\"]\n            initial_rope_kwargs = dict(\n                scaling_factor=scaling_factor,\n                rope_type=scaling_type\n            )\n        self.freq_cis = precompute_freq_cis(\n            max_position_embeddings=(\n                getattr(self.config, \"freq_max_position_embeddings\", self.config.max_position_embeddings)\n            ),\n            dim=config.hidden_size // config.num_attention_heads,\n            base=config.rope_theta,\n            **initial_rope_kwargs\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            deterministic: bool = True,\n            inputs_embeds: chex.Array = None,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n    ):\n        \"\"\"The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids\n        and returns the output of the model. The __call__ function also has optional arguments that can be used to control\n        the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when\n        calling a Flax model.\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: chex.Array: Pass in the input token ids\n            attention_mask: chex.Array: Mask out the padding tokens\n            position_ids: chex.Array: Indicate the position of each\n                token in a sequence\n            deterministic: bool: Control whether dropout is applied or\n                not\n            inputs_embeds: chex.Array: Pass in the embeddings of the\n                input tokens\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attentions or not\n            output_hidden_states: bool: Determine whether to return\n                hidden states\n            return_dict: bool: Return a dictionary of the output or not\n            extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n                embedding of the\n            None]]: Pass in the extra embedding\n\n        Returns:\n            A tuple of:\n        \"\"\"\n        if inputs_embeds is None:\n            inputs_embeds = self.embed_tokens(input_ids.astype(\"i4\"))\n\n        batch_size, sequence_length, _ = inputs_embeds.shape\n\n        assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n        inputs_embeds = inputs_embeds + extra_embedding if extra_embedding is not None else inputs_embeds\n\n        outputs = self.layers(\n            hidden_states=inputs_embeds,\n            freq_cis=self.freq_cis,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            causal_mask=self.causal_mask,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n        )\n\n        hidden_states = outputs[0]\n        hidden_states = self.norm(hidden_states)\n\n        if output_hidden_states:\n            all_hidden_states = outputs[1] + (hidden_states,)\n            outputs = (hidden_states, all_hidden_states) + outputs[2:]\n        else:\n            outputs = (hidden_states,) + outputs[1:]\n\n        if not return_dict:\n            return tuple(v for v in outputs if v is not None)\n\n        return FlaxBaseModelOutput(\n            last_hidden_state=hidden_states,\n            hidden_states=outputs[1],\n            attentions=outputs[-1],\n        )\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCohereModule.__call__","title":"<code>__call__(input_ids, attention_mask, position_ids, deterministic=True, inputs_embeds=None, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True, extra_embedding=None)</code>","text":"<p>The call function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids and returns the output of the model. The call function also has optional arguments that can be used to control the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when calling a Flax model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass in the input token ids</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the padding tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Indicate the position of each token in a sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Control whether dropout is applied or not</p> <code>True</code> <code>inputs_embeds</code> <code>Array</code> <p>chex.Array: Pass in the embeddings of the input tokens</p> <code>None</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attentions or not</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Determine whether to return hidden states</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the output or not</p> <code>True</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray: Pass in the embedding of the</p> <code>None</code> <code>None]]</code> <p>Pass in the extra embedding</p> required <p>Returns:</p> Type Description <p>A tuple of:</p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        deterministic: bool = True,\n        inputs_embeds: chex.Array = None,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n):\n    \"\"\"The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids\n    and returns the output of the model. The __call__ function also has optional arguments that can be used to control\n    the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when\n    calling a Flax model.\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: chex.Array: Pass in the input token ids\n        attention_mask: chex.Array: Mask out the padding tokens\n        position_ids: chex.Array: Indicate the position of each\n            token in a sequence\n        deterministic: bool: Control whether dropout is applied or\n            not\n        inputs_embeds: chex.Array: Pass in the embeddings of the\n            input tokens\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attentions or not\n        output_hidden_states: bool: Determine whether to return\n            hidden states\n        return_dict: bool: Return a dictionary of the output or not\n        extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n            embedding of the\n        None]]: Pass in the extra embedding\n\n    Returns:\n        A tuple of:\n    \"\"\"\n    if inputs_embeds is None:\n        inputs_embeds = self.embed_tokens(input_ids.astype(\"i4\"))\n\n    batch_size, sequence_length, _ = inputs_embeds.shape\n\n    assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n    inputs_embeds = inputs_embeds + extra_embedding if extra_embedding is not None else inputs_embeds\n\n    outputs = self.layers(\n        hidden_states=inputs_embeds,\n        freq_cis=self.freq_cis,\n        attention_mask=attention_mask,\n        position_ids=position_ids,\n        causal_mask=self.causal_mask,\n        deterministic=deterministic,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict,\n    )\n\n    hidden_states = outputs[0]\n    hidden_states = self.norm(hidden_states)\n\n    if output_hidden_states:\n        all_hidden_states = outputs[1] + (hidden_states,)\n        outputs = (hidden_states, all_hidden_states) + outputs[2:]\n    else:\n        outputs = (hidden_states,) + outputs[1:]\n\n    if not return_dict:\n        return tuple(v for v in outputs if v is not None)\n\n    return FlaxBaseModelOutput(\n        last_hidden_state=hidden_states,\n        hidden_states=outputs[1],\n        attentions=outputs[-1],\n    )\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel","title":"<code>FlaxCoherePreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>class FlaxCoherePreTrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class = CohereConfig\n    base_model_prefix = \"model\"\n    module_class: nn.Module = None\n\n    def __init__(\n            self,\n            config: CohereConfig,\n            input_shape: Tuple = (1, 1),\n            seed: int = 0,\n            dtype: jnp.dtype = jnp.float32,\n            _do_init: bool = True,\n            **kwargs,\n    ):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It sets up the instance of the class, and defines what happens when it's created.\n        The __init__ function can take arguments, but self is always required (it refers to the instance of the object).\n\n        Args:\n            self: Refer to the object itself\n            config: CohereConfig: Pass the configuration to the module\n            input_shape: Tuple: Specify the shape of the input to the\n                model\n            seed: int: Set the seed for random number generation\n            dtype: jnp.dtype: Specify the data type of the input\n            _do_init: bool: Control whether the module is initialized or\n                not\n            **kwargs: Pass in any additional parameters that the\n                module_class might need\n        :param : Specify the number of layers in the network\n\n        Returns:\n            The super() of the class\n        \"\"\"\n        module = self.module_class(config=config, dtype=dtype, **kwargs)\n        super().__init__(config, module, input_shape=input_shape,\n                         seed=seed, dtype=dtype, _do_init=_do_init)\n\n    def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Specify the shape of the input tensor\n            params: FrozenDict: Pass in the parameters of a pre-trained\n                model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n        if self.config.add_cross_attention:\n            encoder_hidden_states = jnp.zeros(\n                input_shape + (self.config.hidden_size,))\n            encoder_attention_mask = attention_mask\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids,\n                attention_mask,\n                position_ids,\n                encoder_hidden_states,\n                encoder_attention_mask,\n                return_dict=False,\n            )\n        else:\n            module_init_outputs = self.module.init(\n                rngs, input_ids, attention_mask, position_ids, return_dict=False)\n\n        random_params = module_init_outputs[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def init_cache(self, batch_size, max_length):\n        \"\"\"The init_cache function is used to initialize the cache for a given batch size and sequence length.\n        The cache is a dictionary that contains all the intermediate states from each layer in the model.\n        This allows us to run inference on multiple batches without having to re-run forward passes through every layer in\n        the model, which would be very slow.\n\n        Args:\n            self: Access the module\n            batch_size: Define the batch size of the input tensors\n            max_length: Set the length of the input sequence\n\n        Returns:\n            A dictionary with the following keys:\n        \"\"\"\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It takes in inputs and returns outputs, but it also has some other important features:\n        - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.\n        - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: chex.Array: Pass in the input tokens\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input\n            position_ids: chex.Array: Create the positional embeddings\n            params: dict: Pass in the parameters of the model\n            past_key_values: dict: Pass in the past key values from a\n                previous call to __call__\n            dropout_rng: jax.random.PRNGKey: Make sure that the dropout\n                is applied in a random way\n            train: bool: Determine whether to use dropout or not\n            output_attentions: Optional[bool]: Determine whether to\n                return the attention weights\n            output_hidden_states: Optional[bool]: Return the hidden\n                states of all layers\n            return_dict: Optional[bool]: Determine whether to return a\n                dictionary or not\n            extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in\n                the embedding for the input_ids\n            add_params_field: bool: Add the params field to the inputs\n                dictionary\n\n        Returns:\n            A tuple of the following:\n        \"\"\"\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\n                    \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                            None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rngs = {}\n        if dropout_rng is not None:\n            rngs[\"dropout\"] = dropout_rng\n\n        if self.config.bits is not None:\n            rngs['params'] = jax.random.key(0)\n\n        inputs = {\n            \"params\": params or self.params\n        } if add_params_field else params or self.params\n\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),\n            jnp.array(attention_mask, dtype=\"i4\"),\n            jnp.array(position_ids, dtype=\"i4\"),\n            not train,\n            False,\n            output_attentions,\n            output_hidden_states,\n            return_dict,\n            extra_embedding,\n            rngs=rngs,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + \\\n                      (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, params=None, past_key_values=None, dropout_rng=None, train=False, output_attentions=None, output_hidden_states=None, return_dict=None, extra_embedding=None, add_params_field=False, **kwargs)</code>","text":"<p>The call function is the main function of a JAX module. It takes in inputs and returns outputs, but it also has some other important features: - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end. - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass in the input tokens</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input</p> <code>None</code> <code>position_ids</code> <code>Array</code> <p>chex.Array: Create the positional embeddings</p> <code>None</code> <code>params</code> <code>dict</code> <p>dict: Pass in the parameters of the model</p> <code>None</code> <code>past_key_values</code> <code>dict</code> <p>dict: Pass in the past key values from a previous call to call</p> <code>None</code> <code>dropout_rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Make sure that the dropout is applied in a random way</p> <code>None</code> <code>train</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the attention weights</p> <code>None</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>Optional[bool]: Return the hidden states of all layers</p> <code>None</code> <code>return_dict</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return a dictionary or not</p> <code>None</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray,None]]: Pass in the embedding for the input_ids</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add the params field to the inputs dictionary</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of the following:</p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array = None,\n        position_ids: chex.Array = None,\n        params: dict = None,\n        past_key_values: dict = None,\n        dropout_rng: jax.random.PRNGKey = None,\n        train: bool = False,\n        output_attentions: Optional[bool] = None,\n        output_hidden_states: Optional[bool] = None,\n        return_dict: Optional[bool] = None,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n        add_params_field: bool = False,\n        **kwargs\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It takes in inputs and returns outputs, but it also has some other important features:\n    - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.\n    - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: chex.Array: Pass in the input tokens\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input\n        position_ids: chex.Array: Create the positional embeddings\n        params: dict: Pass in the parameters of the model\n        past_key_values: dict: Pass in the past key values from a\n            previous call to __call__\n        dropout_rng: jax.random.PRNGKey: Make sure that the dropout\n            is applied in a random way\n        train: bool: Determine whether to use dropout or not\n        output_attentions: Optional[bool]: Determine whether to\n            return the attention weights\n        output_hidden_states: Optional[bool]: Return the hidden\n            states of all layers\n        return_dict: Optional[bool]: Determine whether to return a\n            dictionary or not\n        extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in\n            the embedding for the input_ids\n        add_params_field: bool: Add the params field to the inputs\n            dictionary\n\n    Returns:\n        A tuple of the following:\n    \"\"\"\n    output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n    output_hidden_states = (\n        output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n    )\n    return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n    batch_size, sequence_length = input_ids.shape\n\n    assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n\n    if position_ids is None:\n        if past_key_values is not None:\n            raise ValueError(\n                \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n        position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                        None, :], (batch_size, sequence_length))\n\n    if attention_mask is None:\n        attention_mask = jnp.ones((batch_size, sequence_length))\n\n    rngs = {}\n    if dropout_rng is not None:\n        rngs[\"dropout\"] = dropout_rng\n\n    if self.config.bits is not None:\n        rngs['params'] = jax.random.key(0)\n\n    inputs = {\n        \"params\": params or self.params\n    } if add_params_field else params or self.params\n\n    if past_key_values:\n        inputs[\"cache\"] = past_key_values\n        mutable = [\"cache\"]\n    else:\n        mutable = False\n\n    outputs = self.module.apply(\n        inputs,\n        jnp.array(input_ids, dtype=\"i4\"),\n        jnp.array(attention_mask, dtype=\"i4\"),\n        jnp.array(position_ids, dtype=\"i4\"),\n        not train,\n        False,\n        output_attentions,\n        output_hidden_states,\n        return_dict,\n        extra_embedding,\n        rngs=rngs,\n        mutable=mutable,\n    )\n\n    if past_key_values is not None and return_dict:\n        outputs, past_key_values = outputs\n        outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n        return outputs\n    elif past_key_values is not None and not return_dict:\n        outputs, past_key_values = outputs\n        outputs = outputs[:1] + \\\n                  (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.__init__","title":"<code>__init__(config, input_shape=(1, 1), seed=0, dtype=jnp.float32, _do_init=True, **kwargs)</code>","text":"<p>The init function is called when the class is instantiated. It sets up the instance of the class, and defines what happens when it's created. The init function can take arguments, but self is always required (it refers to the instance of the object).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>config</code> <code>CohereConfig</code> <p>CohereConfig: Pass the configuration to the module</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Specify the shape of the input to the model</p> <code>(1, 1)</code> <code>seed</code> <code>int</code> <p>int: Set the seed for random number generation</p> <code>0</code> <code>dtype</code> <code>dtype</code> <p>jnp.dtype: Specify the data type of the input</p> <code>float32</code> <code>_do_init</code> <code>bool</code> <p>bool: Control whether the module is initialized or not</p> <code>True</code> <code>**kwargs</code> <p>Pass in any additional parameters that the module_class might need</p> <code>{}</code> <p>:param : Specify the number of layers in the network</p> <p>Returns:</p> Type Description <p>The super() of the class</p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>def __init__(\n        self,\n        config: CohereConfig,\n        input_shape: Tuple = (1, 1),\n        seed: int = 0,\n        dtype: jnp.dtype = jnp.float32,\n        _do_init: bool = True,\n        **kwargs,\n):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It sets up the instance of the class, and defines what happens when it's created.\n    The __init__ function can take arguments, but self is always required (it refers to the instance of the object).\n\n    Args:\n        self: Refer to the object itself\n        config: CohereConfig: Pass the configuration to the module\n        input_shape: Tuple: Specify the shape of the input to the\n            model\n        seed: int: Set the seed for random number generation\n        dtype: jnp.dtype: Specify the data type of the input\n        _do_init: bool: Control whether the module is initialized or\n            not\n        **kwargs: Pass in any additional parameters that the\n            module_class might need\n    :param : Specify the number of layers in the network\n\n    Returns:\n        The super() of the class\n    \"\"\"\n    module = self.module_class(config=config, dtype=dtype, **kwargs)\n    super().__init__(config, module, input_shape=input_shape,\n                     seed=seed, dtype=dtype, _do_init=_do_init)\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.init_cache","title":"<code>init_cache(batch_size, max_length)</code>","text":"<p>The init_cache function is used to initialize the cache for a given batch size and sequence length. The cache is a dictionary that contains all the intermediate states from each layer in the model. This allows us to run inference on multiple batches without having to re-run forward passes through every layer in the model, which would be very slow.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access the module</p> required <code>batch_size</code> <p>Define the batch size of the input tensors</p> required <code>max_length</code> <p>Set the length of the input sequence</p> required <p>Returns:</p> Type Description <p>A dictionary with the following keys:</p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>def init_cache(self, batch_size, max_length):\n    \"\"\"The init_cache function is used to initialize the cache for a given batch size and sequence length.\n    The cache is a dictionary that contains all the intermediate states from each layer in the model.\n    This allows us to run inference on multiple batches without having to re-run forward passes through every layer in\n    the model, which would be very slow.\n\n    Args:\n        self: Access the module\n        batch_size: Define the batch size of the input tensors\n        max_length: Set the length of the input sequence\n\n    Returns:\n        A dictionary with the following keys:\n    \"\"\"\n    input_ids = jnp.ones((batch_size, max_length))\n    attention_mask = jnp.ones_like(input_ids)\n    position_ids = jnp.broadcast_to(jnp.arange(\n        jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n    init_variables = self.module.init(\n        jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n    )\n    return init_variables[\"cache\"]\n</code></pre>"},{"location":"generated-modules-cohere-modelling_cohere_flax/#src.python.easydel.modules.cohere.modelling_cohere_flax.FlaxCoherePreTrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Specify the shape of the input tensor</p> required <code>params</code> <code>FrozenDict</code> <p>FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/cohere/modelling_cohere_flax.py</code> <pre><code>def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Specify the shape of the input tensor\n        params: FrozenDict: Pass in the parameters of a pre-trained\n            model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids)\n    position_ids = jnp.broadcast_to(jnp.arange(\n        jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n    params_rng, dropout_rng = jax.random.split(rng)\n    rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n    if self.config.add_cross_attention:\n        encoder_hidden_states = jnp.zeros(\n            input_shape + (self.config.hidden_size,))\n        encoder_attention_mask = attention_mask\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids,\n            attention_mask,\n            position_ids,\n            encoder_hidden_states,\n            encoder_attention_mask,\n            return_dict=False,\n        )\n    else:\n        module_init_outputs = self.module.init(\n            rngs, input_ids, attention_mask, position_ids, return_dict=False)\n\n    random_params = module_init_outputs[\"params\"]\n\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-dbrx-dbrx_configuration/","title":"modules.dbrx.dbrx_configuration","text":"<p>Dbrx configuration.</p>"},{"location":"generated-modules-dbrx-modelling_dbrx_flax/","title":"modules.dbrx.modelling_dbrx_flax","text":""},{"location":"generated-modules-dbrx-modelling_dbrx_flax/#src.python.easydel.modules.dbrx.modelling_dbrx_flax.DbrxPreTrainedModel","title":"<code>DbrxPreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code> <pre><code>class DbrxPreTrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class: DbrxConfig = DbrxConfig\n    module_class: nn.Module = None\n    base_model_prefix = \"model\"\n\n    def __init__(\n            self,\n            config: DbrxConfig,\n            dtype: jnp.dtype = jnp.bfloat16,\n            param_dtype: jnp.dtype = jnp.bfloat16,\n            precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\"),\n            input_shape: Tuple[int, int] = (1, 1),\n            seed: int = 0,\n            _do_init: bool = False,\n            **kwargs\n    ):\n        module = self.module_class(\n            config=config,\n            dtype=dtype,\n            param_dtype=param_dtype,\n            precision=precision,\n            **kwargs\n        )\n\n        super().__init__(\n            dtype=dtype, _do_init=_do_init,\n            module=module, config=config, input_shape=input_shape,\n            seed=seed,\n        )\n\n    def init_weights(\n            self,\n            rng: jax.random.PRNGKey,\n            input_shape: Tuple,\n            params: FrozenDict = None\n    ) -&gt; FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n        It takes in a rng, which is a random number generator key that can be used to generate random numbers.\n        The input_shape parameter specifies the shape of the inputs that will be fed into this model.\n        The params parameter allows you to pass in pre-trained weights for your model, if you have them available.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Initialize the input_ids, attention_mask\n                and position_ids\n            params: flax.core.FrozenDict: Pass in the parameters of a\n                pre-trained model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n\n        self.config.initialization_of_moe = True\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids, dtype=\"i4\")\n        position_ids = jnp.broadcast_to(\n            jnp.arange(jnp.atleast_2d(input_ids).shape[-1], dtype=\"i4\"),\n            input_shape,\n        )\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n        if self.config.add_cross_attention:\n            encoder_hidden_states = jnp.zeros(\n                input_shape + (self.config.hidden_size,))\n            encoder_attention_mask = attention_mask\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids,\n                attention_mask,\n                position_ids,\n                encoder_hidden_states,\n                encoder_attention_mask,\n                return_dict=False,\n            )\n        else:\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids=input_ids,\n                attention_mask=attention_mask,\n                position_ids=position_ids,\n                return_dict=False\n            )\n        random_params = module_init_outputs[\"params\"]\n\n        self.config.initialization_of_moe = False\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def init_cache(self, batch_size, max_length):\n\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: Optional[chex.Array] = None,\n            position_ids: Optional[chex.Array] = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            output_router_logits: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It takes as input:\n        - The parameters of the model (self.params)\n        - The inputs to the model (input_ids, attention_mask, position_ids)\n        - Whether we are training (train=True/False) and whether we want to return all hidden states and\n        attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: Pass the input sequence to the model\n            attention_mask: Mask out the padding tokens\n            position_ids: Specify the position of each token in the\n                sequence\n            params: dict: Pass in the parameters of the model\n            past_key_values: dict: Pass the past key values to the model\n            dropout_rng: jax.random.PRNGKey: Pass in a random number\n                generator key to the model\n            train: bool: Determine whether to use dropout or not\n            output_attentions: Optional[bool]: Determine whether to\n                return the attention weights\n            output_hidden_states: Optional[bool]: Determine whether to\n                return the hidden states of all layers\n            return_dict: Optional[bool]: Return a dictionary of the\n                outputs\n            add_params_field: bool: Add a params field to the inputs\n                dictionary\n\n        Returns:\n            A tuple of (last_hidden_state, past_key_values)\n        \"\"\"\n\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\n                    \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                            None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rng_s = {}\n        if dropout_rng is not None:\n            rng_s[\"dropout\"] = dropout_rng\n\n        inputs = {\n            \"params\": params or self.params} if add_params_field else params or self.params\n\n        if self.config.bits is not None:\n            rng_s['params'] = jax.random.key(0)\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),  # input_ids: chex.Array\n            # attention_mask: Optional[chex.Array] = None\n            jnp.array(attention_mask, dtype=\"i4\"),\n            # position_ids: Optional[chex.Array] = None\n            jnp.array(position_ids, dtype=\"i4\"),\n            None,  # inputs_embeds: Optional[chex.Array] = None\n            output_attentions,  # output_attentions: Optional[bool] = None\n            # output_hidden_states: Optional[bool] = None\n            output_hidden_states,\n            # output_router_logits: Optional[bool] = None\n            output_router_logits,\n            False,  # init_cache: bool = False\n            not train,  # deterministic: bool = True\n            return_dict,  # return_dict: bool = True\n            rngs=rng_s,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-dbrx-modelling_dbrx_flax/#src.python.easydel.modules.dbrx.modelling_dbrx_flax.DbrxPreTrainedModel.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, params=None, past_key_values=None, dropout_rng=None, train=False, output_attentions=None, output_hidden_states=None, output_router_logits=None, return_dict=None, add_params_field=False, **kwargs)</code>","text":"<p>The call function is the main function of a JAX module. It takes as input: - The parameters of the model (self.params) - The inputs to the model (input_ids, attention_mask, position_ids) - Whether we are training (train=True/False) and whether we want to return all hidden states and attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Array</code> <p>Pass the input sequence to the model</p> required <code>attention_mask</code> <code>Optional[Array]</code> <p>Mask out the padding tokens</p> <code>None</code> <code>position_ids</code> <code>Optional[Array]</code> <p>Specify the position of each token in the sequence</p> <code>None</code> <code>params</code> <code>dict</code> <p>dict: Pass in the parameters of the model</p> <code>None</code> <code>past_key_values</code> <code>dict</code> <p>dict: Pass the past key values to the model</p> <code>None</code> <code>dropout_rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Pass in a random number generator key to the model</p> <code>None</code> <code>train</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the attention weights</p> <code>None</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the hidden states of all layers</p> <code>None</code> <code>return_dict</code> <code>Optional[bool]</code> <p>Optional[bool]: Return a dictionary of the outputs</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add a params field to the inputs dictionary</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of (last_hidden_state, past_key_values)</p> Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: Optional[chex.Array] = None,\n        position_ids: Optional[chex.Array] = None,\n        params: dict = None,\n        past_key_values: dict = None,\n        dropout_rng: jax.random.PRNGKey = None,\n        train: bool = False,\n        output_attentions: Optional[bool] = None,\n        output_hidden_states: Optional[bool] = None,\n        output_router_logits: Optional[bool] = None,\n        return_dict: Optional[bool] = None,\n        add_params_field: bool = False,\n        **kwargs\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It takes as input:\n    - The parameters of the model (self.params)\n    - The inputs to the model (input_ids, attention_mask, position_ids)\n    - Whether we are training (train=True/False) and whether we want to return all hidden states and\n    attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: Pass the input sequence to the model\n        attention_mask: Mask out the padding tokens\n        position_ids: Specify the position of each token in the\n            sequence\n        params: dict: Pass in the parameters of the model\n        past_key_values: dict: Pass the past key values to the model\n        dropout_rng: jax.random.PRNGKey: Pass in a random number\n            generator key to the model\n        train: bool: Determine whether to use dropout or not\n        output_attentions: Optional[bool]: Determine whether to\n            return the attention weights\n        output_hidden_states: Optional[bool]: Determine whether to\n            return the hidden states of all layers\n        return_dict: Optional[bool]: Return a dictionary of the\n            outputs\n        add_params_field: bool: Add a params field to the inputs\n            dictionary\n\n    Returns:\n        A tuple of (last_hidden_state, past_key_values)\n    \"\"\"\n\n    output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n    output_hidden_states = (\n        output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n    )\n    return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n    batch_size, sequence_length = input_ids.shape\n\n    if position_ids is None:\n        if past_key_values is not None:\n            raise ValueError(\n                \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n        position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                        None, :], (batch_size, sequence_length))\n\n    if attention_mask is None:\n        attention_mask = jnp.ones((batch_size, sequence_length))\n\n    rng_s = {}\n    if dropout_rng is not None:\n        rng_s[\"dropout\"] = dropout_rng\n\n    inputs = {\n        \"params\": params or self.params} if add_params_field else params or self.params\n\n    if self.config.bits is not None:\n        rng_s['params'] = jax.random.key(0)\n    if past_key_values:\n        inputs[\"cache\"] = past_key_values\n        mutable = [\"cache\"]\n    else:\n        mutable = False\n\n    outputs = self.module.apply(\n        inputs,\n        jnp.array(input_ids, dtype=\"i4\"),  # input_ids: chex.Array\n        # attention_mask: Optional[chex.Array] = None\n        jnp.array(attention_mask, dtype=\"i4\"),\n        # position_ids: Optional[chex.Array] = None\n        jnp.array(position_ids, dtype=\"i4\"),\n        None,  # inputs_embeds: Optional[chex.Array] = None\n        output_attentions,  # output_attentions: Optional[bool] = None\n        # output_hidden_states: Optional[bool] = None\n        output_hidden_states,\n        # output_router_logits: Optional[bool] = None\n        output_router_logits,\n        False,  # init_cache: bool = False\n        not train,  # deterministic: bool = True\n        return_dict,  # return_dict: bool = True\n        rngs=rng_s,\n        mutable=mutable,\n    )\n\n    if past_key_values is not None and return_dict:\n        outputs, past_key_values = outputs\n        outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n        return outputs\n    elif past_key_values is not None and not return_dict:\n        outputs, past_key_values = outputs\n        outputs = outputs[:1] + (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-dbrx-modelling_dbrx_flax/#src.python.easydel.modules.dbrx.modelling_dbrx_flax.DbrxPreTrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model. It takes in a rng, which is a random number generator key that can be used to generate random numbers. The input_shape parameter specifies the shape of the inputs that will be fed into this model. The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Initialize the input_ids, attention_mask and position_ids</p> required <code>params</code> <code>FrozenDict</code> <p>flax.core.FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code> <pre><code>def init_weights(\n        self,\n        rng: jax.random.PRNGKey,\n        input_shape: Tuple,\n        params: FrozenDict = None\n) -&gt; FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n    It takes in a rng, which is a random number generator key that can be used to generate random numbers.\n    The input_shape parameter specifies the shape of the inputs that will be fed into this model.\n    The params parameter allows you to pass in pre-trained weights for your model, if you have them available.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Initialize the input_ids, attention_mask\n            and position_ids\n        params: flax.core.FrozenDict: Pass in the parameters of a\n            pre-trained model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n\n    self.config.initialization_of_moe = True\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids, dtype=\"i4\")\n    position_ids = jnp.broadcast_to(\n        jnp.arange(jnp.atleast_2d(input_ids).shape[-1], dtype=\"i4\"),\n        input_shape,\n    )\n    params_rng, dropout_rng = jax.random.split(rng)\n    rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n    if self.config.add_cross_attention:\n        encoder_hidden_states = jnp.zeros(\n            input_shape + (self.config.hidden_size,))\n        encoder_attention_mask = attention_mask\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids,\n            attention_mask,\n            position_ids,\n            encoder_hidden_states,\n            encoder_attention_mask,\n            return_dict=False,\n        )\n    else:\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids=input_ids,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            return_dict=False\n        )\n    random_params = module_init_outputs[\"params\"]\n\n    self.config.initialization_of_moe = False\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-dbrx-modelling_dbrx_flax/#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxAttention","title":"<code>FlaxDbrxAttention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code> <pre><code>class FlaxDbrxAttention(BaseJAXAttentionModule):\n    config: DbrxConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        self.num_attention_heads = self.config.n_heads\n        self.num_key_value_heads = self.config.attn_config.kv_n_heads\n        config = self.config\n        self.hidden_size = config.hidden_size\n        self.head_dim = self.config.d_model // self.config.n_heads\n        self.num_key_value_groups = self.num_attention_heads // self.num_key_value_heads\n\n        if self.num_key_value_groups == 1:\n            assert self.num_attention_heads == self.config.attn_config.kv_n_heads\n        self.Wqkv = Linear(\n            self.hidden_size + 2 * self.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.out_proj = Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n        self.rotary = FlaxDbrxEmbedding(self.dtype)\n        self.attention_performer = AttentionModule(\n            use_sharding_constraint=self.config.use_sharding_constraint,\n            block_k_major=self.config.block_k_major,\n            block_b=self.config.block_b,\n            block_q=self.config.block_q,\n            block_k=self.config.block_k,\n            block_q_major_dkv=self.config.block_q_major_dkv,\n            block_k_major_dkv=self.config.block_k_major_dkv,\n            block_k_major_dq=self.config.block_k_major_dq,\n            block_k_dkv=self.config.block_k_dkv,\n            block_q_dkv=self.config.block_q_dkv,\n            block_q_dq=self.config.block_q_dq,\n            block_k_dq=self.config.block_k_dq,\n            num_attention_heads=self.num_attention_heads,\n            attention_dropout=self.config.attn_config.attn_pdrop,\n            head_dims=self.head_dim,\n            attention_partition_spec=self.config.attention_partition_spec,\n            shard_attention_computation=self.config.shard_attention_computation,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            bias_partition_spec=self.config.bias_partition_spec,\n            key_partition_spec=self.config.key_partition_spec,\n            query_partition_spec=self.config.query_partition_spec,\n            generation_query_partition_spec=self.config.generation_query_partition_spec,\n            generation_bias_partition_spec=self.config.generation_bias_partition_spec,\n            generation_attention_partition_spec=self.config.generation_attention_partition_spec,\n            value_partition_spec=self.config.value_partition_spec,\n            scan_ring_attention=self.config.scan_ring_attention,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name,\n            backward_pass_impl=self.config.flash_attention_backward_pass_impl\n        )\n        self.resid_dropout = flax.linen.Dropout(rate=config.resid_pdrop)\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.hidden_size,))\n\n    @staticmethod\n    def _transpose_sequence_head(query, key, value):\n        \"\"\"The _transpose_sequence_head function transposes the query, key and value matrices.\n\n        Args:\n            query: Get the attention weights for each of the heads\n            key: Determine the number of heads\n            value: Store the values of the input\n\n        Returns:\n            The transpose of the query, key and value matrices\n        \"\"\"\n        return jnp.transpose(query, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value, (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n        \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n        Args:\n            self: Access variables that belong to the class\n            batch_size: Reshape the query, key and value tensors\n            sequence_length: Reshape the query, key and value tensors\n            query: Calculate the attention weights\n            key: Calculate the attention\n            value: Compute the attention weights\n            freq_cis: Calculate the frequency of each word in the\n                vocabulary\n            position_ids: Identify the position of each token in the\n                sequence\n\n        Returns:\n            A tuple of 3 tensors: query, key and value\n        \"\"\"\n        query = query.reshape(\n            batch_size,\n            sequence_length,\n            self.num_attention_heads,\n            self.head_dim\n        )\n        key = key.reshape(\n            batch_size,\n            sequence_length,\n            self.num_key_value_heads,\n            self.head_dim\n        )\n        value = value.reshape(\n            batch_size,\n            sequence_length,\n            self.num_key_value_heads,\n            self.head_dim\n        )\n\n        query, key, value = self._transpose_sequence_head(query, key, value)\n        query, key = self.rotary(\n            position_ids=position_ids, query=query, key=key, freq_cis=freq_cis\n        )\n        key = repeat_kv_bnsh(key, self.num_key_value_groups)\n        value = repeat_kv_bnsh(value, self.num_key_value_groups)\n        return self._transpose_sequence_head(query, key, value)\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            fcm_mask=None,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n        and it should return all outputs that are needed for training or inference.\n\n        Args:\n            self: Access variables that belong to the class\n            hidden_states: chex.Array: Pass the hidden states of the\n                previous layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency coefficients for each position\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Determine the position of each\n                token in a sequence\n            causal_mask: chex.Array: Mask out the future tokens in the\n                decoder\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n            fcm_mask: Mask out the attention weights between the input\n                and output tokens\n        :param : Determine if the attention is causal or not\n\n        Returns:\n            A tuple of two arrays\n        \"\"\"\n        batch_size, sequence_length = hidden_states.shape[:2]\n        qkv_states = self.Wqkv(hidden_states)\n        if self.config.attn_config.clip_qkv is not None:\n            qkv_states = qkv_states.clip(\n                min=-self.config.attn_config.clip_qkv,\n                max=self.config.attn_config.clip_qkv\n            )\n\n        query_size = self.hidden_size\n        key_size = self.num_key_value_heads * self.head_dim\n\n        query_states, key_value_states = jnp.split(qkv_states, [query_size], axis=2)\n        key_states, value_states = jnp.split(key_value_states, [key_size], axis=2)\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query=query_states,\n            key=key_states,\n            value=value_states,\n            position_ids=position_ids,\n            freq_cis=freq_cis,\n            batch_size=batch_size,\n            sequence_length=sequence_length\n        )\n\n        assert_msg = (\n            \"num_attention_heads repeat wont work likely\\n\"\n            f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n            f\"NH : {self.num_attention_heads} KVH : {self.num_attention_heads}\"\n        )\n\n        assert query_states.shape[-2] == self.num_attention_heads, assert_msg\n        assert key_states.shape[-2] == self.num_attention_heads, assert_msg\n        assert value_states.shape[-2] == self.num_attention_heads, assert_msg\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask,\n                (0, 0, mask_shift, 0),\n                (1, 1, query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        attention_mask = jnp.broadcast_to(jnp.expand_dims(\n            attention_mask, axis=(-3, -2)), causal_mask.shape)\n        attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n        dropout_rng = None\n\n        if not deterministic and self.config.attn_config.attn_pdrop &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n\n        attention_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=attention_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        attn_output = self.out_proj(attn_output)\n\n        attn_output = self.resid_dropout(attn_output, deterministic=deterministic)\n        return attn_output, attentions.attention_weights\n</code></pre>"},{"location":"generated-modules-dbrx-modelling_dbrx_flax/#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxAttention.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, segment_ids=None, deterministic=True, init_cache=False, output_attentions=False, fcm_mask=None)</code>","text":"<p>The call function is the main function of a JAX module. It defines how the module behaves when called with inputs. The call function can be thought of as a \"forward pass\" through the model, and it should return all outputs that are needed for training or inference.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the hidden states of the previous layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency coefficients for each position</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask out the future tokens in the decoder</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <code>fcm_mask</code> <p>Mask out the attention weights between the input and output tokens</p> <code>None</code> <p>:param : Determine if the attention is causal or not</p> <p>Returns:</p> Type Description <p>A tuple of two arrays</p> Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        fcm_mask=None,\n):\n    \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n    and it should return all outputs that are needed for training or inference.\n\n    Args:\n        self: Access variables that belong to the class\n        hidden_states: chex.Array: Pass the hidden states of the\n            previous layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency coefficients for each position\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Determine the position of each\n            token in a sequence\n        causal_mask: chex.Array: Mask out the future tokens in the\n            decoder\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n        fcm_mask: Mask out the attention weights between the input\n            and output tokens\n    :param : Determine if the attention is causal or not\n\n    Returns:\n        A tuple of two arrays\n    \"\"\"\n    batch_size, sequence_length = hidden_states.shape[:2]\n    qkv_states = self.Wqkv(hidden_states)\n    if self.config.attn_config.clip_qkv is not None:\n        qkv_states = qkv_states.clip(\n            min=-self.config.attn_config.clip_qkv,\n            max=self.config.attn_config.clip_qkv\n        )\n\n    query_size = self.hidden_size\n    key_size = self.num_key_value_heads * self.head_dim\n\n    query_states, key_value_states = jnp.split(qkv_states, [query_size], axis=2)\n    key_states, value_states = jnp.split(key_value_states, [key_size], axis=2)\n\n    query_states, key_states, value_states = self.apply_rotary(\n        query=query_states,\n        key=key_states,\n        value=value_states,\n        position_ids=position_ids,\n        freq_cis=freq_cis,\n        batch_size=batch_size,\n        sequence_length=sequence_length\n    )\n\n    assert_msg = (\n        \"num_attention_heads repeat wont work likely\\n\"\n        f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n        f\"NH : {self.num_attention_heads} KVH : {self.num_attention_heads}\"\n    )\n\n    assert query_states.shape[-2] == self.num_attention_heads, assert_msg\n    assert key_states.shape[-2] == self.num_attention_heads, assert_msg\n    assert value_states.shape[-2] == self.num_attention_heads, assert_msg\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    if self.has_variable(\"cache\", \"cached_key\"):\n        mask_shift = self.variables[\"cache\"][\"cache_index\"]\n        max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n        causal_mask = lax.dynamic_slice(\n            causal_mask,\n            (0, 0, mask_shift, 0),\n            (1, 1, query_length, max_decoder_length)\n        )\n    else:\n        causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n    batch_size = hidden_states.shape[0]\n    causal_mask = jnp.broadcast_to(\n        causal_mask, (batch_size,) + causal_mask.shape[1:])\n    attention_mask = jnp.broadcast_to(jnp.expand_dims(\n        attention_mask, axis=(-3, -2)), causal_mask.shape)\n    attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n    if attention_mask.ndim == 2:\n        attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n    dropout_rng = None\n\n    if not deterministic and self.config.attn_config.attn_pdrop &gt; 0.0:\n        dropout_rng = self.make_rng(\"dropout\")\n\n    if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n        key_states, value_states, attention_mask = self._concatenate_to_cache(\n            key_states,\n            value_states,\n            query_states,\n            attention_mask\n        )\n\n    attention_bias = lax.select(\n        attention_mask &gt; 0,\n        jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n        jnp.full(attention_mask.shape, jnp.finfo(\n            self.dtype).min).astype(self.dtype),\n    )\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    attentions = self.attention_performer.__call__(\n        query_states=query_states,\n        key_states=key_states,\n        value_states=value_states,\n        bias=attention_bias,\n        attention_mask=attention_mask,\n        causal=True,\n        dropout_rng=dropout_rng,\n        deterministic=deterministic,\n        query_sequence_length=query_length,\n        key_value_sequence_length=key_length,\n        uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n        segment_ids=segment_ids,\n        causal_mask=causal_mask\n    )\n\n    attn_output = self._merge_heads(attentions.attention_outputs)\n    if self.config.shard_attention_computation:\n        attn_output = with_sharding_constraint(\n            attn_output, PartitionSpec(\n                (\"dp\", \"fsdp\"),\n                \"sp\" if attn_output.shape[1] != 1 else None,\n                \"tp\"\n            )\n        )\n    attn_output = self.out_proj(attn_output)\n\n    attn_output = self.resid_dropout(attn_output, deterministic=deterministic)\n    return attn_output, attentions.attention_weights\n</code></pre>"},{"location":"generated-modules-dbrx-modelling_dbrx_flax/#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxAttention.apply_rotary","title":"<code>apply_rotary(batch_size, sequence_length, query, key, value, freq_cis, position_ids)</code>","text":"<p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class. The main difference is that it takes in an additional argument, freq_cis, which are used to calculate the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>batch_size</code> <p>Reshape the query, key and value tensors</p> required <code>sequence_length</code> <p>Reshape the query, key and value tensors</p> required <code>query</code> <p>Calculate the attention weights</p> required <code>key</code> <p>Calculate the attention</p> required <code>value</code> <p>Compute the attention weights</p> required <code>freq_cis</code> <p>Calculate the frequency of each word in the vocabulary</p> required <code>position_ids</code> <p>Identify the position of each token in the sequence</p> required <p>Returns:</p> Type Description <p>A tuple of 3 tensors: query, key and value</p> Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code> <pre><code>def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n    \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n    Args:\n        self: Access variables that belong to the class\n        batch_size: Reshape the query, key and value tensors\n        sequence_length: Reshape the query, key and value tensors\n        query: Calculate the attention weights\n        key: Calculate the attention\n        value: Compute the attention weights\n        freq_cis: Calculate the frequency of each word in the\n            vocabulary\n        position_ids: Identify the position of each token in the\n            sequence\n\n    Returns:\n        A tuple of 3 tensors: query, key and value\n    \"\"\"\n    query = query.reshape(\n        batch_size,\n        sequence_length,\n        self.num_attention_heads,\n        self.head_dim\n    )\n    key = key.reshape(\n        batch_size,\n        sequence_length,\n        self.num_key_value_heads,\n        self.head_dim\n    )\n    value = value.reshape(\n        batch_size,\n        sequence_length,\n        self.num_key_value_heads,\n        self.head_dim\n    )\n\n    query, key, value = self._transpose_sequence_head(query, key, value)\n    query, key = self.rotary(\n        position_ids=position_ids, query=query, key=key, freq_cis=freq_cis\n    )\n    key = repeat_kv_bnsh(key, self.num_key_value_groups)\n    value = repeat_kv_bnsh(value, self.num_key_value_groups)\n    return self._transpose_sequence_head(query, key, value)\n</code></pre>"},{"location":"generated-modules-dbrx-modelling_dbrx_flax/#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxForCausalLM","title":"<code>FlaxDbrxForCausalLM</code>","text":"<p>               Bases: <code>DbrxPreTrainedModel</code></p> Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code> <pre><code>class FlaxDbrxForCausalLM(DbrxPreTrainedModel):\n    module_class = FlaxDbrxForCausalLMModule\n\n    def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n        \"\"\"\n        The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n        :param self: Access variables that belong to the class\n        :param input_ids: Pass in the input tokens\n        :param max_length: Set the length of the sequence to be generated\n        :param attention_mask: Optional[chex.Array]: Mask the attention weights\n        :return: A dictionary of the past_key_values, attention_mask and position ids\n\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n\n        past_key_values = self.init_cache(batch_size, max_length)\n        extended_attention_mask = jnp.ones(\n            (batch_size, max_length), dtype=\"i4\")\n        if attention_mask is not None:\n            position_ids = attention_mask.cumsum(axis=-1) - 1\n            extended_attention_mask = lax.dynamic_update_slice(\n                extended_attention_mask, attention_mask, (0, 0))\n        else:\n            position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                            None, :], (batch_size, seq_length))\n\n        return {\n            \"past_key_values\": past_key_values,\n            \"attention_mask\": extended_attention_mask,\n            \"position_ids\": position_ids,\n        }\n\n    def update_inputs_for_generation(self, model_outputs, model_kwargs):\n        model_kwargs[\"past_key_values\"] = model_outputs.past_key_values\n        model_kwargs[\"position_ids\"] = model_kwargs[\"position_ids\"][:, -1:] + 1\n        return model_kwargs\n</code></pre>"},{"location":"generated-modules-dbrx-modelling_dbrx_flax/#src.python.easydel.modules.dbrx.modelling_dbrx_flax.FlaxDbrxForCausalLM.prepare_inputs_for_generation","title":"<code>prepare_inputs_for_generation(input_ids, max_length, attention_mask=None)</code>","text":"<p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p> <p>:param self: Access variables that belong to the class :param input_ids: Pass in the input tokens :param max_length: Set the length of the sequence to be generated :param attention_mask: Optional[chex.Array]: Mask the attention weights :return: A dictionary of the past_key_values, attention_mask and position ids</p> Source code in <code>src/python/easydel/modules/dbrx/modelling_dbrx_flax.py</code> <pre><code>def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n    \"\"\"\n    The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n    :param self: Access variables that belong to the class\n    :param input_ids: Pass in the input tokens\n    :param max_length: Set the length of the sequence to be generated\n    :param attention_mask: Optional[chex.Array]: Mask the attention weights\n    :return: A dictionary of the past_key_values, attention_mask and position ids\n\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n\n    past_key_values = self.init_cache(batch_size, max_length)\n    extended_attention_mask = jnp.ones(\n        (batch_size, max_length), dtype=\"i4\")\n    if attention_mask is not None:\n        position_ids = attention_mask.cumsum(axis=-1) - 1\n        extended_attention_mask = lax.dynamic_update_slice(\n            extended_attention_mask, attention_mask, (0, 0))\n    else:\n        position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                        None, :], (batch_size, seq_length))\n\n    return {\n        \"past_key_values\": past_key_values,\n        \"attention_mask\": extended_attention_mask,\n        \"position_ids\": position_ids,\n    }\n</code></pre>"},{"location":"generated-modules-deepseek_v2-deepseek_configuration/","title":"modules.deepseek_v2.deepseek_configuration","text":""},{"location":"generated-modules-deepseek_v2-deepseek_configuration/#src.python.easydel.modules.deepseek_v2.deepseek_configuration.DeepseekV2Config","title":"<code>DeepseekV2Config</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> Source code in <code>src/python/easydel/modules/deepseek_v2/deepseek_configuration.py</code> <pre><code>class DeepseekV2Config(EasyDeLPretrainedConfig):\n    model_type: str = \"deepseek_v2\"\n\n    def __init__(\n            self,\n            vocab_size=102400,\n            hidden_size=4096,\n            intermediate_size=11008,\n            moe_intermediate_size=1407,\n            num_hidden_layers=30,\n            num_attention_heads=32,\n            num_key_value_heads=32,\n            n_shared_experts=None,\n            n_routed_experts=None,\n            ep_size=1,\n            routed_scaling_factor=1.0,\n            kv_lora_rank=512,\n            q_lora_rank=1536,\n            qk_rope_head_dim=64,\n            v_head_dim=128,\n            qk_nope_head_dim=128,\n            topk_method='gready',\n            n_group=None,\n            topk_group=None,\n            num_experts_per_tok=None,\n            moe_layer_freq=1,\n            first_k_dense_replace=0,\n            norm_topk_prob=False,\n            scoring_func='softmax',\n            aux_loss_alpha=0.001,\n            seq_aux=True,\n            hidden_act=\"silu\",\n            max_position_embeddings=2048,\n            initializer_range=0.02,\n            rms_norm_eps=1e-6,\n            use_cache=True,\n            pad_token_id=None,\n            bos_token_id=100000,\n            eos_token_id=100001,\n            pretraining_tp=1,\n            tie_word_embeddings=False,\n            rope_theta=10000.0,\n            attention_bias=False,\n            attention_dropout=0.0,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            use_scan_mlp: bool = False,\n            scan_mlp_chunk_size: int = 1024,\n            bits: Optional[int] = None,\n            rope_scaling: Dict[str, Union[str, float]] = None,\n            **kwargs,\n    ):\n        warnings.warn(\n            \"`DeepseekV2` is still in beta mode.\",\n            UserWarning\n        )\n        self.vocab_size = vocab_size\n        self.max_position_embeddings = max_position_embeddings\n        self.hidden_size = hidden_size\n        self.intermediate_size = intermediate_size\n        self.moe_intermediate_size = moe_intermediate_size\n        self.num_hidden_layers = num_hidden_layers\n        self.num_attention_heads = num_attention_heads\n        self.n_shared_experts = n_shared_experts\n        self.n_routed_experts = n_routed_experts\n        self.ep_size = ep_size\n        self.routed_scaling_factor = routed_scaling_factor\n        self.kv_lora_rank = kv_lora_rank\n        self.q_lora_rank = q_lora_rank\n        self.qk_rope_head_dim = qk_rope_head_dim\n        self.v_head_dim = v_head_dim\n        self.qk_nope_head_dim = qk_nope_head_dim\n        self.topk_method = topk_method\n        self.n_group = n_group\n        self.topk_group = topk_group\n        self.num_experts_per_tok = num_experts_per_tok\n        self.moe_layer_freq = moe_layer_freq\n        self.first_k_dense_replace = first_k_dense_replace\n        self.norm_topk_prob = norm_topk_prob\n        self.scoring_func = scoring_func\n        self.aux_loss_alpha = aux_loss_alpha\n        self.seq_aux = seq_aux\n        # for backward compatibility\n        if num_key_value_heads is None:\n            num_key_value_heads = num_attention_heads\n\n        self.num_key_value_heads = num_key_value_heads\n        self.hidden_act = hidden_act\n        self.initializer_range = initializer_range\n        self.rms_norm_eps = rms_norm_eps\n        self.pretraining_tp = pretraining_tp\n        self.use_cache = use_cache\n        self.rope_theta = rope_theta\n        self.rope_scaling = rope_scaling\n        self.attention_bias = attention_bias\n        self.attention_dropout = attention_dropout\n        self.gradient_checkpointing = gradient_checkpointing\n        super().__init__(\n            pad_token_id=pad_token_id,\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            tie_word_embeddings=tie_word_embeddings,\n            use_scan_mlp=use_scan_mlp,\n            scan_mlp_chunk_size=scan_mlp_chunk_size,\n            bits=bits,\n            **kwargs,\n        )\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n          1) A regex string that matches the name of one or more parameters in the model.\n          2) A PartitionScheme object that defines how those parameters should be partitioned.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to use\n                the fully_sharded_data_parallel partitioning scheme or\n                not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"sp\", \"fsdp\")),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"w2/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"w3/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec(\"fsdp\", \"sp\")),\n            (\".*\", PartitionSpec(None)),\n        ) if not fully_sharded_data_parallel else (\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"w2/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"w3/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n\n    def add_jax_args(\n            self,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            use_scan_mlp: bool = False,\n            scan_mlp_chunk_size: int = 1024,\n            bits: Optional[int] = None,\n            rope_scaling: Dict[str, Union[str, float]] = None,\n            **kwargs,\n    ):\n        \"\"\"The add_jax_args function adds the following arguments to the model:\n\n        Args:\n            self: Bind the attributes and methods of a class to an\n                instance of that class\n            gradient_checkpointing: str: Determine whether to use\n                gradient checkpointing\n            use_scan_mlp: bool: Determine whether to use the scan_mlp\n                function or not\n            scan_mlp_chunk_size: int: Chunk the input to the mlp\n            number_rep_kv: int: Control the number of times that the key\n                and value vectors are repeated\n            bits: Optional[int]: Specify the number of bits to use for\n                quantization\n            attention_dropout: float: Set the dropout rate for the\n                attention layer\n            attention_bias: bool: when ever to use attention_bias\n            initialization_of_moe: bool: initialization of moe needs to\n                disable some dynamic part's this boolean variable will\n                turn them off.\n            rope_scaling: Dict[str, Union[str, float]]: rope_scaling for\n                rope\n\n        Returns:\n            A tuple of the following:\n        \"\"\"\n        self.attention_dropout = attention_dropout\n        self.attention_bias = attention_bias\n        self.rope_scaling = rope_scaling\n        self.number_rep_kv = number_rep_kv\n        self.gradient_checkpointing = gradient_checkpointing\n        self.use_scan_mlp = use_scan_mlp\n        self.scan_mlp_chunk_size = scan_mlp_chunk_size\n        self.bits = bits\n        self.initialization_of_moe = initialization_of_moe\n\n    @staticmethod\n    def get_weight_decay_exclusions():\n        return tuple()\n\n    @staticmethod\n    def rng_keys():\n        return 'params', 'dropout', 'fcm'\n</code></pre>"},{"location":"generated-modules-deepseek_v2-deepseek_configuration/#src.python.easydel.modules.deepseek_v2.deepseek_configuration.DeepseekV2Config.add_jax_args","title":"<code>add_jax_args(gradient_checkpointing='nothing_saveable', use_scan_mlp=False, scan_mlp_chunk_size=1024, bits=None, rope_scaling=None, **kwargs)</code>","text":"<p>The add_jax_args function adds the following arguments to the model:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Bind the attributes and methods of a class to an instance of that class</p> required <code>gradient_checkpointing</code> <code>str</code> <p>str: Determine whether to use gradient checkpointing</p> <code>'nothing_saveable'</code> <code>use_scan_mlp</code> <code>bool</code> <p>bool: Determine whether to use the scan_mlp function or not</p> <code>False</code> <code>scan_mlp_chunk_size</code> <code>int</code> <p>int: Chunk the input to the mlp</p> <code>1024</code> <code>number_rep_kv</code> <p>int: Control the number of times that the key and value vectors are repeated</p> required <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Specify the number of bits to use for quantization</p> <code>None</code> <code>attention_dropout</code> <p>float: Set the dropout rate for the attention layer</p> required <code>attention_bias</code> <p>bool: when ever to use attention_bias</p> required <code>initialization_of_moe</code> <p>bool: initialization of moe needs to disable some dynamic part's this boolean variable will turn them off.</p> required <code>rope_scaling</code> <code>Dict[str, Union[str, float]]</code> <p>Dict[str, Union[str, float]]: rope_scaling for rope</p> <code>None</code> <p>Returns:</p> Type Description <p>A tuple of the following:</p> Source code in <code>src/python/easydel/modules/deepseek_v2/deepseek_configuration.py</code> <pre><code>def add_jax_args(\n        self,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        use_scan_mlp: bool = False,\n        scan_mlp_chunk_size: int = 1024,\n        bits: Optional[int] = None,\n        rope_scaling: Dict[str, Union[str, float]] = None,\n        **kwargs,\n):\n    \"\"\"The add_jax_args function adds the following arguments to the model:\n\n    Args:\n        self: Bind the attributes and methods of a class to an\n            instance of that class\n        gradient_checkpointing: str: Determine whether to use\n            gradient checkpointing\n        use_scan_mlp: bool: Determine whether to use the scan_mlp\n            function or not\n        scan_mlp_chunk_size: int: Chunk the input to the mlp\n        number_rep_kv: int: Control the number of times that the key\n            and value vectors are repeated\n        bits: Optional[int]: Specify the number of bits to use for\n            quantization\n        attention_dropout: float: Set the dropout rate for the\n            attention layer\n        attention_bias: bool: when ever to use attention_bias\n        initialization_of_moe: bool: initialization of moe needs to\n            disable some dynamic part's this boolean variable will\n            turn them off.\n        rope_scaling: Dict[str, Union[str, float]]: rope_scaling for\n            rope\n\n    Returns:\n        A tuple of the following:\n    \"\"\"\n    self.attention_dropout = attention_dropout\n    self.attention_bias = attention_bias\n    self.rope_scaling = rope_scaling\n    self.number_rep_kv = number_rep_kv\n    self.gradient_checkpointing = gradient_checkpointing\n    self.use_scan_mlp = use_scan_mlp\n    self.scan_mlp_chunk_size = scan_mlp_chunk_size\n    self.bits = bits\n    self.initialization_of_moe = initialization_of_moe\n</code></pre>"},{"location":"generated-modules-deepseek_v2-deepseek_configuration/#src.python.easydel.modules.deepseek_v2.deepseek_configuration.DeepseekV2Config.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:   1) A regex string that matches the name of one or more parameters in the model.   2) A PartitionScheme object that defines how those parameters should be partitioned.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to use the fully_sharded_data_parallel partitioning scheme or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/deepseek_v2/deepseek_configuration.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n      1) A regex string that matches the name of one or more parameters in the model.\n      2) A PartitionScheme object that defines how those parameters should be partitioned.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to use\n            the fully_sharded_data_parallel partitioning scheme or\n            not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec(\"sp\", \"fsdp\")),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n        (\"w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"w2/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"w3/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec(\"fsdp\", \"sp\")),\n        (\".*\", PartitionSpec(None)),\n    ) if not fully_sharded_data_parallel else (\n        (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n        (\"w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"w2/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"w3/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-deepseek_v2-modeling_deepseek_flax/","title":"modules.deepseek_v2.modeling_deepseek_flax","text":""},{"location":"generated-modules-deepseek_v2-modeling_deepseek_flax/#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.DeepseekV2PreTrainedModel","title":"<code>DeepseekV2PreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code> <pre><code>class DeepseekV2PreTrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class: DeepseekV2Config = DeepseekV2Config\n    module_class: nn.Module = None\n    base_model_prefix = \"model\"\n\n    def __init__(\n            self,\n            config: DeepseekV2Config,\n            dtype: jnp.dtype = jnp.bfloat16,\n            param_dtype: jnp.dtype = jnp.bfloat16,\n            precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\"),\n            input_shape: Tuple[int, int] = (1, 1),\n            seed: int = 0,\n            _do_init: bool = False,\n            **kwargs\n    ):\n        module = self.module_class(\n            config=config,\n            dtype=dtype,\n            param_dtype=param_dtype,\n            precision=precision,\n            **kwargs\n        )\n\n        super().__init__(\n            dtype=dtype, _do_init=_do_init,\n            module=module, config=config, input_shape=input_shape,\n            seed=seed,\n        )\n\n    def init_weights(\n            self,\n            rng: jax.random.PRNGKey,\n            input_shape: Tuple,\n            params: FrozenDict = None\n    ) -&gt; FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n        It takes in a rng, which is a random number generator key that can be used to generate random numbers.\n        The input_shape parameter specifies the shape of the inputs that will be fed into this model.\n        The params parameter allows you to pass in pre-trained weights for your model, if you have them available.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Initialize the input_ids, attention_mask\n                and position_ids\n            params: flax.core.FrozenDict: Pass in the parameters of a\n                pre-trained model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n\n        self.config.initialization_of_moe = True\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids, dtype=\"i4\")\n        position_ids = jnp.broadcast_to(\n            jnp.arange(jnp.atleast_2d(input_ids).shape[-1], dtype=\"i4\"),\n            input_shape,\n        )\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n        if self.config.add_cross_attention:\n            encoder_hidden_states = jnp.zeros(\n                input_shape + (self.config.hidden_size,))\n            encoder_attention_mask = attention_mask\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids,\n                attention_mask,\n                position_ids,\n                encoder_hidden_states,\n                encoder_attention_mask,\n                return_dict=False,\n            )\n        else:\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids=input_ids,\n                attention_mask=attention_mask,\n                position_ids=position_ids,\n                return_dict=False\n            )\n        random_params = module_init_outputs[\"params\"]\n\n        self.config.initialization_of_moe = False\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def init_cache(self, batch_size, max_length):\n\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: Optional[chex.Array] = None,\n            position_ids: Optional[chex.Array] = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            output_router_logits: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It takes as input:\n        - The parameters of the model (self.params)\n        - The inputs to the model (input_ids, attention_mask, position_ids)\n        - Whether we are training (train=True/False) and whether we want to return all hidden states and\n        attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: Pass the input sequence to the model\n            attention_mask: Mask out the padding tokens\n            position_ids: Specify the position of each token in the\n                sequence\n            params: dict: Pass in the parameters of the model\n            past_key_values: dict: Pass the past key values to the model\n            dropout_rng: jax.random.PRNGKey: Pass in a random number\n                generator key to the model\n            train: bool: Determine whether to use dropout or not\n            output_attentions: Optional[bool]: Determine whether to\n                return the attention weights\n            output_hidden_states: Optional[bool]: Determine whether to\n                return the hidden states of all layers\n            return_dict: Optional[bool]: Return a dictionary of the\n                outputs\n            add_params_field: bool: Add a params field to the inputs\n                dictionary\n\n        Returns:\n            A tuple of (last_hidden_state, past_key_values)\n        \"\"\"\n\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\n                    \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                            None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rng_s = {}\n        if dropout_rng is not None:\n            rng_s[\"dropout\"] = dropout_rng\n\n        inputs = {\n            \"params\": params or self.params} if add_params_field else params or self.params\n\n        if self.config.bits is not None:\n            rng_s['params'] = jax.random.key(0)\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),  # input_ids: chex.Array\n            # attention_mask: Optional[chex.Array] = None\n            jnp.array(attention_mask, dtype=\"i4\"),\n            # position_ids: Optional[chex.Array] = None\n            jnp.array(position_ids, dtype=\"i4\"),\n            None,  # inputs_embeds: Optional[chex.Array] = None\n            output_attentions,  # output_attentions: Optional[bool] = None\n            # output_hidden_states: Optional[bool] = None\n            output_hidden_states,\n            # output_router_logits: Optional[bool] = None\n            output_router_logits,\n            False,  # init_cache: bool = False\n            not train,  # deterministic: bool = True\n            return_dict,  # return_dict: bool = True\n            rngs=rng_s,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + \\\n                      (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-deepseek_v2-modeling_deepseek_flax/#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.DeepseekV2PreTrainedModel.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, params=None, past_key_values=None, dropout_rng=None, train=False, output_attentions=None, output_hidden_states=None, output_router_logits=None, return_dict=None, add_params_field=False, **kwargs)</code>","text":"<p>The call function is the main function of a JAX module. It takes as input: - The parameters of the model (self.params) - The inputs to the model (input_ids, attention_mask, position_ids) - Whether we are training (train=True/False) and whether we want to return all hidden states and attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Array</code> <p>Pass the input sequence to the model</p> required <code>attention_mask</code> <code>Optional[Array]</code> <p>Mask out the padding tokens</p> <code>None</code> <code>position_ids</code> <code>Optional[Array]</code> <p>Specify the position of each token in the sequence</p> <code>None</code> <code>params</code> <code>dict</code> <p>dict: Pass in the parameters of the model</p> <code>None</code> <code>past_key_values</code> <code>dict</code> <p>dict: Pass the past key values to the model</p> <code>None</code> <code>dropout_rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Pass in a random number generator key to the model</p> <code>None</code> <code>train</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the attention weights</p> <code>None</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the hidden states of all layers</p> <code>None</code> <code>return_dict</code> <code>Optional[bool]</code> <p>Optional[bool]: Return a dictionary of the outputs</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add a params field to the inputs dictionary</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of (last_hidden_state, past_key_values)</p> Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: Optional[chex.Array] = None,\n        position_ids: Optional[chex.Array] = None,\n        params: dict = None,\n        past_key_values: dict = None,\n        dropout_rng: jax.random.PRNGKey = None,\n        train: bool = False,\n        output_attentions: Optional[bool] = None,\n        output_hidden_states: Optional[bool] = None,\n        output_router_logits: Optional[bool] = None,\n        return_dict: Optional[bool] = None,\n        add_params_field: bool = False,\n        **kwargs\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It takes as input:\n    - The parameters of the model (self.params)\n    - The inputs to the model (input_ids, attention_mask, position_ids)\n    - Whether we are training (train=True/False) and whether we want to return all hidden states and\n    attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: Pass the input sequence to the model\n        attention_mask: Mask out the padding tokens\n        position_ids: Specify the position of each token in the\n            sequence\n        params: dict: Pass in the parameters of the model\n        past_key_values: dict: Pass the past key values to the model\n        dropout_rng: jax.random.PRNGKey: Pass in a random number\n            generator key to the model\n        train: bool: Determine whether to use dropout or not\n        output_attentions: Optional[bool]: Determine whether to\n            return the attention weights\n        output_hidden_states: Optional[bool]: Determine whether to\n            return the hidden states of all layers\n        return_dict: Optional[bool]: Return a dictionary of the\n            outputs\n        add_params_field: bool: Add a params field to the inputs\n            dictionary\n\n    Returns:\n        A tuple of (last_hidden_state, past_key_values)\n    \"\"\"\n\n    output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n    output_hidden_states = (\n        output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n    )\n    return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n    batch_size, sequence_length = input_ids.shape\n\n    if position_ids is None:\n        if past_key_values is not None:\n            raise ValueError(\n                \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n        position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                        None, :], (batch_size, sequence_length))\n\n    if attention_mask is None:\n        attention_mask = jnp.ones((batch_size, sequence_length))\n\n    rng_s = {}\n    if dropout_rng is not None:\n        rng_s[\"dropout\"] = dropout_rng\n\n    inputs = {\n        \"params\": params or self.params} if add_params_field else params or self.params\n\n    if self.config.bits is not None:\n        rng_s['params'] = jax.random.key(0)\n    if past_key_values:\n        inputs[\"cache\"] = past_key_values\n        mutable = [\"cache\"]\n    else:\n        mutable = False\n\n    outputs = self.module.apply(\n        inputs,\n        jnp.array(input_ids, dtype=\"i4\"),  # input_ids: chex.Array\n        # attention_mask: Optional[chex.Array] = None\n        jnp.array(attention_mask, dtype=\"i4\"),\n        # position_ids: Optional[chex.Array] = None\n        jnp.array(position_ids, dtype=\"i4\"),\n        None,  # inputs_embeds: Optional[chex.Array] = None\n        output_attentions,  # output_attentions: Optional[bool] = None\n        # output_hidden_states: Optional[bool] = None\n        output_hidden_states,\n        # output_router_logits: Optional[bool] = None\n        output_router_logits,\n        False,  # init_cache: bool = False\n        not train,  # deterministic: bool = True\n        return_dict,  # return_dict: bool = True\n        rngs=rng_s,\n        mutable=mutable,\n    )\n\n    if past_key_values is not None and return_dict:\n        outputs, past_key_values = outputs\n        outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n        return outputs\n    elif past_key_values is not None and not return_dict:\n        outputs, past_key_values = outputs\n        outputs = outputs[:1] + \\\n                  (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-deepseek_v2-modeling_deepseek_flax/#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.DeepseekV2PreTrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model. It takes in a rng, which is a random number generator key that can be used to generate random numbers. The input_shape parameter specifies the shape of the inputs that will be fed into this model. The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Initialize the input_ids, attention_mask and position_ids</p> required <code>params</code> <code>FrozenDict</code> <p>flax.core.FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code> <pre><code>def init_weights(\n        self,\n        rng: jax.random.PRNGKey,\n        input_shape: Tuple,\n        params: FrozenDict = None\n) -&gt; FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n    It takes in a rng, which is a random number generator key that can be used to generate random numbers.\n    The input_shape parameter specifies the shape of the inputs that will be fed into this model.\n    The params parameter allows you to pass in pre-trained weights for your model, if you have them available.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Initialize the input_ids, attention_mask\n            and position_ids\n        params: flax.core.FrozenDict: Pass in the parameters of a\n            pre-trained model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n\n    self.config.initialization_of_moe = True\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids, dtype=\"i4\")\n    position_ids = jnp.broadcast_to(\n        jnp.arange(jnp.atleast_2d(input_ids).shape[-1], dtype=\"i4\"),\n        input_shape,\n    )\n    params_rng, dropout_rng = jax.random.split(rng)\n    rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n    if self.config.add_cross_attention:\n        encoder_hidden_states = jnp.zeros(\n            input_shape + (self.config.hidden_size,))\n        encoder_attention_mask = attention_mask\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids,\n            attention_mask,\n            position_ids,\n            encoder_hidden_states,\n            encoder_attention_mask,\n            return_dict=False,\n        )\n    else:\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids=input_ids,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            return_dict=False\n        )\n    random_params = module_init_outputs[\"params\"]\n\n    self.config.initialization_of_moe = False\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-deepseek_v2-modeling_deepseek_flax/#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLM","title":"<code>FlaxDeepseekV2ForCausalLM</code>","text":"<p>               Bases: <code>DeepseekV2PreTrainedModel</code></p> Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code> <pre><code>class FlaxDeepseekV2ForCausalLM(DeepseekV2PreTrainedModel):\n    module_class = FlaxDeepseekV2ForCausalLMModule\n\n    def set_input_embeddings(self, value):\n        self.module.model.embed_tokens = value\n\n    def get_input_embeddings(self):\n        return self.module.model.embed_tokens\n\n    def set_decoder(self, decoder):\n        self.module.model = decoder\n\n    def get_decoder(self):\n        return self.module.model\n\n    def get_output_embeddings(self):\n        return self.module.lm_head\n\n    def set_output_embeddings(self, new_embeddings):\n        self.module.lm_head = new_embeddings\n\n    def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n        \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n        Args:\n            self: Access variables that belong to the class\n            input_ids: Pass in the input tokens\n            max_length: Set the length of the sequence to be generated\n            attention_mask: Optional[chex.Array]: Mask the attention\n                weights\n\n        Returns:\n            A dictionary of the past_key_values, attention_mask and\n            position ids\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n\n        past_key_values = self.init_cache(batch_size, max_length)\n        extended_attention_mask = jnp.ones(\n            (batch_size, max_length), dtype=\"i4\")\n        if attention_mask is not None:\n            position_ids = attention_mask.cumsum(axis=-1) - 1\n            extended_attention_mask = lax.dynamic_update_slice(\n                extended_attention_mask, attention_mask, (0, 0))\n        else:\n            position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                            None, :], (batch_size, seq_length))\n\n        return {\n            \"past_key_values\": past_key_values,\n            \"attention_mask\": extended_attention_mask,\n            \"position_ids\": position_ids,\n        }\n\n    def update_inputs_for_generation(self, model_outputs, model_kwargs):\n        model_kwargs[\"past_key_values\"] = model_outputs.past_key_values\n        model_kwargs[\"position_ids\"] = model_kwargs[\"position_ids\"][:, -1:] + 1\n        return model_kwargs\n</code></pre>"},{"location":"generated-modules-deepseek_v2-modeling_deepseek_flax/#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLM.prepare_inputs_for_generation","title":"<code>prepare_inputs_for_generation(input_ids, max_length, attention_mask=None)</code>","text":"<p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>input_ids</code> <p>Pass in the input tokens</p> required <code>max_length</code> <p>Set the length of the sequence to be generated</p> required <code>attention_mask</code> <code>Optional[Array]</code> <p>Optional[chex.Array]: Mask the attention weights</p> <code>None</code> <p>Returns:</p> Type Description <p>A dictionary of the past_key_values, attention_mask and</p> <p>position ids</p> Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code> <pre><code>def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n    \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n    Args:\n        self: Access variables that belong to the class\n        input_ids: Pass in the input tokens\n        max_length: Set the length of the sequence to be generated\n        attention_mask: Optional[chex.Array]: Mask the attention\n            weights\n\n    Returns:\n        A dictionary of the past_key_values, attention_mask and\n        position ids\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n\n    past_key_values = self.init_cache(batch_size, max_length)\n    extended_attention_mask = jnp.ones(\n        (batch_size, max_length), dtype=\"i4\")\n    if attention_mask is not None:\n        position_ids = attention_mask.cumsum(axis=-1) - 1\n        extended_attention_mask = lax.dynamic_update_slice(\n            extended_attention_mask, attention_mask, (0, 0))\n    else:\n        position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                        None, :], (batch_size, seq_length))\n\n    return {\n        \"past_key_values\": past_key_values,\n        \"attention_mask\": extended_attention_mask,\n        \"position_ids\": position_ids,\n    }\n</code></pre>"},{"location":"generated-modules-deepseek_v2-modeling_deepseek_flax/#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLMModule","title":"<code>FlaxDeepseekV2ForCausalLMModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code> <pre><code>class FlaxDeepseekV2ForCausalLMModule(nn.Module):\n    config: DeepseekV2Config\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        self.model = FlaxDeepseekV2Module(\n            config=self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.lm_head = nn.Linear(\n            self.config.vocab_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            use_bias=False,\n            kernel_init=nn.initializers.normal(self.config.initializer_range),\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            deterministic: bool = True,\n            inputs_embeds: chex.Array = None,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n    ):\n        \"\"\"The __call__ function is the main function of a Flax module. It defines how the model will be called,\n        and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask\n        as inputs (these are defined in __init__). We also have some optional arguments that can be passed to\n        the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),\n        output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,\n\n        Args:\n            self: Refer to the object itself\n            input_ids: chex.Array: Pass in the input tokens\n            attention_mask: chex.Array: Mask out the padding tokens\n            position_ids: chex.Array: Specify the position of each token\n                in the sequence\n            deterministic: bool: Determine whether to use dropout in the\n                model\n            inputs_embeds: chex.Array: Pass in the embeddings of the\n                input tokens\n            init_cache: bool: Initialize the cache for the decoder\n            output_attentions: bool: Return the attention weights\n            output_hidden_states: bool: Return the hidden states of all\n                layers\n            return_dict: bool: Return a dictionary of the outputs or\n                just the logits\n        :param : Determine whether to return the logits or not\n\n        Returns:\n            A tuple of (lm_logits, hidden_states, attentions)\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n\n        if attention_mask is None:\n            attention_mask = jnp.ones_like(input_ids)\n        if position_ids is None:\n            position_ids = jnp.broadcast_to(\n                jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n                (batch_size, seq_length)\n            )\n        outputs = self.model(\n            input_ids=input_ids,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            deterministic=deterministic,\n            inputs_embeds=inputs_embeds,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict\n        )\n\n        hidden_states = outputs[0]\n\n        if self.config.tie_word_embeddings:\n            shared_kernel = self.transformer.variables[\"params\"][\"embed_tokens\"][\"embedding\"]\n            shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n            lm_logits = self.lm_head.apply(\n                {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n        else:\n            lm_logits = self.lm_head(hidden_states)\n\n        # lm_logits = lm_logits.astype(jnp.float32)\n\n        if not return_dict:\n            return (lm_logits,) + outputs[1:]\n\n        return FlaxCausalLMOutput(logits=lm_logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions)\n</code></pre>"},{"location":"generated-modules-deepseek_v2-modeling_deepseek_flax/#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2ForCausalLMModule.__call__","title":"<code>__call__(input_ids, attention_mask, position_ids, deterministic=True, inputs_embeds=None, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True)</code>","text":"<p>The call function is the main function of a Flax module. It defines how the model will be called, and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask as inputs (these are defined in init). We also have some optional arguments that can be passed to the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings), output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass in the input tokens</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the padding tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in the sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout in the model</p> <code>True</code> <code>inputs_embeds</code> <code>Array</code> <p>chex.Array: Pass in the embeddings of the input tokens</p> <code>None</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the decoder</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Return the hidden states of all layers</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs or just the logits</p> <code>True</code> <p>:param : Determine whether to return the logits or not</p> <p>Returns:</p> Type Description <p>A tuple of (lm_logits, hidden_states, attentions)</p> Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        deterministic: bool = True,\n        inputs_embeds: chex.Array = None,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n):\n    \"\"\"The __call__ function is the main function of a Flax module. It defines how the model will be called,\n    and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask\n    as inputs (these are defined in __init__). We also have some optional arguments that can be passed to\n    the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),\n    output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,\n\n    Args:\n        self: Refer to the object itself\n        input_ids: chex.Array: Pass in the input tokens\n        attention_mask: chex.Array: Mask out the padding tokens\n        position_ids: chex.Array: Specify the position of each token\n            in the sequence\n        deterministic: bool: Determine whether to use dropout in the\n            model\n        inputs_embeds: chex.Array: Pass in the embeddings of the\n            input tokens\n        init_cache: bool: Initialize the cache for the decoder\n        output_attentions: bool: Return the attention weights\n        output_hidden_states: bool: Return the hidden states of all\n            layers\n        return_dict: bool: Return a dictionary of the outputs or\n            just the logits\n    :param : Determine whether to return the logits or not\n\n    Returns:\n        A tuple of (lm_logits, hidden_states, attentions)\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n\n    if attention_mask is None:\n        attention_mask = jnp.ones_like(input_ids)\n    if position_ids is None:\n        position_ids = jnp.broadcast_to(\n            jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n            (batch_size, seq_length)\n        )\n    outputs = self.model(\n        input_ids=input_ids,\n        attention_mask=attention_mask,\n        position_ids=position_ids,\n        deterministic=deterministic,\n        inputs_embeds=inputs_embeds,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict\n    )\n\n    hidden_states = outputs[0]\n\n    if self.config.tie_word_embeddings:\n        shared_kernel = self.transformer.variables[\"params\"][\"embed_tokens\"][\"embedding\"]\n        shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n        lm_logits = self.lm_head.apply(\n            {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n    else:\n        lm_logits = self.lm_head(hidden_states)\n\n    # lm_logits = lm_logits.astype(jnp.float32)\n\n    if not return_dict:\n        return (lm_logits,) + outputs[1:]\n\n    return FlaxCausalLMOutput(logits=lm_logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions)\n</code></pre>"},{"location":"generated-modules-deepseek_v2-modeling_deepseek_flax/#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2Module","title":"<code>FlaxDeepseekV2Module</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code> <pre><code>class FlaxDeepseekV2Module(nn.Module):\n    config: DeepseekV2Config\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n\n        self.embed_tokens = nn.Embed(\n            self.config.vocab_size,\n            self.config.hidden_size,\n            embedding_init=jax.nn.initializers.normal(\n                stddev=self.config.initializer_range),\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n        )\n\n        self.layers = FlaxDeepseekV2DecoratorCollection(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.norm = DeepseekV2RMSNorm(\n            self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n\n        initial_rope_kwargs = {}\n        method = None\n        if self.config.rope_scaling is not None:\n            scaling_type = self.config.rope_scaling[\"type\"]\n            method = scaling_type\n            if scaling_type != \"yarn\":\n                initial_rope_kwargs = dict(scaling_factor=self.config.rope_scaling[\"factor\"])\n            else:\n                initial_rope_kwargs = {\n                    key: self.config.rope_scaling[key]\n                    for key in [\n                        \"original_max_position_embeddings\",\n                        \"beta_fast\",\n                        \"beta_slow\",\n                        \"mscale\",\n                        \"mscale_all_dim\",\n                    ]\n                    if key in self.config.rope_scaling\n                }\n                initial_rope_kwargs[\"scaling_factor\"] = self.config.rope_scaling[\"factor\"]\n        self.freq_cis = init_deepseek_rotary_embedding(\n            dim=self.config.hidden_size // self.config.num_attention_heads,\n            max_position_embeddings=(\n                getattr(\n                    self.config,\n                    \"freq_max_position_embeddings\",\n                    self.config.max_position_embeddings\n                )\n            ),\n            base=self.config.rope_theta,\n            method=method,  # type:ignore\n            kwargs=initial_rope_kwargs\n        )\n        self.causal_mask = flax.linen.make_causal_mask(\n            jnp.ones(\n                (\n                    1,\n                    getattr(\n                        self.config,\n                        \"c_max_position_embeddings\",\n                        self.config.max_position_embeddings\n                    )\n                ),\n                dtype=\"bool\"\n            ),\n            dtype=\"bool\"\n        )\n\n    def __call__(\n            self,\n            input_ids: Optional[chex.Array] = None,\n            attention_mask: Optional[chex.Array] = None,\n            position_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            inputs_embeds: chex.Array = None,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n    ) -&gt; typing.Union[Tuple[chex.Array, ...], FlaxBaseModelOutput]:\n        \"\"\"The __call__ function is the main function of a Flax model.\n        It takes in input_ids, attention_mask, and position_ids as inputs to the model.\n        The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: chex.Array: Pass in the input ids\n            attention_mask: chex.Array: Mask out the attention weights\n                for certain tokens\n            position_ids: chex.Array: Determine the position of each\n                token in a sequence\n            deterministic: bool: Determine whether to use dropout or not\n            inputs_embeds: chex.Array: Pass in the embedding of the\n                input_ids\n            init_cache: bool: Initialize the cache for the decoder\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n            output_hidden_states: bool: Return all hidden states or just\n                the last one\n            return_dict: bool: Return a dictionary of the outputs or not\n        :param : Determine whether the model is in training mode or not\n\n        Returns:\n            A tuple of the hidden states, all hidden states, and\n            attentions\n        \"\"\"\n        if inputs_embeds is None:\n            inputs_embeds = self.embed_tokens(input_ids.astype(\"i4\"))\n        if attention_mask.ndim == 2:\n            b, s = attention_mask.shape\n            attention_mask = attention_mask.reshape(b, 1, 1, s)\n\n        outputs = self.layers(\n            hidden_states=inputs_embeds,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            freq_cis=self.freq_cis,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            deterministic=deterministic,\n            causal_mask=self.causal_mask\n        )\n\n        hidden_states = outputs[0]\n        hidden_states = self.norm(hidden_states)\n\n        if output_hidden_states:\n            all_hidden_states = outputs[1] + (hidden_states,)\n            outputs = (hidden_states, all_hidden_states) + outputs[2:]\n        else:\n            outputs = (hidden_states,) + outputs[1:]\n\n        if not return_dict:\n            return tuple(value for value in outputs if value is not None)\n\n        return FlaxBaseModelOutput(\n            last_hidden_state=hidden_states,\n            hidden_states=outputs[1],\n            attentions=outputs[-1],\n        )\n</code></pre>"},{"location":"generated-modules-deepseek_v2-modeling_deepseek_flax/#src.python.easydel.modules.deepseek_v2.modeling_deepseek_flax.FlaxDeepseekV2Module.__call__","title":"<code>__call__(input_ids=None, attention_mask=None, position_ids=None, deterministic=True, inputs_embeds=None, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True)</code>","text":"<p>The call function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids as inputs to the model. The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Optional[Array]</code> <p>chex.Array: Pass in the input ids</p> <code>None</code> <code>attention_mask</code> <code>Optional[Array]</code> <p>chex.Array: Mask out the attention weights for certain tokens</p> <code>None</code> <code>position_ids</code> <code>Optional[Array]</code> <p>chex.Array: Determine the position of each token in a sequence</p> <code>None</code> <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>inputs_embeds</code> <code>Array</code> <p>chex.Array: Pass in the embedding of the input_ids</p> <code>None</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the decoder</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Return all hidden states or just the last one</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs or not</p> <code>True</code> <p>:param : Determine whether the model is in training mode or not</p> <p>Returns:</p> Type Description <code>Union[Tuple[Array, ...], FlaxBaseModelOutput]</code> <p>A tuple of the hidden states, all hidden states, and</p> <code>Union[Tuple[Array, ...], FlaxBaseModelOutput]</code> <p>attentions</p> Source code in <code>src/python/easydel/modules/deepseek_v2/modeling_deepseek_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: Optional[chex.Array] = None,\n        attention_mask: Optional[chex.Array] = None,\n        position_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        inputs_embeds: chex.Array = None,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n) -&gt; typing.Union[Tuple[chex.Array, ...], FlaxBaseModelOutput]:\n    \"\"\"The __call__ function is the main function of a Flax model.\n    It takes in input_ids, attention_mask, and position_ids as inputs to the model.\n    The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: chex.Array: Pass in the input ids\n        attention_mask: chex.Array: Mask out the attention weights\n            for certain tokens\n        position_ids: chex.Array: Determine the position of each\n            token in a sequence\n        deterministic: bool: Determine whether to use dropout or not\n        inputs_embeds: chex.Array: Pass in the embedding of the\n            input_ids\n        init_cache: bool: Initialize the cache for the decoder\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n        output_hidden_states: bool: Return all hidden states or just\n            the last one\n        return_dict: bool: Return a dictionary of the outputs or not\n    :param : Determine whether the model is in training mode or not\n\n    Returns:\n        A tuple of the hidden states, all hidden states, and\n        attentions\n    \"\"\"\n    if inputs_embeds is None:\n        inputs_embeds = self.embed_tokens(input_ids.astype(\"i4\"))\n    if attention_mask.ndim == 2:\n        b, s = attention_mask.shape\n        attention_mask = attention_mask.reshape(b, 1, 1, s)\n\n    outputs = self.layers(\n        hidden_states=inputs_embeds,\n        attention_mask=attention_mask,\n        position_ids=position_ids,\n        freq_cis=self.freq_cis,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        deterministic=deterministic,\n        causal_mask=self.causal_mask\n    )\n\n    hidden_states = outputs[0]\n    hidden_states = self.norm(hidden_states)\n\n    if output_hidden_states:\n        all_hidden_states = outputs[1] + (hidden_states,)\n        outputs = (hidden_states, all_hidden_states) + outputs[2:]\n    else:\n        outputs = (hidden_states,) + outputs[1:]\n\n    if not return_dict:\n        return tuple(value for value in outputs if value is not None)\n\n    return FlaxBaseModelOutput(\n        last_hidden_state=hidden_states,\n        hidden_states=outputs[1],\n        attentions=outputs[-1],\n    )\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/","title":"modules.easydel_modelling_utils","text":""},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel","title":"<code>EasyDeLFlaxPretrainedModel</code>","text":"<p>               Bases: <code>FlaxPreTrainedModel</code></p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>class EasyDeLFlaxPretrainedModel(FlaxPreTrainedModel):\n    def __init__(\n            self,\n            config: PretrainedConfig,\n            module: flax.linen.Module,\n            input_shape: Tuple = (1, 1),\n            seed: int = 0,\n            dtype: jnp.dtype = jnp.float32,\n            param_dtype: jnp.dtype = jnp.float32,  # Ignored\n            precision: Optional[Union[jax.lax.Precision, str]] = None,  # Ignored\n            _do_init: bool = True,\n    ):\n        super().__init__(\n            config=config,\n            module=module,\n            input_shape=input_shape,\n            seed=seed,\n            dtype=dtype,\n            _do_init=_do_init\n        )\n\n    def get_input_embeddings(self):\n        \"\"\"The get_input_embeddings function returns the embedding layer of the model.\n\n        Args:\n            self: Refer to the current object\n\n        Returns:\n            The embedding layer of the model\n        \"\"\"\n        raise NotImplementedError()\n\n    def set_input_embeddings(self, value):\n        \"\"\"The set_input_embeddings function is used to set the embedding module of the model.\n\n        Args:\n            self: Represent the instance of the class\n            value: Set the embeddings of the model\n        \"\"\"\n        raise NotImplementedError()\n\n    def get_output_embeddings(self):\n        \"\"\"The get_output_embeddings function returns the output embeddings of a model.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            The output embeddings of the model\n        \"\"\"\n        raise NotImplementedError()\n\n    def set_output_embeddings(self, new_embeddings):\n        \"\"\"The set_output_embeddings function is used to set the output embeddings of a model.\n        This function can be used to change the output embedding layer of a pretrained model in order to finetune it\n        to some downstream task. Changing this layer has an effect only if the model has already been fine-tuned on some\n        task (e.g., for classification). If you are training your own language models, you should call this function before\n        you start training.\n\n        Args:\n            self: Represent the instance of the class\n            new_embeddings: Set the embeddings of the output layer\n\n        Returns:\n            A new embedding layer\n        \"\"\"\n        raise NotImplementedError()\n\n    def set_decoder(self, decoder):\n        \"\"\"The set_decoder function is used to set the decoder for a given encoder.\n\n        Args:\n            self: Refer to the object itself\n            decoder: Set the decoder for a given encoder\n\n        Returns:\n            A decoder\n        \"\"\"\n        raise NotImplementedError()\n\n    def get_decoder(self):\n        \"\"\"The get_decoder function is used to create a decoder object.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A decoder object\n        \"\"\"\n        raise NotImplementedError()\n\n    def init_cache(self, batch_size: int, max_length: int):\n        raise NotImplementedError(\"init_cache is not Implemented Yet!\")\n\n    def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n        \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n        Args:\n            self: Access variables that belong to the class\n            input_ids: Pass in the input tokens\n            max_length: Set the length of the sequence to be generated\n            attention_mask: Optional[chex.Array]: Mask the attention\n                weights\n\n        Returns:\n            A dictionary of the past_key_values, attention_mask and\n            position ids\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n\n        past_key_values = self.init_cache(batch_size, max_length)\n        extended_attention_mask = jnp.ones(\n            (batch_size, max_length), dtype=\"i4\")\n        if attention_mask is not None:\n            position_ids = attention_mask.cumsum(axis=-1) - 1\n            extended_attention_mask = jax.lax.dynamic_update_slice(\n                extended_attention_mask, attention_mask, (0, 0))\n        else:\n            position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                            None, :], (batch_size, seq_length))\n\n        return {\n            \"past_key_values\": past_key_values,\n            \"attention_mask\": extended_attention_mask,\n            \"position_ids\": position_ids,\n        }\n\n    def update_inputs_for_generation(self, model_outputs, model_kwargs):\n        model_kwargs[\"past_key_values\"] = model_outputs.past_key_values\n        model_kwargs[\"position_ids\"] = model_kwargs[\"position_ids\"][:, -1:] + 1\n        return model_kwargs\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: Optional[chex.Array] = None,\n            position_ids: Optional[chex.Array] = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n            add_params_field: bool = False,\n            vision_mask: Optional[chex.Array] = None,\n            **kwargs\n    ):\n        raise NotImplementedError(\"Not Implemented Yet\")\n\n    def __repr__(self):\n\n        \"\"\"The __repr__ function is used to generate a string representation of an object.\n        This function should return a string that can be parsed by the Python interpreter\n        to recreate the object. The __repr__ function is called when you use print() on an\n        object, or when you type its name in the REPL.\n\n        Args:\n            self: Refer to the instance of the class\n\n        Returns:\n            A string representation of the object\n        \"\"\"\n        string = f\"{self.__class__.__name__}(\\n\"\n        for k, v in self.__dict__.items():\n            if not k.startswith(\"_\"):\n                try:\n                    repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                    string += repr_src if len(repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n                except TypeError:\n                    pass\n        return string + \")\"\n\n    def __str__(self):\n\n        \"\"\"The __str__ function is called when you use the print function or when str() is used.\n        It should return a string representation of the object.\n\n        Args:\n            self: Refer to the instance of the class\n\n        Returns:\n            The object's string representation\n        \"\"\"\n        return self.__repr__()\n\n    @property\n    def config(self) -&gt; EasyDeLPretrainedConfig:\n        return self._config  # type:ignore\n\n    def to_easydel_state(\n            self,\n            params: flax.core.FrozenDict,\n    ):\n        \"\"\"\n        Convert the Model to EasyDeLState\n        \"\"\"\n        return EasyDeLState.load(\n            apply_fn=self.__call__,\n            params=params,\n            opt_state=None,\n            module_config=self.config,\n        )\n\n    def to_pytorch(\n            self,\n            params: flax.core.FrozenDict,\n            base_hf_auto_class=AutoModelForCausalLM,\n            easystate_to_huggingface_model_kwargs: Optional[dict] = None\n    ):\n        \"\"\"\n        Return the Huggingface / Pytorch implementation of the model with same weights  (if model is available in HF)\n        \"\"\"\n\n        from ..transform.easydel_transform import easystate_to_huggingface_model\n        state = self.to_easydel_state(params=params)\n        if easystate_to_huggingface_model_kwargs is None:\n            easystate_to_huggingface_model_kwargs = {}\n\n        model_config = state.module_config\n        if model_config is None:\n            model_config = state.module.config_class\n        # model_type = model_config.model_type\n        model_class = base_hf_auto_class._model_mapping[type(model_config)]  # noqa\n        hf_model = easystate_to_huggingface_model(\n            state=state,\n            base_huggingface_module=model_class,\n            config=model_config,\n\n            **easystate_to_huggingface_model_kwargs\n        )\n        return hf_model\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.__repr__","title":"<code>__repr__()</code>","text":"<p>The repr function is used to generate a string representation of an object. This function should return a string that can be parsed by the Python interpreter to recreate the object. The repr function is called when you use print() on an object, or when you type its name in the REPL.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <p>Returns:</p> Type Description <p>A string representation of the object</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def __repr__(self):\n\n    \"\"\"The __repr__ function is used to generate a string representation of an object.\n    This function should return a string that can be parsed by the Python interpreter\n    to recreate the object. The __repr__ function is called when you use print() on an\n    object, or when you type its name in the REPL.\n\n    Args:\n        self: Refer to the instance of the class\n\n    Returns:\n        A string representation of the object\n    \"\"\"\n    string = f\"{self.__class__.__name__}(\\n\"\n    for k, v in self.__dict__.items():\n        if not k.startswith(\"_\"):\n            try:\n                repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                string += repr_src if len(repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n            except TypeError:\n                pass\n    return string + \")\"\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.__str__","title":"<code>__str__()</code>","text":"<p>The str function is called when you use the print function or when str() is used. It should return a string representation of the object.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <p>Returns:</p> Type Description <p>The object's string representation</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def __str__(self):\n\n    \"\"\"The __str__ function is called when you use the print function or when str() is used.\n    It should return a string representation of the object.\n\n    Args:\n        self: Refer to the instance of the class\n\n    Returns:\n        The object's string representation\n    \"\"\"\n    return self.__repr__()\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.get_decoder","title":"<code>get_decoder()</code>","text":"<p>The get_decoder function is used to create a decoder object.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>A decoder object</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def get_decoder(self):\n    \"\"\"The get_decoder function is used to create a decoder object.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A decoder object\n    \"\"\"\n    raise NotImplementedError()\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.get_input_embeddings","title":"<code>get_input_embeddings()</code>","text":"<p>The get_input_embeddings function returns the embedding layer of the model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the current object</p> required <p>Returns:</p> Type Description <p>The embedding layer of the model</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def get_input_embeddings(self):\n    \"\"\"The get_input_embeddings function returns the embedding layer of the model.\n\n    Args:\n        self: Refer to the current object\n\n    Returns:\n        The embedding layer of the model\n    \"\"\"\n    raise NotImplementedError()\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.get_output_embeddings","title":"<code>get_output_embeddings()</code>","text":"<p>The get_output_embeddings function returns the output embeddings of a model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>The output embeddings of the model</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def get_output_embeddings(self):\n    \"\"\"The get_output_embeddings function returns the output embeddings of a model.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        The output embeddings of the model\n    \"\"\"\n    raise NotImplementedError()\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.prepare_inputs_for_generation","title":"<code>prepare_inputs_for_generation(input_ids, max_length, attention_mask=None)</code>","text":"<p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>input_ids</code> <p>Pass in the input tokens</p> required <code>max_length</code> <p>Set the length of the sequence to be generated</p> required <code>attention_mask</code> <code>Optional[Array]</code> <p>Optional[chex.Array]: Mask the attention weights</p> <code>None</code> <p>Returns:</p> Type Description <p>A dictionary of the past_key_values, attention_mask and</p> <p>position ids</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n    \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n    Args:\n        self: Access variables that belong to the class\n        input_ids: Pass in the input tokens\n        max_length: Set the length of the sequence to be generated\n        attention_mask: Optional[chex.Array]: Mask the attention\n            weights\n\n    Returns:\n        A dictionary of the past_key_values, attention_mask and\n        position ids\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n\n    past_key_values = self.init_cache(batch_size, max_length)\n    extended_attention_mask = jnp.ones(\n        (batch_size, max_length), dtype=\"i4\")\n    if attention_mask is not None:\n        position_ids = attention_mask.cumsum(axis=-1) - 1\n        extended_attention_mask = jax.lax.dynamic_update_slice(\n            extended_attention_mask, attention_mask, (0, 0))\n    else:\n        position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                        None, :], (batch_size, seq_length))\n\n    return {\n        \"past_key_values\": past_key_values,\n        \"attention_mask\": extended_attention_mask,\n        \"position_ids\": position_ids,\n    }\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.set_decoder","title":"<code>set_decoder(decoder)</code>","text":"<p>The set_decoder function is used to set the decoder for a given encoder.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>decoder</code> <p>Set the decoder for a given encoder</p> required <p>Returns:</p> Type Description <p>A decoder</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def set_decoder(self, decoder):\n    \"\"\"The set_decoder function is used to set the decoder for a given encoder.\n\n    Args:\n        self: Refer to the object itself\n        decoder: Set the decoder for a given encoder\n\n    Returns:\n        A decoder\n    \"\"\"\n    raise NotImplementedError()\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.set_input_embeddings","title":"<code>set_input_embeddings(value)</code>","text":"<p>The set_input_embeddings function is used to set the embedding module of the model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>value</code> <p>Set the embeddings of the model</p> required Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def set_input_embeddings(self, value):\n    \"\"\"The set_input_embeddings function is used to set the embedding module of the model.\n\n    Args:\n        self: Represent the instance of the class\n        value: Set the embeddings of the model\n    \"\"\"\n    raise NotImplementedError()\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.set_output_embeddings","title":"<code>set_output_embeddings(new_embeddings)</code>","text":"<p>The set_output_embeddings function is used to set the output embeddings of a model. This function can be used to change the output embedding layer of a pretrained model in order to finetune it to some downstream task. Changing this layer has an effect only if the model has already been fine-tuned on some task (e.g., for classification). If you are training your own language models, you should call this function before you start training.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>new_embeddings</code> <p>Set the embeddings of the output layer</p> required <p>Returns:</p> Type Description <p>A new embedding layer</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def set_output_embeddings(self, new_embeddings):\n    \"\"\"The set_output_embeddings function is used to set the output embeddings of a model.\n    This function can be used to change the output embedding layer of a pretrained model in order to finetune it\n    to some downstream task. Changing this layer has an effect only if the model has already been fine-tuned on some\n    task (e.g., for classification). If you are training your own language models, you should call this function before\n    you start training.\n\n    Args:\n        self: Represent the instance of the class\n        new_embeddings: Set the embeddings of the output layer\n\n    Returns:\n        A new embedding layer\n    \"\"\"\n    raise NotImplementedError()\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.to_easydel_state","title":"<code>to_easydel_state(params)</code>","text":"<p>Convert the Model to EasyDeLState</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def to_easydel_state(\n        self,\n        params: flax.core.FrozenDict,\n):\n    \"\"\"\n    Convert the Model to EasyDeLState\n    \"\"\"\n    return EasyDeLState.load(\n        apply_fn=self.__call__,\n        params=params,\n        opt_state=None,\n        module_config=self.config,\n    )\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLFlaxPretrainedModel.to_pytorch","title":"<code>to_pytorch(params, base_hf_auto_class=AutoModelForCausalLM, easystate_to_huggingface_model_kwargs=None)</code>","text":"<p>Return the Huggingface / Pytorch implementation of the model with same weights  (if model is available in HF)</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def to_pytorch(\n        self,\n        params: flax.core.FrozenDict,\n        base_hf_auto_class=AutoModelForCausalLM,\n        easystate_to_huggingface_model_kwargs: Optional[dict] = None\n):\n    \"\"\"\n    Return the Huggingface / Pytorch implementation of the model with same weights  (if model is available in HF)\n    \"\"\"\n\n    from ..transform.easydel_transform import easystate_to_huggingface_model\n    state = self.to_easydel_state(params=params)\n    if easystate_to_huggingface_model_kwargs is None:\n        easystate_to_huggingface_model_kwargs = {}\n\n    model_config = state.module_config\n    if model_config is None:\n        model_config = state.module.config_class\n    # model_type = model_config.model_type\n    model_class = base_hf_auto_class._model_mapping[type(model_config)]  # noqa\n    hf_model = easystate_to_huggingface_model(\n        state=state,\n        base_huggingface_module=model_class,\n        config=model_config,\n\n        **easystate_to_huggingface_model_kwargs\n    )\n    return hf_model\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig","title":"<code>EasyDeLPretrainedConfig</code>","text":"<p>               Bases: <code>PretrainedConfig</code></p> <p>It initializes all the attributes of an object, and it's called when you create a new instance of that class.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <code>axis_dims</code> <code>Sequence[int]</code> <p>Sequence[int]: Specify the number of dimensions for each axis</p> <code>(1, -1, 1, 1)</code> <code>axis_names</code> <code>Sequence[str]</code> <p>Sequence[str]: Set the names of the axes</p> <code>('dp', 'fsdp', 'tp', 'sp')</code> <code>attn_mechanism</code> <code>AVAILABLE_ATTENTION_MECHANISMS</code> <p>Literal[\"vanilla\", \"flash\", \"splash\", \"ring\"]: attention mechanism to use</p> <code>'sharded_vanilla'</code> <code>block_k</code> <code>int</code> <p>int: block size of key_states</p> <code>128</code> <code>block_q</code> <code>int</code> <p>int: block size of query_states</p> <code>128</code> <code>block_b</code> <code>int</code> <p>int: block size of bias</p> <code>1</code> <code>block_q_major_dkv</code> <code>int | None</code> <p>int: block size of block_q_major_dkv</p> <code>None</code> <code>block_k_major_dkv</code> <code>int | None</code> <p>int: block size of block_k_major_dkv</p> <code>None</code> <code>block_k_dkv</code> <code>int | None</code> <p>int: block size of block_k_dkv</p> <code>None</code> <code>block_q_dkv</code> <code>int | None</code> <p>int: block size of block_q_dkv</p> <code>None</code> <code>block_k_major_dq</code> <code>int | None</code> <p>int: block size of block_k_major_dq</p> <code>None</code> <code>block_k_dq</code> <code>int | None</code> <p>int: block size of block_k_dq</p> <code>None</code> <code>block_q_dq</code> <code>int | None</code> <p>int: block size of block_q_dq</p> <code>None</code> <code>query_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the partitioning of the query tensor</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>key_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Partition the key matrix</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>value_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the partitioning of the value tensor</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>bias_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the Attention Bias partition spec</p> <code>PartitionSpec(('dp', 'fsdp'), None, None, None)</code> <code>attention_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the partitioning of the attention weights</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp', 'tp', None)</code> <code>shard_attention_computation</code> <code>bool</code> <p>bool: whenever to shard qkv b for attention</p> <code>True</code> <code>use_sharding_constraint</code> <code>bool</code> <p>bool: whether to use sharding constraint for the arrays</p> <code>False</code> <code>use_scan_mlp</code> <code>bool</code> <p>bool: Determine whether to use scan_mlp or not</p> <code>True</code> <code>backend</code> <code>Optional[None]</code> <p>Optional[None]: Specify the backend to use</p> <code>default_backend()</code> <code>flash_attention_backward_pass_impl</code> <code>Literal['triton', 'xla']</code> <p>Literal[\"triton\", \"xla\"]: Specify the backward pass kernel for flash attention</p> <code>'triton'</code> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>class EasyDeLPretrainedConfig(PretrainedConfig):\n    \"\"\"It initializes all the attributes of an object, and it's called when you create a new instance of that class.\n\n    Args:\n        self: Refer to the instance of the class\n        axis_dims: Sequence[int]: Specify the number of dimensions for\n            each axis\n        axis_names: Sequence[str]: Set the names of the axes\n        attn_mechanism: Literal[\"vanilla\", \"flash\", \"splash\", \"ring\"]:\n            attention mechanism to use\n        block_k: int: block size of key_states\n        block_q: int: block size of query_states\n        block_b: int: block size of bias\n        block_q_major_dkv: int: block size of block_q_major_dkv\n        block_k_major_dkv: int: block size of block_k_major_dkv\n        block_k_dkv: int: block size of block_k_dkv\n        block_q_dkv: int: block size of block_q_dkv\n        block_k_major_dq: int: block size of block_k_major_dq\n        block_k_dq: int: block size of block_k_dq\n        block_q_dq: int: block size of block_q_dq\n        query_partition_spec: PartitionSpec: Specify the partitioning of\n            the query tensor\n        key_partition_spec: PartitionSpec: Partition the key matrix\n        value_partition_spec: PartitionSpec: Specify the partitioning of\n            the value tensor\n        bias_partition_spec: PartitionSpec: Specify the Attention Bias\n            partition spec\n        attention_partition_spec: PartitionSpec: Specify the\n            partitioning of the attention weights\n        shard_attention_computation: bool: whenever to shard qkv b for\n            attention\n        use_sharding_constraint: bool: whether to use sharding\n            constraint for the arrays\n        use_scan_mlp: bool: Determine whether to use scan_mlp or not\n        backend: Optional[None]: Specify the backend to use\n        flash_attention_backward_pass_impl: Literal[\"triton\", \"xla\"]:\n            Specify the backward pass kernel for flash attention\n    \"\"\"\n\n    def __init__(\n            self,\n            axis_dims: Sequence[int] = (1, -1, 1, 1),\n            axis_names: Sequence[str] = (\"dp\", \"fsdp\", \"tp\", \"sp\"),\n            attn_mechanism: AVAILABLE_ATTENTION_MECHANISMS = \"sharded_vanilla\",\n            block_k: int = 128,\n            block_q: int = 128,\n            block_b: int = 1,\n            block_k_major: int = 128,\n            block_q_major_dkv: int | None = None,\n            block_k_major_dkv: int | None = None,\n            block_k_dkv: int | None = None,\n            block_q_dkv: int | None = None,\n            block_k_major_dq: int | None = None,\n            block_k_dq: int | None = None,\n            block_q_dq: int | None = None,\n            query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            generation_query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, \"tp\", None),\n            key_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            value_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n            generation_bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n            attention_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            generation_attention_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, \"tp\", None),\n            shard_attention_computation: bool = True,\n            use_sharded_kv_caching: bool = True,\n            use_sharding_constraint: bool = False,\n            backend: Optional[None] = jax.default_backend(),\n            easy_method: Literal[\"train\", \"serve\", \"convert\"] = EasyMethod.TRAIN,\n            bits: Optional[int] = None,\n            scan_ring_attention: bool = True,\n            scan_attention_layers: bool = False,\n            use_scan_mlp: bool = True,\n            scan_mlp_chunk_size: int = 1024,\n            attention_axis_name: str = \"sp\",\n            quantize_kv_cache: bool = False,\n            flash_attention_backward_pass_impl: Literal[\"triton\", \"xla\"] = \"triton\",\n            **kwargs\n    ):\n        self.query_partition_spec = query_partition_spec\n        self.generation_query_partition_spec = generation_query_partition_spec\n        self.key_partition_spec = key_partition_spec\n        self.value_partition_spec = value_partition_spec\n        self.bias_partition_spec = bias_partition_spec\n        self.generation_bias_partition_spec = generation_bias_partition_spec\n        self.attention_partition_spec = attention_partition_spec\n        self.generation_attention_partition_spec = generation_attention_partition_spec\n        self.shard_attention_computation = shard_attention_computation\n        self.axis_dims = axis_dims\n        self.axis_names = axis_names\n        self.backend = backend if backend is not None else \"\"\n        self.easy_method = easy_method\n        self.attn_mechanism = attn_mechanism\n        self.block_b = block_b\n        self.block_k = block_k\n        self.block_q = block_q\n        self.block_k_major = block_k_major\n        self.block_q_major_dkv = block_q_major_dkv or block_q\n        self.block_k_major_dkv = block_k_major_dkv or block_k\n        self.block_k_dkv = block_k_dkv or block_k\n        self.block_q_dkv = block_q_dkv or block_q\n        self.block_k_major_dq = block_k_major_dq or block_k\n        self.block_k_dq = block_k_dq or block_k\n        self.block_q_dq = block_q_dq or block_q\n        self.bits = bits\n        self.scan_attention_layers = scan_attention_layers\n        self.scan_ring_attention = scan_ring_attention\n        self.use_sharded_kv_caching = use_sharded_kv_caching\n        self.use_scan_mlp = use_scan_mlp\n        self.scan_mlp_chunk_size = scan_mlp_chunk_size\n        self.use_sharding_constraint = use_sharding_constraint\n        self.attention_axis_name = attention_axis_name\n        self.quantize_kv_cache = quantize_kv_cache\n        self.flash_attention_backward_pass_impl = flash_attention_backward_pass_impl\n        super().__init__(**kwargs)\n\n    @staticmethod\n    def create_mesh(\n            axis_dims: Sequence[int] = (1, -1, 1, 1), axis_names: Sequence[str] = (\"dp\", \"fsdp\", \"tp\", \"sp\"), backend=\"\"\n    ):\n        \"\"\"The create_mesh function creates a mesh object that can be used to shard arrays.\n\n        Args:\n            axis_dims: Sequence[int]: Specify the dimensions of the mesh\n            axis_names: Sequence[str]: Name the axes of the mesh\n            backend: Specify the backend to use\n\n        Returns:\n            A mesh object\n        \"\"\"\n        array_devices = jax.numpy.ones(\n            (len(jax.devices() if backend == \"\" else jax.devices(backend)), 1))\n        if isinstance(axis_dims, str):\n            axis_dims = eval(axis_dims)\n            warnings.warn(\n                \"axis_dims argument is not a Sequence of int and it's an string. \"\n                \"(backbone Warning in EasyDeLModuleConfig)\\n\"\n                f\"\\tchanged to {axis_dims}\"\n            )\n        if isinstance(axis_names, str):\n            axis_names = eval(axis_names)\n            warnings.warn(\n                \"axis_names argument is not a Sequence of strings and it's an string class. \"\n                \"(backbone Warning in EasyDeLModuleConfig)\\n\"\n                f\"\\tchanged to {axis_names}\"\n            )\n        resh = array_devices.reshape(axis_dims).shape\n\n        return Mesh(\n            create_device_mesh(resh), axis_names\n        )\n\n    def jax_mesh(self) -&gt; Mesh:\n        \"\"\"The jax_mesh function is a helper function that creates a Mesh object from the\n        axis_dims and axis_names attributes of an object, which are assumed to be lists of integers and strings, respectively.\n        The backend attribute is also used if it exists.\n\n        Args:\n            self: Refer to the object itself\n\n        Returns:\n            A jaxMesh\n        \"\"\"\n        return self.create_mesh(\n            axis_dims=[v for k, v in self.axis_dims.items()] if isinstance(\n                self.axis_dims,\n                dict\n            ) else self.axis_dims,\n            axis_names=[v for k, v in self.axis_names.items()] if isinstance(\n                self.axis_names,\n                dict\n            ) else self.axis_names,\n            backend=(self.backend if self.backend is not None else \"\") if hasattr(\n                self, 'backend') else \"\"\n        )\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n\n        \"\"\"The get_partition_rules function is used to specify how the parameters of a model are partitioned across devices.\n\n        Args:\n            self: Access the attributes of the class\n            fully_sharded_data_parallel: bool: Determine whether the\n                model is fully sharded or not\n\n        Returns:\n            A tuple of tuples\n        \"\"\"\n        if not fully_sharded_data_parallel:\n            raise NotImplementedError()\n        else:\n            return (\n                ('.*', PartitionSpec((\"fsdp\", \"sp\"), ),),\n            )\n\n    def get_axis_dims(self) -&gt; Sequence[int]:\n        \"\"\"The get_axis_dims function returns a sequence of integers representing the dimensions of each axis.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            The dimensions of the axes\n        \"\"\"\n        return self.axis_dims\n\n    def get_axis_names(self) -&gt; Sequence[str]:\n        \"\"\"The get_axis_names function returns a list of the names of the axes.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A list of the names of all axes\n        \"\"\"\n        return self.axis_names\n\n    def get_backend(self) -&gt; str:\n        \"\"\"The get_backend function returns the backend that is currently being used.\n        If no backend has been set, it will return the default JAX backend.\n\n        Args:\n            self: Bind the method to an object\n\n        Returns:\n            The backend platform\n        \"\"\"\n        return self.backend if not self.backend == \"\" else jax.lib.xla_bridge.get_backend().platform\n\n    def add_basic_configurations(\n            self,\n            axis_dims: Sequence[int] = ...,\n            axis_names: Sequence[str] = ...,\n            attn_mechanism: AVAILABLE_ATTENTION_MECHANISMS = ...,\n            block_k: int = ...,\n            block_q: int = ...,\n            block_b: int = ...,\n            block_k_major: int = ...,\n            block_q_major_dkv: int | None = ...,\n            block_k_major_dkv: int | None = ...,\n            block_k_dkv: int | None = ...,\n            block_q_dkv: int | None = ...,\n            block_k_major_dq: int | None = ...,\n            block_k_dq: int | None = ...,\n            block_q_dq: int | None = ...,\n            query_partition_spec: PartitionSpec = ...,\n            generation_query_partition_spec: PartitionSpec = ...,\n            key_partition_spec: PartitionSpec = ...,\n            value_partition_spec: PartitionSpec = ...,\n            bias_partition_spec: PartitionSpec = ...,\n            attention_partition_spec: PartitionSpec = ...,\n            generation_bias_partition_spec: PartitionSpec = ...,\n            generation_attention_partition_spec: PartitionSpec = ...,\n            shard_attention_computation: bool = ...,\n            use_sharded_kv_caching: bool = ...,\n            backend: Optional[None] = ...,\n            easy_method: Literal[\"train\", \"serve\", \"convert\"] = ...,\n            bits: Optional[int] = ...,\n            scan_ring_attention: bool = ...,\n            scan_attention_layers: bool = ...,\n            use_sharding_constraint: bool = ...,\n            use_scan_mlp: bool = ...,\n            scan_mlp_chunk_size: int = ...,\n            attention_axis_name: str = ...,\n            quantize_kv_cache: bool = ...,\n            flash_attention_backward_pass_impl: Literal[\"triton\", \"xla\"] = ...\n    ):\n        \"\"\"It initializes all the attributes of an object, and it's called when you create a new instance of that class.\n\n        Args:\n            self: Refer to the instance of the class\n            axis_dims: Sequence[int]: Specify the number of dimensions\n                for each axis\n            axis_names: Sequence[str]: Set the names of the axes\n            attn_mechanism: Literal[\"vanilla\", \"flash\", \"splash\"]:\n                attention mechanism to use\n            block_k: int: block size of key_states\n            block_q: int: block size of query_states\n            block_b: int: block size of bias\n            block_k_major: int: block size if key major\n            block_q_major_dkv: int: block size of block_q_major_dkv\n            block_k_major_dkv: int: block size of block_k_major_dkv\n            block_k_dkv: int: block size of block_k_dkv\n            block_q_dkv: int: block size of block_q_dkv\n            block_k_major_dq: int: block size of block_k_major_dq\n            block_k_dq: int: block size of block_k_dq\n            block_q_dq: int: block size of block_q_dq\n            query_partition_spec: PartitionSpec: Specify the\n                partitioning of the query tensor\n            key_partition_spec: PartitionSpec: Partition the key matrix\n            value_partition_spec: PartitionSpec: Specify the\n                partitioning of the value tensor\n            bias_partition_spec: PartitionSpec: Specify the Attention\n                Bias partition spec\n            attention_partition_spec: PartitionSpec: Specify the\n                partitioning of the attention weights\n            generation_attention_partition_spec: : PartitionSpec:\n                Specify the partitioning of the attention weights\n            generation_bias_partition_spec: : PartitionSpec: Specify the\n                partitioning of the Attention Bias partition spec in\n                generation process\n            generation_query_partition_spec: : PartitionSpec: Specify\n                the partitioning of the query tensor\n            shard_attention_computation: bool: whenever to use shard_map\n                for attention\n            use_sharded_kv_caching: bool: whenever to use shard_map and\n                sharding for key and value\n            backend: Optional[None]: Specify the backend to use\n            easy_method: Literal[\"train\", \"serve\", \"convert\"]: easydel\n                Quantization Method to be applied for\n            bits: Optional[int]: Model bits for quantization\n            use_sharding_constraint: bool: whether to use sharding\n                constraint for the arrays\n            scan_ring_attention: bool: Whether to use can for ring\n                attention\n            scan_attention_layers: bool: Whether to use can for\n                attention layers\n            use_scan_mlp: bool: Determine whether to use scan_mlp or not\n            scan_mlp_chunk_size: int: Size of chunks in scan MLP.\n            attention_axis_name: str: Name of the attention axis name\n            quantize_kv_cache: bool: Whether to quantize Key/Value in\n                attention for generation process.\n            flash_attention_backward_pass_impl: Literal[\"triton\",\n                \"xla\"]: Specify the backward pass kernel for flash\n                attention\n        in generation process\n        in generation process\n        \"\"\"\n        set_attrs_smartly(self, \"axis_dims\", (1, -1, 1, 1), axis_dims)\n        set_attrs_smartly(self, \"axis_names\", (\"dp\", \"fsdp\", \"tp\", \"sp\"), axis_names)\n\n        set_attrs_smartly(self, \"block_q\", 1024, block_q)\n        set_attrs_smartly(self, \"block_k\", 1024, block_k)\n        set_attrs_smartly(self, \"block_b\", 1024, block_b)\n\n        set_attrs_smartly(\n            self,\n            \"query_partition_spec\",\n            PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            query_partition_spec\n        )\n        set_attrs_smartly(\n            self,\n            \"generation_query_partition_spec\",\n            PartitionSpec((\"dp\", \"fsdp\"), None, \"tp\", None),\n            generation_query_partition_spec\n        )\n        set_attrs_smartly(\n            self,\n            \"generation_bias_partition_spec\",\n            PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n            generation_bias_partition_spec\n        )\n        set_attrs_smartly(\n            self,\n            \"key_partition_spec\",\n            PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            key_partition_spec\n        )\n        set_attrs_smartly(\n            self,\n            \"value_partition_spec\",\n            PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            value_partition_spec\n        )\n        set_attrs_smartly(\n            self,\n            \"bias_partition_spec\",\n            PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n            bias_partition_spec\n        )\n        set_attrs_smartly(\n            self,\n            \"attention_partition_spec\",\n            PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            attention_partition_spec\n        )\n        set_attrs_smartly(\n            self,\n            \"generation_attention_partition_spec\",\n            PartitionSpec((\"dp\", \"fsdp\"), None, \"tp\", None),\n            generation_attention_partition_spec\n        )\n        set_attrs_smartly(self, \"use_sharding_constraint\", False, use_sharding_constraint)\n        set_attrs_smartly(self, \"backend\", jax.default_backend(), backend)\n        set_attrs_smartly(self, \"shard_attention_computation\", True, shard_attention_computation)\n        set_attrs_smartly(self, \"use_sharded_kv_caching\", True, use_sharded_kv_caching)\n        set_attrs_smartly(self, \"attn_mechanism\", \"sharded_vanilla\", attn_mechanism)\n\n        set_attrs_smartly(self, \"block_k_dkv\", block_k_dkv or self.block_k, block_k_dkv)\n        set_attrs_smartly(self, \"block_q_dkv\", block_q_dkv or self.block_q, block_q_dkv)\n\n        set_attrs_smartly(self, \"block_q_major_dkv\", block_q_major_dkv or self.block_q, block_q_major_dkv)\n        set_attrs_smartly(self, \"block_k_major_dkv\", block_k_major_dkv or self.block_k, block_k_major_dkv)\n\n        set_attrs_smartly(self, \"block_k_major\", block_k_major or self.block_k, block_k_major)\n        set_attrs_smartly(self, \"block_k_major_dq\", block_k_major_dq or self.block_k, block_k_major_dq)\n\n        set_attrs_smartly(self, \"block_k_dq\", block_k_dq or self.block_k, block_k_dq)\n        set_attrs_smartly(self, \"block_q_dq\", block_q_dq or self.block_q, block_q_dq)\n\n        set_attrs_smartly(self, \"easy_method\", EasyMethod.TRAIN, easy_method)\n        set_attrs_smartly(self, \"bits\", None, bits)\n        set_attrs_smartly(self, \"scan_attention_layers\", True, scan_attention_layers)\n        set_attrs_smartly(self, \"scan_ring_attention\", True, scan_ring_attention)\n        set_attrs_smartly(self, \"use_scan_mlp\", True, use_scan_mlp)\n        set_attrs_smartly(self, \"scan_mlp_chunk_size\", 1024, scan_mlp_chunk_size)\n        set_attrs_smartly(self, \"attention_axis_name\", \"sp\", attention_axis_name)\n        set_attrs_smartly(self, \"quantize_kv_cache\", False, quantize_kv_cache)\n        set_attrs_smartly(self, \"flash_attention_backward_pass_impl\", \"triton\", flash_attention_backward_pass_impl)\n\n    def __repr__(self):\n\n        \"\"\"The __repr__ function is used to generate a string representation of an object.\n        This function should return a string that can be parsed by the Python interpreter\n        to recreate the object. The __repr__ function is called when you use print() on an\n        object, or when you type its name in the REPL.\n\n        Args:\n            self: Refer to the instance of the class\n\n        Returns:\n            A string representation of the object\n        \"\"\"\n        string = f\"{self.__class__.__name__}(\\n\"\n        for k, v in self.__dict__.items():\n            if not k.startswith(\"_\"):\n                try:\n                    repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                    string += repr_src if len(repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n                except TypeError:\n                    pass\n        return string + \")\"\n\n    def add_jax_args(self, **kwargs):\n        for k, v in kwargs.items():\n            set_attrs_smartly(self, \"k\", v, v)\n\n    def __str__(self):\n\n        \"\"\"The __str__ function is called when you use the print function or when str() is used.\n        It should return a string representation of the object.\n\n        Args:\n            self: Refer to the instance of the class\n\n        Returns:\n            The object's string representation\n        \"\"\"\n        return self.__repr__()\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.__repr__","title":"<code>__repr__()</code>","text":"<p>The repr function is used to generate a string representation of an object. This function should return a string that can be parsed by the Python interpreter to recreate the object. The repr function is called when you use print() on an object, or when you type its name in the REPL.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <p>Returns:</p> Type Description <p>A string representation of the object</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def __repr__(self):\n\n    \"\"\"The __repr__ function is used to generate a string representation of an object.\n    This function should return a string that can be parsed by the Python interpreter\n    to recreate the object. The __repr__ function is called when you use print() on an\n    object, or when you type its name in the REPL.\n\n    Args:\n        self: Refer to the instance of the class\n\n    Returns:\n        A string representation of the object\n    \"\"\"\n    string = f\"{self.__class__.__name__}(\\n\"\n    for k, v in self.__dict__.items():\n        if not k.startswith(\"_\"):\n            try:\n                repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                string += repr_src if len(repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n            except TypeError:\n                pass\n    return string + \")\"\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.__str__","title":"<code>__str__()</code>","text":"<p>The str function is called when you use the print function or when str() is used. It should return a string representation of the object.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <p>Returns:</p> Type Description <p>The object's string representation</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def __str__(self):\n\n    \"\"\"The __str__ function is called when you use the print function or when str() is used.\n    It should return a string representation of the object.\n\n    Args:\n        self: Refer to the instance of the class\n\n    Returns:\n        The object's string representation\n    \"\"\"\n    return self.__repr__()\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.add_basic_configurations","title":"<code>add_basic_configurations(axis_dims=..., axis_names=..., attn_mechanism=..., block_k=..., block_q=..., block_b=..., block_k_major=..., block_q_major_dkv=..., block_k_major_dkv=..., block_k_dkv=..., block_q_dkv=..., block_k_major_dq=..., block_k_dq=..., block_q_dq=..., query_partition_spec=..., generation_query_partition_spec=..., key_partition_spec=..., value_partition_spec=..., bias_partition_spec=..., attention_partition_spec=..., generation_bias_partition_spec=..., generation_attention_partition_spec=..., shard_attention_computation=..., use_sharded_kv_caching=..., backend=..., easy_method=..., bits=..., scan_ring_attention=..., scan_attention_layers=..., use_sharding_constraint=..., use_scan_mlp=..., scan_mlp_chunk_size=..., attention_axis_name=..., quantize_kv_cache=..., flash_attention_backward_pass_impl=...)</code>","text":"<p>It initializes all the attributes of an object, and it's called when you create a new instance of that class.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <code>axis_dims</code> <code>Sequence[int]</code> <p>Sequence[int]: Specify the number of dimensions for each axis</p> <code>...</code> <code>axis_names</code> <code>Sequence[str]</code> <p>Sequence[str]: Set the names of the axes</p> <code>...</code> <code>attn_mechanism</code> <code>AVAILABLE_ATTENTION_MECHANISMS</code> <p>Literal[\"vanilla\", \"flash\", \"splash\"]: attention mechanism to use</p> <code>...</code> <code>block_k</code> <code>int</code> <p>int: block size of key_states</p> <code>...</code> <code>block_q</code> <code>int</code> <p>int: block size of query_states</p> <code>...</code> <code>block_b</code> <code>int</code> <p>int: block size of bias</p> <code>...</code> <code>block_k_major</code> <code>int</code> <p>int: block size if key major</p> <code>...</code> <code>block_q_major_dkv</code> <code>int | None</code> <p>int: block size of block_q_major_dkv</p> <code>...</code> <code>block_k_major_dkv</code> <code>int | None</code> <p>int: block size of block_k_major_dkv</p> <code>...</code> <code>block_k_dkv</code> <code>int | None</code> <p>int: block size of block_k_dkv</p> <code>...</code> <code>block_q_dkv</code> <code>int | None</code> <p>int: block size of block_q_dkv</p> <code>...</code> <code>block_k_major_dq</code> <code>int | None</code> <p>int: block size of block_k_major_dq</p> <code>...</code> <code>block_k_dq</code> <code>int | None</code> <p>int: block size of block_k_dq</p> <code>...</code> <code>block_q_dq</code> <code>int | None</code> <p>int: block size of block_q_dq</p> <code>...</code> <code>query_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the partitioning of the query tensor</p> <code>...</code> <code>key_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Partition the key matrix</p> <code>...</code> <code>value_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the partitioning of the value tensor</p> <code>...</code> <code>bias_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the Attention Bias partition spec</p> <code>...</code> <code>attention_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Specify the partitioning of the attention weights</p> <code>...</code> <code>generation_attention_partition_spec</code> <code>PartitionSpec</code> <p>: PartitionSpec: Specify the partitioning of the attention weights</p> <code>...</code> <code>generation_bias_partition_spec</code> <code>PartitionSpec</code> <p>: PartitionSpec: Specify the partitioning of the Attention Bias partition spec in generation process</p> <code>...</code> <code>generation_query_partition_spec</code> <code>PartitionSpec</code> <p>: PartitionSpec: Specify the partitioning of the query tensor</p> <code>...</code> <code>shard_attention_computation</code> <code>bool</code> <p>bool: whenever to use shard_map for attention</p> <code>...</code> <code>use_sharded_kv_caching</code> <code>bool</code> <p>bool: whenever to use shard_map and sharding for key and value</p> <code>...</code> <code>backend</code> <code>Optional[None]</code> <p>Optional[None]: Specify the backend to use</p> <code>...</code> <code>easy_method</code> <code>Literal['train', 'serve', 'convert']</code> <p>Literal[\"train\", \"serve\", \"convert\"]: easydel Quantization Method to be applied for</p> <code>...</code> <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Model bits for quantization</p> <code>...</code> <code>use_sharding_constraint</code> <code>bool</code> <p>bool: whether to use sharding constraint for the arrays</p> <code>...</code> <code>scan_ring_attention</code> <code>bool</code> <p>bool: Whether to use can for ring attention</p> <code>...</code> <code>scan_attention_layers</code> <code>bool</code> <p>bool: Whether to use can for attention layers</p> <code>...</code> <code>use_scan_mlp</code> <code>bool</code> <p>bool: Determine whether to use scan_mlp or not</p> <code>...</code> <code>scan_mlp_chunk_size</code> <code>int</code> <p>int: Size of chunks in scan MLP.</p> <code>...</code> <code>attention_axis_name</code> <code>str</code> <p>str: Name of the attention axis name</p> <code>...</code> <code>quantize_kv_cache</code> <code>bool</code> <p>bool: Whether to quantize Key/Value in attention for generation process.</p> <code>...</code> <code>flash_attention_backward_pass_impl</code> <code>Literal['triton', 'xla']</code> <p>Literal[\"triton\", \"xla\"]: Specify the backward pass kernel for flash attention</p> <code>...</code> <p>in generation process in generation process</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def add_basic_configurations(\n        self,\n        axis_dims: Sequence[int] = ...,\n        axis_names: Sequence[str] = ...,\n        attn_mechanism: AVAILABLE_ATTENTION_MECHANISMS = ...,\n        block_k: int = ...,\n        block_q: int = ...,\n        block_b: int = ...,\n        block_k_major: int = ...,\n        block_q_major_dkv: int | None = ...,\n        block_k_major_dkv: int | None = ...,\n        block_k_dkv: int | None = ...,\n        block_q_dkv: int | None = ...,\n        block_k_major_dq: int | None = ...,\n        block_k_dq: int | None = ...,\n        block_q_dq: int | None = ...,\n        query_partition_spec: PartitionSpec = ...,\n        generation_query_partition_spec: PartitionSpec = ...,\n        key_partition_spec: PartitionSpec = ...,\n        value_partition_spec: PartitionSpec = ...,\n        bias_partition_spec: PartitionSpec = ...,\n        attention_partition_spec: PartitionSpec = ...,\n        generation_bias_partition_spec: PartitionSpec = ...,\n        generation_attention_partition_spec: PartitionSpec = ...,\n        shard_attention_computation: bool = ...,\n        use_sharded_kv_caching: bool = ...,\n        backend: Optional[None] = ...,\n        easy_method: Literal[\"train\", \"serve\", \"convert\"] = ...,\n        bits: Optional[int] = ...,\n        scan_ring_attention: bool = ...,\n        scan_attention_layers: bool = ...,\n        use_sharding_constraint: bool = ...,\n        use_scan_mlp: bool = ...,\n        scan_mlp_chunk_size: int = ...,\n        attention_axis_name: str = ...,\n        quantize_kv_cache: bool = ...,\n        flash_attention_backward_pass_impl: Literal[\"triton\", \"xla\"] = ...\n):\n    \"\"\"It initializes all the attributes of an object, and it's called when you create a new instance of that class.\n\n    Args:\n        self: Refer to the instance of the class\n        axis_dims: Sequence[int]: Specify the number of dimensions\n            for each axis\n        axis_names: Sequence[str]: Set the names of the axes\n        attn_mechanism: Literal[\"vanilla\", \"flash\", \"splash\"]:\n            attention mechanism to use\n        block_k: int: block size of key_states\n        block_q: int: block size of query_states\n        block_b: int: block size of bias\n        block_k_major: int: block size if key major\n        block_q_major_dkv: int: block size of block_q_major_dkv\n        block_k_major_dkv: int: block size of block_k_major_dkv\n        block_k_dkv: int: block size of block_k_dkv\n        block_q_dkv: int: block size of block_q_dkv\n        block_k_major_dq: int: block size of block_k_major_dq\n        block_k_dq: int: block size of block_k_dq\n        block_q_dq: int: block size of block_q_dq\n        query_partition_spec: PartitionSpec: Specify the\n            partitioning of the query tensor\n        key_partition_spec: PartitionSpec: Partition the key matrix\n        value_partition_spec: PartitionSpec: Specify the\n            partitioning of the value tensor\n        bias_partition_spec: PartitionSpec: Specify the Attention\n            Bias partition spec\n        attention_partition_spec: PartitionSpec: Specify the\n            partitioning of the attention weights\n        generation_attention_partition_spec: : PartitionSpec:\n            Specify the partitioning of the attention weights\n        generation_bias_partition_spec: : PartitionSpec: Specify the\n            partitioning of the Attention Bias partition spec in\n            generation process\n        generation_query_partition_spec: : PartitionSpec: Specify\n            the partitioning of the query tensor\n        shard_attention_computation: bool: whenever to use shard_map\n            for attention\n        use_sharded_kv_caching: bool: whenever to use shard_map and\n            sharding for key and value\n        backend: Optional[None]: Specify the backend to use\n        easy_method: Literal[\"train\", \"serve\", \"convert\"]: easydel\n            Quantization Method to be applied for\n        bits: Optional[int]: Model bits for quantization\n        use_sharding_constraint: bool: whether to use sharding\n            constraint for the arrays\n        scan_ring_attention: bool: Whether to use can for ring\n            attention\n        scan_attention_layers: bool: Whether to use can for\n            attention layers\n        use_scan_mlp: bool: Determine whether to use scan_mlp or not\n        scan_mlp_chunk_size: int: Size of chunks in scan MLP.\n        attention_axis_name: str: Name of the attention axis name\n        quantize_kv_cache: bool: Whether to quantize Key/Value in\n            attention for generation process.\n        flash_attention_backward_pass_impl: Literal[\"triton\",\n            \"xla\"]: Specify the backward pass kernel for flash\n            attention\n    in generation process\n    in generation process\n    \"\"\"\n    set_attrs_smartly(self, \"axis_dims\", (1, -1, 1, 1), axis_dims)\n    set_attrs_smartly(self, \"axis_names\", (\"dp\", \"fsdp\", \"tp\", \"sp\"), axis_names)\n\n    set_attrs_smartly(self, \"block_q\", 1024, block_q)\n    set_attrs_smartly(self, \"block_k\", 1024, block_k)\n    set_attrs_smartly(self, \"block_b\", 1024, block_b)\n\n    set_attrs_smartly(\n        self,\n        \"query_partition_spec\",\n        PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        query_partition_spec\n    )\n    set_attrs_smartly(\n        self,\n        \"generation_query_partition_spec\",\n        PartitionSpec((\"dp\", \"fsdp\"), None, \"tp\", None),\n        generation_query_partition_spec\n    )\n    set_attrs_smartly(\n        self,\n        \"generation_bias_partition_spec\",\n        PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n        generation_bias_partition_spec\n    )\n    set_attrs_smartly(\n        self,\n        \"key_partition_spec\",\n        PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        key_partition_spec\n    )\n    set_attrs_smartly(\n        self,\n        \"value_partition_spec\",\n        PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        value_partition_spec\n    )\n    set_attrs_smartly(\n        self,\n        \"bias_partition_spec\",\n        PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n        bias_partition_spec\n    )\n    set_attrs_smartly(\n        self,\n        \"attention_partition_spec\",\n        PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n        attention_partition_spec\n    )\n    set_attrs_smartly(\n        self,\n        \"generation_attention_partition_spec\",\n        PartitionSpec((\"dp\", \"fsdp\"), None, \"tp\", None),\n        generation_attention_partition_spec\n    )\n    set_attrs_smartly(self, \"use_sharding_constraint\", False, use_sharding_constraint)\n    set_attrs_smartly(self, \"backend\", jax.default_backend(), backend)\n    set_attrs_smartly(self, \"shard_attention_computation\", True, shard_attention_computation)\n    set_attrs_smartly(self, \"use_sharded_kv_caching\", True, use_sharded_kv_caching)\n    set_attrs_smartly(self, \"attn_mechanism\", \"sharded_vanilla\", attn_mechanism)\n\n    set_attrs_smartly(self, \"block_k_dkv\", block_k_dkv or self.block_k, block_k_dkv)\n    set_attrs_smartly(self, \"block_q_dkv\", block_q_dkv or self.block_q, block_q_dkv)\n\n    set_attrs_smartly(self, \"block_q_major_dkv\", block_q_major_dkv or self.block_q, block_q_major_dkv)\n    set_attrs_smartly(self, \"block_k_major_dkv\", block_k_major_dkv or self.block_k, block_k_major_dkv)\n\n    set_attrs_smartly(self, \"block_k_major\", block_k_major or self.block_k, block_k_major)\n    set_attrs_smartly(self, \"block_k_major_dq\", block_k_major_dq or self.block_k, block_k_major_dq)\n\n    set_attrs_smartly(self, \"block_k_dq\", block_k_dq or self.block_k, block_k_dq)\n    set_attrs_smartly(self, \"block_q_dq\", block_q_dq or self.block_q, block_q_dq)\n\n    set_attrs_smartly(self, \"easy_method\", EasyMethod.TRAIN, easy_method)\n    set_attrs_smartly(self, \"bits\", None, bits)\n    set_attrs_smartly(self, \"scan_attention_layers\", True, scan_attention_layers)\n    set_attrs_smartly(self, \"scan_ring_attention\", True, scan_ring_attention)\n    set_attrs_smartly(self, \"use_scan_mlp\", True, use_scan_mlp)\n    set_attrs_smartly(self, \"scan_mlp_chunk_size\", 1024, scan_mlp_chunk_size)\n    set_attrs_smartly(self, \"attention_axis_name\", \"sp\", attention_axis_name)\n    set_attrs_smartly(self, \"quantize_kv_cache\", False, quantize_kv_cache)\n    set_attrs_smartly(self, \"flash_attention_backward_pass_impl\", \"triton\", flash_attention_backward_pass_impl)\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.create_mesh","title":"<code>create_mesh(axis_dims=(1, -1, 1, 1), axis_names=('dp', 'fsdp', 'tp', 'sp'), backend='')</code>  <code>staticmethod</code>","text":"<p>The create_mesh function creates a mesh object that can be used to shard arrays.</p> <p>Parameters:</p> Name Type Description Default <code>axis_dims</code> <code>Sequence[int]</code> <p>Sequence[int]: Specify the dimensions of the mesh</p> <code>(1, -1, 1, 1)</code> <code>axis_names</code> <code>Sequence[str]</code> <p>Sequence[str]: Name the axes of the mesh</p> <code>('dp', 'fsdp', 'tp', 'sp')</code> <code>backend</code> <p>Specify the backend to use</p> <code>''</code> <p>Returns:</p> Type Description <p>A mesh object</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>@staticmethod\ndef create_mesh(\n        axis_dims: Sequence[int] = (1, -1, 1, 1), axis_names: Sequence[str] = (\"dp\", \"fsdp\", \"tp\", \"sp\"), backend=\"\"\n):\n    \"\"\"The create_mesh function creates a mesh object that can be used to shard arrays.\n\n    Args:\n        axis_dims: Sequence[int]: Specify the dimensions of the mesh\n        axis_names: Sequence[str]: Name the axes of the mesh\n        backend: Specify the backend to use\n\n    Returns:\n        A mesh object\n    \"\"\"\n    array_devices = jax.numpy.ones(\n        (len(jax.devices() if backend == \"\" else jax.devices(backend)), 1))\n    if isinstance(axis_dims, str):\n        axis_dims = eval(axis_dims)\n        warnings.warn(\n            \"axis_dims argument is not a Sequence of int and it's an string. \"\n            \"(backbone Warning in EasyDeLModuleConfig)\\n\"\n            f\"\\tchanged to {axis_dims}\"\n        )\n    if isinstance(axis_names, str):\n        axis_names = eval(axis_names)\n        warnings.warn(\n            \"axis_names argument is not a Sequence of strings and it's an string class. \"\n            \"(backbone Warning in EasyDeLModuleConfig)\\n\"\n            f\"\\tchanged to {axis_names}\"\n        )\n    resh = array_devices.reshape(axis_dims).shape\n\n    return Mesh(\n        create_device_mesh(resh), axis_names\n    )\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_axis_dims","title":"<code>get_axis_dims()</code>","text":"<p>The get_axis_dims function returns a sequence of integers representing the dimensions of each axis.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <code>Sequence[int]</code> <p>The dimensions of the axes</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def get_axis_dims(self) -&gt; Sequence[int]:\n    \"\"\"The get_axis_dims function returns a sequence of integers representing the dimensions of each axis.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        The dimensions of the axes\n    \"\"\"\n    return self.axis_dims\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_axis_names","title":"<code>get_axis_names()</code>","text":"<p>The get_axis_names function returns a list of the names of the axes.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <code>Sequence[str]</code> <p>A list of the names of all axes</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def get_axis_names(self) -&gt; Sequence[str]:\n    \"\"\"The get_axis_names function returns a list of the names of the axes.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A list of the names of all axes\n    \"\"\"\n    return self.axis_names\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_backend","title":"<code>get_backend()</code>","text":"<p>The get_backend function returns the backend that is currently being used. If no backend has been set, it will return the default JAX backend.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Bind the method to an object</p> required <p>Returns:</p> Type Description <code>str</code> <p>The backend platform</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def get_backend(self) -&gt; str:\n    \"\"\"The get_backend function returns the backend that is currently being used.\n    If no backend has been set, it will return the default JAX backend.\n\n    Args:\n        self: Bind the method to an object\n\n    Returns:\n        The backend platform\n    \"\"\"\n    return self.backend if not self.backend == \"\" else jax.lib.xla_bridge.get_backend().platform\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to specify how the parameters of a model are partitioned across devices.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access the attributes of the class</p> required <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether the model is fully sharded or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A tuple of tuples</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n\n    \"\"\"The get_partition_rules function is used to specify how the parameters of a model are partitioned across devices.\n\n    Args:\n        self: Access the attributes of the class\n        fully_sharded_data_parallel: bool: Determine whether the\n            model is fully sharded or not\n\n    Returns:\n        A tuple of tuples\n    \"\"\"\n    if not fully_sharded_data_parallel:\n        raise NotImplementedError()\n    else:\n        return (\n            ('.*', PartitionSpec((\"fsdp\", \"sp\"), ),),\n        )\n</code></pre>"},{"location":"generated-modules-easydel_modelling_utils/#src.python.easydel.modules.easydel_modelling_utils.EasyDeLPretrainedConfig.jax_mesh","title":"<code>jax_mesh()</code>","text":"<p>The jax_mesh function is a helper function that creates a Mesh object from the axis_dims and axis_names attributes of an object, which are assumed to be lists of integers and strings, respectively. The backend attribute is also used if it exists.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <p>Returns:</p> Type Description <code>Mesh</code> <p>A jaxMesh</p> Source code in <code>src/python/easydel/modules/easydel_modelling_utils.py</code> <pre><code>def jax_mesh(self) -&gt; Mesh:\n    \"\"\"The jax_mesh function is a helper function that creates a Mesh object from the\n    axis_dims and axis_names attributes of an object, which are assumed to be lists of integers and strings, respectively.\n    The backend attribute is also used if it exists.\n\n    Args:\n        self: Refer to the object itself\n\n    Returns:\n        A jaxMesh\n    \"\"\"\n    return self.create_mesh(\n        axis_dims=[v for k, v in self.axis_dims.items()] if isinstance(\n            self.axis_dims,\n            dict\n        ) else self.axis_dims,\n        axis_names=[v for k, v in self.axis_names.items()] if isinstance(\n            self.axis_names,\n            dict\n        ) else self.axis_names,\n        backend=(self.backend if self.backend is not None else \"\") if hasattr(\n            self, 'backend') else \"\"\n    )\n</code></pre>"},{"location":"generated-modules-falcon-falcon_configuration/","title":"modules.falcon.falcon_configuration","text":""},{"location":"generated-modules-falcon-modelling_falcon_flax/","title":"modules.falcon.modelling_falcon_flax","text":""},{"location":"generated-modules-falcon-modelling_falcon_flax/#src.python.easydel.modules.falcon.modelling_falcon_flax.FlaxFalconPretrainedModel","title":"<code>FlaxFalconPretrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/falcon/modelling_falcon_flax.py</code> <pre><code>class FlaxFalconPretrainedModel(EasyDeLFlaxPretrainedModel):\n    module_class: nn.Module = None\n    config_class = FalconConfig\n\n    def __init__(self, config,\n                 _do_init=False,\n                 dtype: jnp.dtype = jnp.float32,\n                 param_dtype: jnp.dtype = jnp.float32,\n                 input_shape: Tuple = (1, 1),\n                 precision: Optional[Union[str, jax.lax.Precision]] = jax.lax.Precision(\"fastest\")\n                 ):\n        module = self.module_class(config=config, dtype=dtype, param_dtype=param_dtype, precision=precision)\n        super().__init__(_do_init=_do_init, module=module, config=config, dtype=dtype, input_shape=input_shape)\n\n    def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Specify the shape of the input tensor\n            params: FrozenDict: Pass in the parameters of a pre-trained\n                model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n        if self.config.add_cross_attention:\n            encoder_hidden_states = jnp.zeros(\n                input_shape + (self.config.hidden_size,))\n            encoder_attention_mask = attention_mask\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids,\n                attention_mask,\n                position_ids,\n                encoder_hidden_states,\n                encoder_attention_mask,\n                return_dict=False,\n            )\n        else:\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids,\n                attention_mask,\n                position_ids,\n                return_dict=False\n            )\n\n        random_params = module_init_outputs[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: Optional[chex.Array] = None,\n            position_ids: Optional[chex.Array] = None,\n            past_key_values: Optional[nn.Module] = None,\n            output_attentions: bool = False,\n            train: bool = True,\n            return_dict: Optional[bool] = True,\n            params: FrozenDict = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        input_ids = jnp.asarray(input_ids, dtype=jnp.int32)\n        inputs = {'params': params or self.params} if add_params_field else params or self.params\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(input_ids.shape[1])[None, :],\n                                            (input_ids.shape[0], input_ids.shape[1]))\n        rngs = {}\n        if self.config.bits is not None:\n            rngs['params'] = jax.random.key(0)\n        if attention_mask is None:\n            attention_mask = jnp.ones((input_ids.shape[0], input_ids.shape[1]))\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),\n            jnp.array(attention_mask, dtype=\"i4\"),\n            jnp.array(position_ids, dtype=\"i4\"),\n            output_attentions,\n            not train,\n            False,\n            return_dict,\n            mutable=mutable,\n            rngs=rngs\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n        return outputs\n\n    def init_cache(self, batch_size, max_length):\n\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n        batch_size, seq_length = input_ids.shape\n\n        past_key_values = self.init_cache(batch_size, max_length)\n        extended_attention_mask = jnp.ones((batch_size, max_length), dtype=\"i4\")\n        if attention_mask is not None:\n            position_ids = attention_mask.cumsum(axis=-1) - 1\n            extended_attention_mask = lax.dynamic_update_slice(extended_attention_mask, attention_mask, (0, 0))\n        else:\n            position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[None, :], (batch_size, seq_length))\n\n        return {\n            \"past_key_values\": past_key_values,\n            \"attention_mask\": extended_attention_mask,\n            \"position_ids\": position_ids,\n        }\n\n    @staticmethod\n    def update_inputs_for_generation(model_outputs, model_kwargs):\n        model_kwargs[\"past_key_values\"] = model_outputs.past_key_values\n        model_kwargs[\"position_ids\"] = model_kwargs[\"position_ids\"][:, -1:] + 1\n        return model_kwargs\n</code></pre>"},{"location":"generated-modules-falcon-modelling_falcon_flax/#src.python.easydel.modules.falcon.modelling_falcon_flax.FlaxFalconPretrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Specify the shape of the input tensor</p> required <code>params</code> <code>FrozenDict</code> <p>FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/falcon/modelling_falcon_flax.py</code> <pre><code>def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Specify the shape of the input tensor\n        params: FrozenDict: Pass in the parameters of a pre-trained\n            model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids)\n    position_ids = jnp.broadcast_to(jnp.arange(\n        jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n    params_rng, dropout_rng = jax.random.split(rng)\n    rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n    if self.config.add_cross_attention:\n        encoder_hidden_states = jnp.zeros(\n            input_shape + (self.config.hidden_size,))\n        encoder_attention_mask = attention_mask\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids,\n            attention_mask,\n            position_ids,\n            encoder_hidden_states,\n            encoder_attention_mask,\n            return_dict=False,\n        )\n    else:\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids,\n            attention_mask,\n            position_ids,\n            return_dict=False\n        )\n\n    random_params = module_init_outputs[\"params\"]\n\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-falcon-modelling_falcon_flax/#src.python.easydel.modules.falcon.modelling_falcon_flax.built_bloom_alibi","title":"<code>built_bloom_alibi(attention_mask, num_attention_heads)</code>","text":"<p>The built_bloom_alibi function is used to create a bloom alibi for the attention mask. The bloom alibi is used in the Bloom Attention layer to ensure that each token has a unique attention vector, even if it's masked out. This ensures that all tokens have an equal chance of being selected as the most important token in the sequence, which helps with training stability and performance.</p> <p>Parameters:</p> Name Type Description Default <code>attention_mask</code> <p>Mask out the padding tokens in the input sequence</p> required <code>num_attention_heads</code> <p>Determine the number of attention heads in the model</p> required <p>Returns:</p> Type Description <p>A tensor of shape (batch_size, num_attention_heads, 1,</p> <p>sequence_length)</p> Source code in <code>src/python/easydel/modules/falcon/modelling_falcon_flax.py</code> <pre><code>def built_bloom_alibi(attention_mask, num_attention_heads):\n    \"\"\"The built_bloom_alibi function is used to create a bloom alibi for the attention mask.\n    The bloom alibi is used in the Bloom Attention layer to ensure that each token has a unique\n    attention vector, even if it's masked out. This ensures that all tokens have an equal chance of being selected as\n    the most important token in the sequence, which helps with training stability and performance.\n\n    Args:\n        attention_mask: Mask out the padding tokens in the input\n            sequence\n        num_attention_heads: Determine the number of attention heads in\n            the model\n\n    Returns:\n        A tensor of shape (batch_size, num_attention_heads, 1,\n        sequence_length)\n    \"\"\"\n    batch_size, sequence_length = attention_mask.shape\n    cp2 = 2 ** math.floor(math.log2(num_attention_heads))\n    base = jnp.asarray(\n        2 ** (- (2 ** -(math.log2(cp2) - 3))), dtype=jnp.float32\n    )\n    powers = jnp.arange(1, 1 + cp2, dtype=jnp.float32)\n    slops = jnp.power(base, powers)\n    if cp2 != num_attention_heads:\n        extra_base = jnp.asarray(\n            2 ** (-(2 ** -(math.log2(2 * cp2) - 3))), dtype=jnp.float32\n        )\n        num_rem_heads = min(cp2, num_attention_heads - cp2)\n        extra_power = jnp.arange(1, 1 + 2 * num_rem_heads, 2, dtype=jnp.dtype)\n        slops = jnp.concatenate([slops, jnp.power(extra_base, extra_power)], axis=0)\n    arange_tensor = (((jnp.cumsum(attention_mask, axis=-1)) - 1) * attention_mask)[:, jnp.newaxis, :]\n    alibi = slops[..., jnp.newaxis].astype(jnp.bfloat16) * arange_tensor\n    return alibi.reshape(batch_size, num_attention_heads, 1, sequence_length)\n</code></pre>"},{"location":"generated-modules-falcon-modelling_falcon_flax/#src.python.easydel.modules.falcon.modelling_falcon_flax.dropout_add","title":"<code>dropout_add(linen_drop, x, residual, deterministic)</code>","text":"<p>The dropout_add function is a helper function that adds the residual to the output of the dropout layer. This is necessary because we want to use deterministic=True when we are evaluating our model, but we still need to add in the residual. The reason for this is that during training, we have two paths through our network: one with dropout and one without. The path without dropout (residual) allows us to backpropagate gradients through both paths at once.</p> <p>Parameters:</p> Name Type Description Default <code>linen_drop</code> <code>Dropout</code> <p>flax.linen.Dropout: Specify the dropout layer</p> required <code>x</code> <code>Array</code> <p>chex.Array: Pass in the input to the dropout layer</p> required <code>residual</code> <code>Array</code> <p>chex.Array: Add the residual to the output of dropout_add</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether the dropout layer is active or not</p> required <p>Returns:</p> Type Description <code>Array</code> <p>A tensor that is the sum of the residual and a dropout layer</p> Source code in <code>src/python/easydel/modules/falcon/modelling_falcon_flax.py</code> <pre><code>def dropout_add(linen_drop: flax.linen.Dropout, x: chex.Array, residual: chex.Array, deterministic: bool) -&gt; chex.Array:\n    \"\"\"The dropout_add function is a helper function that adds the residual to the output of\n    the dropout layer. This is necessary because we want to use deterministic=True when\n    we are evaluating our model, but we still need to add in the residual. The reason for this\n    is that during training, we have two paths through our network: one with dropout and one without.\n    The path without dropout (residual) allows us to backpropagate gradients through both paths at once.\n\n    Args:\n        linen_drop: flax.linen.Dropout: Specify the dropout layer\n        x: chex.Array: Pass in the input to the dropout layer\n        residual: chex.Array: Add the residual to the output of\n            dropout_add\n        deterministic: bool: Determine whether the dropout layer is\n            active or not\n\n    Returns:\n        A tensor that is the sum of the residual and a dropout layer\n    \"\"\"\n    out = linen_drop(inputs=x, deterministic=deterministic)\n    out = residual + out\n    return out\n</code></pre>"},{"location":"generated-modules-flax_modelling_utils/","title":"modules.flax_modelling_utils","text":""},{"location":"generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.BaseJAXAttentionModule","title":"<code>BaseJAXAttentionModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code> <pre><code>class BaseJAXAttentionModule(nn.Module):\n    config: \"EasyDeLPretrainedConfig\"  # type: ignore\n\n    @nn.compact\n    def _concatenate_to_cache(self, key, value, query_states, attention_mask):\n        \"\"\"The _concatenate_to_cache function is used to concatenate the key and value vectors\n        of a query_states with those of previous queries. This allows for the attention mechanism to\n        look at all previous queries when computing its output. The function takes in three\n        arguments: key, value, and query_states. It also uses two variables that are stored in the cache:\n        cached_key and cached_value.\n\n        Args:\n            self: Access the variables stored in the cache\n            key: Store the keys of the encoder-decoder attention\n            value: Initialize the cached_value variable\n            query_states: Determine the number of cache vectors to\n                update\n            attention_mask: Mask out the padded vectors in the cache\n\n        Returns:\n            The key, value and attention_mask\n        \"\"\"\n        quantize_kv_cache = self.config.quantize_kv_cache\n        is_initialized = self.has_variable(\"cache\", \"cached_key\")\n        if quantize_kv_cache:\n            cached_key = self.variable(\"cache\", \"cached_key\", jnp.zeros, key.shape, jnp.int8)\n            cached_value = self.variable(\"cache\", \"cached_value\", jnp.zeros, value.shape, jnp.int8)\n            cached_key_scale = self.variable(\"cache\", \"cached_key_scale\", jnp.zeros, key.shape[0:-1], jnp.float32)\n            cached_value_scale = self.variable(\"cache\", \"cached_value_scale\", jnp.zeros, value.shape[0:-1], jnp.float32)\n            cache_index = self.variable(\"cache\", \"cache_index\", lambda: jnp.array(0, dtype=jnp.int32))\n        else:\n            cached_key_scale = None\n            cached_value_scale = None\n            cached_key = self.variable(\"cache\", \"cached_key\", jnp.zeros, key.shape, key.dtype)\n            cached_value = self.variable(\"cache\", \"cached_value\", jnp.zeros, value.shape, value.dtype)\n            cache_index = self.variable(\"cache\", \"cache_index\", lambda: jnp.array(0, dtype=jnp.int32))\n\n        if is_initialized:\n            *batch_dims, max_length, num_heads, depth_per_head = cached_key.value.shape\n            cur_index = cache_index.value\n            if query_states.shape[1] == 1 and self.config.use_sharded_kv_caching:\n                mesh = self.config.jax_mesh()\n\n                def fn(\n                        _cached_key,\n                        _cached_value,\n                        _key,\n                        _value,\n                        _cur_index\n                ):\n                    assert _key.shape[1] == 1 and _value.shape[1] == 1, (_key.shape, _value.shape)\n                    sp_size = max_length // mesh.shape[\"sp\"]\n                    axis_index = jax.lax.axis_index(\"sp\")\n                    _cur_index = _cur_index - axis_index * sp_size\n                    _key, _value = jax.lax.cond(\n                        jnp.logical_and(_cur_index &gt;= 0, _cur_index &lt; sp_size),\n                        lambda: (\n                            _cached_key.at[:, _cur_index].set(_key[:, -1]),\n                            _cached_value.at[:, _cur_index].set(_value[:, -1]),\n                        ),\n                        lambda: (_cached_key, _cached_value),\n                    )\n                    return _key, _value\n\n                fn = shard_map(\n                    fn, mesh=mesh,\n                    in_specs=(\n                        PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n                        PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n                        PartitionSpec((\"dp\", \"fsdp\"), None, \"tp\", None),\n                        PartitionSpec((\"dp\", \"fsdp\"), None, \"tp\", None),\n                        PartitionSpec()\n                    ),\n                    out_specs=(\n                        PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n                        PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n                    ),\n                    check_rep=False\n                )\n                key, value = fn(cached_key.value, cached_value.value, key, value, cur_index)\n            else:\n                *batch_dims, max_length, num_heads, depth_per_head = cached_key.value.shape\n                cur_index = cache_index.value\n                indices = (0,) * len(batch_dims) + (cur_index, 0, 0)  # type:ignore\n                if quantize_kv_cache:\n                    key_val = fjformer.linen.linen.de_quantize(\n                        cached_key.value,\n                        cached_key_scale.value,\n                        key.dtype,\n                        .0\n                    )\n                    value_val = fjformer.linen.linen.de_quantize(\n                        cached_value.value,\n                        cached_value_scale.value,\n                        value.dtype,\n                        .0\n                    )\n                else:\n                    key_val = cached_key.value\n                    value_val = cached_value.value\n\n                key = lax.dynamic_update_slice(key_val, key, indices)\n                value = lax.dynamic_update_slice(value_val, value, indices)\n                num_updated_cache_vectors = query_states.shape[1]\n                pad_mask = jnp.broadcast_to(\n                    jnp.arange(max_length) &lt; cur_index + num_updated_cache_vectors,\n                    tuple(batch_dims) + (1, num_updated_cache_vectors, max_length),\n                )\n                attention_mask = combine_masks(pad_mask, attention_mask)\n            if quantize_kv_cache:\n                kq, ks = fjformer.linen.linen.quantize(key)\n                vq, vs = fjformer.linen.linen.quantize(value)\n\n                cached_key.value = kq\n                cached_key_scale.value = ks\n\n                cached_value.value = vq\n                cached_value_scale.value = vs\n\n            else:\n                cached_key.value = key\n                cached_value.value = value\n\n            num_updated_cache_vectors = query_states.shape[1]\n            cache_index.value = cache_index.value + num_updated_cache_vectors\n        return key, value, attention_mask\n</code></pre>"},{"location":"generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.add_start_docstrings","title":"<code>add_start_docstrings(*docstr)</code>","text":"<p>The add_start_docstrings function is a decorator that adds the docstrings to the beginning of a function. The add_start_docstrings function takes in an arbitrary number of strings and returns a decorator. The returned decorator takes in one argument, fn, which is assumed to be a function. The docstring for fn is set equal to the concatenation of all the strings passed into add_start_docstrings plus (if it exists) the original docstring for fn.</p> <p>Parameters:</p> Name Type Description Default <code>*docstr</code> <p>Pass in a variable number of arguments to the function</p> <code>()</code> <p>Returns:</p> Type Description <p>A decorator that adds the docstrings to the function</p> Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code> <pre><code>def add_start_docstrings(*docstr):\n    \"\"\"The add_start_docstrings function is a decorator that adds the docstrings to the beginning of a function.\n    The add_start_docstrings function takes in an arbitrary number of strings and returns a decorator.\n    The returned decorator takes in one argument, fn, which is assumed to be a function. The docstring for fn is set equal to\n    the concatenation of all the strings passed into add_start_docstrings plus (if it exists) the original docstring for fn.\n\n    Args:\n        *docstr: Pass in a variable number of arguments to the function\n\n    Returns:\n        A decorator that adds the docstrings to the function\n    \"\"\"\n\n    def docstring_decorator(fn):\n        fn.__doc__ = \"\".join(docstr) + \\\n                     (fn.__doc__ if fn.__doc__ is not None else \"\")\n        return fn\n\n    return docstring_decorator\n</code></pre>"},{"location":"generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.apply_rotary_pos_emb","title":"<code>apply_rotary_pos_emb(tensor, sin_, cos_)</code>","text":"<p>The apply_rotary_pos_emb function applies a rotary positional embedding to the input tensor. b,h,s,d or pytorch style</p> <p>Parameters:</p> Name Type Description Default <code>tensor</code> <p>Store the tensor that is passed into the function</p> required <code>sin_</code> <p>Rotate the tensor by pi/2</p> required <code>cos_</code> <p>Apply the cosine function to the tensor</p> required <p>Returns:</p> Type Description <p>A tensor with the same shape as the input tensor</p> Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code> <pre><code>def apply_rotary_pos_emb(tensor, sin_, cos_):\n    \"\"\"The apply_rotary_pos_emb function applies a rotary positional embedding to the input tensor.\n    b,h,s,d or pytorch style\n\n    Args:\n        tensor: Store the tensor that is passed into the function\n        sin_: Rotate the tensor by pi/2\n        cos_: Apply the cosine function to the tensor\n\n    Returns:\n        A tensor with the same shape as the input tensor\n    \"\"\"\n    b, h, s, d = tensor.shape\n    return (tensor * cos_[:, :, :s, :]) + (rotate_half(tensor) * sin_[:, :, :s, :])\n</code></pre>"},{"location":"generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.canonicalize_dtype","title":"<code>canonicalize_dtype(*args, dtype=None, inexact=True)</code>","text":"<p>Canonicalize an optional dtype to the definitive dtype.</p> <p>If the <code>dtype</code> is None this function will infer the dtype. If it is not None it will be returned unmodified or an exceptions is raised if the dtype is invalid. from the input arguments using <code>jnp.result_type</code>.</p> <p>Parameters:</p> Name Type Description Default <code>*args</code> <p>JAX array compatible values. None values are ignored.</p> <code>()</code> <code>dtype</code> <code>Optional[ArrayDType]</code> <p>Optional dtype override. If specified the arguments are cast to the specified dtype instead and dtype inference is disabled.</p> <code>None</code> <code>inexact</code> <code>bool</code> <p>When True, the output dtype must be a subdtype</p> <code>True</code> <p>Returns:   The dtype that *args should be cast to.</p> Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code> <pre><code>def canonicalize_dtype(\n        *args, dtype: Optional[chex.ArrayDType] = None, inexact: bool = True\n) -&gt; chex.ArrayDType:\n    \"\"\"Canonicalize an optional dtype to the definitive dtype.\n\n    If the ``dtype`` is None this function will infer the dtype. If it is not\n    None it will be returned unmodified or an exceptions is raised if the dtype\n    is invalid.\n    from the input arguments using ``jnp.result_type``.\n\n    Args:\n      *args: JAX array compatible values. None values\n        are ignored.\n      dtype: Optional dtype override. If specified the arguments are cast to\n        the specified dtype instead and dtype inference is disabled.\n      inexact: When True, the output dtype must be a subdtype\n      of `jnp.inexact`. Inexact dtypes are real or complex floating points. This\n      is useful when you want to apply operations that don't work directly on\n      integers like taking a mean for example.\n    Returns:\n      The dtype that *args should be cast to.\n    \"\"\"\n    if dtype is None:\n        args_filtered = [jax.numpy.asarray(x) for x in args if x is not None]\n        dtype = jax.numpy.result_type(*args_filtered)\n        if inexact and not jax.numpy.issubdtype(dtype, jax.numpy.inexact):\n            dtype = jax.numpy.promote_types(jax.numpy.float32, dtype)\n    if inexact and not jax.numpy.issubdtype(dtype, jax.numpy.inexact):\n        raise ValueError(f'Dtype must be inexact: {dtype}')\n    return dtype\n</code></pre>"},{"location":"generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.create_mesh","title":"<code>create_mesh(axis_dims=(1, -1, 1, 1), axis_names=('dp', 'fsdp', 'tp', 'sp'), backend='')</code>","text":"<p>The create_mesh function creates a mesh object that can be used to shard arrays.</p> <p>Parameters:</p> Name Type Description Default <code>axis_dims</code> <code>Sequence[int]</code> <p>Sequence[int]: Specify the dimensions of the mesh</p> <code>(1, -1, 1, 1)</code> <code>axis_names</code> <code>Sequence[str]</code> <p>Sequence[str]: Name the axes of the mesh</p> <code>('dp', 'fsdp', 'tp', 'sp')</code> <code>backend</code> <p>Specify the backend to use</p> <code>''</code> <p>Returns:</p> Type Description <p>A mesh object</p> Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code> <pre><code>def create_mesh(\n        axis_dims: Sequence[int] = (1, -1, 1, 1), axis_names: Sequence[str] = (\"dp\", \"fsdp\", \"tp\", \"sp\"), backend=\"\"\n):\n    \"\"\"The create_mesh function creates a mesh object that can be used to shard arrays.\n\n    Args:\n        axis_dims: Sequence[int]: Specify the dimensions of the mesh\n        axis_names: Sequence[str]: Name the axes of the mesh\n        backend: Specify the backend to use\n\n    Returns:\n        A mesh object\n    \"\"\"\n    array_devices = jax.numpy.ones(\n        (len(jax.devices() if backend == \"\" else jax.devices(backend)), 1))\n    resh = array_devices.reshape(axis_dims).shape\n\n    return jax.sharding.Mesh(\n        create_device_mesh(resh), axis_names\n    )\n</code></pre>"},{"location":"generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.get_dot_general_by_bits","title":"<code>get_dot_general_by_bits(bits=None, mode=EasyMethod.TRAIN)</code>","text":"<p>The get_general_dot function is a helper function that returns a q_flax.QDotGeneral object with the specified number of bits for forward and backward passes. If no bits are specified, the function returns None.</p> <p>Parameters:</p> Name Type Description Default <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Specify the number of bits for quantization</p> <code>None</code> <code>mode</code> <code>Literal['train', 'serve', 'convert']</code> <p>EasyMethod: Specify the use of model to init the QDot Method for (e.q TRAIN,SERVE,...)</p> <code>TRAIN</code> <p>Returns:</p> Type Description <code>dict</code> <p>A dict that contain dot_general_cls</p> Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code> <pre><code>def get_dot_general_by_bits(\n        bits: Optional[int] = None,\n        mode: Literal[\"train\", \"serve\", \"convert\"] = EasyMethod.TRAIN\n) -&gt; dict:\n    \"\"\"The get_general_dot function is a helper function that returns a q_flax.QDotGeneral object\n    with the specified number of bits for forward and backward passes. If no bits are specified,\n    the function returns None.\n\n    Args:\n        bits: Optional[int]: Specify the number of bits for quantization\n        mode: EasyMethod: Specify the use of model to init the QDot\n            Method for (e.q TRAIN,SERVE,...)\n\n    Returns:\n        A dict that contain dot_general_cls\n    \"\"\"\n    if mode == EasyMethod.TRAIN:\n        rhs_quant_mode = q_flax.QuantMode.TRAIN\n    elif mode == EasyMethod.EVAL or mode == EasyMethod.SERVE:\n        rhs_quant_mode = q_flax.QuantMode.SERVE\n    elif mode == EasyMethod.CONVERT:\n        rhs_quant_mode = q_flax.QuantMode.CONVERT\n    else:\n        raise ValueError(\"Unknown Quant Method for EasyMethod\")\n    if bits is not None:\n        return {\n            \"dot_general_cls\": functools.partial(\n                q_flax.QDotGeneral,\n                q_config.fully_quantized(\n                    fwd_bits=bits,\n                    bwd_bits=bits\n                ),\n                rhs_quant_mode=rhs_quant_mode\n            )\n        }\n    return {}  # empty just in case of not getting any error\n</code></pre>"},{"location":"generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.get_gradient_checkpoint_policy","title":"<code>get_gradient_checkpoint_policy(name)</code>","text":"<p>The get_gradient_checkpoint_policy function is a helper function that returns the gradient checkpoint policy     specified by the name parameter.</p> <p>:param name: Select the checkpoint policy from the dictionary :return: A function that is used in the jax</p> Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code> <pre><code>def get_gradient_checkpoint_policy(name):\n    \"\"\"\n    The get_gradient_checkpoint_policy function is a helper function that returns the gradient checkpoint policy\n        specified by the name parameter.\n\n    :param name: Select the checkpoint policy from the dictionary\n    :return: A function that is used in the jax\n\n    \"\"\"\n    gradients = dict(\n        everything_saveable=jax.checkpoint_policies.everything_saveable,\n        nothing_saveable=jax.checkpoint_policies.nothing_saveable,\n        dots_saveable=jax.checkpoint_policies.dots_saveable,\n        checkpoint_dots=jax.checkpoint_policies.checkpoint_dots,\n        dots_with_no_batch_dims_saveable=jax.checkpoint_policies.dots_with_no_batch_dims_saveable,\n        checkpoint_dots_with_no_batch_dims=jax.checkpoint_policies.checkpoint_dots_with_no_batch_dims,\n        save_anything_except_these_names=jax.checkpoint_policies.save_anything_except_these_names,\n        save_any_names_but_these=jax.checkpoint_policies.save_any_names_but_these,\n        save_only_these_names=jax.checkpoint_policies.save_only_these_names,\n        save_from_both_policies=jax.checkpoint_policies.save_from_both_policies\n    )\n    return gradients[name]\n</code></pre>"},{"location":"generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.get_names_from_partition_spec","title":"<code>get_names_from_partition_spec(partition_specs)</code>","text":"<p>The get_names_from_partition_spec function takes a partition_specs argument, which is either a dictionary or list. If it's a dictionary, the function converts it to a list of values. Then for each item in the partition_specs list:     If the item is None, continue (do nothing) and move on to next iteration of loop.     If the item is an instance of str (i.e., if it's just one string), add that string to names set and move     on to next iteration of loop.     Otherwise, (if not None or str), call get_names_from_partition_spec recurs</p> <p>Parameters:</p> Name Type Description Default <code>partition_specs</code> <p>Define the partitioning of a table</p> required <p>Returns:</p> Type Description <p>A list of the names of all partitions</p> Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code> <pre><code>def get_names_from_partition_spec(partition_specs):\n    \"\"\"The get_names_from_partition_spec function takes a partition_specs argument, which is either a dictionary or list.\n    If it's a dictionary, the function converts it to a list of values. Then for each item in the partition_specs list:\n        If the item is None, continue (do nothing) and move on to next iteration of loop.\n        If the item is an instance of str (i.e., if it's just one string), add that string to names set and move\n        on to next iteration of loop.\n        Otherwise, (if not None or str), call get_names_from_partition_spec recurs\n\n    Args:\n        partition_specs: Define the partitioning of a table\n\n    Returns:\n        A list of the names of all partitions\n    \"\"\"\n    names = set()\n    if isinstance(partition_specs, dict):\n        partition_specs = partition_specs.values()\n    for item in partition_specs:\n        if item is None:\n            continue\n        elif isinstance(item, str):\n            names.add(item)\n        else:\n            names.update(get_names_from_partition_spec(item))\n\n    return list(names)\n</code></pre>"},{"location":"generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.get_ranks_and_size","title":"<code>get_ranks_and_size(mesh)</code>","text":"<p>The get_ranks_and_size function is used to determine the number of MPI processes (<code>mp_node_size</code>) and the number of devices per process (<code>dp_node_size</code>). The <code>mesh.shape[mp]</code> determines how many MPI processes are needed, and then we divide that by the local device count to get <code>`mp_node_size = max( 1, mp / jax.local )</code>. This means that if there are more than enough devices for all MPI ranks on a node, each rank will only use one device; otherwise it will use</p> <p>Parameters:</p> Name Type Description Default <code>mesh</code> <p>Get the shape of the mesh</p> required <p>Returns:</p> Type Description <p>A dictionary with the following keys:</p> Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code> <pre><code>def get_ranks_and_size(mesh):\n    \"\"\"The get_ranks_and_size function is used to determine the number of MPI processes\n    (``mp_node_size``) and the number of devices per process (``dp_node_size``).\n    The ``mesh.shape[mp]`` determines how many MPI processes are needed,\n    and then we divide that by the local device count to get ``mp_node_size = max( 1, mp / jax.local )`.\n    This means that if there are more than enough devices for all MPI ranks on a node, each rank will only use one device; otherwise it will use\n\n    Args:\n        mesh: Get the shape of the mesh\n\n    Returns:\n        A dictionary with the following keys:\n    \"\"\"\n    out = dict(mesh=mesh)\n    total_process_size = mesh.shape[\"tp\"] * mesh.shape[\"sp\"]\n    mp_node_size = max(1, total_process_size // jax.local_device_count())\n    dp_node_size = jax.process_count() // mp_node_size\n    out.update(mp_node_size=mp_node_size,\n               dp_node_size=dp_node_size)\n\n    dp_node_rank = jax.process_index() // mp_node_size\n    mp_node_rank = jax.process_index() % mp_node_size\n    out.update(dp_node_rank=dp_node_rank,\n               mp_node_rank=mp_node_rank)\n    return out\n</code></pre>"},{"location":"generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.names_in_mesh","title":"<code>names_in_mesh(*names)</code>","text":"<p>The names_in_mesh function is a decorator that can be used to check whether the names of the axes passed into a function are valid.  It will raise an exception if any of the axis names are not in the physical mesh.  For example, if you have a function that takes two axes as arguments, and you want to make sure they're both in your mesh:</p> <p>Parameters:</p> Name Type Description Default <code>*names</code> <p>Collect all the names passed to the function into a tuple</p> <code>()</code> <p>Returns:</p> Type Description <p>A boolean indicating whether all the given</p> Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code> <pre><code>def names_in_mesh(*names):\n    \"\"\"The names_in_mesh function is a decorator that can be used to check whether\n    the names of the axes passed into a function are valid.  It will raise an\n    exception if any of the axis names are not in the physical mesh.  For example,\n    if you have a function that takes two axes as arguments, and you want to make sure they're both in your mesh:\n\n    Args:\n        *names: Collect all the names passed to the function into a\n            tuple\n\n    Returns:\n        A boolean indicating whether all the given\n    \"\"\"\n    return set(names) &lt;= set(pxla.thread_resources.env.physical_mesh.axis_names)\n</code></pre>"},{"location":"generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.repeat_kv_bnsh","title":"<code>repeat_kv_bnsh(x, n_rep)</code>","text":"<p>The repeat_kv_bnsh function is used to repeat the key and value vectors for each head in a multi-head attention module. This function takes as input an array of shape (batch_size, n_heads, sequence_length, head_dim) and returns an array of shape (batch_size, n_heads * nrep, sequence length, head dim). The reason this is necessary is because the attention module expects keys/values/queries to be repeated across heads but not across batches. However we want our keys/values/queries to be repeated both across heads AND batches so that we can use them</p> <p>Parameters:</p> Name Type Description Default <code>x</code> <code>Array</code> <p>chex.Array: Pass in the input to the function</p> required <code>n_rep</code> <code>int</code> <p>int: Repeat the key and value heads</p> required <p>Returns:</p> Type Description <code>Array</code> <p>A new array with the same shape as x, except for the second</p> <code>Array</code> <p>dimension which is n_kv_heads * n_rep</p> Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code> <pre><code>def repeat_kv_bnsh(x: chex.Array, n_rep: int) -&gt; chex.Array:\n    \"\"\"The repeat_kv_bnsh function is used to repeat the key and value vectors for each head in a multi-head attention\n    module. This function takes as input an array of shape (batch_size, n_heads, sequence_length, head_dim) and returns\n    an array of shape (batch_size, n_heads * nrep, sequence length, head dim). The reason this is necessary is because the\n    attention module expects keys/values/queries to be repeated across heads but not across batches. However we want our\n    keys/values/queries to be repeated both across heads AND batches so that we can use them\n\n    Args:\n        x: chex.Array: Pass in the input to the function\n        n_rep: int: Repeat the key and value heads\n\n    Returns:\n        A new array with the same shape as x, except for the second\n        dimension which is n_kv_heads * n_rep\n    \"\"\"\n    bs, n_kv_heads, s, head_dim = x.shape\n    if n_rep == 1:\n        return x\n    x = x[:, :, jax.numpy.newaxis, :, :]\n    x = jax.numpy.repeat(x, n_rep, axis=2)\n\n    return x.reshape(bs, n_kv_heads * n_rep, s, head_dim)\n</code></pre>"},{"location":"generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.repeat_kv_bsnh","title":"<code>repeat_kv_bsnh(x, n_rep)</code>","text":"<p>The repeat_kv_bsnh function is used to repeat the key and value vectors for each head.</p> <p>Parameters:</p> Name Type Description Default <code>x</code> <code>Array</code> <p>chex.Array: Specify the input array</p> required <code>n_rep</code> <code>int</code> <p>int: Repeat the key-value attention heads n_rep times</p> required <p>Returns:</p> Type Description <code>Array</code> <p>A new array with the same batch size, sequence length, and head</p> <code>Array</code> <p>dimension as the input array</p> Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code> <pre><code>def repeat_kv_bsnh(x: chex.Array, n_rep: int) -&gt; chex.Array:\n    \"\"\"The repeat_kv_bsnh function is used to repeat the key and value vectors for each head.\n\n    Args:\n        x: chex.Array: Specify the input array\n        n_rep: int: Repeat the key-value attention heads n_rep times\n\n    Returns:\n        A new array with the same batch size, sequence length, and head\n        dimension as the input array\n    \"\"\"\n    bs, s, n_kv_heads, head_dim = x.shape\n    x = x.transpose(0, 2, 1, 3)\n    if n_rep == 1:\n        return x\n    x = x[:, :, jax.numpy.newaxis, :, :]\n    x = jax.numpy.repeat(x, n_rep, axis=2)\n\n    x = x.transpose(0, 2, 1, 3)\n\n    return x.reshape(bs, s, n_kv_heads * n_rep, head_dim)\n</code></pre>"},{"location":"generated-modules-flax_modelling_utils/#src.python.easydel.modules.flax_modelling_utils.rotate_half","title":"<code>rotate_half(x)</code>","text":"<p>The rotate_half function takes a complex-valued array and rotates the phase of its second half by 180 degrees. This is equivalent to multiplying the second half by -i, or equivalently rotating it 90 degrees counterclockwise.</p> <p>Parameters:</p> Name Type Description Default <code>x</code> <p>Specify the input array</p> required <p>Returns:</p> Type Description <p>A new array that is the same as the input</p> Source code in <code>src/python/easydel/modules/flax_modelling_utils.py</code> <pre><code>def rotate_half(x):\n    \"\"\"The rotate_half function takes a complex-valued array and rotates the\n    phase of its second half by 180 degrees. This is equivalent to multiplying\n    the second half by -i, or equivalently rotating it 90 degrees counterclockwise.\n\n    Args:\n        x: Specify the input array\n\n    Returns:\n        A new array that is the same as the input\n    \"\"\"\n    x1 = x[..., : x.shape[-1] // 2]\n    x2 = x[..., x.shape[-1] // 2:]\n    return jax.numpy.concatenate((-x2, x1), axis=-1)\n</code></pre>"},{"location":"generated-modules-gemma-gemma_configuration/","title":"modules.gemma.gemma_configuration","text":""},{"location":"generated-modules-gemma-gemma_configuration/#src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig","title":"<code>GemmaConfig</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> Source code in <code>src/python/easydel/modules/gemma/gemma_configuration.py</code> <pre><code>class GemmaConfig(EasyDeLPretrainedConfig):\n    model_type: str = \"gemma\"\n\n    def __init__(\n            self,\n            vocab_size=256000,\n            hidden_size=3072,\n            intermediate_size=24576,\n            num_hidden_layers=28,\n            num_attention_heads=16,\n            num_key_value_heads=16,\n            head_dim=256,\n            hidden_act=\"gelu_pytorch_tanh\",\n            max_position_embeddings=8192,\n            initializer_range=0.02,\n            rms_norm_eps=1e-6,\n            use_cache=True,\n            pad_token_id=0,\n            eos_token_id=1,\n            bos_token_id=2,\n            tie_word_embeddings=True,\n            rope_theta=10000.0,\n            attention_bias=False,\n            attention_dropout=0.0,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            bits: Optional[int] = None,\n            scan_layers: bool = False,\n            hidden_activation=None,\n            **kwargs,\n    ):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It sets up the attributes of an object, which are sometimes called fields or properties.\n        The __init__ function can accept arguments, but self must be the first one.\n        \"\"\"\n\n        self.gradient_checkpointing = gradient_checkpointing\n        self.bits = bits\n        self.scan_layers = scan_layers\n        self.vocab_size = vocab_size\n        self.max_position_embeddings = max_position_embeddings\n        self.hidden_size = hidden_size\n        self.intermediate_size = intermediate_size\n        self.num_hidden_layers = num_hidden_layers\n        self.num_attention_heads = num_attention_heads\n        self.head_dim = head_dim\n        self.num_key_value_heads = num_key_value_heads\n        self.hidden_act = hidden_act\n        self.initializer_range = initializer_range\n        self.rms_norm_eps = rms_norm_eps\n        self.use_cache = use_cache\n        self.rope_theta = rope_theta\n        self.attention_bias = attention_bias\n        self.attention_dropout = attention_dropout\n        self.hidden_activation = hidden_activation\n        super().__init__(\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            pad_token_id=pad_token_id,\n            tie_word_embeddings=tie_word_embeddings,\n            bits=bits,\n            **kwargs,\n        )\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n            1) A regex string that matches the name of one or more parameters in the model.\n            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to\n                partition the model fully or not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"mlp/down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec(None)),\n        ) if not fully_sharded_data_parallel else (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"self_attn/o_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n\n    def add_jax_args(\n            self,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            bits: Optional[int] = None,\n            **kwargs,\n    ):\n        \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n        Args:\n            self: Refer to the current object\n            gradient_checkpointing: str: Control the amount of memory\n                used by jax\n            bits: Optional[int]: Determine the number of bits used in\n                the quantization\n        \"\"\"\n        self.gradient_checkpointing = gradient_checkpointing\n        self.bits = bits\n\n    @staticmethod\n    def get_weight_decay_exclusions():\n        return tuple()\n\n    @staticmethod\n    def rng_keys():\n        return 'params', 'dropout', 'fcm'\n</code></pre>"},{"location":"generated-modules-gemma-gemma_configuration/#src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig.__init__","title":"<code>__init__(vocab_size=256000, hidden_size=3072, intermediate_size=24576, num_hidden_layers=28, num_attention_heads=16, num_key_value_heads=16, head_dim=256, hidden_act='gelu_pytorch_tanh', max_position_embeddings=8192, initializer_range=0.02, rms_norm_eps=1e-06, use_cache=True, pad_token_id=0, eos_token_id=1, bos_token_id=2, tie_word_embeddings=True, rope_theta=10000.0, attention_bias=False, attention_dropout=0.0, gradient_checkpointing='nothing_saveable', bits=None, scan_layers=False, hidden_activation=None, **kwargs)</code>","text":"<p>The init function is called when the class is instantiated. It sets up the attributes of an object, which are sometimes called fields or properties. The init function can accept arguments, but self must be the first one.</p> Source code in <code>src/python/easydel/modules/gemma/gemma_configuration.py</code> <pre><code>def __init__(\n        self,\n        vocab_size=256000,\n        hidden_size=3072,\n        intermediate_size=24576,\n        num_hidden_layers=28,\n        num_attention_heads=16,\n        num_key_value_heads=16,\n        head_dim=256,\n        hidden_act=\"gelu_pytorch_tanh\",\n        max_position_embeddings=8192,\n        initializer_range=0.02,\n        rms_norm_eps=1e-6,\n        use_cache=True,\n        pad_token_id=0,\n        eos_token_id=1,\n        bos_token_id=2,\n        tie_word_embeddings=True,\n        rope_theta=10000.0,\n        attention_bias=False,\n        attention_dropout=0.0,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        bits: Optional[int] = None,\n        scan_layers: bool = False,\n        hidden_activation=None,\n        **kwargs,\n):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It sets up the attributes of an object, which are sometimes called fields or properties.\n    The __init__ function can accept arguments, but self must be the first one.\n    \"\"\"\n\n    self.gradient_checkpointing = gradient_checkpointing\n    self.bits = bits\n    self.scan_layers = scan_layers\n    self.vocab_size = vocab_size\n    self.max_position_embeddings = max_position_embeddings\n    self.hidden_size = hidden_size\n    self.intermediate_size = intermediate_size\n    self.num_hidden_layers = num_hidden_layers\n    self.num_attention_heads = num_attention_heads\n    self.head_dim = head_dim\n    self.num_key_value_heads = num_key_value_heads\n    self.hidden_act = hidden_act\n    self.initializer_range = initializer_range\n    self.rms_norm_eps = rms_norm_eps\n    self.use_cache = use_cache\n    self.rope_theta = rope_theta\n    self.attention_bias = attention_bias\n    self.attention_dropout = attention_dropout\n    self.hidden_activation = hidden_activation\n    super().__init__(\n        bos_token_id=bos_token_id,\n        eos_token_id=eos_token_id,\n        pad_token_id=pad_token_id,\n        tie_word_embeddings=tie_word_embeddings,\n        bits=bits,\n        **kwargs,\n    )\n</code></pre>"},{"location":"generated-modules-gemma-gemma_configuration/#src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig.add_jax_args","title":"<code>add_jax_args(gradient_checkpointing='nothing_saveable', bits=None, **kwargs)</code>","text":"<p>The add_jax_args function adds the following arguments to the Transformer class:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the current object</p> required <code>gradient_checkpointing</code> <code>str</code> <p>str: Control the amount of memory used by jax</p> <code>'nothing_saveable'</code> <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Determine the number of bits used in the quantization</p> <code>None</code> Source code in <code>src/python/easydel/modules/gemma/gemma_configuration.py</code> <pre><code>def add_jax_args(\n        self,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        bits: Optional[int] = None,\n        **kwargs,\n):\n    \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n    Args:\n        self: Refer to the current object\n        gradient_checkpointing: str: Control the amount of memory\n            used by jax\n        bits: Optional[int]: Determine the number of bits used in\n            the quantization\n    \"\"\"\n    self.gradient_checkpointing = gradient_checkpointing\n    self.bits = bits\n</code></pre>"},{"location":"generated-modules-gemma-gemma_configuration/#src.python.easydel.modules.gemma.gemma_configuration.GemmaConfig.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:     1) A regex string that matches the name of one or more parameters in the model.     2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to partition the model fully or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/gemma/gemma_configuration.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n        1) A regex string that matches the name of one or more parameters in the model.\n        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to\n            partition the model fully or not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"mlp/down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\".*\", PartitionSpec(None)),\n    ) if not fully_sharded_data_parallel else (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"self_attn/o_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-gemma-modelling_gemma_flax/","title":"modules.gemma.modelling_gemma_flax","text":""},{"location":"generated-modules-gemma-modelling_gemma_flax/#src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaAttention","title":"<code>FlaxGemmaAttention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/gemma/modelling_gemma_flax.py</code> <pre><code>class FlaxGemmaAttention(BaseJAXAttentionModule):\n    config: GemmaConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[str, jax.lax.Precision]] = jax.lax.Precision(\"fastest\")\n    causal: bool = True\n    is_cross_attention: bool = False\n\n    def setup(self):\n        config = self.config\n        self.embed_dim = config.hidden_size\n        self.num_heads = config.num_attention_heads\n        self.head_dim = config.head_dim\n        self.attention_softmax_in_fp32 = self.dtype is not jnp.float32\n\n        self.num_key_value_heads = config.num_key_value_heads\n        self.num_key_value_groups = self.num_heads // self.num_key_value_heads\n\n        kernel = jax.nn.initializers.normal(self.config.initializer_range)\n        self.q_proj = Linear(\n            self.num_heads * self.head_dim,\n            use_bias=config.attention_bias,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            kernel_init=kernel,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.k_proj = Linear(\n            self.num_key_value_heads * self.head_dim,\n            use_bias=config.attention_bias,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            kernel_init=kernel,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.v_proj = Linear(\n            self.num_key_value_heads * self.head_dim,\n            use_bias=config.attention_bias,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            kernel_init=kernel,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.o_proj = Linear(\n            self.embed_dim,\n            use_bias=config.attention_bias,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            kernel_init=kernel,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.attention_performer = AttentionModule(\n            use_sharding_constraint=self.config.use_sharding_constraint,\n            block_k_major=self.config.block_k_major,\n            block_b=self.config.block_b,\n            block_q=self.config.block_q,\n            block_k=self.config.block_k,\n            block_q_major_dkv=self.config.block_q_major_dkv,\n            block_k_major_dkv=self.config.block_k_major_dkv,\n            block_k_major_dq=self.config.block_k_major_dq,\n            block_k_dkv=self.config.block_k_dkv,\n            block_q_dkv=self.config.block_q_dkv,\n            block_q_dq=self.config.block_q_dq,\n            block_k_dq=self.config.block_k_dq,\n            num_attention_heads=self.config.num_attention_heads,\n            attention_dropout=self.config.attention_dropout,\n            head_dims=self.head_dim,\n            attention_partition_spec=self.config.attention_partition_spec,\n            shard_attention_computation=self.config.shard_attention_computation,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            bias_partition_spec=self.config.bias_partition_spec,\n            key_partition_spec=self.config.key_partition_spec,\n            query_partition_spec=self.config.query_partition_spec,\n            generation_query_partition_spec=self.config.generation_query_partition_spec,\n            generation_bias_partition_spec=self.config.generation_bias_partition_spec,\n            generation_attention_partition_spec=self.config.generation_attention_partition_spec,\n            value_partition_spec=self.config.value_partition_spec,\n            scan_ring_attention=self.config.scan_ring_attention,\n            mesh=self.config.jax_mesh(),\n            sm_scale=self.head_dim ** -0.5,\n            axis_name=self.config.attention_axis_name\n        )\n\n        self.rotary_emb = FlaxGemmaRotaryEmbedding(config, dtype=self.dtype)\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.num_heads * self.head_dim,))\n\n    def _split_heads(self, hidden_states, num_heads):\n        return hidden_states.reshape(hidden_states.shape[:2] + (num_heads, self.head_dim))\n\n    @staticmethod\n    def _transpose_sequence_head(query, key, value):\n        \"\"\"The _transpose_sequence_head function transposes the query, key and value matrices.\n\n        Args:\n            query: Get the attention weights for each of the heads\n            key: Determine the number of heads\n            value: Store the values of the input\n\n        Returns:\n            The transpose of the query, key and value matrices\n        \"\"\"\n        return jnp.transpose(query, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value, (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n        \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n        Args:\n            self: Access variables that belong to the class\n            batch_size: Reshape the query, key and value tensors\n            sequence_length: Reshape the query, key and value tensors\n            query: Calculate the attention weights\n            key: Calculate the attention\n            value: Compute the attention weights\n            freq_cis: Calculate the frequency of each word in the\n                vocabulary\n            position_ids: Identify the position of each token in the\n                sequence\n\n        Returns:\n            A tuple of 3 tensors: query, key and value\n        \"\"\"\n        query = query.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_attention_heads,\n            self.head_dim\n        )\n        key = key.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n        value = value.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n\n        query, key, value = self._transpose_sequence_head(query, key, value)\n        query, key = self.rotary_emb(\n            position_ids=position_ids, query_states=query, key_states=key, freq_cis=freq_cis\n        )\n        return self._transpose_sequence_head(query, key, value)\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n    ):\n        (\n            query_states,\n            key_states,\n            value_states\n        ) = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(hidden_states)\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query_states.shape[0],\n            query_states.shape[1],\n            query_states,\n            key_states,\n            value_states,\n            freq_cis,\n            position_ids\n        )\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask, (0, 0, mask_shift, 0), (1, 1, query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(causal_mask, (batch_size,) + causal_mask.shape[1:])\n\n        attention_mask = jnp.broadcast_to(jnp.expand_dims(attention_mask, axis=(-3, -2)), causal_mask.shape)\n        attention_mask = combine_masks(attention_mask, causal_mask)\n\n        dropout_rng = None\n        if not deterministic and self.config.attention_dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n\n        attention_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(self.dtype).min).astype(self.dtype),\n        )\n\n        key_states = jnp.repeat(key_states, repeats=self.num_key_value_groups, axis=2)\n        value_states = jnp.repeat(value_states, repeats=self.num_key_value_groups, axis=2)\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=attention_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        attn_output = self.o_proj(attn_output)\n\n        return (\n            attn_output,\n            attentions.attention_weights\n        ) if output_attentions else (attn_output,)\n</code></pre>"},{"location":"generated-modules-gemma-modelling_gemma_flax/#src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaAttention.apply_rotary","title":"<code>apply_rotary(batch_size, sequence_length, query, key, value, freq_cis, position_ids)</code>","text":"<p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class. The main difference is that it takes in an additional argument, freq_cis, which are used to calculate the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>batch_size</code> <p>Reshape the query, key and value tensors</p> required <code>sequence_length</code> <p>Reshape the query, key and value tensors</p> required <code>query</code> <p>Calculate the attention weights</p> required <code>key</code> <p>Calculate the attention</p> required <code>value</code> <p>Compute the attention weights</p> required <code>freq_cis</code> <p>Calculate the frequency of each word in the vocabulary</p> required <code>position_ids</code> <p>Identify the position of each token in the sequence</p> required <p>Returns:</p> Type Description <p>A tuple of 3 tensors: query, key and value</p> Source code in <code>src/python/easydel/modules/gemma/modelling_gemma_flax.py</code> <pre><code>def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n    \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n    Args:\n        self: Access variables that belong to the class\n        batch_size: Reshape the query, key and value tensors\n        sequence_length: Reshape the query, key and value tensors\n        query: Calculate the attention weights\n        key: Calculate the attention\n        value: Compute the attention weights\n        freq_cis: Calculate the frequency of each word in the\n            vocabulary\n        position_ids: Identify the position of each token in the\n            sequence\n\n    Returns:\n        A tuple of 3 tensors: query, key and value\n    \"\"\"\n    query = query.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_attention_heads,\n        self.head_dim\n    )\n    key = key.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n    value = value.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n\n    query, key, value = self._transpose_sequence_head(query, key, value)\n    query, key = self.rotary_emb(\n        position_ids=position_ids, query_states=query, key_states=key, freq_cis=freq_cis\n    )\n    return self._transpose_sequence_head(query, key, value)\n</code></pre>"},{"location":"generated-modules-gemma-modelling_gemma_flax/#src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaPreTrainedModel","title":"<code>FlaxGemmaPreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> <p>An abstract class to handle weights initialization and a simple interface for downloading and loading pretrained models.</p> Source code in <code>src/python/easydel/modules/gemma/modelling_gemma_flax.py</code> <pre><code>class FlaxGemmaPreTrainedModel(EasyDeLFlaxPretrainedModel):\n    \"\"\"An abstract class to handle weights initialization and a simple interface for downloading and loading pretrained\n    models.\n    \"\"\"\n\n    config_class = GemmaConfig\n    base_model_prefix = \"model\"\n    module_class: nn.Module = None\n\n    def __init__(\n            self,\n            config: GemmaConfig,\n            input_shape: Tuple = (1, 1),\n            seed: int = 0,\n            dtype: jnp.dtype = jnp.float32,\n            param_dtype: jnp.dtype = jnp.float32,\n            precision: Optional[Union[str, jax.lax.Precision]] = jax.lax.Precision(\"fastest\"),\n            _do_init: bool = True,\n            **kwargs,\n    ):\n        module = self.module_class(\n            config=config,\n            dtype=dtype,\n            precision=precision,\n            param_dtype=param_dtype,\n            **kwargs\n        )\n        super().__init__(\n            config,\n            module,\n            input_shape=input_shape,\n            seed=seed,\n            dtype=dtype,\n            _do_init=_do_init\n        )\n\n    def init_cache(self, batch_size, max_length):\n        \"\"\"The init_cache function is used to initialize the cache for a given batch size and sequence length.\n        The cache is a dictionary that contains all the intermediate states from each layer in the model.\n        This allows us to run inference on multiple batches without having to re-run forward passes through every layer in\n        the model, which would be very slow.\n\n        Args:\n            self: Access the module\n            batch_size: Define the batch size of the input tensors\n            max_length: Set the length of the input sequence\n\n        Returns:\n            A dictionary with the following keys:\n        \"\"\"\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n        # init input tensors\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n        random_params = self.module.init(\n            rngs,\n            input_ids,\n            attention_mask,\n            position_ids,\n            return_dict=False\n        )[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rngs = {}\n        if dropout_rng is not None:\n            rngs[\"dropout\"] = dropout_rng\n\n        inputs = {\"params\": params or self.params} if add_params_field else params or self.params\n\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),\n            jnp.array(attention_mask, dtype=\"i4\"),\n            jnp.array(position_ids, dtype=\"i4\"),\n            not train,\n            False,\n            output_attentions,\n            output_hidden_states,\n            return_dict,\n            rngs=rngs,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-gemma-modelling_gemma_flax/#src.python.easydel.modules.gemma.modelling_gemma_flax.FlaxGemmaPreTrainedModel.init_cache","title":"<code>init_cache(batch_size, max_length)</code>","text":"<p>The init_cache function is used to initialize the cache for a given batch size and sequence length. The cache is a dictionary that contains all the intermediate states from each layer in the model. This allows us to run inference on multiple batches without having to re-run forward passes through every layer in the model, which would be very slow.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access the module</p> required <code>batch_size</code> <p>Define the batch size of the input tensors</p> required <code>max_length</code> <p>Set the length of the input sequence</p> required <p>Returns:</p> Type Description <p>A dictionary with the following keys:</p> Source code in <code>src/python/easydel/modules/gemma/modelling_gemma_flax.py</code> <pre><code>def init_cache(self, batch_size, max_length):\n    \"\"\"The init_cache function is used to initialize the cache for a given batch size and sequence length.\n    The cache is a dictionary that contains all the intermediate states from each layer in the model.\n    This allows us to run inference on multiple batches without having to re-run forward passes through every layer in\n    the model, which would be very slow.\n\n    Args:\n        self: Access the module\n        batch_size: Define the batch size of the input tensors\n        max_length: Set the length of the input sequence\n\n    Returns:\n        A dictionary with the following keys:\n    \"\"\"\n    input_ids = jnp.ones((batch_size, max_length))\n    attention_mask = jnp.ones_like(input_ids)\n    position_ids = jnp.broadcast_to(jnp.arange(\n        jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n    init_variables = self.module.init(\n        jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n    )\n    return init_variables[\"cache\"]\n</code></pre>"},{"location":"generated-modules-gemma-modelling_gemma_flax/#src.python.easydel.modules.gemma.modelling_gemma_flax.add_positional_embedding","title":"<code>add_positional_embedding(input_embedding, position, theta=10000)</code>","text":"<p>Adds positional embeddings to input embeddings. From DeepMind Gemma</p> Source code in <code>src/python/easydel/modules/gemma/modelling_gemma_flax.py</code> <pre><code>def add_positional_embedding(\n        input_embedding: jax.Array,\n        position: int,\n        theta: int = 10_000,\n) -&gt; jax.Array:\n    \"\"\"Adds positional embeddings to input embeddings. From DeepMind Gemma\"\"\"\n    embed_dim = input_embedding.shape[-1]\n    num_timescales = embed_dim // 2\n    log_timescale_increment = jnp.log(float(theta)) / jnp.maximum(\n        jnp.asarray(num_timescales, dtype=jnp.float32) - 1, 1\n    )\n    inv_timescales = jnp.exp(\n        jnp.arange(num_timescales, dtype=jnp.float32) * -log_timescale_increment\n    )\n    scaled_time = position * inv_timescales\n    signal = jnp.concatenate([jnp.sin(scaled_time), jnp.cos(scaled_time)])\n    signal = jnp.pad(signal, [[0, jnp.mod(embed_dim, 2)]])\n    position_embedding = signal.astype(jnp.float32)\n\n    return input_embedding + position_embedding\n</code></pre>"},{"location":"generated-modules-gemma-modelling_gemma_flax/#src.python.easydel.modules.gemma.modelling_gemma_flax.apply_rope","title":"<code>apply_rope(inputs, positions, head_dim, theta=10000)</code>","text":"<p>Applies RoPE. From DeepMind Gemma</p> Source code in <code>src/python/easydel/modules/gemma/modelling_gemma_flax.py</code> <pre><code>def apply_rope(\n        inputs: jax.Array,  # [B, L]\n        positions: jax.Array,  # [B, L]\n        head_dim: int,\n        theta: int = 10_000,\n) -&gt; jax.Array:\n    \"\"\"Applies RoPE. From DeepMind Gemma\"\"\"\n    fraction = 2 * jnp.arange(0, head_dim // 2) / head_dim\n    timescale = theta ** fraction\n\n    sinusoid_inp = (\n            positions[..., jnp.newaxis] / timescale[jnp.newaxis, jnp.newaxis, :]\n    )\n    sinusoid_inp = sinusoid_inp[..., jnp.newaxis, :]\n    sin = jnp.sin(sinusoid_inp)\n    cos = jnp.cos(sinusoid_inp)\n\n    first_half, second_half = jnp.split(inputs, 2, axis=-1)\n    first_part = first_half * cos - second_half * sin\n    second_part = second_half * cos + first_half * sin\n    out = jnp.concatenate([first_part, second_part], axis=-1)\n    return out.astype(inputs.dtype)\n</code></pre>"},{"location":"generated-modules-gpt2-gpt2_configuration/","title":"modules.gpt2.gpt2_configuration","text":""},{"location":"generated-modules-gpt2-modelling_gpt2_flax/","title":"modules.gpt2.modelling_gpt2_flax","text":""},{"location":"generated-modules-gpt_j-gpt_j_configuration/","title":"modules.gpt_j.gpt_j_configuration","text":""},{"location":"generated-modules-gpt_j-modelling_gpt_j_flax/","title":"modules.gpt_j.modelling_gpt_j_flax","text":"<p>GPT-J model configuration</p>"},{"location":"generated-modules-gpt_neo_x-gpt_neo_x_configuration/","title":"modules.gpt_neo_x.gpt_neo_x_configuration","text":""},{"location":"generated-modules-gpt_neo_x-modelling_gpt_neo_x_flax/","title":"modules.gpt_neo_x.modelling_gpt_neo_x_flax","text":""},{"location":"generated-modules-grok_1-grok_1_configuration/","title":"modules.grok_1.grok_1_configuration","text":""},{"location":"generated-modules-grok_1-grok_1_configuration/#src.python.easydel.modules.grok_1.grok_1_configuration.Grok1Config","title":"<code>Grok1Config</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> Source code in <code>src/python/easydel/modules/grok_1/grok_1_configuration.py</code> <pre><code>class Grok1Config(EasyDeLPretrainedConfig):\n    model_type: str = \"grok-1\"\n\n    def __init__(\n            self,\n            vocab_size=32000,\n            hidden_size=4096,\n            intermediate_size=32768,\n            num_hidden_layers=32,\n            num_attention_heads=32,\n            num_key_value_heads=32,\n            attn_output_multiplier=1.0,\n            max_attn_value=1.0,\n            max_position_embeddings=4096,\n            embedding_multiplier_scale: float = 1.0,\n            output_multiplier_scale: float = 1.0,\n            rms_norm_eps=1e-5,\n            use_cache=True,\n            pad_token_id=None,\n            bos_token_id=1,\n            eos_token_id=2,\n            tie_word_embeddings=True,\n            num_experts_per_tok=2,\n            num_experts=8,\n            output_router_logits=False,\n            router_aux_loss_coef=0.001,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            bits: Optional[int] = None,\n            **kwargs\n    ):\n        self.vocab_size = vocab_size\n        self.attn_output_multiplier = attn_output_multiplier\n        self.max_attn_value = max_attn_value\n        self.max_position_embeddings = max_position_embeddings\n        self.embedding_multiplier_scale = embedding_multiplier_scale\n        self.output_multiplier_scale = output_multiplier_scale\n        self.hidden_size = hidden_size\n        self.intermediate_size = intermediate_size\n        self.num_hidden_layers = num_hidden_layers\n        self.num_attention_heads = num_attention_heads\n\n        # for backward compatibility\n        if num_key_value_heads is None:\n            num_key_value_heads = num_attention_heads\n\n        self.num_key_value_heads = num_key_value_heads\n        self.rms_norm_eps = rms_norm_eps\n        self.use_cache = use_cache\n\n        self.num_experts_per_tok = num_experts_per_tok\n        self.num_experts = num_experts\n        self.output_router_logits = output_router_logits\n        self.router_aux_loss_coef = router_aux_loss_coef\n        self.gradient_checkpointing = gradient_checkpointing\n        self.bits = bits\n        super().__init__(\n            pad_token_id=pad_token_id,\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            tie_word_embeddings=tie_word_embeddings,\n            **kwargs,\n        )\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n            1) A regex string that matches the name of one or more parameters in the model.\n            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to\n                partition the model fully or not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"linear/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"linear_1/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"linear_v/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"post_attn_norm/kernel\", PartitionSpec(None)),\n            (\"pre_attn_norm/kernel\", PartitionSpec(None)),\n            (\"pre_moe_norm/kernel\", PartitionSpec(None)),\n            (\"post_moe_norm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec(None)),\n        ) if not fully_sharded_data_parallel else (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"attn/o_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"linear/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"linear_1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"linear_v/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"post_attn_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"pre_attn_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"pre_moe_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"post_moe_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"model/norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n\n    def add_jax_args(\n            self,\n            tie_word_embeddings: bool = False,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            bits: Optional[int] = None,\n            **kwargs,\n    ):\n        \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n        Args:\n            self: Refer to the current object\n            tie_word_embeddings: bool: Tie the word embeddings to the\n                decoder\n            gradient_checkpointing: str: Control the amount of memory\n                used by jax\n            bits: Optional[int]: Determine the number of bits used in\n                the quantization\n        \"\"\"\n        self.tie_word_embeddings = tie_word_embeddings\n        self.gradient_checkpointing = gradient_checkpointing\n        self.bits = bits\n\n    @staticmethod\n    def get_weight_decay_exclusions():\n        return tuple()\n\n    @staticmethod\n    def rng_keys():\n        return 'params', 'dropout'\n</code></pre>"},{"location":"generated-modules-grok_1-grok_1_configuration/#src.python.easydel.modules.grok_1.grok_1_configuration.Grok1Config.add_jax_args","title":"<code>add_jax_args(tie_word_embeddings=False, gradient_checkpointing='nothing_saveable', bits=None, **kwargs)</code>","text":"<p>The add_jax_args function adds the following arguments to the Transformer class:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the current object</p> required <code>tie_word_embeddings</code> <code>bool</code> <p>bool: Tie the word embeddings to the decoder</p> <code>False</code> <code>gradient_checkpointing</code> <code>str</code> <p>str: Control the amount of memory used by jax</p> <code>'nothing_saveable'</code> <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Determine the number of bits used in the quantization</p> <code>None</code> Source code in <code>src/python/easydel/modules/grok_1/grok_1_configuration.py</code> <pre><code>def add_jax_args(\n        self,\n        tie_word_embeddings: bool = False,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        bits: Optional[int] = None,\n        **kwargs,\n):\n    \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n    Args:\n        self: Refer to the current object\n        tie_word_embeddings: bool: Tie the word embeddings to the\n            decoder\n        gradient_checkpointing: str: Control the amount of memory\n            used by jax\n        bits: Optional[int]: Determine the number of bits used in\n            the quantization\n    \"\"\"\n    self.tie_word_embeddings = tie_word_embeddings\n    self.gradient_checkpointing = gradient_checkpointing\n    self.bits = bits\n</code></pre>"},{"location":"generated-modules-grok_1-grok_1_configuration/#src.python.easydel.modules.grok_1.grok_1_configuration.Grok1Config.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:     1) A regex string that matches the name of one or more parameters in the model.     2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to partition the model fully or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/grok_1/grok_1_configuration.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n        1) A regex string that matches the name of one or more parameters in the model.\n        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to\n            partition the model fully or not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"linear/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"linear_1/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n        (\"linear_v/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"post_attn_norm/kernel\", PartitionSpec(None)),\n        (\"pre_attn_norm/kernel\", PartitionSpec(None)),\n        (\"pre_moe_norm/kernel\", PartitionSpec(None)),\n        (\"post_moe_norm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\".*\", PartitionSpec(None)),\n    ) if not fully_sharded_data_parallel else (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"attn/o_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"linear/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"linear_1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"linear_v/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"post_attn_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"pre_attn_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"pre_moe_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"post_moe_norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"model/norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/","title":"modules.grok_1.modelling_grok_1_flax","text":""},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1Attention","title":"<code>FlaxGrok1Attention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>class FlaxGrok1Attention(BaseJAXAttentionModule):\n    config: Grok1Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        config = self.config\n        self.hidden_size = config.hidden_size\n        self.head_dim = self.config.hidden_size // self.config.num_attention_heads\n        self.num_key_value_groups = self.config.num_attention_heads // self.config.num_key_value_heads\n\n        if self.num_key_value_groups == 1:\n            assert self.config.num_attention_heads == self.config.num_key_value_heads\n        self.q_proj = Linear(\n            config.num_attention_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.k_proj = Linear(\n            config.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.v_proj = Linear(\n            config.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.o_proj = Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n        self.rotary = FlaxGrok1Embedding(self.dtype)\n        self.attention_performer = AttentionModule(\n            use_sharding_constraint=self.config.use_sharding_constraint,\n            block_k_major=self.config.block_k_major,\n            block_b=self.config.block_b,\n            block_q=self.config.block_q,\n            block_k=self.config.block_k,\n            block_q_major_dkv=self.config.block_q_major_dkv,\n            block_k_major_dkv=self.config.block_k_major_dkv,\n            block_k_major_dq=self.config.block_k_major_dq,\n            block_k_dkv=self.config.block_k_dkv,\n            block_q_dkv=self.config.block_q_dkv,\n            block_q_dq=self.config.block_q_dq,\n            block_k_dq=self.config.block_k_dq,\n            num_attention_heads=self.config.num_attention_heads,\n            attention_dropout=self.config.attention_dropout,\n            head_dims=self.head_dim,\n            attention_partition_spec=self.config.attention_partition_spec,\n            shard_attention_computation=self.config.shard_attention_computation,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            bias_partition_spec=self.config.bias_partition_spec,\n            key_partition_spec=self.config.key_partition_spec,\n            query_partition_spec=self.config.query_partition_spec,\n            generation_query_partition_spec=self.config.generation_query_partition_spec,\n            generation_bias_partition_spec=self.config.generation_bias_partition_spec,\n            generation_attention_partition_spec=self.config.generation_attention_partition_spec,\n            value_partition_spec=self.config.value_partition_spec,\n            scan_ring_attention=self.config.scan_ring_attention,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name\n        )\n        self.resid_dropout = flax.linen.Dropout(rate=config.resid_pdrop)\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.hidden_size,))\n\n    @staticmethod\n    def _transpose_sequence_head(query, key, value):\n        \"\"\"The _transpose_sequence_head function transposes the query, key and value matrices.\n\n        Args:\n            query: Get the attention weights for each of the heads\n            key: Determine the number of heads\n            value: Store the values of the input\n\n        Returns:\n            The transpose of the query, key and value matrices\n        \"\"\"\n        return jnp.transpose(query, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value, (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n        \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n        Args:\n            self: Access variables that belong to the class\n            batch_size: Reshape the query, key and value tensors\n            sequence_length: Reshape the query, key and value tensors\n            query: Calculate the attention weights\n            key: Calculate the attention\n            value: Compute the attention weights\n            freq_cis: Calculate the frequency of each word in the\n                vocabulary\n            position_ids: Identify the position of each token in the\n                sequence\n\n        Returns:\n            A tuple of 3 tensors: query, key and value\n        \"\"\"\n        query = query.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_attention_heads,\n            self.head_dim\n        )\n        key = key.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n        value = value.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n\n        query, key, value = self._transpose_sequence_head(query, key, value)\n        query, key = self.rotary(\n            position_ids=position_ids, query=query, key=key, freq_cis=freq_cis\n        )\n        key = repeat_kv_bnsh(key, self.num_key_value_groups)\n        value = repeat_kv_bnsh(value, self.num_key_value_groups)\n        return self._transpose_sequence_head(query, key, value)\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            fcm_mask=None,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n        and it should return all outputs that are needed for training or inference.\n\n        Args:\n            self: Access variables that belong to the class\n            hidden_states: chex.Array: Pass the hidden states of the\n                previous layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency coefficients for each position\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Determine the position of each\n                token in a sequence\n            causal_mask: chex.Array: Mask out the future tokens in the\n                decoder\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n            fcm_mask: Mask out the attention weights between the input\n                and output tokens\n        :param : Determine if the attention is causal or not\n\n        Returns:\n            A tuple of two arrays\n        \"\"\"\n        batch_size, sequence_length = hidden_states.shape[:2]\n        query_states, key_states, value_states = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(\n            hidden_states)\n\n        query_states = query_states.reshape(\n            batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n        key_states = key_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n        value_states = value_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query=query_states,\n            key=key_states,\n            value=value_states,\n            position_ids=position_ids,\n            freq_cis=freq_cis,\n            batch_size=batch_size,\n            sequence_length=sequence_length\n        )\n\n        assert_msg = (\n            \"num_attention_heads repeat wont work likely\\n\"\n            f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n            f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n        )\n\n        assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask,\n                (0, 0, mask_shift, 0),\n                (1, 1, query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        attention_mask = jnp.broadcast_to(jnp.expand_dims(\n            attention_mask, axis=(-3, -2)), causal_mask.shape)\n        attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n        dropout_rng = None\n\n        if not deterministic and self.config.attention_dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n\n        # if self.config.use_sharding_constraint:\n        #     query_states = with_sharding_constraint(\n        #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n        #     )\n        #     key_states = with_sharding_constraint(\n        #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        #     value_states = with_sharding_constraint(\n        #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        attention_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=attention_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n\n\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        attn_output = self.o_proj(attn_output)\n\n        attn_output = self.resid_dropout(attn_output, deterministic=deterministic)\n        outputs = (attn_output, attentions.attention_weights) if output_attentions else (attn_output,)\n        return outputs\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1Attention.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, segment_ids=None, deterministic=True, init_cache=False, output_attentions=False, fcm_mask=None)</code>","text":"<p>The call function is the main function of a JAX module. It defines how the module behaves when called with inputs. The call function can be thought of as a \"forward pass\" through the model, and it should return all outputs that are needed for training or inference.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the hidden states of the previous layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency coefficients for each position</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask out the future tokens in the decoder</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <code>fcm_mask</code> <p>Mask out the attention weights between the input and output tokens</p> <code>None</code> <p>:param : Determine if the attention is causal or not</p> <p>Returns:</p> Type Description <p>A tuple of two arrays</p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        fcm_mask=None,\n):\n    \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n    and it should return all outputs that are needed for training or inference.\n\n    Args:\n        self: Access variables that belong to the class\n        hidden_states: chex.Array: Pass the hidden states of the\n            previous layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency coefficients for each position\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Determine the position of each\n            token in a sequence\n        causal_mask: chex.Array: Mask out the future tokens in the\n            decoder\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n        fcm_mask: Mask out the attention weights between the input\n            and output tokens\n    :param : Determine if the attention is causal or not\n\n    Returns:\n        A tuple of two arrays\n    \"\"\"\n    batch_size, sequence_length = hidden_states.shape[:2]\n    query_states, key_states, value_states = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(\n        hidden_states)\n\n    query_states = query_states.reshape(\n        batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n    key_states = key_states.reshape(\n        batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n    value_states = value_states.reshape(\n        batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n    query_states, key_states, value_states = self.apply_rotary(\n        query=query_states,\n        key=key_states,\n        value=value_states,\n        position_ids=position_ids,\n        freq_cis=freq_cis,\n        batch_size=batch_size,\n        sequence_length=sequence_length\n    )\n\n    assert_msg = (\n        \"num_attention_heads repeat wont work likely\\n\"\n        f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n        f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n    )\n\n    assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    if self.has_variable(\"cache\", \"cached_key\"):\n        mask_shift = self.variables[\"cache\"][\"cache_index\"]\n        max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n        causal_mask = lax.dynamic_slice(\n            causal_mask,\n            (0, 0, mask_shift, 0),\n            (1, 1, query_length, max_decoder_length)\n        )\n    else:\n        causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n    batch_size = hidden_states.shape[0]\n    causal_mask = jnp.broadcast_to(\n        causal_mask, (batch_size,) + causal_mask.shape[1:])\n    attention_mask = jnp.broadcast_to(jnp.expand_dims(\n        attention_mask, axis=(-3, -2)), causal_mask.shape)\n    attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n    if attention_mask.ndim == 2:\n        attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n    dropout_rng = None\n\n    if not deterministic and self.config.attention_dropout &gt; 0.0:\n        dropout_rng = self.make_rng(\"dropout\")\n\n    if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n        key_states, value_states, attention_mask = self._concatenate_to_cache(\n            key_states,\n            value_states,\n            query_states,\n            attention_mask\n        )\n\n    # if self.config.use_sharding_constraint:\n    #     query_states = with_sharding_constraint(\n    #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n    #     )\n    #     key_states = with_sharding_constraint(\n    #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    #     value_states = with_sharding_constraint(\n    #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    attention_bias = lax.select(\n        attention_mask &gt; 0,\n        jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n        jnp.full(attention_mask.shape, jnp.finfo(\n            self.dtype).min).astype(self.dtype),\n    )\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    attentions = self.attention_performer.__call__(\n        query_states=query_states,\n        key_states=key_states,\n        value_states=value_states,\n        bias=attention_bias,\n        attention_mask=attention_mask,\n        causal=True,\n        dropout_rng=dropout_rng,\n        deterministic=deterministic,\n        query_sequence_length=query_length,\n        key_value_sequence_length=key_length,\n        uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n        segment_ids=segment_ids,\n        causal_mask=causal_mask\n    )\n\n\n    attn_output = self._merge_heads(attentions.attention_outputs)\n    if self.config.shard_attention_computation:\n        attn_output = with_sharding_constraint(\n            attn_output, PartitionSpec(\n                (\"dp\", \"fsdp\"),\n                \"sp\" if attn_output.shape[1] != 1 else None,\n                \"tp\"\n            )\n        )\n    attn_output = self.o_proj(attn_output)\n\n    attn_output = self.resid_dropout(attn_output, deterministic=deterministic)\n    outputs = (attn_output, attentions.attention_weights) if output_attentions else (attn_output,)\n    return outputs\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1Attention.apply_rotary","title":"<code>apply_rotary(batch_size, sequence_length, query, key, value, freq_cis, position_ids)</code>","text":"<p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class. The main difference is that it takes in an additional argument, freq_cis, which are used to calculate the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>batch_size</code> <p>Reshape the query, key and value tensors</p> required <code>sequence_length</code> <p>Reshape the query, key and value tensors</p> required <code>query</code> <p>Calculate the attention weights</p> required <code>key</code> <p>Calculate the attention</p> required <code>value</code> <p>Compute the attention weights</p> required <code>freq_cis</code> <p>Calculate the frequency of each word in the vocabulary</p> required <code>position_ids</code> <p>Identify the position of each token in the sequence</p> required <p>Returns:</p> Type Description <p>A tuple of 3 tensors: query, key and value</p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n    \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n    Args:\n        self: Access variables that belong to the class\n        batch_size: Reshape the query, key and value tensors\n        sequence_length: Reshape the query, key and value tensors\n        query: Calculate the attention weights\n        key: Calculate the attention\n        value: Compute the attention weights\n        freq_cis: Calculate the frequency of each word in the\n            vocabulary\n        position_ids: Identify the position of each token in the\n            sequence\n\n    Returns:\n        A tuple of 3 tensors: query, key and value\n    \"\"\"\n    query = query.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_attention_heads,\n        self.head_dim\n    )\n    key = key.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n    value = value.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n\n    query, key, value = self._transpose_sequence_head(query, key, value)\n    query, key = self.rotary(\n        position_ids=position_ids, query=query, key=key, freq_cis=freq_cis\n    )\n    key = repeat_kv_bnsh(key, self.num_key_value_groups)\n    value = repeat_kv_bnsh(value, self.num_key_value_groups)\n    return self._transpose_sequence_head(query, key, value)\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1BLockSparseMLP","title":"<code>FlaxGrok1BLockSparseMLP</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>class FlaxGrok1BLockSparseMLP(nn.Module):\n    config: Grok1Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self) -&gt; None:\n        config = self.config\n\n        self.linear = Linear(\n            config.intermediate_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.linear_1 = Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.linear_v = Linear(\n            config.intermediate_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n    def __call__(self, x: jnp.ndarray, deterministic: bool = True) -&gt; jnp.ndarray:\n        \"\"\"The __call__ function is the main function of a class.\n        It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).\n        The __call__ method enables instances of a class to be called like standard Python functions.\n\n        Args:\n            self: Represent the instance of the class\n            x: jnp.ndarray: Pass in the input to the layer\n            deterministic: bool: Determine whether to use dropout #\n                IGNORED\n\n        Returns:\n            A tensor that is the result of applying a dropout function\n            to x\n        \"\"\"\n        return self.linear_1(nn.gelu(self.linear(x)) * self.linear_v(x))\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1BLockSparseMLP.__call__","title":"<code>__call__(x, deterministic=True)</code>","text":"<p>The call function is the main function of a class. It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments). The call method enables instances of a class to be called like standard Python functions.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>x</code> <code>ndarray</code> <p>jnp.ndarray: Pass in the input to the layer</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout # IGNORED</p> <code>True</code> <p>Returns:</p> Type Description <code>ndarray</code> <p>A tensor that is the result of applying a dropout function</p> <code>ndarray</code> <p>to x</p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>def __call__(self, x: jnp.ndarray, deterministic: bool = True) -&gt; jnp.ndarray:\n    \"\"\"The __call__ function is the main function of a class.\n    It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).\n    The __call__ method enables instances of a class to be called like standard Python functions.\n\n    Args:\n        self: Represent the instance of the class\n        x: jnp.ndarray: Pass in the input to the layer\n        deterministic: bool: Determine whether to use dropout #\n            IGNORED\n\n    Returns:\n        A tensor that is the result of applying a dropout function\n        to x\n    \"\"\"\n    return self.linear_1(nn.gelu(self.linear(x)) * self.linear_v(x))\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayer","title":"<code>FlaxGrok1DecoderLayer</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>class FlaxGrok1DecoderLayer(nn.Module):\n    config: Grok1Config\n    layer_index: int\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[Union[str, jax.lax.Precision]] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        # hidden_states: chex.Array\n        # freq_cis: Tuple[chex.Array, chex.Array],\n        # attention_mask: chex.Array\n        # causal_mask: chex.Array\n        # position_ids: chex.Array\n        # deterministic: bool = True\n        # init_cache: bool = False\n        # output_attentions: bool = True\n\n        attn_block = FlaxGrok1Attention\n        mlp_block = FlaxGrok1SparseMoeBlock\n        if self.config.gradient_checkpointing != \"\":\n            attn_block = re_mat(\n                attn_block,\n                policy=get_gradient_checkpoint_policy(self.config.gradient_checkpointing),\n                static_argnums=(\n                    3, 5, 6, 7, 8\n                )\n            )\n            mlp_block = re_mat(\n                mlp_block,\n                policy=get_gradient_checkpoint_policy(self.config.gradient_checkpointing),\n                static_argnums=(\n                    1,\n                )\n            )\n        self.attn = attn_block(\n            config=self.config,\n            layer_index=self.layer_index,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.moe_block = mlp_block(\n            config=self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.pre_attn_norm = FlaxGrok1RMSNorm(\n            dim=self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n        self.post_attn_norm = FlaxGrok1RMSNorm(\n            dim=self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n        self.pre_moe_norm = FlaxGrok1RMSNorm(\n            dim=self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n        self.post_moe_norm = FlaxGrok1RMSNorm(\n            dim=self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            causal_mask: chex.Array,\n            position_ids: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = True,\n            output_router_logits: Optional[bool] = False,\n    ):\n        \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n        It takes in the following arguments:\n            hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.\n            freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num\n\n        Args:\n            self: Represent the instance of the class\n            hidden_states: chex.Array: Represent the input to the\n                encoder layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency\n                information to the attention layer\n            attention_mask: chex.Array: Mask out the attention weights\n                for certain positions\n            causal_mask: chex.Array: Mask the future tokens\n            position_ids: chex.Array: Indicate the position of each\n                token in the sequence\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache for the self-\n                attention layer\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n\n        Returns:\n            A tuple of hidden_states and attention_output\n        \"\"\"\n        residual = hidden_states\n        hidden_states = self.pre_attn_norm(hidden_states)\n        hidden_states, attention_weights, present_key_value = self.attn(\n            hidden_states,\n            freq_cis,\n            attention_mask,\n            causal_mask,\n            position_ids,\n            segment_ids,\n            deterministic,\n            init_cache,\n            output_attentions\n        )\n\n        hidden_states = self.post_attn_norm(hidden_states)\n        hidden_states = residual + hidden_states\n\n        residual = hidden_states\n        hidden_states = self.pre_moe_norm(hidden_states)\n        hidden_states, router_logits = self.moe_block(hidden_states)\n        hidden_states = self.post_moe_norm(hidden_states)\n        hidden_states = residual + hidden_states\n\n        outputs = (hidden_states,)\n        if output_attentions:\n            outputs += (attention_weights,)\n        if output_router_logits:\n            outputs += (router_logits,)\n        return outputs\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayer.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, causal_mask, position_ids, segment_ids=None, deterministic=True, init_cache=False, output_attentions=True, output_router_logits=False)</code>","text":"<p>The call function is the main function of a TransformerEncoderLayer. It takes in the following arguments:     hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.     freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Represent the input to the encoder layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass the frequency information to the attention layer</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the attention weights for certain positions</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the future tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Indicate the position of each token in the sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the self- attention layer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A tuple of hidden_states and attention_output</p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        causal_mask: chex.Array,\n        position_ids: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = True,\n        output_router_logits: Optional[bool] = False,\n):\n    \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n    It takes in the following arguments:\n        hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.\n        freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num\n\n    Args:\n        self: Represent the instance of the class\n        hidden_states: chex.Array: Represent the input to the\n            encoder layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency\n            information to the attention layer\n        attention_mask: chex.Array: Mask out the attention weights\n            for certain positions\n        causal_mask: chex.Array: Mask the future tokens\n        position_ids: chex.Array: Indicate the position of each\n            token in the sequence\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache for the self-\n            attention layer\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n\n    Returns:\n        A tuple of hidden_states and attention_output\n    \"\"\"\n    residual = hidden_states\n    hidden_states = self.pre_attn_norm(hidden_states)\n    hidden_states, attention_weights, present_key_value = self.attn(\n        hidden_states,\n        freq_cis,\n        attention_mask,\n        causal_mask,\n        position_ids,\n        segment_ids,\n        deterministic,\n        init_cache,\n        output_attentions\n    )\n\n    hidden_states = self.post_attn_norm(hidden_states)\n    hidden_states = residual + hidden_states\n\n    residual = hidden_states\n    hidden_states = self.pre_moe_norm(hidden_states)\n    hidden_states, router_logits = self.moe_block(hidden_states)\n    hidden_states = self.post_moe_norm(hidden_states)\n    hidden_states = residual + hidden_states\n\n    outputs = (hidden_states,)\n    if output_attentions:\n        outputs += (attention_weights,)\n    if output_router_logits:\n        outputs += (router_logits,)\n    return outputs\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayerCollection","title":"<code>FlaxGrok1DecoderLayerCollection</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>class FlaxGrok1DecoderLayerCollection(nn.Module):\n    config: Grok1Config\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        self.blocks = [\n            FlaxGrok1DecoderLayer(\n                layer_index=layer_index,\n                config=self.config,\n                dtype=self.dtype,\n                param_dtype=self.param_dtype,\n                precision=self.precision,\n                name=str(layer_index)\n            )\n\n            for layer_index in range(self.config.num_hidden_layers)\n        ]\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            causal_mask: chex.Array,\n            position_ids: chex.Array,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_hidden_states: Optional[bool] = False,\n            output_attentions: Optional[bool] = False,\n            output_router_logits: Optional[bool] = False,\n    ):\n        \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n        It takes in the following arguments:\n            hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.\n            freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num\n\n        Args:\n            self: Represent the instance of the class\n            hidden_states: chex.Array: Represent the input to the\n                encoder layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency\n                information to the attention layer\n            attention_mask: chex.Array: Mask out the attention weights\n                for certain positions\n            causal_mask: chex.Array: Mask the future tokens\n            position_ids: chex.Array: Indicate the position of each\n                token in the sequence\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache for the self-\n                attention layer\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n\n        Returns:\n            A tuple of hidden_states, attention_output,\n            all_hidden_states and all_router_logits\n        \"\"\"\n        all_hidden_states = () if output_hidden_states else None\n        all_self_attns = () if output_attentions else None\n        all_router_logits = () if output_router_logits else None\n\n        for block in self.blocks:\n            if output_hidden_states:\n                all_hidden_states += (hidden_states,)\n            layer_outputs = block(\n                hidden_states=hidden_states,\n                attention_mask=attention_mask,\n                position_ids=position_ids,\n                output_attentions=output_attentions,\n                output_router_logits=output_router_logits,\n                init_cache=init_cache,\n                freq_cis=freq_cis,\n                causal_mask=causal_mask,\n                deterministic=deterministic,\n            )\n\n            hidden_states = layer_outputs[0]\n\n            if output_attentions:\n                all_self_attns += (layer_outputs[1],)\n\n            if output_router_logits:\n                all_router_logits += (layer_outputs[-1],)\n\n        outputs = (hidden_states,)\n        if output_attentions:\n            outputs += (all_self_attns,)\n        if output_hidden_states:\n            outputs += (all_hidden_states,)\n        if output_router_logits:\n            outputs += (all_router_logits,)\n        return outputs\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1DecoderLayerCollection.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, causal_mask, position_ids, deterministic=True, init_cache=False, output_hidden_states=False, output_attentions=False, output_router_logits=False)</code>","text":"<p>The call function is the main function of a TransformerEncoderLayer. It takes in the following arguments:     hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.     freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Represent the input to the encoder layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass the frequency information to the attention layer</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the attention weights for certain positions</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the future tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Indicate the position of each token in the sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the self- attention layer</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of hidden_states, attention_output,</p> <p>all_hidden_states and all_router_logits</p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        causal_mask: chex.Array,\n        position_ids: chex.Array,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_hidden_states: Optional[bool] = False,\n        output_attentions: Optional[bool] = False,\n        output_router_logits: Optional[bool] = False,\n):\n    \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n    It takes in the following arguments:\n        hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.\n        freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num\n\n    Args:\n        self: Represent the instance of the class\n        hidden_states: chex.Array: Represent the input to the\n            encoder layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency\n            information to the attention layer\n        attention_mask: chex.Array: Mask out the attention weights\n            for certain positions\n        causal_mask: chex.Array: Mask the future tokens\n        position_ids: chex.Array: Indicate the position of each\n            token in the sequence\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache for the self-\n            attention layer\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n\n    Returns:\n        A tuple of hidden_states, attention_output,\n        all_hidden_states and all_router_logits\n    \"\"\"\n    all_hidden_states = () if output_hidden_states else None\n    all_self_attns = () if output_attentions else None\n    all_router_logits = () if output_router_logits else None\n\n    for block in self.blocks:\n        if output_hidden_states:\n            all_hidden_states += (hidden_states,)\n        layer_outputs = block(\n            hidden_states=hidden_states,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            output_attentions=output_attentions,\n            output_router_logits=output_router_logits,\n            init_cache=init_cache,\n            freq_cis=freq_cis,\n            causal_mask=causal_mask,\n            deterministic=deterministic,\n        )\n\n        hidden_states = layer_outputs[0]\n\n        if output_attentions:\n            all_self_attns += (layer_outputs[1],)\n\n        if output_router_logits:\n            all_router_logits += (layer_outputs[-1],)\n\n    outputs = (hidden_states,)\n    if output_attentions:\n        outputs += (all_self_attns,)\n    if output_hidden_states:\n        outputs += (all_hidden_states,)\n    if output_router_logits:\n        outputs += (all_router_logits,)\n    return outputs\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1ForCausalLM","title":"<code>FlaxGrok1ForCausalLM</code>","text":"<p>               Bases: <code>Grok1PreTrainedModel</code></p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>class FlaxGrok1ForCausalLM(Grok1PreTrainedModel):\n    module_class = FlaxGrok1ForCausalLMModule\n\n    def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n        \"\"\"\n        The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n        :param self: Access variables that belong to the class\n        :param input_ids: Pass in the input tokens\n        :param max_length: Set the length of the sequence to be generated\n        :param attention_mask: Optional[chex.Array]: Mask the attention weights\n        :return: A dictionary of the past_key_values, attention_mask and position ids\n\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n\n        past_key_values = self.init_cache(batch_size, max_length)\n        extended_attention_mask = jnp.ones(\n            (batch_size, max_length), dtype=\"i4\")\n        if attention_mask is not None:\n            position_ids = attention_mask.cumsum(axis=-1) - 1\n            extended_attention_mask = lax.dynamic_update_slice(\n                extended_attention_mask, attention_mask, (0, 0))\n        else:\n            position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                            None, :], (batch_size, seq_length))\n\n        return {\n            \"past_key_values\": past_key_values,\n            \"attention_mask\": extended_attention_mask,\n            \"position_ids\": position_ids,\n        }\n\n    def update_inputs_for_generation(self, model_outputs, model_kwargs):\n        model_kwargs[\"past_key_values\"] = model_outputs.past_key_values\n        model_kwargs[\"position_ids\"] = model_kwargs[\"position_ids\"][:, -1:] + 1\n        return model_kwargs\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1ForCausalLM.prepare_inputs_for_generation","title":"<code>prepare_inputs_for_generation(input_ids, max_length, attention_mask=None)</code>","text":"<p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p> <p>:param self: Access variables that belong to the class :param input_ids: Pass in the input tokens :param max_length: Set the length of the sequence to be generated :param attention_mask: Optional[chex.Array]: Mask the attention weights :return: A dictionary of the past_key_values, attention_mask and position ids</p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n    \"\"\"\n    The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n    :param self: Access variables that belong to the class\n    :param input_ids: Pass in the input tokens\n    :param max_length: Set the length of the sequence to be generated\n    :param attention_mask: Optional[chex.Array]: Mask the attention weights\n    :return: A dictionary of the past_key_values, attention_mask and position ids\n\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n\n    past_key_values = self.init_cache(batch_size, max_length)\n    extended_attention_mask = jnp.ones(\n        (batch_size, max_length), dtype=\"i4\")\n    if attention_mask is not None:\n        position_ids = attention_mask.cumsum(axis=-1) - 1\n        extended_attention_mask = lax.dynamic_update_slice(\n            extended_attention_mask, attention_mask, (0, 0))\n    else:\n        position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                        None, :], (batch_size, seq_length))\n\n    return {\n        \"past_key_values\": past_key_values,\n        \"attention_mask\": extended_attention_mask,\n        \"position_ids\": position_ids,\n    }\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.FlaxGrok1SparseMoeBlock","title":"<code>FlaxGrok1SparseMoeBlock</code>","text":"<p>               Bases: <code>Module</code></p> <p>This implementation is strictly equivalent to standard MoE with full capacity (no dropped tokens). It's faster since it formulates MoE operations in terms of block-sparse operations to accomodate imbalanced assignments of tokens to experts, whereas standard MoE either (1) drop tokens at the cost of reduced performance or (2) set capacity factor to number of experts and thus waste computation and memory on padding.</p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>class FlaxGrok1SparseMoeBlock(nn.Module):\n    \"\"\"This implementation is\n    strictly equivalent to standard MoE with full capacity (no\n    dropped tokens). It's faster since it formulates MoE operations\n    in terms of block-sparse operations to accomodate imbalanced\n    assignments of tokens to experts, whereas standard MoE either\n    (1) drop tokens at the cost of reduced performance or (2) set\n    capacity factor to number of experts and thus waste computation\n    and memory on padding.\n    \"\"\"\n    config: Grok1Config\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[\n        Union[None, jax.lax.Precision]\n    ] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        self.gate = Linear(\n            self.config.num_experts,\n            use_bias=False,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            kernel_init=nn.initializers.normal(),\n        )\n\n        self.experts = FlaxGrok1BlocKSparesTop2MLPCollection(\n            config=self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            e: bool = False  # Ignored\n    ) -&gt; Tuple[chex.Array, chex.Array]:\n        batch_size, sequence_length, hidden_dim = hidden_states.shape\n\n        router_logits = self.gate(hidden_states).astype(\n            jnp.promote_types(self.dtype, jnp.float32)\n        )\n        routing_weights, selected_experts = jax.lax.top_k(\n            router_logits,\n            k=self.config.num_experts_per_tok\n        )\n        routing_weights = jax.nn.softmax(\n            routing_weights.astype(\n                jnp.promote_types(self.dtype, jnp.float32)\n            ), axis=-1\n        )\n\n        return self.experts(\n            selected_experts=selected_experts,\n            batch_size=batch_size,\n            sequence_length=sequence_length,\n            hidden_dim=hidden_dim,\n            hidden_states=hidden_states,\n            routing_weights=routing_weights\n        ), router_logits\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.Grok1PreTrainedModel","title":"<code>Grok1PreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>class Grok1PreTrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class: Grok1Config = Grok1Config\n    module_class: nn.Module = None\n    base_model_prefix = \"model\"\n\n    # main_input_name = \"input_ids\"\n\n    def __init__(\n            self,\n            config: Grok1Config,\n            dtype: jnp.dtype = jnp.bfloat16,\n            param_dtype: jnp.dtype = jnp.bfloat16,\n            precision: Optional[jax.lax.Precision] = jax.lax.Precision(\n                \"fastest\"),\n            input_shape: Tuple[int, int] = (1, 1),\n            seed: int = 0,\n            _do_init: bool = False,\n            **kwargs\n    ):\n        module = self.module_class(\n            config=config,\n            dtype=dtype,\n            param_dtype=param_dtype,\n            precision=precision,\n            **kwargs\n        )\n\n        super().__init__(\n            dtype=dtype, _do_init=_do_init,\n            module=module, config=config, input_shape=input_shape,\n            seed=seed,\n        )\n\n    def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple,\n                     params: Optional[FrozenDict] = None) -&gt; FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n        It takes in a rng, which is a random number generator key that can be used to generate random numbers.\n        The input_shape parameter specifies the shape of the inputs that will be fed into this model.\n        The params parameter allows you to pass in pre-trained weights for your model, if you have them available.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Initialize the input_ids, attention_mask\n                and position_ids\n            params: flax.core.FrozenDict: Pass in the parameters of a\n                pre-trained model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n\n        self.config.initialization_of_moe = True\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids, dtype=\"i4\")\n        position_ids = jnp.broadcast_to(\n            jnp.arange(jnp.atleast_2d(input_ids).shape[-1], dtype=\"i4\"),\n            input_shape,\n        )\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n        if self.config.add_cross_attention:\n            encoder_hidden_states = jnp.zeros(\n                input_shape + (self.config.hidden_size,))\n            encoder_attention_mask = attention_mask\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids,\n                attention_mask,\n                position_ids,\n                encoder_hidden_states,\n                encoder_attention_mask,\n                return_dict=False,\n            )\n        else:\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids=input_ids,\n                attention_mask=attention_mask,\n                position_ids=position_ids,\n                return_dict=False\n            )\n        random_params = module_init_outputs[\"params\"]\n\n        self.config.initialization_of_moe = False\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def init_cache(self, batch_size, max_length):\n\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: Optional[chex.Array] = None,\n            position_ids: Optional[chex.Array] = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            output_router_logits: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It takes as input:\n        - The parameters of the model (self.params)\n        - The inputs to the model (input_ids, attention_mask, position_ids)\n        - Whether we are training (train=True/False) and whether we want to return all hidden states and\n        attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: Pass the input sequence to the model\n            attention_mask: Mask out the padding tokens\n            position_ids: Specify the position of each token in the\n                sequence\n            params: dict: Pass in the parameters of the model\n            past_key_values: dict: Pass the past key values to the model\n            dropout_rng: jax.random.PRNGKey: Pass in a random number\n                generator key to the model\n            train: bool: Determine whether to use dropout or not\n            output_attentions: Optional[bool]: Determine whether to\n                return the attention weights\n            output_hidden_states: Optional[bool]: Determine whether to\n                return the hidden states of all layers\n            return_dict: Optional[bool]: Return a dictionary of the\n                outputs\n            add_params_field: bool: Add a params field to the inputs\n                dictionary\n\n        Returns:\n            A tuple of (last_hidden_state, past_key_values)\n        \"\"\"\n\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\n                    \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                            None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rng_s = {}\n        if dropout_rng is not None:\n            rng_s[\"dropout\"] = dropout_rng\n\n        inputs = {\n            \"params\": params or self.params} if add_params_field else params or self.params\n\n        if self.config.bits is not None:\n            rng_s['params'] = jax.random.key(0)\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),  # input_ids: chex.Array\n            # attention_mask: Optional[chex.Array] = None\n            jnp.array(attention_mask, dtype=\"i4\"),\n            # position_ids: Optional[chex.Array] = None\n            jnp.array(position_ids, dtype=\"i4\"),\n            None,  # inputs_embeds: Optional[chex.Array] = None\n            output_attentions,  # output_attentions: Optional[bool] = None\n            # output_hidden_states: Optional[bool] = None\n            output_hidden_states,\n            # output_router_logits: Optional[bool] = None\n            output_router_logits,\n            False,  # init_cache: bool = False\n            not train,  # deterministic: bool = True\n            return_dict,  # return_dict: bool = True\n            rngs=rng_s,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + \\\n                      (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.Grok1PreTrainedModel.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, params=None, past_key_values=None, dropout_rng=None, train=False, output_attentions=None, output_hidden_states=None, output_router_logits=None, return_dict=None, add_params_field=False, **kwargs)</code>","text":"<p>The call function is the main function of a JAX module. It takes as input: - The parameters of the model (self.params) - The inputs to the model (input_ids, attention_mask, position_ids) - Whether we are training (train=True/False) and whether we want to return all hidden states and attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Array</code> <p>Pass the input sequence to the model</p> required <code>attention_mask</code> <code>Optional[Array]</code> <p>Mask out the padding tokens</p> <code>None</code> <code>position_ids</code> <code>Optional[Array]</code> <p>Specify the position of each token in the sequence</p> <code>None</code> <code>params</code> <code>dict</code> <p>dict: Pass in the parameters of the model</p> <code>None</code> <code>past_key_values</code> <code>dict</code> <p>dict: Pass the past key values to the model</p> <code>None</code> <code>dropout_rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Pass in a random number generator key to the model</p> <code>None</code> <code>train</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the attention weights</p> <code>None</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the hidden states of all layers</p> <code>None</code> <code>return_dict</code> <code>Optional[bool]</code> <p>Optional[bool]: Return a dictionary of the outputs</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add a params field to the inputs dictionary</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of (last_hidden_state, past_key_values)</p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: Optional[chex.Array] = None,\n        position_ids: Optional[chex.Array] = None,\n        params: dict = None,\n        past_key_values: dict = None,\n        dropout_rng: jax.random.PRNGKey = None,\n        train: bool = False,\n        output_attentions: Optional[bool] = None,\n        output_hidden_states: Optional[bool] = None,\n        output_router_logits: Optional[bool] = None,\n        return_dict: Optional[bool] = None,\n        add_params_field: bool = False,\n        **kwargs\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It takes as input:\n    - The parameters of the model (self.params)\n    - The inputs to the model (input_ids, attention_mask, position_ids)\n    - Whether we are training (train=True/False) and whether we want to return all hidden states and\n    attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: Pass the input sequence to the model\n        attention_mask: Mask out the padding tokens\n        position_ids: Specify the position of each token in the\n            sequence\n        params: dict: Pass in the parameters of the model\n        past_key_values: dict: Pass the past key values to the model\n        dropout_rng: jax.random.PRNGKey: Pass in a random number\n            generator key to the model\n        train: bool: Determine whether to use dropout or not\n        output_attentions: Optional[bool]: Determine whether to\n            return the attention weights\n        output_hidden_states: Optional[bool]: Determine whether to\n            return the hidden states of all layers\n        return_dict: Optional[bool]: Return a dictionary of the\n            outputs\n        add_params_field: bool: Add a params field to the inputs\n            dictionary\n\n    Returns:\n        A tuple of (last_hidden_state, past_key_values)\n    \"\"\"\n\n    output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n    output_hidden_states = (\n        output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n    )\n    return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n    batch_size, sequence_length = input_ids.shape\n\n    if position_ids is None:\n        if past_key_values is not None:\n            raise ValueError(\n                \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n        position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                        None, :], (batch_size, sequence_length))\n\n    if attention_mask is None:\n        attention_mask = jnp.ones((batch_size, sequence_length))\n\n    rng_s = {}\n    if dropout_rng is not None:\n        rng_s[\"dropout\"] = dropout_rng\n\n    inputs = {\n        \"params\": params or self.params} if add_params_field else params or self.params\n\n    if self.config.bits is not None:\n        rng_s['params'] = jax.random.key(0)\n    if past_key_values:\n        inputs[\"cache\"] = past_key_values\n        mutable = [\"cache\"]\n    else:\n        mutable = False\n\n    outputs = self.module.apply(\n        inputs,\n        jnp.array(input_ids, dtype=\"i4\"),  # input_ids: chex.Array\n        # attention_mask: Optional[chex.Array] = None\n        jnp.array(attention_mask, dtype=\"i4\"),\n        # position_ids: Optional[chex.Array] = None\n        jnp.array(position_ids, dtype=\"i4\"),\n        None,  # inputs_embeds: Optional[chex.Array] = None\n        output_attentions,  # output_attentions: Optional[bool] = None\n        # output_hidden_states: Optional[bool] = None\n        output_hidden_states,\n        # output_router_logits: Optional[bool] = None\n        output_router_logits,\n        False,  # init_cache: bool = False\n        not train,  # deterministic: bool = True\n        return_dict,  # return_dict: bool = True\n        rngs=rng_s,\n        mutable=mutable,\n    )\n\n    if past_key_values is not None and return_dict:\n        outputs, past_key_values = outputs\n        outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n        return outputs\n    elif past_key_values is not None and not return_dict:\n        outputs, past_key_values = outputs\n        outputs = outputs[:1] + \\\n                  (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-grok_1-modelling_grok_1_flax/#src.python.easydel.modules.grok_1.modelling_grok_1_flax.Grok1PreTrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model. It takes in a rng, which is a random number generator key that can be used to generate random numbers. The input_shape parameter specifies the shape of the inputs that will be fed into this model. The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Initialize the input_ids, attention_mask and position_ids</p> required <code>params</code> <code>Optional[FrozenDict]</code> <p>flax.core.FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/grok_1/modelling_grok_1_flax.py</code> <pre><code>def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple,\n                 params: Optional[FrozenDict] = None) -&gt; FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n    It takes in a rng, which is a random number generator key that can be used to generate random numbers.\n    The input_shape parameter specifies the shape of the inputs that will be fed into this model.\n    The params parameter allows you to pass in pre-trained weights for your model, if you have them available.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Initialize the input_ids, attention_mask\n            and position_ids\n        params: flax.core.FrozenDict: Pass in the parameters of a\n            pre-trained model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n\n    self.config.initialization_of_moe = True\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids, dtype=\"i4\")\n    position_ids = jnp.broadcast_to(\n        jnp.arange(jnp.atleast_2d(input_ids).shape[-1], dtype=\"i4\"),\n        input_shape,\n    )\n    params_rng, dropout_rng = jax.random.split(rng)\n    rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n    if self.config.add_cross_attention:\n        encoder_hidden_states = jnp.zeros(\n            input_shape + (self.config.hidden_size,))\n        encoder_attention_mask = attention_mask\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids,\n            attention_mask,\n            position_ids,\n            encoder_hidden_states,\n            encoder_attention_mask,\n            return_dict=False,\n        )\n    else:\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids=input_ids,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            return_dict=False\n        )\n    random_params = module_init_outputs[\"params\"]\n\n    self.config.initialization_of_moe = False\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-jetmoe-jetmoe_configuration/","title":"modules.jetmoe.jetmoe_configuration","text":""},{"location":"generated-modules-jetmoe-jetmoe_configuration/#src.python.easydel.modules.jetmoe.jetmoe_configuration.JetMoEConfig","title":"<code>JetMoEConfig</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> Source code in <code>src/python/easydel/modules/jetmoe/jetmoe_configuration.py</code> <pre><code>class JetMoEConfig(EasyDeLPretrainedConfig):\n    model_type: str = \"jetmoe\"\n\n    def __init__(\n            self,\n            vocab_size=32000,\n            hidden_size=2048,\n            num_hidden_layers=12,\n            num_attention_heads=32,\n            num_key_value_heads=16,\n            kv_channels=128,\n            ffn_hidden_size=5632,\n            max_position_embeddings=4096,\n            activation_function=\"silu\",\n            glu=True,\n            moe_num_experts=8,\n            moe_top_k=2,\n            use_cache=True,\n            bos_token_id=1,\n            eos_token_id=2,\n            tie_word_embeddings=True,\n            bias=True,\n            rope_theta=10000.0,\n            rms_norm_eps=1e-6,\n            initializer_range=0.01,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            bits: Optional[int] = None,\n            **kwargs\n    ):\n        self.vocab_size = vocab_size\n        self.max_position_embeddings = max_position_embeddings\n        self.hidden_size = hidden_size\n        self.num_hidden_layers = num_hidden_layers\n        self.num_attention_heads = num_attention_heads\n        self.ffn_hidden_size = ffn_hidden_size\n        self.kv_channels = kv_channels\n        self.bias = bias\n        self.glu = glu\n        self.moe_num_experts = moe_num_experts\n        self.moe_top_k = moe_top_k\n        self.activation_function = activation_function\n        self.rope_theta = rope_theta\n        self.initializer_range = initializer_range\n        if num_key_value_heads is None:\n            num_key_value_heads = num_attention_heads\n\n        self.num_key_value_heads = num_key_value_heads\n        self.rms_norm_eps = rms_norm_eps\n        self.use_cache = use_cache\n\n        self.gradient_checkpointing = gradient_checkpointing\n        self.bits = bits\n        super().__init__(\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            tie_word_embeddings=tie_word_embeddings,\n            **kwargs,\n        )\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n            1) A regex string that matches the name of one or more parameters in the model.\n            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to\n                partition the model fully or not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n\n    def add_jax_args(\n            self,\n            tie_word_embeddings: bool = False,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            bits: Optional[int] = None,\n            **kwargs,\n    ):\n        \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n        Args:\n            self: Refer to the current object\n            tie_word_embeddings: bool: Tie the word embeddings to the\n                decoder\n            gradient_checkpointing: str: Control the amount of memory\n                used by jax\n            bits: Optional[int]: Determine the number of bits used in\n                the quantization\n        \"\"\"\n        self.tie_word_embeddings = tie_word_embeddings\n        self.gradient_checkpointing = gradient_checkpointing\n        self.bits = bits\n\n    @staticmethod\n    def get_weight_decay_exclusions():\n        return tuple()\n\n    @staticmethod\n    def rng_keys():\n        return 'params', 'dropout'\n</code></pre>"},{"location":"generated-modules-jetmoe-jetmoe_configuration/#src.python.easydel.modules.jetmoe.jetmoe_configuration.JetMoEConfig.add_jax_args","title":"<code>add_jax_args(tie_word_embeddings=False, gradient_checkpointing='nothing_saveable', bits=None, **kwargs)</code>","text":"<p>The add_jax_args function adds the following arguments to the Transformer class:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the current object</p> required <code>tie_word_embeddings</code> <code>bool</code> <p>bool: Tie the word embeddings to the decoder</p> <code>False</code> <code>gradient_checkpointing</code> <code>str</code> <p>str: Control the amount of memory used by jax</p> <code>'nothing_saveable'</code> <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Determine the number of bits used in the quantization</p> <code>None</code> Source code in <code>src/python/easydel/modules/jetmoe/jetmoe_configuration.py</code> <pre><code>def add_jax_args(\n        self,\n        tie_word_embeddings: bool = False,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        bits: Optional[int] = None,\n        **kwargs,\n):\n    \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n    Args:\n        self: Refer to the current object\n        tie_word_embeddings: bool: Tie the word embeddings to the\n            decoder\n        gradient_checkpointing: str: Control the amount of memory\n            used by jax\n        bits: Optional[int]: Determine the number of bits used in\n            the quantization\n    \"\"\"\n    self.tie_word_embeddings = tie_word_embeddings\n    self.gradient_checkpointing = gradient_checkpointing\n    self.bits = bits\n</code></pre>"},{"location":"generated-modules-jetmoe-jetmoe_configuration/#src.python.easydel.modules.jetmoe.jetmoe_configuration.JetMoEConfig.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:     1) A regex string that matches the name of one or more parameters in the model.     2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to partition the model fully or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/jetmoe/jetmoe_configuration.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n        1) A regex string that matches the name of one or more parameters in the model.\n        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to\n            partition the model fully or not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-jetmoe-modelling_jetmoe_flax/","title":"modules.jetmoe.modelling_jetmoe_flax","text":""},{"location":"generated-modules-jetmoe-modelling_jetmoe_flax/#src.python.easydel.modules.jetmoe.modelling_jetmoe_flax.compute_gating","title":"<code>compute_gating(k, num_experts, top_k_gates, top_k_indices)</code>","text":"<p>Compute gating values for the mixture of experts based on probabilities and top-k indices.</p> Source code in <code>src/python/easydel/modules/jetmoe/modelling_jetmoe_flax.py</code> <pre><code>def compute_gating(k: int, num_experts: int, top_k_gates: jnp.ndarray, top_k_indices: jnp.ndarray) -&gt; Tuple[\n    chex.Array, chex.Array, chex.Array, chex.Array\n]:\n    \"\"\"Compute gating values for the mixture of experts based on probabilities and top-k indices.\"\"\"\n    zeros = jnp.zeros([top_k_gates.shape[0], num_experts], dtype=top_k_gates.dtype)\n    gates = zeros.at[jnp.arange(zeros.shape[0])[:, None], top_k_indices].set(1)\n    expert_size = gates.astype(jnp.int32).sum(axis=0)\n    top_k_gates = top_k_gates.flatten()\n    top_k_experts = top_k_indices.flatten()\n    index_sorted_experts = jnp.argsort(top_k_experts)\n    batch_index = lax.div(index_sorted_experts, k)\n    batch_gates = top_k_gates[index_sorted_experts]\n    return batch_gates, batch_index, expert_size, index_sorted_experts\n</code></pre>"},{"location":"generated-modules-llama-llama_configuration/","title":"modules.llama.llama_configuration","text":""},{"location":"generated-modules-llama-llama_configuration/#src.python.easydel.modules.llama.llama_configuration.LlamaConfig","title":"<code>LlamaConfig</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> Source code in <code>src/python/easydel/modules/llama/llama_configuration.py</code> <pre><code>class LlamaConfig(EasyDeLPretrainedConfig):\n    model_type: str = \"llama\"\n\n    def __init__(\n            self,\n            vocab_size: int = 32000,\n            hidden_size: int = 4096,\n            intermediate_size: int = 11008,\n            num_hidden_layers: int = 32,\n            num_attention_heads: int = 32,\n            number_rep_kv: int = 1,\n            num_key_value_heads: Optional[int] = None,\n            max_position_embeddings: int = 2048,\n            rms_norm_eps: float = 1e-6,\n            initializer_range: float = 0.02,\n            use_cache: bool = True,\n            bos_token_id: int = 0,\n            eos_token_id: int = 1,\n            resid_pdrop: float = 0.0,\n            embd_pdrop: float = 0.0,\n            attention_dropout: float = 0.0,\n            rope_theta: float = 10000.,\n            attention_bias: bool = False,\n            tie_word_embeddings: bool = False,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            fcm_min_ratio: float = -1,\n            fcm_max_ratio: float = -1,\n            rope_scaling: Dict[str, Union[str, float]] = None,\n            scan_mlp_chunk_size: int = 1024,\n            bits: Optional[int] = None,\n            hidden_act: str = 'silu',\n            pretraining_tp: int = 1,\n            scan_layers: bool = False,\n            **kwargs,\n    ):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It sets up the attributes of an object, which are sometimes called fields or properties.\n        The __init__ function can accept arguments, but self must be the first one.\n\n        Args:\n            self: Refer to the object itself\n            vocab_size: int: Set the size of the vocabulary\n            hidden_size: int: Set the size of the hidden layers in each\n                transformer block\n            intermediate_size: int: Set the size of the intermediate\n                layer\n            num_hidden_layers: int: Determine the number of layers in\n                the transformer\n            num_attention_heads: int: Determine the number of attention\n                heads\n            number_rep_kv: int: Set the number of times to repeat the\n                key and value vectors\n            num_key_value_heads: Optional[int]: Define the number of\n                key-value heads\n            max_position_embeddings: int: Set the maximum length of a\n                sequence\n            rms_norm_eps: float: Prevent division by zero in the rms\n                normalization\n            initializer_range: float: Initialize the weights of the\n                model\n            use_cache: bool: Determine whether the attention layer\n                should use a cache for faster computation\n            bos_token_id: int: Set the beginning of sequence token\n            eos_token_id: int: Specify the end of sentence token\n            resid_pdrop: float: Set the dropout rate for residual\n                connections\n            embd_pdrop: float: Dropout the embedding layer\n            attention_dropout: float: Dropout the attention weights\n            tie_word_embeddings: bool: Tie the word embeddings and\n                output layer weights\n            gradient_checkpointing: str: Specify how to checkpoint the\n                gradients\n            fcm_min_ratio: float: Set the minimum ratio of the number of\n                elements in a tensor to be processed by flash\n            fcm_max_ratio: float: Determine the maximum ratio of\n            rope_scaling: Dict[str: Define the scaling of the rope\n            Union[str: Specify the type of the parameter\n            float]]: Specify the type of the parameter\n            shard_attention_computation: bool: when ever to use\n                shard_map for attention\n            bits: Optional[int]: Specify the number of bits used to\n                quantize the weights\n            rope_theta: float : rope_theta for compute rope\n            attention_bias: bool : whenever to use attention bias or no\n            hidden_act: str : hidden_act for mlp\n            axis_dims: Sequence[int]: Specify the dimensions of each\n                axis\n            axis_names: Sequence[str]: Specify the names of the axes in\n                a tensor\n            scan_layers: bool: Determine whether to use the scan_layers\n                or not\n            **kwargs: Pass a variable number of keyword arguments to a\n                function\n        :param : Define the number of layers in the model\n\n        Returns:\n            Nothing\n        \"\"\"\n        num_key_value_heads = num_key_value_heads or number_rep_kv * num_attention_heads\n        self.num_key_value_heads = num_key_value_heads\n        self.vocab_size = vocab_size\n\n        self.number_rep_kv = number_rep_kv\n        self.hidden_size = hidden_size\n        self.initializer_range = initializer_range\n        self.intermediate_size = intermediate_size\n        self.num_hidden_layers = num_hidden_layers\n        self.rope_theta = rope_theta\n        self.attention_bias = attention_bias\n        self.num_attention_heads = num_attention_heads\n        self.max_position_embeddings = max_position_embeddings\n        self.rms_norm_eps = rms_norm_eps\n        self.use_cache = use_cache\n        self.pretraining_tp = pretraining_tp\n        self.resid_pdrop = resid_pdrop\n        self.embd_pdrop = embd_pdrop\n        self.attention_dropout = attention_dropout\n        self.gradient_checkpointing = gradient_checkpointing\n        self.fcm_min_ratio = fcm_min_ratio\n        self.hidden_act = hidden_act\n        self.fcm_max_ratio = fcm_max_ratio\n        self.rope_scaling = rope_scaling\n        self.bits = bits\n        self.scan_layers = scan_layers\n        super().__init__(\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            tie_word_embeddings=tie_word_embeddings,\n            scan_mlp_chunk_size=scan_mlp_chunk_size,\n            bits=bits,\n            **kwargs,\n        )\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n            1) A regex string that matches the name of one or more parameters in the model.\n            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to\n                partition the model fully or not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"mlp/down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec(None)),\n        ) if not fully_sharded_data_parallel else (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n\n    def add_jax_args(\n            self,\n            resid_pdrop: float = 0.0,\n            embd_pdrop: float = 0.0,\n            attention_dropout: float = 0.0,\n            tie_word_embeddings: bool = False,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            fcm_min_ratio: float = 0.0,\n            fcm_max_ratio: float = 0.0,\n            number_rep_kv: int = 1,\n            bits: Optional[int] = None,\n            rope_theta: float = 10000.,\n            attention_bias: bool = False,\n            hidden_act: str = 'silu',\n            scan_layers: bool = True,\n            **kwargs,\n    ):\n        \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n        Args:\n            self: Refer to the current object\n            resid_pdrop: float: Set the dropout rate for residual\n                connections\n            embd_pdrop: float: Set the probability of dropping an\n                embedding\n            attention_dropout: float: Set the probability of dropping\n                out the attention layer\n            tie_word_embeddings: bool: Tie the word embeddings to the\n                decoder\n            gradient_checkpointing: str: Control the amount of memory\n                used by jax\n            fcm_min_ratio: float: Control the minimum ratio of the\n                number of chunks to be used in flash-based computation\n            fcm_max_ratio: float: Set the maximum ratio of the number of\n                input tokens to output tokens\n            number_rep_kv: int: Determine how many times the key and\n                value vectors are repeated\n            bits: Optional[int]: Determine the number of bits used in\n                the quantization\n            rope_theta: float : rope_theta for compute rope\n            attention_bias: bool : whenever to use attention bias or no\n            hidden_act: str : hidden_act for mlp\n            scan_layers: bool: Determine whether to use scan layers or\n                not\n        \"\"\"\n        self.scan_layers = scan_layers\n        self.embd_pdrop = embd_pdrop\n        self.number_rep_kv = number_rep_kv\n        self.resid_pdrop = resid_pdrop\n        self.rope_theta = rope_theta\n        self.attention_bias = attention_bias\n        self.attention_dropout = attention_dropout\n        self.hidden_act = hidden_act\n        self.tie_word_embeddings = tie_word_embeddings\n        self.gradient_checkpointing = gradient_checkpointing\n        self.fcm_min_ratio = fcm_min_ratio\n        self.fcm_max_ratio = fcm_max_ratio\n        self.bits = bits\n\n    @staticmethod\n    def get_weight_decay_exclusions():\n        return tuple()\n\n    @staticmethod\n    def rng_keys():\n        return 'params', 'dropout', 'fcm'\n</code></pre>"},{"location":"generated-modules-llama-llama_configuration/#src.python.easydel.modules.llama.llama_configuration.LlamaConfig.__init__","title":"<code>__init__(vocab_size=32000, hidden_size=4096, intermediate_size=11008, num_hidden_layers=32, num_attention_heads=32, number_rep_kv=1, num_key_value_heads=None, max_position_embeddings=2048, rms_norm_eps=1e-06, initializer_range=0.02, use_cache=True, bos_token_id=0, eos_token_id=1, resid_pdrop=0.0, embd_pdrop=0.0, attention_dropout=0.0, rope_theta=10000.0, attention_bias=False, tie_word_embeddings=False, gradient_checkpointing='nothing_saveable', fcm_min_ratio=-1, fcm_max_ratio=-1, rope_scaling=None, scan_mlp_chunk_size=1024, bits=None, hidden_act='silu', pretraining_tp=1, scan_layers=False, **kwargs)</code>","text":"<p>The init function is called when the class is instantiated. It sets up the attributes of an object, which are sometimes called fields or properties. The init function can accept arguments, but self must be the first one.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>vocab_size</code> <code>int</code> <p>int: Set the size of the vocabulary</p> <code>32000</code> <code>hidden_size</code> <code>int</code> <p>int: Set the size of the hidden layers in each transformer block</p> <code>4096</code> <code>intermediate_size</code> <code>int</code> <p>int: Set the size of the intermediate layer</p> <code>11008</code> <code>num_hidden_layers</code> <code>int</code> <p>int: Determine the number of layers in the transformer</p> <code>32</code> <code>num_attention_heads</code> <code>int</code> <p>int: Determine the number of attention heads</p> <code>32</code> <code>number_rep_kv</code> <code>int</code> <p>int: Set the number of times to repeat the key and value vectors</p> <code>1</code> <code>num_key_value_heads</code> <code>Optional[int]</code> <p>Optional[int]: Define the number of key-value heads</p> <code>None</code> <code>max_position_embeddings</code> <code>int</code> <p>int: Set the maximum length of a sequence</p> <code>2048</code> <code>rms_norm_eps</code> <code>float</code> <p>float: Prevent division by zero in the rms normalization</p> <code>1e-06</code> <code>initializer_range</code> <code>float</code> <p>float: Initialize the weights of the model</p> <code>0.02</code> <code>use_cache</code> <code>bool</code> <p>bool: Determine whether the attention layer should use a cache for faster computation</p> <code>True</code> <code>bos_token_id</code> <code>int</code> <p>int: Set the beginning of sequence token</p> <code>0</code> <code>eos_token_id</code> <code>int</code> <p>int: Specify the end of sentence token</p> <code>1</code> <code>resid_pdrop</code> <code>float</code> <p>float: Set the dropout rate for residual connections</p> <code>0.0</code> <code>embd_pdrop</code> <code>float</code> <p>float: Dropout the embedding layer</p> <code>0.0</code> <code>attention_dropout</code> <code>float</code> <p>float: Dropout the attention weights</p> <code>0.0</code> <code>tie_word_embeddings</code> <code>bool</code> <p>bool: Tie the word embeddings and output layer weights</p> <code>False</code> <code>gradient_checkpointing</code> <code>str</code> <p>str: Specify how to checkpoint the gradients</p> <code>'nothing_saveable'</code> <code>fcm_min_ratio</code> <code>float</code> <p>float: Set the minimum ratio of the number of elements in a tensor to be processed by flash</p> <code>-1</code> <code>fcm_max_ratio</code> <code>float</code> <p>float: Determine the maximum ratio of</p> <code>-1</code> <code>rope_scaling</code> <code>Dict[str, Union[str, float]]</code> <p>Dict[str: Define the scaling of the rope</p> <code>None</code> <code>Union[str</code> <p>Specify the type of the parameter</p> required <code>float]]</code> <p>Specify the type of the parameter</p> required <code>shard_attention_computation</code> <p>bool: when ever to use shard_map for attention</p> required <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Specify the number of bits used to quantize the weights</p> <code>None</code> <code>rope_theta</code> <code>float</code> <p>float : rope_theta for compute rope</p> <code>10000.0</code> <code>attention_bias</code> <code>bool</code> <p>bool : whenever to use attention bias or no</p> <code>False</code> <code>hidden_act</code> <code>str</code> <p>str : hidden_act for mlp</p> <code>'silu'</code> <code>axis_dims</code> <p>Sequence[int]: Specify the dimensions of each axis</p> required <code>axis_names</code> <p>Sequence[str]: Specify the names of the axes in a tensor</p> required <code>scan_layers</code> <code>bool</code> <p>bool: Determine whether to use the scan_layers or not</p> <code>False</code> <code>**kwargs</code> <p>Pass a variable number of keyword arguments to a function</p> <code>{}</code> <p>:param : Define the number of layers in the model</p> <p>Returns:</p> Type Description <p>Nothing</p> Source code in <code>src/python/easydel/modules/llama/llama_configuration.py</code> <pre><code>def __init__(\n        self,\n        vocab_size: int = 32000,\n        hidden_size: int = 4096,\n        intermediate_size: int = 11008,\n        num_hidden_layers: int = 32,\n        num_attention_heads: int = 32,\n        number_rep_kv: int = 1,\n        num_key_value_heads: Optional[int] = None,\n        max_position_embeddings: int = 2048,\n        rms_norm_eps: float = 1e-6,\n        initializer_range: float = 0.02,\n        use_cache: bool = True,\n        bos_token_id: int = 0,\n        eos_token_id: int = 1,\n        resid_pdrop: float = 0.0,\n        embd_pdrop: float = 0.0,\n        attention_dropout: float = 0.0,\n        rope_theta: float = 10000.,\n        attention_bias: bool = False,\n        tie_word_embeddings: bool = False,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        fcm_min_ratio: float = -1,\n        fcm_max_ratio: float = -1,\n        rope_scaling: Dict[str, Union[str, float]] = None,\n        scan_mlp_chunk_size: int = 1024,\n        bits: Optional[int] = None,\n        hidden_act: str = 'silu',\n        pretraining_tp: int = 1,\n        scan_layers: bool = False,\n        **kwargs,\n):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It sets up the attributes of an object, which are sometimes called fields or properties.\n    The __init__ function can accept arguments, but self must be the first one.\n\n    Args:\n        self: Refer to the object itself\n        vocab_size: int: Set the size of the vocabulary\n        hidden_size: int: Set the size of the hidden layers in each\n            transformer block\n        intermediate_size: int: Set the size of the intermediate\n            layer\n        num_hidden_layers: int: Determine the number of layers in\n            the transformer\n        num_attention_heads: int: Determine the number of attention\n            heads\n        number_rep_kv: int: Set the number of times to repeat the\n            key and value vectors\n        num_key_value_heads: Optional[int]: Define the number of\n            key-value heads\n        max_position_embeddings: int: Set the maximum length of a\n            sequence\n        rms_norm_eps: float: Prevent division by zero in the rms\n            normalization\n        initializer_range: float: Initialize the weights of the\n            model\n        use_cache: bool: Determine whether the attention layer\n            should use a cache for faster computation\n        bos_token_id: int: Set the beginning of sequence token\n        eos_token_id: int: Specify the end of sentence token\n        resid_pdrop: float: Set the dropout rate for residual\n            connections\n        embd_pdrop: float: Dropout the embedding layer\n        attention_dropout: float: Dropout the attention weights\n        tie_word_embeddings: bool: Tie the word embeddings and\n            output layer weights\n        gradient_checkpointing: str: Specify how to checkpoint the\n            gradients\n        fcm_min_ratio: float: Set the minimum ratio of the number of\n            elements in a tensor to be processed by flash\n        fcm_max_ratio: float: Determine the maximum ratio of\n        rope_scaling: Dict[str: Define the scaling of the rope\n        Union[str: Specify the type of the parameter\n        float]]: Specify the type of the parameter\n        shard_attention_computation: bool: when ever to use\n            shard_map for attention\n        bits: Optional[int]: Specify the number of bits used to\n            quantize the weights\n        rope_theta: float : rope_theta for compute rope\n        attention_bias: bool : whenever to use attention bias or no\n        hidden_act: str : hidden_act for mlp\n        axis_dims: Sequence[int]: Specify the dimensions of each\n            axis\n        axis_names: Sequence[str]: Specify the names of the axes in\n            a tensor\n        scan_layers: bool: Determine whether to use the scan_layers\n            or not\n        **kwargs: Pass a variable number of keyword arguments to a\n            function\n    :param : Define the number of layers in the model\n\n    Returns:\n        Nothing\n    \"\"\"\n    num_key_value_heads = num_key_value_heads or number_rep_kv * num_attention_heads\n    self.num_key_value_heads = num_key_value_heads\n    self.vocab_size = vocab_size\n\n    self.number_rep_kv = number_rep_kv\n    self.hidden_size = hidden_size\n    self.initializer_range = initializer_range\n    self.intermediate_size = intermediate_size\n    self.num_hidden_layers = num_hidden_layers\n    self.rope_theta = rope_theta\n    self.attention_bias = attention_bias\n    self.num_attention_heads = num_attention_heads\n    self.max_position_embeddings = max_position_embeddings\n    self.rms_norm_eps = rms_norm_eps\n    self.use_cache = use_cache\n    self.pretraining_tp = pretraining_tp\n    self.resid_pdrop = resid_pdrop\n    self.embd_pdrop = embd_pdrop\n    self.attention_dropout = attention_dropout\n    self.gradient_checkpointing = gradient_checkpointing\n    self.fcm_min_ratio = fcm_min_ratio\n    self.hidden_act = hidden_act\n    self.fcm_max_ratio = fcm_max_ratio\n    self.rope_scaling = rope_scaling\n    self.bits = bits\n    self.scan_layers = scan_layers\n    super().__init__(\n        bos_token_id=bos_token_id,\n        eos_token_id=eos_token_id,\n        tie_word_embeddings=tie_word_embeddings,\n        scan_mlp_chunk_size=scan_mlp_chunk_size,\n        bits=bits,\n        **kwargs,\n    )\n</code></pre>"},{"location":"generated-modules-llama-llama_configuration/#src.python.easydel.modules.llama.llama_configuration.LlamaConfig.add_jax_args","title":"<code>add_jax_args(resid_pdrop=0.0, embd_pdrop=0.0, attention_dropout=0.0, tie_word_embeddings=False, gradient_checkpointing='nothing_saveable', fcm_min_ratio=0.0, fcm_max_ratio=0.0, number_rep_kv=1, bits=None, rope_theta=10000.0, attention_bias=False, hidden_act='silu', scan_layers=True, **kwargs)</code>","text":"<p>The add_jax_args function adds the following arguments to the Transformer class:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the current object</p> required <code>resid_pdrop</code> <code>float</code> <p>float: Set the dropout rate for residual connections</p> <code>0.0</code> <code>embd_pdrop</code> <code>float</code> <p>float: Set the probability of dropping an embedding</p> <code>0.0</code> <code>attention_dropout</code> <code>float</code> <p>float: Set the probability of dropping out the attention layer</p> <code>0.0</code> <code>tie_word_embeddings</code> <code>bool</code> <p>bool: Tie the word embeddings to the decoder</p> <code>False</code> <code>gradient_checkpointing</code> <code>str</code> <p>str: Control the amount of memory used by jax</p> <code>'nothing_saveable'</code> <code>fcm_min_ratio</code> <code>float</code> <p>float: Control the minimum ratio of the number of chunks to be used in flash-based computation</p> <code>0.0</code> <code>fcm_max_ratio</code> <code>float</code> <p>float: Set the maximum ratio of the number of input tokens to output tokens</p> <code>0.0</code> <code>number_rep_kv</code> <code>int</code> <p>int: Determine how many times the key and value vectors are repeated</p> <code>1</code> <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Determine the number of bits used in the quantization</p> <code>None</code> <code>rope_theta</code> <code>float</code> <p>float : rope_theta for compute rope</p> <code>10000.0</code> <code>attention_bias</code> <code>bool</code> <p>bool : whenever to use attention bias or no</p> <code>False</code> <code>hidden_act</code> <code>str</code> <p>str : hidden_act for mlp</p> <code>'silu'</code> <code>scan_layers</code> <code>bool</code> <p>bool: Determine whether to use scan layers or not</p> <code>True</code> Source code in <code>src/python/easydel/modules/llama/llama_configuration.py</code> <pre><code>def add_jax_args(\n        self,\n        resid_pdrop: float = 0.0,\n        embd_pdrop: float = 0.0,\n        attention_dropout: float = 0.0,\n        tie_word_embeddings: bool = False,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        fcm_min_ratio: float = 0.0,\n        fcm_max_ratio: float = 0.0,\n        number_rep_kv: int = 1,\n        bits: Optional[int] = None,\n        rope_theta: float = 10000.,\n        attention_bias: bool = False,\n        hidden_act: str = 'silu',\n        scan_layers: bool = True,\n        **kwargs,\n):\n    \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n    Args:\n        self: Refer to the current object\n        resid_pdrop: float: Set the dropout rate for residual\n            connections\n        embd_pdrop: float: Set the probability of dropping an\n            embedding\n        attention_dropout: float: Set the probability of dropping\n            out the attention layer\n        tie_word_embeddings: bool: Tie the word embeddings to the\n            decoder\n        gradient_checkpointing: str: Control the amount of memory\n            used by jax\n        fcm_min_ratio: float: Control the minimum ratio of the\n            number of chunks to be used in flash-based computation\n        fcm_max_ratio: float: Set the maximum ratio of the number of\n            input tokens to output tokens\n        number_rep_kv: int: Determine how many times the key and\n            value vectors are repeated\n        bits: Optional[int]: Determine the number of bits used in\n            the quantization\n        rope_theta: float : rope_theta for compute rope\n        attention_bias: bool : whenever to use attention bias or no\n        hidden_act: str : hidden_act for mlp\n        scan_layers: bool: Determine whether to use scan layers or\n            not\n    \"\"\"\n    self.scan_layers = scan_layers\n    self.embd_pdrop = embd_pdrop\n    self.number_rep_kv = number_rep_kv\n    self.resid_pdrop = resid_pdrop\n    self.rope_theta = rope_theta\n    self.attention_bias = attention_bias\n    self.attention_dropout = attention_dropout\n    self.hidden_act = hidden_act\n    self.tie_word_embeddings = tie_word_embeddings\n    self.gradient_checkpointing = gradient_checkpointing\n    self.fcm_min_ratio = fcm_min_ratio\n    self.fcm_max_ratio = fcm_max_ratio\n    self.bits = bits\n</code></pre>"},{"location":"generated-modules-llama-llama_configuration/#src.python.easydel.modules.llama.llama_configuration.LlamaConfig.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:     1) A regex string that matches the name of one or more parameters in the model.     2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to partition the model fully or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/llama/llama_configuration.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n        1) A regex string that matches the name of one or more parameters in the model.\n        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to\n            partition the model fully or not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"mlp/down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\".*\", PartitionSpec(None)),\n    ) if not fully_sharded_data_parallel else (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/","title":"modules.llama.modelling_llama_flax","text":""},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaAttention","title":"<code>FlaxLlamaAttention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>class FlaxLlamaAttention(BaseJAXAttentionModule):\n    config: LlamaConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        config = self.config\n        self.hidden_size = config.hidden_size\n        self.head_dim = self.config.hidden_size // self.config.num_attention_heads\n        self.num_key_value_groups = self.config.num_attention_heads // self.config.num_key_value_heads\n\n        if self.num_key_value_groups == 1:\n            assert self.config.num_attention_heads == self.config.num_key_value_heads\n        self.q_proj = Linear(\n            config.num_attention_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=self.config.attention_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.k_proj = Linear(\n            config.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=self.config.attention_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.v_proj = Linear(\n            config.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=self.config.attention_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.o_proj = Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n        self.rotary = FlaxLlamaEmbedding(self.dtype)\n        self.attention_performer = AttentionModule(\n            use_sharding_constraint=self.config.use_sharding_constraint,\n            block_k_major=self.config.block_k_major,\n            block_b=self.config.block_b,\n            block_q=self.config.block_q,\n            block_k=self.config.block_k,\n            block_q_major_dkv=self.config.block_q_major_dkv,\n            block_k_major_dkv=self.config.block_k_major_dkv,\n            block_k_major_dq=self.config.block_k_major_dq,\n            block_k_dkv=self.config.block_k_dkv,\n            block_q_dkv=self.config.block_q_dkv,\n            block_q_dq=self.config.block_q_dq,\n            block_k_dq=self.config.block_k_dq,\n            num_attention_heads=self.config.num_attention_heads,\n            attention_dropout=self.config.attention_dropout,\n            head_dims=self.head_dim,\n            attention_partition_spec=self.config.attention_partition_spec,\n            shard_attention_computation=self.config.shard_attention_computation,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            bias_partition_spec=self.config.bias_partition_spec,\n            key_partition_spec=self.config.key_partition_spec,\n            query_partition_spec=self.config.query_partition_spec,\n            generation_query_partition_spec=self.config.generation_query_partition_spec,\n            generation_bias_partition_spec=self.config.generation_bias_partition_spec,\n            generation_attention_partition_spec=self.config.generation_attention_partition_spec,\n            value_partition_spec=self.config.value_partition_spec,\n            scan_ring_attention=self.config.scan_ring_attention,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name\n        )\n        self.resid_dropout = flax.linen.Dropout(rate=config.resid_pdrop)\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.hidden_size,))\n\n    @staticmethod\n    def _transpose_sequence_head(query, key, value):\n        \"\"\"The _transpose_sequence_head function transposes the query, key and value matrices.\n\n        Args:\n            query: Get the attention weights for each of the heads\n            key: Determine the number of heads\n            value: Store the values of the input\n\n        Returns:\n            The transpose of the query, key and value matrices\n        \"\"\"\n        return jnp.transpose(query, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value, (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n        \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n        Args:\n            self: Access variables that belong to the class\n            batch_size: Reshape the query, key and value tensors\n            sequence_length: Reshape the query, key and value tensors\n            query: Calculate the attention weights\n            key: Calculate the attention\n            value: Compute the attention weights\n            freq_cis: Calculate the frequency of each word in the\n                vocabulary\n            position_ids: Identify the position of each token in the\n                sequence\n\n        Returns:\n            A tuple of 3 tensors: query, key and value\n        \"\"\"\n        query = query.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_attention_heads,\n            self.head_dim\n        )\n        key = key.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n        value = value.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n\n        query, key, value = self._transpose_sequence_head(query, key, value)\n        query, key = self.rotary(\n            position_ids=position_ids, query=query, key=key, freq_cis=freq_cis\n        )\n        key = repeat_kv_bnsh(key, self.num_key_value_groups)\n        value = repeat_kv_bnsh(value, self.num_key_value_groups)\n        return self._transpose_sequence_head(query, key, value)\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            fcm_mask=None,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n        and it should return all outputs that are needed for training or inference.\n\n        Args:\n            self: Access variables that belong to the class\n            hidden_states: chex.Array: Pass the hidden states of the\n                previous layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency coefficients for each position\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Determine the position of each\n                token in a sequence\n            causal_mask: chex.Array: Mask out the future tokens in the\n                decoder\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n            fcm_mask: Mask out the attention weights between the input\n                and output tokens\n        :param : Determine if the attention is causal or not\n\n        Returns:\n            A tuple of two arrays\n        \"\"\"\n        batch_size, sequence_length = hidden_states.shape[:2]\n        (\n            query_states,\n            key_states,\n            value_states\n        ) = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(hidden_states)\n\n        query_states = query_states.reshape(\n            batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n        key_states = key_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n        value_states = value_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query=query_states,\n            key=key_states,\n            value=value_states,\n            position_ids=position_ids,\n            freq_cis=freq_cis,\n            batch_size=batch_size,\n            sequence_length=sequence_length\n        )\n\n        assert_msg = (\n            \"num_attention_heads repeat wont work likely\\n\"\n            f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n            f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n        )\n\n        assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask,\n                (0, 0, mask_shift, 0),\n                (1, 1, query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        attention_mask = jnp.broadcast_to(jnp.expand_dims(\n            attention_mask, axis=(-3, -2)), causal_mask.shape)\n        attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n        dropout_rng = None\n\n        if not deterministic and self.config.attention_dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n\n        # if self.config.use_sharding_constraint:\n        #     query_states = with_sharding_constraint(\n        #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n        #     )\n        #     key_states = with_sharding_constraint(\n        #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        #     value_states = with_sharding_constraint(\n        #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        attention_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=attention_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        attn_output = self.o_proj(attn_output)\n\n        attn_output = self.resid_dropout(attn_output, deterministic=deterministic)\n        outputs = (attn_output, attentions.attention_weights) if output_attentions else (attn_output,)\n        return outputs\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaAttention.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, segment_ids=None, deterministic=True, init_cache=False, output_attentions=False, fcm_mask=None)</code>","text":"<p>The call function is the main function of a JAX module. It defines how the module behaves when called with inputs. The call function can be thought of as a \"forward pass\" through the model, and it should return all outputs that are needed for training or inference.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the hidden states of the previous layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency coefficients for each position</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask out the future tokens in the decoder</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <code>fcm_mask</code> <p>Mask out the attention weights between the input and output tokens</p> <code>None</code> <p>:param : Determine if the attention is causal or not</p> <p>Returns:</p> Type Description <p>A tuple of two arrays</p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        fcm_mask=None,\n):\n    \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n    and it should return all outputs that are needed for training or inference.\n\n    Args:\n        self: Access variables that belong to the class\n        hidden_states: chex.Array: Pass the hidden states of the\n            previous layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency coefficients for each position\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Determine the position of each\n            token in a sequence\n        causal_mask: chex.Array: Mask out the future tokens in the\n            decoder\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n        fcm_mask: Mask out the attention weights between the input\n            and output tokens\n    :param : Determine if the attention is causal or not\n\n    Returns:\n        A tuple of two arrays\n    \"\"\"\n    batch_size, sequence_length = hidden_states.shape[:2]\n    (\n        query_states,\n        key_states,\n        value_states\n    ) = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(hidden_states)\n\n    query_states = query_states.reshape(\n        batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n    key_states = key_states.reshape(\n        batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n    value_states = value_states.reshape(\n        batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n    query_states, key_states, value_states = self.apply_rotary(\n        query=query_states,\n        key=key_states,\n        value=value_states,\n        position_ids=position_ids,\n        freq_cis=freq_cis,\n        batch_size=batch_size,\n        sequence_length=sequence_length\n    )\n\n    assert_msg = (\n        \"num_attention_heads repeat wont work likely\\n\"\n        f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n        f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n    )\n\n    assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    if self.has_variable(\"cache\", \"cached_key\"):\n        mask_shift = self.variables[\"cache\"][\"cache_index\"]\n        max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n        causal_mask = lax.dynamic_slice(\n            causal_mask,\n            (0, 0, mask_shift, 0),\n            (1, 1, query_length, max_decoder_length)\n        )\n    else:\n        causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n    batch_size = hidden_states.shape[0]\n    causal_mask = jnp.broadcast_to(\n        causal_mask, (batch_size,) + causal_mask.shape[1:])\n    attention_mask = jnp.broadcast_to(jnp.expand_dims(\n        attention_mask, axis=(-3, -2)), causal_mask.shape)\n    attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n    if attention_mask.ndim == 2:\n        attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n    dropout_rng = None\n\n    if not deterministic and self.config.attention_dropout &gt; 0.0:\n        dropout_rng = self.make_rng(\"dropout\")\n\n    if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n        key_states, value_states, attention_mask = self._concatenate_to_cache(\n            key_states,\n            value_states,\n            query_states,\n            attention_mask\n        )\n\n    # if self.config.use_sharding_constraint:\n    #     query_states = with_sharding_constraint(\n    #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n    #     )\n    #     key_states = with_sharding_constraint(\n    #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    #     value_states = with_sharding_constraint(\n    #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    attention_bias = lax.select(\n        attention_mask &gt; 0,\n        jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n        jnp.full(attention_mask.shape, jnp.finfo(\n            self.dtype).min).astype(self.dtype),\n    )\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    attentions = self.attention_performer.__call__(\n        query_states=query_states,\n        key_states=key_states,\n        value_states=value_states,\n        bias=attention_bias,\n        attention_mask=attention_mask,\n        causal=True,\n        dropout_rng=dropout_rng,\n        deterministic=deterministic,\n        query_sequence_length=query_length,\n        key_value_sequence_length=key_length,\n        uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n        segment_ids=segment_ids,\n        causal_mask=causal_mask\n    )\n\n    attn_output = self._merge_heads(attentions.attention_outputs)\n    if self.config.shard_attention_computation:\n        attn_output = with_sharding_constraint(\n            attn_output, PartitionSpec(\n                (\"dp\", \"fsdp\"),\n                \"sp\" if attn_output.shape[1] != 1 else None,\n                \"tp\"\n            )\n        )\n    attn_output = self.o_proj(attn_output)\n\n    attn_output = self.resid_dropout(attn_output, deterministic=deterministic)\n    outputs = (attn_output, attentions.attention_weights) if output_attentions else (attn_output,)\n    return outputs\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaAttention.apply_rotary","title":"<code>apply_rotary(batch_size, sequence_length, query, key, value, freq_cis, position_ids)</code>","text":"<p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class. The main difference is that it takes in an additional argument, freq_cis, which are used to calculate the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>batch_size</code> <p>Reshape the query, key and value tensors</p> required <code>sequence_length</code> <p>Reshape the query, key and value tensors</p> required <code>query</code> <p>Calculate the attention weights</p> required <code>key</code> <p>Calculate the attention</p> required <code>value</code> <p>Compute the attention weights</p> required <code>freq_cis</code> <p>Calculate the frequency of each word in the vocabulary</p> required <code>position_ids</code> <p>Identify the position of each token in the sequence</p> required <p>Returns:</p> Type Description <p>A tuple of 3 tensors: query, key and value</p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n    \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n    Args:\n        self: Access variables that belong to the class\n        batch_size: Reshape the query, key and value tensors\n        sequence_length: Reshape the query, key and value tensors\n        query: Calculate the attention weights\n        key: Calculate the attention\n        value: Compute the attention weights\n        freq_cis: Calculate the frequency of each word in the\n            vocabulary\n        position_ids: Identify the position of each token in the\n            sequence\n\n    Returns:\n        A tuple of 3 tensors: query, key and value\n    \"\"\"\n    query = query.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_attention_heads,\n        self.head_dim\n    )\n    key = key.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n    value = value.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n\n    query, key, value = self._transpose_sequence_head(query, key, value)\n    query, key = self.rotary(\n        position_ids=position_ids, query=query, key=key, freq_cis=freq_cis\n    )\n    key = repeat_kv_bnsh(key, self.num_key_value_groups)\n    value = repeat_kv_bnsh(value, self.num_key_value_groups)\n    return self._transpose_sequence_head(query, key, value)\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlock","title":"<code>FlaxLlamaBlock</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>class FlaxLlamaBlock(nn.Module):\n    config: LlamaConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self) -&gt; None:\n        attn_block = FlaxLlamaAttention\n        if self.config.gradient_checkpointing != \"\":\n            attn_block = nn_partitioning.remat(\n                FlaxLlamaAttention, static_argnums=(1, 3, 4, 6, 7, 8),\n                policy=get_gradient_checkpoint_policy(\n                    self.config.gradient_checkpointing)\n            )\n\n        self.self_attn = attn_block(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        mlp_block = FlaxLlamaMLP\n\n        if self.config.gradient_checkpointing != \"\":\n            mlp_block = nn_partitioning.remat(\n                FlaxLlamaMLP, static_argnums=(1,),\n                policy=get_gradient_checkpoint_policy(\n                    self.config.gradient_checkpointing\n                )\n            )\n\n        self.mlp = mlp_block(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n        )\n        self.input_layernorm = RMSNorm(\n            self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n        )\n        self.post_attention_layernorm = RMSNorm(\n            self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n\n        )\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            fcm_mask: Optional[jnp.ndarray] = None,\n    ):\n        \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n        It takes in hidden states, frequency-domain inputs, and masks as input. It then\n        applies self-attention to the hidden states using those inputs and returns an\n        output tensor with shape (batch_size, sequence_length, model_dim).\n\n        Args:\n            self: Refer to the class instance itself\n            hidden_states: chex.Array: Pass in the hidden state of the\n                previous layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency information\n            attention_mask: chex.Array: Mask out the attention weights\n                for padding tokens\n            position_ids: chex.Array: Determine the position of each\n                token in the sequence\n            causal_mask: chex.Array: Mask the attention weights\n            deterministic: bool: Control whether the dropout is applied\n                or not\n            init_cache: bool: Initialize the cache in the attention\n                layer\n            output_attentions: bool: Return the attention weights\n            fcm_mask: Optional[jnp.ndarray]: Mask the self-attention\n        :param : Control the dropout in the self attention layer\n\n        Returns:\n            A tuple of two items\n        \"\"\"\n        attn_outputs = self.self_attn(\n            self.input_layernorm(hidden_states),\n            freq_cis,\n            attention_mask,\n            position_ids,\n            causal_mask,\n            segment_ids,\n            deterministic,\n            init_cache,\n            output_attentions,\n            fcm_mask,\n        )\n        attn_output = attn_outputs[0]\n        hidden_states = hidden_states + attn_output\n\n        feed_forward_input = self.post_attention_layernorm(hidden_states)\n\n        if self.config.use_scan_mlp:\n            feed_forward_hidden_states = block_wise_ffn(\n                self.mlp,\n                feed_forward_input,\n                self.config.scan_mlp_chunk_size,\n                deterministic,\n            )\n        else:\n            feed_forward_hidden_states = self.mlp(\n                feed_forward_input,\n                deterministic,\n            )\n\n        hidden_states = hidden_states + feed_forward_hidden_states\n\n        return (hidden_states,) + attn_outputs[1:]\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlock.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, segment_ids=None, deterministic=True, init_cache=False, output_attentions=False, fcm_mask=None)</code>","text":"<p>The call function is the main function of a TransformerEncoderLayer. It takes in hidden states, frequency-domain inputs, and masks as input. It then applies self-attention to the hidden states using those inputs and returns an output tensor with shape (batch_size, sequence_length, model_dim).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the class instance itself</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass in the hidden state of the previous layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency information</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the attention weights for padding tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in the sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the attention weights</p> required <code>deterministic</code> <code>bool</code> <p>bool: Control whether the dropout is applied or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache in the attention layer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>fcm_mask</code> <code>Optional[ndarray]</code> <p>Optional[jnp.ndarray]: Mask the self-attention</p> <code>None</code> <p>:param : Control the dropout in the self attention layer</p> <p>Returns:</p> Type Description <p>A tuple of two items</p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        fcm_mask: Optional[jnp.ndarray] = None,\n):\n    \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n    It takes in hidden states, frequency-domain inputs, and masks as input. It then\n    applies self-attention to the hidden states using those inputs and returns an\n    output tensor with shape (batch_size, sequence_length, model_dim).\n\n    Args:\n        self: Refer to the class instance itself\n        hidden_states: chex.Array: Pass in the hidden state of the\n            previous layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency information\n        attention_mask: chex.Array: Mask out the attention weights\n            for padding tokens\n        position_ids: chex.Array: Determine the position of each\n            token in the sequence\n        causal_mask: chex.Array: Mask the attention weights\n        deterministic: bool: Control whether the dropout is applied\n            or not\n        init_cache: bool: Initialize the cache in the attention\n            layer\n        output_attentions: bool: Return the attention weights\n        fcm_mask: Optional[jnp.ndarray]: Mask the self-attention\n    :param : Control the dropout in the self attention layer\n\n    Returns:\n        A tuple of two items\n    \"\"\"\n    attn_outputs = self.self_attn(\n        self.input_layernorm(hidden_states),\n        freq_cis,\n        attention_mask,\n        position_ids,\n        causal_mask,\n        segment_ids,\n        deterministic,\n        init_cache,\n        output_attentions,\n        fcm_mask,\n    )\n    attn_output = attn_outputs[0]\n    hidden_states = hidden_states + attn_output\n\n    feed_forward_input = self.post_attention_layernorm(hidden_states)\n\n    if self.config.use_scan_mlp:\n        feed_forward_hidden_states = block_wise_ffn(\n            self.mlp,\n            feed_forward_input,\n            self.config.scan_mlp_chunk_size,\n            deterministic,\n        )\n    else:\n        feed_forward_hidden_states = self.mlp(\n            feed_forward_input,\n            deterministic,\n        )\n\n    hidden_states = hidden_states + feed_forward_hidden_states\n\n    return (hidden_states,) + attn_outputs[1:]\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlockCollection","title":"<code>FlaxLlamaBlockCollection</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>class FlaxLlamaBlockCollection(nn.Module):\n    config: LlamaConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        self.blocks = [\n            FlaxLlamaBlock(\n                self.config,\n                name=str(i),\n                dtype=self.dtype,\n                param_dtype=self.param_dtype,\n                precision=self.precision\n            )\n            for i in range(self.config.num_hidden_layers)\n        ]\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX nn.Module.\n        It defines how the module behaves when called as a function, and it's what you'll use to call your model\n         in training loops or inference scripts.\n        The __call__ method should take all inputs that are necessary for computing outputs from the module,\n        and return all outputs that are computed by this module.\n\n        Args:\n            self: Represent the instance of the class\n            hidden_states: chex.Array: Pass the input tensor to the\n                encoder\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency of each token\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Specify the position of each token\n                in a sequence\n            causal_mask: chex.Array: Mask the attention weights\n            deterministic: bool: Determine whether the model is in\n                training or evaluation mode\n            init_cache: bool: Initialize the cache for each layer\n            output_attentions: bool: Determine whether to output the\n                attention weights\n            output_hidden_states: bool: Determine whether to return the\n                hidden states of each layer\n            return_dict: bool: Return a dictionary of the outputs\n        :param : Determine whether to use the forgetful causal mask\n\n        Returns:\n            A tuple of 3 values\n        \"\"\"\n        all_attentions = () if output_attentions else None\n        all_hidden_states = () if output_hidden_states else None\n\n        if not deterministic and self.config.fcm_max_ratio &gt; 0:\n            # Apply forgetful causal mask\n            batch_size, seq_length = hidden_states.shape[0], hidden_states.shape[1]\n            fcm_ratio = jax.random.uniform(\n                self.make_rng('fcm'), shape=(batch_size, 1, 1, 1),\n                minval=self.config.fcm_min_ratio,\n                maxval=self.config.fcm_max_ratio\n            )\n            fcm_mask = jax.random.uniform(\n                self.make_rng('fcm'),\n                shape=(batch_size, 1, seq_length, seq_length)\n            ) &gt; fcm_ratio\n            fcm_mask = fcm_mask.at[:, :, :, 0].set(True)\n            fcm_mask = fcm_mask.astype('bool')\n        else:\n            fcm_mask = None\n\n        for block in self.blocks:\n            if output_hidden_states:\n                all_hidden_states += (hidden_states,)\n\n            layer_outputs = block(\n                hidden_states=hidden_states,\n                freq_cis=freq_cis,\n                attention_mask=attention_mask,\n                position_ids=position_ids,\n                causal_mask=causal_mask,\n                deterministic=deterministic,\n                init_cache=init_cache,\n                output_attentions=output_attentions,\n                fcm_mask=fcm_mask,\n            )\n            hidden_states = layer_outputs[0]\n\n            if output_attentions:\n                all_attentions += (layer_outputs[1],)\n\n        outputs = (hidden_states, all_hidden_states, all_attentions)\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaBlockCollection.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, deterministic=True, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True)</code>","text":"<p>The call function is the main function of a JAX nn.Module. It defines how the module behaves when called as a function, and it's what you'll use to call your model  in training loops or inference scripts. The call method should take all inputs that are necessary for computing outputs from the module, and return all outputs that are computed by this module.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the input tensor to the encoder</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency of each token</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the attention weights</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether the model is in training or evaluation mode</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for each layer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to output the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Determine whether to return the hidden states of each layer</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs</p> <code>True</code> <p>:param : Determine whether to use the forgetful causal mask</p> <p>Returns:</p> Type Description <p>A tuple of 3 values</p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n):\n    \"\"\"The __call__ function is the main function of a JAX nn.Module.\n    It defines how the module behaves when called as a function, and it's what you'll use to call your model\n     in training loops or inference scripts.\n    The __call__ method should take all inputs that are necessary for computing outputs from the module,\n    and return all outputs that are computed by this module.\n\n    Args:\n        self: Represent the instance of the class\n        hidden_states: chex.Array: Pass the input tensor to the\n            encoder\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency of each token\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Specify the position of each token\n            in a sequence\n        causal_mask: chex.Array: Mask the attention weights\n        deterministic: bool: Determine whether the model is in\n            training or evaluation mode\n        init_cache: bool: Initialize the cache for each layer\n        output_attentions: bool: Determine whether to output the\n            attention weights\n        output_hidden_states: bool: Determine whether to return the\n            hidden states of each layer\n        return_dict: bool: Return a dictionary of the outputs\n    :param : Determine whether to use the forgetful causal mask\n\n    Returns:\n        A tuple of 3 values\n    \"\"\"\n    all_attentions = () if output_attentions else None\n    all_hidden_states = () if output_hidden_states else None\n\n    if not deterministic and self.config.fcm_max_ratio &gt; 0:\n        # Apply forgetful causal mask\n        batch_size, seq_length = hidden_states.shape[0], hidden_states.shape[1]\n        fcm_ratio = jax.random.uniform(\n            self.make_rng('fcm'), shape=(batch_size, 1, 1, 1),\n            minval=self.config.fcm_min_ratio,\n            maxval=self.config.fcm_max_ratio\n        )\n        fcm_mask = jax.random.uniform(\n            self.make_rng('fcm'),\n            shape=(batch_size, 1, seq_length, seq_length)\n        ) &gt; fcm_ratio\n        fcm_mask = fcm_mask.at[:, :, :, 0].set(True)\n        fcm_mask = fcm_mask.astype('bool')\n    else:\n        fcm_mask = None\n\n    for block in self.blocks:\n        if output_hidden_states:\n            all_hidden_states += (hidden_states,)\n\n        layer_outputs = block(\n            hidden_states=hidden_states,\n            freq_cis=freq_cis,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            causal_mask=causal_mask,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            fcm_mask=fcm_mask,\n        )\n        hidden_states = layer_outputs[0]\n\n        if output_attentions:\n            all_attentions += (layer_outputs[1],)\n\n    outputs = (hidden_states, all_hidden_states, all_attentions)\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLM","title":"<code>FlaxLlamaForCausalLM</code>","text":"<p>               Bases: <code>FlaxLlamaPreTrainedModel</code></p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>class FlaxLlamaForCausalLM(FlaxLlamaPreTrainedModel):\n    module_class = FlaxLlamaForCausalLMModule\n\n    def set_input_embeddings(self, value):\n        self.module.model.embed_tokens = value\n\n    def get_input_embeddings(self):\n        return self.module.model.embed_tokens\n\n    def set_decoder(self, decoder):\n        self.module.model = decoder\n\n    def get_decoder(self):\n        return self.module.model\n\n    def get_output_embeddings(self):\n        return self.module.lm_head\n\n    def set_output_embeddings(self, new_embeddings):\n        self.module.lm_head = new_embeddings\n\n    def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n        \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n        Args:\n            self: Access variables that belong to the class\n            input_ids: Pass in the input tokens\n            max_length: Set the length of the sequence to be generated\n            attention_mask: Optional[chex.Array]: Mask the attention\n                weights\n\n        Returns:\n            A dictionary of the past_key_values, attention_mask and\n            position ids\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n\n        past_key_values = self.init_cache(batch_size, max_length)\n        extended_attention_mask = jnp.ones(\n            (batch_size, max_length), dtype=\"i4\")\n        if attention_mask is not None:\n            position_ids = attention_mask.cumsum(axis=-1) - 1\n            extended_attention_mask = lax.dynamic_update_slice(\n                extended_attention_mask, attention_mask, (0, 0))\n        else:\n            position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                            None, :], (batch_size, seq_length))\n\n        return {\n            \"past_key_values\": past_key_values,\n            \"attention_mask\": extended_attention_mask,\n            \"position_ids\": position_ids,\n        }\n\n    def update_inputs_for_generation(self, model_outputs, model_kwargs):\n        model_kwargs[\"past_key_values\"] = model_outputs.past_key_values\n        model_kwargs[\"position_ids\"] = model_kwargs[\"position_ids\"][:, -1:] + 1\n        return model_kwargs\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLM.prepare_inputs_for_generation","title":"<code>prepare_inputs_for_generation(input_ids, max_length, attention_mask=None)</code>","text":"<p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>input_ids</code> <p>Pass in the input tokens</p> required <code>max_length</code> <p>Set the length of the sequence to be generated</p> required <code>attention_mask</code> <code>Optional[Array]</code> <p>Optional[chex.Array]: Mask the attention weights</p> <code>None</code> <p>Returns:</p> Type Description <p>A dictionary of the past_key_values, attention_mask and</p> <p>position ids</p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n    \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n    Args:\n        self: Access variables that belong to the class\n        input_ids: Pass in the input tokens\n        max_length: Set the length of the sequence to be generated\n        attention_mask: Optional[chex.Array]: Mask the attention\n            weights\n\n    Returns:\n        A dictionary of the past_key_values, attention_mask and\n        position ids\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n\n    past_key_values = self.init_cache(batch_size, max_length)\n    extended_attention_mask = jnp.ones(\n        (batch_size, max_length), dtype=\"i4\")\n    if attention_mask is not None:\n        position_ids = attention_mask.cumsum(axis=-1) - 1\n        extended_attention_mask = lax.dynamic_update_slice(\n            extended_attention_mask, attention_mask, (0, 0))\n    else:\n        position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                        None, :], (batch_size, seq_length))\n\n    return {\n        \"past_key_values\": past_key_values,\n        \"attention_mask\": extended_attention_mask,\n        \"position_ids\": position_ids,\n    }\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLMModule","title":"<code>FlaxLlamaForCausalLMModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>class FlaxLlamaForCausalLMModule(nn.Module):\n    config: LlamaConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        self.model = FlaxLlamaModule(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n        )\n\n        self.lm_head = Linear(\n            self.config.vocab_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                stddev=self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n    ):\n        \"\"\"The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.\n\n        Args:\n            self: Refer to the object itself\n            input_ids: chex.Array: Pass the input token ids to the model\n            attention_mask: chex.Array: Mask out the padding tokens\n            position_ids: chex.Array: Specify the position of each token\n                in the input sequence\n            deterministic: bool: Control whether the model is trained or\n                not\n            init_cache: bool: Initialize the cache for the decoder\n            output_attentions: bool: Return the attention weights\n            output_hidden_states: bool: Determine whether to return the\n                hidden states\n            return_dict: bool: Return a dictionary of the outputs or not\n            extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n                embedding of the word that we want to predict\n            None]]: Pass in the extra embedding\n\n        Returns:\n            The logits and the hidden states\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n        if attention_mask is None:\n            attention_mask = jnp.ones_like(input_ids)\n        if position_ids is None:\n            position_ids = jnp.broadcast_to(\n                jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n                (batch_size, seq_length)\n            )\n        outputs = self.model(\n            input_ids,\n            attention_mask,\n            position_ids,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n            extra_embedding=extra_embedding\n        )\n\n        hidden_states = outputs[0]\n\n        if self.config.tie_word_embeddings:\n            shared_kernel = self.model.variables[\"params\"][\"embed_tokens\"][\"embedding\"]\n            shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n            lm_logits = self.lm_head.apply(\n                {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n        else:\n            lm_logits = self.lm_head(hidden_states)\n\n        lm_logits = lm_logits.astype(jnp.float32)\n\n        if not return_dict:\n            return (lm_logits,) + outputs[1:]\n\n        return FlaxCausalLMOutput(logits=lm_logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions)\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForCausalLMModule.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, deterministic=True, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True, extra_embedding=None)</code>","text":"<p>The call function is the main function of a Flax module. It takes in inputs and returns outputs.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass the input token ids to the model</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the padding tokens</p> <code>None</code> <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in the input sequence</p> <code>None</code> <code>deterministic</code> <code>bool</code> <p>bool: Control whether the model is trained or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the decoder</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Determine whether to return the hidden states</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs or not</p> <code>True</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray: Pass in the embedding of the word that we want to predict</p> <code>None</code> <code>None]]</code> <p>Pass in the extra embedding</p> required <p>Returns:</p> Type Description <p>The logits and the hidden states</p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array = None,\n        position_ids: chex.Array = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n):\n    \"\"\"The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.\n\n    Args:\n        self: Refer to the object itself\n        input_ids: chex.Array: Pass the input token ids to the model\n        attention_mask: chex.Array: Mask out the padding tokens\n        position_ids: chex.Array: Specify the position of each token\n            in the input sequence\n        deterministic: bool: Control whether the model is trained or\n            not\n        init_cache: bool: Initialize the cache for the decoder\n        output_attentions: bool: Return the attention weights\n        output_hidden_states: bool: Determine whether to return the\n            hidden states\n        return_dict: bool: Return a dictionary of the outputs or not\n        extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n            embedding of the word that we want to predict\n        None]]: Pass in the extra embedding\n\n    Returns:\n        The logits and the hidden states\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n    if attention_mask is None:\n        attention_mask = jnp.ones_like(input_ids)\n    if position_ids is None:\n        position_ids = jnp.broadcast_to(\n            jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n            (batch_size, seq_length)\n        )\n    outputs = self.model(\n        input_ids,\n        attention_mask,\n        position_ids,\n        deterministic=deterministic,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict,\n        extra_embedding=extra_embedding\n    )\n\n    hidden_states = outputs[0]\n\n    if self.config.tie_word_embeddings:\n        shared_kernel = self.model.variables[\"params\"][\"embed_tokens\"][\"embedding\"]\n        shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n        lm_logits = self.lm_head.apply(\n            {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n    else:\n        lm_logits = self.lm_head(hidden_states)\n\n    lm_logits = lm_logits.astype(jnp.float32)\n\n    if not return_dict:\n        return (lm_logits,) + outputs[1:]\n\n    return FlaxCausalLMOutput(logits=lm_logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions)\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForSequenceClassificationModule","title":"<code>FlaxLlamaForSequenceClassificationModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>class FlaxLlamaForSequenceClassificationModule(nn.Module):\n    num_classes: int\n    config: LlamaConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        \"\"\"The setup function is called once at the beginning of training.\n        It initializes the model and optimizer, and sets up any other state that needs to be initialized.\n\n        Args:\n            self: Access variables that belong to the class\n\n        Returns:\n            A tuple of the model and the classifier\n        \"\"\"\n        self.model = FlaxLlamaModule(self.config, dtype=self.dtype)\n        self.classifier = Linear(\n            self.num_classes,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                stddev=self.config.initializer_range),\n            precision=self.precision,\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n    ):\n        \"\"\"The __call__ function is the main function of a Flax module.\n        It takes in all the inputs to the model and returns all outputs from it.\n        The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:\n            &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class\n            &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__\n\n        Args:\n            self: Refer to the class instance\n            input_ids: chex.Array: Pass the input to the model\n            attention_mask: chex.Array: Specify which tokens are masked\n            position_ids: chex.Array: Specify the position of each token\n                in the sequence\n            deterministic: bool: Control whether the model is run in\n                deterministic or stochastic mode\n            init_cache: bool: Initialize the cache for the transformer\n            output_attentions: bool: Return the attention weights\n            output_hidden_states: bool: Return the hidden states of all\n                layers\n            return_dict: bool: Return a dictionary of outputs\n            extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n                embedding of a new word\n            None]]: Pass the extra embedding to the model\n\n        Returns:\n            A tuple of logits and hidden_states\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n        if attention_mask is None:\n            attention_mask = jnp.ones_like(input_ids)\n        if position_ids is None:\n            position_ids = jnp.broadcast_to(\n                jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n                (batch_size, seq_length)\n            )\n        outputs = self.model(\n            input_ids,\n            attention_mask,\n            position_ids,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n            extra_embedding=extra_embedding\n        )\n\n        hidden_states = outputs[0]\n        prediction = self.classifier(hidden_states)\n        if return_dict:\n            return FlaxSequenceClassifierOutput(\n                logits=prediction,\n                hidden_states=hidden_states\n            )\n        else:\n            return prediction,\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForSequenceClassificationModule.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, deterministic=True, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True, extra_embedding=None)</code>","text":"<p>The call function is the main function of a Flax module. It takes in all the inputs to the model and returns all outputs from it. The call function can be called directly on an instance of a class, or by using parentheses after an instance:     &gt;&gt;&gt; my_model = MyModel()  # instantiate your model class     &gt;&gt;&gt; output = my_model(input)  # call your model with input data as arguments to call</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the class instance</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass the input to the model</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Specify which tokens are masked</p> <code>None</code> <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in the sequence</p> <code>None</code> <code>deterministic</code> <code>bool</code> <p>bool: Control whether the model is run in deterministic or stochastic mode</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the transformer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Return the hidden states of all layers</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of outputs</p> <code>True</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray: Pass in the embedding of a new word</p> <code>None</code> <code>None]]</code> <p>Pass the extra embedding to the model</p> required <p>Returns:</p> Type Description <p>A tuple of logits and hidden_states</p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array = None,\n        position_ids: chex.Array = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n):\n    \"\"\"The __call__ function is the main function of a Flax module.\n    It takes in all the inputs to the model and returns all outputs from it.\n    The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:\n        &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class\n        &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__\n\n    Args:\n        self: Refer to the class instance\n        input_ids: chex.Array: Pass the input to the model\n        attention_mask: chex.Array: Specify which tokens are masked\n        position_ids: chex.Array: Specify the position of each token\n            in the sequence\n        deterministic: bool: Control whether the model is run in\n            deterministic or stochastic mode\n        init_cache: bool: Initialize the cache for the transformer\n        output_attentions: bool: Return the attention weights\n        output_hidden_states: bool: Return the hidden states of all\n            layers\n        return_dict: bool: Return a dictionary of outputs\n        extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n            embedding of a new word\n        None]]: Pass the extra embedding to the model\n\n    Returns:\n        A tuple of logits and hidden_states\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n    if attention_mask is None:\n        attention_mask = jnp.ones_like(input_ids)\n    if position_ids is None:\n        position_ids = jnp.broadcast_to(\n            jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n            (batch_size, seq_length)\n        )\n    outputs = self.model(\n        input_ids,\n        attention_mask,\n        position_ids,\n        deterministic=deterministic,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict,\n        extra_embedding=extra_embedding\n    )\n\n    hidden_states = outputs[0]\n    prediction = self.classifier(hidden_states)\n    if return_dict:\n        return FlaxSequenceClassifierOutput(\n            logits=prediction,\n            hidden_states=hidden_states\n        )\n    else:\n        return prediction,\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaForSequenceClassificationModule.setup","title":"<code>setup()</code>","text":"<p>The setup function is called once at the beginning of training. It initializes the model and optimizer, and sets up any other state that needs to be initialized.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <p>Returns:</p> Type Description <p>A tuple of the model and the classifier</p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>def setup(self):\n    \"\"\"The setup function is called once at the beginning of training.\n    It initializes the model and optimizer, and sets up any other state that needs to be initialized.\n\n    Args:\n        self: Access variables that belong to the class\n\n    Returns:\n        A tuple of the model and the classifier\n    \"\"\"\n    self.model = FlaxLlamaModule(self.config, dtype=self.dtype)\n    self.classifier = Linear(\n        self.num_classes,\n        dtype=self.dtype,\n        param_dtype=self.param_dtype,\n        use_bias=False,\n        kernel_init=jax.nn.initializers.normal(\n            stddev=self.config.initializer_range),\n        precision=self.precision,\n    )\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaMLP","title":"<code>FlaxLlamaMLP</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>class FlaxLlamaMLP(nn.Module):\n    config: LlamaConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self) -&gt; None:\n        config = self.config\n\n        self.gate_proj = Linear(\n            config.intermediate_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.down_proj = Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.up_proj = Linear(\n            config.intermediate_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.dropout = flax.linen.Dropout(rate=self.config.resid_pdrop)\n\n    def __call__(self, x: jnp.ndarray, deterministic: bool = True) -&gt; jnp.ndarray:\n        \"\"\"The __call__ function is the main function of a class.\n        It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).\n        The __call__ method enables instances of a class to be called like standard Python functions.\n\n        Args:\n            self: Represent the instance of the class\n            x: jnp.ndarray: Pass in the input to the layer\n            deterministic: bool: Determine whether to use dropout\n\n        Returns:\n            A tensor that is the result of applying a dropout function\n            to x\n        \"\"\"\n        x = self.down_proj(jax.nn.silu(self.gate_proj(x)) * self.up_proj(x))\n        x = self.dropout(x, deterministic=deterministic)\n        return x\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaMLP.__call__","title":"<code>__call__(x, deterministic=True)</code>","text":"<p>The call function is the main function of a class. It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments). The call method enables instances of a class to be called like standard Python functions.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>x</code> <code>ndarray</code> <p>jnp.ndarray: Pass in the input to the layer</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout</p> <code>True</code> <p>Returns:</p> Type Description <code>ndarray</code> <p>A tensor that is the result of applying a dropout function</p> <code>ndarray</code> <p>to x</p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>def __call__(self, x: jnp.ndarray, deterministic: bool = True) -&gt; jnp.ndarray:\n    \"\"\"The __call__ function is the main function of a class.\n    It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).\n    The __call__ method enables instances of a class to be called like standard Python functions.\n\n    Args:\n        self: Represent the instance of the class\n        x: jnp.ndarray: Pass in the input to the layer\n        deterministic: bool: Determine whether to use dropout\n\n    Returns:\n        A tensor that is the result of applying a dropout function\n        to x\n    \"\"\"\n    x = self.down_proj(jax.nn.silu(self.gate_proj(x)) * self.up_proj(x))\n    x = self.dropout(x, deterministic=deterministic)\n    return x\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaModule","title":"<code>FlaxLlamaModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>class FlaxLlamaModule(nn.Module):\n    config: LlamaConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n\n        self.embed_tokens = nn.Embed(\n            self.config.vocab_size,\n            self.config.hidden_size,\n            embedding_init=jax.nn.initializers.normal(\n                stddev=self.config.initializer_range),\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n        )\n        self.dropout = flax.linen.Dropout(rate=self.config.embd_pdrop)\n        self.layers = FlaxLlamaBlockCollection(self.config, dtype=self.dtype, param_dtype=self.param_dtype,\n                                               precision=self.precision)\n        self.norm = RMSNorm(self.config.hidden_size, eps=self.config.rms_norm_eps, dtype=self.dtype,\n                            param_dtype=self.param_dtype)\n        config = self.config\n        self.causal_mask = flax.linen.make_causal_mask(\n            jnp.ones(\n                (1, getattr(self.config, \"c_max_position_embeddings\", self.config.max_position_embeddings)),\n                dtype=\"bool\"\n            ), dtype=\"bool\"\n        )\n\n        initial_rope_kwargs = dict(\n            rope_type=\"none\"\n        )\n        if config.rope_scaling is not None:\n            scaling_type = config.rope_scaling[\"type\"]\n            scaling_factor = config.rope_scaling[\"factor\"]\n            initial_rope_kwargs = dict(\n                scaling_factor=scaling_factor,\n                rope_type=scaling_type\n            )\n        self.freq_cis = precompute_freq_cis(\n            max_position_embeddings=(\n                getattr(self.config, \"freq_max_position_embeddings\", self.config.max_position_embeddings)\n            ),\n            dim=config.hidden_size // config.num_attention_heads,\n            base=config.rope_theta,\n            **initial_rope_kwargs\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            deterministic: bool = True,\n            inputs_embeds: chex.Array = None,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n    ):\n        \"\"\"The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids\n        and returns the output of the model. The __call__ function also has optional arguments that can be used to control\n        the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when\n        calling a Flax model.\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: chex.Array: Pass in the input token ids\n            attention_mask: chex.Array: Mask out the padding tokens\n            position_ids: chex.Array: Indicate the position of each\n                token in a sequence\n            deterministic: bool: Control whether dropout is applied or\n                not\n            inputs_embeds: chex.Array: Pass in the embeddings of the\n                input tokens\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attentions or not\n            output_hidden_states: bool: Determine whether to return\n                hidden states\n            return_dict: bool: Return a dictionary of the output or not\n            extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n                embedding of the\n            None]]: Pass in the extra embedding\n\n        Returns:\n            A tuple of:\n        \"\"\"\n        if inputs_embeds is None:\n            inputs_embeds = self.embed_tokens(input_ids.astype(\"i4\"))\n\n        batch_size, sequence_length, _ = inputs_embeds.shape\n\n        assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n        inputs_embeds = inputs_embeds + \\\n                        extra_embedding if extra_embedding is not None else inputs_embeds\n        hidden_states = self.dropout(\n            inputs_embeds, deterministic=deterministic)\n\n        outputs = self.layers(\n            hidden_states=hidden_states,\n            freq_cis=self.freq_cis,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            causal_mask=self.causal_mask,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n        )\n\n        hidden_states = outputs[0]\n        hidden_states = self.norm(hidden_states)\n\n        if output_hidden_states:\n            all_hidden_states = outputs[1] + (hidden_states,)\n            outputs = (hidden_states, all_hidden_states) + outputs[2:]\n        else:\n            outputs = (hidden_states,) + outputs[1:]\n\n        if not return_dict:\n            return tuple(v for v in outputs if v is not None)\n\n        return FlaxBaseModelOutput(\n            last_hidden_state=hidden_states,\n            hidden_states=outputs[1],\n            attentions=outputs[-1],\n        )\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaModule.__call__","title":"<code>__call__(input_ids, attention_mask, position_ids, deterministic=True, inputs_embeds=None, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True, extra_embedding=None)</code>","text":"<p>The call function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids and returns the output of the model. The call function also has optional arguments that can be used to control the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when calling a Flax model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass in the input token ids</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the padding tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Indicate the position of each token in a sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Control whether dropout is applied or not</p> <code>True</code> <code>inputs_embeds</code> <code>Array</code> <p>chex.Array: Pass in the embeddings of the input tokens</p> <code>None</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attentions or not</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Determine whether to return hidden states</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the output or not</p> <code>True</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray: Pass in the embedding of the</p> <code>None</code> <code>None]]</code> <p>Pass in the extra embedding</p> required <p>Returns:</p> Type Description <p>A tuple of:</p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        deterministic: bool = True,\n        inputs_embeds: chex.Array = None,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n):\n    \"\"\"The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids\n    and returns the output of the model. The __call__ function also has optional arguments that can be used to control\n    the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when\n    calling a Flax model.\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: chex.Array: Pass in the input token ids\n        attention_mask: chex.Array: Mask out the padding tokens\n        position_ids: chex.Array: Indicate the position of each\n            token in a sequence\n        deterministic: bool: Control whether dropout is applied or\n            not\n        inputs_embeds: chex.Array: Pass in the embeddings of the\n            input tokens\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attentions or not\n        output_hidden_states: bool: Determine whether to return\n            hidden states\n        return_dict: bool: Return a dictionary of the output or not\n        extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n            embedding of the\n        None]]: Pass in the extra embedding\n\n    Returns:\n        A tuple of:\n    \"\"\"\n    if inputs_embeds is None:\n        inputs_embeds = self.embed_tokens(input_ids.astype(\"i4\"))\n\n    batch_size, sequence_length, _ = inputs_embeds.shape\n\n    assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n    inputs_embeds = inputs_embeds + \\\n                    extra_embedding if extra_embedding is not None else inputs_embeds\n    hidden_states = self.dropout(\n        inputs_embeds, deterministic=deterministic)\n\n    outputs = self.layers(\n        hidden_states=hidden_states,\n        freq_cis=self.freq_cis,\n        attention_mask=attention_mask,\n        position_ids=position_ids,\n        causal_mask=self.causal_mask,\n        deterministic=deterministic,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict,\n    )\n\n    hidden_states = outputs[0]\n    hidden_states = self.norm(hidden_states)\n\n    if output_hidden_states:\n        all_hidden_states = outputs[1] + (hidden_states,)\n        outputs = (hidden_states, all_hidden_states) + outputs[2:]\n    else:\n        outputs = (hidden_states,) + outputs[1:]\n\n    if not return_dict:\n        return tuple(v for v in outputs if v is not None)\n\n    return FlaxBaseModelOutput(\n        last_hidden_state=hidden_states,\n        hidden_states=outputs[1],\n        attentions=outputs[-1],\n    )\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel","title":"<code>FlaxLlamaPreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>class FlaxLlamaPreTrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class = LlamaConfig\n    base_model_prefix = \"model\"\n    module_class: nn.Module = None\n\n    def __init__(\n            self,\n            config: LlamaConfig,\n            input_shape: Tuple = (1, 1),\n            seed: int = 0,\n            dtype: jnp.dtype = jnp.float32,\n            _do_init: bool = True,\n            **kwargs,\n    ):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It sets up the instance of the class, and defines what happens when it's created.\n        The __init__ function can take arguments, but self is always required (it refers to the instance of the object).\n\n        Args:\n            self: Refer to the object itself\n            config: LlamaConfig: Pass the configuration to the module\n            input_shape: Tuple: Specify the shape of the input to the\n                model\n            seed: int: Set the seed for random number generation\n            dtype: jnp.dtype: Specify the data type of the input\n            _do_init: bool: Control whether the module is initialized or\n                not\n            **kwargs: Pass in any additional parameters that the\n                module_class might need\n        :param : Specify the number of layers in the network\n\n        Returns:\n            The super() of the class\n        \"\"\"\n        module = self.module_class(config=config, dtype=dtype, **kwargs)\n        super().__init__(config, module, input_shape=input_shape,\n                         seed=seed, dtype=dtype, _do_init=_do_init)\n\n    def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Specify the shape of the input tensor\n            params: FrozenDict: Pass in the parameters of a pre-trained\n                model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n        if self.config.add_cross_attention:\n            encoder_hidden_states = jnp.zeros(\n                input_shape + (self.config.hidden_size,))\n            encoder_attention_mask = attention_mask\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids,\n                attention_mask,\n                position_ids,\n                encoder_hidden_states,\n                encoder_attention_mask,\n                return_dict=False,\n            )\n        else:\n            module_init_outputs = self.module.init(\n                rngs, input_ids, attention_mask, position_ids, return_dict=False)\n\n        random_params = module_init_outputs[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def init_cache(self, batch_size, max_length):\n        \"\"\"The init_cache function is used to initialize the cache for a given batch size and sequence length.\n        The cache is a dictionary that contains all the intermediate states from each layer in the model.\n        This allows us to run inference on multiple batches without having to re-run forward passes through every layer in\n        the model, which would be very slow.\n\n        Args:\n            self: Access the module\n            batch_size: Define the batch size of the input tensors\n            max_length: Set the length of the input sequence\n\n        Returns:\n            A dictionary with the following keys:\n        \"\"\"\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It takes in inputs and returns outputs, but it also has some other important features:\n        - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.\n        - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: chex.Array: Pass in the input tokens\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input\n            position_ids: chex.Array: Create the positional embeddings\n            params: dict: Pass in the parameters of the model\n            past_key_values: dict: Pass in the past key values from a\n                previous call to __call__\n            dropout_rng: jax.random.PRNGKey: Make sure that the dropout\n                is applied in a random way\n            train: bool: Determine whether to use dropout or not\n            output_attentions: Optional[bool]: Determine whether to\n                return the attention weights\n            output_hidden_states: Optional[bool]: Return the hidden\n                states of all layers\n            return_dict: Optional[bool]: Determine whether to return a\n                dictionary or not\n            extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in\n                the embedding for the input_ids\n            add_params_field: bool: Add the params field to the inputs\n                dictionary\n\n        Returns:\n            A tuple of the following:\n        \"\"\"\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\n                    \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                            None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rngs = {}\n        if dropout_rng is not None:\n            rngs[\"dropout\"] = dropout_rng\n\n        if self.config.bits is not None:\n            rngs['params'] = jax.random.key(0)\n\n        inputs = {\n            \"params\": params or self.params\n        } if add_params_field else params or self.params\n\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),\n            jnp.array(attention_mask, dtype=\"i4\"),\n            jnp.array(position_ids, dtype=\"i4\"),\n            not train,\n            False,\n            output_attentions,\n            output_hidden_states,\n            return_dict,\n            extra_embedding,\n            rngs=rngs,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + \\\n                      (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, params=None, past_key_values=None, dropout_rng=None, train=False, output_attentions=None, output_hidden_states=None, return_dict=None, extra_embedding=None, add_params_field=False, **kwargs)</code>","text":"<p>The call function is the main function of a JAX module. It takes in inputs and returns outputs, but it also has some other important features: - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end. - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass in the input tokens</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input</p> <code>None</code> <code>position_ids</code> <code>Array</code> <p>chex.Array: Create the positional embeddings</p> <code>None</code> <code>params</code> <code>dict</code> <p>dict: Pass in the parameters of the model</p> <code>None</code> <code>past_key_values</code> <code>dict</code> <p>dict: Pass in the past key values from a previous call to call</p> <code>None</code> <code>dropout_rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Make sure that the dropout is applied in a random way</p> <code>None</code> <code>train</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the attention weights</p> <code>None</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>Optional[bool]: Return the hidden states of all layers</p> <code>None</code> <code>return_dict</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return a dictionary or not</p> <code>None</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray,None]]: Pass in the embedding for the input_ids</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add the params field to the inputs dictionary</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of the following:</p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array = None,\n        position_ids: chex.Array = None,\n        params: dict = None,\n        past_key_values: dict = None,\n        dropout_rng: jax.random.PRNGKey = None,\n        train: bool = False,\n        output_attentions: Optional[bool] = None,\n        output_hidden_states: Optional[bool] = None,\n        return_dict: Optional[bool] = None,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n        add_params_field: bool = False,\n        **kwargs\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It takes in inputs and returns outputs, but it also has some other important features:\n    - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.\n    - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: chex.Array: Pass in the input tokens\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input\n        position_ids: chex.Array: Create the positional embeddings\n        params: dict: Pass in the parameters of the model\n        past_key_values: dict: Pass in the past key values from a\n            previous call to __call__\n        dropout_rng: jax.random.PRNGKey: Make sure that the dropout\n            is applied in a random way\n        train: bool: Determine whether to use dropout or not\n        output_attentions: Optional[bool]: Determine whether to\n            return the attention weights\n        output_hidden_states: Optional[bool]: Return the hidden\n            states of all layers\n        return_dict: Optional[bool]: Determine whether to return a\n            dictionary or not\n        extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in\n            the embedding for the input_ids\n        add_params_field: bool: Add the params field to the inputs\n            dictionary\n\n    Returns:\n        A tuple of the following:\n    \"\"\"\n    output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n    output_hidden_states = (\n        output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n    )\n    return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n    batch_size, sequence_length = input_ids.shape\n\n    assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n\n    if position_ids is None:\n        if past_key_values is not None:\n            raise ValueError(\n                \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n        position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                        None, :], (batch_size, sequence_length))\n\n    if attention_mask is None:\n        attention_mask = jnp.ones((batch_size, sequence_length))\n\n    rngs = {}\n    if dropout_rng is not None:\n        rngs[\"dropout\"] = dropout_rng\n\n    if self.config.bits is not None:\n        rngs['params'] = jax.random.key(0)\n\n    inputs = {\n        \"params\": params or self.params\n    } if add_params_field else params or self.params\n\n    if past_key_values:\n        inputs[\"cache\"] = past_key_values\n        mutable = [\"cache\"]\n    else:\n        mutable = False\n\n    outputs = self.module.apply(\n        inputs,\n        jnp.array(input_ids, dtype=\"i4\"),\n        jnp.array(attention_mask, dtype=\"i4\"),\n        jnp.array(position_ids, dtype=\"i4\"),\n        not train,\n        False,\n        output_attentions,\n        output_hidden_states,\n        return_dict,\n        extra_embedding,\n        rngs=rngs,\n        mutable=mutable,\n    )\n\n    if past_key_values is not None and return_dict:\n        outputs, past_key_values = outputs\n        outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n        return outputs\n    elif past_key_values is not None and not return_dict:\n        outputs, past_key_values = outputs\n        outputs = outputs[:1] + \\\n                  (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.__init__","title":"<code>__init__(config, input_shape=(1, 1), seed=0, dtype=jnp.float32, _do_init=True, **kwargs)</code>","text":"<p>The init function is called when the class is instantiated. It sets up the instance of the class, and defines what happens when it's created. The init function can take arguments, but self is always required (it refers to the instance of the object).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>config</code> <code>LlamaConfig</code> <p>LlamaConfig: Pass the configuration to the module</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Specify the shape of the input to the model</p> <code>(1, 1)</code> <code>seed</code> <code>int</code> <p>int: Set the seed for random number generation</p> <code>0</code> <code>dtype</code> <code>dtype</code> <p>jnp.dtype: Specify the data type of the input</p> <code>float32</code> <code>_do_init</code> <code>bool</code> <p>bool: Control whether the module is initialized or not</p> <code>True</code> <code>**kwargs</code> <p>Pass in any additional parameters that the module_class might need</p> <code>{}</code> <p>:param : Specify the number of layers in the network</p> <p>Returns:</p> Type Description <p>The super() of the class</p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>def __init__(\n        self,\n        config: LlamaConfig,\n        input_shape: Tuple = (1, 1),\n        seed: int = 0,\n        dtype: jnp.dtype = jnp.float32,\n        _do_init: bool = True,\n        **kwargs,\n):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It sets up the instance of the class, and defines what happens when it's created.\n    The __init__ function can take arguments, but self is always required (it refers to the instance of the object).\n\n    Args:\n        self: Refer to the object itself\n        config: LlamaConfig: Pass the configuration to the module\n        input_shape: Tuple: Specify the shape of the input to the\n            model\n        seed: int: Set the seed for random number generation\n        dtype: jnp.dtype: Specify the data type of the input\n        _do_init: bool: Control whether the module is initialized or\n            not\n        **kwargs: Pass in any additional parameters that the\n            module_class might need\n    :param : Specify the number of layers in the network\n\n    Returns:\n        The super() of the class\n    \"\"\"\n    module = self.module_class(config=config, dtype=dtype, **kwargs)\n    super().__init__(config, module, input_shape=input_shape,\n                     seed=seed, dtype=dtype, _do_init=_do_init)\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.init_cache","title":"<code>init_cache(batch_size, max_length)</code>","text":"<p>The init_cache function is used to initialize the cache for a given batch size and sequence length. The cache is a dictionary that contains all the intermediate states from each layer in the model. This allows us to run inference on multiple batches without having to re-run forward passes through every layer in the model, which would be very slow.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access the module</p> required <code>batch_size</code> <p>Define the batch size of the input tensors</p> required <code>max_length</code> <p>Set the length of the input sequence</p> required <p>Returns:</p> Type Description <p>A dictionary with the following keys:</p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>def init_cache(self, batch_size, max_length):\n    \"\"\"The init_cache function is used to initialize the cache for a given batch size and sequence length.\n    The cache is a dictionary that contains all the intermediate states from each layer in the model.\n    This allows us to run inference on multiple batches without having to re-run forward passes through every layer in\n    the model, which would be very slow.\n\n    Args:\n        self: Access the module\n        batch_size: Define the batch size of the input tensors\n        max_length: Set the length of the input sequence\n\n    Returns:\n        A dictionary with the following keys:\n    \"\"\"\n    input_ids = jnp.ones((batch_size, max_length))\n    attention_mask = jnp.ones_like(input_ids)\n    position_ids = jnp.broadcast_to(jnp.arange(\n        jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n    init_variables = self.module.init(\n        jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n    )\n    return init_variables[\"cache\"]\n</code></pre>"},{"location":"generated-modules-llama-modelling_llama_flax/#src.python.easydel.modules.llama.modelling_llama_flax.FlaxLlamaPreTrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Specify the shape of the input tensor</p> required <code>params</code> <code>FrozenDict</code> <p>FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/llama/modelling_llama_flax.py</code> <pre><code>def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Specify the shape of the input tensor\n        params: FrozenDict: Pass in the parameters of a pre-trained\n            model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids)\n    position_ids = jnp.broadcast_to(jnp.arange(\n        jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n    params_rng, dropout_rng = jax.random.split(rng)\n    rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n    if self.config.add_cross_attention:\n        encoder_hidden_states = jnp.zeros(\n            input_shape + (self.config.hidden_size,))\n        encoder_attention_mask = attention_mask\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids,\n            attention_mask,\n            position_ids,\n            encoder_hidden_states,\n            encoder_attention_mask,\n            return_dict=False,\n        )\n    else:\n        module_init_outputs = self.module.init(\n            rngs, input_ids, attention_mask, position_ids, return_dict=False)\n\n    random_params = module_init_outputs[\"params\"]\n\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-llama-modelling_vision_llama_flax/","title":"modules.llama.modelling_vision_llama_flax","text":""},{"location":"generated-modules-llama-modelling_vision_llama_flax/#src.python.easydel.modules.llama.modelling_vision_llama_flax.FlaxVisionLlamaPreTrainedModel","title":"<code>FlaxVisionLlamaPreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/llama/modelling_vision_llama_flax.py</code> <pre><code>class FlaxVisionLlamaPreTrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class = VisionLlamaConfig\n    base_model_prefix = \"model\"\n    module_class: nn.Module = None\n\n    def __init__(\n            self,\n            config: VisionLlamaConfig,\n            input_shape: Tuple = (4, 1),\n            seed: int = 0,\n            dtype: jnp.dtype = jnp.float32,\n            _do_init: bool = True,\n            **kwargs,\n    ):\n        module = self.module_class(config=config, dtype=dtype, **kwargs)\n        super().__init__(config, module, input_shape=input_shape, seed=seed, dtype=dtype, _do_init=_do_init)\n\n    def init_cache(self, batch_size, max_length):\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n        vision_mask = jnp.ones((batch_size, max_length), dtype=bool)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, vision_mask, attention_mask, position_ids,\n            return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n        \"\"\"\n        The init_weights function is used to initialize the weights of a model.\n\n        :param self: Access variables that belong to the class\n        :param rng: jax.random.PRNGKey: Initialize the weights of the model\n        :param input_shape: Tuple: Specify the shape of the input tensor\n        :param params: FrozenDict: Pass in the parameters of a pre-trained model\n        :return: A frozendict of parameters\n\n        \"\"\"\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids)\n        vision_mask = jnp.ones(input_ids.shape, dtype=bool)\n        position_ids = jnp.broadcast_to(jnp.arange(jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n        params_rng, dropout_rng = jax.random.split(rng)\n\n        random_params = self.module.init(\n            {\n                \"params\": params_rng,\n                \"dropout\": dropout_rng\n            },\n            input_ids,\n            vision_mask,\n            attention_mask,\n            position_ids,\n            return_dict=False\n        )[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            vision_mask: Optional[chex.Array] = None,\n            attention_mask: Optional[chex.Array] = None,\n            position_ids: Optional[chex.Array] = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        # Handle any PRNG if needed\n        rngs = {}\n        if dropout_rng is not None:\n            rngs[\"dropout\"] = dropout_rng\n\n        inputs = {\"params\": params or self.params}\n\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),\n            jnp.array(vision_mask, dtype=\"f4\"),\n            jnp.array(attention_mask, dtype=\"i4\"),\n            jnp.array(position_ids, dtype=\"i4\"),\n            not train,\n            False,\n            output_attentions,\n            output_hidden_states,\n            return_dict,\n            rngs=rngs,\n            mutable=mutable,\n        )\n\n        # add updated cache to model output\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-llama-modelling_vision_llama_flax/#src.python.easydel.modules.llama.modelling_vision_llama_flax.FlaxVisionLlamaPreTrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model.</p> <p>:param self: Access variables that belong to the class :param rng: jax.random.PRNGKey: Initialize the weights of the model :param input_shape: Tuple: Specify the shape of the input tensor :param params: FrozenDict: Pass in the parameters of a pre-trained model :return: A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/llama/modelling_vision_llama_flax.py</code> <pre><code>def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n    \"\"\"\n    The init_weights function is used to initialize the weights of a model.\n\n    :param self: Access variables that belong to the class\n    :param rng: jax.random.PRNGKey: Initialize the weights of the model\n    :param input_shape: Tuple: Specify the shape of the input tensor\n    :param params: FrozenDict: Pass in the parameters of a pre-trained model\n    :return: A frozendict of parameters\n\n    \"\"\"\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids)\n    vision_mask = jnp.ones(input_ids.shape, dtype=bool)\n    position_ids = jnp.broadcast_to(jnp.arange(jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n    params_rng, dropout_rng = jax.random.split(rng)\n\n    random_params = self.module.init(\n        {\n            \"params\": params_rng,\n            \"dropout\": dropout_rng\n        },\n        input_ids,\n        vision_mask,\n        attention_mask,\n        position_ids,\n        return_dict=False\n    )[\"params\"]\n\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-llama-vision_llama_configuration/","title":"modules.llama.vision_llama_configuration","text":""},{"location":"generated-modules-llama-vision_llama_configuration/#src.python.easydel.modules.llama.vision_llama_configuration.VisionLlamaConfig","title":"<code>VisionLlamaConfig</code>","text":"<p>               Bases: <code>LlamaConfig</code></p> Source code in <code>src/python/easydel/modules/llama/vision_llama_configuration.py</code> <pre><code>class VisionLlamaConfig(LlamaConfig):\n    def __init__(\n            self,\n            vision_vocab_size=8448,\n            tie_vision_embeddings=False,\n            sample_mode=\"all\",\n            **kwargs\n    ):\n        super().__init__(**kwargs)\n        self.vision_vocab_size = vision_vocab_size\n        self.tie_vision_embeddings = tie_vision_embeddings\n        self.sample_mode = sample_mode\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n            1) A regex string that matches the name of one or more parameters in the model.\n            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to\n                partition the model fully or not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"model/embed_vision/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"mlp/down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"vision_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec(None)),\n        ) if not fully_sharded_data_parallel else (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"model/embed_vision/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"self_attn/o_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"vision_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n</code></pre>"},{"location":"generated-modules-llama-vision_llama_configuration/#src.python.easydel.modules.llama.vision_llama_configuration.VisionLlamaConfig.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:     1) A regex string that matches the name of one or more parameters in the model.     2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to partition the model fully or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/llama/vision_llama_configuration.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n        1) A regex string that matches the name of one or more parameters in the model.\n        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to\n            partition the model fully or not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n        (\"model/embed_vision/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"mlp/down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"vision_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\".*\", PartitionSpec(None)),\n    ) if not fully_sharded_data_parallel else (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"model/embed_vision/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"self_attn/o_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"vision_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-lucid_transformer-lt_configuration/","title":"modules.lucid_transformer.lt_configuration","text":""},{"location":"generated-modules-lucid_transformer-modelling_lt_flax/","title":"modules.lucid_transformer.modelling_lt_flax","text":""},{"location":"generated-modules-mamba-mamba_configuration/","title":"modules.mamba.mamba_configuration","text":""},{"location":"generated-modules-mamba-modelling_mamba_flax/","title":"modules.mamba.modelling_mamba_flax","text":""},{"location":"generated-modules-mamba-modelling_mamba_flax/#src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel","title":"<code>FlaxMambaPretrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/mamba/modelling_mamba_flax.py</code> <pre><code>class FlaxMambaPretrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class = MambaConfig\n    base_model_prefix = \"backbone\"\n    module_class: nn.Module = None\n\n    def __init__(\n            self,\n            config: MambaConfig,\n            input_shape: Tuple = (1, 1),\n            seed: int = 0,\n            dtype: jnp.dtype = jnp.float32,\n            param_dtype: jnp.dtype = jnp.float32,\n            precision: Optional[Union[str, lax.Precision]] = None,\n            _do_init: bool = True,\n            **kwargs,\n    ):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It sets up the instance of the class, and defines what happens when it's created.\n        The __init__ function can take arguments, but self is always required (it refers to the instance of the object).\n\n        Args:\n            self: Refer to the object itself\n            config: MambaConfig: Pass the configuration to the module\n            input_shape: Tuple: Specify the shape of the input to the\n                model\n            seed: int: Set the seed for random number generation\n            dtype: jnp.dtype: Specify the data type of the model ra\n            param_dtype: jnp.dtype: Specify the data type of the\n                param_dtype\n            precision: Optional[Union[str, lax.Precision]]: precision\n                for model operations\n            _do_init: bool: Control whether the module is initialized or\n                not\n            **kwargs: Pass in any additional parameters that the\n                module_class might need\n        :param : Specify the number of layers in the network\n\n        Returns:\n            The super() of the class\n        \"\"\"\n        module = self.module_class(\n            config=config,\n            dtype=dtype,\n            param_dtype=param_dtype,\n            precision=precision,\n            **kwargs\n        )\n        super().__init__(\n            config,\n            module,\n            input_shape=(input_shape[0], 1),\n            seed=seed,\n            dtype=dtype,\n            _do_init=_do_init\n        )\n\n    def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Specify the shape of the input tensor\n            params: FrozenDict: Pass in the parameters of a pre-trained\n                model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids,\n            return_dict=False\n        )\n\n        random_params = module_init_outputs[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def init_cache(self, batch_size, max_length):\n        return None\n\n    def __call__(\n            self,\n            input_ids: Optional[chex.Array] = None,\n            inputs_embeds: Optional[chex.Array] = None,\n            cache_params: dict = None,\n            deterministic: bool = True,\n            params: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n            add_params_field: bool = False,\n            attention_mask: Optional[chex.Array] = None,  # Ignored(we are using an SSM model not attention)\n            use_cache: bool = False,\n            **kwargs\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: Optional[chex.Array]: Pass in the input tokens\n            inputs_embeds: Optional[chex.Array]: Pass in the embedded\n                tokens\n            cache_params: dict: Pass in the past cache_params from a\n                previous call to __call__\n            params: dict: Pass in the parameters of the model\n            dropout_rng: jax.random.PRNGKey: Make sure that the dropout\n                is applied in a random way\n            train: bool: Determine whether to use dropout or not\n            output_hidden_states: Optional[bool]: Return the hidden\n                states of all layers\n            return_dict: Optional[bool]: Determine whether to return a\n                dictionary or not\n            extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in\n                the embedding for the input_ids\n            add_params_field: bool: Add the params field to the inputs\n                dictionary\n\n        Returns:\n            A tuple of the following:\n        \"\"\"\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n        if cache_params is not None:\n            assert isinstance(cache_params, FlaxMambaCache), f\"Wrong cache input_type of {type(cache_params)}\"\n        rngs = {}\n        if dropout_rng is not None:\n            rngs[\"dropout\"] = dropout_rng\n\n        rngs[\"params\"] = jax.random.key(0)\n\n        inputs = {\n            \"params\": params or self.params\n        } if add_params_field else params or self.params\n\n        # input_ids: Optional[chex.Array] = None,\n        # inputs_embeds: Optional[chex.Array] = None,\n        # cache_params: Optional[chex.Array] = None,\n        # deterministic: bool = True,\n        # use_cache: Optional[bool] = None,\n        # output_hidden_states: Optional[bool] = None,\n        # return_dict: Optional[bool] = None,\n\n        return self.module.apply(\n            inputs,\n            input_ids,\n            inputs_embeds,\n            cache_params,\n            train,\n            use_cache,\n            output_hidden_states,\n            return_dict,\n            rngs=rngs,\n            mutable=False,\n        )\n</code></pre>"},{"location":"generated-modules-mamba-modelling_mamba_flax/#src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel.__call__","title":"<code>__call__(input_ids=None, inputs_embeds=None, cache_params=None, deterministic=True, params=None, dropout_rng=None, train=False, output_hidden_states=None, return_dict=None, extra_embedding=None, add_params_field=False, attention_mask=None, use_cache=False, **kwargs)</code>","text":"<p>The call function is the main function of a JAX module.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Optional[Array]</code> <p>Optional[chex.Array]: Pass in the input tokens</p> <code>None</code> <code>inputs_embeds</code> <code>Optional[Array]</code> <p>Optional[chex.Array]: Pass in the embedded tokens</p> <code>None</code> <code>cache_params</code> <code>dict</code> <p>dict: Pass in the past cache_params from a previous call to call</p> <code>None</code> <code>params</code> <code>dict</code> <p>dict: Pass in the parameters of the model</p> <code>None</code> <code>dropout_rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Make sure that the dropout is applied in a random way</p> <code>None</code> <code>train</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>False</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>Optional[bool]: Return the hidden states of all layers</p> <code>None</code> <code>return_dict</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return a dictionary or not</p> <code>None</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray,None]]: Pass in the embedding for the input_ids</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add the params field to the inputs dictionary</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of the following:</p> Source code in <code>src/python/easydel/modules/mamba/modelling_mamba_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: Optional[chex.Array] = None,\n        inputs_embeds: Optional[chex.Array] = None,\n        cache_params: dict = None,\n        deterministic: bool = True,\n        params: dict = None,\n        dropout_rng: jax.random.PRNGKey = None,\n        train: bool = False,\n        output_hidden_states: Optional[bool] = None,\n        return_dict: Optional[bool] = None,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n        add_params_field: bool = False,\n        attention_mask: Optional[chex.Array] = None,  # Ignored(we are using an SSM model not attention)\n        use_cache: bool = False,\n        **kwargs\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: Optional[chex.Array]: Pass in the input tokens\n        inputs_embeds: Optional[chex.Array]: Pass in the embedded\n            tokens\n        cache_params: dict: Pass in the past cache_params from a\n            previous call to __call__\n        params: dict: Pass in the parameters of the model\n        dropout_rng: jax.random.PRNGKey: Make sure that the dropout\n            is applied in a random way\n        train: bool: Determine whether to use dropout or not\n        output_hidden_states: Optional[bool]: Return the hidden\n            states of all layers\n        return_dict: Optional[bool]: Determine whether to return a\n            dictionary or not\n        extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in\n            the embedding for the input_ids\n        add_params_field: bool: Add the params field to the inputs\n            dictionary\n\n    Returns:\n        A tuple of the following:\n    \"\"\"\n    output_hidden_states = (\n        output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n    )\n    return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n    batch_size, sequence_length = input_ids.shape\n\n    assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n    if cache_params is not None:\n        assert isinstance(cache_params, FlaxMambaCache), f\"Wrong cache input_type of {type(cache_params)}\"\n    rngs = {}\n    if dropout_rng is not None:\n        rngs[\"dropout\"] = dropout_rng\n\n    rngs[\"params\"] = jax.random.key(0)\n\n    inputs = {\n        \"params\": params or self.params\n    } if add_params_field else params or self.params\n\n    # input_ids: Optional[chex.Array] = None,\n    # inputs_embeds: Optional[chex.Array] = None,\n    # cache_params: Optional[chex.Array] = None,\n    # deterministic: bool = True,\n    # use_cache: Optional[bool] = None,\n    # output_hidden_states: Optional[bool] = None,\n    # return_dict: Optional[bool] = None,\n\n    return self.module.apply(\n        inputs,\n        input_ids,\n        inputs_embeds,\n        cache_params,\n        train,\n        use_cache,\n        output_hidden_states,\n        return_dict,\n        rngs=rngs,\n        mutable=False,\n    )\n</code></pre>"},{"location":"generated-modules-mamba-modelling_mamba_flax/#src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel.__init__","title":"<code>__init__(config, input_shape=(1, 1), seed=0, dtype=jnp.float32, param_dtype=jnp.float32, precision=None, _do_init=True, **kwargs)</code>","text":"<p>The init function is called when the class is instantiated. It sets up the instance of the class, and defines what happens when it's created. The init function can take arguments, but self is always required (it refers to the instance of the object).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>config</code> <code>MambaConfig</code> <p>MambaConfig: Pass the configuration to the module</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Specify the shape of the input to the model</p> <code>(1, 1)</code> <code>seed</code> <code>int</code> <p>int: Set the seed for random number generation</p> <code>0</code> <code>dtype</code> <code>dtype</code> <p>jnp.dtype: Specify the data type of the model ra</p> <code>float32</code> <code>param_dtype</code> <code>dtype</code> <p>jnp.dtype: Specify the data type of the param_dtype</p> <code>float32</code> <code>precision</code> <code>Optional[Union[str, Precision]]</code> <p>Optional[Union[str, lax.Precision]]: precision for model operations</p> <code>None</code> <code>_do_init</code> <code>bool</code> <p>bool: Control whether the module is initialized or not</p> <code>True</code> <code>**kwargs</code> <p>Pass in any additional parameters that the module_class might need</p> <code>{}</code> <p>:param : Specify the number of layers in the network</p> <p>Returns:</p> Type Description <p>The super() of the class</p> Source code in <code>src/python/easydel/modules/mamba/modelling_mamba_flax.py</code> <pre><code>def __init__(\n        self,\n        config: MambaConfig,\n        input_shape: Tuple = (1, 1),\n        seed: int = 0,\n        dtype: jnp.dtype = jnp.float32,\n        param_dtype: jnp.dtype = jnp.float32,\n        precision: Optional[Union[str, lax.Precision]] = None,\n        _do_init: bool = True,\n        **kwargs,\n):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It sets up the instance of the class, and defines what happens when it's created.\n    The __init__ function can take arguments, but self is always required (it refers to the instance of the object).\n\n    Args:\n        self: Refer to the object itself\n        config: MambaConfig: Pass the configuration to the module\n        input_shape: Tuple: Specify the shape of the input to the\n            model\n        seed: int: Set the seed for random number generation\n        dtype: jnp.dtype: Specify the data type of the model ra\n        param_dtype: jnp.dtype: Specify the data type of the\n            param_dtype\n        precision: Optional[Union[str, lax.Precision]]: precision\n            for model operations\n        _do_init: bool: Control whether the module is initialized or\n            not\n        **kwargs: Pass in any additional parameters that the\n            module_class might need\n    :param : Specify the number of layers in the network\n\n    Returns:\n        The super() of the class\n    \"\"\"\n    module = self.module_class(\n        config=config,\n        dtype=dtype,\n        param_dtype=param_dtype,\n        precision=precision,\n        **kwargs\n    )\n    super().__init__(\n        config,\n        module,\n        input_shape=(input_shape[0], 1),\n        seed=seed,\n        dtype=dtype,\n        _do_init=_do_init\n    )\n</code></pre>"},{"location":"generated-modules-mamba-modelling_mamba_flax/#src.python.easydel.modules.mamba.modelling_mamba_flax.FlaxMambaPretrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Specify the shape of the input tensor</p> required <code>params</code> <code>FrozenDict</code> <p>FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/mamba/modelling_mamba_flax.py</code> <pre><code>def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Specify the shape of the input tensor\n        params: FrozenDict: Pass in the parameters of a pre-trained\n            model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    params_rng, dropout_rng = jax.random.split(rng)\n    rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n    module_init_outputs = self.module.init(\n        rngs,\n        input_ids,\n        return_dict=False\n    )\n\n    random_params = module_init_outputs[\"params\"]\n\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-mistral-mistral_configuration/","title":"modules.mistral.mistral_configuration","text":""},{"location":"generated-modules-mistral-mistral_configuration/#src.python.easydel.modules.mistral.mistral_configuration.MistralConfig","title":"<code>MistralConfig</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> Source code in <code>src/python/easydel/modules/mistral/mistral_configuration.py</code> <pre><code>class MistralConfig(EasyDeLPretrainedConfig):\n    model_type: str = \"mistral\"\n\n    def __init__(\n            self,\n            vocab_size=32000,\n            hidden_size=4096,\n            intermediate_size=14336,\n            num_hidden_layers=32,\n            num_attention_heads=32,\n            num_key_value_heads=8,\n            hidden_act=\"silu\",\n            max_position_embeddings=4096 * 32,\n            initializer_range=0.02,\n            rms_norm_eps=1e-6,\n            use_cache=True,\n            pad_token_id=None,\n            bos_token_id=1,\n            eos_token_id=2,\n            tie_word_embeddings=False,\n            rope_theta=10000.0,\n            rope_scaling: Dict[str, Union[str, float]] = None,\n            sliding_window=4096,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            use_scan_mlp: bool = False,\n            scan_mlp_chunk_size: int = 1024,\n            number_rep_kv: int = 1,\n            attention_dropout: float = 0.0,\n            bits: Optional[int] = None,\n            attention_bias: bool = False,\n            **kwargs,\n    ):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It allows the class to initialize the attributes of a class.\n        The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.\n\n        Args:\n            self: Represent the instance of the class\n            vocab_size: Define the size of the vocabulary\n            hidden_size: Determine the size of the embedding layers\n            intermediate_size: Define the size of the intermediate layer\n                in each transformer block\n            num_hidden_layers: Determine the number of layers in the\n                encoder and decoder\n            num_attention_heads: Determine the number of attention heads\n                in each layer\n            num_key_value_heads: Specify the number of heads for key and\n                value\n            hidden_act: Specify the activation function used in the\n                hidden layers\n            max_position_embeddings: Set the maximum length of the\n                sequence\n            initializer_range: Initialize the weights of the model\n            rms_norm_eps: Avoid division by zero in the rms\n                normalization\n            use_cache: Determine whether to use the cache in the decoder\n            pad_token_id: Specify the token id of the padding token\n            bos_token_id: Specify the beginning of sentence token id\n            eos_token_id: Specify the end of sentence token\n            tie_word_embeddings: Tie the word embeddings and the output\n                layer\n            rope_theta: Control the number of tokens in a rope\n            sliding_window: Control the number of tokens that are\n                processed in parallel\n            gradient_checkpointing: str: Specify whether to use gradient\n                checkpointing\n            use_scan_mlp: bool: Determine whether or not to use the\n                scan_mlp function\n            scan_mlp_chunk_size: int: Specify the chunk size of the scan\n                mlp\n            number_rep_kv: int: Specify the number of times to repeat\n                the key and value vectors\n            attention_dropout: float: Set the dropout rate for the\n                attention layer\n            bits: Optional[int]: Specify the number of bits used for\n                quantization\n            axis_dims: Sequence[int]: Specify the dimension of each axis\n            axis_names: Sequence[str]: Specify the names of each axis in\n                the tensor\n            &amp;quot;mp&amp;quot;): Define the maximum position embeddings\n            attention_bias: bool: when ever to use attention_bias\n            **kwargs: Pass a variable number of keyword arguments to a\n                function\n        :param : Define the number of layers in the model\n\n        Returns:\n            An instance of the class\n        \"\"\"\n        self.vocab_size = vocab_size\n        self.max_position_embeddings = max_position_embeddings\n        self.hidden_size = hidden_size\n        self.intermediate_size = intermediate_size\n        self.num_hidden_layers = num_hidden_layers\n        self.num_attention_heads = num_attention_heads\n        self.sliding_window = sliding_window\n        self.bits = bits\n        # for backward compatibility\n        if num_key_value_heads is None:\n            num_key_value_heads = num_attention_heads\n\n        self.num_key_value_heads = num_key_value_heads\n        self.hidden_act = hidden_act\n        self.initializer_range = initializer_range\n        self.rms_norm_eps = rms_norm_eps\n        self.use_cache = use_cache\n        self.rope_theta = rope_theta\n        self.rope_scaling = rope_scaling\n        self.number_rep_kv = number_rep_kv\n        self.gradient_checkpointing = gradient_checkpointing\n        self.use_scan_mlp = use_scan_mlp\n        self.scan_mlp_chunk_size = scan_mlp_chunk_size\n        self.attention_bias = attention_bias\n        self.attention_dropout = attention_dropout\n\n        super().__init__(\n            pad_token_id=pad_token_id,\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            tie_word_embeddings=tie_word_embeddings,\n            use_scan_mlp=use_scan_mlp,\n            scan_mlp_chunk_size=scan_mlp_chunk_size,\n            bits=bits,\n            **kwargs,\n        )\n\n    @staticmethod\n    def get_partition_rules(fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n          1) A regex string that matches the name of one or more parameters in the model.\n          2) A PartitionScheme object that defines how those parameters should be partitioned.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to use\n                the fully_sharded_data_parallel partitioning scheme or\n                not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        ) if not fully_sharded_data_parallel else (\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n\n    def add_jax_args(\n            self,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            use_scan_mlp: bool = False,\n            scan_mlp_chunk_size: int = 1024,\n            number_rep_kv: int = 1,\n            bits: Optional[int] = None,\n            attention_dropout: float = 0.0,\n            rope_scaling: Dict[str, Union[str, float]] = None,\n            attention_bias: bool = False,\n            **kwargs,\n    ):\n        \"\"\"The add_jax_args function adds the following arguments to the model:\n\n        Args:\n            self: Bind the attributes and methods of a class to an\n                instance of that class\n            gradient_checkpointing: str: Determine whether to use\n                gradient checkpointing\n            use_scan_mlp: bool: Determine whether to use the scan_mlp\n                function or notn\n            scan_mlp_chunk_size: int: Chunk the input to the mlp\n            number_rep_kv: int: Control the number of times that the key\n                and value vectors are repeated\n            bits: Optional[int]: Specify the number of bits to use for\n                quantization\n            attention_dropout: float: Set the dropout rate for the\n                attention layer\n            attention_bias: bool: when ever to use attention_bias\n            rope_scaling: Dict[str, Union[str, float]]: rope_scaling for\n                rope\n\n        Returns:\n            A tuple of the following:\n        \"\"\"\n\n        self.attention_bias = attention_bias\n        self.rope_scaling = rope_scaling\n        self.number_rep_kv = number_rep_kv\n        self.gradient_checkpointing = gradient_checkpointing\n        self.use_scan_mlp = use_scan_mlp\n        self.scan_mlp_chunk_size = scan_mlp_chunk_size\n        self.attention_dropout = attention_dropout\n        self.bits = bits\n\n    @staticmethod\n    def get_weight_decay_exclusions():\n        return tuple()\n\n    @staticmethod\n    def rng_keys():\n        return 'params', 'dropout', 'fcm'\n</code></pre>"},{"location":"generated-modules-mistral-mistral_configuration/#src.python.easydel.modules.mistral.mistral_configuration.MistralConfig.__init__","title":"<code>__init__(vocab_size=32000, hidden_size=4096, intermediate_size=14336, num_hidden_layers=32, num_attention_heads=32, num_key_value_heads=8, hidden_act='silu', max_position_embeddings=4096 * 32, initializer_range=0.02, rms_norm_eps=1e-06, use_cache=True, pad_token_id=None, bos_token_id=1, eos_token_id=2, tie_word_embeddings=False, rope_theta=10000.0, rope_scaling=None, sliding_window=4096, gradient_checkpointing='nothing_saveable', use_scan_mlp=False, scan_mlp_chunk_size=1024, number_rep_kv=1, attention_dropout=0.0, bits=None, attention_bias=False, **kwargs)</code>","text":"<p>The init function is called when the class is instantiated. It allows the class to initialize the attributes of a class. The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>vocab_size</code> <p>Define the size of the vocabulary</p> <code>32000</code> <code>hidden_size</code> <p>Determine the size of the embedding layers</p> <code>4096</code> <code>intermediate_size</code> <p>Define the size of the intermediate layer in each transformer block</p> <code>14336</code> <code>num_hidden_layers</code> <p>Determine the number of layers in the encoder and decoder</p> <code>32</code> <code>num_attention_heads</code> <p>Determine the number of attention heads in each layer</p> <code>32</code> <code>num_key_value_heads</code> <p>Specify the number of heads for key and value</p> <code>8</code> <code>hidden_act</code> <p>Specify the activation function used in the hidden layers</p> <code>'silu'</code> <code>max_position_embeddings</code> <p>Set the maximum length of the sequence</p> <code>4096 * 32</code> <code>initializer_range</code> <p>Initialize the weights of the model</p> <code>0.02</code> <code>rms_norm_eps</code> <p>Avoid division by zero in the rms normalization</p> <code>1e-06</code> <code>use_cache</code> <p>Determine whether to use the cache in the decoder</p> <code>True</code> <code>pad_token_id</code> <p>Specify the token id of the padding token</p> <code>None</code> <code>bos_token_id</code> <p>Specify the beginning of sentence token id</p> <code>1</code> <code>eos_token_id</code> <p>Specify the end of sentence token</p> <code>2</code> <code>tie_word_embeddings</code> <p>Tie the word embeddings and the output layer</p> <code>False</code> <code>rope_theta</code> <p>Control the number of tokens in a rope</p> <code>10000.0</code> <code>sliding_window</code> <p>Control the number of tokens that are processed in parallel</p> <code>4096</code> <code>gradient_checkpointing</code> <code>str</code> <p>str: Specify whether to use gradient checkpointing</p> <code>'nothing_saveable'</code> <code>use_scan_mlp</code> <code>bool</code> <p>bool: Determine whether or not to use the scan_mlp function</p> <code>False</code> <code>scan_mlp_chunk_size</code> <code>int</code> <p>int: Specify the chunk size of the scan mlp</p> <code>1024</code> <code>number_rep_kv</code> <code>int</code> <p>int: Specify the number of times to repeat the key and value vectors</p> <code>1</code> <code>attention_dropout</code> <code>float</code> <p>float: Set the dropout rate for the attention layer</p> <code>0.0</code> <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Specify the number of bits used for quantization</p> <code>None</code> <code>axis_dims</code> <p>Sequence[int]: Specify the dimension of each axis</p> required <code>axis_names</code> <p>Sequence[str]: Specify the names of each axis in the tensor</p> required <code>&amp;quot;mp&amp;quot;)</code> <p>Define the maximum position embeddings</p> required <code>attention_bias</code> <code>bool</code> <p>bool: when ever to use attention_bias</p> <code>False</code> <code>**kwargs</code> <p>Pass a variable number of keyword arguments to a function</p> <code>{}</code> <p>:param : Define the number of layers in the model</p> <p>Returns:</p> Type Description <p>An instance of the class</p> Source code in <code>src/python/easydel/modules/mistral/mistral_configuration.py</code> <pre><code>def __init__(\n        self,\n        vocab_size=32000,\n        hidden_size=4096,\n        intermediate_size=14336,\n        num_hidden_layers=32,\n        num_attention_heads=32,\n        num_key_value_heads=8,\n        hidden_act=\"silu\",\n        max_position_embeddings=4096 * 32,\n        initializer_range=0.02,\n        rms_norm_eps=1e-6,\n        use_cache=True,\n        pad_token_id=None,\n        bos_token_id=1,\n        eos_token_id=2,\n        tie_word_embeddings=False,\n        rope_theta=10000.0,\n        rope_scaling: Dict[str, Union[str, float]] = None,\n        sliding_window=4096,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        use_scan_mlp: bool = False,\n        scan_mlp_chunk_size: int = 1024,\n        number_rep_kv: int = 1,\n        attention_dropout: float = 0.0,\n        bits: Optional[int] = None,\n        attention_bias: bool = False,\n        **kwargs,\n):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It allows the class to initialize the attributes of a class.\n    The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.\n\n    Args:\n        self: Represent the instance of the class\n        vocab_size: Define the size of the vocabulary\n        hidden_size: Determine the size of the embedding layers\n        intermediate_size: Define the size of the intermediate layer\n            in each transformer block\n        num_hidden_layers: Determine the number of layers in the\n            encoder and decoder\n        num_attention_heads: Determine the number of attention heads\n            in each layer\n        num_key_value_heads: Specify the number of heads for key and\n            value\n        hidden_act: Specify the activation function used in the\n            hidden layers\n        max_position_embeddings: Set the maximum length of the\n            sequence\n        initializer_range: Initialize the weights of the model\n        rms_norm_eps: Avoid division by zero in the rms\n            normalization\n        use_cache: Determine whether to use the cache in the decoder\n        pad_token_id: Specify the token id of the padding token\n        bos_token_id: Specify the beginning of sentence token id\n        eos_token_id: Specify the end of sentence token\n        tie_word_embeddings: Tie the word embeddings and the output\n            layer\n        rope_theta: Control the number of tokens in a rope\n        sliding_window: Control the number of tokens that are\n            processed in parallel\n        gradient_checkpointing: str: Specify whether to use gradient\n            checkpointing\n        use_scan_mlp: bool: Determine whether or not to use the\n            scan_mlp function\n        scan_mlp_chunk_size: int: Specify the chunk size of the scan\n            mlp\n        number_rep_kv: int: Specify the number of times to repeat\n            the key and value vectors\n        attention_dropout: float: Set the dropout rate for the\n            attention layer\n        bits: Optional[int]: Specify the number of bits used for\n            quantization\n        axis_dims: Sequence[int]: Specify the dimension of each axis\n        axis_names: Sequence[str]: Specify the names of each axis in\n            the tensor\n        &amp;quot;mp&amp;quot;): Define the maximum position embeddings\n        attention_bias: bool: when ever to use attention_bias\n        **kwargs: Pass a variable number of keyword arguments to a\n            function\n    :param : Define the number of layers in the model\n\n    Returns:\n        An instance of the class\n    \"\"\"\n    self.vocab_size = vocab_size\n    self.max_position_embeddings = max_position_embeddings\n    self.hidden_size = hidden_size\n    self.intermediate_size = intermediate_size\n    self.num_hidden_layers = num_hidden_layers\n    self.num_attention_heads = num_attention_heads\n    self.sliding_window = sliding_window\n    self.bits = bits\n    # for backward compatibility\n    if num_key_value_heads is None:\n        num_key_value_heads = num_attention_heads\n\n    self.num_key_value_heads = num_key_value_heads\n    self.hidden_act = hidden_act\n    self.initializer_range = initializer_range\n    self.rms_norm_eps = rms_norm_eps\n    self.use_cache = use_cache\n    self.rope_theta = rope_theta\n    self.rope_scaling = rope_scaling\n    self.number_rep_kv = number_rep_kv\n    self.gradient_checkpointing = gradient_checkpointing\n    self.use_scan_mlp = use_scan_mlp\n    self.scan_mlp_chunk_size = scan_mlp_chunk_size\n    self.attention_bias = attention_bias\n    self.attention_dropout = attention_dropout\n\n    super().__init__(\n        pad_token_id=pad_token_id,\n        bos_token_id=bos_token_id,\n        eos_token_id=eos_token_id,\n        tie_word_embeddings=tie_word_embeddings,\n        use_scan_mlp=use_scan_mlp,\n        scan_mlp_chunk_size=scan_mlp_chunk_size,\n        bits=bits,\n        **kwargs,\n    )\n</code></pre>"},{"location":"generated-modules-mistral-mistral_configuration/#src.python.easydel.modules.mistral.mistral_configuration.MistralConfig.add_jax_args","title":"<code>add_jax_args(gradient_checkpointing='nothing_saveable', use_scan_mlp=False, scan_mlp_chunk_size=1024, number_rep_kv=1, bits=None, attention_dropout=0.0, rope_scaling=None, attention_bias=False, **kwargs)</code>","text":"<p>The add_jax_args function adds the following arguments to the model:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Bind the attributes and methods of a class to an instance of that class</p> required <code>gradient_checkpointing</code> <code>str</code> <p>str: Determine whether to use gradient checkpointing</p> <code>'nothing_saveable'</code> <code>use_scan_mlp</code> <code>bool</code> <p>bool: Determine whether to use the scan_mlp function or notn</p> <code>False</code> <code>scan_mlp_chunk_size</code> <code>int</code> <p>int: Chunk the input to the mlp</p> <code>1024</code> <code>number_rep_kv</code> <code>int</code> <p>int: Control the number of times that the key and value vectors are repeated</p> <code>1</code> <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Specify the number of bits to use for quantization</p> <code>None</code> <code>attention_dropout</code> <code>float</code> <p>float: Set the dropout rate for the attention layer</p> <code>0.0</code> <code>attention_bias</code> <code>bool</code> <p>bool: when ever to use attention_bias</p> <code>False</code> <code>rope_scaling</code> <code>Dict[str, Union[str, float]]</code> <p>Dict[str, Union[str, float]]: rope_scaling for rope</p> <code>None</code> <p>Returns:</p> Type Description <p>A tuple of the following:</p> Source code in <code>src/python/easydel/modules/mistral/mistral_configuration.py</code> <pre><code>def add_jax_args(\n        self,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        use_scan_mlp: bool = False,\n        scan_mlp_chunk_size: int = 1024,\n        number_rep_kv: int = 1,\n        bits: Optional[int] = None,\n        attention_dropout: float = 0.0,\n        rope_scaling: Dict[str, Union[str, float]] = None,\n        attention_bias: bool = False,\n        **kwargs,\n):\n    \"\"\"The add_jax_args function adds the following arguments to the model:\n\n    Args:\n        self: Bind the attributes and methods of a class to an\n            instance of that class\n        gradient_checkpointing: str: Determine whether to use\n            gradient checkpointing\n        use_scan_mlp: bool: Determine whether to use the scan_mlp\n            function or notn\n        scan_mlp_chunk_size: int: Chunk the input to the mlp\n        number_rep_kv: int: Control the number of times that the key\n            and value vectors are repeated\n        bits: Optional[int]: Specify the number of bits to use for\n            quantization\n        attention_dropout: float: Set the dropout rate for the\n            attention layer\n        attention_bias: bool: when ever to use attention_bias\n        rope_scaling: Dict[str, Union[str, float]]: rope_scaling for\n            rope\n\n    Returns:\n        A tuple of the following:\n    \"\"\"\n\n    self.attention_bias = attention_bias\n    self.rope_scaling = rope_scaling\n    self.number_rep_kv = number_rep_kv\n    self.gradient_checkpointing = gradient_checkpointing\n    self.use_scan_mlp = use_scan_mlp\n    self.scan_mlp_chunk_size = scan_mlp_chunk_size\n    self.attention_dropout = attention_dropout\n    self.bits = bits\n</code></pre>"},{"location":"generated-modules-mistral-mistral_configuration/#src.python.easydel.modules.mistral.mistral_configuration.MistralConfig.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>  <code>staticmethod</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:   1) A regex string that matches the name of one or more parameters in the model.   2) A PartitionScheme object that defines how those parameters should be partitioned.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to use the fully_sharded_data_parallel partitioning scheme or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/mistral/mistral_configuration.py</code> <pre><code>@staticmethod\ndef get_partition_rules(fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n      1) A regex string that matches the name of one or more parameters in the model.\n      2) A PartitionScheme object that defines how those parameters should be partitioned.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to use\n            the fully_sharded_data_parallel partitioning scheme or\n            not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    ) if not fully_sharded_data_parallel else (\n        (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-mistral-modelling_mistral_flax/","title":"modules.mistral.modelling_mistral_flax","text":""},{"location":"generated-modules-mistral-modelling_mistral_flax/#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralAttention","title":"<code>FlaxMistralAttention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code> <pre><code>class FlaxMistralAttention(BaseJAXAttentionModule):\n    config: MistralConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        config = self.config\n        self.hidden_size = config.hidden_size\n        self.head_dim = self.config.hidden_size // self.config.num_attention_heads\n        self.num_key_value_groups = self.config.num_attention_heads // self.config.num_key_value_heads\n\n        if self.num_key_value_groups == 1:\n            assert self.config.num_attention_heads == self.config.num_key_value_heads\n        self.q_proj = Linear(\n            config.num_attention_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=self.config.attention_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.k_proj = Linear(\n            config.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=self.config.attention_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.v_proj = Linear(\n            config.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=self.config.attention_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.o_proj = Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n        self.rotary = FlaxMistralRotaryEmbedding(self.dtype)\n        self.attention_performer = AttentionModule(\n            attention_dropout=self.config.attention_dropout,\n            num_attention_heads=self.config.num_attention_heads,\n            head_dims=self.head_dim,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name,\n            base_module_class=self.config\n        )\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.hidden_size,))\n\n    @staticmethod\n    def _transpose_sequence_head(query, key, value):\n        \"\"\"The _transpose_sequence_head function transposes the query, key and value matrices.\n\n        Args:\n            query: Get the attention weights for each of the heads\n            key: Determine the number of heads\n            value: Store the values of the input\n\n        Returns:\n            The transpose of the query, key and value matrices\n        \"\"\"\n        return jnp.transpose(query, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value, (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n        \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n        Args:\n            self: Access variables that belong to the class\n            batch_size: Reshape the query, key and value tensors\n            sequence_length: Reshape the query, key and value tensors\n            query: Calculate the attention weights\n            key: Calculate the attention\n            value: Compute the attention weights\n            freq_cis: Calculate the frequency of each word in the\n                vocabulary\n            position_ids: Identify the position of each token in the\n                sequence\n\n        Returns:\n            A tuple of 3 tensors: query, key and value\n        \"\"\"\n        query = query.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_attention_heads,\n            self.head_dim\n        )\n        key = key.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n        value = value.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n\n        query, key, value = self._transpose_sequence_head(query, key, value)\n        query, key = self.rotary(\n            position_ids=position_ids, query=query, key=key, freq_cis=freq_cis\n        )\n        key = repeat_kv_bnsh(key, self.num_key_value_groups)\n        value = repeat_kv_bnsh(value, self.num_key_value_groups)\n        return self._transpose_sequence_head(query, key, value)\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            fcm_mask=None,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n        and it should return all outputs that are needed for training or inference.\n\n        Args:\n            self: Access variables that belong to the class\n            hidden_states: chex.Array: Pass the hidden states of the\n                previous layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency coefficients for each position\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Determine the position of each\n                token in a sequence\n            causal_mask: chex.Array: Mask out the future tokens in the\n                decoder\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n            fcm_mask: Mask out the attention weights between the input\n                and output tokens\n        :param : Determine if the attention is causal or not\n\n        Returns:\n            A tuple of two arrays\n        \"\"\"\n        batch_size, sequence_length = hidden_states.shape[:2]\n        query_states, key_states, value_states = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(\n            hidden_states)\n\n        query_states = query_states.reshape(\n            batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n        key_states = key_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n        value_states = value_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query=query_states,\n            key=key_states,\n            value=value_states,\n            position_ids=position_ids,\n            freq_cis=freq_cis,\n            batch_size=batch_size,\n            sequence_length=sequence_length\n        )\n\n        assert_msg = (\n            \"num_attention_heads repeat wont work likely\\n\"\n            f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n            f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n        )\n\n        assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                     query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n        attention_mask = jnp.broadcast_to(\n            attention_mask, causal_mask.shape\n        )\n        attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n\n        dropout_rng = None\n\n        if not deterministic and self.config.attention_dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n        # if self.config.use_sharding_constraint:\n        #     query_states = with_sharding_constraint(\n        #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n        #     )\n        #     key_states = with_sharding_constraint(\n        #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        #     value_states = with_sharding_constraint(\n        #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        attention_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=attention_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        attn_output = self.o_proj(attn_output)\n\n        outputs = (\n            attn_output, attentions.attention_weights\n        ) if output_attentions else (\n            attn_output,\n        )\n        return outputs\n</code></pre>"},{"location":"generated-modules-mistral-modelling_mistral_flax/#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralAttention.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, segment_ids=None, deterministic=True, init_cache=False, output_attentions=False, fcm_mask=None)</code>","text":"<p>The call function is the main function of a JAX module. It defines how the module behaves when called with inputs. The call function can be thought of as a \"forward pass\" through the model, and it should return all outputs that are needed for training or inference.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the hidden states of the previous layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency coefficients for each position</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask out the future tokens in the decoder</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <code>fcm_mask</code> <p>Mask out the attention weights between the input and output tokens</p> <code>None</code> <p>:param : Determine if the attention is causal or not</p> <p>Returns:</p> Type Description <p>A tuple of two arrays</p> Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        fcm_mask=None,\n):\n    \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n    and it should return all outputs that are needed for training or inference.\n\n    Args:\n        self: Access variables that belong to the class\n        hidden_states: chex.Array: Pass the hidden states of the\n            previous layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency coefficients for each position\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Determine the position of each\n            token in a sequence\n        causal_mask: chex.Array: Mask out the future tokens in the\n            decoder\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n        fcm_mask: Mask out the attention weights between the input\n            and output tokens\n    :param : Determine if the attention is causal or not\n\n    Returns:\n        A tuple of two arrays\n    \"\"\"\n    batch_size, sequence_length = hidden_states.shape[:2]\n    query_states, key_states, value_states = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(\n        hidden_states)\n\n    query_states = query_states.reshape(\n        batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n    key_states = key_states.reshape(\n        batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n    value_states = value_states.reshape(\n        batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n    query_states, key_states, value_states = self.apply_rotary(\n        query=query_states,\n        key=key_states,\n        value=value_states,\n        position_ids=position_ids,\n        freq_cis=freq_cis,\n        batch_size=batch_size,\n        sequence_length=sequence_length\n    )\n\n    assert_msg = (\n        \"num_attention_heads repeat wont work likely\\n\"\n        f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n        f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n    )\n\n    assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    if self.has_variable(\"cache\", \"cached_key\"):\n        mask_shift = self.variables[\"cache\"][\"cache_index\"]\n        max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n        causal_mask = lax.dynamic_slice(\n            causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                 query_length, max_decoder_length)\n        )\n    else:\n        causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n    batch_size = hidden_states.shape[0]\n    causal_mask = jnp.broadcast_to(\n        causal_mask, (batch_size,) + causal_mask.shape[1:])\n    if attention_mask.ndim == 2:\n        attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n    attention_mask = jnp.broadcast_to(\n        attention_mask, causal_mask.shape\n    )\n    attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n\n    dropout_rng = None\n\n    if not deterministic and self.config.attention_dropout &gt; 0.0:\n        dropout_rng = self.make_rng(\"dropout\")\n    if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n        key_states, value_states, attention_mask = self._concatenate_to_cache(\n            key_states,\n            value_states,\n            query_states,\n            attention_mask\n        )\n    # if self.config.use_sharding_constraint:\n    #     query_states = with_sharding_constraint(\n    #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n    #     )\n    #     key_states = with_sharding_constraint(\n    #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    #     value_states = with_sharding_constraint(\n    #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    attention_bias = lax.select(\n        attention_mask &gt; 0,\n        jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n        jnp.full(attention_mask.shape, jnp.finfo(\n            self.dtype).min).astype(self.dtype),\n    )\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    attentions = self.attention_performer.__call__(\n        query_states=query_states,\n        key_states=key_states,\n        value_states=value_states,\n        bias=attention_bias,\n        attention_mask=attention_mask,\n        causal=True,\n        dropout_rng=dropout_rng,\n        deterministic=deterministic,\n        query_sequence_length=query_length,\n        key_value_sequence_length=key_length,\n        uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n        segment_ids=segment_ids,\n        causal_mask=causal_mask\n    )\n\n    attn_output = self._merge_heads(attentions.attention_outputs)\n    if self.config.shard_attention_computation:\n        attn_output = with_sharding_constraint(\n            attn_output, PartitionSpec(\n                (\"dp\", \"fsdp\"),\n                \"sp\" if attn_output.shape[1] != 1 else None,\n                \"tp\"\n            )\n        )\n    attn_output = self.o_proj(attn_output)\n\n    outputs = (\n        attn_output, attentions.attention_weights\n    ) if output_attentions else (\n        attn_output,\n    )\n    return outputs\n</code></pre>"},{"location":"generated-modules-mistral-modelling_mistral_flax/#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralAttention.apply_rotary","title":"<code>apply_rotary(batch_size, sequence_length, query, key, value, freq_cis, position_ids)</code>","text":"<p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class. The main difference is that it takes in an additional argument, freq_cis, which are used to calculate the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>batch_size</code> <p>Reshape the query, key and value tensors</p> required <code>sequence_length</code> <p>Reshape the query, key and value tensors</p> required <code>query</code> <p>Calculate the attention weights</p> required <code>key</code> <p>Calculate the attention</p> required <code>value</code> <p>Compute the attention weights</p> required <code>freq_cis</code> <p>Calculate the frequency of each word in the vocabulary</p> required <code>position_ids</code> <p>Identify the position of each token in the sequence</p> required <p>Returns:</p> Type Description <p>A tuple of 3 tensors: query, key and value</p> Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code> <pre><code>def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n    \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n    Args:\n        self: Access variables that belong to the class\n        batch_size: Reshape the query, key and value tensors\n        sequence_length: Reshape the query, key and value tensors\n        query: Calculate the attention weights\n        key: Calculate the attention\n        value: Compute the attention weights\n        freq_cis: Calculate the frequency of each word in the\n            vocabulary\n        position_ids: Identify the position of each token in the\n            sequence\n\n    Returns:\n        A tuple of 3 tensors: query, key and value\n    \"\"\"\n    query = query.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_attention_heads,\n        self.head_dim\n    )\n    key = key.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n    value = value.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n\n    query, key, value = self._transpose_sequence_head(query, key, value)\n    query, key = self.rotary(\n        position_ids=position_ids, query=query, key=key, freq_cis=freq_cis\n    )\n    key = repeat_kv_bnsh(key, self.num_key_value_groups)\n    value = repeat_kv_bnsh(value, self.num_key_value_groups)\n    return self._transpose_sequence_head(query, key, value)\n</code></pre>"},{"location":"generated-modules-mistral-modelling_mistral_flax/#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralDecoderLayer","title":"<code>FlaxMistralDecoderLayer</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code> <pre><code>class FlaxMistralDecoderLayer(nn.Module):\n    config: MistralConfig\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        attn_block = FlaxMistralAttention\n        mlp_block = FlaxMistralMLP\n\n        if self.config.gradient_checkpointing != \"\":\n            # hidden_states: chex.Array,\n            # freq_cis: Tuple[chex.Array, chex.Array],\n            # attention_mask: chex.Array,\n            # position_ids: chex.Array,\n            # causal_mask: chex.Array,\n            # segment_ids: Optional[chex.Array] = None,\n            # deterministic: bool = True,\n            # init_cache: bool = False,\n            # output_attentions: bool = False,\n            # fcm_mask = None,\n            attn_block = re_mat(\n                attn_block,\n                policy=get_gradient_checkpoint_policy(self.config.gradient_checkpointing),\n                static_argnums=(1, 3, 4, 6, 7, 8)\n            )\n            mlp_block = re_mat(\n                mlp_block,\n                policy=get_gradient_checkpoint_policy(self.config.gradient_checkpointing),\n                static_argnums=(1,)\n            )\n        self.self_attn = attn_block(\n            config=self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.mlp = mlp_block(\n            config=self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.input_layernorm = MistralRMSNorm(\n            dim=self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n        self.post_attention_layernorm = MistralRMSNorm(\n            dim=self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            causal_mask: chex.Array,\n            position_ids: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = True\n    ):\n        \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n        It takes in the following arguments:\n            hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed\n            by all sublayers.\n            freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector,\n            used for computing self-attention weights and biases in a more efficient manner than using position\n            embeddings or sinusoidal positional encoding vectors would allow for [2].\n\n        Args:\n            self: Represent the instance of the class\n            hidden_states: chex.Array: Represent the input to the\n                encoder layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency\n                information to the attention layer\n            attention_mask: chex.Array: Mask out the attention weights\n                for certain positions\n            causal_mask: chex.Array: Mask the future tokens\n            position_ids: chex.Array: Indicate the position of each\n                token in the sequence\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache for the self-\n                attention layer\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n\n        Returns:\n            A tuple of hidden_states and attention_output\n        \"\"\"\n\n        # hidden_states: chex.Array,\n        # freq_cis: Tuple[chex.Array, chex.Array],\n        # attention_mask: chex.Array,\n        # position_ids: chex.Array,\n        # causal_mask: chex.Array,\n        # segment_ids: Optional[chex.Array] = None,\n        # deterministic: bool = True,\n        # init_cache: bool = False,\n        # output_attentions: bool = False,\n        # fcm_mask = None,\n        residual = hidden_states\n        attention_output = self.self_attn(\n            self.input_layernorm(hidden_states),\n            freq_cis,\n            attention_mask,\n            position_ids,\n            causal_mask,\n            segment_ids,\n            deterministic,\n            init_cache,\n            output_attentions,\n            None\n        )\n\n        hidden_states = attention_output[0] + residual\n        ffd_inp = self.post_attention_layernorm(hidden_states)\n        if self.config.use_scan_mlp:\n            feed_forward_hidden_states = block_wise_ffn(\n                self.mlp,\n                ffd_inp,\n                self.config.scan_mlp_chunk_size,\n                deterministic,\n            )\n        else:\n            feed_forward_hidden_states = self.mlp(\n                ffd_inp,\n                deterministic,\n            )\n\n        hidden_states = hidden_states + feed_forward_hidden_states\n        outputs = (hidden_states,)\n        if output_attentions:\n            outputs += attention_output[1],\n        return outputs\n</code></pre>"},{"location":"generated-modules-mistral-modelling_mistral_flax/#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralDecoderLayer.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, causal_mask, position_ids, segment_ids=None, deterministic=True, init_cache=False, output_attentions=True)</code>","text":"<p>The call function is the main function of a TransformerEncoderLayer. It takes in the following arguments:     hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed     by all sublayers.     freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector,     used for computing self-attention weights and biases in a more efficient manner than using position     embeddings or sinusoidal positional encoding vectors would allow for [2].</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Represent the input to the encoder layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass the frequency information to the attention layer</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the attention weights for certain positions</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the future tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Indicate the position of each token in the sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the self- attention layer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A tuple of hidden_states and attention_output</p> Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        causal_mask: chex.Array,\n        position_ids: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = True\n):\n    \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n    It takes in the following arguments:\n        hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed\n        by all sublayers.\n        freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector,\n        used for computing self-attention weights and biases in a more efficient manner than using position\n        embeddings or sinusoidal positional encoding vectors would allow for [2].\n\n    Args:\n        self: Represent the instance of the class\n        hidden_states: chex.Array: Represent the input to the\n            encoder layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency\n            information to the attention layer\n        attention_mask: chex.Array: Mask out the attention weights\n            for certain positions\n        causal_mask: chex.Array: Mask the future tokens\n        position_ids: chex.Array: Indicate the position of each\n            token in the sequence\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache for the self-\n            attention layer\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n\n    Returns:\n        A tuple of hidden_states and attention_output\n    \"\"\"\n\n    # hidden_states: chex.Array,\n    # freq_cis: Tuple[chex.Array, chex.Array],\n    # attention_mask: chex.Array,\n    # position_ids: chex.Array,\n    # causal_mask: chex.Array,\n    # segment_ids: Optional[chex.Array] = None,\n    # deterministic: bool = True,\n    # init_cache: bool = False,\n    # output_attentions: bool = False,\n    # fcm_mask = None,\n    residual = hidden_states\n    attention_output = self.self_attn(\n        self.input_layernorm(hidden_states),\n        freq_cis,\n        attention_mask,\n        position_ids,\n        causal_mask,\n        segment_ids,\n        deterministic,\n        init_cache,\n        output_attentions,\n        None\n    )\n\n    hidden_states = attention_output[0] + residual\n    ffd_inp = self.post_attention_layernorm(hidden_states)\n    if self.config.use_scan_mlp:\n        feed_forward_hidden_states = block_wise_ffn(\n            self.mlp,\n            ffd_inp,\n            self.config.scan_mlp_chunk_size,\n            deterministic,\n        )\n    else:\n        feed_forward_hidden_states = self.mlp(\n            ffd_inp,\n            deterministic,\n        )\n\n    hidden_states = hidden_states + feed_forward_hidden_states\n    outputs = (hidden_states,)\n    if output_attentions:\n        outputs += attention_output[1],\n    return outputs\n</code></pre>"},{"location":"generated-modules-mistral-modelling_mistral_flax/#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralForCausalLMModule","title":"<code>FlaxMistralForCausalLMModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code> <pre><code>class FlaxMistralForCausalLMModule(nn.Module):\n    config: MistralConfig\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        self.model: FlaxMistralModule = FlaxMistralModule(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n        )\n\n        self.lm_head = Linear(\n            self.config.vocab_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                stddev=self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            deterministic: bool = True,\n            inputs_embeds: chex.Array = None,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n    ):\n        \"\"\"The __call__ function is the main function of a Flax module. It defines how the model will be called,\n        and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask\n        as inputs (these are defined in __init__). We also have some optional arguments that can be passed to\n        the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),\n        output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,\n\n        Args:\n            self: Refer to the object itself\n            input_ids: chex.Array: Pass in the input tokens\n            attention_mask: chex.Array: Mask out the padding tokens\n            position_ids: chex.Array: Specify the position of each token\n                in the sequence\n            deterministic: bool: Determine whether to use dropout in the\n                model\n            inputs_embeds: chex.Array: Pass in the embeddings of the\n                input tokens\n            init_cache: bool: Initialize the cache for the decoder\n            output_attentions: bool: Return the attention weights\n            output_hidden_states: bool: Return the hidden states of all\n                layers\n            return_dict: bool: Return a dictionary of the outputs or\n                just the logits\n        :param : Determine whether to return the logits or not\n\n        Returns:\n            A tuple of (lm_logits, hidden_states, attentions)\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n\n        if attention_mask is None:\n            attention_mask = jnp.ones_like(input_ids)\n        if position_ids is None:\n            position_ids = jnp.broadcast_to(\n                jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n                (batch_size, seq_length)\n            )\n        outputs = self.model(\n            input_ids=input_ids,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            deterministic=deterministic,\n            inputs_embeds=inputs_embeds,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict\n        )\n\n        hidden_states = outputs[0]\n\n        if self.config.tie_word_embeddings:\n            shared_kernel = self.transformer.variables[\"params\"][\"embed_tokens\"][\"embedding\"]\n            shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n            lm_logits = self.lm_head.apply(\n                {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n        else:\n            lm_logits = self.lm_head(hidden_states)\n\n        # lm_logits = lm_logits.astype(jnp.float32)\n\n        if not return_dict:\n            return (lm_logits,) + outputs[1:]\n\n        return FlaxCausalLMOutput(logits=lm_logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions)\n</code></pre>"},{"location":"generated-modules-mistral-modelling_mistral_flax/#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralForCausalLMModule.__call__","title":"<code>__call__(input_ids, attention_mask, position_ids, deterministic=True, inputs_embeds=None, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True)</code>","text":"<p>The call function is the main function of a Flax module. It defines how the model will be called, and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask as inputs (these are defined in init). We also have some optional arguments that can be passed to the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings), output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass in the input tokens</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the padding tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in the sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout in the model</p> <code>True</code> <code>inputs_embeds</code> <code>Array</code> <p>chex.Array: Pass in the embeddings of the input tokens</p> <code>None</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the decoder</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Return the hidden states of all layers</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs or just the logits</p> <code>True</code> <p>:param : Determine whether to return the logits or not</p> <p>Returns:</p> Type Description <p>A tuple of (lm_logits, hidden_states, attentions)</p> Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        deterministic: bool = True,\n        inputs_embeds: chex.Array = None,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n):\n    \"\"\"The __call__ function is the main function of a Flax module. It defines how the model will be called,\n    and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask\n    as inputs (these are defined in __init__). We also have some optional arguments that can be passed to\n    the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),\n    output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,\n\n    Args:\n        self: Refer to the object itself\n        input_ids: chex.Array: Pass in the input tokens\n        attention_mask: chex.Array: Mask out the padding tokens\n        position_ids: chex.Array: Specify the position of each token\n            in the sequence\n        deterministic: bool: Determine whether to use dropout in the\n            model\n        inputs_embeds: chex.Array: Pass in the embeddings of the\n            input tokens\n        init_cache: bool: Initialize the cache for the decoder\n        output_attentions: bool: Return the attention weights\n        output_hidden_states: bool: Return the hidden states of all\n            layers\n        return_dict: bool: Return a dictionary of the outputs or\n            just the logits\n    :param : Determine whether to return the logits or not\n\n    Returns:\n        A tuple of (lm_logits, hidden_states, attentions)\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n\n    if attention_mask is None:\n        attention_mask = jnp.ones_like(input_ids)\n    if position_ids is None:\n        position_ids = jnp.broadcast_to(\n            jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n            (batch_size, seq_length)\n        )\n    outputs = self.model(\n        input_ids=input_ids,\n        attention_mask=attention_mask,\n        position_ids=position_ids,\n        deterministic=deterministic,\n        inputs_embeds=inputs_embeds,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict\n    )\n\n    hidden_states = outputs[0]\n\n    if self.config.tie_word_embeddings:\n        shared_kernel = self.transformer.variables[\"params\"][\"embed_tokens\"][\"embedding\"]\n        shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n        lm_logits = self.lm_head.apply(\n            {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n    else:\n        lm_logits = self.lm_head(hidden_states)\n\n    # lm_logits = lm_logits.astype(jnp.float32)\n\n    if not return_dict:\n        return (lm_logits,) + outputs[1:]\n\n    return FlaxCausalLMOutput(logits=lm_logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions)\n</code></pre>"},{"location":"generated-modules-mistral-modelling_mistral_flax/#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralModule","title":"<code>FlaxMistralModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code> <pre><code>class FlaxMistralModule(nn.Module):\n    config: MistralConfig\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n\n        self.embed_tokens = nn.Embed(\n            self.config.vocab_size,\n            self.config.hidden_size,\n            embedding_init=jax.nn.initializers.normal(\n                stddev=self.config.initializer_range),\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n        )\n\n        self.layers = FlaxMistralDecoratorCollection(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.norm = MistralRMSNorm(\n            self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n\n        initial_rope_kwargs = dict(\n            rope_type=\"none\"\n        )\n        if self.config.rope_scaling is not None:\n            scaling_type = self.config.rope_scaling[\"type\"]\n            scaling_factor = self.config.rope_scaling[\"factor\"]\n            initial_rope_kwargs = dict(\n                scaling_factor=scaling_factor,\n                rope_type=scaling_type\n            )\n        self.freq_cis = precompute_freq_cis(\n            max_position_embeddings=(\n                getattr(self.config, \"freq_max_position_embeddings\", self.config.max_position_embeddings)\n            ),\n            dim=self.config.hidden_size // self.config.num_attention_heads,\n            base=self.config.rope_theta,\n            **initial_rope_kwargs\n        )\n        self.causal_mask = flax.linen.make_causal_mask(\n            jnp.ones(\n                (1, getattr(self.config, \"c_max_position_embeddings\", self.config.max_position_embeddings)),\n                dtype=\"bool\"\n            ), dtype=\"bool\"\n        )\n\n    def __call__(\n            self,\n            input_ids: Optional[chex.Array] = None,\n            attention_mask: Optional[chex.Array] = None,\n            position_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            inputs_embeds: chex.Array = None,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n    ) -&gt; typing.Union[Tuple[Array, ...], FlaxBaseModelOutput]:\n        \"\"\"The __call__ function is the main function of a Flax model.\n        It takes in input_ids, attention_mask, and position_ids as inputs to the model.\n        The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: chex.Array: Pass in the input ids\n            attention_mask: chex.Array: Mask out the attention weights\n                for certain tokens\n            position_ids: chex.Array: Determine the position of each\n                token in a sequence\n            deterministic: bool: Determine whether to use dropout or not\n            inputs_embeds: chex.Array: Pass in the embedding of the\n                input_ids\n            init_cache: bool: Initialize the cache for the decoder\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n            output_hidden_states: bool: Return all hidden states or just\n                the last one\n            return_dict: bool: Return a dictionary of the outputs or not\n        :param : Determine whether the model is in training mode or not\n\n        Returns:\n            A tuple of the hidden states, all hidden states, and\n            attentions\n        \"\"\"\n        if inputs_embeds is None:\n            inputs_embeds = self.embed_tokens(input_ids.astype(\"i4\"))\n        if attention_mask.ndim == 2:\n            b, s = attention_mask.shape\n            attention_mask = attention_mask.reshape(b, 1, 1, s)\n\n        outputs = self.layers(\n            hidden_states=inputs_embeds,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            freq_cis=self.freq_cis,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            deterministic=deterministic,\n            causal_mask=self.causal_mask\n        )\n\n        hidden_states = outputs[0]\n        hidden_states = self.norm(hidden_states)\n\n        if output_hidden_states:\n            all_hidden_states = outputs[1] + (hidden_states,)\n            outputs = (hidden_states, all_hidden_states) + outputs[2:]\n        else:\n            outputs = (hidden_states,) + outputs[1:]\n\n        if not return_dict:\n            return tuple(value for value in outputs if value is not None)\n\n        return FlaxBaseModelOutput(\n            last_hidden_state=hidden_states,\n            hidden_states=outputs[1],\n            attentions=outputs[-1],\n        )\n</code></pre>"},{"location":"generated-modules-mistral-modelling_mistral_flax/#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralModule.__call__","title":"<code>__call__(input_ids=None, attention_mask=None, position_ids=None, deterministic=True, inputs_embeds=None, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True)</code>","text":"<p>The call function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids as inputs to the model. The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Optional[Array]</code> <p>chex.Array: Pass in the input ids</p> <code>None</code> <code>attention_mask</code> <code>Optional[Array]</code> <p>chex.Array: Mask out the attention weights for certain tokens</p> <code>None</code> <code>position_ids</code> <code>Optional[Array]</code> <p>chex.Array: Determine the position of each token in a sequence</p> <code>None</code> <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>inputs_embeds</code> <code>Array</code> <p>chex.Array: Pass in the embedding of the input_ids</p> <code>None</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the decoder</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Return all hidden states or just the last one</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs or not</p> <code>True</code> <p>:param : Determine whether the model is in training mode or not</p> <p>Returns:</p> Type Description <code>Union[Tuple[Array, ...], FlaxBaseModelOutput]</code> <p>A tuple of the hidden states, all hidden states, and</p> <code>Union[Tuple[Array, ...], FlaxBaseModelOutput]</code> <p>attentions</p> Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: Optional[chex.Array] = None,\n        attention_mask: Optional[chex.Array] = None,\n        position_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        inputs_embeds: chex.Array = None,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n) -&gt; typing.Union[Tuple[Array, ...], FlaxBaseModelOutput]:\n    \"\"\"The __call__ function is the main function of a Flax model.\n    It takes in input_ids, attention_mask, and position_ids as inputs to the model.\n    The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: chex.Array: Pass in the input ids\n        attention_mask: chex.Array: Mask out the attention weights\n            for certain tokens\n        position_ids: chex.Array: Determine the position of each\n            token in a sequence\n        deterministic: bool: Determine whether to use dropout or not\n        inputs_embeds: chex.Array: Pass in the embedding of the\n            input_ids\n        init_cache: bool: Initialize the cache for the decoder\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n        output_hidden_states: bool: Return all hidden states or just\n            the last one\n        return_dict: bool: Return a dictionary of the outputs or not\n    :param : Determine whether the model is in training mode or not\n\n    Returns:\n        A tuple of the hidden states, all hidden states, and\n        attentions\n    \"\"\"\n    if inputs_embeds is None:\n        inputs_embeds = self.embed_tokens(input_ids.astype(\"i4\"))\n    if attention_mask.ndim == 2:\n        b, s = attention_mask.shape\n        attention_mask = attention_mask.reshape(b, 1, 1, s)\n\n    outputs = self.layers(\n        hidden_states=inputs_embeds,\n        attention_mask=attention_mask,\n        position_ids=position_ids,\n        freq_cis=self.freq_cis,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        deterministic=deterministic,\n        causal_mask=self.causal_mask\n    )\n\n    hidden_states = outputs[0]\n    hidden_states = self.norm(hidden_states)\n\n    if output_hidden_states:\n        all_hidden_states = outputs[1] + (hidden_states,)\n        outputs = (hidden_states, all_hidden_states) + outputs[2:]\n    else:\n        outputs = (hidden_states,) + outputs[1:]\n\n    if not return_dict:\n        return tuple(value for value in outputs if value is not None)\n\n    return FlaxBaseModelOutput(\n        last_hidden_state=hidden_states,\n        hidden_states=outputs[1],\n        attentions=outputs[-1],\n    )\n</code></pre>"},{"location":"generated-modules-mistral-modelling_mistral_flax/#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralPretrainedModel","title":"<code>FlaxMistralPretrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code> <pre><code>class FlaxMistralPretrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class = MistralConfig\n    base_model_prefix = 'mistral'\n    module_class: nn.Module = None\n\n    def __init__(self,\n                 config: MistralConfig,\n                 input_shape: Tuple = (1, 1),\n                 seed: int = 0,\n                 dtype: jnp.dtype = jnp.bfloat16,\n                 _do_init: bool = True,\n                 **kwargs\n                 ):\n        module = self.module_class(config=config, dtype=dtype, **kwargs)\n        super().__init__(config, module, input_shape=input_shape,\n                         seed=seed, dtype=dtype, _do_init=_do_init)\n\n    def init_weights(\n            self,\n            rng: jax.random.PRNGKey,\n            input_shape: Tuple,\n            params: flax.core.FrozenDict = None\n    ) -&gt; flax.core.FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n        It takes in an rng, which is a random number generator key that can be used to generate random numbers.\n        The input_shape parameter specifies the shape of the inputs that will be fed into this model.\n        The params parameter allows you to pass in pre-trained weights for your model, if you have them available.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Initialize the input_ids, attention_mask\n                and position_ids\n            params: flax.core.FrozenDict: Pass in the parameters of a\n                pre-trained model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n        params_rng, dropout_rng = jax.random.split(rng)\n        rng_s = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n        if self.config.add_cross_attention:\n            encoder_hidden_states = jnp.zeros(\n                input_shape + (self.config.hidden_size,))\n            encoder_attention_mask = attention_mask\n            module_init_outputs = self.module.init(\n                rng_s,\n                input_ids,\n                attention_mask,\n                position_ids,\n                encoder_hidden_states,\n                encoder_attention_mask,\n                return_dict=False,\n            )\n        else:\n            module_init_outputs = self.module.init(\n                rng_s, input_ids, attention_mask, position_ids, return_dict=False\n            )\n\n        random_params = module_init_outputs[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def init_cache(self, batch_size, max_length):\n\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0),\n            input_ids,\n            attention_mask,\n            position_ids,\n            return_dict=False,\n            init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def __call__(\n            self,\n            input_ids,\n            attention_mask=None,\n            position_ids=None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It takes as input:\n        - The parameters of the model (self.params)\n        - The inputs to the model (input_ids, attention_mask, position_ids)\n        - Whether we are training (train=True/False) and whether we want to return all hidden states and\n        attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: Pass the input sequence to the model\n            attention_mask: Mask out the padding tokens\n            position_ids: Specify the position of each token in the\n                sequence\n            params: dict: Pass in the parameters of the model\n            past_key_values: dict: Pass the past key values to the model\n            dropout_rng: jax.random.PRNGKey: Pass in a random number\n                generator key to the model\n            train: bool: Determine whether to use dropout or not\n            output_attentions: Optional[bool]: Determine whether to\n                return the attention weights\n            output_hidden_states: Optional[bool]: Determine whether to\n                return the hidden states of all layers\n            return_dict: Optional[bool]: Return a dictionary of the\n                outputs\n            add_params_field: bool: Add a params field to the inputs\n                dictionary\n\n        Returns:\n            A tuple of (last_hidden_state, past_key_values)\n        \"\"\"\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n        batch_size, sequence_length = input_ids.shape\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\n                    \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                            None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rng_s = {}\n        if dropout_rng is not None:\n            rng_s[\"dropout\"] = dropout_rng\n\n        inputs = {\n            \"params\": params or self.params} if add_params_field else params or self.params\n\n        if self.config.bits is not None:\n            rng_s['params'] = jax.random.key(0)\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),\n            jnp.array(attention_mask, dtype=\"i4\"),\n            jnp.array(position_ids, dtype=\"i4\"),\n            not train,\n            None,\n            False,\n            output_attentions,\n            output_hidden_states,\n            return_dict,\n            rngs=rng_s,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + \\\n                      (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-mistral-modelling_mistral_flax/#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralPretrainedModel.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, params=None, past_key_values=None, dropout_rng=None, train=False, output_attentions=None, output_hidden_states=None, return_dict=None, add_params_field=False, **kwargs)</code>","text":"<p>The call function is the main function of a JAX module. It takes as input: - The parameters of the model (self.params) - The inputs to the model (input_ids, attention_mask, position_ids) - Whether we are training (train=True/False) and whether we want to return all hidden states and attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <p>Pass the input sequence to the model</p> required <code>attention_mask</code> <p>Mask out the padding tokens</p> <code>None</code> <code>position_ids</code> <p>Specify the position of each token in the sequence</p> <code>None</code> <code>params</code> <code>dict</code> <p>dict: Pass in the parameters of the model</p> <code>None</code> <code>past_key_values</code> <code>dict</code> <p>dict: Pass the past key values to the model</p> <code>None</code> <code>dropout_rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Pass in a random number generator key to the model</p> <code>None</code> <code>train</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the attention weights</p> <code>None</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the hidden states of all layers</p> <code>None</code> <code>return_dict</code> <code>Optional[bool]</code> <p>Optional[bool]: Return a dictionary of the outputs</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add a params field to the inputs dictionary</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of (last_hidden_state, past_key_values)</p> Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids,\n        attention_mask=None,\n        position_ids=None,\n        params: dict = None,\n        past_key_values: dict = None,\n        dropout_rng: jax.random.PRNGKey = None,\n        train: bool = False,\n        output_attentions: Optional[bool] = None,\n        output_hidden_states: Optional[bool] = None,\n        return_dict: Optional[bool] = None,\n        add_params_field: bool = False,\n        **kwargs\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It takes as input:\n    - The parameters of the model (self.params)\n    - The inputs to the model (input_ids, attention_mask, position_ids)\n    - Whether we are training (train=True/False) and whether we want to return all hidden states and\n    attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: Pass the input sequence to the model\n        attention_mask: Mask out the padding tokens\n        position_ids: Specify the position of each token in the\n            sequence\n        params: dict: Pass in the parameters of the model\n        past_key_values: dict: Pass the past key values to the model\n        dropout_rng: jax.random.PRNGKey: Pass in a random number\n            generator key to the model\n        train: bool: Determine whether to use dropout or not\n        output_attentions: Optional[bool]: Determine whether to\n            return the attention weights\n        output_hidden_states: Optional[bool]: Determine whether to\n            return the hidden states of all layers\n        return_dict: Optional[bool]: Return a dictionary of the\n            outputs\n        add_params_field: bool: Add a params field to the inputs\n            dictionary\n\n    Returns:\n        A tuple of (last_hidden_state, past_key_values)\n    \"\"\"\n    output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n    output_hidden_states = (\n        output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n    )\n    return_dict = return_dict if return_dict is not None else self.config.return_dict\n    batch_size, sequence_length = input_ids.shape\n\n    if position_ids is None:\n        if past_key_values is not None:\n            raise ValueError(\n                \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n        position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                        None, :], (batch_size, sequence_length))\n\n    if attention_mask is None:\n        attention_mask = jnp.ones((batch_size, sequence_length))\n\n    rng_s = {}\n    if dropout_rng is not None:\n        rng_s[\"dropout\"] = dropout_rng\n\n    inputs = {\n        \"params\": params or self.params} if add_params_field else params or self.params\n\n    if self.config.bits is not None:\n        rng_s['params'] = jax.random.key(0)\n    if past_key_values:\n        inputs[\"cache\"] = past_key_values\n        mutable = [\"cache\"]\n    else:\n        mutable = False\n\n    outputs = self.module.apply(\n        inputs,\n        jnp.array(input_ids, dtype=\"i4\"),\n        jnp.array(attention_mask, dtype=\"i4\"),\n        jnp.array(position_ids, dtype=\"i4\"),\n        not train,\n        None,\n        False,\n        output_attentions,\n        output_hidden_states,\n        return_dict,\n        rngs=rng_s,\n        mutable=mutable,\n    )\n\n    if past_key_values is not None and return_dict:\n        outputs, past_key_values = outputs\n        outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n        return outputs\n    elif past_key_values is not None and not return_dict:\n        outputs, past_key_values = outputs\n        outputs = outputs[:1] + \\\n                  (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-mistral-modelling_mistral_flax/#src.python.easydel.modules.mistral.modelling_mistral_flax.FlaxMistralPretrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model. It takes in an rng, which is a random number generator key that can be used to generate random numbers. The input_shape parameter specifies the shape of the inputs that will be fed into this model. The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Initialize the input_ids, attention_mask and position_ids</p> required <code>params</code> <code>FrozenDict</code> <p>flax.core.FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code> <pre><code>def init_weights(\n        self,\n        rng: jax.random.PRNGKey,\n        input_shape: Tuple,\n        params: flax.core.FrozenDict = None\n) -&gt; flax.core.FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n    It takes in an rng, which is a random number generator key that can be used to generate random numbers.\n    The input_shape parameter specifies the shape of the inputs that will be fed into this model.\n    The params parameter allows you to pass in pre-trained weights for your model, if you have them available.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Initialize the input_ids, attention_mask\n            and position_ids\n        params: flax.core.FrozenDict: Pass in the parameters of a\n            pre-trained model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids)\n    position_ids = jnp.broadcast_to(jnp.arange(\n        jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n    params_rng, dropout_rng = jax.random.split(rng)\n    rng_s = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n    if self.config.add_cross_attention:\n        encoder_hidden_states = jnp.zeros(\n            input_shape + (self.config.hidden_size,))\n        encoder_attention_mask = attention_mask\n        module_init_outputs = self.module.init(\n            rng_s,\n            input_ids,\n            attention_mask,\n            position_ids,\n            encoder_hidden_states,\n            encoder_attention_mask,\n            return_dict=False,\n        )\n    else:\n        module_init_outputs = self.module.init(\n            rng_s, input_ids, attention_mask, position_ids, return_dict=False\n        )\n\n    random_params = module_init_outputs[\"params\"]\n\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-mistral-modelling_mistral_flax/#src.python.easydel.modules.mistral.modelling_mistral_flax.matmul_4d_loop","title":"<code>matmul_4d_loop(x, y)</code>","text":"<p>Computes the matrix product of two 4D arrays x and y using a loop.</p> Source code in <code>src/python/easydel/modules/mistral/modelling_mistral_flax.py</code> <pre><code>def matmul_4d_loop(x, y):\n    \"\"\"Computes the matrix product of two 4D arrays x and y using a loop.\"\"\"\n    result = jnp.zeros(*x.shape[:-2] + x.shape[-2] + y.shape[-1])\n    for i in range(x.shape[0]):\n        for j in range(y.shape[1]):\n            for key in range(x.shape[2]):\n                for l in range(y.shape[3]):\n                    result[i, j, key, l] += x[i, j, key, :] * y[key, l, :, :]\n    return result\n</code></pre>"},{"location":"generated-modules-mistral-modelling_vision_mistral_flax/","title":"modules.mistral.modelling_vision_mistral_flax","text":""},{"location":"generated-modules-mistral-modelling_vision_mistral_flax/#src.python.easydel.modules.mistral.modelling_vision_mistral_flax.FlaxVisionMistralPreTrainedModel","title":"<code>FlaxVisionMistralPreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/mistral/modelling_vision_mistral_flax.py</code> <pre><code>class FlaxVisionMistralPreTrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class = VisionMistralConfig\n    base_model_prefix = \"model\"\n    module_class: nn.Module = None\n\n    def __init__(\n            self,\n            config: VisionMistralConfig,\n            input_shape: Tuple = (4, 1),\n            seed: int = 0,\n            dtype: jnp.dtype = jnp.float32,\n            _do_init: bool = True,\n            **kwargs,\n    ):\n        module = self.module_class(config=config, dtype=dtype, **kwargs)\n        super().__init__(config, module, input_shape=input_shape, seed=seed, dtype=dtype, _do_init=_do_init)\n\n    def init_cache(self, batch_size, max_length):\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n        vision_mask = jnp.ones((batch_size, max_length), dtype=bool)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, vision_mask, attention_mask, position_ids,\n            return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Specify the shape of the input tensor\n            params: FrozenDict: Pass in the parameters of a pre-trained\n                model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids)\n        vision_mask = jnp.ones(input_ids.shape, dtype=bool)\n        position_ids = jnp.broadcast_to(jnp.arange(jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n        params_rng, dropout_rng = jax.random.split(rng)\n\n        random_params = self.module.init(\n            {\n                \"params\": params_rng,\n                \"dropout\": dropout_rng\n            },\n            input_ids,\n            vision_mask,\n            attention_mask,\n            position_ids,\n            return_dict=False\n        )[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            vision_mask: Optional[chex.Array] = None,\n            attention_mask: Optional[chex.Array] = None,\n            position_ids: Optional[chex.Array] = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        # Handle any PRNG if needed\n        rngs = {}\n        if dropout_rng is not None:\n            rngs[\"dropout\"] = dropout_rng\n\n        inputs = {\"params\": params or self.params}\n\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),\n            jnp.array(vision_mask, dtype=\"f4\"),\n            jnp.array(attention_mask, dtype=\"i4\"),\n            jnp.array(position_ids, dtype=\"i4\"),\n            not train,\n            False,\n            output_attentions,\n            output_hidden_states,\n            return_dict,\n            rngs=rngs,\n            mutable=mutable,\n        )\n\n        # add updated cache to model output\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-mistral-modelling_vision_mistral_flax/#src.python.easydel.modules.mistral.modelling_vision_mistral_flax.FlaxVisionMistralPreTrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Specify the shape of the input tensor</p> required <code>params</code> <code>FrozenDict</code> <p>FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/mistral/modelling_vision_mistral_flax.py</code> <pre><code>def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Specify the shape of the input tensor\n        params: FrozenDict: Pass in the parameters of a pre-trained\n            model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids)\n    vision_mask = jnp.ones(input_ids.shape, dtype=bool)\n    position_ids = jnp.broadcast_to(jnp.arange(jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n    params_rng, dropout_rng = jax.random.split(rng)\n\n    random_params = self.module.init(\n        {\n            \"params\": params_rng,\n            \"dropout\": dropout_rng\n        },\n        input_ids,\n        vision_mask,\n        attention_mask,\n        position_ids,\n        return_dict=False\n    )[\"params\"]\n\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-mistral-vision_mistral_configuration/","title":"modules.mistral.vision_mistral_configuration","text":""},{"location":"generated-modules-mistral-vision_mistral_configuration/#src.python.easydel.modules.mistral.vision_mistral_configuration.VisionMistralConfig","title":"<code>VisionMistralConfig</code>","text":"<p>               Bases: <code>MistralConfig</code></p> Source code in <code>src/python/easydel/modules/mistral/vision_mistral_configuration.py</code> <pre><code>class VisionMistralConfig(MistralConfig):\n    def __init__(\n            self,\n            vision_vocab_size=8448,\n            tie_vision_embeddings=False,\n            sample_mode=\"all\",\n            **kwargs\n    ):\n        super().__init__(**kwargs)\n        self.vision_vocab_size = vision_vocab_size\n        self.tie_vision_embeddings = tie_vision_embeddings\n        self.sample_mode = sample_mode\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n            1) A regex string that matches the name of one or more parameters in the model.\n            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to\n                partition the model fully or not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"model/embed_vision/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"mlp/down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"vision_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec(None)),\n        ) if not fully_sharded_data_parallel else (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"model/embed_vision/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"self_attn/o_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"vision_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n</code></pre>"},{"location":"generated-modules-mistral-vision_mistral_configuration/#src.python.easydel.modules.mistral.vision_mistral_configuration.VisionMistralConfig.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:     1) A regex string that matches the name of one or more parameters in the model.     2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to partition the model fully or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/mistral/vision_mistral_configuration.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n        1) A regex string that matches the name of one or more parameters in the model.\n        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to\n            partition the model fully or not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n        (\"model/embed_vision/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"mlp/down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"vision_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\".*\", PartitionSpec(None)),\n    ) if not fully_sharded_data_parallel else (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"model/embed_vision/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"self_attn/o_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"vision_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-mixtral-mixtral_configuration/","title":"modules.mixtral.mixtral_configuration","text":""},{"location":"generated-modules-mixtral-mixtral_configuration/#src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig","title":"<code>MixtralConfig</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> Source code in <code>src/python/easydel/modules/mixtral/mixtral_configuration.py</code> <pre><code>class MixtralConfig(EasyDeLPretrainedConfig):\n    model_type: str = \"mixtral\"\n\n    def __init__(\n            self,\n            vocab_size=32000,\n            hidden_size=4096,\n            intermediate_size=14336,\n            num_hidden_layers=32,\n            num_attention_heads=32,\n            num_key_value_heads=8,\n            hidden_act=\"silu\",\n            max_position_embeddings=4096 * 32,\n            initializer_range=0.02,\n            rms_norm_eps=1e-5,\n            use_cache=True,\n            pad_token_id=None,\n            bos_token_id=1,\n            eos_token_id=2,\n            tie_word_embeddings=False,\n            rope_theta=1e6,\n            sliding_window=4096,\n            attention_dropout=0.0,\n            num_experts_per_tok=2,\n            num_local_experts=8,\n            output_router_logits=False,\n            router_aux_loss_coef=0.001,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            use_scan_mlp: bool = False,\n            scan_mlp_chunk_size: int = 1024,\n            number_rep_kv: int = 1,\n            bits: Optional[int] = None,\n            rope_scaling: Dict[str, Union[str, float]] = None,\n            attention_bias: bool = False,\n            initialization_of_moe: bool = False,\n            router_jitter_noise=0.0,\n            **kwargs,\n    ):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It allows the class to initialize the attributes of a class.\n        The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.\n\n        Args:\n            self: Represent the instance of the class\n            vocab_size: Define the size of the vocabulary\n            hidden_size: Determine the size of the embedding layers\n            intermediate_size: Define the size of the intermediate layer\n                in each transformer block\n            num_hidden_layers: Determine the number of layers in the\n                encoder and decoder\n            num_attention_heads: Determine the number of attention heads\n                in each layer\n            num_key_value_heads: Specify the number of heads for key and\n                value\n            hidden_act: Specify the activation function used in the\n                hidden layers\n            max_position_embeddings: Set the maximum length of the\n                sequence\n            initializer_range: Initialize the weights of the model\n            rms_norm_eps: Avoid division by zero in the rms\n                normalization\n            use_cache: Determine whether to use the cache in the decoder\n            pad_token_id: Specify the token id of the padding token\n            bos_token_id: Specify the beginning of sentence token id\n            eos_token_id: Specify the end of sentence token\n            tie_word_embeddings: Tie the word embeddings and the output\n                layer\n            rope_theta: Control the number of tokens in a rope\n            sliding_window: Control the number of tokens that are\n                processed in parallel\n            gradient_checkpointing: str: Specify whether to use gradient\n                checkpointing\n            use_scan_mlp: bool: Determine whether or not to use the\n                scan_mlp function\n            scan_mlp_chunk_size: int: Specify the chunk size of the scan\n                mlp\n            number_rep_kv: int: Specify the number of times to repeat\n                the key and value vectors\n            bits: Optional[int]: Specify the number of bits used for\n                quantization\n            axis_dims: Sequence[int]: Specify the dimension of each axis\n            axis_names: Sequence[str]: Specify the names of each axis in\n                the tensor\n            &amp;quot;mp&amp;quot;): Define the maximum position embeddings\n            **kwargs: Pass a variable number of keyword arguments to a\n                function\n            rope_scaling: Dict[str, Union[str, float]]: rope scaling\n                information\n            attention_dropout: float: Set the dropout rate for the\n                attention layer\n            initialization_of_moe: bool: initialization of moe needs to\n                disable some dynamic part's this boolean variable will\n                turn them off.\n            attention_bias: bool: when ever to use attention_bias\n        :param : Define the number of layers in the model\n\n        Returns:\n            An instance of the class\n        \"\"\"\n        self.vocab_size = vocab_size\n        self.max_position_embeddings = max_position_embeddings\n        self.hidden_size = hidden_size\n        self.intermediate_size = intermediate_size\n        self.num_hidden_layers = num_hidden_layers\n        self.num_attention_heads = num_attention_heads\n        self.sliding_window = sliding_window\n        self.bits = bits\n        self.attention_dropout = attention_dropout\n        self.num_local_experts = num_local_experts\n        self.num_experts_per_tok = num_experts_per_tok\n        self.output_router_logits = output_router_logits\n        self.router_aux_loss_coef = router_aux_loss_coef\n        self.attention_bias = attention_bias\n        # for backward compatibility\n        self.rope_scaling = rope_scaling\n        if num_key_value_heads is None:\n            num_key_value_heads = num_attention_heads\n\n        self.num_key_value_heads = num_key_value_heads\n        self.hidden_act = hidden_act\n        self.initialization_of_moe = initialization_of_moe\n        self.initializer_range = initializer_range\n        self.rms_norm_eps = rms_norm_eps\n        self.use_cache = use_cache\n        self.rope_theta = rope_theta\n        self.number_rep_kv = number_rep_kv\n        self.gradient_checkpointing = gradient_checkpointing\n        self.use_scan_mlp = use_scan_mlp\n        self.scan_mlp_chunk_size = scan_mlp_chunk_size\n        self.router_jitter_noise = router_jitter_noise\n        super().__init__(\n            pad_token_id=pad_token_id,\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            tie_word_embeddings=tie_word_embeddings,\n            use_scan_mlp=use_scan_mlp,\n            scan_mlp_chunk_size=scan_mlp_chunk_size,\n            bits=bits,\n            **kwargs,\n        )\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n          1) A regex string that matches the name of one or more parameters in the model.\n          2) A PartitionScheme object that defines how those parameters should be partitioned.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to use\n                the fully_sharded_data_parallel partitioning scheme or\n                not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"sp\", \"fsdp\")),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"w2/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"w3/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec(\"fsdp\", \"sp\")),\n            (\".*\", PartitionSpec(None)),\n        ) if not fully_sharded_data_parallel else (\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"w2/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"w3/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n\n    def add_jax_args(\n            self,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            use_scan_mlp: bool = False,\n            scan_mlp_chunk_size: int = 1024,\n            number_rep_kv: int = 1,\n            bits: Optional[int] = None,\n            attention_dropout: float = 0.0,\n            rope_scaling: Dict[str, Union[str, float]] = None,\n            attention_bias: bool = False,\n            initialization_of_moe: bool = False,\n            **kwargs,\n    ):\n        \"\"\"The add_jax_args function adds the following arguments to the model:\n\n        Args:\n            self: Bind the attributes and methods of a class to an\n                instance of that class\n            gradient_checkpointing: str: Determine whether to use\n                gradient checkpointing\n            use_scan_mlp: bool: Determine whether to use the scan_mlp\n                function or not\n            scan_mlp_chunk_size: int: Chunk the input to the mlp\n            number_rep_kv: int: Control the number of times that the key\n                and value vectors are repeated\n            bits: Optional[int]: Specify the number of bits to use for\n                quantization\n            attention_dropout: float: Set the dropout rate for the\n                attention layer\n            attention_bias: bool: when ever to use attention_bias\n            initialization_of_moe: bool: initialization of moe needs to\n                disable some dynamic part's this boolean variable will\n                turn them off.\n            rope_scaling: Dict[str, Union[str, float]]: rope_scaling for\n                rope\n\n        Returns:\n            A tuple of the following:\n        \"\"\"\n        self.attention_dropout = attention_dropout\n        self.attention_bias = attention_bias\n        self.rope_scaling = rope_scaling\n        self.number_rep_kv = number_rep_kv\n        self.gradient_checkpointing = gradient_checkpointing\n        self.use_scan_mlp = use_scan_mlp\n        self.scan_mlp_chunk_size = scan_mlp_chunk_size\n        self.bits = bits\n        self.initialization_of_moe = initialization_of_moe\n\n    @staticmethod\n    def get_weight_decay_exclusions():\n        return tuple()\n\n    @staticmethod\n    def rng_keys():\n        return 'params', 'dropout', 'fcm'\n</code></pre>"},{"location":"generated-modules-mixtral-mixtral_configuration/#src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig.__init__","title":"<code>__init__(vocab_size=32000, hidden_size=4096, intermediate_size=14336, num_hidden_layers=32, num_attention_heads=32, num_key_value_heads=8, hidden_act='silu', max_position_embeddings=4096 * 32, initializer_range=0.02, rms_norm_eps=1e-05, use_cache=True, pad_token_id=None, bos_token_id=1, eos_token_id=2, tie_word_embeddings=False, rope_theta=1000000.0, sliding_window=4096, attention_dropout=0.0, num_experts_per_tok=2, num_local_experts=8, output_router_logits=False, router_aux_loss_coef=0.001, gradient_checkpointing='nothing_saveable', use_scan_mlp=False, scan_mlp_chunk_size=1024, number_rep_kv=1, bits=None, rope_scaling=None, attention_bias=False, initialization_of_moe=False, router_jitter_noise=0.0, **kwargs)</code>","text":"<p>The init function is called when the class is instantiated. It allows the class to initialize the attributes of a class. The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>vocab_size</code> <p>Define the size of the vocabulary</p> <code>32000</code> <code>hidden_size</code> <p>Determine the size of the embedding layers</p> <code>4096</code> <code>intermediate_size</code> <p>Define the size of the intermediate layer in each transformer block</p> <code>14336</code> <code>num_hidden_layers</code> <p>Determine the number of layers in the encoder and decoder</p> <code>32</code> <code>num_attention_heads</code> <p>Determine the number of attention heads in each layer</p> <code>32</code> <code>num_key_value_heads</code> <p>Specify the number of heads for key and value</p> <code>8</code> <code>hidden_act</code> <p>Specify the activation function used in the hidden layers</p> <code>'silu'</code> <code>max_position_embeddings</code> <p>Set the maximum length of the sequence</p> <code>4096 * 32</code> <code>initializer_range</code> <p>Initialize the weights of the model</p> <code>0.02</code> <code>rms_norm_eps</code> <p>Avoid division by zero in the rms normalization</p> <code>1e-05</code> <code>use_cache</code> <p>Determine whether to use the cache in the decoder</p> <code>True</code> <code>pad_token_id</code> <p>Specify the token id of the padding token</p> <code>None</code> <code>bos_token_id</code> <p>Specify the beginning of sentence token id</p> <code>1</code> <code>eos_token_id</code> <p>Specify the end of sentence token</p> <code>2</code> <code>tie_word_embeddings</code> <p>Tie the word embeddings and the output layer</p> <code>False</code> <code>rope_theta</code> <p>Control the number of tokens in a rope</p> <code>1000000.0</code> <code>sliding_window</code> <p>Control the number of tokens that are processed in parallel</p> <code>4096</code> <code>gradient_checkpointing</code> <code>str</code> <p>str: Specify whether to use gradient checkpointing</p> <code>'nothing_saveable'</code> <code>use_scan_mlp</code> <code>bool</code> <p>bool: Determine whether or not to use the scan_mlp function</p> <code>False</code> <code>scan_mlp_chunk_size</code> <code>int</code> <p>int: Specify the chunk size of the scan mlp</p> <code>1024</code> <code>number_rep_kv</code> <code>int</code> <p>int: Specify the number of times to repeat the key and value vectors</p> <code>1</code> <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Specify the number of bits used for quantization</p> <code>None</code> <code>axis_dims</code> <p>Sequence[int]: Specify the dimension of each axis</p> required <code>axis_names</code> <p>Sequence[str]: Specify the names of each axis in the tensor</p> required <code>&amp;quot;mp&amp;quot;)</code> <p>Define the maximum position embeddings</p> required <code>**kwargs</code> <p>Pass a variable number of keyword arguments to a function</p> <code>{}</code> <code>rope_scaling</code> <code>Dict[str, Union[str, float]]</code> <p>Dict[str, Union[str, float]]: rope scaling information</p> <code>None</code> <code>attention_dropout</code> <p>float: Set the dropout rate for the attention layer</p> <code>0.0</code> <code>initialization_of_moe</code> <code>bool</code> <p>bool: initialization of moe needs to disable some dynamic part's this boolean variable will turn them off.</p> <code>False</code> <code>attention_bias</code> <code>bool</code> <p>bool: when ever to use attention_bias</p> <code>False</code> <p>:param : Define the number of layers in the model</p> <p>Returns:</p> Type Description <p>An instance of the class</p> Source code in <code>src/python/easydel/modules/mixtral/mixtral_configuration.py</code> <pre><code>def __init__(\n        self,\n        vocab_size=32000,\n        hidden_size=4096,\n        intermediate_size=14336,\n        num_hidden_layers=32,\n        num_attention_heads=32,\n        num_key_value_heads=8,\n        hidden_act=\"silu\",\n        max_position_embeddings=4096 * 32,\n        initializer_range=0.02,\n        rms_norm_eps=1e-5,\n        use_cache=True,\n        pad_token_id=None,\n        bos_token_id=1,\n        eos_token_id=2,\n        tie_word_embeddings=False,\n        rope_theta=1e6,\n        sliding_window=4096,\n        attention_dropout=0.0,\n        num_experts_per_tok=2,\n        num_local_experts=8,\n        output_router_logits=False,\n        router_aux_loss_coef=0.001,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        use_scan_mlp: bool = False,\n        scan_mlp_chunk_size: int = 1024,\n        number_rep_kv: int = 1,\n        bits: Optional[int] = None,\n        rope_scaling: Dict[str, Union[str, float]] = None,\n        attention_bias: bool = False,\n        initialization_of_moe: bool = False,\n        router_jitter_noise=0.0,\n        **kwargs,\n):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It allows the class to initialize the attributes of a class.\n    The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.\n\n    Args:\n        self: Represent the instance of the class\n        vocab_size: Define the size of the vocabulary\n        hidden_size: Determine the size of the embedding layers\n        intermediate_size: Define the size of the intermediate layer\n            in each transformer block\n        num_hidden_layers: Determine the number of layers in the\n            encoder and decoder\n        num_attention_heads: Determine the number of attention heads\n            in each layer\n        num_key_value_heads: Specify the number of heads for key and\n            value\n        hidden_act: Specify the activation function used in the\n            hidden layers\n        max_position_embeddings: Set the maximum length of the\n            sequence\n        initializer_range: Initialize the weights of the model\n        rms_norm_eps: Avoid division by zero in the rms\n            normalization\n        use_cache: Determine whether to use the cache in the decoder\n        pad_token_id: Specify the token id of the padding token\n        bos_token_id: Specify the beginning of sentence token id\n        eos_token_id: Specify the end of sentence token\n        tie_word_embeddings: Tie the word embeddings and the output\n            layer\n        rope_theta: Control the number of tokens in a rope\n        sliding_window: Control the number of tokens that are\n            processed in parallel\n        gradient_checkpointing: str: Specify whether to use gradient\n            checkpointing\n        use_scan_mlp: bool: Determine whether or not to use the\n            scan_mlp function\n        scan_mlp_chunk_size: int: Specify the chunk size of the scan\n            mlp\n        number_rep_kv: int: Specify the number of times to repeat\n            the key and value vectors\n        bits: Optional[int]: Specify the number of bits used for\n            quantization\n        axis_dims: Sequence[int]: Specify the dimension of each axis\n        axis_names: Sequence[str]: Specify the names of each axis in\n            the tensor\n        &amp;quot;mp&amp;quot;): Define the maximum position embeddings\n        **kwargs: Pass a variable number of keyword arguments to a\n            function\n        rope_scaling: Dict[str, Union[str, float]]: rope scaling\n            information\n        attention_dropout: float: Set the dropout rate for the\n            attention layer\n        initialization_of_moe: bool: initialization of moe needs to\n            disable some dynamic part's this boolean variable will\n            turn them off.\n        attention_bias: bool: when ever to use attention_bias\n    :param : Define the number of layers in the model\n\n    Returns:\n        An instance of the class\n    \"\"\"\n    self.vocab_size = vocab_size\n    self.max_position_embeddings = max_position_embeddings\n    self.hidden_size = hidden_size\n    self.intermediate_size = intermediate_size\n    self.num_hidden_layers = num_hidden_layers\n    self.num_attention_heads = num_attention_heads\n    self.sliding_window = sliding_window\n    self.bits = bits\n    self.attention_dropout = attention_dropout\n    self.num_local_experts = num_local_experts\n    self.num_experts_per_tok = num_experts_per_tok\n    self.output_router_logits = output_router_logits\n    self.router_aux_loss_coef = router_aux_loss_coef\n    self.attention_bias = attention_bias\n    # for backward compatibility\n    self.rope_scaling = rope_scaling\n    if num_key_value_heads is None:\n        num_key_value_heads = num_attention_heads\n\n    self.num_key_value_heads = num_key_value_heads\n    self.hidden_act = hidden_act\n    self.initialization_of_moe = initialization_of_moe\n    self.initializer_range = initializer_range\n    self.rms_norm_eps = rms_norm_eps\n    self.use_cache = use_cache\n    self.rope_theta = rope_theta\n    self.number_rep_kv = number_rep_kv\n    self.gradient_checkpointing = gradient_checkpointing\n    self.use_scan_mlp = use_scan_mlp\n    self.scan_mlp_chunk_size = scan_mlp_chunk_size\n    self.router_jitter_noise = router_jitter_noise\n    super().__init__(\n        pad_token_id=pad_token_id,\n        bos_token_id=bos_token_id,\n        eos_token_id=eos_token_id,\n        tie_word_embeddings=tie_word_embeddings,\n        use_scan_mlp=use_scan_mlp,\n        scan_mlp_chunk_size=scan_mlp_chunk_size,\n        bits=bits,\n        **kwargs,\n    )\n</code></pre>"},{"location":"generated-modules-mixtral-mixtral_configuration/#src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig.add_jax_args","title":"<code>add_jax_args(gradient_checkpointing='nothing_saveable', use_scan_mlp=False, scan_mlp_chunk_size=1024, number_rep_kv=1, bits=None, attention_dropout=0.0, rope_scaling=None, attention_bias=False, initialization_of_moe=False, **kwargs)</code>","text":"<p>The add_jax_args function adds the following arguments to the model:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Bind the attributes and methods of a class to an instance of that class</p> required <code>gradient_checkpointing</code> <code>str</code> <p>str: Determine whether to use gradient checkpointing</p> <code>'nothing_saveable'</code> <code>use_scan_mlp</code> <code>bool</code> <p>bool: Determine whether to use the scan_mlp function or not</p> <code>False</code> <code>scan_mlp_chunk_size</code> <code>int</code> <p>int: Chunk the input to the mlp</p> <code>1024</code> <code>number_rep_kv</code> <code>int</code> <p>int: Control the number of times that the key and value vectors are repeated</p> <code>1</code> <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Specify the number of bits to use for quantization</p> <code>None</code> <code>attention_dropout</code> <code>float</code> <p>float: Set the dropout rate for the attention layer</p> <code>0.0</code> <code>attention_bias</code> <code>bool</code> <p>bool: when ever to use attention_bias</p> <code>False</code> <code>initialization_of_moe</code> <code>bool</code> <p>bool: initialization of moe needs to disable some dynamic part's this boolean variable will turn them off.</p> <code>False</code> <code>rope_scaling</code> <code>Dict[str, Union[str, float]]</code> <p>Dict[str, Union[str, float]]: rope_scaling for rope</p> <code>None</code> <p>Returns:</p> Type Description <p>A tuple of the following:</p> Source code in <code>src/python/easydel/modules/mixtral/mixtral_configuration.py</code> <pre><code>def add_jax_args(\n        self,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        use_scan_mlp: bool = False,\n        scan_mlp_chunk_size: int = 1024,\n        number_rep_kv: int = 1,\n        bits: Optional[int] = None,\n        attention_dropout: float = 0.0,\n        rope_scaling: Dict[str, Union[str, float]] = None,\n        attention_bias: bool = False,\n        initialization_of_moe: bool = False,\n        **kwargs,\n):\n    \"\"\"The add_jax_args function adds the following arguments to the model:\n\n    Args:\n        self: Bind the attributes and methods of a class to an\n            instance of that class\n        gradient_checkpointing: str: Determine whether to use\n            gradient checkpointing\n        use_scan_mlp: bool: Determine whether to use the scan_mlp\n            function or not\n        scan_mlp_chunk_size: int: Chunk the input to the mlp\n        number_rep_kv: int: Control the number of times that the key\n            and value vectors are repeated\n        bits: Optional[int]: Specify the number of bits to use for\n            quantization\n        attention_dropout: float: Set the dropout rate for the\n            attention layer\n        attention_bias: bool: when ever to use attention_bias\n        initialization_of_moe: bool: initialization of moe needs to\n            disable some dynamic part's this boolean variable will\n            turn them off.\n        rope_scaling: Dict[str, Union[str, float]]: rope_scaling for\n            rope\n\n    Returns:\n        A tuple of the following:\n    \"\"\"\n    self.attention_dropout = attention_dropout\n    self.attention_bias = attention_bias\n    self.rope_scaling = rope_scaling\n    self.number_rep_kv = number_rep_kv\n    self.gradient_checkpointing = gradient_checkpointing\n    self.use_scan_mlp = use_scan_mlp\n    self.scan_mlp_chunk_size = scan_mlp_chunk_size\n    self.bits = bits\n    self.initialization_of_moe = initialization_of_moe\n</code></pre>"},{"location":"generated-modules-mixtral-mixtral_configuration/#src.python.easydel.modules.mixtral.mixtral_configuration.MixtralConfig.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:   1) A regex string that matches the name of one or more parameters in the model.   2) A PartitionScheme object that defines how those parameters should be partitioned.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to use the fully_sharded_data_parallel partitioning scheme or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/mixtral/mixtral_configuration.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n      1) A regex string that matches the name of one or more parameters in the model.\n      2) A PartitionScheme object that defines how those parameters should be partitioned.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to use\n            the fully_sharded_data_parallel partitioning scheme or\n            not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec(\"sp\", \"fsdp\")),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n        (\"w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"w2/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"w3/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec(\"fsdp\", \"sp\")),\n        (\".*\", PartitionSpec(None)),\n    ) if not fully_sharded_data_parallel else (\n        (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n        (\"w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"w2/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"w3/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-mixtral-modelling_mixtral_flax/","title":"modules.mixtral.modelling_mixtral_flax","text":""},{"location":"generated-modules-mixtral-modelling_mixtral_flax/#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralAttention","title":"<code>FlaxMixtralAttention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code> <pre><code>class FlaxMixtralAttention(BaseJAXAttentionModule):\n    config: MixtralConfig\n    layer_index: int\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[Union[str, jax.lax.Precision]] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        config = self.config\n        self.hidden_size = config.hidden_size\n        self.num_heads = config.num_attention_heads\n        self.head_dim = self.hidden_size // self.num_heads\n        self.num_key_value_heads = config.num_key_value_heads\n        self.num_key_value_groups = self.num_heads // self.num_key_value_heads\n        self.max_position_embeddings = config.max_position_embeddings\n\n        dense = functools.partial(\n            Linear,\n            use_bias=getattr(self.config, \"attention_bias\", False),\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            kernel_init=nn.initializers.normal(),\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n        self.q_proj = dense(self.num_heads * self.head_dim)\n        self.k_proj = dense(self.num_key_value_heads * self.head_dim)\n        self.v_proj = dense(self.num_key_value_heads * self.head_dim)\n        self.o_proj = dense(self.hidden_size)\n        self.rotary = FlaxMixtralRotaryEmbedding(self.dtype)\n        self.attention_performer = AttentionModule(\n            use_sharding_constraint=self.config.use_sharding_constraint,\n            block_k_major=self.config.block_k_major,\n            block_b=self.config.block_b,\n            block_q=self.config.block_q,\n            block_k=self.config.block_k,\n            block_q_major_dkv=self.config.block_q_major_dkv,\n            block_k_major_dkv=self.config.block_k_major_dkv,\n            block_k_major_dq=self.config.block_k_major_dq,\n            block_k_dkv=self.config.block_k_dkv,\n            block_q_dkv=self.config.block_q_dkv,\n            block_q_dq=self.config.block_q_dq,\n            block_k_dq=self.config.block_k_dq,\n            num_attention_heads=self.config.num_attention_heads,\n            attention_dropout=self.config.attention_dropout,\n            head_dims=self.head_dim,\n            attention_partition_spec=self.config.attention_partition_spec,\n            shard_attention_computation=self.config.shard_attention_computation,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            bias_partition_spec=self.config.bias_partition_spec,\n            key_partition_spec=self.config.key_partition_spec,\n            query_partition_spec=self.config.query_partition_spec,\n            generation_query_partition_spec=self.config.generation_query_partition_spec,\n            generation_bias_partition_spec=self.config.generation_bias_partition_spec,\n            generation_attention_partition_spec=self.config.generation_attention_partition_spec,\n            value_partition_spec=self.config.value_partition_spec,\n            scan_ring_attention=self.config.scan_ring_attention,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name\n        )\n\n    @staticmethod\n    def _transpose_sequence_head(query, key, value):\n        return jnp.transpose(query, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value, (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n        query = query.reshape(batch_size, sequence_length,\n                              self.config.num_attention_heads, self.head_dim)\n        key = key.reshape(batch_size, sequence_length,\n                          self.config.num_key_value_heads, self.head_dim)\n        value = value.reshape(batch_size, sequence_length,\n                              self.config.num_key_value_heads, self.head_dim)\n\n        query, key, value = self._transpose_sequence_head(query, key, value)\n        query, key = self.rotary(\n            position_ids=position_ids, query=query, key=key, freq_cis=freq_cis)\n        key = repeat_kv_bnsh(key, self.num_key_value_groups)\n        value = repeat_kv_bnsh(value, self.num_key_value_groups)\n        return self._transpose_sequence_head(query, key, value)\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.hidden_size,))\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            causal_mask: chex.Array,\n            position_ids: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = True\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It defines how the module behaves when called as a function, and it's what you'll use to call your model in practice.\n        The __call__ method takes an input tensor (x) and returns an output tensor (y).\n        In this case, we're defining our model to be a simple linear layer with no activation: y = x @ w + b.\n\n        Args:\n            self: Refer to the object itself\n            hidden_states: chex.Array: Pass in the hidden state of the\n                model\n            freq_cis: Tuple[chex.Array, chex.Array],: Create the\n                apply_rotary variable\n            attention_mask: chex.Array: Mask the attention weights\n            causal_mask: chex.Array: Mask the attention weights\n            position_ids: chex.Array: Specify the position of each token\n                in a sequence\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attention weights\n\n        Returns:\n            A tuple of (out, attn_output)\n        \"\"\"\n        batch_size, sequence_length = hidden_states.shape[:2]\n        query_states, key_states, value_states = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(\n            hidden_states)\n\n        query_states = query_states.reshape(\n            batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n        key_states = key_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n        value_states = value_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query=query_states,\n            key=key_states,\n            value=value_states,\n            position_ids=position_ids,\n            freq_cis=freq_cis,\n            batch_size=batch_size,\n            sequence_length=sequence_length\n        )\n\n        assert_msg = (\n            \"num_attention_heads repeat wont work likely\\n\"\n            f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n            f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n        )\n\n        assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                     query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        attention_mask = jnp.broadcast_to(jnp.expand_dims(\n            attention_mask, axis=(-3, -2)), causal_mask.shape)\n        attention_mask = combine_masks(attention_mask, causal_mask)\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n        dropout_rng = None\n\n        if not deterministic and self.config.attention_dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n        # if self.config.use_sharding_constraint:\n        #     query_states = with_sharding_constraint(\n        #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n        #     )\n        #     key_states = with_sharding_constraint(\n        #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        #     value_states = with_sharding_constraint(\n        #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        attention_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=attention_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        attn_output = self.o_proj(attn_output)\n        outputs = (\n            attn_output, attentions.attention_weights\n        )\n        return outputs\n</code></pre>"},{"location":"generated-modules-mixtral-modelling_mixtral_flax/#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralAttention.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, causal_mask, position_ids, segment_ids=None, deterministic=True, init_cache=False, output_attentions=True)</code>","text":"<p>The call function is the main function of a JAX module. It defines how the module behaves when called as a function, and it's what you'll use to call your model in practice. The call method takes an input tensor (x) and returns an output tensor (y). In this case, we're defining our model to be a simple linear layer with no activation: y = x @ w + b.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass in the hidden state of the model</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Create the apply_rotary variable</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask the attention weights</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the attention weights</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in a sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights</p> <code>True</code> <p>Returns:</p> Type Description <p>A tuple of (out, attn_output)</p> Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        causal_mask: chex.Array,\n        position_ids: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = True\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It defines how the module behaves when called as a function, and it's what you'll use to call your model in practice.\n    The __call__ method takes an input tensor (x) and returns an output tensor (y).\n    In this case, we're defining our model to be a simple linear layer with no activation: y = x @ w + b.\n\n    Args:\n        self: Refer to the object itself\n        hidden_states: chex.Array: Pass in the hidden state of the\n            model\n        freq_cis: Tuple[chex.Array, chex.Array],: Create the\n            apply_rotary variable\n        attention_mask: chex.Array: Mask the attention weights\n        causal_mask: chex.Array: Mask the attention weights\n        position_ids: chex.Array: Specify the position of each token\n            in a sequence\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attention weights\n\n    Returns:\n        A tuple of (out, attn_output)\n    \"\"\"\n    batch_size, sequence_length = hidden_states.shape[:2]\n    query_states, key_states, value_states = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(\n        hidden_states)\n\n    query_states = query_states.reshape(\n        batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n    key_states = key_states.reshape(\n        batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n    value_states = value_states.reshape(\n        batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n    query_states, key_states, value_states = self.apply_rotary(\n        query=query_states,\n        key=key_states,\n        value=value_states,\n        position_ids=position_ids,\n        freq_cis=freq_cis,\n        batch_size=batch_size,\n        sequence_length=sequence_length\n    )\n\n    assert_msg = (\n        \"num_attention_heads repeat wont work likely\\n\"\n        f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n        f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n    )\n\n    assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    if self.has_variable(\"cache\", \"cached_key\"):\n        mask_shift = self.variables[\"cache\"][\"cache_index\"]\n        max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n        causal_mask = lax.dynamic_slice(\n            causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                 query_length, max_decoder_length)\n        )\n    else:\n        causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n    batch_size = hidden_states.shape[0]\n    causal_mask = jnp.broadcast_to(\n        causal_mask, (batch_size,) + causal_mask.shape[1:])\n    attention_mask = jnp.broadcast_to(jnp.expand_dims(\n        attention_mask, axis=(-3, -2)), causal_mask.shape)\n    attention_mask = combine_masks(attention_mask, causal_mask)\n    if attention_mask.ndim == 2:\n        attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n    dropout_rng = None\n\n    if not deterministic and self.config.attention_dropout &gt; 0.0:\n        dropout_rng = self.make_rng(\"dropout\")\n\n    if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n        key_states, value_states, attention_mask = self._concatenate_to_cache(\n            key_states,\n            value_states,\n            query_states,\n            attention_mask\n        )\n    # if self.config.use_sharding_constraint:\n    #     query_states = with_sharding_constraint(\n    #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n    #     )\n    #     key_states = with_sharding_constraint(\n    #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    #     value_states = with_sharding_constraint(\n    #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    attention_bias = lax.select(\n        attention_mask &gt; 0,\n        jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n        jnp.full(attention_mask.shape, jnp.finfo(\n            self.dtype).min).astype(self.dtype),\n    )\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    attentions = self.attention_performer.__call__(\n        query_states=query_states,\n        key_states=key_states,\n        value_states=value_states,\n        bias=attention_bias,\n        attention_mask=attention_mask,\n        causal=True,\n        dropout_rng=dropout_rng,\n        deterministic=deterministic,\n        query_sequence_length=query_length,\n        key_value_sequence_length=key_length,\n        uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n        segment_ids=segment_ids,\n        causal_mask=causal_mask\n    )\n\n    attn_output = self._merge_heads(attentions.attention_outputs)\n    if self.config.shard_attention_computation:\n        attn_output = with_sharding_constraint(\n            attn_output, PartitionSpec(\n                (\"dp\", \"fsdp\"),\n                \"sp\" if attn_output.shape[1] != 1 else None,\n                \"tp\"\n            )\n        )\n    attn_output = self.o_proj(attn_output)\n    outputs = (\n        attn_output, attentions.attention_weights\n    )\n    return outputs\n</code></pre>"},{"location":"generated-modules-mixtral-modelling_mixtral_flax/#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayer","title":"<code>FlaxMixtralDecoderLayer</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code> <pre><code>class FlaxMixtralDecoderLayer(nn.Module):\n    config: MixtralConfig\n    layer_index: int\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[Union[str, jax.lax.Precision]] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        # hidden_states: chex.Array\n        # freq_cis: Tuple[chex.Array, chex.Array],\n        # attention_mask: chex.Array\n        # causal_mask: chex.Array\n        # position_ids: chex.Array\n        # deterministic: bool = True\n        # init_cache: bool = False\n        # output_attentions: bool = True\n\n        attn_block = FlaxMixtralAttention\n        mlp_block = FlaxMixtralSparseMoeBlock\n        if self.config.gradient_checkpointing != \"\":\n            attn_block = re_mat(\n                attn_block,\n                policy=get_gradient_checkpoint_policy(self.config.gradient_checkpointing),\n                static_argnums=(\n                    1, 3, 4, 6, 7, 8, 9\n                )\n            )\n            mlp_block = re_mat(\n                mlp_block,\n                policy=get_gradient_checkpoint_policy(self.config.gradient_checkpointing),\n                static_argnums=(\n                    1,\n                )\n            )\n        self.self_attn = attn_block(\n            config=self.config,\n            layer_index=self.layer_index,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.block_sparse_moe = mlp_block(\n            config=self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.input_layernorm = MixtralRMSNorm(\n            dim=self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n        self.post_attention_layernorm = MixtralRMSNorm(\n            dim=self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            causal_mask: chex.Array,\n            position_ids: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = True,\n            output_router_logits: Optional[bool] = None,\n    ):\n        \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n        It takes in the following arguments:\n            hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.\n            freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num\n\n        Args:\n            self: Represent the instance of the class\n            hidden_states: chex.Array: Represent the input to the\n                encoder layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency\n                information to the attention layer\n            attention_mask: chex.Array: Mask out the attention weights\n                for certain positions\n            causal_mask: chex.Array: Mask the future tokens\n            position_ids: chex.Array: Indicate the position of each\n                token in the sequence\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache for the self-\n                attention layer\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n\n        Returns:\n            A tuple of hidden_states and attention_output\n        \"\"\"\n        residual = hidden_states\n        hidden_states = self.input_layernorm(hidden_states)\n\n        # hidden_states: chex.Array\n        # freq_cis: Tuple[chex.Array, chex.Array],\n        # attention_mask: chex.Array\n        # causal_mask: chex.Array\n        # position_ids: chex.Array\n        # segment_ids: Optional[chex.Array] = None\n        # deterministic: bool = True\n        # init_cache: bool = False\n        # output_attentions: bool = True\n\n        hidden_states, self_attn_weights = self.self_attn(\n            hidden_states,\n            freq_cis,\n            attention_mask,\n            causal_mask,\n            position_ids,\n            segment_ids,\n            deterministic,\n            init_cache,\n            output_attentions\n        )\n\n        hidden_states = residual + hidden_states\n\n        residual = hidden_states\n        hidden_states = self.post_attention_layernorm(hidden_states)\n        hidden_states, router_logits = self.block_sparse_moe(hidden_states)\n        hidden_states = residual + hidden_states\n\n        outputs = (hidden_states,)\n        if output_attentions:\n            outputs += (self_attn_weights,)\n        if output_router_logits:\n            outputs += (router_logits,)\n        return outputs\n</code></pre>"},{"location":"generated-modules-mixtral-modelling_mixtral_flax/#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayer.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, causal_mask, position_ids, segment_ids=None, deterministic=True, init_cache=False, output_attentions=True, output_router_logits=None)</code>","text":"<p>The call function is the main function of a TransformerEncoderLayer. It takes in the following arguments:     hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.     freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Represent the input to the encoder layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass the frequency information to the attention layer</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the attention weights for certain positions</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the future tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Indicate the position of each token in the sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the self- attention layer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A tuple of hidden_states and attention_output</p> Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        causal_mask: chex.Array,\n        position_ids: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = True,\n        output_router_logits: Optional[bool] = None,\n):\n    \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n    It takes in the following arguments:\n        hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.\n        freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num\n\n    Args:\n        self: Represent the instance of the class\n        hidden_states: chex.Array: Represent the input to the\n            encoder layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency\n            information to the attention layer\n        attention_mask: chex.Array: Mask out the attention weights\n            for certain positions\n        causal_mask: chex.Array: Mask the future tokens\n        position_ids: chex.Array: Indicate the position of each\n            token in the sequence\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache for the self-\n            attention layer\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n\n    Returns:\n        A tuple of hidden_states and attention_output\n    \"\"\"\n    residual = hidden_states\n    hidden_states = self.input_layernorm(hidden_states)\n\n    # hidden_states: chex.Array\n    # freq_cis: Tuple[chex.Array, chex.Array],\n    # attention_mask: chex.Array\n    # causal_mask: chex.Array\n    # position_ids: chex.Array\n    # segment_ids: Optional[chex.Array] = None\n    # deterministic: bool = True\n    # init_cache: bool = False\n    # output_attentions: bool = True\n\n    hidden_states, self_attn_weights = self.self_attn(\n        hidden_states,\n        freq_cis,\n        attention_mask,\n        causal_mask,\n        position_ids,\n        segment_ids,\n        deterministic,\n        init_cache,\n        output_attentions\n    )\n\n    hidden_states = residual + hidden_states\n\n    residual = hidden_states\n    hidden_states = self.post_attention_layernorm(hidden_states)\n    hidden_states, router_logits = self.block_sparse_moe(hidden_states)\n    hidden_states = residual + hidden_states\n\n    outputs = (hidden_states,)\n    if output_attentions:\n        outputs += (self_attn_weights,)\n    if output_router_logits:\n        outputs += (router_logits,)\n    return outputs\n</code></pre>"},{"location":"generated-modules-mixtral-modelling_mixtral_flax/#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayerCollection","title":"<code>FlaxMixtralDecoderLayerCollection</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code> <pre><code>class FlaxMixtralDecoderLayerCollection(nn.Module):\n    config: MixtralConfig\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        self.blocks = [\n            FlaxMixtralDecoderLayer(\n                layer_index=layer_index,\n                config=self.config,\n                dtype=self.dtype,\n                param_dtype=self.param_dtype,\n                precision=self.precision,\n                name=str(layer_index)\n            )\n\n            for layer_index in range(self.config.num_hidden_layers)\n        ]\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            causal_mask: chex.Array,\n            position_ids: chex.Array,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_hidden_states: Optional[bool] = False,\n            output_attentions: Optional[bool] = False,\n            output_router_logits: Optional[bool] = None,\n    ):\n        \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n        It takes in the following arguments:\n            hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.\n            freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num\n\n        Args:\n            self: Represent the instance of the class\n            hidden_states: chex.Array: Represent the input to the\n                encoder layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency\n                information to the attention layer\n            attention_mask: chex.Array: Mask out the attention weights\n                for certain positions\n            causal_mask: chex.Array: Mask the future tokens\n            position_ids: chex.Array: Indicate the position of each\n                token in the sequence\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache for the self-\n                attention layer\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n\n        Returns:\n            A tuple of hidden_states, attention_output,\n            all_hidden_states and all_router_logits\n        \"\"\"\n        all_hidden_states = () if output_hidden_states else None\n        all_self_attns = () if output_attentions else None\n        all_router_logits = () if output_router_logits else None\n\n        for block in self.blocks:\n            if output_hidden_states:\n                all_hidden_states += (hidden_states,)\n            layer_outputs = block(\n                hidden_states=hidden_states,\n                attention_mask=attention_mask,\n                position_ids=position_ids,\n                output_attentions=output_attentions,\n                output_router_logits=output_router_logits,\n                init_cache=init_cache,\n                freq_cis=freq_cis,\n                causal_mask=causal_mask,\n                deterministic=deterministic,\n            )\n\n            hidden_states = layer_outputs[0]\n\n            if output_attentions:\n                all_self_attns += (layer_outputs[1],)\n\n            if output_router_logits:\n                all_router_logits += (layer_outputs[-1],)\n\n        outputs = (hidden_states,)\n        if output_attentions:\n            outputs += (all_self_attns,)\n        if output_hidden_states:\n            outputs += (all_hidden_states,)\n        if output_router_logits:\n            outputs += (all_router_logits,)\n        return outputs\n</code></pre>"},{"location":"generated-modules-mixtral-modelling_mixtral_flax/#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralDecoderLayerCollection.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, causal_mask, position_ids, deterministic=True, init_cache=False, output_hidden_states=False, output_attentions=False, output_router_logits=None)</code>","text":"<p>The call function is the main function of a TransformerEncoderLayer. It takes in the following arguments:     hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.     freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Represent the input to the encoder layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass the frequency information to the attention layer</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the attention weights for certain positions</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the future tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Indicate the position of each token in the sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the self- attention layer</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of hidden_states, attention_output,</p> <p>all_hidden_states and all_router_logits</p> Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        causal_mask: chex.Array,\n        position_ids: chex.Array,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_hidden_states: Optional[bool] = False,\n        output_attentions: Optional[bool] = False,\n        output_router_logits: Optional[bool] = None,\n):\n    \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n    It takes in the following arguments:\n        hidden_states (chex.Array): The input to the encoder layer, which is also its output after being processed by all sublayers.\n        freq_cis (chex.Array): A tensor containing frequency-domain representations of each token's context vector, used for computing self-attention weights and biases in a more efficient manner than using position embeddings or sinusoidal positional encoding vectors would allow for [2]. This tensor has shape `(batch_size, num\n\n    Args:\n        self: Represent the instance of the class\n        hidden_states: chex.Array: Represent the input to the\n            encoder layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass the frequency\n            information to the attention layer\n        attention_mask: chex.Array: Mask out the attention weights\n            for certain positions\n        causal_mask: chex.Array: Mask the future tokens\n        position_ids: chex.Array: Indicate the position of each\n            token in the sequence\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache for the self-\n            attention layer\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n\n    Returns:\n        A tuple of hidden_states, attention_output,\n        all_hidden_states and all_router_logits\n    \"\"\"\n    all_hidden_states = () if output_hidden_states else None\n    all_self_attns = () if output_attentions else None\n    all_router_logits = () if output_router_logits else None\n\n    for block in self.blocks:\n        if output_hidden_states:\n            all_hidden_states += (hidden_states,)\n        layer_outputs = block(\n            hidden_states=hidden_states,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            output_attentions=output_attentions,\n            output_router_logits=output_router_logits,\n            init_cache=init_cache,\n            freq_cis=freq_cis,\n            causal_mask=causal_mask,\n            deterministic=deterministic,\n        )\n\n        hidden_states = layer_outputs[0]\n\n        if output_attentions:\n            all_self_attns += (layer_outputs[1],)\n\n        if output_router_logits:\n            all_router_logits += (layer_outputs[-1],)\n\n    outputs = (hidden_states,)\n    if output_attentions:\n        outputs += (all_self_attns,)\n    if output_hidden_states:\n        outputs += (all_hidden_states,)\n    if output_router_logits:\n        outputs += (all_router_logits,)\n    return outputs\n</code></pre>"},{"location":"generated-modules-mixtral-modelling_mixtral_flax/#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralForCausalLM","title":"<code>FlaxMixtralForCausalLM</code>","text":"<p>               Bases: <code>MixtralPreTrainedModel</code></p> Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code> <pre><code>class FlaxMixtralForCausalLM(MixtralPreTrainedModel):\n    module_class = FlaxMixtralForCausalLMModule\n\n    def set_input_embeddings(self, value):\n        self.module.model.embed_tokens = value\n\n    def get_input_embeddings(self):\n        return self.module.model.embed_tokens\n\n    def set_decoder(self, decoder):\n        self.module.model = decoder\n\n    def get_decoder(self):\n        return self.module.model\n\n    def get_output_embeddings(self):\n        return self.module.lm_head\n\n    def set_output_embeddings(self, new_embeddings):\n        self.module.lm_head = new_embeddings\n\n    def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n        \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n        Args:\n            self: Access variables that belong to the class\n            input_ids: Pass in the input tokens\n            max_length: Set the length of the sequence to be generated\n            attention_mask: Optional[chex.Array]: Mask the attention\n                weights\n\n        Returns:\n            A dictionary of the past_key_values, attention_mask and\n            position ids\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n\n        past_key_values = self.init_cache(batch_size, max_length)\n        extended_attention_mask = jnp.ones(\n            (batch_size, max_length), dtype=\"i4\")\n        if attention_mask is not None:\n            position_ids = attention_mask.cumsum(axis=-1) - 1\n            extended_attention_mask = lax.dynamic_update_slice(\n                extended_attention_mask, attention_mask, (0, 0))\n        else:\n            position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                            None, :], (batch_size, seq_length))\n\n        return {\n            \"past_key_values\": past_key_values,\n            \"attention_mask\": extended_attention_mask,\n            \"position_ids\": position_ids,\n        }\n\n    def update_inputs_for_generation(self, model_outputs, model_kwargs):\n        model_kwargs[\"past_key_values\"] = model_outputs.past_key_values\n        model_kwargs[\"position_ids\"] = model_kwargs[\"position_ids\"][:, -1:] + 1\n        return model_kwargs\n</code></pre>"},{"location":"generated-modules-mixtral-modelling_mixtral_flax/#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralForCausalLM.prepare_inputs_for_generation","title":"<code>prepare_inputs_for_generation(input_ids, max_length, attention_mask=None)</code>","text":"<p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>input_ids</code> <p>Pass in the input tokens</p> required <code>max_length</code> <p>Set the length of the sequence to be generated</p> required <code>attention_mask</code> <code>Optional[Array]</code> <p>Optional[chex.Array]: Mask the attention weights</p> <code>None</code> <p>Returns:</p> Type Description <p>A dictionary of the past_key_values, attention_mask and</p> <p>position ids</p> Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code> <pre><code>def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n    \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n    Args:\n        self: Access variables that belong to the class\n        input_ids: Pass in the input tokens\n        max_length: Set the length of the sequence to be generated\n        attention_mask: Optional[chex.Array]: Mask the attention\n            weights\n\n    Returns:\n        A dictionary of the past_key_values, attention_mask and\n        position ids\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n\n    past_key_values = self.init_cache(batch_size, max_length)\n    extended_attention_mask = jnp.ones(\n        (batch_size, max_length), dtype=\"i4\")\n    if attention_mask is not None:\n        position_ids = attention_mask.cumsum(axis=-1) - 1\n        extended_attention_mask = lax.dynamic_update_slice(\n            extended_attention_mask, attention_mask, (0, 0))\n    else:\n        position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                        None, :], (batch_size, seq_length))\n\n    return {\n        \"past_key_values\": past_key_values,\n        \"attention_mask\": extended_attention_mask,\n        \"position_ids\": position_ids,\n    }\n</code></pre>"},{"location":"generated-modules-mixtral-modelling_mixtral_flax/#src.python.easydel.modules.mixtral.modelling_mixtral_flax.FlaxMixtralSparseMoeBlock","title":"<code>FlaxMixtralSparseMoeBlock</code>","text":"<p>               Bases: <code>Module</code></p> <p>This implementation is strictly equivalent to standard MoE with full capacity (no dropped tokens). It's faster since it formulates MoE operations in terms of block-sparse operations to accomodate imbalanced assignments of tokens to experts, whereas standard MoE either (1) drop tokens at the cost of reduced performance or (2) set capacity factor to number of experts and thus waste computation and memory on padding.</p> Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code> <pre><code>class FlaxMixtralSparseMoeBlock(nn.Module):\n    \"\"\"This implementation is\n    strictly equivalent to standard MoE with full capacity (no\n    dropped tokens). It's faster since it formulates MoE operations\n    in terms of block-sparse operations to accomodate imbalanced\n    assignments of tokens to experts, whereas standard MoE either\n    (1) drop tokens at the cost of reduced performance or (2) set\n    capacity factor to number of experts and thus waste computation\n    and memory on padding.\n    \"\"\"\n    config: MixtralConfig\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[\n        Union[None, jax.lax.Precision]\n    ] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        self.gate = Linear(\n            self.config.num_local_experts,\n            use_bias=False,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            kernel_init=nn.initializers.normal(),\n        )\n\n        self.experts = FlaxMixtralBlocKSparesTop2MLPCollection(\n            config=self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            e: bool = False  # Ignored\n    ) -&gt; Tuple[chex.Array, chex.Array]:\n        batch_size, sequence_length, hidden_dim = hidden_states.shape\n\n        router_logits = self.gate(hidden_states).astype(  # no reshaping is needed\n            jnp.promote_types(self.dtype, jnp.float32)\n        )\n        routing_weights, selected_experts = jax.lax.top_k(\n            router_logits,\n            k=self.config.num_experts_per_tok\n        )\n        routing_weights = jax.nn.softmax(\n            routing_weights.astype(\n                jnp.promote_types(self.dtype, jnp.float32)\n            ), axis=-1\n        )\n\n        return self.experts(\n            selected_experts=selected_experts,\n            batch_size=batch_size,\n            sequence_length=sequence_length,\n            hidden_dim=hidden_dim,\n            hidden_states=hidden_states,\n            routing_weights=routing_weights\n        ), router_logits\n</code></pre>"},{"location":"generated-modules-mixtral-modelling_mixtral_flax/#src.python.easydel.modules.mixtral.modelling_mixtral_flax.MixtralPreTrainedModel","title":"<code>MixtralPreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code> <pre><code>class MixtralPreTrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class: MixtralConfig = MixtralConfig\n    module_class: nn.Module = None\n    base_model_prefix = \"model\"\n\n    # main_input_name = \"input_ids\"\n\n    def __init__(\n            self,\n            config: MixtralConfig,\n            dtype: jnp.dtype = jnp.bfloat16,\n            param_dtype: jnp.dtype = jnp.bfloat16,\n            precision: Optional[jax.lax.Precision] = jax.lax.Precision(\n                \"fastest\"),\n            input_shape: Tuple[int, int] = (1, 1),\n            seed: int = 0,\n            _do_init: bool = False,\n            **kwargs\n    ):\n        module = self.module_class(\n            config=config,\n            dtype=dtype,\n            param_dtype=param_dtype,\n            precision=precision,\n            **kwargs\n        )\n\n        super().__init__(\n            dtype=dtype, _do_init=_do_init,\n            module=module, config=config, input_shape=input_shape,\n            seed=seed,\n        )\n\n    def init_weights(\n            self,\n            rng: jax.random.PRNGKey,\n            input_shape: Tuple,\n            params: FrozenDict = None\n    ) -&gt; FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n        It takes in a rng, which is a random number generator key that can be used to generate random numbers.\n        The input_shape parameter specifies the shape of the inputs that will be fed into this model.\n        The params parameter allows you to pass in pre-trained weights for your model, if you have them available.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Initialize the input_ids, attention_mask\n                and position_ids\n            params: flax.core.FrozenDict: Pass in the parameters of a\n                pre-trained model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n\n        self.config.initialization_of_moe = True\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids, dtype=\"i4\")\n        position_ids = jnp.broadcast_to(\n            jnp.arange(jnp.atleast_2d(input_ids).shape[-1], dtype=\"i4\"),\n            input_shape,\n        )\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n        if self.config.add_cross_attention:\n            encoder_hidden_states = jnp.zeros(\n                input_shape + (self.config.hidden_size,))\n            encoder_attention_mask = attention_mask\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids,\n                attention_mask,\n                position_ids,\n                encoder_hidden_states,\n                encoder_attention_mask,\n                return_dict=False,\n            )\n        else:\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids=input_ids,\n                attention_mask=attention_mask,\n                position_ids=position_ids,\n                return_dict=False\n            )\n        random_params = module_init_outputs[\"params\"]\n\n        self.config.initialization_of_moe = False\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def init_cache(self, batch_size, max_length):\n\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: Optional[chex.Array] = None,\n            position_ids: Optional[chex.Array] = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            output_router_logits: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It takes as input:\n        - The parameters of the model (self.params)\n        - The inputs to the model (input_ids, attention_mask, position_ids)\n        - Whether we are training (train=True/False) and whether we want to return all hidden states and\n        attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: Pass the input sequence to the model\n            attention_mask: Mask out the padding tokens\n            position_ids: Specify the position of each token in the\n                sequence\n            params: dict: Pass in the parameters of the model\n            past_key_values: dict: Pass the past key values to the model\n            dropout_rng: jax.random.PRNGKey: Pass in a random number\n                generator key to the model\n            train: bool: Determine whether to use dropout or not\n            output_attentions: Optional[bool]: Determine whether to\n                return the attention weights\n            output_hidden_states: Optional[bool]: Determine whether to\n                return the hidden states of all layers\n            return_dict: Optional[bool]: Return a dictionary of the\n                outputs\n            add_params_field: bool: Add a params field to the inputs\n                dictionary\n\n        Returns:\n            A tuple of (last_hidden_state, past_key_values)\n        \"\"\"\n\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\n                    \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                            None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rng_s = {}\n        if dropout_rng is not None:\n            rng_s[\"dropout\"] = dropout_rng\n\n        inputs = {\n            \"params\": params or self.params} if add_params_field else params or self.params\n\n        if self.config.bits is not None:\n            rng_s['params'] = jax.random.key(0)\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),  # input_ids: chex.Array\n            # attention_mask: Optional[chex.Array] = None\n            jnp.array(attention_mask, dtype=\"i4\"),\n            # position_ids: Optional[chex.Array] = None\n            jnp.array(position_ids, dtype=\"i4\"),\n            None,  # inputs_embeds: Optional[chex.Array] = None\n            output_attentions,  # output_attentions: Optional[bool] = None\n            # output_hidden_states: Optional[bool] = None\n            output_hidden_states,\n            # output_router_logits: Optional[bool] = None\n            output_router_logits,\n            False,  # init_cache: bool = False\n            not train,  # deterministic: bool = True\n            return_dict,  # return_dict: bool = True\n            rngs=rng_s,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + \\\n                      (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-mixtral-modelling_mixtral_flax/#src.python.easydel.modules.mixtral.modelling_mixtral_flax.MixtralPreTrainedModel.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, params=None, past_key_values=None, dropout_rng=None, train=False, output_attentions=None, output_hidden_states=None, output_router_logits=None, return_dict=None, add_params_field=False, **kwargs)</code>","text":"<p>The call function is the main function of a JAX module. It takes as input: - The parameters of the model (self.params) - The inputs to the model (input_ids, attention_mask, position_ids) - Whether we are training (train=True/False) and whether we want to return all hidden states and attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Array</code> <p>Pass the input sequence to the model</p> required <code>attention_mask</code> <code>Optional[Array]</code> <p>Mask out the padding tokens</p> <code>None</code> <code>position_ids</code> <code>Optional[Array]</code> <p>Specify the position of each token in the sequence</p> <code>None</code> <code>params</code> <code>dict</code> <p>dict: Pass in the parameters of the model</p> <code>None</code> <code>past_key_values</code> <code>dict</code> <p>dict: Pass the past key values to the model</p> <code>None</code> <code>dropout_rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Pass in a random number generator key to the model</p> <code>None</code> <code>train</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the attention weights</p> <code>None</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the hidden states of all layers</p> <code>None</code> <code>return_dict</code> <code>Optional[bool]</code> <p>Optional[bool]: Return a dictionary of the outputs</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add a params field to the inputs dictionary</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of (last_hidden_state, past_key_values)</p> Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: Optional[chex.Array] = None,\n        position_ids: Optional[chex.Array] = None,\n        params: dict = None,\n        past_key_values: dict = None,\n        dropout_rng: jax.random.PRNGKey = None,\n        train: bool = False,\n        output_attentions: Optional[bool] = None,\n        output_hidden_states: Optional[bool] = None,\n        output_router_logits: Optional[bool] = None,\n        return_dict: Optional[bool] = None,\n        add_params_field: bool = False,\n        **kwargs\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It takes as input:\n    - The parameters of the model (self.params)\n    - The inputs to the model (input_ids, attention_mask, position_ids)\n    - Whether we are training (train=True/False) and whether we want to return all hidden states and\n    attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: Pass the input sequence to the model\n        attention_mask: Mask out the padding tokens\n        position_ids: Specify the position of each token in the\n            sequence\n        params: dict: Pass in the parameters of the model\n        past_key_values: dict: Pass the past key values to the model\n        dropout_rng: jax.random.PRNGKey: Pass in a random number\n            generator key to the model\n        train: bool: Determine whether to use dropout or not\n        output_attentions: Optional[bool]: Determine whether to\n            return the attention weights\n        output_hidden_states: Optional[bool]: Determine whether to\n            return the hidden states of all layers\n        return_dict: Optional[bool]: Return a dictionary of the\n            outputs\n        add_params_field: bool: Add a params field to the inputs\n            dictionary\n\n    Returns:\n        A tuple of (last_hidden_state, past_key_values)\n    \"\"\"\n\n    output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n    output_hidden_states = (\n        output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n    )\n    return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n    batch_size, sequence_length = input_ids.shape\n\n    if position_ids is None:\n        if past_key_values is not None:\n            raise ValueError(\n                \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n        position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                        None, :], (batch_size, sequence_length))\n\n    if attention_mask is None:\n        attention_mask = jnp.ones((batch_size, sequence_length))\n\n    rng_s = {}\n    if dropout_rng is not None:\n        rng_s[\"dropout\"] = dropout_rng\n\n    inputs = {\n        \"params\": params or self.params} if add_params_field else params or self.params\n\n    if self.config.bits is not None:\n        rng_s['params'] = jax.random.key(0)\n    if past_key_values:\n        inputs[\"cache\"] = past_key_values\n        mutable = [\"cache\"]\n    else:\n        mutable = False\n\n    outputs = self.module.apply(\n        inputs,\n        jnp.array(input_ids, dtype=\"i4\"),  # input_ids: chex.Array\n        # attention_mask: Optional[chex.Array] = None\n        jnp.array(attention_mask, dtype=\"i4\"),\n        # position_ids: Optional[chex.Array] = None\n        jnp.array(position_ids, dtype=\"i4\"),\n        None,  # inputs_embeds: Optional[chex.Array] = None\n        output_attentions,  # output_attentions: Optional[bool] = None\n        # output_hidden_states: Optional[bool] = None\n        output_hidden_states,\n        # output_router_logits: Optional[bool] = None\n        output_router_logits,\n        False,  # init_cache: bool = False\n        not train,  # deterministic: bool = True\n        return_dict,  # return_dict: bool = True\n        rngs=rng_s,\n        mutable=mutable,\n    )\n\n    if past_key_values is not None and return_dict:\n        outputs, past_key_values = outputs\n        outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n        return outputs\n    elif past_key_values is not None and not return_dict:\n        outputs, past_key_values = outputs\n        outputs = outputs[:1] + \\\n                  (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-mixtral-modelling_mixtral_flax/#src.python.easydel.modules.mixtral.modelling_mixtral_flax.MixtralPreTrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model. It takes in a rng, which is a random number generator key that can be used to generate random numbers. The input_shape parameter specifies the shape of the inputs that will be fed into this model. The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Initialize the input_ids, attention_mask and position_ids</p> required <code>params</code> <code>FrozenDict</code> <p>flax.core.FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/mixtral/modelling_mixtral_flax.py</code> <pre><code>def init_weights(\n        self,\n        rng: jax.random.PRNGKey,\n        input_shape: Tuple,\n        params: FrozenDict = None\n) -&gt; FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n    It takes in a rng, which is a random number generator key that can be used to generate random numbers.\n    The input_shape parameter specifies the shape of the inputs that will be fed into this model.\n    The params parameter allows you to pass in pre-trained weights for your model, if you have them available.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Initialize the input_ids, attention_mask\n            and position_ids\n        params: flax.core.FrozenDict: Pass in the parameters of a\n            pre-trained model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n\n    self.config.initialization_of_moe = True\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids, dtype=\"i4\")\n    position_ids = jnp.broadcast_to(\n        jnp.arange(jnp.atleast_2d(input_ids).shape[-1], dtype=\"i4\"),\n        input_shape,\n    )\n    params_rng, dropout_rng = jax.random.split(rng)\n    rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n    if self.config.add_cross_attention:\n        encoder_hidden_states = jnp.zeros(\n            input_shape + (self.config.hidden_size,))\n        encoder_attention_mask = attention_mask\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids,\n            attention_mask,\n            position_ids,\n            encoder_hidden_states,\n            encoder_attention_mask,\n            return_dict=False,\n        )\n    else:\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids=input_ids,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            return_dict=False\n        )\n    random_params = module_init_outputs[\"params\"]\n\n    self.config.initialization_of_moe = False\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-mosaic_mpt-modelling_mpt_flax/","title":"modules.mosaic_mpt.modelling_mpt_flax","text":""},{"location":"generated-modules-mosaic_mpt-modelling_mpt_flax/#src.python.easydel.modules.mosaic_mpt.modelling_mpt_flax.FlaxMptAttention","title":"<code>FlaxMptAttention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/mosaic_mpt/modelling_mpt_flax.py</code> <pre><code>class FlaxMptAttention(BaseJAXAttentionModule):\n    config: MptConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self) -&gt; None:\n\n        self.Wqkv = Linear(\n            self.config.hidden_size * 3,\n            kernel_init=jax.nn.initializers.normal(stddev=self.config.initializer_range),\n            use_bias=self.config.use_bias,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method),\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision)\n        self.out_proj = Linear(\n            self.config.hidden_size,\n            kernel_init=jax.nn.initializers.normal(stddev=self.config.initializer_range),\n            use_bias=self.config.use_bias,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.dropout = nn.Dropout(self.config.attn_config.attn_pdrop)\n\n        self.hidden_size = self.config.hidden_size\n        self.n_heads = self.config.n_heads\n        self.max_seq_length = self.config.max_seq_len\n        self.head_dim = self.hidden_size // self.n_heads\n        self.softmax_scale = self.config.attn_config.softmax_scale\n        if self.softmax_scale is None:\n            self.softmax_scale = 1 / math.sqrt(self.hidden_size / self.n_heads)\n\n        self.attention_performer = AttentionModule(\n            attention_dropout=self.config.attn_config.attn_pdrop,\n            num_attention_heads=self.config.num_attention_heads,\n            head_dims=self.head_dim,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name,\n            base_module_class=self.config\n        )\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            attention_mask: chex.Array,\n            position_bias: chex.Array,\n            causal_mask: chex.Array,\n            init_cache: bool = False,\n            deterministic: bool = False\n    ):\n\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It takes in inputs and returns outputs, just like any other Python function.\n        The difference is that __call__ can also take in state (e.g., parameters) from the module itself,\n        and it can update that state as part of its computation.\n\n        Args:\n            self: Access variables that belong to the class\n            hidden_states: chex.Array: Pass the input to the attention\n                layer\n            attention_mask: chex.Array: Mask out certain positions in\n                the sequence\n            position_bias: chex.Array: Add a bias to the attention\n                scores\n            causal_mask: chex.Array: Mask out certain positions in the\n                sequence\n            init_cache: bool: Initialize the cache\n            deterministic: bool: deterministic to activate dropouts and\n                detect training process\n\n        Returns:\n            The output of the attention layer\n        \"\"\"\n        inp_shape = hidden_states.shape\n        mixed_qkv = self.Wqkv(hidden_states)\n        query_states, key_states, value_states = jnp.split(mixed_qkv, 3, -1)\n\n        query_states = rearrange(query_states, \"b s (h d) -&gt; b s h d\", h=self.config.n_heads)\n        key_states = rearrange(key_states, \"b s (h d) -&gt; b s h d\", h=self.config.n_heads)\n        value_states = rearrange(value_states, \"b s (h d) -&gt; b s h d\", h=self.config.n_heads)\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask,\n                (0, 0, mask_shift, 0),\n                (1, 1, query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        attention_mask = jnp.broadcast_to(jnp.expand_dims(\n            attention_mask, axis=(-3, -2)), causal_mask.shape)\n        attention_mask = combine_masks(attention_mask, causal_mask)\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n        if position_bias is not None:\n            key_length = key_states.shape[1]\n\n            position_bias_query_index = max(0, position_bias.shape[2] - query_length)\n            position_bias_key_index = max(0, position_bias.shape[3] - key_length)\n\n            position_bias = position_bias[:, :, position_bias_query_index:, position_bias_key_index:]\n        attention_mask = attention_mask.repeat(position_bias.shape[1], 1)\n        attention_bias = lax.select(\n            attention_mask.astype(\"bool\"),\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype) + position_bias.astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n\n        attention = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            causal_mask=causal_mask,\n            attention_mask=attention_mask,\n            deterministic=deterministic,\n            segment_ids=None,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            bias=attention_bias,\n            causal=False,\n        )\n\n        attn_output = self.out_proj(attention.attention_outputs.reshape(inp_shape))\n\n        return attn_output, attention.attention_weights\n</code></pre>"},{"location":"generated-modules-mosaic_mpt-modelling_mpt_flax/#src.python.easydel.modules.mosaic_mpt.modelling_mpt_flax.FlaxMptAttention.__call__","title":"<code>__call__(hidden_states, attention_mask, position_bias, causal_mask, init_cache=False, deterministic=False)</code>","text":"<p>The call function is the main function of a JAX module. It takes in inputs and returns outputs, just like any other Python function. The difference is that call can also take in state (e.g., parameters) from the module itself, and it can update that state as part of its computation.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the input to the attention layer</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain positions in the sequence</p> required <code>position_bias</code> <code>Array</code> <p>chex.Array: Add a bias to the attention scores</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask out certain positions in the sequence</p> required <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>deterministic</code> <code>bool</code> <p>bool: deterministic to activate dropouts and detect training process</p> <code>False</code> <p>Returns:</p> Type Description <p>The output of the attention layer</p> Source code in <code>src/python/easydel/modules/mosaic_mpt/modelling_mpt_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        attention_mask: chex.Array,\n        position_bias: chex.Array,\n        causal_mask: chex.Array,\n        init_cache: bool = False,\n        deterministic: bool = False\n):\n\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It takes in inputs and returns outputs, just like any other Python function.\n    The difference is that __call__ can also take in state (e.g., parameters) from the module itself,\n    and it can update that state as part of its computation.\n\n    Args:\n        self: Access variables that belong to the class\n        hidden_states: chex.Array: Pass the input to the attention\n            layer\n        attention_mask: chex.Array: Mask out certain positions in\n            the sequence\n        position_bias: chex.Array: Add a bias to the attention\n            scores\n        causal_mask: chex.Array: Mask out certain positions in the\n            sequence\n        init_cache: bool: Initialize the cache\n        deterministic: bool: deterministic to activate dropouts and\n            detect training process\n\n    Returns:\n        The output of the attention layer\n    \"\"\"\n    inp_shape = hidden_states.shape\n    mixed_qkv = self.Wqkv(hidden_states)\n    query_states, key_states, value_states = jnp.split(mixed_qkv, 3, -1)\n\n    query_states = rearrange(query_states, \"b s (h d) -&gt; b s h d\", h=self.config.n_heads)\n    key_states = rearrange(key_states, \"b s (h d) -&gt; b s h d\", h=self.config.n_heads)\n    value_states = rearrange(value_states, \"b s (h d) -&gt; b s h d\", h=self.config.n_heads)\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    if self.has_variable(\"cache\", \"cached_key\"):\n        mask_shift = self.variables[\"cache\"][\"cache_index\"]\n        max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n        causal_mask = lax.dynamic_slice(\n            causal_mask,\n            (0, 0, mask_shift, 0),\n            (1, 1, query_length, max_decoder_length)\n        )\n    else:\n        causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n    batch_size = hidden_states.shape[0]\n    causal_mask = jnp.broadcast_to(\n        causal_mask, (batch_size,) + causal_mask.shape[1:])\n    attention_mask = jnp.broadcast_to(jnp.expand_dims(\n        attention_mask, axis=(-3, -2)), causal_mask.shape)\n    attention_mask = combine_masks(attention_mask, causal_mask)\n    if attention_mask.ndim == 2:\n        attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n    if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n        key_states, value_states, attention_mask = self._concatenate_to_cache(\n            key_states,\n            value_states,\n            query_states,\n            attention_mask\n        )\n    if position_bias is not None:\n        key_length = key_states.shape[1]\n\n        position_bias_query_index = max(0, position_bias.shape[2] - query_length)\n        position_bias_key_index = max(0, position_bias.shape[3] - key_length)\n\n        position_bias = position_bias[:, :, position_bias_query_index:, position_bias_key_index:]\n    attention_mask = attention_mask.repeat(position_bias.shape[1], 1)\n    attention_bias = lax.select(\n        attention_mask.astype(\"bool\"),\n        jnp.full(attention_mask.shape, 0.0).astype(self.dtype) + position_bias.astype(self.dtype),\n        jnp.full(attention_mask.shape, jnp.finfo(\n            self.dtype).min).astype(self.dtype),\n    )\n\n    attention = self.attention_performer.__call__(\n        query_states=query_states,\n        key_states=key_states,\n        value_states=value_states,\n        causal_mask=causal_mask,\n        attention_mask=attention_mask,\n        deterministic=deterministic,\n        segment_ids=None,\n        query_sequence_length=query_length,\n        key_value_sequence_length=key_length,\n        uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n        bias=attention_bias,\n        causal=False,\n    )\n\n    attn_output = self.out_proj(attention.attention_outputs.reshape(inp_shape))\n\n    return attn_output, attention.attention_weights\n</code></pre>"},{"location":"generated-modules-mosaic_mpt-mosaic_configuration/","title":"modules.mosaic_mpt.mosaic_configuration","text":""},{"location":"generated-modules-olmo-modelling_olmo_flax/","title":"modules.olmo.modelling_olmo_flax","text":""},{"location":"generated-modules-olmo-olmo_configuration/","title":"modules.olmo.olmo_configuration","text":""},{"location":"generated-modules-olmo-olmo_configuration/#src.python.easydel.modules.olmo.olmo_configuration.OLMoConfig","title":"<code>OLMoConfig</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> <p>OLMo (model) configuration.</p> Source code in <code>src/python/easydel/modules/olmo/olmo_configuration.py</code> <pre><code>class OLMoConfig(EasyDeLPretrainedConfig):\n    \"\"\"OLMo (model) configuration.\"\"\"\n\n    def __init__(\n            self,\n            d_model: int = 768,\n            n_heads: int = 12,\n            n_layers: int = 12,\n            mlp_ratio: int = 4,\n            mlp_hidden_size: Optional[int] = None,\n            activation_type: ActivationType = ActivationType.swiglu,\n            block_type: BlockType = BlockType.sequential,\n            block_group_size: int = 1,\n            alibi: bool = False,\n            alibi_bias_max: float = 8.0,\n            rope: bool = False,\n            rope_full_precision: bool = True,\n            flash_attention: bool = False,\n            attention_dropout: float = 0.1,\n            multi_query_attention: bool = False,\n            attention_layer_norm: bool = False,\n            residual_dropout: float = 0.1,\n            embedding_dropout: float = 0.1,\n            layer_norm_type: LayerNormType = LayerNormType.default,\n            layer_norm_with_affine: bool = True,\n            attention_layer_norm_with_affine: bool = True,\n            max_sequence_length: int = 1024,\n            include_bias: bool = True,\n            bias_for_layer_norm: Optional[bool] = None,\n            scale_logits: bool = False,\n            vocab_size: int = 50257,\n            embedding_size: Optional[int] = 50304,\n            weight_tying: bool = True,\n            eos_token_id: int = 50256,\n            pad_token_id: int = 50256,\n            init_std: float = 0.02,\n            init_cutoff_factor: Optional[float] = None,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            **kwargs\n    ):\n        _ = kwargs.pop(\"precision\", None)\n        _ = kwargs.pop(\"init_fn\", None)\n        _ = kwargs.pop(\"init_device\", None)\n        self.d_model = d_model\n        self.n_heads = n_heads\n        self.n_layers = n_layers\n        self.mlp_ratio = mlp_ratio\n        self.mlp_hidden_size = mlp_hidden_size\n        self.activation_type = activation_type\n        self.block_type = block_type\n        self.block_group_size = block_group_size\n        self.alibi = alibi\n        self.alibi_bias_max = alibi_bias_max\n        self.rope = rope\n        self.rope_full_precision = rope_full_precision\n        self.flash_attention = flash_attention\n        self.attention_dropout = attention_dropout\n        self.multi_query_attention = multi_query_attention\n        self.attention_layer_norm = attention_layer_norm\n        self.residual_dropout = residual_dropout\n        self.embedding_dropout = embedding_dropout\n        self.layer_norm_type = layer_norm_type\n        self.layer_norm_with_affine = layer_norm_with_affine\n        self.attention_layer_norm_with_affine = attention_layer_norm_with_affine\n        self.max_sequence_length = max_sequence_length\n        self.include_bias = include_bias\n        self.bias_for_layer_norm = bias_for_layer_norm\n        self.scale_logits = scale_logits\n        self.gradient_checkpointing = gradient_checkpointing\n        self.vocab_size = vocab_size\n        self.embedding_size = embedding_size\n        self.weight_tying = weight_tying\n        self.init_std = init_std\n        self.init_cutoff_factor = init_cutoff_factor\n        super().__init__(\n            pad_token_id=pad_token_id,\n            eos_token_id=eos_token_id,\n            **kwargs\n        )\n\n    def add_jax_args(\n            self,\n            gradient_checkpointing: str = \"nothing_saveable\"\n    ):\n        if not hasattr(self, \"gradient_checkpointing\"):\n            self.gradient_checkpointing = gradient_checkpointing\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n            1) A regex string that matches the name of one or more parameters in the model.\n            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to\n                partition the model fully or not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"mlp/down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec(None)),\n        ) if not fully_sharded_data_parallel else (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"self_attn/o_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n</code></pre>"},{"location":"generated-modules-olmo-olmo_configuration/#src.python.easydel.modules.olmo.olmo_configuration.OLMoConfig.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:     1) A regex string that matches the name of one or more parameters in the model.     2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to partition the model fully or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/olmo/olmo_configuration.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n        1) A regex string that matches the name of one or more parameters in the model.\n        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to\n            partition the model fully or not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"mlp/down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\".*\", PartitionSpec(None)),\n    ) if not fully_sharded_data_parallel else (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"self_attn/o_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-openelm-modelling_openelm_flax/","title":"modules.openelm.modelling_openelm_flax","text":""},{"location":"generated-modules-openelm-modelling_openelm_flax/#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMForCausalLMModule","title":"<code>FlaxOpenELMForCausalLMModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code> <pre><code>class FlaxOpenELMForCausalLMModule(nn.Module):\n    config: OpenELMConfig\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        self.transformer: FlaxOpenELMModule = FlaxOpenELMModule(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n        )\n\n        self.lm_head = nn.Linear(\n            self.config.vocab_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(stddev=self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            deterministic: bool = True,\n            inputs_embeds: chex.Array = None,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n    ):\n        \"\"\"The __call__ function is the main function of a Flax module. It defines how the model will be called,\n        and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask\n        as inputs (these are defined in __init__). We also have some optional arguments that can be passed to\n        the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),\n        output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,\n\n        Args:\n            self: Refer to the object itself\n            input_ids: chex.Array: Pass in the input tokens\n            attention_mask: chex.Array: Mask out the padding tokens\n            position_ids: chex.Array: Specify the position of each token\n                in the sequence\n            deterministic: bool: Determine whether to use dropout in the\n                model\n            inputs_embeds: chex.Array: Pass in the embeddings of the\n                input tokens\n            init_cache: bool: Initialize the cache for the decoder\n            output_attentions: bool: Return the attention weights\n            output_hidden_states: bool: Return the hidden states of all\n                layers\n            return_dict: bool: Return a dictionary of the outputs or\n                just the logits\n        :param : Determine whether to return the logits or not\n\n        Returns:\n            A tuple of (lm_logits, hidden_states, attentions)\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n\n        if attention_mask is None:\n            attention_mask = jnp.ones_like(input_ids)\n        if position_ids is None:\n            position_ids = jnp.broadcast_to(\n                jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n                (batch_size, seq_length)\n            )\n        outputs = self.transformer(\n            input_ids=input_ids,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            deterministic=deterministic,\n            inputs_embeds=inputs_embeds,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict\n        )\n\n        hidden_states = outputs[0]\n\n        if self.config.share_input_output_layers:\n            shared_kernel = self.transformer.variables[\"params\"][\"token_embeddings\"][\"embedding\"]\n            shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n            lm_logits = self.lm_head.apply(\n                {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n        else:\n            lm_logits = self.lm_head(hidden_states)\n\n        lm_logits = lm_logits[:, : self.config.vocab_size]\n        if not return_dict:\n            return (lm_logits,) + outputs[1:]\n\n        return FlaxCausalLMOutput(logits=lm_logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions)\n</code></pre>"},{"location":"generated-modules-openelm-modelling_openelm_flax/#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMForCausalLMModule.__call__","title":"<code>__call__(input_ids, attention_mask, position_ids, deterministic=True, inputs_embeds=None, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True)</code>","text":"<p>The call function is the main function of a Flax module. It defines how the model will be called, and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask as inputs (these are defined in init). We also have some optional arguments that can be passed to the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings), output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass in the input tokens</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the padding tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in the sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout in the model</p> <code>True</code> <code>inputs_embeds</code> <code>Array</code> <p>chex.Array: Pass in the embeddings of the input tokens</p> <code>None</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the decoder</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Return the hidden states of all layers</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs or just the logits</p> <code>True</code> <p>:param : Determine whether to return the logits or not</p> <p>Returns:</p> Type Description <p>A tuple of (lm_logits, hidden_states, attentions)</p> Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        deterministic: bool = True,\n        inputs_embeds: chex.Array = None,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n):\n    \"\"\"The __call__ function is the main function of a Flax module. It defines how the model will be called,\n    and what it returns. In this case, we are calling our Transformer model with input_ids and attention_mask\n    as inputs (these are defined in __init__). We also have some optional arguments that can be passed to\n    the call function: deterministic (whether to use dropout), inputs_embeds (if you want to pass your own embeddings),\n    output_attentions and output_hidden states which return additional outputs from the transformer layers if set True. Finally,\n\n    Args:\n        self: Refer to the object itself\n        input_ids: chex.Array: Pass in the input tokens\n        attention_mask: chex.Array: Mask out the padding tokens\n        position_ids: chex.Array: Specify the position of each token\n            in the sequence\n        deterministic: bool: Determine whether to use dropout in the\n            model\n        inputs_embeds: chex.Array: Pass in the embeddings of the\n            input tokens\n        init_cache: bool: Initialize the cache for the decoder\n        output_attentions: bool: Return the attention weights\n        output_hidden_states: bool: Return the hidden states of all\n            layers\n        return_dict: bool: Return a dictionary of the outputs or\n            just the logits\n    :param : Determine whether to return the logits or not\n\n    Returns:\n        A tuple of (lm_logits, hidden_states, attentions)\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n\n    if attention_mask is None:\n        attention_mask = jnp.ones_like(input_ids)\n    if position_ids is None:\n        position_ids = jnp.broadcast_to(\n            jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n            (batch_size, seq_length)\n        )\n    outputs = self.transformer(\n        input_ids=input_ids,\n        attention_mask=attention_mask,\n        position_ids=position_ids,\n        deterministic=deterministic,\n        inputs_embeds=inputs_embeds,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict\n    )\n\n    hidden_states = outputs[0]\n\n    if self.config.share_input_output_layers:\n        shared_kernel = self.transformer.variables[\"params\"][\"token_embeddings\"][\"embedding\"]\n        shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n        lm_logits = self.lm_head.apply(\n            {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n    else:\n        lm_logits = self.lm_head(hidden_states)\n\n    lm_logits = lm_logits[:, : self.config.vocab_size]\n    if not return_dict:\n        return (lm_logits,) + outputs[1:]\n\n    return FlaxCausalLMOutput(logits=lm_logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions)\n</code></pre>"},{"location":"generated-modules-openelm-modelling_openelm_flax/#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMModule","title":"<code>FlaxOpenELMModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code> <pre><code>class FlaxOpenELMModule(nn.Module):\n    config: OpenELMConfig\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[Union[str, jax.lax.Precision]] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        config = self.config\n        self.token_embeddings = nn.Embed(\n            config.vocab_size,\n            config.model_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n\n        self.layers = FlaxOpenELMDecoderLayerCollection(\n            config=self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.norm = OpenELMRMSNorm(\n            config.model_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n        if config.share_input_output_layers:\n            self.classifier = None\n        else:\n            self.classifier = nn.Linear(\n                config.vocab_size,\n                use_bias=False,\n                dtype=self.dtype,\n                param_dtype=self.param_dtype,\n                precision=self.precision,\n            )\n        self.num_transformer_layers = config.num_transformer_layers\n\n        initial_rope_kwargs = dict(\n            rope_type=\"none\"\n        )\n        if self.config.rope_scaling is not None:\n            scaling_type = self.config.rope_scaling[\"type\"]\n            scaling_factor = self.config.rope_scaling[\"factor\"]\n            initial_rope_kwargs = dict(\n                scaling_factor=scaling_factor,\n                rope_type=scaling_type\n            )\n        self.freq_cis = precompute_freq_cis(\n            max_position_embeddings=(\n                getattr(self.config, \"freq_max_position_embeddings\", self.config.rope_max_length)\n            ),\n            dim=self.config.head_dim,\n            base=self.config.rope_freq_constant,\n            **initial_rope_kwargs\n        )\n        self.causal_mask = flax.linen.make_causal_mask(\n            jnp.ones(\n                (1, getattr(self.config, \"c_max_position_embeddings\", self.config.max_context_length)),\n                dtype=\"bool\"\n            ), dtype=\"bool\"\n        )\n\n    def __call__(\n            self,\n            input_ids: Optional[chex.Array] = None,\n            attention_mask: Optional[chex.Array] = None,\n            position_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            inputs_embeds: chex.Array = None,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n    ) -&gt; typing.Union[Tuple[Array, ...], FlaxBaseModelOutput]:\n        \"\"\"The __call__ function is the main function of a Flax model.\n        It takes in input_ids, attention_mask, and position_ids as inputs to the model.\n        The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: chex.Array: Pass in the input ids\n            attention_mask: chex.Array: Mask out the attention weights\n                for certain tokens\n            position_ids: chex.Array: Determine the position of each\n                token in a sequence\n            deterministic: bool: Determine whether to use dropout or not\n            inputs_embeds: chex.Array: Pass in the embedding of the\n                input_ids\n            init_cache: bool: Initialize the cache for the decoder\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n            output_hidden_states: bool: Return all hidden states or just\n                the last one\n            return_dict: bool: Return a dictionary of the outputs or not\n        :param : Determine whether the model is in training mode or not\n\n        Returns:\n            A tuple of the hidden states, all hidden states, and\n            attentions\n        \"\"\"\n        if inputs_embeds is None:\n            inputs_embeds = self.token_embeddings(input_ids.astype(\"i4\"))\n        if attention_mask.ndim == 2:\n            b, s = attention_mask.shape\n            attention_mask = attention_mask.reshape(b, 1, 1, s)\n\n        outputs = self.layers(\n            hidden_states=inputs_embeds,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            freq_cis=self.freq_cis,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            deterministic=deterministic,\n            causal_mask=self.causal_mask,\n            output_hidden_states=output_hidden_states,\n        )\n\n        hidden_states = outputs[0]\n        hidden_states = self.norm(hidden_states)\n\n        if output_hidden_states:\n            all_hidden_states = outputs[1] + (hidden_states,)\n            outputs = (hidden_states, all_hidden_states) + outputs[2:]\n        else:\n            outputs = (hidden_states,) + outputs[1:]\n\n        if not return_dict:\n            return tuple(value for value in outputs if value is not None)\n\n        return FlaxBaseModelOutput(\n            last_hidden_state=hidden_states,\n            hidden_states=outputs[1],\n            attentions=outputs[-1],\n        )\n</code></pre>"},{"location":"generated-modules-openelm-modelling_openelm_flax/#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMModule.__call__","title":"<code>__call__(input_ids=None, attention_mask=None, position_ids=None, deterministic=True, inputs_embeds=None, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True)</code>","text":"<p>The call function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids as inputs to the model. The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Optional[Array]</code> <p>chex.Array: Pass in the input ids</p> <code>None</code> <code>attention_mask</code> <code>Optional[Array]</code> <p>chex.Array: Mask out the attention weights for certain tokens</p> <code>None</code> <code>position_ids</code> <code>Optional[Array]</code> <p>chex.Array: Determine the position of each token in a sequence</p> <code>None</code> <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>inputs_embeds</code> <code>Array</code> <p>chex.Array: Pass in the embedding of the input_ids</p> <code>None</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the decoder</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Return all hidden states or just the last one</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs or not</p> <code>True</code> <p>:param : Determine whether the model is in training mode or not</p> <p>Returns:</p> Type Description <code>Union[Tuple[Array, ...], FlaxBaseModelOutput]</code> <p>A tuple of the hidden states, all hidden states, and</p> <code>Union[Tuple[Array, ...], FlaxBaseModelOutput]</code> <p>attentions</p> Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: Optional[chex.Array] = None,\n        attention_mask: Optional[chex.Array] = None,\n        position_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        inputs_embeds: chex.Array = None,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n) -&gt; typing.Union[Tuple[Array, ...], FlaxBaseModelOutput]:\n    \"\"\"The __call__ function is the main function of a Flax model.\n    It takes in input_ids, attention_mask, and position_ids as inputs to the model.\n    The output is a tuple containing: last hidden state (hidden states), all hidden states (if output_hidden_states=True), attentions (if output attentions=True).\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: chex.Array: Pass in the input ids\n        attention_mask: chex.Array: Mask out the attention weights\n            for certain tokens\n        position_ids: chex.Array: Determine the position of each\n            token in a sequence\n        deterministic: bool: Determine whether to use dropout or not\n        inputs_embeds: chex.Array: Pass in the embedding of the\n            input_ids\n        init_cache: bool: Initialize the cache for the decoder\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n        output_hidden_states: bool: Return all hidden states or just\n            the last one\n        return_dict: bool: Return a dictionary of the outputs or not\n    :param : Determine whether the model is in training mode or not\n\n    Returns:\n        A tuple of the hidden states, all hidden states, and\n        attentions\n    \"\"\"\n    if inputs_embeds is None:\n        inputs_embeds = self.token_embeddings(input_ids.astype(\"i4\"))\n    if attention_mask.ndim == 2:\n        b, s = attention_mask.shape\n        attention_mask = attention_mask.reshape(b, 1, 1, s)\n\n    outputs = self.layers(\n        hidden_states=inputs_embeds,\n        attention_mask=attention_mask,\n        position_ids=position_ids,\n        freq_cis=self.freq_cis,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        deterministic=deterministic,\n        causal_mask=self.causal_mask,\n        output_hidden_states=output_hidden_states,\n    )\n\n    hidden_states = outputs[0]\n    hidden_states = self.norm(hidden_states)\n\n    if output_hidden_states:\n        all_hidden_states = outputs[1] + (hidden_states,)\n        outputs = (hidden_states, all_hidden_states) + outputs[2:]\n    else:\n        outputs = (hidden_states,) + outputs[1:]\n\n    if not return_dict:\n        return tuple(value for value in outputs if value is not None)\n\n    return FlaxBaseModelOutput(\n        last_hidden_state=hidden_states,\n        hidden_states=outputs[1],\n        attentions=outputs[-1],\n    )\n</code></pre>"},{"location":"generated-modules-openelm-modelling_openelm_flax/#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMMultiHeadCausalAttention","title":"<code>FlaxOpenELMMultiHeadCausalAttention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code> <pre><code>class FlaxOpenELMMultiHeadCausalAttention(BaseJAXAttentionModule):\n    config: OpenELMConfig\n    layer_idx: int\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        config = self.config\n        layer_idx = self.layer_idx\n        head_dim = config.head_dim\n        q_heads = config.num_query_heads[layer_idx]\n        k_heads = config.num_kv_heads[layer_idx]\n        v_heads = config.num_kv_heads[layer_idx]\n\n        self.qkv_proj = nn.Linear(\n            (q_heads + k_heads + v_heads) * head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        if config.normalize_qk_projections:\n            self.q_norm = OpenELMRMSNorm(\n                dim=config.head_dim,\n                dtype=self.dtype,\n                param_dtype=self.param_dtype\n            )\n            self.k_norm = OpenELMRMSNorm(\n                dim=config.head_dim,\n                dtype=self.dtype,\n                param_dtype=self.param_dtype\n            )\n        else:\n            self.q_norm = None\n            self.k_norm = None\n\n        self.out_proj = nn.Linear(\n            config.model_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            precision=self.precision,\n            kernel_init=jax.nn.initializers.normal(self.config.initializer_range),\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.head_dim = head_dim\n        self.rotary = FlaxOpenELMRotaryEmbedding(self.dtype)\n        self.attention_performer = AttentionModule(\n            use_sharding_constraint=self.config.use_sharding_constraint,\n            block_k_major=self.config.block_k_major,\n            block_b=self.config.block_b,\n            block_q=self.config.block_q,\n            block_k=self.config.block_k,\n            block_q_major_dkv=self.config.block_q_major_dkv,\n            block_k_major_dkv=self.config.block_k_major_dkv,\n            block_k_major_dq=self.config.block_k_major_dq,\n            block_k_dkv=self.config.block_k_dkv,\n            block_q_dkv=self.config.block_q_dkv,\n            block_q_dq=self.config.block_q_dq,\n            block_k_dq=self.config.block_k_dq,\n            num_attention_heads=q_heads,\n            attention_dropout=0.0,\n            head_dims=head_dim,\n            attention_partition_spec=self.config.attention_partition_spec,\n            shard_attention_computation=self.config.shard_attention_computation,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            bias_partition_spec=self.config.bias_partition_spec,\n            key_partition_spec=self.config.key_partition_spec,\n            query_partition_spec=self.config.query_partition_spec,\n            generation_query_partition_spec=self.config.generation_query_partition_spec,\n            generation_bias_partition_spec=self.config.generation_bias_partition_spec,\n            generation_attention_partition_spec=self.config.generation_attention_partition_spec,\n            value_partition_spec=self.config.value_partition_spec,\n            scan_ring_attention=self.config.scan_ring_attention,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name,\n            backward_pass_impl=self.config.flash_attention_backward_pass_impl\n        )\n\n        self.head_dim = config.head_dim\n        self.num_q_heads = q_heads\n        self.num_k_heads = k_heads\n        self.num_v_heads = v_heads\n        self.transformer_dim = config.model_dim\n        self.num_groups = self.num_q_heads // self.num_k_heads\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.num_q_heads * self.head_dim,))\n\n    @staticmethod\n    def _transpose_sequence_head(query, key, value):\n        \"\"\"The _transpose_sequence_head function transposes the query, key and value matrices.\n\n        Args:\n            query: Get the attention weights for each of the heads\n            key: Determine the number of heads\n            value: Store the values of the input\n\n        Returns:\n            The transpose of the query, key and value matrices\n        \"\"\"\n        return jnp.transpose(query, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value, (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n        \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n        Args:\n            self: Access variables that belong to the class\n            batch_size: Reshape the query, key and value tensors\n            sequence_length: Reshape the query, key and value tensors\n            query: Calculate the attention weights\n            key: Calculate the attention\n            value: Compute the attention weights\n            freq_cis: Calculate the frequency of each word in the\n                vocabulary\n            position_ids: Identify the position of each token in the\n                sequence\n\n        Returns:\n            A tuple of 3 tensors: query, key and value\n        \"\"\"\n        query = query.reshape(\n            batch_size,\n            sequence_length,\n            self.num_q_heads,\n            self.head_dim\n        )\n        key = key.reshape(\n            batch_size,\n            sequence_length,\n            self.num_k_heads,\n            self.head_dim\n        )\n        value = value.reshape(\n            batch_size,\n            sequence_length,\n            self.num_v_heads,\n            self.head_dim\n        )\n\n        query, key, value = self._transpose_sequence_head(query, key, value)\n        query, key = self.rotary(position_ids=position_ids, query=query, key=key, freq_cis=freq_cis)\n        key = repeat_kv_bnsh(key, self.num_groups)\n        value = repeat_kv_bnsh(value, self.num_groups)\n        return self._transpose_sequence_head(query, key, value)\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            fcm_mask=None,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n        and it should return all outputs that are needed for training or inference.\n\n        Args:\n            self: Access variables that belong to the class\n            hidden_states: chex.Array: Pass the hidden states of the\n                previous layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency coefficients for each position\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Determine the position of each\n                token in a sequence\n            causal_mask: chex.Array: Mask out the future tokens in the\n                decoder\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n            fcm_mask: Mask out the attention weights between the input\n                and output tokens\n        :param : Determine if the attention is causal or not\n\n        Returns:\n            A tuple of two arrays\n        \"\"\"\n        batch_size, sequence_length = hidden_states.shape[:2]\n        output_attentions = False\n\n        # [B, S, d] --&gt; [B, S, (q_h + k_h + v_h) * h]\n        qkv = self.qkv_proj(hidden_states)\n        # [B, S, (q_h + k_h + v_h) * h] --&gt; [B, S, (q_h + k_h + v_h), h]\n        qkv = qkv.reshape(\n            batch_size,\n            sequence_length,\n            self.num_q_heads + self.num_k_heads + self.num_v_heads,\n            self.head_dim,\n        )\n        # [B, S, (q_h + k_h + v_h), h] --&gt; [B, (q_h + k_h + v_h), S, h]\n        qkv = qkv.transpose(0, 2, 1, 3)\n        # [B, (q_h + k_h + v_h), S, h] --&gt; [B, q_h, S h], [B, k_h, S, h], [B, v_h, S, h]\n        query_states = qkv[:, :self.num_q_heads, :, :]\n        key_states = qkv[:, self.num_q_heads:self.num_k_heads + self.num_q_heads, :, :]\n        value_states = qkv[:, self.num_k_heads + self.num_q_heads:, :, :]\n        if self.q_norm is not None:\n            query_states = self.q_norm(query_states)\n\n        if self.k_norm is not None:\n            key_states = self.k_norm(key_states)\n\n        query_states, key_states, value_states = map(\n            lambda x: x.transpose(0, 2, 1, 3),\n            [query_states, key_states, value_states]\n        )\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query=query_states,\n            key=key_states,\n            value=value_states,\n            position_ids=position_ids,\n            freq_cis=freq_cis,\n            batch_size=batch_size,\n            sequence_length=sequence_length\n        )\n\n        assert_msg = (\n            \"num_attention_heads repeat wont work likely\\n\"\n            f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_groups}\\n\\t\"\n            f\"NH : {self.num_q_heads} KVH : {self.num_k_heads}\"\n        )\n\n        assert query_states.shape[-2] == self.num_q_heads, assert_msg\n        assert key_states.shape[-2] == self.num_q_heads, assert_msg\n        assert value_states.shape[-2] == self.num_q_heads, assert_msg\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                     query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n        attention_mask = jnp.broadcast_to(\n            attention_mask, causal_mask.shape\n        )\n        attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n\n        dropout_rng = None\n\n        if not deterministic and self.config.attention_dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n\n        attention_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=attention_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        attn_output = self.out_proj(attn_output)\n\n        outputs = (\n            attn_output, attentions.attention_weights\n        ) if output_attentions else (\n            attn_output, None\n        )\n        return outputs\n</code></pre>"},{"location":"generated-modules-openelm-modelling_openelm_flax/#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMMultiHeadCausalAttention.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, segment_ids=None, deterministic=True, init_cache=False, output_attentions=False, fcm_mask=None)</code>","text":"<p>The call function is the main function of a JAX module. It defines how the module behaves when called with inputs. The call function can be thought of as a \"forward pass\" through the model, and it should return all outputs that are needed for training or inference.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the hidden states of the previous layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency coefficients for each position</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask out the future tokens in the decoder</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <code>fcm_mask</code> <p>Mask out the attention weights between the input and output tokens</p> <code>None</code> <p>:param : Determine if the attention is causal or not</p> <p>Returns:</p> Type Description <p>A tuple of two arrays</p> Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        fcm_mask=None,\n):\n    \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n    and it should return all outputs that are needed for training or inference.\n\n    Args:\n        self: Access variables that belong to the class\n        hidden_states: chex.Array: Pass the hidden states of the\n            previous layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency coefficients for each position\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Determine the position of each\n            token in a sequence\n        causal_mask: chex.Array: Mask out the future tokens in the\n            decoder\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n        fcm_mask: Mask out the attention weights between the input\n            and output tokens\n    :param : Determine if the attention is causal or not\n\n    Returns:\n        A tuple of two arrays\n    \"\"\"\n    batch_size, sequence_length = hidden_states.shape[:2]\n    output_attentions = False\n\n    # [B, S, d] --&gt; [B, S, (q_h + k_h + v_h) * h]\n    qkv = self.qkv_proj(hidden_states)\n    # [B, S, (q_h + k_h + v_h) * h] --&gt; [B, S, (q_h + k_h + v_h), h]\n    qkv = qkv.reshape(\n        batch_size,\n        sequence_length,\n        self.num_q_heads + self.num_k_heads + self.num_v_heads,\n        self.head_dim,\n    )\n    # [B, S, (q_h + k_h + v_h), h] --&gt; [B, (q_h + k_h + v_h), S, h]\n    qkv = qkv.transpose(0, 2, 1, 3)\n    # [B, (q_h + k_h + v_h), S, h] --&gt; [B, q_h, S h], [B, k_h, S, h], [B, v_h, S, h]\n    query_states = qkv[:, :self.num_q_heads, :, :]\n    key_states = qkv[:, self.num_q_heads:self.num_k_heads + self.num_q_heads, :, :]\n    value_states = qkv[:, self.num_k_heads + self.num_q_heads:, :, :]\n    if self.q_norm is not None:\n        query_states = self.q_norm(query_states)\n\n    if self.k_norm is not None:\n        key_states = self.k_norm(key_states)\n\n    query_states, key_states, value_states = map(\n        lambda x: x.transpose(0, 2, 1, 3),\n        [query_states, key_states, value_states]\n    )\n\n    query_states, key_states, value_states = self.apply_rotary(\n        query=query_states,\n        key=key_states,\n        value=value_states,\n        position_ids=position_ids,\n        freq_cis=freq_cis,\n        batch_size=batch_size,\n        sequence_length=sequence_length\n    )\n\n    assert_msg = (\n        \"num_attention_heads repeat wont work likely\\n\"\n        f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_groups}\\n\\t\"\n        f\"NH : {self.num_q_heads} KVH : {self.num_k_heads}\"\n    )\n\n    assert query_states.shape[-2] == self.num_q_heads, assert_msg\n    assert key_states.shape[-2] == self.num_q_heads, assert_msg\n    assert value_states.shape[-2] == self.num_q_heads, assert_msg\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    if self.has_variable(\"cache\", \"cached_key\"):\n        mask_shift = self.variables[\"cache\"][\"cache_index\"]\n        max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n        causal_mask = lax.dynamic_slice(\n            causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                 query_length, max_decoder_length)\n        )\n    else:\n        causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n    batch_size = hidden_states.shape[0]\n    causal_mask = jnp.broadcast_to(\n        causal_mask, (batch_size,) + causal_mask.shape[1:])\n    if attention_mask.ndim == 2:\n        attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n    attention_mask = jnp.broadcast_to(\n        attention_mask, causal_mask.shape\n    )\n    attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n\n    dropout_rng = None\n\n    if not deterministic and self.config.attention_dropout &gt; 0.0:\n        dropout_rng = self.make_rng(\"dropout\")\n    if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n        key_states, value_states, attention_mask = self._concatenate_to_cache(\n            key_states,\n            value_states,\n            query_states,\n            attention_mask\n        )\n\n    attention_bias = lax.select(\n        attention_mask &gt; 0,\n        jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n        jnp.full(attention_mask.shape, jnp.finfo(\n            self.dtype).min).astype(self.dtype),\n    )\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    attentions = self.attention_performer.__call__(\n        query_states=query_states,\n        key_states=key_states,\n        value_states=value_states,\n        bias=attention_bias,\n        attention_mask=attention_mask,\n        causal=True,\n        dropout_rng=dropout_rng,\n        deterministic=deterministic,\n        query_sequence_length=query_length,\n        key_value_sequence_length=key_length,\n        uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n        segment_ids=segment_ids,\n        causal_mask=causal_mask\n    )\n\n    attn_output = self._merge_heads(attentions.attention_outputs)\n    if self.config.shard_attention_computation:\n        attn_output = with_sharding_constraint(\n            attn_output, PartitionSpec(\n                (\"dp\", \"fsdp\"),\n                \"sp\" if attn_output.shape[1] != 1 else None,\n                \"tp\"\n            )\n        )\n    attn_output = self.out_proj(attn_output)\n\n    outputs = (\n        attn_output, attentions.attention_weights\n    ) if output_attentions else (\n        attn_output, None\n    )\n    return outputs\n</code></pre>"},{"location":"generated-modules-openelm-modelling_openelm_flax/#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMMultiHeadCausalAttention.apply_rotary","title":"<code>apply_rotary(batch_size, sequence_length, query, key, value, freq_cis, position_ids)</code>","text":"<p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class. The main difference is that it takes in an additional argument, freq_cis, which are used to calculate the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>batch_size</code> <p>Reshape the query, key and value tensors</p> required <code>sequence_length</code> <p>Reshape the query, key and value tensors</p> required <code>query</code> <p>Calculate the attention weights</p> required <code>key</code> <p>Calculate the attention</p> required <code>value</code> <p>Compute the attention weights</p> required <code>freq_cis</code> <p>Calculate the frequency of each word in the vocabulary</p> required <code>position_ids</code> <p>Identify the position of each token in the sequence</p> required <p>Returns:</p> Type Description <p>A tuple of 3 tensors: query, key and value</p> Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code> <pre><code>def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n    \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n    Args:\n        self: Access variables that belong to the class\n        batch_size: Reshape the query, key and value tensors\n        sequence_length: Reshape the query, key and value tensors\n        query: Calculate the attention weights\n        key: Calculate the attention\n        value: Compute the attention weights\n        freq_cis: Calculate the frequency of each word in the\n            vocabulary\n        position_ids: Identify the position of each token in the\n            sequence\n\n    Returns:\n        A tuple of 3 tensors: query, key and value\n    \"\"\"\n    query = query.reshape(\n        batch_size,\n        sequence_length,\n        self.num_q_heads,\n        self.head_dim\n    )\n    key = key.reshape(\n        batch_size,\n        sequence_length,\n        self.num_k_heads,\n        self.head_dim\n    )\n    value = value.reshape(\n        batch_size,\n        sequence_length,\n        self.num_v_heads,\n        self.head_dim\n    )\n\n    query, key, value = self._transpose_sequence_head(query, key, value)\n    query, key = self.rotary(position_ids=position_ids, query=query, key=key, freq_cis=freq_cis)\n    key = repeat_kv_bnsh(key, self.num_groups)\n    value = repeat_kv_bnsh(value, self.num_groups)\n    return self._transpose_sequence_head(query, key, value)\n</code></pre>"},{"location":"generated-modules-openelm-modelling_openelm_flax/#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMPretrainedModel","title":"<code>FlaxOpenELMPretrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code> <pre><code>class FlaxOpenELMPretrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class = OpenELMConfig\n    base_model_prefix = \"openelm\"\n    module_class: nn.Module = None\n\n    def __init__(self,\n                 config: OpenELMConfig,\n                 input_shape: Tuple = (1, 1),\n                 seed: int = 0,\n                 dtype: jnp.dtype = jnp.bfloat16,\n                 param_dtype: jnp.dtype = jnp.bfloat16,\n                 _do_init: bool = True,\n                 **kwargs\n                 ):\n        super().__init__(\n            config,\n            self.module_class(\n                config=config,\n                dtype=dtype,\n                param_dtype=param_dtype,\n                **kwargs\n            ),\n            input_shape=input_shape,\n            seed=seed,\n            dtype=dtype,\n            _do_init=_do_init\n        )\n\n    def init_weights(\n            self,\n            rng: jax.random.PRNGKey,\n            input_shape: Tuple,\n            params: flax.core.FrozenDict = None\n    ) -&gt; flax.core.FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n        It takes in a rng, which is a random number generator key that can be used to generate random numbers.\n        The input_shape parameter specifies the shape of the inputs that will be fed into this model.\n        The params parameter allows you to pass in pre-trained weights for your model, if you have them available.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Initialize the input_ids, attention_mask\n                and position_ids\n            params: flax.core.FrozenDict: Pass in the parameters of a\n                pre-trained model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(\n            jnp.arange(jnp.atleast_2d(input_ids).shape[-1]),\n            input_shape\n        )\n        params_rng, dropout_rng = jax.random.split(rng)\n        rng_s = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n        if self.config.add_cross_attention:\n            encoder_hidden_states = jnp.zeros(\n                input_shape + (self.config.hidden_size,))\n            encoder_attention_mask = attention_mask\n            module_init_outputs = self.module.init(\n                rng_s,\n                input_ids,\n                attention_mask,\n                position_ids,\n                encoder_hidden_states,\n                encoder_attention_mask,\n                return_dict=False,\n            )\n        else:\n            module_init_outputs = self.module.init(\n                rng_s, input_ids, attention_mask, position_ids, return_dict=False\n            )\n\n        random_params = module_init_outputs[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def init_cache(self, batch_size, max_length):\n\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0),\n            input_ids,\n            attention_mask,\n            position_ids,\n            return_dict=False,\n            init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def __call__(\n            self,\n            input_ids,\n            attention_mask=None,\n            position_ids=None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It takes as input:\n        - The parameters of the model (self.params)\n        - The inputs to the model (input_ids, attention_mask, position_ids)\n        - Whether we are training (train=True/False) and whether we want to return all hidden states and\n        attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: Pass the input sequence to the model\n            attention_mask: Mask out the padding tokens\n            position_ids: Specify the position of each token in the\n                sequence\n            params: dict: Pass in the parameters of the model\n            past_key_values: dict: Pass the past key values to the model\n            dropout_rng: jax.random.PRNGKey: Pass in a random number\n                generator key to the model\n            train: bool: Determine whether to use dropout or not\n            output_attentions: Optional[bool]: Determine whether to\n                return the attention weights\n            output_hidden_states: Optional[bool]: Determine whether to\n                return the hidden states of all layers\n            return_dict: Optional[bool]: Return a dictionary of the\n                outputs\n            add_params_field: bool: Add a params field to the inputs\n                dictionary\n\n        Returns:\n            A tuple of (last_hidden_state, past_key_values)\n        \"\"\"\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n        batch_size, sequence_length = input_ids.shape\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\n                    \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                            None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rng_s = {}\n        if dropout_rng is not None:\n            rng_s[\"dropout\"] = dropout_rng\n\n        inputs = {\n            \"params\": params or self.params} if add_params_field else params or self.params\n\n        if self.config.bits is not None:\n            rng_s['params'] = jax.random.key(0)\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),\n            jnp.array(attention_mask, dtype=\"i4\"),\n            jnp.array(position_ids, dtype=\"i4\"),\n            not train,\n            None,\n            False,\n            output_attentions,\n            output_hidden_states,\n            return_dict,\n            rngs=rng_s,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-openelm-modelling_openelm_flax/#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMPretrainedModel.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, params=None, past_key_values=None, dropout_rng=None, train=False, output_attentions=None, output_hidden_states=None, return_dict=None, add_params_field=False, **kwargs)</code>","text":"<p>The call function is the main function of a JAX module. It takes as input: - The parameters of the model (self.params) - The inputs to the model (input_ids, attention_mask, position_ids) - Whether we are training (train=True/False) and whether we want to return all hidden states and attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <p>Pass the input sequence to the model</p> required <code>attention_mask</code> <p>Mask out the padding tokens</p> <code>None</code> <code>position_ids</code> <p>Specify the position of each token in the sequence</p> <code>None</code> <code>params</code> <code>dict</code> <p>dict: Pass in the parameters of the model</p> <code>None</code> <code>past_key_values</code> <code>dict</code> <p>dict: Pass the past key values to the model</p> <code>None</code> <code>dropout_rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Pass in a random number generator key to the model</p> <code>None</code> <code>train</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the attention weights</p> <code>None</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the hidden states of all layers</p> <code>None</code> <code>return_dict</code> <code>Optional[bool]</code> <p>Optional[bool]: Return a dictionary of the outputs</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add a params field to the inputs dictionary</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of (last_hidden_state, past_key_values)</p> Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids,\n        attention_mask=None,\n        position_ids=None,\n        params: dict = None,\n        past_key_values: dict = None,\n        dropout_rng: jax.random.PRNGKey = None,\n        train: bool = False,\n        output_attentions: Optional[bool] = None,\n        output_hidden_states: Optional[bool] = None,\n        return_dict: Optional[bool] = None,\n        add_params_field: bool = False,\n        **kwargs\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It takes as input:\n    - The parameters of the model (self.params)\n    - The inputs to the model (input_ids, attention_mask, position_ids)\n    - Whether we are training (train=True/False) and whether we want to return all hidden states and\n    attentions weights at each layer in addition to just the last layer output (output_hidden_states=True/False).\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: Pass the input sequence to the model\n        attention_mask: Mask out the padding tokens\n        position_ids: Specify the position of each token in the\n            sequence\n        params: dict: Pass in the parameters of the model\n        past_key_values: dict: Pass the past key values to the model\n        dropout_rng: jax.random.PRNGKey: Pass in a random number\n            generator key to the model\n        train: bool: Determine whether to use dropout or not\n        output_attentions: Optional[bool]: Determine whether to\n            return the attention weights\n        output_hidden_states: Optional[bool]: Determine whether to\n            return the hidden states of all layers\n        return_dict: Optional[bool]: Return a dictionary of the\n            outputs\n        add_params_field: bool: Add a params field to the inputs\n            dictionary\n\n    Returns:\n        A tuple of (last_hidden_state, past_key_values)\n    \"\"\"\n    output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n    output_hidden_states = (\n        output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n    )\n    return_dict = return_dict if return_dict is not None else self.config.return_dict\n    batch_size, sequence_length = input_ids.shape\n\n    if position_ids is None:\n        if past_key_values is not None:\n            raise ValueError(\n                \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n        position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                        None, :], (batch_size, sequence_length))\n\n    if attention_mask is None:\n        attention_mask = jnp.ones((batch_size, sequence_length))\n\n    rng_s = {}\n    if dropout_rng is not None:\n        rng_s[\"dropout\"] = dropout_rng\n\n    inputs = {\n        \"params\": params or self.params} if add_params_field else params or self.params\n\n    if self.config.bits is not None:\n        rng_s['params'] = jax.random.key(0)\n    if past_key_values:\n        inputs[\"cache\"] = past_key_values\n        mutable = [\"cache\"]\n    else:\n        mutable = False\n\n    outputs = self.module.apply(\n        inputs,\n        jnp.array(input_ids, dtype=\"i4\"),\n        jnp.array(attention_mask, dtype=\"i4\"),\n        jnp.array(position_ids, dtype=\"i4\"),\n        not train,\n        None,\n        False,\n        output_attentions,\n        output_hidden_states,\n        return_dict,\n        rngs=rng_s,\n        mutable=mutable,\n    )\n\n    if past_key_values is not None and return_dict:\n        outputs, past_key_values = outputs\n        outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n        return outputs\n    elif past_key_values is not None and not return_dict:\n        outputs, past_key_values = outputs\n        outputs = outputs[:1] + (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-openelm-modelling_openelm_flax/#src.python.easydel.modules.openelm.modelling_openelm_flax.FlaxOpenELMPretrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model. It takes in a rng, which is a random number generator key that can be used to generate random numbers. The input_shape parameter specifies the shape of the inputs that will be fed into this model. The params parameter allows you to pass in pre-trained weights for your model, if you have them available.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Initialize the input_ids, attention_mask and position_ids</p> required <code>params</code> <code>FrozenDict</code> <p>flax.core.FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/openelm/modelling_openelm_flax.py</code> <pre><code>def init_weights(\n        self,\n        rng: jax.random.PRNGKey,\n        input_shape: Tuple,\n        params: flax.core.FrozenDict = None\n) -&gt; flax.core.FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n    It takes in a rng, which is a random number generator key that can be used to generate random numbers.\n    The input_shape parameter specifies the shape of the inputs that will be fed into this model.\n    The params parameter allows you to pass in pre-trained weights for your model, if you have them available.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Initialize the input_ids, attention_mask\n            and position_ids\n        params: flax.core.FrozenDict: Pass in the parameters of a\n            pre-trained model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids)\n    position_ids = jnp.broadcast_to(\n        jnp.arange(jnp.atleast_2d(input_ids).shape[-1]),\n        input_shape\n    )\n    params_rng, dropout_rng = jax.random.split(rng)\n    rng_s = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n    if self.config.add_cross_attention:\n        encoder_hidden_states = jnp.zeros(\n            input_shape + (self.config.hidden_size,))\n        encoder_attention_mask = attention_mask\n        module_init_outputs = self.module.init(\n            rng_s,\n            input_ids,\n            attention_mask,\n            position_ids,\n            encoder_hidden_states,\n            encoder_attention_mask,\n            return_dict=False,\n        )\n    else:\n        module_init_outputs = self.module.init(\n            rng_s, input_ids, attention_mask, position_ids, return_dict=False\n        )\n\n    random_params = module_init_outputs[\"params\"]\n\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-openelm-openelm_configuration/","title":"modules.openelm.openelm_configuration","text":""},{"location":"generated-modules-openelm-openelm_configuration/#src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig","title":"<code>OpenELMConfig</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> Source code in <code>src/python/easydel/modules/openelm/openelm_configuration.py</code> <pre><code>class OpenELMConfig(EasyDeLPretrainedConfig):\n    model_type: str = \"openelm\"\n\n    def __init__(\n            self,\n            vocab_size: int = 32000,\n            max_context_length: int = 2048,\n            num_transformer_layers: int = 12,\n            model_dim: int = 2048,\n            head_dim: int = 128,\n            qkv_multipliers: Union[Number, List[Number]] = 1.0,\n            num_query_heads: Union[int, None] = None,\n            num_gqa_groups: int = 1,\n            ffn_multipliers: Union[Number, List[Number]] = 4.0,\n            ffn_with_glu: bool = True,\n            ffn_dim_divisor: int = 256,\n            activation_fn_name: str = \"swish\",\n            normalization_layer_name: str = \"rms_norm\",\n            normalize_qk_projections: bool = False,\n            share_input_output_layers: bool = False,\n            rope_freq_constant: int = 10000,\n            rope_max_length: int = 4096,\n            initializer_range: float = 0.02,\n            use_cache: bool = True,\n            bos_token_id: int = 1,\n            eos_token_id: int = 2,\n            rope_scaling: Dict[str, Union[str, float]] = None,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            use_scan_mlp: bool = False,\n            scan_mlp_chunk_size: int = 1024,\n            bits: Optional[int] = None,\n            **kwargs,\n    ):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It allows the class to initialize the attributes of a class.\n        The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.\n\n        Args:\n            self: Represent the instance of the class\n            vocab_size: Define the size of the vocabulary\n            hidden_size: Determine the size of the embedding layers\n            intermediate_size: Define the size of the intermediate layer\n                in each transformer block\n            num_hidden_layers: Determine the number of layers in the\n                encoder and decoder\n            num_attention_heads: Determine the number of attention heads\n                in each layer\n            num_key_value_heads: Specify the number of heads for key and\n                value\n            hidden_act: Specify the activation function used in the\n                hidden layers\n            max_position_embeddings: Set the maximum length of the\n                sequence\n            initializer_range: Initialize the weights of the model\n            rms_norm_eps: Avoid division by zero in the rms\n                normalization\n            use_cache: Determine whether to use the cache in the decoder\n            pad_token_id: Specify the token id of the padding token\n            bos_token_id: Specify the beginning of sentence token id\n            eos_token_id: Specify the end of sentence token\n            tie_word_embeddings: Tie the word embeddings and the output\n                layer\n            rope_theta: Control the number of tokens in a rope\n            sliding_window: Control the number of tokens that are\n                processed in parallel\n            gradient_checkpointing: str: Specify whether to use gradient\n                checkpointing\n            use_scan_mlp: bool: Determine whether or not to use the\n                scan_mlp function\n            scan_mlp_chunk_size: int: Specify the chunk size of the scan\n                mlp\n            number_rep_kv: int: Specify the number of times to repeat\n                the key and value vectors\n            attention_dropout: float: Set the dropout rate for the\n                attention layer\n            bits: Optional[int]: Specify the number of bits used for\n                quantization\n            axis_dims: Sequence[int]: Specify the dimension of each axis\n            axis_names: Sequence[str]: Specify the names of each axis in\n                the tensor\n            &amp;quot;mp&amp;quot;): Define the maximum position embeddings\n            attention_bias: bool: when ever to use attention_bias\n            **kwargs: Pass a variable number of keyword arguments to a\n                function\n        :param : Define the number of layers in the model\n\n        Returns:\n            An instance of the class\n        \"\"\"\n        self.vocab_size = vocab_size\n        self.max_context_length = max_context_length\n        self.num_transformer_layers = num_transformer_layers\n        self.model_dim = model_dim\n        self.head_dim = head_dim\n        self.qkv_multipliers = qkv_multipliers\n        self.num_query_heads = num_query_heads\n        self.num_gqa_groups = num_gqa_groups\n        self.ffn_multipliers = ffn_multipliers\n        self.ffn_with_glu = ffn_with_glu\n        self.ffn_dim_divisor = ffn_dim_divisor\n        self.activation_fn_name = activation_fn_name\n        self.normalization_layer_name = normalization_layer_name\n        self.normalize_qk_projections = normalize_qk_projections\n        self.share_input_output_layers = share_input_output_layers\n        self.rope_freq_constant = rope_freq_constant\n        self.rope_max_length = rope_max_length\n        self.num_query_heads = (\n            compute_heads(model_dim=model_dim, head_dim=head_dim)\n            if num_query_heads is None\n            else num_query_heads\n        )\n        self.initializer_range = initializer_range\n        self.bits = bits\n        self.initializer_range = initializer_range\n        self.use_cache = use_cache\n        self.rope_scaling = rope_scaling\n        self.gradient_checkpointing = gradient_checkpointing\n        self.use_scan_mlp = use_scan_mlp\n        self.scan_mlp_chunk_size = scan_mlp_chunk_size\n\n        super().__init__(\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            use_scan_mlp=use_scan_mlp,\n            scan_mlp_chunk_size=scan_mlp_chunk_size,\n            bits=bits,\n            **kwargs,\n        )\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n          1) A regex string that matches the name of one or more parameters in the model.\n          2) A PartitionScheme object that defines how those parameters should be partitioned.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to use\n                the fully_sharded_data_parallel partitioning scheme or\n                not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        ) if not fully_sharded_data_parallel else (\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n\n    def add_jax_args(\n            self,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            use_scan_mlp: bool = False,\n            scan_mlp_chunk_size: int = 1024,\n            bits: Optional[int] = None,\n            rope_scaling: Dict[str, Union[str, float]] = None,\n            **kwargs,\n    ):\n        \"\"\"The add_jax_args function adds the following arguments to the model:\n\n        Args:\n            self: Bind the attributes and methods of a class to an\n                instance of that class\n            gradient_checkpointing: str: Determine whether to use\n                gradient checkpointing\n            use_scan_mlp: bool: Determine whether to use the scan_mlp\n                function or notn\n            scan_mlp_chunk_size: int: Chunk the input to the mlp\n            bits: Optional[int]: Specify the number of bits to use for\n                quantization\n            rope_scaling: Dict[str, Union[str, float]]: rope_scaling for\n                rope\n\n        Returns:\n            A tuple of the following:\n        \"\"\"\n\n        self.rope_scaling = rope_scaling\n        self.gradient_checkpointing = gradient_checkpointing\n        self.use_scan_mlp = use_scan_mlp\n        self.scan_mlp_chunk_size = scan_mlp_chunk_size\n        self.bits = bits\n\n    @staticmethod\n    def get_weight_decay_exclusions():\n        return tuple()\n\n    @staticmethod\n    def rng_keys():\n        return 'params', 'dropout', 'fcm'\n\n    def __post_init__(self) -&gt; None:\n        if self.num_gqa_groups is not None:\n            head_multiple_of = self.num_gqa_groups\n        else:\n            head_multiple_of = 2\n\n        if isinstance(self.qkv_multipliers, Number):\n            # All attention layers have the same latent dimensions, resulting in uniform allocation of parameters.\n            qkv_dim = make_divisible(\n                self.model_dim * self.qkv_multipliers,  # type:ignore\n                divisor=self.head_dim * head_multiple_of,\n            )\n            query_dims = [int(qkv_dim)] * self.num_transformer_layers\n\n        elif (\n                isinstance(self.qkv_multipliers, (tuple, list))\n                and len(self.qkv_multipliers) == 2\n        ):\n            # Each attention layer have different latent dimensions assuming qkv_multipliers[0] != qkv_multipliers[1].\n            # This results in variable allocation of parameters in attention layer.\n            # This scaling is known as layer-wise or block-wise scaling: https://arxiv.org/abs/2008.00623\n            qkv_multipliers = [\n                round(v, 2)\n                for v in jnp.linspace(\n                    self.qkv_multipliers[0],\n                    self.qkv_multipliers[1],\n                    num=self.num_transformer_layers,\n                    dtype=float,\n                )\n            ]\n            # Make sure that scaled model dimension is divisible by scaled head dimension.\n            query_dims = [\n                int(\n                    make_divisible(\n                        self.model_dim * m, divisor=self.head_dim * head_multiple_of\n                    )\n                )\n                for m in qkv_multipliers\n            ]\n        else:\n            raise NotImplementedError(\n                f\"QKV multipliers should be a single number or a list containing exactly two numbers. Got: {qkv_multipliers}.\"\n            )\n\n        # compute the number of query, key, and value heads\n        # For multi-head and multi-query attention, the number of heads for query, key, and value are the same.\n        # For group query attention, the number of key and value heads are the same.\n        self.num_query_heads = [\n            int(compute_heads(q_dim, self.head_dim)) for q_dim in query_dims\n        ]\n        self.num_kv_heads = [\n            q_heads // self.num_gqa_groups for q_heads in self.num_query_heads\n        ]\n\n        # Feed-forward network (FFN) multipliers\n        if isinstance(self.ffn_multipliers, Number):\n            # All FFN layers have the same latent dimensions, resulting in uniform allocation of parameters.\n            self.ffn_multipliers = [self.ffn_multipliers] * self.num_transformer_layers\n        elif isinstance(self.ffn_multipliers, (tuple, list)):\n            # Each FFN layer have different latent dimensions assuming ffn_multipliers[0] != ffn_multipliers[1].\n            # This results in variable allocation of parameters in FFN layer.\n            # This scaling is known as layer-wise or block-wise scaling: https://arxiv.org/abs/2008.00623\n            if len(self.ffn_multipliers) == 2:\n                self.ffn_multipliers = [\n                    round(v, 2)\n                    for v in jnp.linspace(\n                        self.ffn_multipliers[0],\n                        self.ffn_multipliers[1],\n                        num=self.num_transformer_layers,\n                        dtype=float,\n                    )\n                ]\n            else:\n                assert (\n                        len(self.ffn_multipliers) == self.num_transformer_layers\n                ), f\"{len(self.ffn_multipliers)=}!={self.num_transformer_layers=}\"\n        else:\n            raise NotImplementedError(\n                f\"FFN multipliers should be a single number or a list containing exactly two numbers. Got: {qkv_multipliers}.\"\n            )\n\n        # check num_query_heads divisible by num_kv_heads for every layer\n        for layer_idx in range(len(query_dims)):\n            assert self.num_query_heads[layer_idx] % self.num_kv_heads[layer_idx] == 0\n</code></pre>"},{"location":"generated-modules-openelm-openelm_configuration/#src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig.__init__","title":"<code>__init__(vocab_size=32000, max_context_length=2048, num_transformer_layers=12, model_dim=2048, head_dim=128, qkv_multipliers=1.0, num_query_heads=None, num_gqa_groups=1, ffn_multipliers=4.0, ffn_with_glu=True, ffn_dim_divisor=256, activation_fn_name='swish', normalization_layer_name='rms_norm', normalize_qk_projections=False, share_input_output_layers=False, rope_freq_constant=10000, rope_max_length=4096, initializer_range=0.02, use_cache=True, bos_token_id=1, eos_token_id=2, rope_scaling=None, gradient_checkpointing='nothing_saveable', use_scan_mlp=False, scan_mlp_chunk_size=1024, bits=None, **kwargs)</code>","text":"<p>The init function is called when the class is instantiated. It allows the class to initialize the attributes of a class. The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>vocab_size</code> <code>int</code> <p>Define the size of the vocabulary</p> <code>32000</code> <code>hidden_size</code> <p>Determine the size of the embedding layers</p> required <code>intermediate_size</code> <p>Define the size of the intermediate layer in each transformer block</p> required <code>num_hidden_layers</code> <p>Determine the number of layers in the encoder and decoder</p> required <code>num_attention_heads</code> <p>Determine the number of attention heads in each layer</p> required <code>num_key_value_heads</code> <p>Specify the number of heads for key and value</p> required <code>hidden_act</code> <p>Specify the activation function used in the hidden layers</p> required <code>max_position_embeddings</code> <p>Set the maximum length of the sequence</p> required <code>initializer_range</code> <code>float</code> <p>Initialize the weights of the model</p> <code>0.02</code> <code>rms_norm_eps</code> <p>Avoid division by zero in the rms normalization</p> required <code>use_cache</code> <code>bool</code> <p>Determine whether to use the cache in the decoder</p> <code>True</code> <code>pad_token_id</code> <p>Specify the token id of the padding token</p> required <code>bos_token_id</code> <code>int</code> <p>Specify the beginning of sentence token id</p> <code>1</code> <code>eos_token_id</code> <code>int</code> <p>Specify the end of sentence token</p> <code>2</code> <code>tie_word_embeddings</code> <p>Tie the word embeddings and the output layer</p> required <code>rope_theta</code> <p>Control the number of tokens in a rope</p> required <code>sliding_window</code> <p>Control the number of tokens that are processed in parallel</p> required <code>gradient_checkpointing</code> <code>str</code> <p>str: Specify whether to use gradient checkpointing</p> <code>'nothing_saveable'</code> <code>use_scan_mlp</code> <code>bool</code> <p>bool: Determine whether or not to use the scan_mlp function</p> <code>False</code> <code>scan_mlp_chunk_size</code> <code>int</code> <p>int: Specify the chunk size of the scan mlp</p> <code>1024</code> <code>number_rep_kv</code> <p>int: Specify the number of times to repeat the key and value vectors</p> required <code>attention_dropout</code> <p>float: Set the dropout rate for the attention layer</p> required <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Specify the number of bits used for quantization</p> <code>None</code> <code>axis_dims</code> <p>Sequence[int]: Specify the dimension of each axis</p> required <code>axis_names</code> <p>Sequence[str]: Specify the names of each axis in the tensor</p> required <code>&amp;quot;mp&amp;quot;)</code> <p>Define the maximum position embeddings</p> required <code>attention_bias</code> <p>bool: when ever to use attention_bias</p> required <code>**kwargs</code> <p>Pass a variable number of keyword arguments to a function</p> <code>{}</code> <p>:param : Define the number of layers in the model</p> <p>Returns:</p> Type Description <p>An instance of the class</p> Source code in <code>src/python/easydel/modules/openelm/openelm_configuration.py</code> <pre><code>def __init__(\n        self,\n        vocab_size: int = 32000,\n        max_context_length: int = 2048,\n        num_transformer_layers: int = 12,\n        model_dim: int = 2048,\n        head_dim: int = 128,\n        qkv_multipliers: Union[Number, List[Number]] = 1.0,\n        num_query_heads: Union[int, None] = None,\n        num_gqa_groups: int = 1,\n        ffn_multipliers: Union[Number, List[Number]] = 4.0,\n        ffn_with_glu: bool = True,\n        ffn_dim_divisor: int = 256,\n        activation_fn_name: str = \"swish\",\n        normalization_layer_name: str = \"rms_norm\",\n        normalize_qk_projections: bool = False,\n        share_input_output_layers: bool = False,\n        rope_freq_constant: int = 10000,\n        rope_max_length: int = 4096,\n        initializer_range: float = 0.02,\n        use_cache: bool = True,\n        bos_token_id: int = 1,\n        eos_token_id: int = 2,\n        rope_scaling: Dict[str, Union[str, float]] = None,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        use_scan_mlp: bool = False,\n        scan_mlp_chunk_size: int = 1024,\n        bits: Optional[int] = None,\n        **kwargs,\n):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It allows the class to initialize the attributes of a class.\n    The self parameter is a reference to the current instance of the class, and is used to access variables that belong to the class.\n\n    Args:\n        self: Represent the instance of the class\n        vocab_size: Define the size of the vocabulary\n        hidden_size: Determine the size of the embedding layers\n        intermediate_size: Define the size of the intermediate layer\n            in each transformer block\n        num_hidden_layers: Determine the number of layers in the\n            encoder and decoder\n        num_attention_heads: Determine the number of attention heads\n            in each layer\n        num_key_value_heads: Specify the number of heads for key and\n            value\n        hidden_act: Specify the activation function used in the\n            hidden layers\n        max_position_embeddings: Set the maximum length of the\n            sequence\n        initializer_range: Initialize the weights of the model\n        rms_norm_eps: Avoid division by zero in the rms\n            normalization\n        use_cache: Determine whether to use the cache in the decoder\n        pad_token_id: Specify the token id of the padding token\n        bos_token_id: Specify the beginning of sentence token id\n        eos_token_id: Specify the end of sentence token\n        tie_word_embeddings: Tie the word embeddings and the output\n            layer\n        rope_theta: Control the number of tokens in a rope\n        sliding_window: Control the number of tokens that are\n            processed in parallel\n        gradient_checkpointing: str: Specify whether to use gradient\n            checkpointing\n        use_scan_mlp: bool: Determine whether or not to use the\n            scan_mlp function\n        scan_mlp_chunk_size: int: Specify the chunk size of the scan\n            mlp\n        number_rep_kv: int: Specify the number of times to repeat\n            the key and value vectors\n        attention_dropout: float: Set the dropout rate for the\n            attention layer\n        bits: Optional[int]: Specify the number of bits used for\n            quantization\n        axis_dims: Sequence[int]: Specify the dimension of each axis\n        axis_names: Sequence[str]: Specify the names of each axis in\n            the tensor\n        &amp;quot;mp&amp;quot;): Define the maximum position embeddings\n        attention_bias: bool: when ever to use attention_bias\n        **kwargs: Pass a variable number of keyword arguments to a\n            function\n    :param : Define the number of layers in the model\n\n    Returns:\n        An instance of the class\n    \"\"\"\n    self.vocab_size = vocab_size\n    self.max_context_length = max_context_length\n    self.num_transformer_layers = num_transformer_layers\n    self.model_dim = model_dim\n    self.head_dim = head_dim\n    self.qkv_multipliers = qkv_multipliers\n    self.num_query_heads = num_query_heads\n    self.num_gqa_groups = num_gqa_groups\n    self.ffn_multipliers = ffn_multipliers\n    self.ffn_with_glu = ffn_with_glu\n    self.ffn_dim_divisor = ffn_dim_divisor\n    self.activation_fn_name = activation_fn_name\n    self.normalization_layer_name = normalization_layer_name\n    self.normalize_qk_projections = normalize_qk_projections\n    self.share_input_output_layers = share_input_output_layers\n    self.rope_freq_constant = rope_freq_constant\n    self.rope_max_length = rope_max_length\n    self.num_query_heads = (\n        compute_heads(model_dim=model_dim, head_dim=head_dim)\n        if num_query_heads is None\n        else num_query_heads\n    )\n    self.initializer_range = initializer_range\n    self.bits = bits\n    self.initializer_range = initializer_range\n    self.use_cache = use_cache\n    self.rope_scaling = rope_scaling\n    self.gradient_checkpointing = gradient_checkpointing\n    self.use_scan_mlp = use_scan_mlp\n    self.scan_mlp_chunk_size = scan_mlp_chunk_size\n\n    super().__init__(\n        bos_token_id=bos_token_id,\n        eos_token_id=eos_token_id,\n        use_scan_mlp=use_scan_mlp,\n        scan_mlp_chunk_size=scan_mlp_chunk_size,\n        bits=bits,\n        **kwargs,\n    )\n</code></pre>"},{"location":"generated-modules-openelm-openelm_configuration/#src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig.add_jax_args","title":"<code>add_jax_args(gradient_checkpointing='nothing_saveable', use_scan_mlp=False, scan_mlp_chunk_size=1024, bits=None, rope_scaling=None, **kwargs)</code>","text":"<p>The add_jax_args function adds the following arguments to the model:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Bind the attributes and methods of a class to an instance of that class</p> required <code>gradient_checkpointing</code> <code>str</code> <p>str: Determine whether to use gradient checkpointing</p> <code>'nothing_saveable'</code> <code>use_scan_mlp</code> <code>bool</code> <p>bool: Determine whether to use the scan_mlp function or notn</p> <code>False</code> <code>scan_mlp_chunk_size</code> <code>int</code> <p>int: Chunk the input to the mlp</p> <code>1024</code> <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Specify the number of bits to use for quantization</p> <code>None</code> <code>rope_scaling</code> <code>Dict[str, Union[str, float]]</code> <p>Dict[str, Union[str, float]]: rope_scaling for rope</p> <code>None</code> <p>Returns:</p> Type Description <p>A tuple of the following:</p> Source code in <code>src/python/easydel/modules/openelm/openelm_configuration.py</code> <pre><code>def add_jax_args(\n        self,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        use_scan_mlp: bool = False,\n        scan_mlp_chunk_size: int = 1024,\n        bits: Optional[int] = None,\n        rope_scaling: Dict[str, Union[str, float]] = None,\n        **kwargs,\n):\n    \"\"\"The add_jax_args function adds the following arguments to the model:\n\n    Args:\n        self: Bind the attributes and methods of a class to an\n            instance of that class\n        gradient_checkpointing: str: Determine whether to use\n            gradient checkpointing\n        use_scan_mlp: bool: Determine whether to use the scan_mlp\n            function or notn\n        scan_mlp_chunk_size: int: Chunk the input to the mlp\n        bits: Optional[int]: Specify the number of bits to use for\n            quantization\n        rope_scaling: Dict[str, Union[str, float]]: rope_scaling for\n            rope\n\n    Returns:\n        A tuple of the following:\n    \"\"\"\n\n    self.rope_scaling = rope_scaling\n    self.gradient_checkpointing = gradient_checkpointing\n    self.use_scan_mlp = use_scan_mlp\n    self.scan_mlp_chunk_size = scan_mlp_chunk_size\n    self.bits = bits\n</code></pre>"},{"location":"generated-modules-openelm-openelm_configuration/#src.python.easydel.modules.openelm.openelm_configuration.OpenELMConfig.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:   1) A regex string that matches the name of one or more parameters in the model.   2) A PartitionScheme object that defines how those parameters should be partitioned.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to use the fully_sharded_data_parallel partitioning scheme or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/openelm/openelm_configuration.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n      1) A regex string that matches the name of one or more parameters in the model.\n      2) A PartitionScheme object that defines how those parameters should be partitioned.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to use\n            the fully_sharded_data_parallel partitioning scheme or\n            not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    ) if not fully_sharded_data_parallel else (\n        (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-openelm-openelm_configuration/#src.python.easydel.modules.openelm.openelm_configuration.compute_heads","title":"<code>compute_heads(model_dim, head_dim)</code>","text":"<p>Compute the number of heads. Args:     model_dim: Model dimension.     head_dim: Head dimension. Returns:     An integer denoting number of heads in multi-head attention is returned. Raises:     ValueError: if model dimension is not divisible by head dimension.</p> Source code in <code>src/python/easydel/modules/openelm/openelm_configuration.py</code> <pre><code>def compute_heads(model_dim: int, head_dim: int) -&gt; int:\n    \"\"\"Compute the number of heads.\n    Args:\n        model_dim: Model dimension.\n        head_dim: Head dimension.\n    Returns:\n        An integer denoting number of heads in multi-head attention is returned.\n    Raises:\n        ValueError: if model dimension is not divisible by head dimension.\n    \"\"\"\n    if model_dim % head_dim == 0:\n        return model_dim // head_dim\n    else:\n        raise ValueError(\n            f\"Model dimension should be divisible by head dimension. Got: {model_dim} and {head_dim}.\"\n        )\n</code></pre>"},{"location":"generated-modules-openelm-openelm_configuration/#src.python.easydel.modules.openelm.openelm_configuration.make_divisible","title":"<code>make_divisible(v, divisor=8, min_value=None)</code>","text":"<p>This function is taken from the original tf repo. It ensures that all layers have a channel number that is divisible by the divisor It can be seen at: https://github.com/tensorflow/models/blob/2cfc99eff5e5eb729c6793d2f3d03aa1c9be2b15/research/slim/nets/mobilenet/mobilenet.py#L62 Args:     v: input value     divisor: default to 8     min_value: minimum divisor value Returns:     new_v: new divisible value</p> Source code in <code>src/python/easydel/modules/openelm/openelm_configuration.py</code> <pre><code>def make_divisible(\n        v: Union[float, int],\n        divisor: Optional[int] = 8,\n        min_value: Optional[Union[float, int]] = None,\n) -&gt; Union[float, int]:\n    \"\"\"This function is taken from the original tf repo.\n    It ensures that all layers have a channel number that is divisible by the divisor\n    It can be seen at:\n    https://github.com/tensorflow/models/blob/2cfc99eff5e5eb729c6793d2f3d03aa1c9be2b15/research/slim/nets/mobilenet/mobilenet.py#L62\n    Args:\n        v: input value\n        divisor: default to 8\n        min_value: minimum divisor value\n    Returns:\n        new_v: new divisible value\n    \"\"\"\n    if min_value is None:\n        min_value = divisor\n    new_v = max(min_value, int(v + divisor / 2) // divisor * divisor)\n    # Make sure that round down does not go down by more than 10%.\n    if new_v &lt; 0.9 * v:\n        new_v += divisor\n    return new_v\n</code></pre>"},{"location":"generated-modules-opt-modelling_opt_flax/","title":"modules.opt.modelling_opt_flax","text":"<p>Flax OPT model.</p>"},{"location":"generated-modules-opt-modelling_opt_flax/#src.python.easydel.modules.opt.modelling_opt_flax.FlaxOPTLearnedPositionalEmbedding","title":"<code>FlaxOPTLearnedPositionalEmbedding</code>","text":"<p>               Bases: <code>Embed</code></p> Source code in <code>src/python/easydel/modules/opt/modelling_opt_flax.py</code> <pre><code>class FlaxOPTLearnedPositionalEmbedding(nn.Embed):\n\n    def setup(self):\n        self.offset = 2\n        self.embedding = self.param(\n            \"embedding\", self.embedding_init, (self.num_embeddings + self.offset, self.features), self.param_dtype\n        )\n\n    def __call__(self, positions):\n        \"\"\"`input_ids_shape` is expected to be [bsz x seqlen].\"\"\"\n\n        return super().__call__(positions + self.offset)\n</code></pre>"},{"location":"generated-modules-opt-modelling_opt_flax/#src.python.easydel.modules.opt.modelling_opt_flax.FlaxOPTLearnedPositionalEmbedding.__call__","title":"<code>__call__(positions)</code>","text":"<p><code>input_ids_shape</code> is expected to be [bsz x seqlen].</p> Source code in <code>src/python/easydel/modules/opt/modelling_opt_flax.py</code> <pre><code>def __call__(self, positions):\n    \"\"\"`input_ids_shape` is expected to be [bsz x seqlen].\"\"\"\n\n    return super().__call__(positions + self.offset)\n</code></pre>"},{"location":"generated-modules-opt-opt_configuration/","title":"modules.opt.opt_configuration","text":""},{"location":"generated-modules-palm-modelling_palm_flax/","title":"modules.palm.modelling_palm_flax","text":""},{"location":"generated-modules-palm-palm_configuration/","title":"modules.palm.palm_configuration","text":""},{"location":"generated-modules-phi-modelling_phi_flax/","title":"modules.phi.modelling_phi_flax","text":""},{"location":"generated-modules-phi-modelling_phi_flax/#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiAttention","title":"<code>FlaxPhiAttention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> <p>Multi-headed attention from 'Attention Is All You Need' paper</p> Source code in <code>src/python/easydel/modules/phi/modelling_phi_flax.py</code> <pre><code>class FlaxPhiAttention(BaseJAXAttentionModule):\n    \"\"\"Multi-headed attention from 'Attention Is All You Need' paper\"\"\"\n    config: PhiConfig\n    layer_idx: Optional[int] = None\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\")\n\n    def setup(self):\n        config = self.config\n        self.attention_dropout = config.attention_dropout\n        self.hidden_size = config.hidden_size\n        self.num_heads = config.num_attention_heads\n        self.head_dim = self.hidden_size // self.num_heads\n        self.num_key_value_heads = config.num_key_value_heads\n        self.num_key_value_groups = self.num_heads // self.num_key_value_heads\n        self.max_position_embeddings = config.max_position_embeddings\n        self.rope_theta = config.rope_theta\n        self.partial_rotary_factor = config.partial_rotary_factor\n        self.is_causal = True\n\n        if (self.head_dim * self.num_heads) != self.hidden_size:\n            raise ValueError(\n                f\"hidden_size must be divisible by num_heads (got `hidden_size`: {self.hidden_size}\"\n                f\" and `num_heads`: {self.num_heads}).\"\n            )\n\n        dense_class = functools.partial(\n            Linear,\n            use_bias=True,\n            precision=self.precision,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            kernel_init=jax.nn.initializers.normal(self.config.initializer_range),\n            **get_dot_general_by_bits(self.config.bits)\n        )\n\n        self.q_proj = dense_class(self.num_heads * self.head_dim)\n        self.k_proj = dense_class(self.num_key_value_heads * self.head_dim)\n        self.v_proj = dense_class(self.num_key_value_heads * self.head_dim)\n        self.dense = dense_class(self.hidden_size)\n        self.rotary_emb_dim = int(self.config.partial_rotary_factor * self.head_dim)\n        self.qk_layernorm = config.qk_layernorm\n        if self.qk_layernorm:\n            self.q_layernorm = nn.LayerNorm(\n                epsilon=config.layer_norm_eps,\n                dtype=self.dtype,\n                param_dtype=self.param_dtype,\n                use_bias=True\n            )\n            self.k_layernorm = nn.LayerNorm(\n                epsilon=config.layer_norm_eps,\n                dtype=self.dtype,\n                param_dtype=self.param_dtype,\n                use_bias=True\n            )\n\n        self.attention_performer = AttentionModule(\n            use_sharding_constraint=self.config.use_sharding_constraint,\n            block_k_major=self.config.block_k_major,\n            block_b=self.config.block_b,\n            block_q=self.config.block_q,\n            block_k=self.config.block_k,\n            block_q_major_dkv=self.config.block_q_major_dkv,\n            block_k_major_dkv=self.config.block_k_major_dkv,\n            block_k_major_dq=self.config.block_k_major_dq,\n            block_k_dkv=self.config.block_k_dkv,\n            block_q_dkv=self.config.block_q_dkv,\n            block_q_dq=self.config.block_q_dq,\n            block_k_dq=self.config.block_k_dq,\n            num_attention_heads=self.config.num_attention_heads,\n            attention_dropout=self.config.attention_dropout,\n            head_dims=self.head_dim,\n            attention_partition_spec=self.config.attention_partition_spec,\n            shard_attention_computation=self.config.shard_attention_computation,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            bias_partition_spec=self.config.bias_partition_spec,\n            key_partition_spec=self.config.key_partition_spec,\n            query_partition_spec=self.config.query_partition_spec,\n            generation_query_partition_spec=self.config.generation_query_partition_spec,\n            generation_bias_partition_spec=self.config.generation_bias_partition_spec,\n            generation_attention_partition_spec=self.config.generation_attention_partition_spec,\n            value_partition_spec=self.config.value_partition_spec,\n            scan_ring_attention=self.config.scan_ring_attention,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name,\n            backward_pass_impl=self.config.flash_attention_backward_pass_impl\n        )\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.hidden_size,))\n\n    @staticmethod\n    def _transpose_sequence_head(query_states, key, value):\n        \"\"\"The _transpose_sequence_head function transposes the query_states, key and value matrices.\n\n        Args:\n            query_states: Get the attention weights for each of the\n                heads\n            key: Determine the number of heads\n            value: Store the values of the input\n\n        Returns:\n            The transpose of the query_states, key and value matrices\n        \"\"\"\n        return jnp.transpose(query_states, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value,\n                                                                                                          (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n        \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n        Args:\n            self: Access variables that belong to the class\n            batch_size: Reshape the query_states, key and value tensors\n            sequence_length: Reshape the query_states, key and value\n                tensors\n            query: Calculate the attention weights\n            key: Calculate the attention\n            value: Compute the attention weights\n            freq_cis: Calculate the frequency of each word in the\n                vocabulary\n            position_ids: Identify the position of each token in the\n                sequence\n\n        Returns:\n            A tuple of 3 tensors: query_states, key and value\n        \"\"\"\n        query = query.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_attention_heads,\n            self.head_dim\n        )\n        key = key.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n        value = value.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n\n        query, key, value = self._transpose_sequence_head(query, key, value)\n\n        sin, cos = freq_cis\n\n        sin = sin[position_ids][:, None, :, :]\n        cos = cos[position_ids][:, None, :, :]\n\n        query_rot, query_pass = (\n            query[..., : self.rotary_emb_dim],\n            query[..., self.rotary_emb_dim:],\n        )\n        key_rot, key_pass = (\n            key[..., : self.rotary_emb_dim],\n            key[..., self.rotary_emb_dim:],\n        )\n\n        key_rot = apply_rotary_pos_emb(key_rot, sin, cos)\n        query_rot = apply_rotary_pos_emb(query_rot, sin, cos)\n\n        query = jnp.concatenate((query_rot, query_pass), axis=-1)\n        key = jnp.concatenate((key_rot, key_pass), axis=-1)\n\n        key = repeat_kv_bnsh(key, self.num_key_value_groups)\n        value = repeat_kv_bnsh(value, self.num_key_value_groups)\n        return self._transpose_sequence_head(query, key, value)\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: Optional[chex.Array],\n            position_ids: Optional[chex.Array],\n            causal_mask: Optional[chex.Array],\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            output_attentions: bool = False,\n            init_cache: bool = False,\n    ):\n        batch_size, sequence_length = hidden_states.shape[:2]\n        (\n            query_states,\n            key_states,\n            value_states\n        ) = self.q_proj(\n            hidden_states\n        ), self.k_proj(\n            hidden_states\n        ), self.v_proj(\n            hidden_states\n        )\n\n        if self.qk_layernorm:\n            query_states = self.q_layernorm(query_states)\n            key_states = self.k_layernorm(key_states)\n\n        query_states = query_states.reshape(\n            batch_size, sequence_length, self.config.num_attention_heads, self.head_dim\n        )\n        key_states = key_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim\n        )\n        value_states = value_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim\n        )\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query=query_states,\n            key=key_states,\n            value=value_states,\n            position_ids=position_ids,\n            freq_cis=freq_cis,\n            batch_size=batch_size,\n            sequence_length=sequence_length\n        )\n\n        assert_msg = (\n            \"num_attention_heads repeat wont work likely\\n\"\n            f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n            f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n        )\n\n        assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                     query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        attention_mask = jnp.broadcast_to(jnp.expand_dims(\n            attention_mask, axis=(-3, -2)), causal_mask.shape)\n        attention_mask = combine_masks(attention_mask, causal_mask)\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n        dropout_rng = None\n\n        if not deterministic and self.config.attention_dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n        # if self.config.use_sharding_constraint:\n        #     query_states = with_sharding_constraint(\n        #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n        #     )\n        #     key_states = with_sharding_constraint(\n        #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        #     value_states = with_sharding_constraint(\n        #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        attention_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=attention_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        attn_output = self.dense(attn_output)\n\n        outputs = (attn_output, attentions.attention_weights) if output_attentions else (attn_output,)\n        return outputs\n</code></pre>"},{"location":"generated-modules-phi-modelling_phi_flax/#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiAttention.apply_rotary","title":"<code>apply_rotary(batch_size, sequence_length, query, key, value, freq_cis, position_ids)</code>","text":"<p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class. The main difference is that it takes in an additional argument, freq_cis, which are used to calculate the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>batch_size</code> <p>Reshape the query_states, key and value tensors</p> required <code>sequence_length</code> <p>Reshape the query_states, key and value tensors</p> required <code>query</code> <p>Calculate the attention weights</p> required <code>key</code> <p>Calculate the attention</p> required <code>value</code> <p>Compute the attention weights</p> required <code>freq_cis</code> <p>Calculate the frequency of each word in the vocabulary</p> required <code>position_ids</code> <p>Identify the position of each token in the sequence</p> required <p>Returns:</p> Type Description <p>A tuple of 3 tensors: query_states, key and value</p> Source code in <code>src/python/easydel/modules/phi/modelling_phi_flax.py</code> <pre><code>def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n    \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n    Args:\n        self: Access variables that belong to the class\n        batch_size: Reshape the query_states, key and value tensors\n        sequence_length: Reshape the query_states, key and value\n            tensors\n        query: Calculate the attention weights\n        key: Calculate the attention\n        value: Compute the attention weights\n        freq_cis: Calculate the frequency of each word in the\n            vocabulary\n        position_ids: Identify the position of each token in the\n            sequence\n\n    Returns:\n        A tuple of 3 tensors: query_states, key and value\n    \"\"\"\n    query = query.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_attention_heads,\n        self.head_dim\n    )\n    key = key.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n    value = value.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n\n    query, key, value = self._transpose_sequence_head(query, key, value)\n\n    sin, cos = freq_cis\n\n    sin = sin[position_ids][:, None, :, :]\n    cos = cos[position_ids][:, None, :, :]\n\n    query_rot, query_pass = (\n        query[..., : self.rotary_emb_dim],\n        query[..., self.rotary_emb_dim:],\n    )\n    key_rot, key_pass = (\n        key[..., : self.rotary_emb_dim],\n        key[..., self.rotary_emb_dim:],\n    )\n\n    key_rot = apply_rotary_pos_emb(key_rot, sin, cos)\n    query_rot = apply_rotary_pos_emb(query_rot, sin, cos)\n\n    query = jnp.concatenate((query_rot, query_pass), axis=-1)\n    key = jnp.concatenate((key_rot, key_pass), axis=-1)\n\n    key = repeat_kv_bnsh(key, self.num_key_value_groups)\n    value = repeat_kv_bnsh(value, self.num_key_value_groups)\n    return self._transpose_sequence_head(query, key, value)\n</code></pre>"},{"location":"generated-modules-phi-modelling_phi_flax/#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiMLP","title":"<code>FlaxPhiMLP</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/phi/modelling_phi_flax.py</code> <pre><code>class FlaxPhiMLP(nn.Module):\n    config: PhiConfig\n    layer_idx: Optional[int] = None\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\")\n\n    \"\"\"Multi-Layer Perceptron.\n    Reference:\n        Attention Is All You Need.\n        https://arxiv.org/pdf/1706.03762.pdf.\n    \"\"\"\n\n    def setup(\n            self\n    ) -&gt; None:\n        self.fc1 = Linear(\n            self.config.intermediate_size,\n            kernel_init=nn.initializers.normal(self.config.initializer_range),\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.fc2 = Linear(\n            self.config.n_embd,\n            kernel_init=nn.initializers.normal(self.config.initializer_range),\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.act = ACT2FN[self.config.hidden_act]\n\n    def __call__(\n            self,\n            hidden_states: Array,\n            e: bool = False  # Ignored\n    ) -&gt; Array:\n        return self.fc2(self.act(self.fc1(hidden_states)))\n</code></pre>"},{"location":"generated-modules-phi-modelling_phi_flax/#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiMLP.precision","title":"<code>precision: Optional[jax.lax.Precision] = jax.lax.Precision('fastest')</code>  <code>class-attribute</code> <code>instance-attribute</code>","text":"<p>Multi-Layer Perceptron. Reference:     Attention Is All You Need.     https://arxiv.org/pdf/1706.03762.pdf.</p>"},{"location":"generated-modules-phi-modelling_phi_flax/#src.python.easydel.modules.phi.modelling_phi_flax.FlaxPhiPreTrainedModel","title":"<code>FlaxPhiPreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> <p>Phi pre-trained model.</p> Source code in <code>src/python/easydel/modules/phi/modelling_phi_flax.py</code> <pre><code>class FlaxPhiPreTrainedModel(EasyDeLFlaxPretrainedModel):\n    \"\"\"Phi pre-trained model.\"\"\"\n    module_class = None\n    config_class = PhiConfig\n    base_model_prefix = \"transformer\"\n\n    def __init__(\n            self,\n            config: PhiConfig,\n            dtype: jnp.dtype = jnp.float32,\n            param_dtype: jnp.dtype = jnp.float32,\n            precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\"),\n            input_shape=(1, 1),\n            seed: int = 42,\n            _do_init: bool = False\n    ) -&gt; None:\n        module = self.module_class(\n            config=config,\n            dtype=dtype,\n            param_dtype=param_dtype,\n            precision=precision\n        )\n        super().__init__(\n            config=config,\n            module=module,\n            input_shape=input_shape,\n            _do_init=_do_init,\n            seed=seed\n        )\n\n    def init_cache(self, batch_size, max_length):\n\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids)\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n        module_init_outputs = self.module.init(rngs, input_ids, attention_mask)\n\n        random_params = module_init_outputs[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rngs = {}\n        if dropout_rng is not None:\n            rngs[\"dropout\"] = dropout_rng\n\n        if self.config.bits is not None:\n            rngs['params'] = jax.random.key(0)\n\n        inputs = {\"params\": params or self.params} if add_params_field else params or self.params\n\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            input_ids=input_ids,\n            inputs_embeds=None,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            extra_embedding=extra_embedding,\n            deterministic=not train,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            init_cache=False,\n            return_dict=return_dict,\n            rngs=rngs,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-phi-phi_configuration/","title":"modules.phi.phi_configuration","text":""},{"location":"generated-modules-phi-phi_configuration/#src.python.easydel.modules.phi.phi_configuration.PhiConfig","title":"<code>PhiConfig</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> <p>Phi configuration.</p> Source code in <code>src/python/easydel/modules/phi/phi_configuration.py</code> <pre><code>class PhiConfig(EasyDeLPretrainedConfig):\n    \"\"\"Phi configuration.\"\"\"\n\n    model_type: str = \"phi\"\n    attribute_map = {\n        \"max_position_embeddings\": \"n_positions\",\n        \"hidden_size\": \"n_embd\",\n        \"num_attention_heads\": \"num_attention_heads\",\n        \"num_hidden_layers\": \"num_hidden_layers\",\n    }\n\n    def __init__(\n            self,\n            vocab_size=51200,\n            hidden_size=2048,\n            intermediate_size=8192,\n            num_hidden_layers=24,\n            num_attention_heads=32,\n            num_key_value_heads=None,\n            resid_pdrop=0.0,\n            embd_pdrop=0.0,\n            attention_dropout=0.0,\n            hidden_act=\"gelu_new\",\n            max_position_embeddings=2048,\n            initializer_range=0.02,\n            layer_norm_eps=1e-5,\n            use_cache=True,\n            tie_word_embeddings=False,\n            rope_theta=10000.0,\n            rope_scaling=None,\n            partial_rotary_factor=0.5,\n            qk_layernorm=False,\n            bos_token_id=1,\n            eos_token_id=2,\n            bits: Optional[int] = None,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            **kwargs\n    ) -&gt; None:\n        self.vocab_size = vocab_size\n        self.hidden_size = hidden_size\n        self.intermediate_size = intermediate_size\n        self.num_hidden_layers = num_hidden_layers\n        self.num_attention_heads = num_attention_heads\n\n        if num_key_value_heads is None:\n            num_key_value_heads = num_attention_heads\n\n        self.num_key_value_heads = num_key_value_heads\n        self.resid_pdrop = resid_pdrop\n        self.embd_pdrop = embd_pdrop\n        self.attention_dropout = attention_dropout\n        self.hidden_act = hidden_act\n        self.max_position_embeddings = max_position_embeddings\n        self.initializer_range = initializer_range\n        self.layer_norm_eps = layer_norm_eps\n        self.use_cache = use_cache\n        self.rope_theta = rope_theta\n        self.rope_scaling = rope_scaling\n        self.partial_rotary_factor = partial_rotary_factor\n        self.qk_layernorm = qk_layernorm\n        self.bits = bits\n        self.gradient_checkpointing = gradient_checkpointing\n        super().__init__(\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            tie_word_embeddings=tie_word_embeddings,\n            bits=bits,\n            **kwargs\n        )\n\n    def add_jax_args(\n            self,\n            bits: Optional[int] = None,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            **kwargs\n    ):\n        self.bits = bits\n        self.gradient_checkpointing = gradient_checkpointing\n        for k, v in kwargs.items():\n            if not hasattr(self, k):\n                setattr(self, k, v)\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        return (\n            (\"embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"final_layernorm/(scale|bias)\", PartitionSpec(None, )),\n            (\"final_layernorm/(scale|bias)\", PartitionSpec(None, )),\n            (\"mlp/fc1/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"mlp/fc1/bias\", PartitionSpec(\"tp\", )),\n            (\"mlp/fc2/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"mlp/fc2/bias\", PartitionSpec((\"fsdp\", \"sp\"), )),\n            (\"self_attn/dense/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"self_attn/dense/bias\", PartitionSpec(\"tp\")),\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/(q_proj|k_proj|v_proj)/bias\", PartitionSpec(\"tp\", )),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"lm_head/bias\", PartitionSpec(\"tp\")),\n            (\".*\", PartitionSpec(None, ))\n        ) if fully_sharded_data_parallel else (\n            (\"embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"), )),\n            (\"final_layernorm/(scale|bias)\", PartitionSpec(None, )),\n            (\"final_layernorm/(scale|bias)\", PartitionSpec(None, )),\n            (\"mlp/fc1/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"mlp/fc1/bias\", PartitionSpec(\"tp\", )),\n            (\"mlp/fc2/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"mlp/fc2/bias\", PartitionSpec((\"fsdp\", \"sp\"), )),\n            (\"self_attn/dense/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"), )),\n            (\"self_attn/dense/bias\", PartitionSpec(\"tp\")),\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/(q_proj|k_proj|v_proj)/bias\", PartitionSpec(\"tp\", )),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"lm_head/bias\", PartitionSpec(\"tp\")),\n            (\".*\", PartitionSpec(None, ))\n        )\n</code></pre>"},{"location":"generated-modules-phi3-modelling_phi3_flax/","title":"modules.phi3.modelling_phi3_flax","text":""},{"location":"generated-modules-phi3-modelling_phi3_flax/#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3Attention","title":"<code>FlaxPhi3Attention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> <p>Multi-headed attention from 'Attention Is All You Need' paper</p> Source code in <code>src/python/easydel/modules/phi3/modelling_phi3_flax.py</code> <pre><code>class FlaxPhi3Attention(BaseJAXAttentionModule):\n    \"\"\"Multi-headed attention from 'Attention Is All You Need' paper\"\"\"\n    config: Phi3Config\n    layer_idx: Optional[int] = None\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\")\n\n    def setup(self):\n        config = self.config\n        self.attention_dropout = config.attention_dropout\n        self.hidden_size = config.hidden_size\n        self.num_heads = config.num_attention_heads\n        self.head_dim = self.hidden_size // self.num_heads\n        self.num_key_value_heads = config.num_key_value_heads\n        self.num_key_value_groups = self.num_heads // self.num_key_value_heads\n        self.max_position_embeddings = config.max_position_embeddings\n        self.original_max_position_embeddings = config.original_max_position_embeddings\n        self.rope_theta = config.rope_theta\n        self.rope_scaling = config.rope_scaling\n        self.is_causal = True\n\n        if (self.head_dim * self.num_heads) != self.hidden_size:\n            raise ValueError(\n                f\"hidden_size must be divisible by num_heads (got `hidden_size`: {self.hidden_size}\"\n                f\" and `num_heads`: {self.num_heads}).\"\n            )\n\n        dense_class = functools.partial(\n            Linear,\n            use_bias=False,\n            precision=self.precision,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            kernel_init=jax.nn.initializers.normal(self.config.initializer_range),\n            **get_dot_general_by_bits(self.config.bits)\n        )\n\n        op_size = self.num_heads * self.head_dim + 2 * (self.num_key_value_heads * self.head_dim)\n        self.o_proj = dense_class(self.hidden_size)\n        self.qkv_proj = dense_class(op_size)\n        self.rotary = FlaxPhi3Embedding(self.dtype)\n        self.attention_performer = AttentionModule(\n            use_sharding_constraint=self.config.use_sharding_constraint,\n            block_k_major=self.config.block_k_major,\n            block_b=self.config.block_b,\n            block_q=self.config.block_q,\n            block_k=self.config.block_k,\n            block_q_major_dkv=self.config.block_q_major_dkv,\n            block_k_major_dkv=self.config.block_k_major_dkv,\n            block_k_major_dq=self.config.block_k_major_dq,\n            block_k_dkv=self.config.block_k_dkv,\n            block_q_dkv=self.config.block_q_dkv,\n            block_q_dq=self.config.block_q_dq,\n            block_k_dq=self.config.block_k_dq,\n            num_attention_heads=self.config.num_attention_heads,\n            attention_dropout=self.config.attention_dropout,\n            head_dims=self.head_dim,\n            attention_partition_spec=self.config.attention_partition_spec,\n            shard_attention_computation=self.config.shard_attention_computation,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            bias_partition_spec=self.config.bias_partition_spec,\n            key_partition_spec=self.config.key_partition_spec,\n            query_partition_spec=self.config.query_partition_spec,\n            generation_query_partition_spec=self.config.generation_query_partition_spec,\n            generation_bias_partition_spec=self.config.generation_bias_partition_spec,\n            generation_attention_partition_spec=self.config.generation_attention_partition_spec,\n            value_partition_spec=self.config.value_partition_spec,\n            scan_ring_attention=self.config.scan_ring_attention,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name,\n            backward_pass_impl=self.config.flash_attention_backward_pass_impl\n        )\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.hidden_size,))\n\n    @staticmethod\n    def _transpose_sequence_head(query_states, key, value):\n        \"\"\"The _transpose_sequence_head function transposes the query_states, key and value matrices.\n\n        Args:\n            query_states: Get the attention weights for each of the\n                heads\n            key: Determine the number of heads\n            value: Store the values of the input\n\n        Returns:\n            The transpose of the query_states, key and value matrices\n        \"\"\"\n        return jnp.transpose(query_states, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value,\n                                                                                                          (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n        \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n        Args:\n            self: Access variables that belong to the class\n            batch_size: Reshape the query_states, key and value tensors\n            sequence_length: Reshape the query_states, key and value\n                tensors\n            query: Calculate the attention weights\n            key: Calculate the attention\n            value: Compute the attention weights\n            freq_cis: Calculate the frequency of each word in the\n                vocabulary\n            position_ids: Identify the position of each token in the\n                sequence\n\n        Returns:\n            A tuple of 3 tensors: query_states, key and value\n        \"\"\"\n        query = query.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_attention_heads,\n            self.head_dim\n        )\n        key = key.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n        value = value.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n\n        query, key, value = self._transpose_sequence_head(query, key, value)\n\n        query, key = self.rotary(query=query, key=key, freq_cis=freq_cis, position_ids=position_ids)\n\n        key = repeat_kv_bnsh(key, self.num_key_value_groups)\n        value = repeat_kv_bnsh(value, self.num_key_value_groups)\n        return self._transpose_sequence_head(query, key, value)\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            causal_mask: chex.Array,\n            position_ids: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = True\n    ):\n        batch_size, sequence_length = hidden_states.shape[:2]\n        qkv = self.qkv_proj(hidden_states)\n        query_pos = self.num_heads * self.head_dim\n        query_states = qkv[..., :query_pos]\n        key_states = qkv[..., query_pos: query_pos + self.num_key_value_heads * self.head_dim]\n        value_states = qkv[..., query_pos + self.num_key_value_heads * self.head_dim:]\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query=query_states,\n            key=key_states,\n            value=value_states,\n            position_ids=position_ids,\n            freq_cis=freq_cis,\n            batch_size=batch_size,\n            sequence_length=sequence_length\n        )\n\n        assert_msg = (\n            \"num_attention_heads repeat wont work likely\\n\"\n            f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n            f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n        )\n\n        assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                     query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        attention_mask = jnp.broadcast_to(jnp.expand_dims(\n            attention_mask, axis=(-3, -2)), causal_mask.shape)\n        attention_mask = combine_masks(attention_mask, causal_mask)\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n        dropout_rng = None\n\n        if not deterministic and self.config.attention_dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n        attention_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=attention_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        attn_output = self.o_proj(attn_output)\n\n        outputs = (attn_output, attentions.attention_weights) if output_attentions else (attn_output,)\n        return outputs\n</code></pre>"},{"location":"generated-modules-phi3-modelling_phi3_flax/#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3Attention.apply_rotary","title":"<code>apply_rotary(batch_size, sequence_length, query, key, value, freq_cis, position_ids)</code>","text":"<p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class. The main difference is that it takes in an additional argument, freq_cis, which are used to calculate the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>batch_size</code> <p>Reshape the query_states, key and value tensors</p> required <code>sequence_length</code> <p>Reshape the query_states, key and value tensors</p> required <code>query</code> <p>Calculate the attention weights</p> required <code>key</code> <p>Calculate the attention</p> required <code>value</code> <p>Compute the attention weights</p> required <code>freq_cis</code> <p>Calculate the frequency of each word in the vocabulary</p> required <code>position_ids</code> <p>Identify the position of each token in the sequence</p> required <p>Returns:</p> Type Description <p>A tuple of 3 tensors: query_states, key and value</p> Source code in <code>src/python/easydel/modules/phi3/modelling_phi3_flax.py</code> <pre><code>def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n    \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n    Args:\n        self: Access variables that belong to the class\n        batch_size: Reshape the query_states, key and value tensors\n        sequence_length: Reshape the query_states, key and value\n            tensors\n        query: Calculate the attention weights\n        key: Calculate the attention\n        value: Compute the attention weights\n        freq_cis: Calculate the frequency of each word in the\n            vocabulary\n        position_ids: Identify the position of each token in the\n            sequence\n\n    Returns:\n        A tuple of 3 tensors: query_states, key and value\n    \"\"\"\n    query = query.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_attention_heads,\n        self.head_dim\n    )\n    key = key.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n    value = value.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n\n    query, key, value = self._transpose_sequence_head(query, key, value)\n\n    query, key = self.rotary(query=query, key=key, freq_cis=freq_cis, position_ids=position_ids)\n\n    key = repeat_kv_bnsh(key, self.num_key_value_groups)\n    value = repeat_kv_bnsh(value, self.num_key_value_groups)\n    return self._transpose_sequence_head(query, key, value)\n</code></pre>"},{"location":"generated-modules-phi3-modelling_phi3_flax/#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3MLP","title":"<code>FlaxPhi3MLP</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/phi3/modelling_phi3_flax.py</code> <pre><code>class FlaxPhi3MLP(nn.Module):\n    config: Phi3Config\n    layer_idx: Optional[int] = None\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\")\n\n    \"\"\"Multi-Layer Perceptron.\n    Reference:\n        Attention Is All You Need.\n        https://arxiv.org/pdf/1706.03762.pdf.\n    \"\"\"\n\n    def setup(\n            self\n    ) -&gt; None:\n        self.gate_up_proj = Linear(\n            2 * self.config.intermediate_size,\n            kernel_init=nn.initializers.normal(self.config.initializer_range),\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            use_bias=False\n        )\n        self.down_proj = Linear(\n            self.config.hidden_size,\n            kernel_init=nn.initializers.normal(self.config.initializer_range),\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            use_bias=False\n        )\n        self.activation_fn = ACT2FN[self.config.hidden_act]\n\n    def __call__(\n            self,\n            hidden_states: Array,\n            e: bool = False  # Ignored\n    ) -&gt; Array:\n        up_states = self.gate_up_proj(hidden_states)\n\n        gate, up_states = jnp.split(up_states, 2, axis=-1)\n        up_states = up_states * self.activation_fn(gate)\n\n        return self.down_proj(up_states)\n</code></pre>"},{"location":"generated-modules-phi3-modelling_phi3_flax/#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhi3MLP.precision","title":"<code>precision: Optional[jax.lax.Precision] = jax.lax.Precision('fastest')</code>  <code>class-attribute</code> <code>instance-attribute</code>","text":"<p>Multi-Layer Perceptron. Reference:     Attention Is All You Need.     https://arxiv.org/pdf/1706.03762.pdf.</p>"},{"location":"generated-modules-phi3-modelling_phi3_flax/#src.python.easydel.modules.phi3.modelling_phi3_flax.FlaxPhiPreTrainedModel","title":"<code>FlaxPhiPreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> <p>Phi pre-trained model.</p> Source code in <code>src/python/easydel/modules/phi3/modelling_phi3_flax.py</code> <pre><code>class FlaxPhiPreTrainedModel(EasyDeLFlaxPretrainedModel):\n    \"\"\"Phi pre-trained model.\"\"\"\n    module_class = None\n    config_class = Phi3Config\n    base_model_prefix = \"transformer\"\n\n    def __init__(\n            self,\n            config: Phi3Config,\n            dtype: jnp.dtype = jnp.float32,\n            param_dtype: jnp.dtype = jnp.float32,\n            precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\"),\n            input_shape=(1, 1),\n            seed: int = 42,\n            _do_init: bool = False\n    ) -&gt; None:\n        module = self.module_class(\n            config=config,\n            dtype=dtype,\n            param_dtype=param_dtype,\n            precision=precision\n        )\n        super().__init__(\n            config=config,\n            module=module,\n            input_shape=input_shape,\n            _do_init=_do_init,\n            seed=seed\n        )\n\n    def init_cache(self, batch_size, max_length):\n\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids)\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n        module_init_outputs = self.module.init(rngs, input_ids, attention_mask)\n\n        random_params = module_init_outputs[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rngs = {}\n        if dropout_rng is not None:\n            rngs[\"dropout\"] = dropout_rng\n\n        if self.config.bits is not None:\n            rngs['params'] = jax.random.key(0)\n\n        inputs = {\"params\": params or self.params} if add_params_field else params or self.params\n\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            input_ids=input_ids,\n            inputs_embeds=None,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            extra_embedding=extra_embedding,\n            deterministic=not train,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            init_cache=False,\n            return_dict=return_dict,\n            rngs=rngs,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-phi3-phi3_configuration/","title":"modules.phi3.phi3_configuration","text":""},{"location":"generated-modules-phi3-phi3_configuration/#src.python.easydel.modules.phi3.phi3_configuration.Phi3Config","title":"<code>Phi3Config</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> <p>Phi configuration.</p> Source code in <code>src/python/easydel/modules/phi3/phi3_configuration.py</code> <pre><code>class Phi3Config(EasyDeLPretrainedConfig):\n    \"\"\"Phi configuration.\"\"\"\n\n    model_type: str = \"phi3\"\n\n    def __init__(\n            self,\n            vocab_size=32064,\n            hidden_size=3072,\n            intermediate_size=8192,\n            num_hidden_layers=32,\n            num_attention_heads=32,\n            num_key_value_heads=None,\n            resid_pdrop=0.0,\n            embd_pdrop=0.0,\n            attention_dropout=0.0,\n            hidden_act=\"silu\",\n            max_position_embeddings=4096,\n            original_max_position_embeddings=4096,\n            initializer_range=0.02,\n            rms_norm_eps=1e-5,\n            use_cache=True,\n            tie_word_embeddings=False,\n            rope_theta=10000.0,\n            rope_scaling=None,\n            bos_token_id=1,\n            eos_token_id=32000,\n            pad_token_id=32000,\n            sliding_window=None,\n            bits: Optional[int] = None,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            **kwargs\n    ) -&gt; None:\n        self.vocab_size = vocab_size\n        self.hidden_size = hidden_size\n        self.intermediate_size = intermediate_size\n        self.num_hidden_layers = num_hidden_layers\n        self.num_attention_heads = num_attention_heads\n\n        if num_key_value_heads is None:\n            num_key_value_heads = num_attention_heads\n\n        self.num_key_value_heads = num_key_value_heads\n        self.resid_pdrop = resid_pdrop\n        self.embd_pdrop = embd_pdrop\n        self.attention_dropout = attention_dropout\n        self.hidden_act = hidden_act\n        self.max_position_embeddings = max_position_embeddings\n        self.original_max_position_embeddings = original_max_position_embeddings\n        self.initializer_range = initializer_range\n        self.rms_norm_eps = rms_norm_eps\n        self.use_cache = use_cache\n        self.rope_theta = rope_theta\n        self.rope_scaling = rope_scaling\n        self._rope_scaling_validation()\n        self.sliding_window = sliding_window\n\n        self.bits = bits\n        self.gradient_checkpointing = gradient_checkpointing\n        super().__init__(\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            tie_word_embeddings=tie_word_embeddings,\n            bits=bits,\n            **kwargs\n        )\n\n    def add_jax_args(\n            self,\n            bits: Optional[int] = None,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            **kwargs\n    ):\n        self.bits = bits\n        self.gradient_checkpointing = gradient_checkpointing\n        for k, v in kwargs.items():\n            if not hasattr(self, k):\n                setattr(self, k, v)\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        return (\n            (\"embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n            (\"norm/kernel\", PartitionSpec((\"fsdp\", \"sp\"), )),\n            (\"post_attention_layernorm/kernel\", PartitionSpec((\"fsdp\", \"sp\"), )),\n            (\"input_layernorm/kernel\", PartitionSpec((\"fsdp\", \"sp\"),)),\n\n            (\"mlp/gate_up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n            (\"self_attn/o_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/qkv_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec(None, ))\n\n        ) if fully_sharded_data_parallel else (\n            (\"embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n            (\"norm/kernel\", PartitionSpec(None, )),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None, )),\n            (\"input_layernorm/kernel\", PartitionSpec(None, )),\n\n            (\"mlp/gate_up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"mlp/down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"), )),\n            (\"self_attn/qkv_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec(None, ))\n        )\n\n    def _rope_scaling_validation(self):\n        \"\"\"Validate the `rope_scaling` configuration.\"\"\"\n        if self.rope_scaling is None:\n            return\n\n        if not isinstance(self.rope_scaling, dict) or len(self.rope_scaling) != 3:\n            raise ValueError(\n                \"`rope_scaling` must be a dictionary with three fields, `type`, `short_factor` and `long_factor`, \"\n                f\"got {self.rope_scaling}\"\n            )\n        rope_scaling_type = self.rope_scaling.get(\"type\", None)\n        rope_scaling_short_factor = self.rope_scaling.get(\"short_factor\", None)\n        rope_scaling_long_factor = self.rope_scaling.get(\"long_factor\", None)\n        if rope_scaling_type is None or rope_scaling_type not in [\"su\", \"yarn\"]:\n            raise ValueError(f\"`rope_scaling`'s type field must be one of ['su', 'yarn'], got {rope_scaling_type}\")\n        if not (\n                isinstance(rope_scaling_short_factor, list)\n                and all(isinstance(x, (int, float)) for x in rope_scaling_short_factor)\n        ):\n            raise ValueError(\n                f\"`rope_scaling`'s short_factor field must be a list of numbers, got {rope_scaling_short_factor}\"\n            )\n        if not len(rope_scaling_short_factor) == self.hidden_size // self.num_attention_heads // 2:\n            raise ValueError(\n                f\"`rope_scaling`'s short_factor field must have length {self.hidden_size // self.num_attention_heads // 2}, got {len(rope_scaling_short_factor)}\"\n            )\n        if not (\n                isinstance(rope_scaling_long_factor, list)\n                and all(isinstance(x, (int, float)) for x in rope_scaling_long_factor)\n        ):\n            raise ValueError(\n                f\"`rope_scaling`'s long_factor field must be a list of numbers, got {rope_scaling_long_factor}\"\n            )\n        if not len(rope_scaling_long_factor) == self.hidden_size // self.num_attention_heads // 2:\n            raise ValueError(\n                f\"`rope_scaling`'s long_factor field must have length {self.hidden_size // self.num_attention_heads // 2}, got {len(rope_scaling_long_factor)}\"\n            )\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/","title":"modules.qwen1.modelling_qwen1_flax","text":""},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Attention","title":"<code>FlaxQwen1Attention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>class FlaxQwen1Attention(BaseJAXAttentionModule):\n    config: Qwen1Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        config = self.config\n\n        self.hidden_size = config.hidden_size\n        self.head_dim = config.hidden_size // config.num_attention_heads\n        self.projection_size = config.kv_channels * config.num_attention_heads\n        assert self.projection_size % config.num_attention_heads == 0\n        self.hidden_size_per_attention_head = self.projection_size // config.num_attention_heads\n\n        self.c_attn = Linear(\n            self.projection_size * 3,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=True,\n            kernel_init=jax.nn.initializers.normal(\n                config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(config.bits, config.easy_method)\n        )\n\n        self.c_proj = Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=not self.config.no_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        logn_list = [\n            math.log(i, self.config.seq_length) if i &gt; self.config.seq_length else 1\n            for i in range(1, 32768)\n        ]\n        logn_tensor = jnp.asarray(logn_list)[None, :, None, None]\n        self.logn_tensor = logn_tensor\n        self.rotary = FlaxQwen1EmbeddingApplyer(self.dtype)\n        self.attention_performer = AttentionModule(\n            use_sharding_constraint=self.config.use_sharding_constraint,\n            block_k_major=self.config.block_k_major,\n            block_b=self.config.block_b,\n            block_q=self.config.block_q,\n            block_k=self.config.block_k,\n            block_q_major_dkv=self.config.block_q_major_dkv,\n            block_k_major_dkv=self.config.block_k_major_dkv,\n            block_k_major_dq=self.config.block_k_major_dq,\n            block_k_dkv=self.config.block_k_dkv,\n            block_q_dkv=self.config.block_q_dkv,\n            block_q_dq=self.config.block_q_dq,\n            block_k_dq=self.config.block_k_dq,\n            num_attention_heads=self.config.num_attention_heads,\n            attention_dropout=self.config.attn_dropout_prob,\n            head_dims=self.head_dim,\n            attention_partition_spec=self.config.attention_partition_spec,\n            shard_attention_computation=self.config.shard_attention_computation,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            bias_partition_spec=self.config.bias_partition_spec,\n            key_partition_spec=self.config.key_partition_spec,\n            query_partition_spec=self.config.query_partition_spec,\n            generation_query_partition_spec=self.config.generation_query_partition_spec,\n            generation_bias_partition_spec=self.config.generation_bias_partition_spec,\n            generation_attention_partition_spec=self.config.generation_attention_partition_spec,\n            value_partition_spec=self.config.value_partition_spec,\n            scan_ring_attention=self.config.scan_ring_attention,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name,\n            backward_pass_impl=self.config.flash_attention_backward_pass_impl\n        )\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.hidden_size,))\n\n    @staticmethod\n    def _transpose_sequence_head(query, key, value):\n        \"\"\"The _transpose_sequence_head function transposes the query, key and value matrices.\n\n        Args:\n            query: Get the attention weights for each of the heads\n            key: Determine the number of heads\n            value: Store the values of the input\n\n        Returns:\n            The transpose of the query, key and value matrices\n        \"\"\"\n        return jnp.transpose(query, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value, (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, rotary_pos_emb_list, position_ids):\n        \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n        The main difference is that it takes in an additional argument, rotary_pos_emb_list, which are used to calculate\n        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n        Args:\n            self: Access variables that belong to the class\n            batch_size: Reshape the query, key and value tensors\n            sequence_length: Reshape the query, key and value tensors\n            query_states: Calculate the attention weights\n            key: Calculate the attention\n            value: Compute the attention weights\n            rotary_pos_emb_list: Calculate the frequency of each word in\n                the vocabulary\n            position_ids: Identify the position of each token in the\n                sequence\n\n        Returns:\n            A tuple of 3 tensors: query_states, key and value\n        \"\"\"\n        query_states, key = self.rotary(\n            position_ids=position_ids, query_states=query_states, key=key, rotary_pos_emb_list=rotary_pos_emb_list\n        )\n        return query_states, key, value\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            rotary_pos_emb_list: list[chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            encoder_hidden_states: Optional[chex.Array] = None,\n            encoder_attention_mask: Optional[chex.Array] = None,\n            fcm_mask=None,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n        and it should return all outputs that are needed for training or inference.\n\n        Args:\n            self: Access variables that belong to the class\n            hidden_states: chex.Array: Pass the hidden states of the\n                previous layer\n            rotary_pos_emb_list: list[chex.Array]: Pass in the frequency\n                coefficients for each position\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Determine the position of each\n                token in a sequence\n            causal_mask: chex.Array: Mask out the future tokens in the\n                decoder\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n            fcm_mask: Mask out the attention weights between the input\n                and output tokens\n        :param : Determine if the attention is causal or not\n\n        Returns:\n            A tuple of two arrays\n        \"\"\"\n        batch_size, sequence_length = hidden_states.shape[:2]\n        mixed_x_layer: chex.Array = self.c_attn(hidden_states)\n        query_states, key_states, value_states = jnp.split(mixed_x_layer, 3, 2)\n\n        query_states = query_states.reshape(batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n        key_states = key_states.reshape(batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n        value_states = value_states.reshape(batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query=query_states,\n            key=key_states,\n            value=value_states,\n            position_ids=position_ids,\n            rotary_pos_emb_list=rotary_pos_emb_list,\n            batch_size=batch_size,\n            sequence_length=sequence_length\n        )\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                     query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        attention_mask = jnp.broadcast_to(jnp.expand_dims(\n            attention_mask, axis=(-3, -2)), causal_mask.shape)\n        attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n        dropout_rng = None\n\n        if not deterministic and self.config.attention_dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n        # if self.config.use_sharding_constraint:\n        #     query_states = with_sharding_constraint(\n        #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n        #     )\n        #     key_states = with_sharding_constraint(\n        #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        #     value_states = with_sharding_constraint(\n        #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        attention_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=attention_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n\n\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n\n        attn_output = self.c_proj(attn_output)\n\n        outputs = (\n            attn_output, attentions.attention_weights\n        ) if output_attentions else (\n            attn_output,\n        )\n        return outputs\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Attention.__call__","title":"<code>__call__(hidden_states, rotary_pos_emb_list, attention_mask, position_ids, causal_mask, segment_ids=None, deterministic=True, init_cache=False, output_attentions=False, encoder_hidden_states=None, encoder_attention_mask=None, fcm_mask=None)</code>","text":"<p>The call function is the main function of a JAX module. It defines how the module behaves when called with inputs. The call function can be thought of as a \"forward pass\" through the model, and it should return all outputs that are needed for training or inference.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the hidden states of the previous layer</p> required <code>rotary_pos_emb_list</code> <code>list[Array]</code> <p>list[chex.Array]: Pass in the frequency coefficients for each position</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask out the future tokens in the decoder</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <code>fcm_mask</code> <p>Mask out the attention weights between the input and output tokens</p> <code>None</code> <p>:param : Determine if the attention is causal or not</p> <p>Returns:</p> Type Description <p>A tuple of two arrays</p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        rotary_pos_emb_list: list[chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        encoder_hidden_states: Optional[chex.Array] = None,\n        encoder_attention_mask: Optional[chex.Array] = None,\n        fcm_mask=None,\n):\n    \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n    and it should return all outputs that are needed for training or inference.\n\n    Args:\n        self: Access variables that belong to the class\n        hidden_states: chex.Array: Pass the hidden states of the\n            previous layer\n        rotary_pos_emb_list: list[chex.Array]: Pass in the frequency\n            coefficients for each position\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Determine the position of each\n            token in a sequence\n        causal_mask: chex.Array: Mask out the future tokens in the\n            decoder\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n        fcm_mask: Mask out the attention weights between the input\n            and output tokens\n    :param : Determine if the attention is causal or not\n\n    Returns:\n        A tuple of two arrays\n    \"\"\"\n    batch_size, sequence_length = hidden_states.shape[:2]\n    mixed_x_layer: chex.Array = self.c_attn(hidden_states)\n    query_states, key_states, value_states = jnp.split(mixed_x_layer, 3, 2)\n\n    query_states = query_states.reshape(batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n    key_states = key_states.reshape(batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n    value_states = value_states.reshape(batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n\n    query_states, key_states, value_states = self.apply_rotary(\n        query=query_states,\n        key=key_states,\n        value=value_states,\n        position_ids=position_ids,\n        rotary_pos_emb_list=rotary_pos_emb_list,\n        batch_size=batch_size,\n        sequence_length=sequence_length\n    )\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n    if self.has_variable(\"cache\", \"cached_key\"):\n        mask_shift = self.variables[\"cache\"][\"cache_index\"]\n        max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n        causal_mask = lax.dynamic_slice(\n            causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                 query_length, max_decoder_length)\n        )\n    else:\n        causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n    batch_size = hidden_states.shape[0]\n    causal_mask = jnp.broadcast_to(\n        causal_mask, (batch_size,) + causal_mask.shape[1:])\n    attention_mask = jnp.broadcast_to(jnp.expand_dims(\n        attention_mask, axis=(-3, -2)), causal_mask.shape)\n    attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n    if attention_mask.ndim == 2:\n        attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n    dropout_rng = None\n\n    if not deterministic and self.config.attention_dropout &gt; 0.0:\n        dropout_rng = self.make_rng(\"dropout\")\n\n    if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n        key_states, value_states, attention_mask = self._concatenate_to_cache(\n            key_states,\n            value_states,\n            query_states,\n            attention_mask\n        )\n    # if self.config.use_sharding_constraint:\n    #     query_states = with_sharding_constraint(\n    #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n    #     )\n    #     key_states = with_sharding_constraint(\n    #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    #     value_states = with_sharding_constraint(\n    #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    attention_bias = lax.select(\n        attention_mask &gt; 0,\n        jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n        jnp.full(attention_mask.shape, jnp.finfo(\n            self.dtype).min).astype(self.dtype),\n    )\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    attentions = self.attention_performer.__call__(\n        query_states=query_states,\n        key_states=key_states,\n        value_states=value_states,\n        bias=attention_bias,\n        attention_mask=attention_mask,\n        causal=True,\n        dropout_rng=dropout_rng,\n        deterministic=deterministic,\n        query_sequence_length=query_length,\n        key_value_sequence_length=key_length,\n        uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n        segment_ids=segment_ids,\n        causal_mask=causal_mask\n    )\n\n\n    attn_output = self._merge_heads(attentions.attention_outputs)\n    if self.config.shard_attention_computation:\n        attn_output = with_sharding_constraint(\n            attn_output, PartitionSpec(\n                (\"dp\", \"fsdp\"),\n                \"sp\" if attn_output.shape[1] != 1 else None,\n                \"tp\"\n            )\n        )\n\n    attn_output = self.c_proj(attn_output)\n\n    outputs = (\n        attn_output, attentions.attention_weights\n    ) if output_attentions else (\n        attn_output,\n    )\n    return outputs\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Attention.apply_rotary","title":"<code>apply_rotary(batch_size, sequence_length, query, key, value, rotary_pos_emb_list, position_ids)</code>","text":"<p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class. The main difference is that it takes in an additional argument, rotary_pos_emb_list, which are used to calculate the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>batch_size</code> <p>Reshape the query, key and value tensors</p> required <code>sequence_length</code> <p>Reshape the query, key and value tensors</p> required <code>query_states</code> <p>Calculate the attention weights</p> required <code>key</code> <p>Calculate the attention</p> required <code>value</code> <p>Compute the attention weights</p> required <code>rotary_pos_emb_list</code> <p>Calculate the frequency of each word in the vocabulary</p> required <code>position_ids</code> <p>Identify the position of each token in the sequence</p> required <p>Returns:</p> Type Description <p>A tuple of 3 tensors: query_states, key and value</p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>def apply_rotary(self, batch_size, sequence_length, query, key, value, rotary_pos_emb_list, position_ids):\n    \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n    The main difference is that it takes in an additional argument, rotary_pos_emb_list, which are used to calculate\n    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n    Args:\n        self: Access variables that belong to the class\n        batch_size: Reshape the query, key and value tensors\n        sequence_length: Reshape the query, key and value tensors\n        query_states: Calculate the attention weights\n        key: Calculate the attention\n        value: Compute the attention weights\n        rotary_pos_emb_list: Calculate the frequency of each word in\n            the vocabulary\n        position_ids: Identify the position of each token in the\n            sequence\n\n    Returns:\n        A tuple of 3 tensors: query_states, key and value\n    \"\"\"\n    query_states, key = self.rotary(\n        position_ids=position_ids, query_states=query_states, key=key, rotary_pos_emb_list=rotary_pos_emb_list\n    )\n    return query_states, key, value\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Block","title":"<code>FlaxQwen1Block</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>class FlaxQwen1Block(nn.Module):\n    config: Qwen1Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self) -&gt; None:\n        attn_block = FlaxQwen1Attention\n        if self.config.gradient_checkpointing != \"\":\n            attn_block = nn_partitioning.remat(\n                FlaxQwen1Attention, static_argnums=(1, 3, 4, 6, 7, 8, 9, 10, 11),\n                policy=get_gradient_checkpoint_policy(\n                    self.config.gradient_checkpointing)\n            )\n\n        self.attn = attn_block(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        mlp_block = FlaxQwen1MLP\n\n        if self.config.gradient_checkpointing != \"\":\n            mlp_block = nn_partitioning.remat(\n                FlaxQwen1MLP, static_argnums=(1,),\n                policy=get_gradient_checkpoint_policy(\n                    self.config.gradient_checkpointing)\n            )\n\n        self.mlp = mlp_block(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n        )\n        self.ln_1 = Qwen1RMSNorm(\n            self.config.hidden_size,\n            eps=self.config.layer_norm_epsilon,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n        )\n        self.ln_2 = Qwen1RMSNorm(\n            self.config.hidden_size,\n            eps=self.config.layer_norm_epsilon,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n\n        )\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            rotary_pos_emb_list: list[chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            encoder_hidden_states: Optional[chex.Array] = None,\n            encoder_attention_mask: Optional[chex.Array] = None,\n            fcm_mask: Optional[jnp.ndarray] = None,\n    ):\n        \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n        It takes in hidden states, frequency-domain inputs, and masks as input. It then\n        applies self-attention to the hidden states using those inputs and returns an\n        output tensor with shape (batch_size, sequence_length, model_dim).\n\n        Args:\n            self: Refer to the class instance itself\n            hidden_states: chex.Array: Pass in the hidden state of the\n                previous layer\n            rotary_pos_emb_list: list[chex.Array]: Pass in the frequency\n                information\n            attention_mask: chex.Array: Mask out the attention weights\n                for padding tokens\n            position_ids: chex.Array: Determine the position of each\n                token in the sequence\n            causal_mask: chex.Array: Mask the attention weights\n            deterministic: bool: Control whether the dropout is applied\n                or not\n            init_cache: bool: Initialize the cache in the attention\n                layer\n            output_attentions: bool: Return the attention weights\n            fcm_mask: Optional[jnp.ndarray]: Mask the self-attention\n        :param : Control the dropout in the self attention layer\n\n        Returns:\n            A tuple of two items\n        \"\"\"\n        # hidden_states: chex.Array\n        # rotary_pos_emb_list: list[chex.Array]\n        # attention_mask: chex.Array\n        # position_ids: chex.Array\n        # causal_mask: chex.Array\n        # deterministic: bool = True\n        # init_cache: bool = False\n        # output_attentions: bool = False\n        # encoder_hidden_states: Optional[chex.Array] = None\n        # encoder_attention_mask: Optional[chex.Array] = None\n        # fcm_mask = None\n\n        attn_outputs = self.attn(\n            self.ln_1(hidden_states),\n            rotary_pos_emb_list,\n            attention_mask,\n            position_ids,\n            causal_mask,\n            segment_ids,\n            deterministic,\n            init_cache,\n            output_attentions,\n            encoder_attention_mask,\n            encoder_hidden_states,\n            fcm_mask,\n        )\n        attn_output = attn_outputs[0]\n        hidden_states = hidden_states + attn_output\n\n        feed_forward_input = self.ln_2(hidden_states)\n\n        if self.config.use_scan_mlp:\n            feed_forward_input = einops.rearrange(\n                feed_forward_input,\n                '... (b s) d -&gt; ... b s d',\n                b=self.config.scan_mlp_chunk_size\n            )\n\n            def mlp_forward(mlp, carry, x):\n                return None, mlp(x, deterministic)\n\n            scan_axis = feed_forward_input.ndim - 3\n\n            _, feed_forward_hidden_states = nn.scan(\n                mlp_forward,\n                variable_broadcast=\"params\",\n                split_rngs={\"params\": False, \"dropout\": True},\n                in_axes=scan_axis,\n                out_axes=scan_axis,\n            )(self.mlp, None, feed_forward_input)\n            feed_forward_hidden_states = einops.rearrange(\n                feed_forward_hidden_states,\n                '... b s d -&gt; ... (b s) d'\n            )\n        else:\n            feed_forward_hidden_states = self.mlp(\n                feed_forward_input,\n                deterministic,\n            )\n\n        hidden_states = hidden_states + feed_forward_hidden_states\n\n        return (hidden_states,) + attn_outputs[1:]\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Block.__call__","title":"<code>__call__(hidden_states, rotary_pos_emb_list, attention_mask, position_ids, causal_mask, segment_ids=None, deterministic=True, init_cache=False, output_attentions=False, encoder_hidden_states=None, encoder_attention_mask=None, fcm_mask=None)</code>","text":"<p>The call function is the main function of a TransformerEncoderLayer. It takes in hidden states, frequency-domain inputs, and masks as input. It then applies self-attention to the hidden states using those inputs and returns an output tensor with shape (batch_size, sequence_length, model_dim).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the class instance itself</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass in the hidden state of the previous layer</p> required <code>rotary_pos_emb_list</code> <code>list[Array]</code> <p>list[chex.Array]: Pass in the frequency information</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the attention weights for padding tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in the sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the attention weights</p> required <code>deterministic</code> <code>bool</code> <p>bool: Control whether the dropout is applied or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache in the attention layer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>fcm_mask</code> <code>Optional[ndarray]</code> <p>Optional[jnp.ndarray]: Mask the self-attention</p> <code>None</code> <p>:param : Control the dropout in the self attention layer</p> <p>Returns:</p> Type Description <p>A tuple of two items</p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        rotary_pos_emb_list: list[chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        encoder_hidden_states: Optional[chex.Array] = None,\n        encoder_attention_mask: Optional[chex.Array] = None,\n        fcm_mask: Optional[jnp.ndarray] = None,\n):\n    \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n    It takes in hidden states, frequency-domain inputs, and masks as input. It then\n    applies self-attention to the hidden states using those inputs and returns an\n    output tensor with shape (batch_size, sequence_length, model_dim).\n\n    Args:\n        self: Refer to the class instance itself\n        hidden_states: chex.Array: Pass in the hidden state of the\n            previous layer\n        rotary_pos_emb_list: list[chex.Array]: Pass in the frequency\n            information\n        attention_mask: chex.Array: Mask out the attention weights\n            for padding tokens\n        position_ids: chex.Array: Determine the position of each\n            token in the sequence\n        causal_mask: chex.Array: Mask the attention weights\n        deterministic: bool: Control whether the dropout is applied\n            or not\n        init_cache: bool: Initialize the cache in the attention\n            layer\n        output_attentions: bool: Return the attention weights\n        fcm_mask: Optional[jnp.ndarray]: Mask the self-attention\n    :param : Control the dropout in the self attention layer\n\n    Returns:\n        A tuple of two items\n    \"\"\"\n    # hidden_states: chex.Array\n    # rotary_pos_emb_list: list[chex.Array]\n    # attention_mask: chex.Array\n    # position_ids: chex.Array\n    # causal_mask: chex.Array\n    # deterministic: bool = True\n    # init_cache: bool = False\n    # output_attentions: bool = False\n    # encoder_hidden_states: Optional[chex.Array] = None\n    # encoder_attention_mask: Optional[chex.Array] = None\n    # fcm_mask = None\n\n    attn_outputs = self.attn(\n        self.ln_1(hidden_states),\n        rotary_pos_emb_list,\n        attention_mask,\n        position_ids,\n        causal_mask,\n        segment_ids,\n        deterministic,\n        init_cache,\n        output_attentions,\n        encoder_attention_mask,\n        encoder_hidden_states,\n        fcm_mask,\n    )\n    attn_output = attn_outputs[0]\n    hidden_states = hidden_states + attn_output\n\n    feed_forward_input = self.ln_2(hidden_states)\n\n    if self.config.use_scan_mlp:\n        feed_forward_input = einops.rearrange(\n            feed_forward_input,\n            '... (b s) d -&gt; ... b s d',\n            b=self.config.scan_mlp_chunk_size\n        )\n\n        def mlp_forward(mlp, carry, x):\n            return None, mlp(x, deterministic)\n\n        scan_axis = feed_forward_input.ndim - 3\n\n        _, feed_forward_hidden_states = nn.scan(\n            mlp_forward,\n            variable_broadcast=\"params\",\n            split_rngs={\"params\": False, \"dropout\": True},\n            in_axes=scan_axis,\n            out_axes=scan_axis,\n        )(self.mlp, None, feed_forward_input)\n        feed_forward_hidden_states = einops.rearrange(\n            feed_forward_hidden_states,\n            '... b s d -&gt; ... (b s) d'\n        )\n    else:\n        feed_forward_hidden_states = self.mlp(\n            feed_forward_input,\n            deterministic,\n        )\n\n    hidden_states = hidden_states + feed_forward_hidden_states\n\n    return (hidden_states,) + attn_outputs[1:]\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1BlockCollection","title":"<code>FlaxQwen1BlockCollection</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>class FlaxQwen1BlockCollection(nn.Module):\n    config: Qwen1Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        self.blocks = [\n            FlaxQwen1Block(\n                self.config,\n                name=str(i),\n                dtype=self.dtype,\n                param_dtype=self.param_dtype,\n                precision=self.precision\n            )\n            for i in range(\n                self.config.num_hidden_layers\n            )\n        ]\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            rotary_pos_emb_list: list[chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX nn.Module.\n        It defines how the module behaves when called as a function, and it's what you'll use to call your model\n         in training loops or inference scripts.\n        The __call__ method should take all inputs that are necessary for computing outputs from the module,\n        and return all outputs that are computed by this module.\n\n        Args:\n            self: Represent the instance of the class\n            hidden_states: chex.Array: Pass the input tensor to the\n                encoder\n            rotary_pos_emb_list: chex.Array: Pass in the frequency of\n                each token\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Specify the position of each token\n                in a sequence\n            causal_mask: chex.Array: Mask the attention weights\n            deterministic: bool: Determine whether the model is in\n                training or evaluation mode\n            init_cache: bool: Initialize the cache for each layer\n            output_attentions: bool: Determine whether to output the\n                attention weights\n            output_hidden_states: bool: Determine whether to return the\n                hidden states of each layer\n            return_dict: bool: Return a dictionary of the outputs\n        :param : Determine whether to use the forgetful causal mask\n\n        Returns:\n            A tuple of 3 values\n        \"\"\"\n        all_attentions = () if output_attentions else None\n        all_hidden_states = () if output_hidden_states else None\n\n        if not deterministic and self.config.fcm_max_ratio &gt; 0:\n            # Apply forgetful causal mask\n            batch_size, seq_length = hidden_states.shape[0], hidden_states.shape[1]\n            fcm_ratio = jax.random.uniform(\n                self.make_rng('fcm'), shape=(batch_size, 1, 1, 1),\n                minval=self.config.fcm_min_ratio,\n                maxval=self.config.fcm_max_ratio\n            )\n            fcm_mask = jax.random.uniform(\n                self.make_rng('fcm'),\n                shape=(batch_size, 1, seq_length, seq_length)\n            ) &gt; fcm_ratio\n            fcm_mask = fcm_mask.at[:, :, :, 0].set(True)\n            fcm_mask = fcm_mask.astype('bool')\n        else:\n            fcm_mask = None\n\n        for block in self.blocks:\n            if output_hidden_states:\n                all_hidden_states += (hidden_states,)\n\n            layer_outputs = block(\n                hidden_states=hidden_states,\n                rotary_pos_emb_list=rotary_pos_emb_list,\n                attention_mask=attention_mask,\n                position_ids=position_ids,\n                causal_mask=causal_mask,\n                deterministic=deterministic,\n                init_cache=init_cache,\n                output_attentions=output_attentions,\n                fcm_mask=fcm_mask,\n            )\n            hidden_states = layer_outputs[0]\n\n            if output_attentions:\n                all_attentions += (layer_outputs[1],)\n\n        outputs = (hidden_states, all_hidden_states, all_attentions)\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1BlockCollection.__call__","title":"<code>__call__(hidden_states, rotary_pos_emb_list, attention_mask, position_ids, causal_mask, deterministic=True, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True)</code>","text":"<p>The call function is the main function of a JAX nn.Module. It defines how the module behaves when called as a function, and it's what you'll use to call your model  in training loops or inference scripts. The call method should take all inputs that are necessary for computing outputs from the module, and return all outputs that are computed by this module.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the input tensor to the encoder</p> required <code>rotary_pos_emb_list</code> <code>list[Array]</code> <p>chex.Array: Pass in the frequency of each token</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the attention weights</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether the model is in training or evaluation mode</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for each layer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to output the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Determine whether to return the hidden states of each layer</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs</p> <code>True</code> <p>:param : Determine whether to use the forgetful causal mask</p> <p>Returns:</p> Type Description <p>A tuple of 3 values</p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        rotary_pos_emb_list: list[chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n):\n    \"\"\"The __call__ function is the main function of a JAX nn.Module.\n    It defines how the module behaves when called as a function, and it's what you'll use to call your model\n     in training loops or inference scripts.\n    The __call__ method should take all inputs that are necessary for computing outputs from the module,\n    and return all outputs that are computed by this module.\n\n    Args:\n        self: Represent the instance of the class\n        hidden_states: chex.Array: Pass the input tensor to the\n            encoder\n        rotary_pos_emb_list: chex.Array: Pass in the frequency of\n            each token\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Specify the position of each token\n            in a sequence\n        causal_mask: chex.Array: Mask the attention weights\n        deterministic: bool: Determine whether the model is in\n            training or evaluation mode\n        init_cache: bool: Initialize the cache for each layer\n        output_attentions: bool: Determine whether to output the\n            attention weights\n        output_hidden_states: bool: Determine whether to return the\n            hidden states of each layer\n        return_dict: bool: Return a dictionary of the outputs\n    :param : Determine whether to use the forgetful causal mask\n\n    Returns:\n        A tuple of 3 values\n    \"\"\"\n    all_attentions = () if output_attentions else None\n    all_hidden_states = () if output_hidden_states else None\n\n    if not deterministic and self.config.fcm_max_ratio &gt; 0:\n        # Apply forgetful causal mask\n        batch_size, seq_length = hidden_states.shape[0], hidden_states.shape[1]\n        fcm_ratio = jax.random.uniform(\n            self.make_rng('fcm'), shape=(batch_size, 1, 1, 1),\n            minval=self.config.fcm_min_ratio,\n            maxval=self.config.fcm_max_ratio\n        )\n        fcm_mask = jax.random.uniform(\n            self.make_rng('fcm'),\n            shape=(batch_size, 1, seq_length, seq_length)\n        ) &gt; fcm_ratio\n        fcm_mask = fcm_mask.at[:, :, :, 0].set(True)\n        fcm_mask = fcm_mask.astype('bool')\n    else:\n        fcm_mask = None\n\n    for block in self.blocks:\n        if output_hidden_states:\n            all_hidden_states += (hidden_states,)\n\n        layer_outputs = block(\n            hidden_states=hidden_states,\n            rotary_pos_emb_list=rotary_pos_emb_list,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            causal_mask=causal_mask,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            fcm_mask=fcm_mask,\n        )\n        hidden_states = layer_outputs[0]\n\n        if output_attentions:\n            all_attentions += (layer_outputs[1],)\n\n    outputs = (hidden_states, all_hidden_states, all_attentions)\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForCausalLMModule","title":"<code>FlaxQwen1ForCausalLMModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>class FlaxQwen1ForCausalLMModule(nn.Module):\n    config: Qwen1Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        self.transformer = FlaxQwen1Module(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n        )\n\n        self.lm_head = Linear(\n            self.config.vocab_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(stddev=self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n    ):\n        \"\"\"The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.\n\n        Args:\n            self: Refer to the object itself\n            input_ids: chex.Array: Pass the input token ids to the model\n            attention_mask: chex.Array: Mask out the padding tokens\n            position_ids: chex.Array: Specify the position of each token\n                in the input sequence\n            deterministic: bool: Control whether the model is trained or\n                not\n            init_cache: bool: Initialize the cache for the decoder\n            output_attentions: bool: Return the attention weights\n            output_hidden_states: bool: Determine whether to return the\n                hidden states\n            return_dict: bool: Return a dictionary of the outputs or not\n            extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n                embedding of the word that we want to predict\n            None]]: Pass in the extra embedding\n\n        Returns:\n            The logits and the hidden states\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n        if attention_mask is None:\n            attention_mask = jnp.ones_like(input_ids)\n        if position_ids is None:\n            position_ids = jnp.broadcast_to(\n                jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n                (batch_size, seq_length)\n            )\n        outputs = self.transformer(\n            input_ids,\n            attention_mask,\n            position_ids,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n            extra_embedding=extra_embedding\n        )\n\n        hidden_states = outputs[0]\n\n        if self.config.tie_word_embeddings:\n            shared_kernel = self.model.variables[\"params\"][\"wte\"][\"embedding\"]\n            shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n            lm_logits = self.lm_head.apply(\n                {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n        else:\n            lm_logits = self.lm_head(hidden_states)\n\n        lm_logits = lm_logits.astype(jnp.float32)\n\n        if not return_dict:\n            return (lm_logits,) + outputs[1:]\n\n        return FlaxCausalLMOutput(logits=lm_logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions)\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForCausalLMModule.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, deterministic=True, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True, extra_embedding=None)</code>","text":"<p>The call function is the main function of a Flax module. It takes in inputs and returns outputs.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass the input token ids to the model</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the padding tokens</p> <code>None</code> <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in the input sequence</p> <code>None</code> <code>deterministic</code> <code>bool</code> <p>bool: Control whether the model is trained or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the decoder</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Determine whether to return the hidden states</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs or not</p> <code>True</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray: Pass in the embedding of the word that we want to predict</p> <code>None</code> <code>None]]</code> <p>Pass in the extra embedding</p> required <p>Returns:</p> Type Description <p>The logits and the hidden states</p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array = None,\n        position_ids: chex.Array = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n):\n    \"\"\"The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.\n\n    Args:\n        self: Refer to the object itself\n        input_ids: chex.Array: Pass the input token ids to the model\n        attention_mask: chex.Array: Mask out the padding tokens\n        position_ids: chex.Array: Specify the position of each token\n            in the input sequence\n        deterministic: bool: Control whether the model is trained or\n            not\n        init_cache: bool: Initialize the cache for the decoder\n        output_attentions: bool: Return the attention weights\n        output_hidden_states: bool: Determine whether to return the\n            hidden states\n        return_dict: bool: Return a dictionary of the outputs or not\n        extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n            embedding of the word that we want to predict\n        None]]: Pass in the extra embedding\n\n    Returns:\n        The logits and the hidden states\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n    if attention_mask is None:\n        attention_mask = jnp.ones_like(input_ids)\n    if position_ids is None:\n        position_ids = jnp.broadcast_to(\n            jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n            (batch_size, seq_length)\n        )\n    outputs = self.transformer(\n        input_ids,\n        attention_mask,\n        position_ids,\n        deterministic=deterministic,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict,\n        extra_embedding=extra_embedding\n    )\n\n    hidden_states = outputs[0]\n\n    if self.config.tie_word_embeddings:\n        shared_kernel = self.model.variables[\"params\"][\"wte\"][\"embedding\"]\n        shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n        lm_logits = self.lm_head.apply(\n            {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n    else:\n        lm_logits = self.lm_head(hidden_states)\n\n    lm_logits = lm_logits.astype(jnp.float32)\n\n    if not return_dict:\n        return (lm_logits,) + outputs[1:]\n\n    return FlaxCausalLMOutput(logits=lm_logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions)\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForSequenceClassificationModule","title":"<code>FlaxQwen1ForSequenceClassificationModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>class FlaxQwen1ForSequenceClassificationModule(nn.Module):\n    num_classes: int\n    config: Qwen1Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        \"\"\"The setup function is called once at the beginning of training.\n        It initializes the model and optimizer, and sets up any other state that needs to be initialized.\n\n        Args:\n            self: Access variables that belong to the class\n\n        Returns:\n            A tuple of the model and the classifier\n        \"\"\"\n        self.model = FlaxQwen1Module(self.config, dtype=self.dtype)\n        self.classifier = Linear(\n            self.num_classes,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                stddev=self.config.initializer_range),\n            precision=self.precision,\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n    ):\n        \"\"\"The __call__ function is the main function of a Flax module.\n        It takes in all the inputs to the model and returns all outputs from it.\n        The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:\n            &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class\n            &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__\n\n        Args:\n            self: Refer to the class instance\n            input_ids: chex.Array: Pass the input to the model\n            attention_mask: chex.Array: Specify which tokens are masked\n            position_ids: chex.Array: Specify the position of each token\n                in the sequence\n            deterministic: bool: Control whether the model is run in\n                deterministic or stochastic mode\n            init_cache: bool: Initialize the cache for the transformer\n            output_attentions: bool: Return the attention weights\n            output_hidden_states: bool: Return the hidden states of all\n                h\n            return_dict: bool: Return a dictionary of outputs\n            extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n                embedding of a new word\n            None]]: Pass the extra embedding to the model\n\n        Returns:\n            A tuple of logits and hidden_states\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n        if attention_mask is None:\n            attention_mask = jnp.ones_like(input_ids)\n        if position_ids is None:\n            position_ids = jnp.broadcast_to(\n                jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n                (batch_size, seq_length)\n            )\n        outputs = self.model(\n            input_ids,\n            attention_mask,\n            position_ids,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n            extra_embedding=extra_embedding\n        )\n\n        hidden_states = outputs[0]\n        prediction = self.classifier(hidden_states)\n        if return_dict:\n            return FlaxSequenceClassifierOutput(\n                logits=prediction,\n                hidden_states=hidden_states\n            )\n        else:\n            return prediction,\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForSequenceClassificationModule.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, deterministic=True, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True, extra_embedding=None)</code>","text":"<p>The call function is the main function of a Flax module. It takes in all the inputs to the model and returns all outputs from it. The call function can be called directly on an instance of a class, or by using parentheses after an instance:     &gt;&gt;&gt; my_model = MyModel()  # instantiate your model class     &gt;&gt;&gt; output = my_model(input)  # call your model with input data as arguments to call</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the class instance</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass the input to the model</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Specify which tokens are masked</p> <code>None</code> <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in the sequence</p> <code>None</code> <code>deterministic</code> <code>bool</code> <p>bool: Control whether the model is run in deterministic or stochastic mode</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the transformer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Return the hidden states of all h</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of outputs</p> <code>True</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray: Pass in the embedding of a new word</p> <code>None</code> <code>None]]</code> <p>Pass the extra embedding to the model</p> required <p>Returns:</p> Type Description <p>A tuple of logits and hidden_states</p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array = None,\n        position_ids: chex.Array = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n):\n    \"\"\"The __call__ function is the main function of a Flax module.\n    It takes in all the inputs to the model and returns all outputs from it.\n    The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:\n        &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class\n        &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__\n\n    Args:\n        self: Refer to the class instance\n        input_ids: chex.Array: Pass the input to the model\n        attention_mask: chex.Array: Specify which tokens are masked\n        position_ids: chex.Array: Specify the position of each token\n            in the sequence\n        deterministic: bool: Control whether the model is run in\n            deterministic or stochastic mode\n        init_cache: bool: Initialize the cache for the transformer\n        output_attentions: bool: Return the attention weights\n        output_hidden_states: bool: Return the hidden states of all\n            h\n        return_dict: bool: Return a dictionary of outputs\n        extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n            embedding of a new word\n        None]]: Pass the extra embedding to the model\n\n    Returns:\n        A tuple of logits and hidden_states\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n    if attention_mask is None:\n        attention_mask = jnp.ones_like(input_ids)\n    if position_ids is None:\n        position_ids = jnp.broadcast_to(\n            jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n            (batch_size, seq_length)\n        )\n    outputs = self.model(\n        input_ids,\n        attention_mask,\n        position_ids,\n        deterministic=deterministic,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict,\n        extra_embedding=extra_embedding\n    )\n\n    hidden_states = outputs[0]\n    prediction = self.classifier(hidden_states)\n    if return_dict:\n        return FlaxSequenceClassifierOutput(\n            logits=prediction,\n            hidden_states=hidden_states\n        )\n    else:\n        return prediction,\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1ForSequenceClassificationModule.setup","title":"<code>setup()</code>","text":"<p>The setup function is called once at the beginning of training. It initializes the model and optimizer, and sets up any other state that needs to be initialized.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <p>Returns:</p> Type Description <p>A tuple of the model and the classifier</p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>def setup(self):\n    \"\"\"The setup function is called once at the beginning of training.\n    It initializes the model and optimizer, and sets up any other state that needs to be initialized.\n\n    Args:\n        self: Access variables that belong to the class\n\n    Returns:\n        A tuple of the model and the classifier\n    \"\"\"\n    self.model = FlaxQwen1Module(self.config, dtype=self.dtype)\n    self.classifier = Linear(\n        self.num_classes,\n        dtype=self.dtype,\n        param_dtype=self.param_dtype,\n        use_bias=False,\n        kernel_init=jax.nn.initializers.normal(\n            stddev=self.config.initializer_range),\n        precision=self.precision,\n    )\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1MLP","title":"<code>FlaxQwen1MLP</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>class FlaxQwen1MLP(nn.Module):\n    config: Qwen1Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self) -&gt; None:\n        config = self.config\n\n        self.w1 = Linear(\n            config.intermediate_size // 2,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=not self.config.no_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.w2 = Linear(\n            config.intermediate_size // 2,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=not self.config.no_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.c_proj = Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=not self.config.no_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n    def __call__(self, x: jnp.ndarray, deterministic: bool = True) -&gt; jnp.ndarray:\n        \"\"\"The __call__ function is the main function of a class.\n        It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).\n        The __call__ method enables instances of a class to be called like standard Python functions.\n\n        Args:\n            self: Represent the instance of the class\n            x: jnp.ndarray: Pass in the input to the layer\n            deterministic: bool: Determine whether to use dropout\n\n        Returns:\n            A tensor that is the result of applying a dropout function\n            to x\n        \"\"\"\n        x = self.c_proj(jax.nn.silu(self.w2(x)) * self.w1(x))\n        return x\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1MLP.__call__","title":"<code>__call__(x, deterministic=True)</code>","text":"<p>The call function is the main function of a class. It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments). The call method enables instances of a class to be called like standard Python functions.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>x</code> <code>ndarray</code> <p>jnp.ndarray: Pass in the input to the layer</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout</p> <code>True</code> <p>Returns:</p> Type Description <code>ndarray</code> <p>A tensor that is the result of applying a dropout function</p> <code>ndarray</code> <p>to x</p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>def __call__(self, x: jnp.ndarray, deterministic: bool = True) -&gt; jnp.ndarray:\n    \"\"\"The __call__ function is the main function of a class.\n    It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).\n    The __call__ method enables instances of a class to be called like standard Python functions.\n\n    Args:\n        self: Represent the instance of the class\n        x: jnp.ndarray: Pass in the input to the layer\n        deterministic: bool: Determine whether to use dropout\n\n    Returns:\n        A tensor that is the result of applying a dropout function\n        to x\n    \"\"\"\n    x = self.c_proj(jax.nn.silu(self.w2(x)) * self.w1(x))\n    return x\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Module","title":"<code>FlaxQwen1Module</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>class FlaxQwen1Module(nn.Module):\n    config: Qwen1Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n\n        self.wte = nn.Embed(\n            self.config.vocab_size,\n            self.config.hidden_size,\n            embedding_init=jax.nn.initializers.normal(\n                stddev=self.config.initializer_range\n            ),\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n        )\n        self.drop = flax.linen.Dropout(rate=self.config.emb_dropout_prob)\n        self.h = FlaxQwen1BlockCollection(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.ln_f = Qwen1RMSNorm(\n            self.config.hidden_size,\n            eps=self.config.layer_norm_epsilon,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n        config = self.config\n        if config.rotary_pct == 1.0:\n            self.rotary_ndims = None\n        else:\n            assert config.rotary_pct &lt; 1\n            self.rotary_ndims = int(\n                config.kv_channels * config.rotary_pct\n            )\n        self.causal_mask = make_causal_mask(\n            jnp.ones(\n                (1, getattr(config, \"c_max_position_embeddings\", config.seq_length)),\n                dtype=\"bool\"),\n            dtype=\"bool\"\n        )\n        self.rope_cache = compute_qwen1_rope(\n            dim=self.rotary_ndims if self.rotary_ndims is not None else config.kv_channels,\n            base=self.config.rotary_emb_base,\n            seqlen=getattr(config, \"freq_max_position_embeddings\", config.seq_length)\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            deterministic: bool = True,\n            inputs_embeds: chex.Array = None,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n    ):\n        \"\"\"The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids\n        and returns the output of the model. The __call__ function also has optional arguments that can be used to control\n        the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when\n        calling a Flax model.\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: chex.Array: Pass in the input token ids\n            attention_mask: chex.Array: Mask out the padding tokens\n            position_ids: chex.Array: Indicate the position of each\n                token in a sequence\n            deterministic: bool: Control whether dropout is applied or\n                not\n            inputs_embeds: chex.Array: Pass in the embeddings of the\n                input tokens\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attentions or not\n            output_hidden_states: bool: Determine whether to return\n                hidden states\n            return_dict: bool: Return a dictionary of the output or not\n            extra_embedding: Optional[Union[jnp.ndarray, None]]: Pass in\n                the embedding of the\n\n        Returns:\n            A tuple of:\n        \"\"\"\n        if inputs_embeds is None:\n            inputs_embeds = self.wte(input_ids.astype(\"i4\"))\n\n        batch_size, sequence_length, _ = inputs_embeds.shape\n        kv_seq_len = sequence_length\n\n        if self.h.blocks[0].attn.has_variable(\"cache\", \"cached_key\"):\n            cache_index = self.h.blocks[0].attn.get_variable(\n                \"cache\", \"cache_index\", lambda: jnp.array(0, dtype=jnp.int32)\n            )\n            kv_seq_len += cache_index\n\n        # if deterministic or not self.config.use_dynamic_ntk:\n        #     ntk_alpha_list = [1.0]\n        # elif kv_seq_len != inputs_embeds.shape[1]:\n        #     ntk_alpha_list = self.rotary_emb._ntk_alpha_cached_list\n        # else:\n        #     ntk_alpha_list = []\n        #     if attention_mask is not None and kv_seq_len &gt; self.seq_length:\n        #         true_seq_lens = jnp.sum(attention_mask.reshape(batch_size, 1, 1, -1) == 0, axis=-1, dtype=jnp.float32)\n        #         for i in range(inputs_embeds.shape[0]):\n        #             true_seq_len = true_seq_lens[i].item()\n        #             ntk_alpha = self.get_ntk_alpha(true_seq_len)\n        #             ntk_alpha_list.append(ntk_alpha)\n        #     else:\n        #         ntk_alpha = self.get_ntk_alpha(kv_seq_len)\n        #         ntk_alpha_list.append(ntk_alpha)\n        # self.rotary_emb.set_ntk_alpha_cached_list(ntk_alpha_list)\n        # rotary_pos_emb_list = []\n        assert sequence_length &lt;= self.config.seq_length, \"Maximum Position Embedding Reached !\"\n        inputs_embeds = inputs_embeds + extra_embedding if extra_embedding is not None else inputs_embeds\n        hidden_states = self.drop(\n            inputs_embeds, deterministic=deterministic\n        )\n\n        outputs = self.h(\n            hidden_states=hidden_states,\n            rotary_pos_emb_list=[self.rope_cache],\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            causal_mask=self.causal_mask,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n        )\n\n        hidden_states = outputs[0]\n        hidden_states = self.ln_f(hidden_states)\n\n        if output_hidden_states:\n            all_hidden_states = outputs[1] + (hidden_states,)\n            outputs = (hidden_states, all_hidden_states) + outputs[2:]\n        else:\n            outputs = (hidden_states,) + outputs[1:]\n\n        if not return_dict:\n            return tuple(v for v in outputs if v is not None)\n\n        return FlaxBaseModelOutput(\n            last_hidden_state=hidden_states,\n            hidden_states=outputs[1],\n            attentions=outputs[-1],\n        )\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1Module.__call__","title":"<code>__call__(input_ids, attention_mask, position_ids, deterministic=True, inputs_embeds=None, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True, extra_embedding=None)</code>","text":"<p>The call function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids and returns the output of the model. The call function also has optional arguments that can be used to control the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when calling a Flax model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass in the input token ids</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the padding tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Indicate the position of each token in a sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Control whether dropout is applied or not</p> <code>True</code> <code>inputs_embeds</code> <code>Array</code> <p>chex.Array: Pass in the embeddings of the input tokens</p> <code>None</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attentions or not</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Determine whether to return hidden states</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the output or not</p> <code>True</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray, None]]: Pass in the embedding of the</p> <code>None</code> <p>Returns:</p> Type Description <p>A tuple of:</p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        deterministic: bool = True,\n        inputs_embeds: chex.Array = None,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n):\n    \"\"\"The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids\n    and returns the output of the model. The __call__ function also has optional arguments that can be used to control\n    the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when\n    calling a Flax model.\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: chex.Array: Pass in the input token ids\n        attention_mask: chex.Array: Mask out the padding tokens\n        position_ids: chex.Array: Indicate the position of each\n            token in a sequence\n        deterministic: bool: Control whether dropout is applied or\n            not\n        inputs_embeds: chex.Array: Pass in the embeddings of the\n            input tokens\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attentions or not\n        output_hidden_states: bool: Determine whether to return\n            hidden states\n        return_dict: bool: Return a dictionary of the output or not\n        extra_embedding: Optional[Union[jnp.ndarray, None]]: Pass in\n            the embedding of the\n\n    Returns:\n        A tuple of:\n    \"\"\"\n    if inputs_embeds is None:\n        inputs_embeds = self.wte(input_ids.astype(\"i4\"))\n\n    batch_size, sequence_length, _ = inputs_embeds.shape\n    kv_seq_len = sequence_length\n\n    if self.h.blocks[0].attn.has_variable(\"cache\", \"cached_key\"):\n        cache_index = self.h.blocks[0].attn.get_variable(\n            \"cache\", \"cache_index\", lambda: jnp.array(0, dtype=jnp.int32)\n        )\n        kv_seq_len += cache_index\n\n    # if deterministic or not self.config.use_dynamic_ntk:\n    #     ntk_alpha_list = [1.0]\n    # elif kv_seq_len != inputs_embeds.shape[1]:\n    #     ntk_alpha_list = self.rotary_emb._ntk_alpha_cached_list\n    # else:\n    #     ntk_alpha_list = []\n    #     if attention_mask is not None and kv_seq_len &gt; self.seq_length:\n    #         true_seq_lens = jnp.sum(attention_mask.reshape(batch_size, 1, 1, -1) == 0, axis=-1, dtype=jnp.float32)\n    #         for i in range(inputs_embeds.shape[0]):\n    #             true_seq_len = true_seq_lens[i].item()\n    #             ntk_alpha = self.get_ntk_alpha(true_seq_len)\n    #             ntk_alpha_list.append(ntk_alpha)\n    #     else:\n    #         ntk_alpha = self.get_ntk_alpha(kv_seq_len)\n    #         ntk_alpha_list.append(ntk_alpha)\n    # self.rotary_emb.set_ntk_alpha_cached_list(ntk_alpha_list)\n    # rotary_pos_emb_list = []\n    assert sequence_length &lt;= self.config.seq_length, \"Maximum Position Embedding Reached !\"\n    inputs_embeds = inputs_embeds + extra_embedding if extra_embedding is not None else inputs_embeds\n    hidden_states = self.drop(\n        inputs_embeds, deterministic=deterministic\n    )\n\n    outputs = self.h(\n        hidden_states=hidden_states,\n        rotary_pos_emb_list=[self.rope_cache],\n        attention_mask=attention_mask,\n        position_ids=position_ids,\n        causal_mask=self.causal_mask,\n        deterministic=deterministic,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict,\n    )\n\n    hidden_states = outputs[0]\n    hidden_states = self.ln_f(hidden_states)\n\n    if output_hidden_states:\n        all_hidden_states = outputs[1] + (hidden_states,)\n        outputs = (hidden_states, all_hidden_states) + outputs[2:]\n    else:\n        outputs = (hidden_states,) + outputs[1:]\n\n    if not return_dict:\n        return tuple(v for v in outputs if v is not None)\n\n    return FlaxBaseModelOutput(\n        last_hidden_state=hidden_states,\n        hidden_states=outputs[1],\n        attentions=outputs[-1],\n    )\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel","title":"<code>FlaxQwen1PreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>class FlaxQwen1PreTrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class = Qwen1Config\n    base_model_prefix = \"model\"\n    module_class: nn.Module = None\n\n    def __init__(\n            self,\n            config: Qwen1Config,\n            input_shape: Tuple = (1, 1),\n            seed: int = 0,\n            dtype: jnp.dtype = jnp.float32,\n            _do_init: bool = True,\n            **kwargs,\n    ):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It sets up the instance of the class, and defines what happens when it's created.\n        The __init__ function can take arguments, but self is always required (it refers to the instance of the object).\n\n        Args:\n            self: Refer to the object itself\n            config: Qwen1Config: Pass the configuration to the module\n            input_shape: Tuple: Specify the shape of the input to the\n                model\n            seed: int: Set the seed for random number generation\n            dtype: jnp.dtype: Specify the data type of the input\n            _do_init: bool: Control whether the module is initialized or\n                not\n            **kwargs: Pass in any additional parameters that the\n                module_class might need\n        :param : Specify the number of h in the network\n\n        Returns:\n            The super() of the class\n        \"\"\"\n        module = self.module_class(config=config, dtype=dtype, **kwargs)\n        super().__init__(config, module, input_shape=input_shape, seed=seed, dtype=dtype, _do_init=_do_init)\n\n    def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Specify the shape of the input tensor\n            params: FrozenDict: Pass in the parameters of a pre-trained\n                model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n        if self.config.add_cross_attention:\n            encoder_hidden_states = jnp.zeros(\n                input_shape + (self.config.hidden_size,))\n            encoder_attention_mask = attention_mask\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids,\n                attention_mask,\n                position_ids,\n                encoder_hidden_states,\n                encoder_attention_mask,\n                return_dict=False,\n            )\n        else:\n            module_init_outputs = self.module.init(\n                rngs, input_ids, attention_mask, position_ids, return_dict=False)\n\n        random_params = module_init_outputs[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def init_cache(self, batch_size, max_length):\n        \"\"\"The init_cache function is used to initialize the cache for a given batch size and sequence length.\n        The cache is a dictionary that contains all the intermediate states from each layer in the model.\n        This allows us to run inference on multiple batches without having to re-run forward passes through every layer in\n        the model, which would be very slow.\n\n        Args:\n            self: Access the module\n            batch_size: Define the batch size of the input tensors\n            max_length: Set the length of the input sequence\n\n        Returns:\n            A dictionary with the following keys:\n        \"\"\"\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    # def init_rope(self, batch_size, max_length):\n    #     \"\"\"\n    #     The init_rope function is used to initialize the rope for a given batch size and sequence length.\n    #     The cache is a dictionary that contains all the intermediate states from each layer in the model.\n    #\n    #     :param self: Access the module\n    #     :param batch_size: Define the batch size of the input tensors\n    #     :param max_length: Set the length of the input sequence\n    #     \"\"\"\n    #     input_ids = jnp.ones((batch_size, max_length))\n    #     attention_mask = jnp.ones_like(input_ids)\n    #     position_ids = jnp.broadcast_to(jnp.arange(\n    #         jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n    #\n    #     init_variables = self.module.init(\n    #         jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n    #     )\n    #     return init_variables[\"rope_cache\"]\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            # past_rope_cache: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It takes in inputs and returns outputs, but it also has some other important features:\n        - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.\n        - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: chex.Array: Pass in the input tokens\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input\n            position_ids: chex.Array: Create the positional embeddings\n            params: dict: Pass in the parameters of the model\n            past_key_values: dict: Pass in the past key values from a\n                previous call to __call__\n            dropout_rng: jax.random.PRNGKey: Make sure that the dropout\n                is applied in a random way\n            train: bool: Determine whether to use dropout or not\n            output_attentions: Optional[bool]: Determine whether to\n                return the attention weights\n            output_hidden_states: Optional[bool]: Return the hidden\n                states of all h\n            return_dict: Optional[bool]: Determine whether to return a\n                dictionary or not\n            extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in\n                the embedding for the input_ids\n            add_params_field: bool: Add the params field to the inputs\n                dictionary\n\n        Returns:\n            A tuple of the following:\n        \"\"\"\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        assert sequence_length &lt;= self.config.seq_length, \"Maximum Position Embedding Reached !\"\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\n                    \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                            None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rngs = {}\n        if dropout_rng is not None:\n            rngs[\"dropout\"] = dropout_rng\n\n        if self.config.bits is not None:\n            rngs['params'] = jax.random.key(0)\n\n        inputs = {\n            \"params\": params or self.params\n        } if add_params_field else params or self.params\n        mutable = False\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n\n        # if past_rope_cache is not None:\n        #     inputs[\"rope_cache\"] = past_rope_cache\n        # elif self.config.init_rope_cache_auto:\n        #     inputs[\"rope_cache\"] = self.init_rope(batch_size=batch_size, max_length=sequence_length)\n        # else:\n        #     raise ValueError(\n        #         \"if you are setting `init_rope_cache_auto=False` you should pass `rope_cache` beside param\"\n        #     )\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),\n            jnp.array(attention_mask, dtype=\"i4\"),\n            jnp.array(position_ids, dtype=\"i4\"),\n            not train,\n            False,\n            output_attentions,\n            output_hidden_states,\n            return_dict,\n            extra_embedding,\n            rngs=rngs,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n        # if return_dict:\n        #     outputs[\"past_rope_cache\"] = unfreeze(rope_cache[\"rope_cache\"])\n        # else:\n        #     outputs = outputs, unfreeze(rope_cache[\"rope_cache\"])\n        return outputs\n\n    def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n        \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n        Args:\n            self: Access variables that belong to the class\n            input_ids: Pass in the input tokens\n            max_length: Set the length of the sequence to be generated\n            attention_mask: Optional[chex.Array]: Mask the attention\n                weights\n\n        Returns:\n            A dictionary of the past_key_values, attention_mask and\n            position ids\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n        extended_attention_mask = jnp.ones(\n            (batch_size, max_length), dtype=\"i4\")\n        if attention_mask is not None:\n            position_ids = attention_mask.cumsum(axis=-1) - 1\n            extended_attention_mask = jax.lax.dynamic_update_slice(\n                extended_attention_mask, attention_mask, (0, 0))\n        else:\n            position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                            None, :], (batch_size, seq_length))\n\n        return {\n            \"past_key_values\": self.init_cache(batch_size, max_length),\n            \"attention_mask\": extended_attention_mask,\n            \"position_ids\": position_ids,\n            # \"past_rope_cache\": self.init_rope(batch_size=batch_size, max_length=max_length)\n        }\n\n    def update_inputs_for_generation(self, model_outputs, model_kwargs):\n        model_kwargs[\"past_key_values\"] = model_outputs.past_key_values\n        # model_kwargs[\"past_rope_cache\"] = model_outputs.past_rope_cache\n        model_kwargs[\"position_ids\"] = model_kwargs[\"position_ids\"][:, -1:] + 1\n        return model_kwargs\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, params=None, past_key_values=None, dropout_rng=None, train=False, output_attentions=None, output_hidden_states=None, return_dict=True, extra_embedding=None, add_params_field=False, **kwargs)</code>","text":"<p>The call function is the main function of a JAX module. It takes in inputs and returns outputs, but it also has some other important features: - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end. - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass in the input tokens</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input</p> <code>None</code> <code>position_ids</code> <code>Array</code> <p>chex.Array: Create the positional embeddings</p> <code>None</code> <code>params</code> <code>dict</code> <p>dict: Pass in the parameters of the model</p> <code>None</code> <code>past_key_values</code> <code>dict</code> <p>dict: Pass in the past key values from a previous call to call</p> <code>None</code> <code>dropout_rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Make sure that the dropout is applied in a random way</p> <code>None</code> <code>train</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the attention weights</p> <code>None</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>Optional[bool]: Return the hidden states of all h</p> <code>None</code> <code>return_dict</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return a dictionary or not</p> <code>True</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray,None]]: Pass in the embedding for the input_ids</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add the params field to the inputs dictionary</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of the following:</p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array = None,\n        position_ids: chex.Array = None,\n        params: dict = None,\n        past_key_values: dict = None,\n        # past_rope_cache: dict = None,\n        dropout_rng: jax.random.PRNGKey = None,\n        train: bool = False,\n        output_attentions: Optional[bool] = None,\n        output_hidden_states: Optional[bool] = None,\n        return_dict: Optional[bool] = True,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n        add_params_field: bool = False,\n        **kwargs\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It takes in inputs and returns outputs, but it also has some other important features:\n    - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.\n    - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: chex.Array: Pass in the input tokens\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input\n        position_ids: chex.Array: Create the positional embeddings\n        params: dict: Pass in the parameters of the model\n        past_key_values: dict: Pass in the past key values from a\n            previous call to __call__\n        dropout_rng: jax.random.PRNGKey: Make sure that the dropout\n            is applied in a random way\n        train: bool: Determine whether to use dropout or not\n        output_attentions: Optional[bool]: Determine whether to\n            return the attention weights\n        output_hidden_states: Optional[bool]: Return the hidden\n            states of all h\n        return_dict: Optional[bool]: Determine whether to return a\n            dictionary or not\n        extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in\n            the embedding for the input_ids\n        add_params_field: bool: Add the params field to the inputs\n            dictionary\n\n    Returns:\n        A tuple of the following:\n    \"\"\"\n    output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n    output_hidden_states = (\n        output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n    )\n    return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n    batch_size, sequence_length = input_ids.shape\n\n    assert sequence_length &lt;= self.config.seq_length, \"Maximum Position Embedding Reached !\"\n\n    if position_ids is None:\n        if past_key_values is not None:\n            raise ValueError(\n                \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n        position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                        None, :], (batch_size, sequence_length))\n\n    if attention_mask is None:\n        attention_mask = jnp.ones((batch_size, sequence_length))\n\n    rngs = {}\n    if dropout_rng is not None:\n        rngs[\"dropout\"] = dropout_rng\n\n    if self.config.bits is not None:\n        rngs['params'] = jax.random.key(0)\n\n    inputs = {\n        \"params\": params or self.params\n    } if add_params_field else params or self.params\n    mutable = False\n    if past_key_values:\n        inputs[\"cache\"] = past_key_values\n        mutable = [\"cache\"]\n\n    # if past_rope_cache is not None:\n    #     inputs[\"rope_cache\"] = past_rope_cache\n    # elif self.config.init_rope_cache_auto:\n    #     inputs[\"rope_cache\"] = self.init_rope(batch_size=batch_size, max_length=sequence_length)\n    # else:\n    #     raise ValueError(\n    #         \"if you are setting `init_rope_cache_auto=False` you should pass `rope_cache` beside param\"\n    #     )\n    outputs = self.module.apply(\n        inputs,\n        jnp.array(input_ids, dtype=\"i4\"),\n        jnp.array(attention_mask, dtype=\"i4\"),\n        jnp.array(position_ids, dtype=\"i4\"),\n        not train,\n        False,\n        output_attentions,\n        output_hidden_states,\n        return_dict,\n        extra_embedding,\n        rngs=rngs,\n        mutable=mutable,\n    )\n\n    if past_key_values is not None and return_dict:\n        outputs, past_key_values = outputs\n        outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n        return outputs\n    elif past_key_values is not None and not return_dict:\n        outputs, past_key_values = outputs\n        outputs = outputs[:1] + (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n    # if return_dict:\n    #     outputs[\"past_rope_cache\"] = unfreeze(rope_cache[\"rope_cache\"])\n    # else:\n    #     outputs = outputs, unfreeze(rope_cache[\"rope_cache\"])\n    return outputs\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.__init__","title":"<code>__init__(config, input_shape=(1, 1), seed=0, dtype=jnp.float32, _do_init=True, **kwargs)</code>","text":"<p>The init function is called when the class is instantiated. It sets up the instance of the class, and defines what happens when it's created. The init function can take arguments, but self is always required (it refers to the instance of the object).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>config</code> <code>Qwen1Config</code> <p>Qwen1Config: Pass the configuration to the module</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Specify the shape of the input to the model</p> <code>(1, 1)</code> <code>seed</code> <code>int</code> <p>int: Set the seed for random number generation</p> <code>0</code> <code>dtype</code> <code>dtype</code> <p>jnp.dtype: Specify the data type of the input</p> <code>float32</code> <code>_do_init</code> <code>bool</code> <p>bool: Control whether the module is initialized or not</p> <code>True</code> <code>**kwargs</code> <p>Pass in any additional parameters that the module_class might need</p> <code>{}</code> <p>:param : Specify the number of h in the network</p> <p>Returns:</p> Type Description <p>The super() of the class</p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>def __init__(\n        self,\n        config: Qwen1Config,\n        input_shape: Tuple = (1, 1),\n        seed: int = 0,\n        dtype: jnp.dtype = jnp.float32,\n        _do_init: bool = True,\n        **kwargs,\n):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It sets up the instance of the class, and defines what happens when it's created.\n    The __init__ function can take arguments, but self is always required (it refers to the instance of the object).\n\n    Args:\n        self: Refer to the object itself\n        config: Qwen1Config: Pass the configuration to the module\n        input_shape: Tuple: Specify the shape of the input to the\n            model\n        seed: int: Set the seed for random number generation\n        dtype: jnp.dtype: Specify the data type of the input\n        _do_init: bool: Control whether the module is initialized or\n            not\n        **kwargs: Pass in any additional parameters that the\n            module_class might need\n    :param : Specify the number of h in the network\n\n    Returns:\n        The super() of the class\n    \"\"\"\n    module = self.module_class(config=config, dtype=dtype, **kwargs)\n    super().__init__(config, module, input_shape=input_shape, seed=seed, dtype=dtype, _do_init=_do_init)\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.init_cache","title":"<code>init_cache(batch_size, max_length)</code>","text":"<p>The init_cache function is used to initialize the cache for a given batch size and sequence length. The cache is a dictionary that contains all the intermediate states from each layer in the model. This allows us to run inference on multiple batches without having to re-run forward passes through every layer in the model, which would be very slow.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access the module</p> required <code>batch_size</code> <p>Define the batch size of the input tensors</p> required <code>max_length</code> <p>Set the length of the input sequence</p> required <p>Returns:</p> Type Description <p>A dictionary with the following keys:</p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>def init_cache(self, batch_size, max_length):\n    \"\"\"The init_cache function is used to initialize the cache for a given batch size and sequence length.\n    The cache is a dictionary that contains all the intermediate states from each layer in the model.\n    This allows us to run inference on multiple batches without having to re-run forward passes through every layer in\n    the model, which would be very slow.\n\n    Args:\n        self: Access the module\n        batch_size: Define the batch size of the input tensors\n        max_length: Set the length of the input sequence\n\n    Returns:\n        A dictionary with the following keys:\n    \"\"\"\n    input_ids = jnp.ones((batch_size, max_length))\n    attention_mask = jnp.ones_like(input_ids)\n    position_ids = jnp.broadcast_to(jnp.arange(\n        jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n    init_variables = self.module.init(\n        jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n    )\n    return init_variables[\"cache\"]\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Specify the shape of the input tensor</p> required <code>params</code> <code>FrozenDict</code> <p>FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Specify the shape of the input tensor\n        params: FrozenDict: Pass in the parameters of a pre-trained\n            model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids)\n    position_ids = jnp.broadcast_to(jnp.arange(jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n    params_rng, dropout_rng = jax.random.split(rng)\n    rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n    if self.config.add_cross_attention:\n        encoder_hidden_states = jnp.zeros(\n            input_shape + (self.config.hidden_size,))\n        encoder_attention_mask = attention_mask\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids,\n            attention_mask,\n            position_ids,\n            encoder_hidden_states,\n            encoder_attention_mask,\n            return_dict=False,\n        )\n    else:\n        module_init_outputs = self.module.init(\n            rngs, input_ids, attention_mask, position_ids, return_dict=False)\n\n    random_params = module_init_outputs[\"params\"]\n\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-qwen1-modelling_qwen1_flax/#src.python.easydel.modules.qwen1.modelling_qwen1_flax.FlaxQwen1PreTrainedModel.prepare_inputs_for_generation","title":"<code>prepare_inputs_for_generation(input_ids, max_length, attention_mask=None)</code>","text":"<p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>input_ids</code> <p>Pass in the input tokens</p> required <code>max_length</code> <p>Set the length of the sequence to be generated</p> required <code>attention_mask</code> <code>Optional[Array]</code> <p>Optional[chex.Array]: Mask the attention weights</p> <code>None</code> <p>Returns:</p> Type Description <p>A dictionary of the past_key_values, attention_mask and</p> <p>position ids</p> Source code in <code>src/python/easydel/modules/qwen1/modelling_qwen1_flax.py</code> <pre><code>def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n    \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n    Args:\n        self: Access variables that belong to the class\n        input_ids: Pass in the input tokens\n        max_length: Set the length of the sequence to be generated\n        attention_mask: Optional[chex.Array]: Mask the attention\n            weights\n\n    Returns:\n        A dictionary of the past_key_values, attention_mask and\n        position ids\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n    extended_attention_mask = jnp.ones(\n        (batch_size, max_length), dtype=\"i4\")\n    if attention_mask is not None:\n        position_ids = attention_mask.cumsum(axis=-1) - 1\n        extended_attention_mask = jax.lax.dynamic_update_slice(\n            extended_attention_mask, attention_mask, (0, 0))\n    else:\n        position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                        None, :], (batch_size, seq_length))\n\n    return {\n        \"past_key_values\": self.init_cache(batch_size, max_length),\n        \"attention_mask\": extended_attention_mask,\n        \"position_ids\": position_ids,\n        # \"past_rope_cache\": self.init_rope(batch_size=batch_size, max_length=max_length)\n    }\n</code></pre>"},{"location":"generated-modules-qwen1-qwen1_configuration/","title":"modules.qwen1.qwen1_configuration","text":""},{"location":"generated-modules-qwen1-qwen1_configuration/#src.python.easydel.modules.qwen1.qwen1_configuration.Qwen1Config","title":"<code>Qwen1Config</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> Source code in <code>src/python/easydel/modules/qwen1/qwen1_configuration.py</code> <pre><code>class Qwen1Config(EasyDeLPretrainedConfig):\n    model_type: str = \"qwen\"\n\n    def __init__(\n            self,\n            vocab_size=151936,\n            hidden_size=4096,\n            num_hidden_layers=32,\n            num_attention_heads=32,\n            emb_dropout_prob=0.0,\n            attn_dropout_prob=0.0,\n            layer_norm_epsilon=1e-6,\n            initializer_range=0.02,\n            seq_length=8192,\n            scale_attn_weights=True,\n            use_cache=True,\n            kv_channels=128,\n            rotary_pct=1.0,\n            rotary_emb_base=10000,\n            use_dynamic_ntk=True,\n            use_logn_attn=True,\n            intermediate_size=22016,\n            no_bias=True,\n            tie_word_embeddings=False,\n            softmax_in_fp32=False,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            use_scan_mlp: bool = False,\n            scan_mlp_chunk_size: int = 1024,\n            bits: Optional[int] = None,\n            scan_layers: bool = True,\n            init_rope_cache_auto: bool = False,\n            **kwargs,\n    ):\n        self.vocab_size = vocab_size\n        self.seq_length = seq_length\n        self.hidden_size = hidden_size\n        self.intermediate_size = intermediate_size\n        self.scale_attn_weights = scale_attn_weights\n        self.no_bias = no_bias\n        self.kv_channels = kv_channels\n        self.use_dynamic_ntk = use_dynamic_ntk\n        self.use_logn_attn = use_logn_attn\n        self.rotary_emb_base = rotary_emb_base\n        self.rotary_pct = rotary_pct\n        self.num_hidden_layers = num_hidden_layers\n        self.num_attention_heads = num_attention_heads\n        self.layer_norm_epsilon = layer_norm_epsilon\n        self.softmax_in_fp32 = softmax_in_fp32\n        self.initializer_range = initializer_range\n        self.use_cache = use_cache\n        self.scan_layers = scan_layers\n        self.emb_dropout_prob = emb_dropout_prob\n        self.attn_dropout_prob = attn_dropout_prob\n        self.init_rope_cache_auto = init_rope_cache_auto\n        self.tie_word_embeddings = tie_word_embeddings\n        self.gradient_checkpointing = gradient_checkpointing\n        self.use_scan_mlp = use_scan_mlp\n        self.scan_mlp_chunk_size = scan_mlp_chunk_size\n        self.bits = bits\n        super().__init__(\n            tie_word_embeddings=tie_word_embeddings,\n            use_scan_mlp=use_scan_mlp,\n            scan_mlp_chunk_size=scan_mlp_chunk_size,\n            bits=bits,\n            **kwargs,\n        )\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n            1) A regex string that matches the name of one or more parameters in the model.\n            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to\n                partition the model fully or not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n\n            (\"model/wte/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"self_attn/c_attn/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/c_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"mlp/w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"mlp/w2/kernel\", PartitionSpec((\"fsdp\", \"sp\")), \"tp\"),\n            (\"mlp/c_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"ln_1/kernel\", PartitionSpec(None)),\n            (\"ln_2/kernel\", PartitionSpec(None)),\n\n            (\"model/ln_f/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec(None)),\n        ) if not fully_sharded_data_parallel else (\n\n            (\"model/wte/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"mlp/w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/w2/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/c_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"ln_1/kernel\", PartitionSpec(None)),\n            (\"ln_2/kernel\", PartitionSpec(None)),\n\n            (\"model/ln_f/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\".*\", PartitionSpec(None)),\n\n        )\n\n    def add_jax_args(\n            self,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            use_scan_mlp: bool = False,\n            scan_mlp_chunk_size: int = 1024,\n            bits: Optional[int] = None,\n            scan_layers: bool = True,\n            init_rope_cache_auto: bool = False,\n            **kwargs,\n    ):\n        \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n        Args:\n            self: Refer to the current object\n            gradient_checkpointing: str: Control the amount of memory\n                used by jax\n            use_scan_mlp: bool: Determine whether to use the scan_mlp\n                function or not\n            scan_mlp_chunk_size: int: Set the chunk size for scan_mlp\n            init_rope_cache_auto: bool: Whether to use the\n                rope_cache_auto in model\n            bits: Optional[int]: Determine the number of bits used in\n                the quantization\n            scan_layers: bool: Determine whether to use scan layers or\n                not\n\n        Returns:\n            The following:\n        \"\"\"\n        self.scan_layers = scan_layers\n        self.gradient_checkpointing = gradient_checkpointing\n        self.use_scan_mlp = use_scan_mlp\n        self.scan_mlp_chunk_size = scan_mlp_chunk_size\n        self.bits = bits\n        self.init_rope_cache_auto = init_rope_cache_auto\n\n    @staticmethod\n    def get_weight_decay_exclusions():\n        return tuple()\n\n    @staticmethod\n    def rng_keys():\n        return \"params\", \"dropout\", \"fcm\"\n</code></pre>"},{"location":"generated-modules-qwen1-qwen1_configuration/#src.python.easydel.modules.qwen1.qwen1_configuration.Qwen1Config.add_jax_args","title":"<code>add_jax_args(gradient_checkpointing='nothing_saveable', use_scan_mlp=False, scan_mlp_chunk_size=1024, bits=None, scan_layers=True, init_rope_cache_auto=False, **kwargs)</code>","text":"<p>The add_jax_args function adds the following arguments to the Transformer class:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the current object</p> required <code>gradient_checkpointing</code> <code>str</code> <p>str: Control the amount of memory used by jax</p> <code>'nothing_saveable'</code> <code>use_scan_mlp</code> <code>bool</code> <p>bool: Determine whether to use the scan_mlp function or not</p> <code>False</code> <code>scan_mlp_chunk_size</code> <code>int</code> <p>int: Set the chunk size for scan_mlp</p> <code>1024</code> <code>init_rope_cache_auto</code> <code>bool</code> <p>bool: Whether to use the rope_cache_auto in model</p> <code>False</code> <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Determine the number of bits used in the quantization</p> <code>None</code> <code>scan_layers</code> <code>bool</code> <p>bool: Determine whether to use scan layers or not</p> <code>True</code> <p>Returns:</p> Type Description <p>The following:</p> Source code in <code>src/python/easydel/modules/qwen1/qwen1_configuration.py</code> <pre><code>def add_jax_args(\n        self,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        use_scan_mlp: bool = False,\n        scan_mlp_chunk_size: int = 1024,\n        bits: Optional[int] = None,\n        scan_layers: bool = True,\n        init_rope_cache_auto: bool = False,\n        **kwargs,\n):\n    \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n    Args:\n        self: Refer to the current object\n        gradient_checkpointing: str: Control the amount of memory\n            used by jax\n        use_scan_mlp: bool: Determine whether to use the scan_mlp\n            function or not\n        scan_mlp_chunk_size: int: Set the chunk size for scan_mlp\n        init_rope_cache_auto: bool: Whether to use the\n            rope_cache_auto in model\n        bits: Optional[int]: Determine the number of bits used in\n            the quantization\n        scan_layers: bool: Determine whether to use scan layers or\n            not\n\n    Returns:\n        The following:\n    \"\"\"\n    self.scan_layers = scan_layers\n    self.gradient_checkpointing = gradient_checkpointing\n    self.use_scan_mlp = use_scan_mlp\n    self.scan_mlp_chunk_size = scan_mlp_chunk_size\n    self.bits = bits\n    self.init_rope_cache_auto = init_rope_cache_auto\n</code></pre>"},{"location":"generated-modules-qwen1-qwen1_configuration/#src.python.easydel.modules.qwen1.qwen1_configuration.Qwen1Config.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:     1) A regex string that matches the name of one or more parameters in the model.     2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to partition the model fully or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/qwen1/qwen1_configuration.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n        1) A regex string that matches the name of one or more parameters in the model.\n        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to\n            partition the model fully or not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n\n        (\"model/wte/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"self_attn/c_attn/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/c_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"mlp/w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"mlp/w2/kernel\", PartitionSpec((\"fsdp\", \"sp\")), \"tp\"),\n        (\"mlp/c_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"ln_1/kernel\", PartitionSpec(None)),\n        (\"ln_2/kernel\", PartitionSpec(None)),\n\n        (\"model/ln_f/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\".*\", PartitionSpec(None)),\n    ) if not fully_sharded_data_parallel else (\n\n        (\"model/wte/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n        (\"mlp/w1/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/w2/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/c_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"ln_1/kernel\", PartitionSpec(None)),\n        (\"ln_2/kernel\", PartitionSpec(None)),\n\n        (\"model/ln_f/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\".*\", PartitionSpec(None)),\n\n    )\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/","title":"modules.qwen2.modelling_qwen_flax","text":""},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Attention","title":"<code>FlaxQwen2Attention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>class FlaxQwen2Attention(BaseJAXAttentionModule):\n    config: Qwen2Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        config = self.config\n        self.hidden_size = config.hidden_size\n        self.head_dim = self.config.hidden_size // self.config.num_attention_heads\n        self.num_key_value_groups = self.config.num_attention_heads // self.config.num_key_value_heads\n\n        if self.num_key_value_groups == 1:\n            assert self.config.num_attention_heads == self.config.num_key_value_heads\n        self.q_proj = Linear(\n            config.num_attention_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=True,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.k_proj = Linear(\n            config.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=True,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.v_proj = Linear(\n            config.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=True,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.o_proj = Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n        self.rotary = FlaxQwen2Embedding(self.dtype)\n        self.attention_performer = AttentionModule(\n            use_sharding_constraint=self.config.use_sharding_constraint,\n            block_k_major=self.config.block_k_major,\n            block_b=self.config.block_b,\n            block_q=self.config.block_q,\n            block_k=self.config.block_k,\n            block_q_major_dkv=self.config.block_q_major_dkv,\n            block_k_major_dkv=self.config.block_k_major_dkv,\n            block_k_major_dq=self.config.block_k_major_dq,\n            block_k_dkv=self.config.block_k_dkv,\n            block_q_dkv=self.config.block_q_dkv,\n            block_q_dq=self.config.block_q_dq,\n            block_k_dq=self.config.block_k_dq,\n            num_attention_heads=self.config.num_attention_heads,\n            attention_dropout=self.config.attention_dropout,\n            head_dims=self.head_dim,\n            attention_partition_spec=self.config.attention_partition_spec,\n            shard_attention_computation=self.config.shard_attention_computation,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            bias_partition_spec=self.config.bias_partition_spec,\n            key_partition_spec=self.config.key_partition_spec,\n            query_partition_spec=self.config.query_partition_spec,\n            generation_query_partition_spec=self.config.generation_query_partition_spec,\n            generation_bias_partition_spec=self.config.generation_bias_partition_spec,\n            generation_attention_partition_spec=self.config.generation_attention_partition_spec,\n            value_partition_spec=self.config.value_partition_spec,\n            scan_ring_attention=self.config.scan_ring_attention,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name,\n            backward_pass_impl=self.config.flash_attention_backward_pass_impl\n        )\n        self.resid_dropout = flax.linen.Dropout(rate=config.resid_pdrop)\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.hidden_size,))\n\n    @staticmethod\n    def _transpose_sequence_head(query, key, value):\n        \"\"\"The _transpose_sequence_head function transposes the query, key and value matrices.\n\n        Args:\n            query: Get the attention weights for each of the heads\n            key: Determine the number of heads\n            value: Store the values of the input\n\n        Returns:\n            The transpose of the query, key and value matrices\n        \"\"\"\n        return jnp.transpose(query, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value, (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n        \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n        Args:\n            self: Access variables that belong to the class\n            batch_size: Reshape the query, key and value tensors\n            sequence_length: Reshape the query, key and value tensors\n            query: Calculate the attention weights\n            key: Calculate the attention\n            value: Compute the attention weights\n            freq_cis: Calculate the frequency of each word in the\n                vocabulary\n            position_ids: Identify the position of each token in the\n                sequence\n\n        Returns:\n            A tuple of 3 tensors: query, key and value\n        \"\"\"\n        query = query.reshape(batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n        key = key.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n        value = value.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n        query, key, value = self._transpose_sequence_head(query, key, value)\n        query, key = self.rotary(\n            position_ids=position_ids, query=query, key=key, freq_cis=freq_cis\n        )\n        key = repeat_kv_bnsh(key, self.num_key_value_groups)\n        value = repeat_kv_bnsh(value, self.num_key_value_groups)\n        return self._transpose_sequence_head(query, key, value)\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            fcm_mask=None,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n        and it should return all outputs that are needed for training or inference.\n\n        Args:\n            self: Access variables that belong to the class\n            hidden_states: chex.Array: Pass the hidden states of the\n                previous layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency coefficients for each position\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Determine the position of each\n                token in a sequence\n            causal_mask: chex.Array: Mask out the future tokens in the\n                decoder\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n            fcm_mask: Mask out the attention weights between the input\n                and output tokens\n        :param : Determine if the attention is causal or not\n\n        Returns:\n            A tuple of two arrays\n        \"\"\"\n        batch_size, sequence_length = hidden_states.shape[:2]\n        query_states, key_states, value_states = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(\n            hidden_states)\n\n        query_states = query_states.reshape(batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n        key_states = key_states.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n        value_states = value_states.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query=query_states,\n            key=key_states,\n            value=value_states,\n            position_ids=position_ids,\n            freq_cis=freq_cis,\n            batch_size=batch_size,\n            sequence_length=sequence_length\n        )\n\n        assert_msg = (\n            \"num_attention_heads repeat wont work likely\\n\"\n            f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n            f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n        )\n\n        assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                     query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        attention_mask = jnp.broadcast_to(jnp.expand_dims(\n            attention_mask, axis=(-3, -2)), causal_mask.shape)\n        attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n        dropout_rng = None\n\n        if not deterministic and self.config.attention_dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n        # if self.config.use_sharding_constraint:\n        #     query_states = with_sharding_constraint(\n        #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n        #     )\n        #     key_states = with_sharding_constraint(\n        #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        #     value_states = with_sharding_constraint(\n        #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n\n        attention_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=attention_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n\n\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        attn_output = self.o_proj(attn_output)\n\n        attn_output = self.resid_dropout(\n            attn_output, deterministic=deterministic)\n        outputs = (\n            attn_output, attentions.attention_weights\n        ) if output_attentions else (\n            attn_output,\n        )\n        return outputs\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Attention.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, segment_ids=None, deterministic=True, init_cache=False, output_attentions=False, fcm_mask=None)</code>","text":"<p>The call function is the main function of a JAX module. It defines how the module behaves when called with inputs. The call function can be thought of as a \"forward pass\" through the model, and it should return all outputs that are needed for training or inference.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the hidden states of the previous layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency coefficients for each position</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask out the future tokens in the decoder</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <code>fcm_mask</code> <p>Mask out the attention weights between the input and output tokens</p> <code>None</code> <p>:param : Determine if the attention is causal or not</p> <p>Returns:</p> Type Description <p>A tuple of two arrays</p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        fcm_mask=None,\n):\n    \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n    and it should return all outputs that are needed for training or inference.\n\n    Args:\n        self: Access variables that belong to the class\n        hidden_states: chex.Array: Pass the hidden states of the\n            previous layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency coefficients for each position\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Determine the position of each\n            token in a sequence\n        causal_mask: chex.Array: Mask out the future tokens in the\n            decoder\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n        fcm_mask: Mask out the attention weights between the input\n            and output tokens\n    :param : Determine if the attention is causal or not\n\n    Returns:\n        A tuple of two arrays\n    \"\"\"\n    batch_size, sequence_length = hidden_states.shape[:2]\n    query_states, key_states, value_states = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(\n        hidden_states)\n\n    query_states = query_states.reshape(batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n    key_states = key_states.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n    value_states = value_states.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n    query_states, key_states, value_states = self.apply_rotary(\n        query=query_states,\n        key=key_states,\n        value=value_states,\n        position_ids=position_ids,\n        freq_cis=freq_cis,\n        batch_size=batch_size,\n        sequence_length=sequence_length\n    )\n\n    assert_msg = (\n        \"num_attention_heads repeat wont work likely\\n\"\n        f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n        f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n    )\n\n    assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    if self.has_variable(\"cache\", \"cached_key\"):\n        mask_shift = self.variables[\"cache\"][\"cache_index\"]\n        max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n        causal_mask = lax.dynamic_slice(\n            causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                 query_length, max_decoder_length)\n        )\n    else:\n        causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n    batch_size = hidden_states.shape[0]\n    causal_mask = jnp.broadcast_to(\n        causal_mask, (batch_size,) + causal_mask.shape[1:])\n    attention_mask = jnp.broadcast_to(jnp.expand_dims(\n        attention_mask, axis=(-3, -2)), causal_mask.shape)\n    attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n    if attention_mask.ndim == 2:\n        attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n    dropout_rng = None\n\n    if not deterministic and self.config.attention_dropout &gt; 0.0:\n        dropout_rng = self.make_rng(\"dropout\")\n\n    if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n        key_states, value_states, attention_mask = self._concatenate_to_cache(\n            key_states,\n            value_states,\n            query_states,\n            attention_mask\n        )\n    # if self.config.use_sharding_constraint:\n    #     query_states = with_sharding_constraint(\n    #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n    #     )\n    #     key_states = with_sharding_constraint(\n    #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    #     value_states = with_sharding_constraint(\n    #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n\n    attention_bias = lax.select(\n        attention_mask &gt; 0,\n        jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n        jnp.full(attention_mask.shape, jnp.finfo(\n            self.dtype).min).astype(self.dtype),\n    )\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    attentions = self.attention_performer.__call__(\n        query_states=query_states,\n        key_states=key_states,\n        value_states=value_states,\n        bias=attention_bias,\n        attention_mask=attention_mask,\n        causal=True,\n        dropout_rng=dropout_rng,\n        deterministic=deterministic,\n        query_sequence_length=query_length,\n        key_value_sequence_length=key_length,\n        uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n        segment_ids=segment_ids,\n        causal_mask=causal_mask\n    )\n\n\n    attn_output = self._merge_heads(attentions.attention_outputs)\n    if self.config.shard_attention_computation:\n        attn_output = with_sharding_constraint(\n            attn_output, PartitionSpec(\n                (\"dp\", \"fsdp\"),\n                \"sp\" if attn_output.shape[1] != 1 else None,\n                \"tp\"\n            )\n        )\n    attn_output = self.o_proj(attn_output)\n\n    attn_output = self.resid_dropout(\n        attn_output, deterministic=deterministic)\n    outputs = (\n        attn_output, attentions.attention_weights\n    ) if output_attentions else (\n        attn_output,\n    )\n    return outputs\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Attention.apply_rotary","title":"<code>apply_rotary(batch_size, sequence_length, query, key, value, freq_cis, position_ids)</code>","text":"<p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class. The main difference is that it takes in an additional argument, freq_cis, which are used to calculate the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>batch_size</code> <p>Reshape the query, key and value tensors</p> required <code>sequence_length</code> <p>Reshape the query, key and value tensors</p> required <code>query</code> <p>Calculate the attention weights</p> required <code>key</code> <p>Calculate the attention</p> required <code>value</code> <p>Compute the attention weights</p> required <code>freq_cis</code> <p>Calculate the frequency of each word in the vocabulary</p> required <code>position_ids</code> <p>Identify the position of each token in the sequence</p> required <p>Returns:</p> Type Description <p>A tuple of 3 tensors: query, key and value</p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n    \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n    Args:\n        self: Access variables that belong to the class\n        batch_size: Reshape the query, key and value tensors\n        sequence_length: Reshape the query, key and value tensors\n        query: Calculate the attention weights\n        key: Calculate the attention\n        value: Compute the attention weights\n        freq_cis: Calculate the frequency of each word in the\n            vocabulary\n        position_ids: Identify the position of each token in the\n            sequence\n\n    Returns:\n        A tuple of 3 tensors: query, key and value\n    \"\"\"\n    query = query.reshape(batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n    key = key.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n    value = value.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n    query, key, value = self._transpose_sequence_head(query, key, value)\n    query, key = self.rotary(\n        position_ids=position_ids, query=query, key=key, freq_cis=freq_cis\n    )\n    key = repeat_kv_bnsh(key, self.num_key_value_groups)\n    value = repeat_kv_bnsh(value, self.num_key_value_groups)\n    return self._transpose_sequence_head(query, key, value)\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Block","title":"<code>FlaxQwen2Block</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>class FlaxQwen2Block(nn.Module):\n    config: Qwen2Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self) -&gt; None:\n        attn_block = FlaxQwen2Attention\n        if self.config.gradient_checkpointing != \"\":\n            attn_block = nn_partitioning.remat(\n                FlaxQwen2Attention, static_argnums=(1, 3, 4, 6, 7, 8, 9),\n                policy=get_gradient_checkpoint_policy(\n                    self.config.gradient_checkpointing)\n            )\n\n        self.self_attn = attn_block(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        mlp_block = FlaxQwen2MLP\n\n        if self.config.gradient_checkpointing != \"\":\n            mlp_block = nn_partitioning.remat(\n                FlaxQwen2MLP, static_argnums=(1,),\n                policy=get_gradient_checkpoint_policy(\n                    self.config.gradient_checkpointing\n                )\n            )\n\n        self.mlp = mlp_block(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n        )\n        self.input_layernorm = Qwen2RMSNorm(\n            self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n        )\n        self.post_attention_layernorm = Qwen2RMSNorm(\n            self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n\n        )\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            fcm_mask: Optional[jnp.ndarray] = None,\n    ):\n        \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n        It takes in hidden states, frequency-domain inputs, and masks as input. It then\n        applies self-attention to the hidden states using those inputs and returns an\n        output tensor with shape (batch_size, sequence_length, model_dim).\n\n        Args:\n            self: Refer to the class instance itself\n            hidden_states: chex.Array: Pass in the hidden state of the\n                previous layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency information\n            attention_mask: chex.Array: Mask out the attention weights\n                for padding tokens\n            position_ids: chex.Array: Determine the position of each\n                token in the sequence\n            causal_mask: chex.Array: Mask the attention weights\n            deterministic: bool: Control whether the dropout is applied\n                or not\n            init_cache: bool: Initialize the cache in the attention\n                layer\n            output_attentions: bool: Return the attention weights\n            fcm_mask: Optional[jnp.ndarray]: Mask the self-attention\n        :param : Control the dropout in the self attention layer\n\n        Returns:\n            A tuple of two items\n        \"\"\"\n        attn_outputs = self.self_attn(\n            self.input_layernorm(hidden_states),\n            freq_cis,\n            attention_mask,\n            position_ids,\n            causal_mask,\n            segment_ids,\n            deterministic,\n            init_cache,\n            output_attentions,\n            fcm_mask,\n        )\n        attn_output = attn_outputs[0]\n        hidden_states = hidden_states + attn_output\n\n        feed_forward_input = self.post_attention_layernorm(hidden_states)\n\n        if self.config.use_scan_mlp:\n            feed_forward_hidden_states = block_wise_ffn(\n                self.mlp,\n                feed_forward_input,\n                self.config.scan_mlp_chunk_size,\n                deterministic\n            )\n        else:\n            feed_forward_hidden_states = self.mlp(\n                feed_forward_input,\n                deterministic,\n            )\n\n        hidden_states = hidden_states + feed_forward_hidden_states\n\n        return (hidden_states,) + attn_outputs[1:]\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Block.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, segment_ids=None, deterministic=True, init_cache=False, output_attentions=False, fcm_mask=None)</code>","text":"<p>The call function is the main function of a TransformerEncoderLayer. It takes in hidden states, frequency-domain inputs, and masks as input. It then applies self-attention to the hidden states using those inputs and returns an output tensor with shape (batch_size, sequence_length, model_dim).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the class instance itself</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass in the hidden state of the previous layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency information</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the attention weights for padding tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in the sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the attention weights</p> required <code>deterministic</code> <code>bool</code> <p>bool: Control whether the dropout is applied or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache in the attention layer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>fcm_mask</code> <code>Optional[ndarray]</code> <p>Optional[jnp.ndarray]: Mask the self-attention</p> <code>None</code> <p>:param : Control the dropout in the self attention layer</p> <p>Returns:</p> Type Description <p>A tuple of two items</p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        fcm_mask: Optional[jnp.ndarray] = None,\n):\n    \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n    It takes in hidden states, frequency-domain inputs, and masks as input. It then\n    applies self-attention to the hidden states using those inputs and returns an\n    output tensor with shape (batch_size, sequence_length, model_dim).\n\n    Args:\n        self: Refer to the class instance itself\n        hidden_states: chex.Array: Pass in the hidden state of the\n            previous layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency information\n        attention_mask: chex.Array: Mask out the attention weights\n            for padding tokens\n        position_ids: chex.Array: Determine the position of each\n            token in the sequence\n        causal_mask: chex.Array: Mask the attention weights\n        deterministic: bool: Control whether the dropout is applied\n            or not\n        init_cache: bool: Initialize the cache in the attention\n            layer\n        output_attentions: bool: Return the attention weights\n        fcm_mask: Optional[jnp.ndarray]: Mask the self-attention\n    :param : Control the dropout in the self attention layer\n\n    Returns:\n        A tuple of two items\n    \"\"\"\n    attn_outputs = self.self_attn(\n        self.input_layernorm(hidden_states),\n        freq_cis,\n        attention_mask,\n        position_ids,\n        causal_mask,\n        segment_ids,\n        deterministic,\n        init_cache,\n        output_attentions,\n        fcm_mask,\n    )\n    attn_output = attn_outputs[0]\n    hidden_states = hidden_states + attn_output\n\n    feed_forward_input = self.post_attention_layernorm(hidden_states)\n\n    if self.config.use_scan_mlp:\n        feed_forward_hidden_states = block_wise_ffn(\n            self.mlp,\n            feed_forward_input,\n            self.config.scan_mlp_chunk_size,\n            deterministic\n        )\n    else:\n        feed_forward_hidden_states = self.mlp(\n            feed_forward_input,\n            deterministic,\n        )\n\n    hidden_states = hidden_states + feed_forward_hidden_states\n\n    return (hidden_states,) + attn_outputs[1:]\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2BlockCollection","title":"<code>FlaxQwen2BlockCollection</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>class FlaxQwen2BlockCollection(nn.Module):\n    config: Qwen2Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        self.blocks = [\n            FlaxQwen2Block(\n                self.config,\n                name=str(i),\n                dtype=self.dtype,\n                param_dtype=self.param_dtype,\n                precision=self.precision\n            )\n            for i in range(\n                self.config.num_hidden_layers\n            )\n        ]\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX nn.Module.\n        It defines how the module behaves when called as a function, and it's what you'll use to call your model\n         in training loops or inference scripts.\n        The __call__ method should take all inputs that are necessary for computing outputs from the module,\n        and return all outputs that are computed by this module.\n\n        Args:\n            self: Represent the instance of the class\n            hidden_states: chex.Array: Pass the input tensor to the\n                encoder\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency of each token\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Specify the position of each token\n                in a sequence\n            causal_mask: chex.Array: Mask the attention weights\n            deterministic: bool: Determine whether the model is in\n                training or evaluation mode\n            init_cache: bool: Initialize the cache for each layer\n            output_attentions: bool: Determine whether to output the\n                attention weights\n            output_hidden_states: bool: Determine whether to return the\n                hidden states of each layer\n            return_dict: bool: Return a dictionary of the outputs\n        :param : Determine whether to use the forgetful causal mask\n\n        Returns:\n            A tuple of 3 values\n        \"\"\"\n        all_attentions = () if output_attentions else None\n        all_hidden_states = () if output_hidden_states else None\n\n        if not deterministic and self.config.fcm_max_ratio &gt; 0:\n            # Apply forgetful causal mask\n            batch_size, seq_length = hidden_states.shape[0], hidden_states.shape[1]\n            fcm_ratio = jax.random.uniform(\n                self.make_rng('fcm'), shape=(batch_size, 1, 1, 1),\n                minval=self.config.fcm_min_ratio,\n                maxval=self.config.fcm_max_ratio\n            )\n            fcm_mask = jax.random.uniform(\n                self.make_rng('fcm'),\n                shape=(batch_size, 1, seq_length, seq_length)\n            ) &gt; fcm_ratio\n            fcm_mask = fcm_mask.at[:, :, :, 0].set(True)\n            fcm_mask = fcm_mask.astype('bool')\n        else:\n            fcm_mask = None\n\n        for block in self.blocks:\n            if output_hidden_states:\n                all_hidden_states += (hidden_states,)\n\n            layer_outputs = block(\n                hidden_states=hidden_states,\n                freq_cis=freq_cis,\n                attention_mask=attention_mask,\n                position_ids=position_ids,\n                causal_mask=causal_mask,\n                deterministic=deterministic,\n                init_cache=init_cache,\n                output_attentions=output_attentions,\n                fcm_mask=fcm_mask,\n            )\n            hidden_states = layer_outputs[0]\n\n            if output_attentions:\n                all_attentions += (layer_outputs[1],)\n\n        outputs = (hidden_states, all_hidden_states, all_attentions)\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2BlockCollection.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, deterministic=True, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True)</code>","text":"<p>The call function is the main function of a JAX nn.Module. It defines how the module behaves when called as a function, and it's what you'll use to call your model  in training loops or inference scripts. The call method should take all inputs that are necessary for computing outputs from the module, and return all outputs that are computed by this module.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the input tensor to the encoder</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency of each token</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the attention weights</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether the model is in training or evaluation mode</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for each layer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to output the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Determine whether to return the hidden states of each layer</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs</p> <code>True</code> <p>:param : Determine whether to use the forgetful causal mask</p> <p>Returns:</p> Type Description <p>A tuple of 3 values</p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n):\n    \"\"\"The __call__ function is the main function of a JAX nn.Module.\n    It defines how the module behaves when called as a function, and it's what you'll use to call your model\n     in training loops or inference scripts.\n    The __call__ method should take all inputs that are necessary for computing outputs from the module,\n    and return all outputs that are computed by this module.\n\n    Args:\n        self: Represent the instance of the class\n        hidden_states: chex.Array: Pass the input tensor to the\n            encoder\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency of each token\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Specify the position of each token\n            in a sequence\n        causal_mask: chex.Array: Mask the attention weights\n        deterministic: bool: Determine whether the model is in\n            training or evaluation mode\n        init_cache: bool: Initialize the cache for each layer\n        output_attentions: bool: Determine whether to output the\n            attention weights\n        output_hidden_states: bool: Determine whether to return the\n            hidden states of each layer\n        return_dict: bool: Return a dictionary of the outputs\n    :param : Determine whether to use the forgetful causal mask\n\n    Returns:\n        A tuple of 3 values\n    \"\"\"\n    all_attentions = () if output_attentions else None\n    all_hidden_states = () if output_hidden_states else None\n\n    if not deterministic and self.config.fcm_max_ratio &gt; 0:\n        # Apply forgetful causal mask\n        batch_size, seq_length = hidden_states.shape[0], hidden_states.shape[1]\n        fcm_ratio = jax.random.uniform(\n            self.make_rng('fcm'), shape=(batch_size, 1, 1, 1),\n            minval=self.config.fcm_min_ratio,\n            maxval=self.config.fcm_max_ratio\n        )\n        fcm_mask = jax.random.uniform(\n            self.make_rng('fcm'),\n            shape=(batch_size, 1, seq_length, seq_length)\n        ) &gt; fcm_ratio\n        fcm_mask = fcm_mask.at[:, :, :, 0].set(True)\n        fcm_mask = fcm_mask.astype('bool')\n    else:\n        fcm_mask = None\n\n    for block in self.blocks:\n        if output_hidden_states:\n            all_hidden_states += (hidden_states,)\n\n        layer_outputs = block(\n            hidden_states=hidden_states,\n            freq_cis=freq_cis,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            causal_mask=causal_mask,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            fcm_mask=fcm_mask,\n        )\n        hidden_states = layer_outputs[0]\n\n        if output_attentions:\n            all_attentions += (layer_outputs[1],)\n\n    outputs = (hidden_states, all_hidden_states, all_attentions)\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLM","title":"<code>FlaxQwen2ForCausalLM</code>","text":"<p>               Bases: <code>FlaxQwen2PreTrainedModel</code></p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>class FlaxQwen2ForCausalLM(FlaxQwen2PreTrainedModel):\n    module_class = FlaxQwen2ForCausalLMModule\n\n    def set_input_embeddings(self, value):\n        self.module.model.embed_tokens = value\n\n    def get_input_embeddings(self):\n        return self.module.model.embed_tokens\n\n    def set_decoder(self, decoder):\n        self.module.model = decoder\n\n    def get_decoder(self):\n        return self.module.model\n\n    def get_output_embeddings(self):\n        return self.module.lm_head\n\n    def set_output_embeddings(self, new_embeddings):\n        self.module.lm_head = new_embeddings\n\n    def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n        \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n        Args:\n            self: Access variables that belong to the class\n            input_ids: Pass in the input tokens\n            max_length: Set the length of the sequence to be generated\n            attention_mask: Optional[chex.Array]: Mask the attention\n                weights\n\n        Returns:\n            A dictionary of the past_key_values, attention_mask and\n            position ids\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n\n        past_key_values = self.init_cache(batch_size, max_length)\n        extended_attention_mask = jnp.ones(\n            (batch_size, max_length), dtype=\"i4\")\n        if attention_mask is not None:\n            position_ids = attention_mask.cumsum(axis=-1) - 1\n            extended_attention_mask = lax.dynamic_update_slice(\n                extended_attention_mask, attention_mask, (0, 0))\n        else:\n            position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                            None, :], (batch_size, seq_length))\n\n        return {\n            \"past_key_values\": past_key_values,\n            \"attention_mask\": extended_attention_mask,\n            \"position_ids\": position_ids,\n        }\n\n    def update_inputs_for_generation(self, model_outputs, model_kwargs):\n        model_kwargs[\"past_key_values\"] = model_outputs.past_key_values\n        model_kwargs[\"position_ids\"] = model_kwargs[\"position_ids\"][:, -1:] + 1\n        return model_kwargs\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLM.prepare_inputs_for_generation","title":"<code>prepare_inputs_for_generation(input_ids, max_length, attention_mask=None)</code>","text":"<p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>input_ids</code> <p>Pass in the input tokens</p> required <code>max_length</code> <p>Set the length of the sequence to be generated</p> required <code>attention_mask</code> <code>Optional[Array]</code> <p>Optional[chex.Array]: Mask the attention weights</p> <code>None</code> <p>Returns:</p> Type Description <p>A dictionary of the past_key_values, attention_mask and</p> <p>position ids</p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n    \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n    Args:\n        self: Access variables that belong to the class\n        input_ids: Pass in the input tokens\n        max_length: Set the length of the sequence to be generated\n        attention_mask: Optional[chex.Array]: Mask the attention\n            weights\n\n    Returns:\n        A dictionary of the past_key_values, attention_mask and\n        position ids\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n\n    past_key_values = self.init_cache(batch_size, max_length)\n    extended_attention_mask = jnp.ones(\n        (batch_size, max_length), dtype=\"i4\")\n    if attention_mask is not None:\n        position_ids = attention_mask.cumsum(axis=-1) - 1\n        extended_attention_mask = lax.dynamic_update_slice(\n            extended_attention_mask, attention_mask, (0, 0))\n    else:\n        position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                        None, :], (batch_size, seq_length))\n\n    return {\n        \"past_key_values\": past_key_values,\n        \"attention_mask\": extended_attention_mask,\n        \"position_ids\": position_ids,\n    }\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLMModule","title":"<code>FlaxQwen2ForCausalLMModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>class FlaxQwen2ForCausalLMModule(nn.Module):\n    config: Qwen2Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        self.model = FlaxQwen2Module(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n        )\n\n        self.lm_head = Linear(\n            self.config.vocab_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(stddev=self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n    ):\n        \"\"\"The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.\n\n        Args:\n            self: Refer to the object itself\n            input_ids: chex.Array: Pass the input token ids to the model\n            attention_mask: chex.Array: Mask out the padding tokens\n            position_ids: chex.Array: Specify the position of each token\n                in the input sequence\n            deterministic: bool: Control whether the model is trained or\n                not\n            init_cache: bool: Initialize the cache for the decoder\n            output_attentions: bool: Return the attention weights\n            output_hidden_states: bool: Determine whether to return the\n                hidden states\n            return_dict: bool: Return a dictionary of the outputs or not\n            extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n                embedding of the word that we want to predict\n            None]]: Pass in the extra embedding\n\n        Returns:\n            The logits and the hidden states\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n        if attention_mask is None:\n            attention_mask = jnp.ones_like(input_ids)\n        if position_ids is None:\n            position_ids = jnp.broadcast_to(\n                jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n                (batch_size, seq_length)\n            )\n        outputs = self.model(\n            input_ids,\n            attention_mask,\n            position_ids,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n            extra_embedding=extra_embedding\n        )\n\n        hidden_states = outputs[0]\n\n        if self.config.tie_word_embeddings:\n            shared_kernel = self.model.variables[\"params\"][\"embed_tokens\"][\"embedding\"]\n            shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n            lm_logits = self.lm_head.apply(\n                {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n        else:\n            lm_logits = self.lm_head(hidden_states)\n\n        lm_logits = lm_logits.astype(jnp.float32)\n\n        if not return_dict:\n            return (lm_logits,) + outputs[1:]\n\n        return FlaxCausalLMOutput(logits=lm_logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions)\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForCausalLMModule.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, deterministic=True, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True, extra_embedding=None)</code>","text":"<p>The call function is the main function of a Flax module. It takes in inputs and returns outputs.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass the input token ids to the model</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the padding tokens</p> <code>None</code> <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in the input sequence</p> <code>None</code> <code>deterministic</code> <code>bool</code> <p>bool: Control whether the model is trained or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the decoder</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Determine whether to return the hidden states</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs or not</p> <code>True</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray: Pass in the embedding of the word that we want to predict</p> <code>None</code> <code>None]]</code> <p>Pass in the extra embedding</p> required <p>Returns:</p> Type Description <p>The logits and the hidden states</p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array = None,\n        position_ids: chex.Array = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n):\n    \"\"\"The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.\n\n    Args:\n        self: Refer to the object itself\n        input_ids: chex.Array: Pass the input token ids to the model\n        attention_mask: chex.Array: Mask out the padding tokens\n        position_ids: chex.Array: Specify the position of each token\n            in the input sequence\n        deterministic: bool: Control whether the model is trained or\n            not\n        init_cache: bool: Initialize the cache for the decoder\n        output_attentions: bool: Return the attention weights\n        output_hidden_states: bool: Determine whether to return the\n            hidden states\n        return_dict: bool: Return a dictionary of the outputs or not\n        extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n            embedding of the word that we want to predict\n        None]]: Pass in the extra embedding\n\n    Returns:\n        The logits and the hidden states\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n    if attention_mask is None:\n        attention_mask = jnp.ones_like(input_ids)\n    if position_ids is None:\n        position_ids = jnp.broadcast_to(\n            jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n            (batch_size, seq_length)\n        )\n    outputs = self.model(\n        input_ids,\n        attention_mask,\n        position_ids,\n        deterministic=deterministic,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict,\n        extra_embedding=extra_embedding\n    )\n\n    hidden_states = outputs[0]\n\n    if self.config.tie_word_embeddings:\n        shared_kernel = self.model.variables[\"params\"][\"embed_tokens\"][\"embedding\"]\n        shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n        lm_logits = self.lm_head.apply(\n            {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n    else:\n        lm_logits = self.lm_head(hidden_states)\n\n    lm_logits = lm_logits.astype(jnp.float32)\n\n    if not return_dict:\n        return (lm_logits,) + outputs[1:]\n\n    return FlaxCausalLMOutput(logits=lm_logits, hidden_states=outputs.hidden_states, attentions=outputs.attentions)\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForSequenceClassificationModule","title":"<code>FlaxQwen2ForSequenceClassificationModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>class FlaxQwen2ForSequenceClassificationModule(nn.Module):\n    num_classes: int\n    config: Qwen2Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        \"\"\"The setup function is called once at the beginning of training.\n        It initializes the model and optimizer, and sets up any other state that needs to be initialized.\n\n        Args:\n            self: Access variables that belong to the class\n\n        Returns:\n            A tuple of the model and the classifier\n        \"\"\"\n        self.model = FlaxQwen2Module(self.config, dtype=self.dtype)\n        self.classifier = Linear(\n            self.num_classes,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                stddev=self.config.initializer_range),\n            precision=self.precision,\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n    ):\n        \"\"\"The __call__ function is the main function of a Flax module.\n        It takes in all the inputs to the model and returns all outputs from it.\n        The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:\n            &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class\n            &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__\n\n        Args:\n            self: Refer to the class instance\n            input_ids: chex.Array: Pass the input to the model\n            attention_mask: chex.Array: Specify which tokens are masked\n            position_ids: chex.Array: Specify the position of each token\n                in the sequence\n            deterministic: bool: Control whether the model is run in\n                deterministic or stochastic mode\n            init_cache: bool: Initialize the cache for the transformer\n            output_attentions: bool: Return the attention weights\n            output_hidden_states: bool: Return the hidden states of all\n                layers\n            return_dict: bool: Return a dictionary of outputs\n            extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n                embedding of a new word\n            None]]: Pass the extra embedding to the model\n\n        Returns:\n            A tuple of logits and hidden_states\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n        if attention_mask is None:\n            attention_mask = jnp.ones_like(input_ids)\n        if position_ids is None:\n            position_ids = jnp.broadcast_to(\n                jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n                (batch_size, seq_length)\n            )\n        outputs = self.model(\n            input_ids,\n            attention_mask,\n            position_ids,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n            extra_embedding=extra_embedding\n        )\n\n        hidden_states = outputs[0]\n        prediction = self.classifier(hidden_states)\n        if return_dict:\n            return FlaxSequenceClassifierOutput(\n                logits=prediction,\n                hidden_states=hidden_states\n            )\n        else:\n            return prediction,\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForSequenceClassificationModule.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, deterministic=True, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True, extra_embedding=None)</code>","text":"<p>The call function is the main function of a Flax module. It takes in all the inputs to the model and returns all outputs from it. The call function can be called directly on an instance of a class, or by using parentheses after an instance:     &gt;&gt;&gt; my_model = MyModel()  # instantiate your model class     &gt;&gt;&gt; output = my_model(input)  # call your model with input data as arguments to call</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the class instance</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass the input to the model</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Specify which tokens are masked</p> <code>None</code> <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in the sequence</p> <code>None</code> <code>deterministic</code> <code>bool</code> <p>bool: Control whether the model is run in deterministic or stochastic mode</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the transformer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Return the hidden states of all layers</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of outputs</p> <code>True</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray: Pass in the embedding of a new word</p> <code>None</code> <code>None]]</code> <p>Pass the extra embedding to the model</p> required <p>Returns:</p> Type Description <p>A tuple of logits and hidden_states</p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array = None,\n        position_ids: chex.Array = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n):\n    \"\"\"The __call__ function is the main function of a Flax module.\n    It takes in all the inputs to the model and returns all outputs from it.\n    The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:\n        &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class\n        &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__\n\n    Args:\n        self: Refer to the class instance\n        input_ids: chex.Array: Pass the input to the model\n        attention_mask: chex.Array: Specify which tokens are masked\n        position_ids: chex.Array: Specify the position of each token\n            in the sequence\n        deterministic: bool: Control whether the model is run in\n            deterministic or stochastic mode\n        init_cache: bool: Initialize the cache for the transformer\n        output_attentions: bool: Return the attention weights\n        output_hidden_states: bool: Return the hidden states of all\n            layers\n        return_dict: bool: Return a dictionary of outputs\n        extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n            embedding of a new word\n        None]]: Pass the extra embedding to the model\n\n    Returns:\n        A tuple of logits and hidden_states\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n    if attention_mask is None:\n        attention_mask = jnp.ones_like(input_ids)\n    if position_ids is None:\n        position_ids = jnp.broadcast_to(\n            jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n            (batch_size, seq_length)\n        )\n    outputs = self.model(\n        input_ids,\n        attention_mask,\n        position_ids,\n        deterministic=deterministic,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict,\n        extra_embedding=extra_embedding\n    )\n\n    hidden_states = outputs[0]\n    prediction = self.classifier(hidden_states)\n    if return_dict:\n        return FlaxSequenceClassifierOutput(\n            logits=prediction,\n            hidden_states=hidden_states\n        )\n    else:\n        return prediction,\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2ForSequenceClassificationModule.setup","title":"<code>setup()</code>","text":"<p>The setup function is called once at the beginning of training. It initializes the model and optimizer, and sets up any other state that needs to be initialized.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <p>Returns:</p> Type Description <p>A tuple of the model and the classifier</p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>def setup(self):\n    \"\"\"The setup function is called once at the beginning of training.\n    It initializes the model and optimizer, and sets up any other state that needs to be initialized.\n\n    Args:\n        self: Access variables that belong to the class\n\n    Returns:\n        A tuple of the model and the classifier\n    \"\"\"\n    self.model = FlaxQwen2Module(self.config, dtype=self.dtype)\n    self.classifier = Linear(\n        self.num_classes,\n        dtype=self.dtype,\n        param_dtype=self.param_dtype,\n        use_bias=False,\n        kernel_init=jax.nn.initializers.normal(\n            stddev=self.config.initializer_range),\n        precision=self.precision,\n    )\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2MLP","title":"<code>FlaxQwen2MLP</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>class FlaxQwen2MLP(nn.Module):\n    config: Qwen2Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self) -&gt; None:\n        config = self.config\n\n        self.gate_proj = Linear(\n            config.intermediate_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.down_proj = Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.up_proj = Linear(\n            config.intermediate_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.dropout = flax.linen.Dropout(rate=self.config.resid_pdrop)\n\n    def __call__(self, x: jnp.ndarray, deterministic: bool = True) -&gt; jnp.ndarray:\n        \"\"\"The __call__ function is the main function of a class.\n        It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).\n        The __call__ method enables instances of a class to be called like standard Python functions.\n\n        Args:\n            self: Represent the instance of the class\n            x: jnp.ndarray: Pass in the input to the layer\n            deterministic: bool: Determine whether to use dropout\n\n        Returns:\n            A tensor that is the result of applying a dropout function\n            to x\n        \"\"\"\n        x = self.down_proj(jax.nn.silu(self.gate_proj(x)) * self.up_proj(x))\n        x = self.dropout(x, deterministic=deterministic)\n        return x\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2MLP.__call__","title":"<code>__call__(x, deterministic=True)</code>","text":"<p>The call function is the main function of a class. It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments). The call method enables instances of a class to be called like standard Python functions.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>x</code> <code>ndarray</code> <p>jnp.ndarray: Pass in the input to the layer</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout</p> <code>True</code> <p>Returns:</p> Type Description <code>ndarray</code> <p>A tensor that is the result of applying a dropout function</p> <code>ndarray</code> <p>to x</p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>def __call__(self, x: jnp.ndarray, deterministic: bool = True) -&gt; jnp.ndarray:\n    \"\"\"The __call__ function is the main function of a class.\n    It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).\n    The __call__ method enables instances of a class to be called like standard Python functions.\n\n    Args:\n        self: Represent the instance of the class\n        x: jnp.ndarray: Pass in the input to the layer\n        deterministic: bool: Determine whether to use dropout\n\n    Returns:\n        A tensor that is the result of applying a dropout function\n        to x\n    \"\"\"\n    x = self.down_proj(jax.nn.silu(self.gate_proj(x)) * self.up_proj(x))\n    x = self.dropout(x, deterministic=deterministic)\n    return x\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Module","title":"<code>FlaxQwen2Module</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>class FlaxQwen2Module(nn.Module):\n    config: Qwen2Config\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n\n        self.embed_tokens = nn.Embed(\n            self.config.vocab_size,\n            self.config.hidden_size,\n            embedding_init=jax.nn.initializers.normal(\n                stddev=self.config.initializer_range\n            ),\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n        )\n        self.dropout = flax.linen.Dropout(rate=self.config.embd_pdrop)\n        self.layers = FlaxQwen2BlockCollection(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.norm = Qwen2RMSNorm(\n            self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype\n        )\n        config = self.config\n        self.causal_mask = make_causal_mask(\n            jnp.ones(\n                (1, getattr(config, \"c_max_position_embeddings\", config.max_position_embeddings)), dtype=\"bool\"\n            ), dtype=\"bool\"\n        )\n\n        initial_rope_kwargs = dict(\n            rope_type=\"none\"\n        )\n        if config.rope_scaling is not None:\n            scaling_type = config.rope_scaling[\"type\"]\n            scaling_factor = config.rope_scaling[\"factor\"]\n            initial_rope_kwargs = dict(\n                scaling_factor=scaling_factor,\n                rope_type=scaling_type\n            )\n        self.freq_cis = precompute_freq_cis(\n            max_position_embeddings=(\n                getattr(self.config, \"freq_max_position_embeddings\", self.config.max_position_embeddings)\n            ),\n            dim=config.hidden_size // config.num_attention_heads,\n            base=config.rope_theta,\n            **initial_rope_kwargs\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            deterministic: bool = True,\n            inputs_embeds: chex.Array = None,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n    ):\n        \"\"\"The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids\n        and returns the output of the model. The __call__ function also has optional arguments that can be used to control\n        the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when\n        calling a Flax model.\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: chex.Array: Pass in the input token ids\n            attention_mask: chex.Array: Mask out the padding tokens\n            position_ids: chex.Array: Indicate the position of each\n                token in a sequence\n            deterministic: bool: Control whether dropout is applied or\n                not\n            inputs_embeds: chex.Array: Pass in the embeddings of the\n                input tokens\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attentions or not\n            output_hidden_states: bool: Determine whether to return\n                hidden states\n            return_dict: bool: Return a dictionary of the output or not\n            extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n                embedding of the\n            None]]: Pass in the extra embedding\n\n        Returns:\n            A tuple of:\n        \"\"\"\n        if inputs_embeds is None:\n            inputs_embeds = self.embed_tokens(input_ids.astype(\"i4\"))\n\n        batch_size, sequence_length, _ = inputs_embeds.shape\n\n        assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n        inputs_embeds = inputs_embeds + extra_embedding if extra_embedding is not None else inputs_embeds\n        hidden_states = self.dropout(\n            inputs_embeds, deterministic=deterministic)\n\n        outputs = self.layers(\n            hidden_states=hidden_states,\n            freq_cis=self.freq_cis,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            causal_mask=self.causal_mask,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n        )\n\n        hidden_states = outputs[0]\n        hidden_states = self.norm(hidden_states)\n\n        if output_hidden_states:\n            all_hidden_states = outputs[1] + (hidden_states,)\n            outputs = (hidden_states, all_hidden_states) + outputs[2:]\n        else:\n            outputs = (hidden_states,) + outputs[1:]\n\n        if not return_dict:\n            return tuple(v for v in outputs if v is not None)\n\n        return FlaxBaseModelOutput(\n            last_hidden_state=hidden_states,\n            hidden_states=outputs[1],\n            attentions=outputs[-1],\n        )\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2Module.__call__","title":"<code>__call__(input_ids, attention_mask, position_ids, deterministic=True, inputs_embeds=None, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True, extra_embedding=None)</code>","text":"<p>The call function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids and returns the output of the model. The call function also has optional arguments that can be used to control the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when calling a Flax model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass in the input token ids</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the padding tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Indicate the position of each token in a sequence</p> required <code>deterministic</code> <code>bool</code> <p>bool: Control whether dropout is applied or not</p> <code>True</code> <code>inputs_embeds</code> <code>Array</code> <p>chex.Array: Pass in the embeddings of the input tokens</p> <code>None</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attentions or not</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Determine whether to return hidden states</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the output or not</p> <code>True</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray: Pass in the embedding of the</p> <code>None</code> <code>None]]</code> <p>Pass in the extra embedding</p> required <p>Returns:</p> Type Description <p>A tuple of:</p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        deterministic: bool = True,\n        inputs_embeds: chex.Array = None,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n):\n    \"\"\"The __call__ function is the main function of a Flax model. It takes in input_ids, attention_mask, and position_ids\n    and returns the output of the model. The __call__ function also has optional arguments that can be used to control\n    the behavior of the model (e.g., deterministic=True). These optional arguments are passed as keyword arguments when\n    calling a Flax model.\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: chex.Array: Pass in the input token ids\n        attention_mask: chex.Array: Mask out the padding tokens\n        position_ids: chex.Array: Indicate the position of each\n            token in a sequence\n        deterministic: bool: Control whether dropout is applied or\n            not\n        inputs_embeds: chex.Array: Pass in the embeddings of the\n            input tokens\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attentions or not\n        output_hidden_states: bool: Determine whether to return\n            hidden states\n        return_dict: bool: Return a dictionary of the output or not\n        extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n            embedding of the\n        None]]: Pass in the extra embedding\n\n    Returns:\n        A tuple of:\n    \"\"\"\n    if inputs_embeds is None:\n        inputs_embeds = self.embed_tokens(input_ids.astype(\"i4\"))\n\n    batch_size, sequence_length, _ = inputs_embeds.shape\n\n    assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n    inputs_embeds = inputs_embeds + extra_embedding if extra_embedding is not None else inputs_embeds\n    hidden_states = self.dropout(\n        inputs_embeds, deterministic=deterministic)\n\n    outputs = self.layers(\n        hidden_states=hidden_states,\n        freq_cis=self.freq_cis,\n        attention_mask=attention_mask,\n        position_ids=position_ids,\n        causal_mask=self.causal_mask,\n        deterministic=deterministic,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict,\n    )\n\n    hidden_states = outputs[0]\n    hidden_states = self.norm(hidden_states)\n\n    if output_hidden_states:\n        all_hidden_states = outputs[1] + (hidden_states,)\n        outputs = (hidden_states, all_hidden_states) + outputs[2:]\n    else:\n        outputs = (hidden_states,) + outputs[1:]\n\n    if not return_dict:\n        return tuple(v for v in outputs if v is not None)\n\n    return FlaxBaseModelOutput(\n        last_hidden_state=hidden_states,\n        hidden_states=outputs[1],\n        attentions=outputs[-1],\n    )\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel","title":"<code>FlaxQwen2PreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>class FlaxQwen2PreTrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class = Qwen2Config\n    base_model_prefix = \"model\"\n    module_class: nn.Module = None\n\n    def __init__(\n            self,\n            config: Qwen2Config,\n            input_shape: Tuple = (1, 1),\n            seed: int = 0,\n            dtype: jnp.dtype = jnp.float32,\n            _do_init: bool = True,\n            **kwargs,\n    ):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It sets up the instance of the class, and defines what happens when it's created.\n        The __init__ function can take arguments, but self is always required (it refers to the instance of the object).\n\n        Args:\n            self: Refer to the object itself\n            config: Qwen2Config: Pass the configuration to the module\n            input_shape: Tuple: Specify the shape of the input to the\n                model\n            seed: int: Set the seed for random number generation\n            dtype: jnp.dtype: Specify the data type of the input\n            _do_init: bool: Control whether the module is initialized or\n                not\n            **kwargs: Pass in any additional parameters that the\n                module_class might need\n        :param : Specify the number of layers in the network\n\n        Returns:\n            The super() of the class\n        \"\"\"\n        module = self.module_class(config=config, dtype=dtype, **kwargs)\n        super().__init__(config, module, input_shape=input_shape, seed=seed, dtype=dtype, _do_init=_do_init)\n\n    def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Specify the shape of the input tensor\n            params: FrozenDict: Pass in the parameters of a pre-trained\n                model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n        if self.config.add_cross_attention:\n            encoder_hidden_states = jnp.zeros(\n                input_shape + (self.config.hidden_size,))\n            encoder_attention_mask = attention_mask\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids,\n                attention_mask,\n                position_ids,\n                encoder_hidden_states,\n                encoder_attention_mask,\n                return_dict=False,\n            )\n        else:\n            module_init_outputs = self.module.init(\n                rngs, input_ids, attention_mask, position_ids, return_dict=False)\n\n        random_params = module_init_outputs[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def init_cache(self, batch_size, max_length):\n        \"\"\"The init_cache function is used to initialize the cache for a given batch size and sequence length.\n        The cache is a dictionary that contains all the intermediate states from each layer in the model.\n        This allows us to run inference on multiple batches without having to re-run forward passes through every layer in\n        the model, which would be very slow.\n\n        Args:\n            self: Access the module\n            batch_size: Define the batch size of the input tensors\n            max_length: Set the length of the input sequence\n\n        Returns:\n            A dictionary with the following keys:\n        \"\"\"\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It takes in inputs and returns outputs, but it also has some other important features:\n        - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.\n        - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: chex.Array: Pass in the input tokens\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input\n            position_ids: chex.Array: Create the positional embeddings\n            params: dict: Pass in the parameters of the model\n            past_key_values: dict: Pass in the past key values from a\n                previous call to __call__\n            dropout_rng: jax.random.PRNGKey: Make sure that the dropout\n                is applied in a random way\n            train: bool: Determine whether to use dropout or not\n            output_attentions: Optional[bool]: Determine whether to\n                return the attention weights\n            output_hidden_states: Optional[bool]: Return the hidden\n                states of all layers\n            return_dict: Optional[bool]: Determine whether to return a\n                dictionary or not\n            extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in\n                the embedding for the input_ids\n            add_params_field: bool: Add the params field to the inputs\n                dictionary\n\n        Returns:\n            A tuple of the following:\n        \"\"\"\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\n                    \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                            None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rngs = {}\n        if dropout_rng is not None:\n            rngs[\"dropout\"] = dropout_rng\n\n        if self.config.bits is not None:\n            rngs['params'] = jax.random.key(0)\n\n        inputs = {\n            \"params\": params or self.params\n        } if add_params_field else params or self.params\n\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),\n            jnp.array(attention_mask, dtype=\"i4\"),\n            jnp.array(position_ids, dtype=\"i4\"),\n            not train,\n            False,\n            output_attentions,\n            output_hidden_states,\n            return_dict,\n            extra_embedding,\n            rngs=rngs,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + \\\n                      (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, params=None, past_key_values=None, dropout_rng=None, train=False, output_attentions=None, output_hidden_states=None, return_dict=None, extra_embedding=None, add_params_field=False, **kwargs)</code>","text":"<p>The call function is the main function of a JAX module. It takes in inputs and returns outputs, but it also has some other important features: - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end. - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass in the input tokens</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input</p> <code>None</code> <code>position_ids</code> <code>Array</code> <p>chex.Array: Create the positional embeddings</p> <code>None</code> <code>params</code> <code>dict</code> <p>dict: Pass in the parameters of the model</p> <code>None</code> <code>past_key_values</code> <code>dict</code> <p>dict: Pass in the past key values from a previous call to call</p> <code>None</code> <code>dropout_rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Make sure that the dropout is applied in a random way</p> <code>None</code> <code>train</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the attention weights</p> <code>None</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>Optional[bool]: Return the hidden states of all layers</p> <code>None</code> <code>return_dict</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return a dictionary or not</p> <code>None</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray,None]]: Pass in the embedding for the input_ids</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add the params field to the inputs dictionary</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of the following:</p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array = None,\n        position_ids: chex.Array = None,\n        params: dict = None,\n        past_key_values: dict = None,\n        dropout_rng: jax.random.PRNGKey = None,\n        train: bool = False,\n        output_attentions: Optional[bool] = None,\n        output_hidden_states: Optional[bool] = None,\n        return_dict: Optional[bool] = None,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n        add_params_field: bool = False,\n        **kwargs\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It takes in inputs and returns outputs, but it also has some other important features:\n    - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.\n    - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: chex.Array: Pass in the input tokens\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input\n        position_ids: chex.Array: Create the positional embeddings\n        params: dict: Pass in the parameters of the model\n        past_key_values: dict: Pass in the past key values from a\n            previous call to __call__\n        dropout_rng: jax.random.PRNGKey: Make sure that the dropout\n            is applied in a random way\n        train: bool: Determine whether to use dropout or not\n        output_attentions: Optional[bool]: Determine whether to\n            return the attention weights\n        output_hidden_states: Optional[bool]: Return the hidden\n            states of all layers\n        return_dict: Optional[bool]: Determine whether to return a\n            dictionary or not\n        extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in\n            the embedding for the input_ids\n        add_params_field: bool: Add the params field to the inputs\n            dictionary\n\n    Returns:\n        A tuple of the following:\n    \"\"\"\n    output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n    output_hidden_states = (\n        output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n    )\n    return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n    batch_size, sequence_length = input_ids.shape\n\n    assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n\n    if position_ids is None:\n        if past_key_values is not None:\n            raise ValueError(\n                \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n        position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                        None, :], (batch_size, sequence_length))\n\n    if attention_mask is None:\n        attention_mask = jnp.ones((batch_size, sequence_length))\n\n    rngs = {}\n    if dropout_rng is not None:\n        rngs[\"dropout\"] = dropout_rng\n\n    if self.config.bits is not None:\n        rngs['params'] = jax.random.key(0)\n\n    inputs = {\n        \"params\": params or self.params\n    } if add_params_field else params or self.params\n\n    if past_key_values:\n        inputs[\"cache\"] = past_key_values\n        mutable = [\"cache\"]\n    else:\n        mutable = False\n\n    outputs = self.module.apply(\n        inputs,\n        jnp.array(input_ids, dtype=\"i4\"),\n        jnp.array(attention_mask, dtype=\"i4\"),\n        jnp.array(position_ids, dtype=\"i4\"),\n        not train,\n        False,\n        output_attentions,\n        output_hidden_states,\n        return_dict,\n        extra_embedding,\n        rngs=rngs,\n        mutable=mutable,\n    )\n\n    if past_key_values is not None and return_dict:\n        outputs, past_key_values = outputs\n        outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n        return outputs\n    elif past_key_values is not None and not return_dict:\n        outputs, past_key_values = outputs\n        outputs = outputs[:1] + \\\n                  (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.__init__","title":"<code>__init__(config, input_shape=(1, 1), seed=0, dtype=jnp.float32, _do_init=True, **kwargs)</code>","text":"<p>The init function is called when the class is instantiated. It sets up the instance of the class, and defines what happens when it's created. The init function can take arguments, but self is always required (it refers to the instance of the object).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>config</code> <code>Qwen2Config</code> <p>Qwen2Config: Pass the configuration to the module</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Specify the shape of the input to the model</p> <code>(1, 1)</code> <code>seed</code> <code>int</code> <p>int: Set the seed for random number generation</p> <code>0</code> <code>dtype</code> <code>dtype</code> <p>jnp.dtype: Specify the data type of the input</p> <code>float32</code> <code>_do_init</code> <code>bool</code> <p>bool: Control whether the module is initialized or not</p> <code>True</code> <code>**kwargs</code> <p>Pass in any additional parameters that the module_class might need</p> <code>{}</code> <p>:param : Specify the number of layers in the network</p> <p>Returns:</p> Type Description <p>The super() of the class</p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>def __init__(\n        self,\n        config: Qwen2Config,\n        input_shape: Tuple = (1, 1),\n        seed: int = 0,\n        dtype: jnp.dtype = jnp.float32,\n        _do_init: bool = True,\n        **kwargs,\n):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It sets up the instance of the class, and defines what happens when it's created.\n    The __init__ function can take arguments, but self is always required (it refers to the instance of the object).\n\n    Args:\n        self: Refer to the object itself\n        config: Qwen2Config: Pass the configuration to the module\n        input_shape: Tuple: Specify the shape of the input to the\n            model\n        seed: int: Set the seed for random number generation\n        dtype: jnp.dtype: Specify the data type of the input\n        _do_init: bool: Control whether the module is initialized or\n            not\n        **kwargs: Pass in any additional parameters that the\n            module_class might need\n    :param : Specify the number of layers in the network\n\n    Returns:\n        The super() of the class\n    \"\"\"\n    module = self.module_class(config=config, dtype=dtype, **kwargs)\n    super().__init__(config, module, input_shape=input_shape, seed=seed, dtype=dtype, _do_init=_do_init)\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.init_cache","title":"<code>init_cache(batch_size, max_length)</code>","text":"<p>The init_cache function is used to initialize the cache for a given batch size and sequence length. The cache is a dictionary that contains all the intermediate states from each layer in the model. This allows us to run inference on multiple batches without having to re-run forward passes through every layer in the model, which would be very slow.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access the module</p> required <code>batch_size</code> <p>Define the batch size of the input tensors</p> required <code>max_length</code> <p>Set the length of the input sequence</p> required <p>Returns:</p> Type Description <p>A dictionary with the following keys:</p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>def init_cache(self, batch_size, max_length):\n    \"\"\"The init_cache function is used to initialize the cache for a given batch size and sequence length.\n    The cache is a dictionary that contains all the intermediate states from each layer in the model.\n    This allows us to run inference on multiple batches without having to re-run forward passes through every layer in\n    the model, which would be very slow.\n\n    Args:\n        self: Access the module\n        batch_size: Define the batch size of the input tensors\n        max_length: Set the length of the input sequence\n\n    Returns:\n        A dictionary with the following keys:\n    \"\"\"\n    input_ids = jnp.ones((batch_size, max_length))\n    attention_mask = jnp.ones_like(input_ids)\n    position_ids = jnp.broadcast_to(jnp.arange(\n        jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n    init_variables = self.module.init(\n        jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n    )\n    return init_variables[\"cache\"]\n</code></pre>"},{"location":"generated-modules-qwen2-modelling_qwen_flax/#src.python.easydel.modules.qwen2.modelling_qwen_flax.FlaxQwen2PreTrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Specify the shape of the input tensor</p> required <code>params</code> <code>FrozenDict</code> <p>FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/qwen2/modelling_qwen_flax.py</code> <pre><code>def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Specify the shape of the input tensor\n        params: FrozenDict: Pass in the parameters of a pre-trained\n            model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids)\n    position_ids = jnp.broadcast_to(jnp.arange(jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n    params_rng, dropout_rng = jax.random.split(rng)\n    rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n    if self.config.add_cross_attention:\n        encoder_hidden_states = jnp.zeros(\n            input_shape + (self.config.hidden_size,))\n        encoder_attention_mask = attention_mask\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids,\n            attention_mask,\n            position_ids,\n            encoder_hidden_states,\n            encoder_attention_mask,\n            return_dict=False,\n        )\n    else:\n        module_init_outputs = self.module.init(\n            rngs, input_ids, attention_mask, position_ids, return_dict=False)\n\n    random_params = module_init_outputs[\"params\"]\n\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-qwen2-qwen_configuration/","title":"modules.qwen2.qwen_configuration","text":""},{"location":"generated-modules-qwen2-qwen_configuration/#src.python.easydel.modules.qwen2.qwen_configuration.Qwen2Config","title":"<code>Qwen2Config</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> Source code in <code>src/python/easydel/modules/qwen2/qwen_configuration.py</code> <pre><code>class Qwen2Config(EasyDeLPretrainedConfig):\n    model_type: str = \"qwen2\"\n\n    def __init__(\n            self,\n            vocab_size=151936,\n            hidden_size=4096,\n            intermediate_size=22016,\n            num_hidden_layers=32,\n            num_attention_heads=32,\n            num_key_value_heads=32,\n            hidden_act=\"silu\",\n            max_position_embeddings=32768,\n            initializer_range=0.02,\n            rms_norm_eps=1e-6,\n            use_cache=True,\n            tie_word_embeddings=False,\n            rope_theta=10000.0,\n            use_sliding_window=False,\n            sliding_window=4096,\n            max_window_layers=28,\n            attention_dropout=0.0,\n            resid_pdrop: float = 0.0,\n            embd_pdrop: float = 0.0,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            fcm_min_ratio: float = 0.0,\n            fcm_max_ratio: float = 0.0,\n            use_scan_mlp: bool = False,\n            scan_mlp_chunk_size: int = 1024,\n            number_rep_kv: int = 1,\n            bits: Optional[int] = None,\n            scan_layers: bool = True,\n            rope_scaling: Optional[Mapping[str, str | float]] = None,\n            **kwargs,\n    ):\n        self.vocab_size = vocab_size\n        self.max_position_embeddings = max_position_embeddings\n        self.hidden_size = hidden_size\n        self.intermediate_size = intermediate_size\n        self.num_hidden_layers = num_hidden_layers\n        self.num_attention_heads = num_attention_heads\n        self.use_sliding_window = use_sliding_window\n        self.sliding_window = sliding_window\n        self.max_window_layers = max_window_layers\n\n        # for backward compatibility\n        if num_key_value_heads is None:\n            num_key_value_heads = num_attention_heads\n\n        self.rope_scaling = rope_scaling\n        self.num_key_value_heads = num_key_value_heads\n        self.hidden_act = hidden_act\n        self.initializer_range = initializer_range\n        self.rms_norm_eps = rms_norm_eps\n        self.use_cache = use_cache\n        self.rope_theta = rope_theta\n        self.scan_layers = scan_layers\n        self.embd_pdrop = embd_pdrop\n        self.number_rep_kv = number_rep_kv\n        self.resid_pdrop = resid_pdrop\n        self.attention_dropout = attention_dropout\n        self.tie_word_embeddings = tie_word_embeddings\n        self.gradient_checkpointing = gradient_checkpointing\n        self.fcm_min_ratio = fcm_min_ratio\n        self.fcm_max_ratio = fcm_max_ratio\n        self.use_scan_mlp = use_scan_mlp\n        self.scan_mlp_chunk_size = scan_mlp_chunk_size\n        self.bits = bits\n        super().__init__(\n            tie_word_embeddings=tie_word_embeddings,\n            use_scan_mlp=use_scan_mlp,\n            scan_mlp_chunk_size=scan_mlp_chunk_size,\n            bits=bits,\n            **kwargs,\n        )\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n            1) A regex string that matches the name of one or more parameters in the model.\n            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to\n                partition the model fully or not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"mlp/down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec(None)),\n        ) if not fully_sharded_data_parallel else (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n\n    def add_jax_args(\n            self,\n            resid_pdrop: float = 0.0,\n            embd_pdrop: float = 0.0,\n            attention_dropout: float = 0.0,\n            tie_word_embeddings: bool = False,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            fcm_min_ratio: float = 0.0,\n            fcm_max_ratio: float = 0.0,\n            use_scan_mlp: bool = False,\n            scan_mlp_chunk_size: int = 1024,\n            number_rep_kv: int = 1,\n            bits: Optional[int] = None,\n            rope_theta: float = 10000.,\n            hidden_act: str = \"silu\",\n            scan_layers: bool = True,\n            rope_scaling: Optional[Mapping[str, str | float]] = None,\n            **kwargs,\n    ):\n        \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n        Args:\n            self: Refer to the current object\n            resid_pdrop: float: Set the dropout rate for residual\n                connections\n            embd_pdrop: float: Set the probability of dropping an\n                embedding\n            attention_dropout: float: Set the probability of dropping\n                out the attention layer\n            tie_word_embeddings: bool: Tie the word embeddings to the\n                decoder\n            gradient_checkpointing: str: Control the amount of memory\n                used by jax\n            fcm_min_ratio: float: Control the minimum ratio of the\n                number of chunks to be used in flash-based computation\n            fcm_max_ratio: float: Set the maximum ratio of the number of\n                input tokens to output tokens\n            use_scan_mlp: bool: Determine whether to use the scan_mlp\n                function or not\n            scan_mlp_chunk_size: int: Set the chunk size for scan_mlp\n            number_rep_kv: int: Determine how many times the key and\n                value vectors are repeated\n            bits: Optional[int]: Determine the number of bits used in\n                the quantization\n            rope_theta: float : rope_theta for compute rope\n            hidden_act: str : hidden_act for mlp\n            scan_layers: bool: Determine whether to use scan layers or\n                not\n\n        Returns:\n            The following:\n        \"\"\"\n        self.scan_layers = scan_layers\n        self.embd_pdrop = embd_pdrop\n        self.number_rep_kv = number_rep_kv\n        self.resid_pdrop = resid_pdrop\n        self.rope_theta = rope_theta\n        self.rope_scaling = rope_scaling\n        self.attention_dropout = attention_dropout\n        self.hidden_act = hidden_act\n        self.tie_word_embeddings = tie_word_embeddings\n        self.gradient_checkpointing = gradient_checkpointing\n        self.fcm_min_ratio = fcm_min_ratio\n        self.fcm_max_ratio = fcm_max_ratio\n\n        self.use_scan_mlp = use_scan_mlp\n        self.scan_mlp_chunk_size = scan_mlp_chunk_size\n        self.bits = bits\n\n    @staticmethod\n    def get_weight_decay_exclusions():\n        return tuple()\n\n    @staticmethod\n    def rng_keys():\n        return \"params\", \"dropout\", \"fcm\"\n</code></pre>"},{"location":"generated-modules-qwen2-qwen_configuration/#src.python.easydel.modules.qwen2.qwen_configuration.Qwen2Config.add_jax_args","title":"<code>add_jax_args(resid_pdrop=0.0, embd_pdrop=0.0, attention_dropout=0.0, tie_word_embeddings=False, gradient_checkpointing='nothing_saveable', fcm_min_ratio=0.0, fcm_max_ratio=0.0, use_scan_mlp=False, scan_mlp_chunk_size=1024, number_rep_kv=1, bits=None, rope_theta=10000.0, hidden_act='silu', scan_layers=True, rope_scaling=None, **kwargs)</code>","text":"<p>The add_jax_args function adds the following arguments to the Transformer class:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the current object</p> required <code>resid_pdrop</code> <code>float</code> <p>float: Set the dropout rate for residual connections</p> <code>0.0</code> <code>embd_pdrop</code> <code>float</code> <p>float: Set the probability of dropping an embedding</p> <code>0.0</code> <code>attention_dropout</code> <code>float</code> <p>float: Set the probability of dropping out the attention layer</p> <code>0.0</code> <code>tie_word_embeddings</code> <code>bool</code> <p>bool: Tie the word embeddings to the decoder</p> <code>False</code> <code>gradient_checkpointing</code> <code>str</code> <p>str: Control the amount of memory used by jax</p> <code>'nothing_saveable'</code> <code>fcm_min_ratio</code> <code>float</code> <p>float: Control the minimum ratio of the number of chunks to be used in flash-based computation</p> <code>0.0</code> <code>fcm_max_ratio</code> <code>float</code> <p>float: Set the maximum ratio of the number of input tokens to output tokens</p> <code>0.0</code> <code>use_scan_mlp</code> <code>bool</code> <p>bool: Determine whether to use the scan_mlp function or not</p> <code>False</code> <code>scan_mlp_chunk_size</code> <code>int</code> <p>int: Set the chunk size for scan_mlp</p> <code>1024</code> <code>number_rep_kv</code> <code>int</code> <p>int: Determine how many times the key and value vectors are repeated</p> <code>1</code> <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Determine the number of bits used in the quantization</p> <code>None</code> <code>rope_theta</code> <code>float</code> <p>float : rope_theta for compute rope</p> <code>10000.0</code> <code>hidden_act</code> <code>str</code> <p>str : hidden_act for mlp</p> <code>'silu'</code> <code>scan_layers</code> <code>bool</code> <p>bool: Determine whether to use scan layers or not</p> <code>True</code> <p>Returns:</p> Type Description <p>The following:</p> Source code in <code>src/python/easydel/modules/qwen2/qwen_configuration.py</code> <pre><code>def add_jax_args(\n        self,\n        resid_pdrop: float = 0.0,\n        embd_pdrop: float = 0.0,\n        attention_dropout: float = 0.0,\n        tie_word_embeddings: bool = False,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        fcm_min_ratio: float = 0.0,\n        fcm_max_ratio: float = 0.0,\n        use_scan_mlp: bool = False,\n        scan_mlp_chunk_size: int = 1024,\n        number_rep_kv: int = 1,\n        bits: Optional[int] = None,\n        rope_theta: float = 10000.,\n        hidden_act: str = \"silu\",\n        scan_layers: bool = True,\n        rope_scaling: Optional[Mapping[str, str | float]] = None,\n        **kwargs,\n):\n    \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n    Args:\n        self: Refer to the current object\n        resid_pdrop: float: Set the dropout rate for residual\n            connections\n        embd_pdrop: float: Set the probability of dropping an\n            embedding\n        attention_dropout: float: Set the probability of dropping\n            out the attention layer\n        tie_word_embeddings: bool: Tie the word embeddings to the\n            decoder\n        gradient_checkpointing: str: Control the amount of memory\n            used by jax\n        fcm_min_ratio: float: Control the minimum ratio of the\n            number of chunks to be used in flash-based computation\n        fcm_max_ratio: float: Set the maximum ratio of the number of\n            input tokens to output tokens\n        use_scan_mlp: bool: Determine whether to use the scan_mlp\n            function or not\n        scan_mlp_chunk_size: int: Set the chunk size for scan_mlp\n        number_rep_kv: int: Determine how many times the key and\n            value vectors are repeated\n        bits: Optional[int]: Determine the number of bits used in\n            the quantization\n        rope_theta: float : rope_theta for compute rope\n        hidden_act: str : hidden_act for mlp\n        scan_layers: bool: Determine whether to use scan layers or\n            not\n\n    Returns:\n        The following:\n    \"\"\"\n    self.scan_layers = scan_layers\n    self.embd_pdrop = embd_pdrop\n    self.number_rep_kv = number_rep_kv\n    self.resid_pdrop = resid_pdrop\n    self.rope_theta = rope_theta\n    self.rope_scaling = rope_scaling\n    self.attention_dropout = attention_dropout\n    self.hidden_act = hidden_act\n    self.tie_word_embeddings = tie_word_embeddings\n    self.gradient_checkpointing = gradient_checkpointing\n    self.fcm_min_ratio = fcm_min_ratio\n    self.fcm_max_ratio = fcm_max_ratio\n\n    self.use_scan_mlp = use_scan_mlp\n    self.scan_mlp_chunk_size = scan_mlp_chunk_size\n    self.bits = bits\n</code></pre>"},{"location":"generated-modules-qwen2-qwen_configuration/#src.python.easydel.modules.qwen2.qwen_configuration.Qwen2Config.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:     1) A regex string that matches the name of one or more parameters in the model.     2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to partition the model fully or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/qwen2/qwen_configuration.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n        1) A regex string that matches the name of one or more parameters in the model.\n        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to\n            partition the model fully or not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"mlp/down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\".*\", PartitionSpec(None)),\n    ) if not fully_sharded_data_parallel else (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n        (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-qwen2_moe-configuration_qwen2_moe/","title":"modules.qwen2_moe.configuration_qwen2_moe","text":""},{"location":"generated-modules-qwen2_moe-configuration_qwen2_moe/#src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe.Qwen2MoeConfig","title":"<code>Qwen2MoeConfig</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> Source code in <code>src/python/easydel/modules/qwen2_moe/configuration_qwen2_moe.py</code> <pre><code>class Qwen2MoeConfig(EasyDeLPretrainedConfig):\n    model_type: str = \"qwen2_moe\"\n\n    def __init__(\n            self,\n            vocab_size=151936,\n            hidden_size=2048,\n            intermediate_size=5632,\n            num_hidden_layers=24,\n            num_attention_heads=16,\n            num_key_value_heads=16,\n            hidden_act=\"silu\",\n            max_position_embeddings=32768,\n            initializer_range=0.02,\n            rms_norm_eps=1e-6,\n            use_cache=True,\n            tie_word_embeddings=False,\n            rope_theta=10000.0,\n            use_sliding_window=False,\n            sliding_window=4096,\n            max_window_layers=28,\n            attention_dropout=0.0,\n            decoder_sparse_step=1,\n            moe_intermediate_size=1408,\n            shared_expert_intermediate_size=5632,\n            num_experts_per_tok=4,\n            num_experts=60,\n            norm_topk_prob=False,\n            output_router_logits=False,\n            router_aux_loss_coef=0.001,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            bits: Optional[int] = None,\n            **kwargs,\n    ):\n        self.vocab_size = vocab_size\n        self.max_position_embeddings = max_position_embeddings\n        self.hidden_size = hidden_size\n        self.intermediate_size = intermediate_size\n        self.num_hidden_layers = num_hidden_layers\n        self.num_attention_heads = num_attention_heads\n        self.use_sliding_window = use_sliding_window\n        self.sliding_window = sliding_window\n        self.max_window_layers = max_window_layers\n\n        self.num_key_value_heads = num_key_value_heads\n        self.hidden_act = hidden_act\n        self.initializer_range = initializer_range\n        self.rms_norm_eps = rms_norm_eps\n        self.use_cache = use_cache\n        self.rope_theta = rope_theta\n        self.attention_dropout = attention_dropout\n\n        # MoE arguments\n        self.decoder_sparse_step = decoder_sparse_step\n        self.moe_intermediate_size = moe_intermediate_size\n        self.shared_expert_intermediate_size = shared_expert_intermediate_size\n        self.num_experts_per_tok = num_experts_per_tok\n        self.num_experts = num_experts\n        self.norm_topk_prob = norm_topk_prob\n        self.output_router_logits = output_router_logits\n        self.router_aux_loss_coef = router_aux_loss_coef\n        self.gradient_checkpointing = gradient_checkpointing\n        self.bits = bits\n        super().__init__(\n            tie_word_embeddings=tie_word_embeddings,\n            **kwargs,\n        )\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n        It returns a list of tuples, where each tuple contains two elements:\n            1) A regex string that matches the name of one or more parameters in the model.\n            2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n        Args:\n            fully_sharded_data_parallel: bool: Determine whether to\n                partition the model fully or not\n\n        Returns:\n            A list of tuples\n        \"\"\"\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"shared_expert_gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec(None)),\n        ) if not fully_sharded_data_parallel else (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"shared_expert_gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n\n    def add_jax_args(\n            self,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            bits: Optional[int] = None,\n            **kwargs,\n    ):\n        \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n        Args:\n            self: Refer to the current object\n            gradient_checkpointing: str: Control the amount of memory\n                used by jax\n            bits: Optional[int]: Determine the number of bits used in\n                the quantization\n\n        Returns:\n            The following:\n        \"\"\"\n        self.gradient_checkpointing = gradient_checkpointing\n        self.bits = bits\n\n    @staticmethod\n    def get_weight_decay_exclusions():\n        return tuple()\n\n    @staticmethod\n    def rng_keys():\n        return \"params\", \"dropout\"\n</code></pre>"},{"location":"generated-modules-qwen2_moe-configuration_qwen2_moe/#src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe.Qwen2MoeConfig.add_jax_args","title":"<code>add_jax_args(gradient_checkpointing='nothing_saveable', bits=None, **kwargs)</code>","text":"<p>The add_jax_args function adds the following arguments to the Transformer class:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the current object</p> required <code>gradient_checkpointing</code> <code>str</code> <p>str: Control the amount of memory used by jax</p> <code>'nothing_saveable'</code> <code>bits</code> <code>Optional[int]</code> <p>Optional[int]: Determine the number of bits used in the quantization</p> <code>None</code> <p>Returns:</p> Type Description <p>The following:</p> Source code in <code>src/python/easydel/modules/qwen2_moe/configuration_qwen2_moe.py</code> <pre><code>def add_jax_args(\n        self,\n        gradient_checkpointing: str = \"nothing_saveable\",\n        bits: Optional[int] = None,\n        **kwargs,\n):\n    \"\"\"The add_jax_args function adds the following arguments to the Transformer class:\n\n    Args:\n        self: Refer to the current object\n        gradient_checkpointing: str: Control the amount of memory\n            used by jax\n        bits: Optional[int]: Determine the number of bits used in\n            the quantization\n\n    Returns:\n        The following:\n    \"\"\"\n    self.gradient_checkpointing = gradient_checkpointing\n    self.bits = bits\n</code></pre>"},{"location":"generated-modules-qwen2_moe-configuration_qwen2_moe/#src.python.easydel.modules.qwen2_moe.configuration_qwen2_moe.Qwen2MoeConfig.get_partition_rules","title":"<code>get_partition_rules(fully_sharded_data_parallel=True)</code>","text":"<p>The get_partition_rules function is used to define the partitioning scheme for a model. It returns a list of tuples, where each tuple contains two elements:     1) A regex string that matches the name of one or more parameters in the model.     2) A PartitionScheme object that defines how those parameters should be partitioned across devices.</p> <p>Parameters:</p> Name Type Description Default <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine whether to partition the model fully or not</p> <code>True</code> <p>Returns:</p> Type Description <p>A list of tuples</p> Source code in <code>src/python/easydel/modules/qwen2_moe/configuration_qwen2_moe.py</code> <pre><code>def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n    \"\"\"The get_partition_rules function is used to define the partitioning scheme for a model.\n    It returns a list of tuples, where each tuple contains two elements:\n        1) A regex string that matches the name of one or more parameters in the model.\n        2) A PartitionScheme object that defines how those parameters should be partitioned across devices.\n\n    Args:\n        fully_sharded_data_parallel: bool: Determine whether to\n            partition the model fully or not\n\n    Returns:\n        A list of tuples\n    \"\"\"\n    return (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n        (\"gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n        (\"up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"shared_expert_gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\".*\", PartitionSpec(None)),\n    ) if not fully_sharded_data_parallel else (\n\n        (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n        (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n        (\"gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"shared_expert_gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n        (\"gate/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n        (\"input_layernorm/kernel\", PartitionSpec(None)),\n        (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n        (\"model/norm/kernel\", PartitionSpec(None)),\n        (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n        (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n    )\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/","title":"modules.qwen2_moe.modeling_qwen2_moe_flax","text":""},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeAttention","title":"<code>FlaxQwen2MoeAttention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>class FlaxQwen2MoeAttention(BaseJAXAttentionModule):\n    config: Qwen2MoeConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        config = self.config\n        self.hidden_size = config.hidden_size\n        self.head_dim = self.config.hidden_size // self.config.num_attention_heads\n        self.num_key_value_groups = self.config.num_attention_heads // self.config.num_key_value_heads\n\n        if self.num_key_value_groups == 1:\n            assert self.config.num_attention_heads == self.config.num_key_value_heads\n        self.q_proj = Linear(\n            config.num_attention_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=True,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.k_proj = Linear(\n            config.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=True,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.v_proj = Linear(\n            config.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=True,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.o_proj = Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n        self.rotary = FlaxQwen2MoeEmbedding(self.dtype)\n        self.attention_performer = AttentionModule(\n            use_sharding_constraint=self.config.use_sharding_constraint,\n            block_k_major=self.config.block_k_major,\n            block_b=self.config.block_b,\n            block_q=self.config.block_q,\n            block_k=self.config.block_k,\n            block_q_major_dkv=self.config.block_q_major_dkv,\n            block_k_major_dkv=self.config.block_k_major_dkv,\n            block_k_major_dq=self.config.block_k_major_dq,\n            block_k_dkv=self.config.block_k_dkv,\n            block_q_dkv=self.config.block_q_dkv,\n            block_q_dq=self.config.block_q_dq,\n            block_k_dq=self.config.block_k_dq,\n            num_attention_heads=self.config.num_attention_heads,\n            attention_dropout=self.config.attention_dropout,\n            head_dims=self.head_dim,\n            attention_partition_spec=self.config.attention_partition_spec,\n            shard_attention_computation=self.config.shard_attention_computation,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            bias_partition_spec=self.config.bias_partition_spec,\n            key_partition_spec=self.config.key_partition_spec,\n            query_partition_spec=self.config.query_partition_spec,\n            generation_query_partition_spec=self.config.generation_query_partition_spec,\n            generation_bias_partition_spec=self.config.generation_bias_partition_spec,\n            generation_attention_partition_spec=self.config.generation_attention_partition_spec,\n            value_partition_spec=self.config.value_partition_spec,\n            scan_ring_attention=self.config.scan_ring_attention,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name,\n            backward_pass_impl=self.config.flash_attention_backward_pass_impl\n        )\n        self.resid_dropout = flax.linen.Dropout(rate=config.attention_dropout)\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.hidden_size,))\n\n    @staticmethod\n    def _transpose_sequence_head(query, key, value):\n        \"\"\"The _transpose_sequence_head function transposes the query, key and value matrices.\n\n        Args:\n            query: Get the attention weights for each of the heads\n            key: Determine the number of heads\n            value: Store the values of the input\n\n        Returns:\n            The transpose of the query, key and value matrices\n        \"\"\"\n        return jnp.transpose(query, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value, (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n        \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n        Args:\n            self: Access variables that belong to the class\n            batch_size: Reshape the query, key and value tensors\n            sequence_length: Reshape the query, key and value tensors\n            query: Calculate the attention weights\n            key: Calculate the attention\n            value: Compute the attention weights\n            freq_cis: Calculate the frequency of each word in the\n                vocabulary\n            position_ids: Identify the position of each token in the\n                sequence\n\n        Returns:\n            A tuple of 3 tensors: query, key and value\n        \"\"\"\n        query = query.reshape(batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n        key = key.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n        value = value.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n        query, key, value = self._transpose_sequence_head(query, key, value)\n        query, key = self.rotary(\n            position_ids=position_ids, query=query, key=key, freq_cis=freq_cis\n        )\n        key = repeat_kv_bnsh(key, self.num_key_value_groups)\n        value = repeat_kv_bnsh(value, self.num_key_value_groups)\n        return self._transpose_sequence_head(query, key, value)\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            fcm_mask=None,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n        and it should return all outputs that are needed for training or inference.\n\n        Args:\n            self: Access variables that belong to the class\n            hidden_states: chex.Array: Pass the hidden states of the\n                previous layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency coefficients for each position\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Determine the position of each\n                token in a sequence\n            causal_mask: chex.Array: Mask out the future tokens in the\n                decoder\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n            fcm_mask: Mask out the attention weights between the input\n                and output tokens\n        :param : Determine if the attention is causal or not\n\n        Returns:\n            A tuple of two arrays\n        \"\"\"\n        batch_size, sequence_length = hidden_states.shape[:2]\n        query_states, key_states, value_states = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(\n            hidden_states)\n\n        query_states = query_states.reshape(batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n        key_states = key_states.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n        value_states = value_states.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query=query_states,\n            key=key_states,\n            value=value_states,\n            position_ids=position_ids,\n            freq_cis=freq_cis,\n            batch_size=batch_size,\n            sequence_length=sequence_length\n        )\n\n        assert_msg = (\n            \"num_attention_heads repeat wont work likely\\n\"\n            f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n            f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n        )\n\n        assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                     query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        attention_mask = jnp.broadcast_to(jnp.expand_dims(\n            attention_mask, axis=(-3, -2)), causal_mask.shape)\n        attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n        dropout_rng = None\n\n        if not deterministic and self.config.attention_dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n\n        if self.config.use_sharding_constraint:\n            query_states = with_sharding_constraint(\n                query_states,\n                jax.sharding.PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n            )\n            key_states = with_sharding_constraint(key_states,\n                                                  jax.sharding.PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None))\n            value_states = with_sharding_constraint(value_states,\n                                                    jax.sharding.PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None))\n        attention_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=attention_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n\n\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        attn_output = self.o_proj(attn_output)\n\n        attn_output = self.resid_dropout(\n            attn_output, deterministic=deterministic)\n        outputs = (\n            attn_output, attentions.attention_weights\n        ) if output_attentions else (\n            attn_output,\n        )\n        return outputs\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeAttention.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, segment_ids=None, deterministic=True, init_cache=False, output_attentions=False, fcm_mask=None)</code>","text":"<p>The call function is the main function of a JAX module. It defines how the module behaves when called with inputs. The call function can be thought of as a \"forward pass\" through the model, and it should return all outputs that are needed for training or inference.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the hidden states of the previous layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency coefficients for each position</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask out the future tokens in the decoder</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <code>fcm_mask</code> <p>Mask out the attention weights between the input and output tokens</p> <code>None</code> <p>:param : Determine if the attention is causal or not</p> <p>Returns:</p> Type Description <p>A tuple of two arrays</p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        fcm_mask=None,\n):\n    \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n    and it should return all outputs that are needed for training or inference.\n\n    Args:\n        self: Access variables that belong to the class\n        hidden_states: chex.Array: Pass the hidden states of the\n            previous layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency coefficients for each position\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Determine the position of each\n            token in a sequence\n        causal_mask: chex.Array: Mask out the future tokens in the\n            decoder\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n        fcm_mask: Mask out the attention weights between the input\n            and output tokens\n    :param : Determine if the attention is causal or not\n\n    Returns:\n        A tuple of two arrays\n    \"\"\"\n    batch_size, sequence_length = hidden_states.shape[:2]\n    query_states, key_states, value_states = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(\n        hidden_states)\n\n    query_states = query_states.reshape(batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n    key_states = key_states.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n    value_states = value_states.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n    query_states, key_states, value_states = self.apply_rotary(\n        query=query_states,\n        key=key_states,\n        value=value_states,\n        position_ids=position_ids,\n        freq_cis=freq_cis,\n        batch_size=batch_size,\n        sequence_length=sequence_length\n    )\n\n    assert_msg = (\n        \"num_attention_heads repeat wont work likely\\n\"\n        f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n        f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n    )\n\n    assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    if self.has_variable(\"cache\", \"cached_key\"):\n        mask_shift = self.variables[\"cache\"][\"cache_index\"]\n        max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n        causal_mask = lax.dynamic_slice(\n            causal_mask, (0, 0, mask_shift, 0), (1, 1,\n                                                 query_length, max_decoder_length)\n        )\n    else:\n        causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n    batch_size = hidden_states.shape[0]\n    causal_mask = jnp.broadcast_to(\n        causal_mask, (batch_size,) + causal_mask.shape[1:])\n    attention_mask = jnp.broadcast_to(jnp.expand_dims(\n        attention_mask, axis=(-3, -2)), causal_mask.shape)\n    attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n    if attention_mask.ndim == 2:\n        attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n    dropout_rng = None\n\n    if not deterministic and self.config.attention_dropout &gt; 0.0:\n        dropout_rng = self.make_rng(\"dropout\")\n\n    if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n        key_states, value_states, attention_mask = self._concatenate_to_cache(\n            key_states,\n            value_states,\n            query_states,\n            attention_mask\n        )\n\n    if self.config.use_sharding_constraint:\n        query_states = with_sharding_constraint(\n            query_states,\n            jax.sharding.PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n        )\n        key_states = with_sharding_constraint(key_states,\n                                              jax.sharding.PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None))\n        value_states = with_sharding_constraint(value_states,\n                                                jax.sharding.PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None))\n    attention_bias = lax.select(\n        attention_mask &gt; 0,\n        jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n        jnp.full(attention_mask.shape, jnp.finfo(\n            self.dtype).min).astype(self.dtype),\n    )\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    attentions = self.attention_performer.__call__(\n        query_states=query_states,\n        key_states=key_states,\n        value_states=value_states,\n        bias=attention_bias,\n        attention_mask=attention_mask,\n        causal=True,\n        dropout_rng=dropout_rng,\n        deterministic=deterministic,\n        query_sequence_length=query_length,\n        key_value_sequence_length=key_length,\n        uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n        segment_ids=segment_ids,\n        causal_mask=causal_mask\n    )\n\n\n    attn_output = self._merge_heads(attentions.attention_outputs)\n    if self.config.shard_attention_computation:\n        attn_output = with_sharding_constraint(\n            attn_output, PartitionSpec(\n                (\"dp\", \"fsdp\"),\n                \"sp\" if attn_output.shape[1] != 1 else None,\n                \"tp\"\n            )\n        )\n    attn_output = self.o_proj(attn_output)\n\n    attn_output = self.resid_dropout(\n        attn_output, deterministic=deterministic)\n    outputs = (\n        attn_output, attentions.attention_weights\n    ) if output_attentions else (\n        attn_output,\n    )\n    return outputs\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeAttention.apply_rotary","title":"<code>apply_rotary(batch_size, sequence_length, query, key, value, freq_cis, position_ids)</code>","text":"<p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class. The main difference is that it takes in an additional argument, freq_cis, which are used to calculate the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>batch_size</code> <p>Reshape the query, key and value tensors</p> required <code>sequence_length</code> <p>Reshape the query, key and value tensors</p> required <code>query</code> <p>Calculate the attention weights</p> required <code>key</code> <p>Calculate the attention</p> required <code>value</code> <p>Compute the attention weights</p> required <code>freq_cis</code> <p>Calculate the frequency of each word in the vocabulary</p> required <code>position_ids</code> <p>Identify the position of each token in the sequence</p> required <p>Returns:</p> Type Description <p>A tuple of 3 tensors: query, key and value</p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n    \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n    Args:\n        self: Access variables that belong to the class\n        batch_size: Reshape the query, key and value tensors\n        sequence_length: Reshape the query, key and value tensors\n        query: Calculate the attention weights\n        key: Calculate the attention\n        value: Compute the attention weights\n        freq_cis: Calculate the frequency of each word in the\n            vocabulary\n        position_ids: Identify the position of each token in the\n            sequence\n\n    Returns:\n        A tuple of 3 tensors: query, key and value\n    \"\"\"\n    query = query.reshape(batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n    key = key.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n    value = value.reshape(batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n    query, key, value = self._transpose_sequence_head(query, key, value)\n    query, key = self.rotary(\n        position_ids=position_ids, query=query, key=key, freq_cis=freq_cis\n    )\n    key = repeat_kv_bnsh(key, self.num_key_value_groups)\n    value = repeat_kv_bnsh(value, self.num_key_value_groups)\n    return self._transpose_sequence_head(query, key, value)\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlock","title":"<code>FlaxQwen2MoeBlock</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>class FlaxQwen2MoeBlock(nn.Module):\n    config: Qwen2MoeConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self) -&gt; None:\n        attn_block = FlaxQwen2MoeAttention\n        if self.config.gradient_checkpointing != \"\":\n            attn_block = nn_partitioning.remat(\n                FlaxQwen2MoeAttention, static_argnums=(1, 3, 4, 6, 7, 8, 9),\n                policy=get_gradient_checkpoint_policy(\n                    self.config.gradient_checkpointing)\n            )\n\n        self.self_attn = attn_block(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        mlp_block = FlaxQwen2MoeSparseMoeBlock if self.config.num_experts &gt; 0 else FlaxQwen2MoeMLP\n\n        if self.config.gradient_checkpointing != \"\":\n            mlp_block = nn_partitioning.remat(\n                mlp_block, static_argnums=(1,),\n                policy=get_gradient_checkpoint_policy(\n                    self.config.gradient_checkpointing\n                )\n            )\n\n        self.mlp = mlp_block(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n        )\n        self.input_layernorm = Qwen2MoeRMSNorm(\n            self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n        )\n        self.post_attention_layernorm = Qwen2MoeRMSNorm(\n            self.config.hidden_size,\n            eps=self.config.rms_norm_eps,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n\n        )\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: Optional[bool] = False,\n            output_hidden_states: Optional[bool] = False,\n            output_router_logits: Optional[bool] = None,\n            return_dict: bool = True,\n            segment_ids: Optional[chex.Array] = None,\n            fcm_mask: Optional[jnp.ndarray] = None,\n\n    ):\n        \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n        It takes in hidden states, frequency-domain inputs, and masks as input. It then\n        applies self-attention to the hidden states using those inputs and returns an\n        output tensor with shape (batch_size, sequence_length, model_dim).\n\n        Args:\n            self: Refer to the class instance itself\n            hidden_states: chex.Array: Pass in the hidden state of the\n                previous layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency information\n            attention_mask: chex.Array: Mask out the attention weights\n                for padding tokens\n            position_ids: chex.Array: Determine the position of each\n                token in the sequence\n            causal_mask: chex.Array: Mask the attention weights\n            deterministic: bool: Control whether the dropout is applied\n                or not\n            init_cache: bool: Initialize the cache in the attention\n                layer\n            output_attentions: bool: Return the attention weights\n            fcm_mask: Optional[jnp.ndarray]: Mask the self-attention\n        :param : Control the dropout in the self attention layer\n\n        Returns:\n            A tuple of two items\n        \"\"\"\n        attn_outputs = self.self_attn(\n            self.input_layernorm(hidden_states),\n            freq_cis,\n            attention_mask,\n            position_ids,\n            causal_mask,\n            segment_ids,\n            deterministic,\n            init_cache,\n            output_attentions,\n            fcm_mask,\n        )\n        attn_output = attn_outputs[0]\n        hidden_states = hidden_states + attn_output\n\n        feed_forward_input = self.post_attention_layernorm(hidden_states)\n\n        mlp_out = self.mlp(\n            feed_forward_input,\n            deterministic,\n        )\n\n        if self.config.num_experts &gt; 0:\n            feed_forward_hidden_states, router_logits = mlp_out\n        else:\n            feed_forward_hidden_states = mlp_out\n            router_logits = None\n\n        hidden_states = hidden_states + feed_forward_hidden_states\n\n        return (hidden_states,) + attn_outputs[1:] + (router_logits,)\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlock.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, deterministic=True, init_cache=False, output_attentions=False, output_hidden_states=False, output_router_logits=None, return_dict=True, segment_ids=None, fcm_mask=None)</code>","text":"<p>The call function is the main function of a TransformerEncoderLayer. It takes in hidden states, frequency-domain inputs, and masks as input. It then applies self-attention to the hidden states using those inputs and returns an output tensor with shape (batch_size, sequence_length, model_dim).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the class instance itself</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass in the hidden state of the previous layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency information</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the attention weights for padding tokens</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in the sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the attention weights</p> required <code>deterministic</code> <code>bool</code> <p>bool: Control whether the dropout is applied or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache in the attention layer</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>bool: Return the attention weights</p> <code>False</code> <code>fcm_mask</code> <code>Optional[ndarray]</code> <p>Optional[jnp.ndarray]: Mask the self-attention</p> <code>None</code> <p>:param : Control the dropout in the self attention layer</p> <p>Returns:</p> Type Description <p>A tuple of two items</p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: Optional[bool] = False,\n        output_hidden_states: Optional[bool] = False,\n        output_router_logits: Optional[bool] = None,\n        return_dict: bool = True,\n        segment_ids: Optional[chex.Array] = None,\n        fcm_mask: Optional[jnp.ndarray] = None,\n\n):\n    \"\"\"The __call__ function is the main function of a TransformerEncoderLayer.\n    It takes in hidden states, frequency-domain inputs, and masks as input. It then\n    applies self-attention to the hidden states using those inputs and returns an\n    output tensor with shape (batch_size, sequence_length, model_dim).\n\n    Args:\n        self: Refer to the class instance itself\n        hidden_states: chex.Array: Pass in the hidden state of the\n            previous layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency information\n        attention_mask: chex.Array: Mask out the attention weights\n            for padding tokens\n        position_ids: chex.Array: Determine the position of each\n            token in the sequence\n        causal_mask: chex.Array: Mask the attention weights\n        deterministic: bool: Control whether the dropout is applied\n            or not\n        init_cache: bool: Initialize the cache in the attention\n            layer\n        output_attentions: bool: Return the attention weights\n        fcm_mask: Optional[jnp.ndarray]: Mask the self-attention\n    :param : Control the dropout in the self attention layer\n\n    Returns:\n        A tuple of two items\n    \"\"\"\n    attn_outputs = self.self_attn(\n        self.input_layernorm(hidden_states),\n        freq_cis,\n        attention_mask,\n        position_ids,\n        causal_mask,\n        segment_ids,\n        deterministic,\n        init_cache,\n        output_attentions,\n        fcm_mask,\n    )\n    attn_output = attn_outputs[0]\n    hidden_states = hidden_states + attn_output\n\n    feed_forward_input = self.post_attention_layernorm(hidden_states)\n\n    mlp_out = self.mlp(\n        feed_forward_input,\n        deterministic,\n    )\n\n    if self.config.num_experts &gt; 0:\n        feed_forward_hidden_states, router_logits = mlp_out\n    else:\n        feed_forward_hidden_states = mlp_out\n        router_logits = None\n\n    hidden_states = hidden_states + feed_forward_hidden_states\n\n    return (hidden_states,) + attn_outputs[1:] + (router_logits,)\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlockCollection","title":"<code>FlaxQwen2MoeBlockCollection</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>class FlaxQwen2MoeBlockCollection(nn.Module):\n    config: Qwen2MoeConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        self.blocks = [\n            FlaxQwen2MoeBlock(\n                self.config,\n                name=str(i),\n                dtype=self.dtype,\n                param_dtype=self.param_dtype,\n                precision=self.precision\n            )\n            for i in range(\n                self.config.num_hidden_layers\n            )\n        ]\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: Optional[bool] = False,\n            output_hidden_states: Optional[bool] = False,\n            output_router_logits: Optional[bool] = None,\n            return_dict: bool = True,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX nn.Module.\n        It defines how the module behaves when called as a function, and it's what you'll use to call your model\n         in training loops or inference scripts.\n        The __call__ method should take all inputs that are necessary for computing outputs from the module,\n        and return all outputs that are computed by this module.\n\n        Args:\n            self: Represent the instance of the class\n            hidden_states: chex.Array: Pass the input tensor to the\n                encoder\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency of each token\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Specify the position of each token\n                in a sequence\n            causal_mask: chex.Array: Mask the attention weights\n            deterministic: bool: Determine whether the model is in\n                training or evaluation mode\n            init_cache: bool: Initialize the cache for each layer\n            output_attentions: bool: Determine whether to output the\n                attention weights\n            output_hidden_states: bool: Determine whether to return the\n                hidden states of each layer\n            return_dict: bool: Return a dictionary of the outputs\n        :param : Determine whether to use the forgetful causal mask\n\n        Returns:\n            A tuple of 3 values\n        \"\"\"\n        all_attentions = () if output_attentions else None\n        all_hidden_states = () if output_hidden_states else None\n        all_router_logits = () if output_router_logits else None\n\n        if not deterministic and self.config.fcm_max_ratio &gt; 0:\n            # Apply forgetful causal mask\n            batch_size, seq_length = hidden_states.shape[0], hidden_states.shape[1]\n            fcm_ratio = jax.random.uniform(\n                self.make_rng('fcm'), shape=(batch_size, 1, 1, 1),\n                minval=self.config.fcm_min_ratio,\n                maxval=self.config.fcm_max_ratio\n            )\n            fcm_mask = jax.random.uniform(\n                self.make_rng('fcm'),\n                shape=(batch_size, 1, seq_length, seq_length)\n            ) &gt; fcm_ratio\n            fcm_mask = fcm_mask.at[:, :, :, 0].set(True)\n            fcm_mask = fcm_mask.astype('bool')\n        else:\n            fcm_mask = None\n\n        for block in self.blocks:\n            if output_hidden_states:\n                all_hidden_states += (hidden_states,)\n\n            layer_outputs = block(\n                hidden_states=hidden_states,\n                freq_cis=freq_cis,\n                attention_mask=attention_mask,\n                position_ids=position_ids,\n                causal_mask=causal_mask,\n                deterministic=deterministic,\n                init_cache=init_cache,\n                output_attentions=output_attentions,\n                fcm_mask=fcm_mask,\n            )\n            hidden_states = layer_outputs[0]\n\n            if output_attentions:\n                all_attentions += layer_outputs[1],\n            if output_router_logits:\n                all_router_logits += layer_outputs[-1],\n\n        outputs = (hidden_states, all_hidden_states, all_attentions, all_router_logits)\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeBlockCollection.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, deterministic=True, init_cache=False, output_attentions=False, output_hidden_states=False, output_router_logits=None, return_dict=True)</code>","text":"<p>The call function is the main function of a JAX nn.Module. It defines how the module behaves when called as a function, and it's what you'll use to call your model  in training loops or inference scripts. The call method should take all inputs that are necessary for computing outputs from the module, and return all outputs that are computed by this module.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the input tensor to the encoder</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency of each token</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask the attention weights</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether the model is in training or evaluation mode</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for each layer</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>bool: Determine whether to output the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>bool: Determine whether to return the hidden states of each layer</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs</p> <code>True</code> <p>:param : Determine whether to use the forgetful causal mask</p> <p>Returns:</p> Type Description <p>A tuple of 3 values</p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: Optional[bool] = False,\n        output_hidden_states: Optional[bool] = False,\n        output_router_logits: Optional[bool] = None,\n        return_dict: bool = True,\n):\n    \"\"\"The __call__ function is the main function of a JAX nn.Module.\n    It defines how the module behaves when called as a function, and it's what you'll use to call your model\n     in training loops or inference scripts.\n    The __call__ method should take all inputs that are necessary for computing outputs from the module,\n    and return all outputs that are computed by this module.\n\n    Args:\n        self: Represent the instance of the class\n        hidden_states: chex.Array: Pass the input tensor to the\n            encoder\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency of each token\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Specify the position of each token\n            in a sequence\n        causal_mask: chex.Array: Mask the attention weights\n        deterministic: bool: Determine whether the model is in\n            training or evaluation mode\n        init_cache: bool: Initialize the cache for each layer\n        output_attentions: bool: Determine whether to output the\n            attention weights\n        output_hidden_states: bool: Determine whether to return the\n            hidden states of each layer\n        return_dict: bool: Return a dictionary of the outputs\n    :param : Determine whether to use the forgetful causal mask\n\n    Returns:\n        A tuple of 3 values\n    \"\"\"\n    all_attentions = () if output_attentions else None\n    all_hidden_states = () if output_hidden_states else None\n    all_router_logits = () if output_router_logits else None\n\n    if not deterministic and self.config.fcm_max_ratio &gt; 0:\n        # Apply forgetful causal mask\n        batch_size, seq_length = hidden_states.shape[0], hidden_states.shape[1]\n        fcm_ratio = jax.random.uniform(\n            self.make_rng('fcm'), shape=(batch_size, 1, 1, 1),\n            minval=self.config.fcm_min_ratio,\n            maxval=self.config.fcm_max_ratio\n        )\n        fcm_mask = jax.random.uniform(\n            self.make_rng('fcm'),\n            shape=(batch_size, 1, seq_length, seq_length)\n        ) &gt; fcm_ratio\n        fcm_mask = fcm_mask.at[:, :, :, 0].set(True)\n        fcm_mask = fcm_mask.astype('bool')\n    else:\n        fcm_mask = None\n\n    for block in self.blocks:\n        if output_hidden_states:\n            all_hidden_states += (hidden_states,)\n\n        layer_outputs = block(\n            hidden_states=hidden_states,\n            freq_cis=freq_cis,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            causal_mask=causal_mask,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            fcm_mask=fcm_mask,\n        )\n        hidden_states = layer_outputs[0]\n\n        if output_attentions:\n            all_attentions += layer_outputs[1],\n        if output_router_logits:\n            all_router_logits += layer_outputs[-1],\n\n    outputs = (hidden_states, all_hidden_states, all_attentions, all_router_logits)\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLM","title":"<code>FlaxQwen2MoeForCausalLM</code>","text":"<p>               Bases: <code>FlaxQwen2MoePreTrainedModel</code></p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>class FlaxQwen2MoeForCausalLM(FlaxQwen2MoePreTrainedModel):\n    module_class = FlaxQwen2MoeForCausalLMModule\n\n    def set_input_embeddings(self, value):\n        self.module.model.embed_tokens = value\n\n    def get_input_embeddings(self):\n        return self.module.model.embed_tokens\n\n    def set_decoder(self, decoder):\n        self.module.model = decoder\n\n    def get_decoder(self):\n        return self.module.model\n\n    def get_output_embeddings(self):\n        return self.module.lm_head\n\n    def set_output_embeddings(self, new_embeddings):\n        self.module.lm_head = new_embeddings\n\n    def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n        \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n        Args:\n            self: Access variables that belong to the class\n            input_ids: Pass in the input tokens\n            max_length: Set the length of the sequence to be generated\n            attention_mask: Optional[chex.Array]: Mask the attention\n                weights\n\n        Returns:\n            A dictionary of the past_key_values, attention_mask and\n            position ids\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n\n        past_key_values = self.init_cache(batch_size, max_length)\n        extended_attention_mask = jnp.ones(\n            (batch_size, max_length), dtype=\"i4\")\n        if attention_mask is not None:\n            position_ids = attention_mask.cumsum(axis=-1) - 1\n            extended_attention_mask = lax.dynamic_update_slice(\n                extended_attention_mask, attention_mask, (0, 0))\n        else:\n            position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                            None, :], (batch_size, seq_length))\n\n        return {\n            \"past_key_values\": past_key_values,\n            \"attention_mask\": extended_attention_mask,\n            \"position_ids\": position_ids,\n        }\n\n    def update_inputs_for_generation(self, model_outputs, model_kwargs):\n        model_kwargs[\"past_key_values\"] = model_outputs.past_key_values\n        model_kwargs[\"position_ids\"] = model_kwargs[\"position_ids\"][:, -1:] + 1\n        return model_kwargs\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLM.prepare_inputs_for_generation","title":"<code>prepare_inputs_for_generation(input_ids, max_length, attention_mask=None)</code>","text":"<p>The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>input_ids</code> <p>Pass in the input tokens</p> required <code>max_length</code> <p>Set the length of the sequence to be generated</p> required <code>attention_mask</code> <code>Optional[Array]</code> <p>Optional[chex.Array]: Mask the attention weights</p> <code>None</code> <p>Returns:</p> Type Description <p>A dictionary of the past_key_values, attention_mask and</p> <p>position ids</p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>def prepare_inputs_for_generation(self, input_ids, max_length, attention_mask: Optional[chex.Array] = None):\n    \"\"\"The prepare_inputs_for_generation function is used to prepare the inputs for a generation task.\n\n    Args:\n        self: Access variables that belong to the class\n        input_ids: Pass in the input tokens\n        max_length: Set the length of the sequence to be generated\n        attention_mask: Optional[chex.Array]: Mask the attention\n            weights\n\n    Returns:\n        A dictionary of the past_key_values, attention_mask and\n        position ids\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n\n    past_key_values = self.init_cache(batch_size, max_length)\n    extended_attention_mask = jnp.ones(\n        (batch_size, max_length), dtype=\"i4\")\n    if attention_mask is not None:\n        position_ids = attention_mask.cumsum(axis=-1) - 1\n        extended_attention_mask = lax.dynamic_update_slice(\n            extended_attention_mask, attention_mask, (0, 0))\n    else:\n        position_ids = jnp.broadcast_to(jnp.arange(seq_length, dtype=\"i4\")[\n                                        None, :], (batch_size, seq_length))\n\n    return {\n        \"past_key_values\": past_key_values,\n        \"attention_mask\": extended_attention_mask,\n        \"position_ids\": position_ids,\n    }\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLMModule","title":"<code>FlaxQwen2MoeForCausalLMModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>class FlaxQwen2MoeForCausalLMModule(nn.Module):\n    config: Qwen2MoeConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        self.model = FlaxQwen2MoeModule(\n            self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n        )\n\n        self.lm_head = Linear(\n            self.config.vocab_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(stddev=self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            output_router_logits: Optional[bool] = None,\n            return_dict: bool = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n    ):\n        \"\"\"The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.\n\n        Args:\n            self: Refer to the object itself\n            input_ids: chex.Array: Pass the input token ids to the model\n            attention_mask: chex.Array: Mask out the padding tokens\n            position_ids: chex.Array: Specify the position of each token\n                in the input sequence\n            deterministic: bool: Control whether the model is trained or\n                not\n            init_cache: bool: Initialize the cache for the decoder\n            output_attentions: bool: Return the attention weights\n            output_hidden_states: bool: Determine whether to return the\n                hidden states\n            return_dict: bool: Return a dictionary of the outputs or not\n            extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n                embedding of the word that we want to predict\n            None]]: Pass in the extra embedding\n\n        Returns:\n            The logits and the hidden states\n        \"\"\"\n        if output_router_logits is None:\n            output_router_logits = self.config.output_router_logits\n        if output_hidden_states is None:\n            output_hidden_states = self.config.output_hidden_states\n        if output_attentions is None:\n            output_attentions = self.config.output_attentions\n        outputs = self.model(\n            input_ids=input_ids,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            output_router_logits=output_router_logits,\n            init_cache=init_cache,\n            deterministic=deterministic,\n            return_dict=True,\n        )\n        hidden_states = outputs.last_hidden_state\n        if self.config.tie_word_embeddings:\n            shared_kernel = self.model.variables[\"params\"][\"embed_tokens\"][\"embedding\"]\n            shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n            logits = self.lm_head.apply(\n                {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n        else:\n            logits = self.lm_head(hidden_states)\n\n        logits = logits.astype(jnp.float32)\n        batch_size, seq_length, hd = logits.shape\n        aux_loss = None\n        if output_router_logits and outputs.router_logits is not None:\n            aux_loss = auxiliary_load_balancing_loss_func(\n                gate_logits=tuple([logit.reshape(batch_size * seq_length, -1) for logit in outputs.router_logits]),\n                num_experts=self.config.num_experts,\n                top_k=self.config.num_experts_per_tok,\n                attention_mask=attention_mask\n            )\n            aux_loss = aux_loss * self.config.router_aux_loss_coef\n        if not return_dict:\n            outputs = (logits,) + tuple(\n                v\n                for v in [\n                    aux_loss,\n                    outputs.hidden_states,\n                    outputs.attentions,\n                    outputs.router_logits\n                ]\n                if v is not None\n            )\n            return outputs\n\n        return MoeCausalLMOutput(\n            aux_loss=aux_loss,\n            logits=logits,\n            hidden_states=outputs.hidden_states,\n            attentions=outputs.attentions,\n            router_logits=outputs.router_logits,\n        )\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForCausalLMModule.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, deterministic=True, init_cache=False, output_attentions=None, output_hidden_states=None, output_router_logits=None, return_dict=True, extra_embedding=None)</code>","text":"<p>The call function is the main function of a Flax module. It takes in inputs and returns outputs.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass the input token ids to the model</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out the padding tokens</p> <code>None</code> <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in the input sequence</p> <code>None</code> <code>deterministic</code> <code>bool</code> <p>bool: Control whether the model is trained or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the decoder</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>bool: Return the attention weights</p> <code>None</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>bool: Determine whether to return the hidden states</p> <code>None</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of the outputs or not</p> <code>True</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray: Pass in the embedding of the word that we want to predict</p> <code>None</code> <code>None]]</code> <p>Pass in the extra embedding</p> required <p>Returns:</p> Type Description <p>The logits and the hidden states</p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array = None,\n        position_ids: chex.Array = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: Optional[bool] = None,\n        output_hidden_states: Optional[bool] = None,\n        output_router_logits: Optional[bool] = None,\n        return_dict: bool = True,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n):\n    \"\"\"The __call__ function is the main function of a Flax module. It takes in inputs and returns outputs.\n\n    Args:\n        self: Refer to the object itself\n        input_ids: chex.Array: Pass the input token ids to the model\n        attention_mask: chex.Array: Mask out the padding tokens\n        position_ids: chex.Array: Specify the position of each token\n            in the input sequence\n        deterministic: bool: Control whether the model is trained or\n            not\n        init_cache: bool: Initialize the cache for the decoder\n        output_attentions: bool: Return the attention weights\n        output_hidden_states: bool: Determine whether to return the\n            hidden states\n        return_dict: bool: Return a dictionary of the outputs or not\n        extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n            embedding of the word that we want to predict\n        None]]: Pass in the extra embedding\n\n    Returns:\n        The logits and the hidden states\n    \"\"\"\n    if output_router_logits is None:\n        output_router_logits = self.config.output_router_logits\n    if output_hidden_states is None:\n        output_hidden_states = self.config.output_hidden_states\n    if output_attentions is None:\n        output_attentions = self.config.output_attentions\n    outputs = self.model(\n        input_ids=input_ids,\n        attention_mask=attention_mask,\n        position_ids=position_ids,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        output_router_logits=output_router_logits,\n        init_cache=init_cache,\n        deterministic=deterministic,\n        return_dict=True,\n    )\n    hidden_states = outputs.last_hidden_state\n    if self.config.tie_word_embeddings:\n        shared_kernel = self.model.variables[\"params\"][\"embed_tokens\"][\"embedding\"]\n        shared_kernel = fjformer.linen.linen.control_quantization(shared_kernel, self.param_dtype).T\n        logits = self.lm_head.apply(\n            {\"params\": {\"kernel\": shared_kernel}}, hidden_states)\n    else:\n        logits = self.lm_head(hidden_states)\n\n    logits = logits.astype(jnp.float32)\n    batch_size, seq_length, hd = logits.shape\n    aux_loss = None\n    if output_router_logits and outputs.router_logits is not None:\n        aux_loss = auxiliary_load_balancing_loss_func(\n            gate_logits=tuple([logit.reshape(batch_size * seq_length, -1) for logit in outputs.router_logits]),\n            num_experts=self.config.num_experts,\n            top_k=self.config.num_experts_per_tok,\n            attention_mask=attention_mask\n        )\n        aux_loss = aux_loss * self.config.router_aux_loss_coef\n    if not return_dict:\n        outputs = (logits,) + tuple(\n            v\n            for v in [\n                aux_loss,\n                outputs.hidden_states,\n                outputs.attentions,\n                outputs.router_logits\n            ]\n            if v is not None\n        )\n        return outputs\n\n    return MoeCausalLMOutput(\n        aux_loss=aux_loss,\n        logits=logits,\n        hidden_states=outputs.hidden_states,\n        attentions=outputs.attentions,\n        router_logits=outputs.router_logits,\n    )\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForSequenceClassificationModule","title":"<code>FlaxQwen2MoeForSequenceClassificationModule</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>class FlaxQwen2MoeForSequenceClassificationModule(nn.Module):\n    num_classes: int\n    config: Qwen2MoeConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        \"\"\"The setup function is called once at the beginning of training.\n        It initializes the model and optimizer, and sets up any other state that needs to be initialized.\n\n        Args:\n            self: Access variables that belong to the class\n\n        Returns:\n            A tuple of the model and the classifier\n        \"\"\"\n        self.model = FlaxQwen2MoeModule(self.config, dtype=self.dtype)\n        self.classifier = Linear(\n            self.num_classes,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                stddev=self.config.initializer_range),\n            precision=self.precision,\n        )\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            output_hidden_states: bool = False,\n            return_dict: bool = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n    ):\n        \"\"\"The __call__ function is the main function of a Flax module.\n        It takes in all the inputs to the model and returns all outputs from it.\n        The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:\n            &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class\n            &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__\n\n        Args:\n            self: Refer to the class instance\n            input_ids: chex.Array: Pass the input to the model\n            attention_mask: chex.Array: Specify which tokens are masked\n            position_ids: chex.Array: Specify the position of each token\n                in the sequence\n            deterministic: bool: Control whether the model is run in\n                deterministic or stochastic mode\n            init_cache: bool: Initialize the cache for the transformer\n            output_attentions: bool: Return the attention weights\n            output_hidden_states: bool: Return the hidden states of all\n                layers\n            return_dict: bool: Return a dictionary of outputs\n            extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n                embedding of a new word\n            None]]: Pass the extra embedding to the model\n\n        Returns:\n            A tuple of logits and hidden_states\n        \"\"\"\n        batch_size, seq_length = input_ids.shape\n        if attention_mask is None:\n            attention_mask = jnp.ones_like(input_ids)\n        if position_ids is None:\n            position_ids = jnp.broadcast_to(\n                jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n                (batch_size, seq_length)\n            )\n        outputs = self.model(\n            input_ids,\n            attention_mask,\n            position_ids,\n            deterministic=deterministic,\n            init_cache=init_cache,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            return_dict=return_dict,\n            extra_embedding=extra_embedding\n        )\n\n        hidden_states = outputs[0]\n        prediction = self.classifier(hidden_states)\n        if return_dict:\n            return FlaxSequenceClassifierOutput(\n                logits=prediction,\n                hidden_states=hidden_states\n            )\n        else:\n            return prediction,\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForSequenceClassificationModule.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, deterministic=True, init_cache=False, output_attentions=False, output_hidden_states=False, return_dict=True, extra_embedding=None)</code>","text":"<p>The call function is the main function of a Flax module. It takes in all the inputs to the model and returns all outputs from it. The call function can be called directly on an instance of a class, or by using parentheses after an instance:     &gt;&gt;&gt; my_model = MyModel()  # instantiate your model class     &gt;&gt;&gt; output = my_model(input)  # call your model with input data as arguments to call</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the class instance</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass the input to the model</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Specify which tokens are masked</p> <code>None</code> <code>position_ids</code> <code>Array</code> <p>chex.Array: Specify the position of each token in the sequence</p> <code>None</code> <code>deterministic</code> <code>bool</code> <p>bool: Control whether the model is run in deterministic or stochastic mode</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache for the transformer</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Return the attention weights</p> <code>False</code> <code>output_hidden_states</code> <code>bool</code> <p>bool: Return the hidden states of all layers</p> <code>False</code> <code>return_dict</code> <code>bool</code> <p>bool: Return a dictionary of outputs</p> <code>True</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray: Pass in the embedding of a new word</p> <code>None</code> <code>None]]</code> <p>Pass the extra embedding to the model</p> required <p>Returns:</p> Type Description <p>A tuple of logits and hidden_states</p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array = None,\n        position_ids: chex.Array = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        output_hidden_states: bool = False,\n        return_dict: bool = True,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None\n):\n    \"\"\"The __call__ function is the main function of a Flax module.\n    It takes in all the inputs to the model and returns all outputs from it.\n    The __call__ function can be called directly on an instance of a class, or by using parentheses after an instance:\n        &amp;gt;&amp;gt;&amp;gt; my_model = MyModel()  # instantiate your model class\n        &amp;gt;&amp;gt;&amp;gt; output = my_model(input)  # call your model with input data as arguments to __call__\n\n    Args:\n        self: Refer to the class instance\n        input_ids: chex.Array: Pass the input to the model\n        attention_mask: chex.Array: Specify which tokens are masked\n        position_ids: chex.Array: Specify the position of each token\n            in the sequence\n        deterministic: bool: Control whether the model is run in\n            deterministic or stochastic mode\n        init_cache: bool: Initialize the cache for the transformer\n        output_attentions: bool: Return the attention weights\n        output_hidden_states: bool: Return the hidden states of all\n            layers\n        return_dict: bool: Return a dictionary of outputs\n        extra_embedding: Optional[Union[jnp.ndarray: Pass in the\n            embedding of a new word\n        None]]: Pass the extra embedding to the model\n\n    Returns:\n        A tuple of logits and hidden_states\n    \"\"\"\n    batch_size, seq_length = input_ids.shape\n    if attention_mask is None:\n        attention_mask = jnp.ones_like(input_ids)\n    if position_ids is None:\n        position_ids = jnp.broadcast_to(\n            jnp.clip(jnp.cumsum(attention_mask, axis=-1) - 1, a_min=0),\n            (batch_size, seq_length)\n        )\n    outputs = self.model(\n        input_ids,\n        attention_mask,\n        position_ids,\n        deterministic=deterministic,\n        init_cache=init_cache,\n        output_attentions=output_attentions,\n        output_hidden_states=output_hidden_states,\n        return_dict=return_dict,\n        extra_embedding=extra_embedding\n    )\n\n    hidden_states = outputs[0]\n    prediction = self.classifier(hidden_states)\n    if return_dict:\n        return FlaxSequenceClassifierOutput(\n            logits=prediction,\n            hidden_states=hidden_states\n        )\n    else:\n        return prediction,\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeForSequenceClassificationModule.setup","title":"<code>setup()</code>","text":"<p>The setup function is called once at the beginning of training. It initializes the model and optimizer, and sets up any other state that needs to be initialized.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <p>Returns:</p> Type Description <p>A tuple of the model and the classifier</p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>def setup(self):\n    \"\"\"The setup function is called once at the beginning of training.\n    It initializes the model and optimizer, and sets up any other state that needs to be initialized.\n\n    Args:\n        self: Access variables that belong to the class\n\n    Returns:\n        A tuple of the model and the classifier\n    \"\"\"\n    self.model = FlaxQwen2MoeModule(self.config, dtype=self.dtype)\n    self.classifier = Linear(\n        self.num_classes,\n        dtype=self.dtype,\n        param_dtype=self.param_dtype,\n        use_bias=False,\n        kernel_init=jax.nn.initializers.normal(\n            stddev=self.config.initializer_range),\n        precision=self.precision,\n    )\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeMLP","title":"<code>FlaxQwen2MoeMLP</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>class FlaxQwen2MoeMLP(nn.Module):\n    config: Qwen2MoeConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n    intermediate_size: Optional[int] = None\n\n    def setup(self) -&gt; None:\n        config = self.config\n        intermediate_size = self.intermediate_size if self.intermediate_size is not None else config.moe_intermediate_size\n        self.gate_proj = Linear(\n            intermediate_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range\n            ),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.down_proj = Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.up_proj = Linear(\n            intermediate_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n    def __call__(self, x: jnp.ndarray, deterministic: bool = True) -&gt; jnp.ndarray:\n        \"\"\"The __call__ function is the main function of a class.\n        It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).\n        The __call__ method enables instances of a class to be called like standard Python functions.\n\n        Args:\n            self: Represent the instance of the class\n            x: jnp.ndarray: Pass in the input to the layer\n            deterministic: bool: Determine whether to use dropout\n\n        Returns:\n            A tensor that is the result of applying a dropout function\n            to x\n        \"\"\"\n        x = self.down_proj(jax.nn.silu(self.gate_proj(x)) * self.up_proj(x))\n        return x\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeMLP.__call__","title":"<code>__call__(x, deterministic=True)</code>","text":"<p>The call function is the main function of a class. It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments). The call method enables instances of a class to be called like standard Python functions.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>x</code> <code>ndarray</code> <p>jnp.ndarray: Pass in the input to the layer</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout</p> <code>True</code> <p>Returns:</p> Type Description <code>ndarray</code> <p>A tensor that is the result of applying a dropout function</p> <code>ndarray</code> <p>to x</p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>def __call__(self, x: jnp.ndarray, deterministic: bool = True) -&gt; jnp.ndarray:\n    \"\"\"The __call__ function is the main function of a class.\n    It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).\n    The __call__ method enables instances of a class to be called like standard Python functions.\n\n    Args:\n        self: Represent the instance of the class\n        x: jnp.ndarray: Pass in the input to the layer\n        deterministic: bool: Determine whether to use dropout\n\n    Returns:\n        A tensor that is the result of applying a dropout function\n        to x\n    \"\"\"\n    x = self.down_proj(jax.nn.silu(self.gate_proj(x)) * self.up_proj(x))\n    return x\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel","title":"<code>FlaxQwen2MoePreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>class FlaxQwen2MoePreTrainedModel(EasyDeLFlaxPretrainedModel):\n    config_class = Qwen2MoeConfig\n    base_model_prefix = \"model\"\n    module_class: nn.Module = None\n\n    def __init__(\n            self,\n            config: Qwen2MoeConfig,\n            input_shape: Tuple = (1, 1),\n            seed: int = 0,\n            dtype: jnp.dtype = jnp.float32,\n            _do_init: bool = True,\n            **kwargs,\n    ):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It sets up the instance of the class, and defines what happens when it's created.\n        The __init__ function can take arguments, but self is always required (it refers to the instance of the object).\n\n        Args:\n            self: Refer to the object itself\n            config: Qwen2MoeConfig: Pass the configuration to the module\n            input_shape: Tuple: Specify the shape of the input to the\n                model\n            seed: int: Set the seed for random number generation\n            dtype: jnp.dtype: Specify the data type of the input\n            _do_init: bool: Control whether the module is initialized or\n                not\n            **kwargs: Pass in any additional parameters that the\n                module_class might need\n        :param : Specify the number of layers in the network\n\n        Returns:\n            The super() of the class\n        \"\"\"\n        module = self.module_class(config=config, dtype=dtype, **kwargs)\n        super().__init__(config, module, input_shape=input_shape, seed=seed, dtype=dtype, _do_init=_do_init)\n\n    def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n        \"\"\"The init_weights function is used to initialize the weights of a model.\n\n        Args:\n            self: Access variables that belong to the class\n            rng: jax.random.PRNGKey: Initialize the weights of the model\n            input_shape: Tuple: Specify the shape of the input tensor\n            params: FrozenDict: Pass in the parameters of a pre-trained\n                model\n\n        Returns:\n            A frozendict of parameters\n        \"\"\"\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n        if self.config.add_cross_attention:\n            encoder_hidden_states = jnp.zeros(\n                input_shape + (self.config.hidden_size,))\n            encoder_attention_mask = attention_mask\n            module_init_outputs = self.module.init(\n                rngs,\n                input_ids,\n                attention_mask,\n                position_ids,\n                encoder_hidden_states,\n                encoder_attention_mask,\n                return_dict=False,\n            )\n        else:\n            module_init_outputs = self.module.init(\n                rngs, input_ids, attention_mask, position_ids, return_dict=False)\n\n        random_params = module_init_outputs[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def init_cache(self, batch_size, max_length):\n        \"\"\"The init_cache function is used to initialize the cache for a given batch size and sequence length.\n        The cache is a dictionary that contains all the intermediate states from each layer in the model.\n        This allows us to run inference on multiple batches without having to re-run forward passes through every layer in\n        the model, which would be very slow.\n\n        Args:\n            self: Access the module\n            batch_size: Define the batch size of the input tensors\n            max_length: Set the length of the input sequence\n\n        Returns:\n            A dictionary with the following keys:\n        \"\"\"\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            output_router_logits: Optional[bool] = None,\n            return_dict: Optional[bool] = None,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module.\n        It takes in inputs and returns outputs, but it also has some other important features:\n        - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.\n        - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.\n\n        Args:\n            self: Represent the instance of the class\n            input_ids: chex.Array: Pass in the input tokens\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input\n            position_ids: chex.Array: Create the positional embeddings\n            params: dict: Pass in the parameters of the model\n            past_key_values: dict: Pass in the past key values from a\n                previous call to __call__\n            dropout_rng: jax.random.PRNGKey: Make sure that the dropout\n                is applied in a random way\n            train: bool: Determine whether to use dropout or not\n            output_attentions: Optional[bool]: Determine whether to\n                return the attention weights\n            output_hidden_states: Optional[bool]: Return the hidden\n                states of all layers\n            return_dict: Optional[bool]: Determine whether to return a\n                dictionary or not\n            extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in\n                the embedding for the input_ids\n            add_params_field: bool: Add the params field to the inputs\n                dictionary\n\n        Returns:\n            A tuple of the following:\n        \"\"\"\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        output_router_logits = output_router_logits if output_router_logits is not None else self.config.output_router_logits\n\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n\n        if position_ids is None:\n            if past_key_values is not None:\n                raise ValueError(\n                    \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n            position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                            None, :], (batch_size, sequence_length))\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rngs = {}\n        if dropout_rng is not None:\n            rngs[\"dropout\"] = dropout_rng\n\n        if self.config.bits is not None:\n            rngs['params'] = jax.random.key(0)\n\n        inputs = {\n            \"params\": params or self.params\n        } if add_params_field else params or self.params\n\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            jnp.array(input_ids, dtype=\"i4\"),\n            jnp.array(attention_mask, dtype=\"i4\"),\n            jnp.array(position_ids, dtype=\"i4\"),\n            not train,\n            False,\n            output_attentions,\n            output_hidden_states,\n            output_router_logits,\n            return_dict,\n            extra_embedding,\n            rngs=rngs,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + \\\n                      (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.__call__","title":"<code>__call__(input_ids, attention_mask=None, position_ids=None, params=None, past_key_values=None, dropout_rng=None, train=False, output_attentions=None, output_hidden_states=None, output_router_logits=None, return_dict=None, extra_embedding=None, add_params_field=False, **kwargs)</code>","text":"<p>The call function is the main function of a JAX module. It takes in inputs and returns outputs, but it also has some other important features: - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end. - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass in the input tokens</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input</p> <code>None</code> <code>position_ids</code> <code>Array</code> <p>chex.Array: Create the positional embeddings</p> <code>None</code> <code>params</code> <code>dict</code> <p>dict: Pass in the parameters of the model</p> <code>None</code> <code>past_key_values</code> <code>dict</code> <p>dict: Pass in the past key values from a previous call to call</p> <code>None</code> <code>dropout_rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Make sure that the dropout is applied in a random way</p> <code>None</code> <code>train</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>False</code> <code>output_attentions</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return the attention weights</p> <code>None</code> <code>output_hidden_states</code> <code>Optional[bool]</code> <p>Optional[bool]: Return the hidden states of all layers</p> <code>None</code> <code>return_dict</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine whether to return a dictionary or not</p> <code>None</code> <code>extra_embedding</code> <code>Optional[Union[ndarray, None]]</code> <p>Optional[Union[jnp.ndarray,None]]: Pass in the embedding for the input_ids</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add the params field to the inputs dictionary</p> <code>False</code> <p>Returns:</p> Type Description <p>A tuple of the following:</p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>def __call__(\n        self,\n        input_ids: chex.Array,\n        attention_mask: chex.Array = None,\n        position_ids: chex.Array = None,\n        params: dict = None,\n        past_key_values: dict = None,\n        dropout_rng: jax.random.PRNGKey = None,\n        train: bool = False,\n        output_attentions: Optional[bool] = None,\n        output_hidden_states: Optional[bool] = None,\n        output_router_logits: Optional[bool] = None,\n        return_dict: Optional[bool] = None,\n        extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n        add_params_field: bool = False,\n        **kwargs\n):\n    \"\"\"The __call__ function is the main function of a JAX module.\n    It takes in inputs and returns outputs, but it also has some other important features:\n    - It can take in mutable state (e.g., past_key_values) that will be updated during the call and returned at the end.\n    - It can take in random number generators (rngs) that are used to generate random numbers for dropout or sampling operations.\n\n    Args:\n        self: Represent the instance of the class\n        input_ids: chex.Array: Pass in the input tokens\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input\n        position_ids: chex.Array: Create the positional embeddings\n        params: dict: Pass in the parameters of the model\n        past_key_values: dict: Pass in the past key values from a\n            previous call to __call__\n        dropout_rng: jax.random.PRNGKey: Make sure that the dropout\n            is applied in a random way\n        train: bool: Determine whether to use dropout or not\n        output_attentions: Optional[bool]: Determine whether to\n            return the attention weights\n        output_hidden_states: Optional[bool]: Return the hidden\n            states of all layers\n        return_dict: Optional[bool]: Determine whether to return a\n            dictionary or not\n        extra_embedding: Optional[Union[jnp.ndarray,None]]: Pass in\n            the embedding for the input_ids\n        add_params_field: bool: Add the params field to the inputs\n            dictionary\n\n    Returns:\n        A tuple of the following:\n    \"\"\"\n    output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n    output_hidden_states = (\n        output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n    )\n    output_router_logits = output_router_logits if output_router_logits is not None else self.config.output_router_logits\n\n    return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n    batch_size, sequence_length = input_ids.shape\n\n    assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n\n    if position_ids is None:\n        if past_key_values is not None:\n            raise ValueError(\n                \"Make sure to provide `position_ids` when passing `past_key_values`.\")\n\n        position_ids = jnp.broadcast_to(jnp.arange(sequence_length)[\n                                        None, :], (batch_size, sequence_length))\n\n    if attention_mask is None:\n        attention_mask = jnp.ones((batch_size, sequence_length))\n\n    rngs = {}\n    if dropout_rng is not None:\n        rngs[\"dropout\"] = dropout_rng\n\n    if self.config.bits is not None:\n        rngs['params'] = jax.random.key(0)\n\n    inputs = {\n        \"params\": params or self.params\n    } if add_params_field else params or self.params\n\n    if past_key_values:\n        inputs[\"cache\"] = past_key_values\n        mutable = [\"cache\"]\n    else:\n        mutable = False\n\n    outputs = self.module.apply(\n        inputs,\n        jnp.array(input_ids, dtype=\"i4\"),\n        jnp.array(attention_mask, dtype=\"i4\"),\n        jnp.array(position_ids, dtype=\"i4\"),\n        not train,\n        False,\n        output_attentions,\n        output_hidden_states,\n        output_router_logits,\n        return_dict,\n        extra_embedding,\n        rngs=rngs,\n        mutable=mutable,\n    )\n\n    if past_key_values is not None and return_dict:\n        outputs, past_key_values = outputs\n        outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n        return outputs\n    elif past_key_values is not None and not return_dict:\n        outputs, past_key_values = outputs\n        outputs = outputs[:1] + \\\n                  (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n    return outputs\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.__init__","title":"<code>__init__(config, input_shape=(1, 1), seed=0, dtype=jnp.float32, _do_init=True, **kwargs)</code>","text":"<p>The init function is called when the class is instantiated. It sets up the instance of the class, and defines what happens when it's created. The init function can take arguments, but self is always required (it refers to the instance of the object).</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>config</code> <code>Qwen2MoeConfig</code> <p>Qwen2MoeConfig: Pass the configuration to the module</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Specify the shape of the input to the model</p> <code>(1, 1)</code> <code>seed</code> <code>int</code> <p>int: Set the seed for random number generation</p> <code>0</code> <code>dtype</code> <code>dtype</code> <p>jnp.dtype: Specify the data type of the input</p> <code>float32</code> <code>_do_init</code> <code>bool</code> <p>bool: Control whether the module is initialized or not</p> <code>True</code> <code>**kwargs</code> <p>Pass in any additional parameters that the module_class might need</p> <code>{}</code> <p>:param : Specify the number of layers in the network</p> <p>Returns:</p> Type Description <p>The super() of the class</p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>def __init__(\n        self,\n        config: Qwen2MoeConfig,\n        input_shape: Tuple = (1, 1),\n        seed: int = 0,\n        dtype: jnp.dtype = jnp.float32,\n        _do_init: bool = True,\n        **kwargs,\n):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It sets up the instance of the class, and defines what happens when it's created.\n    The __init__ function can take arguments, but self is always required (it refers to the instance of the object).\n\n    Args:\n        self: Refer to the object itself\n        config: Qwen2MoeConfig: Pass the configuration to the module\n        input_shape: Tuple: Specify the shape of the input to the\n            model\n        seed: int: Set the seed for random number generation\n        dtype: jnp.dtype: Specify the data type of the input\n        _do_init: bool: Control whether the module is initialized or\n            not\n        **kwargs: Pass in any additional parameters that the\n            module_class might need\n    :param : Specify the number of layers in the network\n\n    Returns:\n        The super() of the class\n    \"\"\"\n    module = self.module_class(config=config, dtype=dtype, **kwargs)\n    super().__init__(config, module, input_shape=input_shape, seed=seed, dtype=dtype, _do_init=_do_init)\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.init_cache","title":"<code>init_cache(batch_size, max_length)</code>","text":"<p>The init_cache function is used to initialize the cache for a given batch size and sequence length. The cache is a dictionary that contains all the intermediate states from each layer in the model. This allows us to run inference on multiple batches without having to re-run forward passes through every layer in the model, which would be very slow.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access the module</p> required <code>batch_size</code> <p>Define the batch size of the input tensors</p> required <code>max_length</code> <p>Set the length of the input sequence</p> required <p>Returns:</p> Type Description <p>A dictionary with the following keys:</p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>def init_cache(self, batch_size, max_length):\n    \"\"\"The init_cache function is used to initialize the cache for a given batch size and sequence length.\n    The cache is a dictionary that contains all the intermediate states from each layer in the model.\n    This allows us to run inference on multiple batches without having to re-run forward passes through every layer in\n    the model, which would be very slow.\n\n    Args:\n        self: Access the module\n        batch_size: Define the batch size of the input tensors\n        max_length: Set the length of the input sequence\n\n    Returns:\n        A dictionary with the following keys:\n    \"\"\"\n    input_ids = jnp.ones((batch_size, max_length))\n    attention_mask = jnp.ones_like(input_ids)\n    position_ids = jnp.broadcast_to(jnp.arange(\n        jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n    init_variables = self.module.init(\n        jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n    )\n    return init_variables[\"cache\"]\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoePreTrainedModel.init_weights","title":"<code>init_weights(rng, input_shape, params=None)</code>","text":"<p>The init_weights function is used to initialize the weights of a model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>rng</code> <code>PRNGKey</code> <p>jax.random.PRNGKey: Initialize the weights of the model</p> required <code>input_shape</code> <code>Tuple</code> <p>Tuple: Specify the shape of the input tensor</p> required <code>params</code> <code>FrozenDict</code> <p>FrozenDict: Pass in the parameters of a pre-trained model</p> <code>None</code> <p>Returns:</p> Type Description <code>FrozenDict</code> <p>A frozendict of parameters</p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n    \"\"\"The init_weights function is used to initialize the weights of a model.\n\n    Args:\n        self: Access variables that belong to the class\n        rng: jax.random.PRNGKey: Initialize the weights of the model\n        input_shape: Tuple: Specify the shape of the input tensor\n        params: FrozenDict: Pass in the parameters of a pre-trained\n            model\n\n    Returns:\n        A frozendict of parameters\n    \"\"\"\n    input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n    attention_mask = jnp.ones_like(input_ids)\n    position_ids = jnp.broadcast_to(jnp.arange(jnp.atleast_2d(input_ids).shape[-1]), input_shape)\n    params_rng, dropout_rng = jax.random.split(rng)\n    rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n    if self.config.add_cross_attention:\n        encoder_hidden_states = jnp.zeros(\n            input_shape + (self.config.hidden_size,))\n        encoder_attention_mask = attention_mask\n        module_init_outputs = self.module.init(\n            rngs,\n            input_ids,\n            attention_mask,\n            position_ids,\n            encoder_hidden_states,\n            encoder_attention_mask,\n            return_dict=False,\n        )\n    else:\n        module_init_outputs = self.module.init(\n            rngs, input_ids, attention_mask, position_ids, return_dict=False)\n\n    random_params = module_init_outputs[\"params\"]\n\n    if params is not None:\n        random_params = flatten_dict(unfreeze(random_params))\n        params = flatten_dict(unfreeze(params))\n        for missing_key in self._missing_keys:\n            params[missing_key] = random_params[missing_key]\n        self._missing_keys = set()\n        return freeze(unflatten_dict(params))\n    else:\n        return random_params\n</code></pre>"},{"location":"generated-modules-qwen2_moe-modeling_qwen2_moe_flax/#src.python.easydel.modules.qwen2_moe.modeling_qwen2_moe_flax.FlaxQwen2MoeSparseMoeBlock","title":"<code>FlaxQwen2MoeSparseMoeBlock</code>","text":"<p>               Bases: <code>Module</code></p> <p>This implementation is strictly equivalent to standard MoE with full capacity (no dropped tokens). It's faster since it formulates MoE operations in terms of block-sparse operations to accomodate imbalanced assignments of tokens to experts, whereas standard MoE either (1) drop tokens at the cost of reduced performance or (2) set capacity factor to number of experts and thus waste computation and memory on padding.</p> Source code in <code>src/python/easydel/modules/qwen2_moe/modeling_qwen2_moe_flax.py</code> <pre><code>class FlaxQwen2MoeSparseMoeBlock(nn.Module):\n    \"\"\"This implementation is\n    strictly equivalent to standard MoE with full capacity (no\n    dropped tokens). It's faster since it formulates MoE operations\n    in terms of block-sparse operations to accomodate imbalanced\n    assignments of tokens to experts, whereas standard MoE either\n    (1) drop tokens at the cost of reduced performance or (2) set\n    capacity factor to number of experts and thus waste computation\n    and memory on padding.\n    \"\"\"\n    config: Qwen2MoeConfig\n    dtype: jnp.dtype = jnp.bfloat16\n    param_dtype: jnp.dtype = jnp.bfloat16\n    precision: Optional[\n        Union[None, jax.lax.Precision]\n    ] = jax.lax.Precision(\"fastest\")\n\n    def setup(self) -&gt; None:\n        self.gate = Linear(\n            self.config.num_experts,\n            use_bias=False,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            kernel_init=nn.initializers.normal(),\n        )\n\n        self.experts = FlaxQwen2MoeBlocKSparesTop2MLPCollection(\n            config=self.config,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n\n        self.shared_expert = FlaxQwen2MoeMLP(\n            config=self.config,\n            intermediate_size=self.config.shared_expert_intermediate_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n        self.shared_expert_gate = Linear(\n            1,\n            use_bias=False,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision\n        )\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            e: bool = False  # Ignored\n    ) -&gt; Tuple[chex.Array, chex.Array]:\n        batch_size, sequence_length, hidden_dim = hidden_states.shape\n\n        router_logits = self.gate(hidden_states).astype(\n            jnp.promote_types(self.dtype, jnp.float32)\n        )\n\n        routing_weights = jax.nn.softmax(\n            router_logits.astype(\n                jnp.promote_types(self.dtype, jnp.float32)\n            ), axis=-1\n        )\n\n        routing_weights, selected_experts = jax.lax.top_k(\n            routing_weights,\n            k=self.config.num_experts_per_tok\n        )\n\n        if self.config.norm_topk_prob:\n            routing_weights /= routing_weights.sum(axis=-1, keepdims=True)\n        final_hidden_state = self.experts(\n            selected_experts=selected_experts,\n            batch_size=batch_size,\n            sequence_length=sequence_length,\n            hidden_dim=hidden_dim,\n            hidden_states=hidden_states,\n            routing_weights=routing_weights\n        )\n        shared_expert_output = self.shared_expert(hidden_states)\n        shared_expert_output = jax.nn.sigmoid(\n            self.shared_expert_gate(hidden_states)\n        ) * shared_expert_output\n        final_hidden_state = final_hidden_state + shared_expert_output\n\n        return (\n            final_hidden_state,\n            router_logits\n        )\n</code></pre>"},{"location":"generated-modules-roberta-modelling_roberta_flax/","title":"modules.roberta.modelling_roberta_flax","text":""},{"location":"generated-modules-roberta-roberta_configuration/","title":"modules.roberta.roberta_configuration","text":""},{"location":"generated-modules-rwkv-modelling_rwkv_flax/","title":"modules.rwkv.modelling_rwkv_flax","text":""},{"location":"generated-modules-rwkv-rwkv_configuration/","title":"modules.rwkv.rwkv_configuration","text":""},{"location":"generated-modules-rwkv-rwkv_configuration/#src.python.easydel.modules.rwkv.rwkv_configuration.RwkvConfig","title":"<code>RwkvConfig</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> <p>RWKV configuration.</p> Source code in <code>src/python/easydel/modules/rwkv/rwkv_configuration.py</code> <pre><code>class RwkvConfig(EasyDeLPretrainedConfig):\n    \"\"\"RWKV configuration.\"\"\"\n\n    model_type: str = \"rwkv\"\n    attribute_map = {\"max_position_embeddings\": \"context_length\"}\n\n    def __init__(\n            self,\n            vocab_size=50277,\n            context_length=1024,\n            hidden_size=4096,\n            num_hidden_layers=32,\n            attention_hidden_size=None,\n            intermediate_size=None,\n            layer_norm_epsilon=1e-5,\n            bos_token_id=0,\n            eos_token_id=0,\n            rescale_every=6,\n            tie_word_embeddings=False,\n            use_cache=True,\n            bits: Optional[int] = None,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            **kwargs\n    ) -&gt; None:\n\n        self.bits = bits\n        self.gradient_checkpointing = gradient_checkpointing\n        self.vocab_size = vocab_size\n        self.context_length = context_length\n        self.hidden_size = hidden_size\n        self.num_hidden_layers = num_hidden_layers\n        self.attention_hidden_size = attention_hidden_size if attention_hidden_size is not None else hidden_size\n        self.intermediate_size = intermediate_size if intermediate_size is not None else 4 * hidden_size\n        self.layer_norm_epsilon = layer_norm_epsilon\n        self.rescale_every = rescale_every\n        self.use_cache = use_cache\n\n        self.bos_token_id = bos_token_id\n        self.eos_token_id = eos_token_id\n\n        super().__init__(\n            tie_word_embeddings=tie_word_embeddings,\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            bits=bits,\n            **kwargs\n        )\n\n    def add_jax_args(\n            self,\n            bits: Optional[int] = None,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            **kwargs\n    ):\n        self.bits = bits\n        self.gradient_checkpointing = gradient_checkpointing\n        for k, v in kwargs.items():\n            if not hasattr(self, k):\n                setattr(self, k, v)\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        return (\n            (\".*\", PartitionSpec((\"sp\", \"fsdp\"))),\n        ) if fully_sharded_data_parallel else (\n            (\".*\", PartitionSpec((\"sp\", \"fsdp\"))),\n        )\n</code></pre>"},{"location":"generated-modules-stablelm-modelling_stablelm_flax/","title":"modules.stablelm.modelling_stablelm_flax","text":""},{"location":"generated-modules-stablelm-modelling_stablelm_flax/#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmAttention","title":"<code>FlaxStableLmAttention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/stablelm/modelling_stablelm_flax.py</code> <pre><code>class FlaxStableLmAttention(BaseJAXAttentionModule):\n    config: StableLmConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self):\n        config: StableLmConfig = self.config\n        self.hidden_size = config.hidden_size\n        self.num_heads = config.num_attention_heads\n        self.head_dim = self.hidden_size // self.num_heads\n        self.num_key_value_heads = config.num_key_value_heads\n        self.num_key_value_groups = self.num_heads // self.num_key_value_heads\n        self.max_position_embeddings = config.max_position_embeddings\n        self.rope_theta = config.rope_theta\n        self.partial_rotary_factor = config.partial_rotary_factor\n\n        if self.num_key_value_groups == 1:\n            assert self.config.num_attention_heads == self.config.num_key_value_heads\n        self.q_proj = Linear(\n            config.num_attention_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=self.config.use_qkv_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.k_proj = Linear(\n            config.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=self.config.use_qkv_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.v_proj = Linear(\n            config.num_key_value_heads * self.head_dim,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=self.config.use_qkv_bias,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.o_proj = Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n\n        self.rotary_emb_dim = int(self.config.partial_rotary_factor * self.head_dim)\n        self.attention_performer = AttentionModule(\n            use_sharding_constraint=self.config.use_sharding_constraint,\n            block_k_major=self.config.block_k_major,\n            block_b=self.config.block_b,\n            block_q=self.config.block_q,\n            block_k=self.config.block_k,\n            block_q_major_dkv=self.config.block_q_major_dkv,\n            block_k_major_dkv=self.config.block_k_major_dkv,\n            block_k_major_dq=self.config.block_k_major_dq,\n            block_k_dkv=self.config.block_k_dkv,\n            block_q_dkv=self.config.block_q_dkv,\n            block_q_dq=self.config.block_q_dq,\n            block_k_dq=self.config.block_k_dq,\n            num_attention_heads=self.config.num_attention_heads,\n            attention_dropout=self.config.attention_dropout,\n            head_dims=self.head_dim,\n            attention_partition_spec=self.config.attention_partition_spec,\n            shard_attention_computation=self.config.shard_attention_computation,\n            precision=self.precision,\n            force_float32_tpu=True,\n            attn_mechanism=self.config.attn_mechanism,\n            dtype=self.dtype,\n            bias_partition_spec=self.config.bias_partition_spec,\n            key_partition_spec=self.config.key_partition_spec,\n            query_partition_spec=self.config.query_partition_spec,\n            generation_query_partition_spec=self.config.generation_query_partition_spec,\n            generation_bias_partition_spec=self.config.generation_bias_partition_spec,\n            generation_attention_partition_spec=self.config.generation_attention_partition_spec,\n            value_partition_spec=self.config.value_partition_spec,\n            scan_ring_attention=self.config.scan_ring_attention,\n            mesh=self.config.jax_mesh(),\n            sm_scale=1 / math.sqrt(self.head_dim),\n            axis_name=self.config.attention_axis_name,\n            backward_pass_impl=self.config.flash_attention_backward_pass_impl\n        )\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.hidden_size,))\n\n    @staticmethod\n    def _transpose_sequence_head(query, key, value):\n        \"\"\"The _transpose_sequence_head function transposes the query, key and value matrices.\n\n        Args:\n            query: Get the attention weights for each of the heads\n            key: Determine the number of heads\n            value: Store the values of the input\n\n        Returns:\n            The transpose of the query, key and value matrices\n        \"\"\"\n        return jnp.transpose(query, (0, 2, 1, 3)), jnp.transpose(key, (0, 2, 1, 3)), jnp.transpose(value, (0, 2, 1, 3))\n\n    def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n        \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n        The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n        the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n        Args:\n            self: Access variables that belong to the class\n            batch_size: Reshape the query_states, key and value tensors\n            sequence_length: Reshape the query_states, key and value\n                tensors\n            query: Calculate the attention weights\n            key: Calculate the attention\n            value: Compute the attention weights\n            freq_cis: Calculate the frequency of each word in the\n                vocabulary\n            position_ids: Identify the position of each token in the\n                sequence\n\n        Returns:\n            A tuple of 3 tensors: query_states, key and value\n        \"\"\"\n        query = query.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_attention_heads,\n            self.head_dim\n        )\n        key = key.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n        value = value.reshape(\n            batch_size,\n            sequence_length,\n            self.config.num_key_value_heads,\n            self.head_dim\n        )\n\n        query, key, value = self._transpose_sequence_head(query, key, value)\n\n        sin, cos = freq_cis\n\n        sin = sin[position_ids][:, None, :, :]\n        cos = cos[position_ids][:, None, :, :]\n\n        query_rot, query_pass = (\n            query[..., : self.rotary_emb_dim],\n            query[..., self.rotary_emb_dim:],\n        )\n        key_rot, key_pass = (\n            key[..., : self.rotary_emb_dim],\n            key[..., self.rotary_emb_dim:],\n        )\n\n        key_rot = apply_rotary_pos_emb(key_rot, sin, cos)\n        query_rot = apply_rotary_pos_emb(query_rot, sin, cos)\n\n        query = jnp.concatenate((query_rot, query_pass), axis=-1)\n        key = jnp.concatenate((key_rot, key_pass), axis=-1)\n\n        key = repeat_kv_bnsh(key, self.num_key_value_groups)\n        value = repeat_kv_bnsh(value, self.num_key_value_groups)\n        return self._transpose_sequence_head(query, key, value)\n\n    def __call__(\n            self,\n            hidden_states: chex.Array,\n            freq_cis: Tuple[chex.Array, chex.Array],\n            attention_mask: chex.Array,\n            position_ids: chex.Array,\n            causal_mask: chex.Array,\n            segment_ids: Optional[chex.Array] = None,\n            deterministic: bool = True,\n            init_cache: bool = False,\n            output_attentions: bool = False,\n            fcm_mask=None,\n    ):\n        \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n        with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n        and it should return all outputs that are needed for training or inference.\n\n        Args:\n            self: Access variables that belong to the class\n            hidden_states: chex.Array: Pass the hidden states of the\n                previous layer\n            freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n                frequency coefficients for each position\n            attention_mask: chex.Array: Mask out certain tokens in the\n                input sequence\n            position_ids: chex.Array: Determine the position of each\n                token in a sequence\n            causal_mask: chex.Array: Mask out the future tokens in the\n                decoder\n            deterministic: bool: Determine whether to use dropout or not\n            init_cache: bool: Initialize the cache\n            output_attentions: bool: Determine whether to return the\n                attention weights or not\n            fcm_mask: Mask out the attention weights between the input\n                and output tokens\n        :param : Determine if the attention is causal or not\n\n        Returns:\n            A tuple of two arrays\n        \"\"\"\n        batch_size, sequence_length = hidden_states.shape[:2]\n        query_states, key_states, value_states = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(\n            hidden_states)\n\n        query_states = query_states.reshape(\n            batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n        key_states = key_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n        value_states = value_states.reshape(\n            batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n        query_states, key_states, value_states = self.apply_rotary(\n            query=query_states,\n            key=key_states,\n            value=value_states,\n            position_ids=position_ids,\n            freq_cis=freq_cis,\n            batch_size=batch_size,\n            sequence_length=sequence_length\n        )\n\n        assert_msg = (\n            \"num_attention_heads repeat wont work likely\\n\"\n            f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n            f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n        )\n\n        assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n        assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        if self.has_variable(\"cache\", \"cached_key\"):\n            mask_shift = self.variables[\"cache\"][\"cache_index\"]\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            causal_mask = lax.dynamic_slice(\n                causal_mask,\n                (0, 0, mask_shift, 0),\n                (1, 1, query_length, max_decoder_length)\n            )\n        else:\n            causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n        batch_size = hidden_states.shape[0]\n        causal_mask = jnp.broadcast_to(\n            causal_mask, (batch_size,) + causal_mask.shape[1:])\n        attention_mask = jnp.broadcast_to(jnp.expand_dims(\n            attention_mask, axis=(-3, -2)), causal_mask.shape)\n        attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n        if attention_mask.ndim == 2:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n        dropout_rng = None\n\n        if not deterministic and self.config.attention_dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n\n        if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n            key_states, value_states, attention_mask = self._concatenate_to_cache(\n                key_states,\n                value_states,\n                query_states,\n                attention_mask\n            )\n        # if self.config.use_sharding_constraint:\n        #     query_states = with_sharding_constraint(\n        #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n        #     )\n        #     key_states = with_sharding_constraint(\n        #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        #     value_states = with_sharding_constraint(\n        #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        use_qkv_bias = lax.select(\n            attention_mask &gt; 0,\n            jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n            jnp.full(attention_mask.shape, jnp.finfo(\n                self.dtype).min).astype(self.dtype),\n        )\n\n        query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n        attentions = self.attention_performer.__call__(\n            query_states=query_states,\n            key_states=key_states,\n            value_states=value_states,\n            bias=use_qkv_bias,\n            attention_mask=attention_mask,\n            causal=True,\n            dropout_rng=dropout_rng,\n            deterministic=deterministic,\n            query_sequence_length=query_length,\n            key_value_sequence_length=key_length,\n            uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n            segment_ids=segment_ids,\n            causal_mask=causal_mask\n        )\n\n\n        attn_output = self._merge_heads(attentions.attention_outputs)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        attn_output = self.o_proj(attn_output)\n        outputs = (attn_output, attentions.attention_weights) if output_attentions else (attn_output,)\n        return outputs\n</code></pre>"},{"location":"generated-modules-stablelm-modelling_stablelm_flax/#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmAttention.__call__","title":"<code>__call__(hidden_states, freq_cis, attention_mask, position_ids, causal_mask, segment_ids=None, deterministic=True, init_cache=False, output_attentions=False, fcm_mask=None)</code>","text":"<p>The call function is the main function of a JAX module. It defines how the module behaves when called with inputs. The call function can be thought of as a \"forward pass\" through the model, and it should return all outputs that are needed for training or inference.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the hidden states of the previous layer</p> required <code>freq_cis</code> <code>Tuple[Array, Array]</code> <p>Tuple[chex.Array, chex.Array],: Pass in the frequency coefficients for each position</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask out certain tokens in the input sequence</p> required <code>position_ids</code> <code>Array</code> <p>chex.Array: Determine the position of each token in a sequence</p> required <code>causal_mask</code> <code>Array</code> <p>chex.Array: Mask out the future tokens in the decoder</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout or not</p> <code>True</code> <code>init_cache</code> <code>bool</code> <p>bool: Initialize the cache</p> <code>False</code> <code>output_attentions</code> <code>bool</code> <p>bool: Determine whether to return the attention weights or not</p> <code>False</code> <code>fcm_mask</code> <p>Mask out the attention weights between the input and output tokens</p> <code>None</code> <p>:param : Determine if the attention is causal or not</p> <p>Returns:</p> Type Description <p>A tuple of two arrays</p> Source code in <code>src/python/easydel/modules/stablelm/modelling_stablelm_flax.py</code> <pre><code>def __call__(\n        self,\n        hidden_states: chex.Array,\n        freq_cis: Tuple[chex.Array, chex.Array],\n        attention_mask: chex.Array,\n        position_ids: chex.Array,\n        causal_mask: chex.Array,\n        segment_ids: Optional[chex.Array] = None,\n        deterministic: bool = True,\n        init_cache: bool = False,\n        output_attentions: bool = False,\n        fcm_mask=None,\n):\n    \"\"\"The __call__ function is the main function of a JAX module. It defines how the module behaves when called\n    with inputs. The __call__ function can be thought of as a &amp;quot;forward pass&amp;quot; through the model,\n    and it should return all outputs that are needed for training or inference.\n\n    Args:\n        self: Access variables that belong to the class\n        hidden_states: chex.Array: Pass the hidden states of the\n            previous layer\n        freq_cis: Tuple[chex.Array, chex.Array],: Pass in the\n            frequency coefficients for each position\n        attention_mask: chex.Array: Mask out certain tokens in the\n            input sequence\n        position_ids: chex.Array: Determine the position of each\n            token in a sequence\n        causal_mask: chex.Array: Mask out the future tokens in the\n            decoder\n        deterministic: bool: Determine whether to use dropout or not\n        init_cache: bool: Initialize the cache\n        output_attentions: bool: Determine whether to return the\n            attention weights or not\n        fcm_mask: Mask out the attention weights between the input\n            and output tokens\n    :param : Determine if the attention is causal or not\n\n    Returns:\n        A tuple of two arrays\n    \"\"\"\n    batch_size, sequence_length = hidden_states.shape[:2]\n    query_states, key_states, value_states = self.q_proj(hidden_states), self.k_proj(hidden_states), self.v_proj(\n        hidden_states)\n\n    query_states = query_states.reshape(\n        batch_size, sequence_length, self.config.num_attention_heads, self.head_dim)\n    key_states = key_states.reshape(\n        batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n    value_states = value_states.reshape(\n        batch_size, sequence_length, self.config.num_key_value_heads, self.head_dim)\n\n    query_states, key_states, value_states = self.apply_rotary(\n        query=query_states,\n        key=key_states,\n        value=value_states,\n        position_ids=position_ids,\n        freq_cis=freq_cis,\n        batch_size=batch_size,\n        sequence_length=sequence_length\n    )\n\n    assert_msg = (\n        \"num_attention_heads repeat wont work likely\\n\"\n        f\"INFO :\\n\\trepeat_kv_bnsh Used with num_key_value_groups = {self.num_key_value_groups}\\n\\t\"\n        f\"NH : {self.config.num_attention_heads} KVH : {self.config.num_attention_heads}\"\n    )\n\n    assert query_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert key_states.shape[-2] == self.config.num_attention_heads, assert_msg\n    assert value_states.shape[-2] == self.config.num_attention_heads, assert_msg\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    if self.has_variable(\"cache\", \"cached_key\"):\n        mask_shift = self.variables[\"cache\"][\"cache_index\"]\n        max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n        causal_mask = lax.dynamic_slice(\n            causal_mask,\n            (0, 0, mask_shift, 0),\n            (1, 1, query_length, max_decoder_length)\n        )\n    else:\n        causal_mask = causal_mask[:, :, :query_length, :key_length]\n\n    batch_size = hidden_states.shape[0]\n    causal_mask = jnp.broadcast_to(\n        causal_mask, (batch_size,) + causal_mask.shape[1:])\n    attention_mask = jnp.broadcast_to(jnp.expand_dims(\n        attention_mask, axis=(-3, -2)), causal_mask.shape)\n    attention_mask = combine_masks(attention_mask, causal_mask, fcm_mask)\n    if attention_mask.ndim == 2:\n        attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n    dropout_rng = None\n\n    if not deterministic and self.config.attention_dropout &gt; 0.0:\n        dropout_rng = self.make_rng(\"dropout\")\n\n    if self.has_variable(\"cache\", \"cached_key\") or init_cache:\n        key_states, value_states, attention_mask = self._concatenate_to_cache(\n            key_states,\n            value_states,\n            query_states,\n            attention_mask\n        )\n    # if self.config.use_sharding_constraint:\n    #     query_states = with_sharding_constraint(\n    #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n    #     )\n    #     key_states = with_sharding_constraint(\n    #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    #     value_states = with_sharding_constraint(\n    #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n    #     )\n    use_qkv_bias = lax.select(\n        attention_mask &gt; 0,\n        jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n        jnp.full(attention_mask.shape, jnp.finfo(\n            self.dtype).min).astype(self.dtype),\n    )\n\n    query_length, key_length = query_states.shape[1], key_states.shape[1]\n\n    attentions = self.attention_performer.__call__(\n        query_states=query_states,\n        key_states=key_states,\n        value_states=value_states,\n        bias=use_qkv_bias,\n        attention_mask=attention_mask,\n        causal=True,\n        dropout_rng=dropout_rng,\n        deterministic=deterministic,\n        query_sequence_length=query_length,\n        key_value_sequence_length=key_length,\n        uses_cache=self.has_variable(\"cache\", \"cached_key\") or init_cache,\n        segment_ids=segment_ids,\n        causal_mask=causal_mask\n    )\n\n\n    attn_output = self._merge_heads(attentions.attention_outputs)\n    if self.config.shard_attention_computation:\n        attn_output = with_sharding_constraint(\n            attn_output, PartitionSpec(\n                (\"dp\", \"fsdp\"),\n                \"sp\" if attn_output.shape[1] != 1 else None,\n                \"tp\"\n            )\n        )\n    attn_output = self.o_proj(attn_output)\n    outputs = (attn_output, attentions.attention_weights) if output_attentions else (attn_output,)\n    return outputs\n</code></pre>"},{"location":"generated-modules-stablelm-modelling_stablelm_flax/#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmAttention.apply_rotary","title":"<code>apply_rotary(batch_size, sequence_length, query, key, value, freq_cis, position_ids)</code>","text":"<p>The apply_rotary function is a modified version of the apply_attention function in the BertModel class. The main difference is that it takes in an additional argument, freq_cis, which are used to calculate the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>batch_size</code> <p>Reshape the query_states, key and value tensors</p> required <code>sequence_length</code> <p>Reshape the query_states, key and value tensors</p> required <code>query</code> <p>Calculate the attention weights</p> required <code>key</code> <p>Calculate the attention</p> required <code>value</code> <p>Compute the attention weights</p> required <code>freq_cis</code> <p>Calculate the frequency of each word in the vocabulary</p> required <code>position_ids</code> <p>Identify the position of each token in the sequence</p> required <p>Returns:</p> Type Description <p>A tuple of 3 tensors: query_states, key and value</p> Source code in <code>src/python/easydel/modules/stablelm/modelling_stablelm_flax.py</code> <pre><code>def apply_rotary(self, batch_size, sequence_length, query, key, value, freq_cis, position_ids):\n    \"\"\"The apply_rotary function is a modified version of the apply_attention function in the BertModel class.\n    The main difference is that it takes in an additional argument, freq_cis, which are used to calculate\n    the rotary attention weights. The other differences are minor and mostly related to reshaping tensors.\n\n    Args:\n        self: Access variables that belong to the class\n        batch_size: Reshape the query_states, key and value tensors\n        sequence_length: Reshape the query_states, key and value\n            tensors\n        query: Calculate the attention weights\n        key: Calculate the attention\n        value: Compute the attention weights\n        freq_cis: Calculate the frequency of each word in the\n            vocabulary\n        position_ids: Identify the position of each token in the\n            sequence\n\n    Returns:\n        A tuple of 3 tensors: query_states, key and value\n    \"\"\"\n    query = query.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_attention_heads,\n        self.head_dim\n    )\n    key = key.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n    value = value.reshape(\n        batch_size,\n        sequence_length,\n        self.config.num_key_value_heads,\n        self.head_dim\n    )\n\n    query, key, value = self._transpose_sequence_head(query, key, value)\n\n    sin, cos = freq_cis\n\n    sin = sin[position_ids][:, None, :, :]\n    cos = cos[position_ids][:, None, :, :]\n\n    query_rot, query_pass = (\n        query[..., : self.rotary_emb_dim],\n        query[..., self.rotary_emb_dim:],\n    )\n    key_rot, key_pass = (\n        key[..., : self.rotary_emb_dim],\n        key[..., self.rotary_emb_dim:],\n    )\n\n    key_rot = apply_rotary_pos_emb(key_rot, sin, cos)\n    query_rot = apply_rotary_pos_emb(query_rot, sin, cos)\n\n    query = jnp.concatenate((query_rot, query_pass), axis=-1)\n    key = jnp.concatenate((key_rot, key_pass), axis=-1)\n\n    key = repeat_kv_bnsh(key, self.num_key_value_groups)\n    value = repeat_kv_bnsh(value, self.num_key_value_groups)\n    return self._transpose_sequence_head(query, key, value)\n</code></pre>"},{"location":"generated-modules-stablelm-modelling_stablelm_flax/#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmMLP","title":"<code>FlaxStableLmMLP</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/modules/stablelm/modelling_stablelm_flax.py</code> <pre><code>class FlaxStableLmMLP(nn.Module):\n    config: StableLmConfig\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[Union[jax.lax.Precision, str]] = None\n\n    def setup(self) -&gt; None:\n        config = self.config\n\n        self.gate_proj = Linear(\n            config.intermediate_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.down_proj = Linear(\n            config.hidden_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.up_proj = Linear(\n            config.intermediate_size,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(\n                self.config.initializer_range),\n            precision=self.precision,\n            **get_dot_general_by_bits(self.config.bits, self.config.easy_method)\n        )\n        self.act_fn = ACT2FN[config.hidden_act]\n\n    def __call__(self, x: jnp.ndarray, deterministic: bool = True) -&gt; jnp.ndarray:\n        \"\"\"The __call__ function is the main function of a class.\n        It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).\n        The __call__ method enables instances of a class to be called like standard Python functions.\n\n        Args:\n            self: Represent the instance of the class\n            x: jnp.ndarray: Pass in the input to the layer\n            deterministic: bool: Determine whether to use dropout #\n                Ignored\n\n        Returns:\n            A tensor that is the result of function to x\n        \"\"\"\n        return self.down_proj(self.act_fn(self.gate_proj(x)) * self.up_proj(x))\n</code></pre>"},{"location":"generated-modules-stablelm-modelling_stablelm_flax/#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmMLP.__call__","title":"<code>__call__(x, deterministic=True)</code>","text":"<p>The call function is the main function of a class. It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments). The call method enables instances of a class to be called like standard Python functions.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>x</code> <code>ndarray</code> <p>jnp.ndarray: Pass in the input to the layer</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout # Ignored</p> <code>True</code> <p>Returns:</p> Type Description <code>ndarray</code> <p>A tensor that is the result of function to x</p> Source code in <code>src/python/easydel/modules/stablelm/modelling_stablelm_flax.py</code> <pre><code>def __call__(self, x: jnp.ndarray, deterministic: bool = True) -&gt; jnp.ndarray:\n    \"\"\"The __call__ function is the main function of a class.\n    It is called when an instance of the class (an object) is invoked as a function, i.e., obj(arguments).\n    The __call__ method enables instances of a class to be called like standard Python functions.\n\n    Args:\n        self: Represent the instance of the class\n        x: jnp.ndarray: Pass in the input to the layer\n        deterministic: bool: Determine whether to use dropout #\n            Ignored\n\n    Returns:\n        A tensor that is the result of function to x\n    \"\"\"\n    return self.down_proj(self.act_fn(self.gate_proj(x)) * self.up_proj(x))\n</code></pre>"},{"location":"generated-modules-stablelm-modelling_stablelm_flax/#src.python.easydel.modules.stablelm.modelling_stablelm_flax.FlaxStableLmPreTrainedModel","title":"<code>FlaxStableLmPreTrainedModel</code>","text":"<p>               Bases: <code>EasyDeLFlaxPretrainedModel</code></p> <p>StableLm pre-trained model.</p> Source code in <code>src/python/easydel/modules/stablelm/modelling_stablelm_flax.py</code> <pre><code>class FlaxStableLmPreTrainedModel(EasyDeLFlaxPretrainedModel):\n    \"\"\"StableLm pre-trained model.\"\"\"\n    module_class = None\n    config_class = StableLmConfig\n    base_model_prefix = \"model\"\n\n    def __init__(\n            self,\n            config: StableLmConfig,\n            dtype: jnp.dtype = jnp.float32,\n            param_dtype: jnp.dtype = jnp.float32,\n            precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\"),\n            input_shape=(1, 1),\n            seed: int = 42,\n            _do_init: bool = False\n    ) -&gt; None:\n        module = self.module_class(\n            config=config,\n            dtype=dtype,\n            param_dtype=param_dtype,\n            precision=precision\n        )\n        super().__init__(\n            config=config,\n            module=module,\n            input_shape=input_shape,\n            _do_init=_do_init,\n            seed=seed\n        )\n\n    def init_cache(self, batch_size, max_length):\n\n        input_ids = jnp.ones((batch_size, max_length))\n        attention_mask = jnp.ones_like(input_ids)\n        position_ids = jnp.broadcast_to(jnp.arange(\n            jnp.atleast_2d(input_ids).shape[-1]), input_ids.shape)\n\n        init_variables = self.module.init(\n            jax.random.PRNGKey(0), input_ids, attention_mask, position_ids, return_dict=False, init_cache=True\n        )\n        return init_variables[\"cache\"]\n\n    def init_weights(self, rng: jax.random.PRNGKey, input_shape: Tuple, params: FrozenDict = None) -&gt; FrozenDict:\n        input_ids = jnp.zeros(input_shape, dtype=\"i4\")\n        attention_mask = jnp.ones_like(input_ids)\n        params_rng, dropout_rng = jax.random.split(rng)\n        rngs = {\"params\": params_rng, \"dropout\": dropout_rng}\n\n        module_init_outputs = self.module.init(rngs, input_ids, attention_mask)\n\n        random_params = module_init_outputs[\"params\"]\n\n        if params is not None:\n            random_params = flatten_dict(unfreeze(random_params))\n            params = flatten_dict(unfreeze(params))\n            for missing_key in self._missing_keys:\n                params[missing_key] = random_params[missing_key]\n            self._missing_keys = set()\n            return freeze(unflatten_dict(params))\n        else:\n            return random_params\n\n    def __call__(\n            self,\n            input_ids: chex.Array,\n            attention_mask: chex.Array = None,\n            position_ids: chex.Array = None,\n            params: dict = None,\n            past_key_values: dict = None,\n            dropout_rng: jax.random.PRNGKey = None,\n            train: bool = False,\n            output_attentions: Optional[bool] = None,\n            output_hidden_states: Optional[bool] = None,\n            return_dict: Optional[bool] = True,\n            extra_embedding: Optional[Union[jnp.ndarray, None]] = None,\n            add_params_field: bool = False,\n            **kwargs\n    ):\n\n        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions\n        output_hidden_states = (\n            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states\n        )\n        return_dict = return_dict if return_dict is not None else self.config.return_dict\n\n        batch_size, sequence_length = input_ids.shape\n\n        assert sequence_length &lt;= self.config.max_position_embeddings, \"Maximum Position Embedding Reached !\"\n\n        if attention_mask is None:\n            attention_mask = jnp.ones((batch_size, sequence_length))\n\n        rngs = {}\n        if dropout_rng is not None:\n            rngs[\"dropout\"] = dropout_rng\n\n        if self.config.bits is not None:\n            rngs['params'] = jax.random.key(0)\n\n        inputs = {\"params\": params or self.params} if add_params_field else params or self.params\n\n        if past_key_values:\n            inputs[\"cache\"] = past_key_values\n            mutable = [\"cache\"]\n        else:\n            mutable = False\n\n        outputs = self.module.apply(\n            inputs,\n            input_ids=input_ids,\n            inputs_embeds=None,\n            attention_mask=attention_mask,\n            position_ids=position_ids,\n            extra_embedding=extra_embedding,\n            deterministic=not train,\n            output_attentions=output_attentions,\n            output_hidden_states=output_hidden_states,\n            init_cache=False,\n            return_dict=return_dict,\n            rngs=rngs,\n            mutable=mutable,\n        )\n\n        if past_key_values is not None and return_dict:\n            outputs, past_key_values = outputs\n            outputs[\"past_key_values\"] = unfreeze(past_key_values[\"cache\"])\n            return outputs\n        elif past_key_values is not None and not return_dict:\n            outputs, past_key_values = outputs\n            outputs = outputs[:1] + (unfreeze(past_key_values[\"cache\"]),) + outputs[1:]\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-stablelm-stablelm_configuration/","title":"modules.stablelm.stablelm_configuration","text":""},{"location":"generated-modules-stablelm-stablelm_configuration/#src.python.easydel.modules.stablelm.stablelm_configuration.StableLmConfig","title":"<code>StableLmConfig</code>","text":"<p>               Bases: <code>EasyDeLPretrainedConfig</code></p> <p>Phi configuration.</p> Source code in <code>src/python/easydel/modules/stablelm/stablelm_configuration.py</code> <pre><code>class StableLmConfig(EasyDeLPretrainedConfig):\n    \"\"\"Phi configuration.\"\"\"\n\n    model_type: str = \"stablelm\"\n\n    def __init__(\n            self,\n            vocab_size=50304,\n            intermediate_size=6912,\n            hidden_size=2560,\n            num_hidden_layers=32,\n            num_attention_heads=32,\n            num_key_value_heads=32,\n            hidden_act=\"silu\",\n            max_position_embeddings=4096,\n            initializer_range=0.02,\n            layer_norm_eps=1.0e-5,\n            use_cache=True,\n            tie_word_embeddings=False,\n            rope_theta=10_000,\n            rope_scaling=None,\n            use_qkv_bias=False,\n            hidden_dropout=0.0,\n            attention_dropout=0.0,\n            partial_rotary_factor=0.25,\n            bos_token_id=0,\n            eos_token_id=0,\n            bits: Optional[int] = None,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            **kwargs\n    ) -&gt; None:\n        self.vocab_size = vocab_size\n        self.hidden_size = hidden_size\n        self.intermediate_size = intermediate_size\n        self.num_hidden_layers = num_hidden_layers\n        self.num_attention_heads = num_attention_heads\n\n        if num_key_value_heads is None:\n            num_key_value_heads = num_attention_heads\n\n        self.num_key_value_heads = num_key_value_heads\n        self.use_qkv_bias = use_qkv_bias\n        self.hidden_dropout = hidden_dropout\n        self.attention_dropout = attention_dropout\n        self.hidden_act = hidden_act\n        self.max_position_embeddings = max_position_embeddings\n        self.initializer_range = initializer_range\n        self.layer_norm_eps = layer_norm_eps\n        self.use_cache = use_cache\n        self.rope_theta = rope_theta\n        self.rope_scaling = rope_scaling\n        self.partial_rotary_factor = partial_rotary_factor\n        self.bits = bits\n        self.gradient_checkpointing = gradient_checkpointing\n        super().__init__(\n            bos_token_id=bos_token_id,\n            eos_token_id=eos_token_id,\n            tie_word_embeddings=tie_word_embeddings,\n            bits=bits,\n            **kwargs\n        )\n\n    def add_jax_args(\n            self,\n            bits: Optional[int] = None,\n            gradient_checkpointing: str = \"nothing_saveable\",\n            **kwargs\n    ):\n        self.bits = bits\n        self.gradient_checkpointing = gradient_checkpointing\n        for k, v in kwargs.items():\n            if not hasattr(self, k):\n                setattr(self, k, v)\n\n    def get_partition_rules(self, fully_sharded_data_parallel: bool = True):\n        return (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"mlp/down_proj/kernel\", PartitionSpec(\"tp\", (\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\".*\", PartitionSpec(None)),\n        ) if not fully_sharded_data_parallel else (\n\n            (\"model/embed_tokens/embedding\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"self_attn/(q_proj|k_proj|v_proj)/kernel\", PartitionSpec((\"fsdp\", \"sp\"), \"tp\")),\n            (\"self_attn/o_proj/kernel\", PartitionSpec(\"tp\", (\"sp\", \"fsdp\"))),\n\n            (\"mlp/gate_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/down_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\"mlp/up_proj/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n\n            (\"input_layernorm/kernel\", PartitionSpec(None)),\n            (\"post_attention_layernorm/kernel\", PartitionSpec(None)),\n\n            (\"model/norm/kernel\", PartitionSpec(None)),\n            (\"lm_head/kernel\", PartitionSpec((\"fsdp\", \"sp\"))),\n            (\".*\", PartitionSpec((\"fsdp\", \"sp\"))),\n        )\n</code></pre>"},{"location":"generated-modules-t5-modelling_t5_flax/","title":"modules.t5.modelling_t5_flax","text":"<p>Flax T5 model.</p>"},{"location":"generated-modules-t5-modelling_t5_flax/#src.python.easydel.modules.t5.modelling_t5_flax.FlaxT5Attention","title":"<code>FlaxT5Attention</code>","text":"<p>               Bases: <code>BaseJAXAttentionModule</code></p> Source code in <code>src/python/easydel/modules/t5/modelling_t5_flax.py</code> <pre><code>class FlaxT5Attention(BaseJAXAttentionModule):\n    config: T5Config\n    has_relative_attention_bias: bool = False\n    causal: bool = False\n    dtype: jnp.dtype = jnp.bfloat16  # the dtype of the computation\n\n    def setup(self):\n        self.relative_attention_num_buckets = self.config.relative_attention_num_buckets\n        self.relative_attention_max_distance = self.config.relative_attention_max_distance\n        self.d_model = self.config.d_model\n        self.key_value_proj_dim = self.config.d_kv\n        self.n_heads = self.config.num_heads\n        self.dropout = self.config.dropout_rate\n        self.inner_dim = self.n_heads * self.key_value_proj_dim\n\n        q_init_std = self.config.initializer_factor * ((self.inner_dim * self.key_value_proj_dim) ** -0.5)\n        kv_init_std = self.config.initializer_factor * (self.inner_dim ** -0.5)\n        o_init_std = self.config.initializer_factor * (self.inner_dim ** -0.5)\n\n        self.q = Linear(\n            self.inner_dim,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(q_init_std),\n            dtype=self.dtype,\n        )\n        self.k = Linear(\n            self.inner_dim,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(kv_init_std),\n            dtype=self.dtype,\n        )\n        self.v = Linear(\n            self.inner_dim,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(kv_init_std),\n            dtype=self.dtype,\n        )\n        self.o = Linear(\n            self.d_model,\n            use_bias=False,\n            kernel_init=jax.nn.initializers.normal(o_init_std),\n            dtype=self.dtype,\n        )\n\n        if self.has_relative_attention_bias:\n            self.relative_attention_bias = nn.Embed(\n                self.relative_attention_num_buckets,\n                self.n_heads,\n                embedding_init=jax.nn.initializers.normal(kv_init_std),\n                dtype=self.dtype,\n            )\n\n    @staticmethod\n    def _relative_position_bucket(relative_position, bidirectional=True, num_buckets=32, max_distance=128):\n\n        relative_buckets = 0\n        if bidirectional:\n            num_buckets //= 2\n            relative_buckets += (relative_position &gt; 0) * num_buckets\n            relative_position = jnp.abs(relative_position)\n        else:\n            relative_position = -jnp.clip(relative_position, a_max=0)\n        # now relative_position is in the range [0, inf)\n\n        # half of the buckets are for exact increments in positions\n        max_exact = num_buckets // 2\n        is_small = relative_position &lt; max_exact\n\n        relative_position_if_large = max_exact + (\n                jnp.log(relative_position / max_exact) / jnp.log(max_distance / max_exact) * (num_buckets - max_exact)\n        )\n        relative_position_if_large = jnp.clip(relative_position_if_large, a_max=num_buckets - 1)\n\n        relative_buckets += jnp.where(is_small, relative_position, relative_position_if_large)\n\n        return relative_buckets.astype(\"i4\")\n\n    def compute_bias(self, query_length, key_length):\n        \"\"\"Compute binned relative position bias\"\"\"\n        context_position = jnp.arange(query_length, dtype=\"i4\")[:, None]\n        memory_position = jnp.arange(key_length, dtype=\"i4\")[None, :]\n\n        relative_position = memory_position - context_position\n        relative_position_bucket = self._relative_position_bucket(\n            relative_position,\n            bidirectional=(not self.causal),\n            num_buckets=self.relative_attention_num_buckets,\n            max_distance=self.relative_attention_max_distance,\n        )\n\n        values = self.relative_attention_bias(relative_position_bucket)\n        values = values.transpose((2, 0, 1))[None, :, :, :]\n        return values\n\n    def _split_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.n_heads, self.key_value_proj_dim))\n\n    def _merge_heads(self, hidden_states):\n        return hidden_states.reshape(hidden_states.shape[:2] + (self.inner_dim,))\n\n    def _create_position_bias(\n            self, key_states, query_states, attention_mask, init_cache, seq_length, causal_attention_mask_shift\n    ):\n        cache_is_filled = self.causal and self.has_variable(\"cache\", \"cached_key\") and (not init_cache)\n        key_length = key_states.shape[1]\n        query_length = key_length if cache_is_filled else query_states.shape[1]\n\n        if self.has_relative_attention_bias:\n            position_bias = self.compute_bias(query_length, key_length)\n        elif attention_mask is not None:\n            position_bias = jnp.zeros_like(attention_mask)\n        else:\n            position_bias = jnp.zeros((1, self.n_heads, query_length, key_length), dtype=self.dtype)\n\n        # if key and values are already calculated, only the last query position bias should be taken\n        if cache_is_filled:\n            max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n            position_bias = jax.lax.dynamic_slice(\n                position_bias,\n                (0, 0, causal_attention_mask_shift, 0),\n                (1, self.n_heads, seq_length, max_decoder_length),\n            )\n        return position_bias\n\n    def __call__(\n            self,\n            hidden_states,\n            attention_mask=None,\n            key_value_states=None,\n            position_bias=None,\n            use_cache=False,\n            output_attentions=False,\n            deterministic=True,\n            init_cache=False,\n    ):\n\n        batch_size, seq_length = hidden_states.shape[:2]\n\n        # q, k, v projections\n        query_states = self.q(hidden_states)  # (batch_size, n_heads, seq_length, dim_per_head)\n        key_states = self.k(hidden_states) if key_value_states is None else self.k(key_value_states)\n        value_states = self.v(hidden_states) if key_value_states is None else self.v(key_value_states)\n\n        # reshape to (batch_size, seq_length, n_heads, head_dim)\n        query_states = self._split_heads(query_states)\n        key_states = self._split_heads(key_states)\n        value_states = self._split_heads(value_states)\n        # if self.config.use_sharding_constraint:\n        #     query_states = with_sharding_constraint(\n        #         query_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, \"tp\", None)\n        #     )\n        #     key_states = with_sharding_constraint(\n        #         key_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        #     value_states = with_sharding_constraint(\n        #         value_states, PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None)\n        #     )\n        # counter-act scaling in dot_product_attention_weights function\n        query_states *= jnp.sqrt(query_states.shape[-1])\n\n        # for fast decoding causal attention mask should be shifted\n        causal_attention_mask_shift = (\n            self.variables[\"cache\"][\"cache_index\"] if (self.has_variable(\"cache\", \"cached_key\") and self.causal) else 0\n        )\n        # create causal attention_mask; attention_mask has to be defined when model is causal\n        if self.causal:\n            causal_attention_mask = make_causal_mask(attention_mask, dtype=\"bool\")\n\n            # fast decoding for generate requires special attention_mask\n            if self.has_variable(\"cache\", \"cached_key\"):\n                max_decoder_length = self.variables[\"cache\"][\"cached_key\"].shape[1]\n                causal_attention_mask = jax.lax.dynamic_slice(\n                    causal_attention_mask,\n                    (0, 0, causal_attention_mask_shift, 0),\n                    (1, 1, seq_length, max_decoder_length),\n                )\n\n            # broadcast causal attention mask &amp; attention mask to fit for merge\n            causal_attention_mask = jnp.broadcast_to(\n                causal_attention_mask, (batch_size,) + causal_attention_mask.shape[1:]\n            )\n            attention_mask = jnp.broadcast_to(\n                jnp.expand_dims(attention_mask, axis=(-3, -2)), causal_attention_mask.shape\n            )\n            attention_mask = combine_masks(attention_mask, causal_attention_mask)\n        elif attention_mask is not None:\n            attention_mask = jnp.expand_dims(attention_mask, axis=(-3, -2))\n\n        # During fast autoregressive decoding, we feed one position at a time,\n        # and cache the keys and values step by step.\n        if self.causal and (self.has_variable(\"cache\", \"cached_key\") or init_cache):\n            key_states, value_states, attention_attention_mask = self._concatenate_to_cache(\n                key_states, value_states, query_states, attention_mask\n            )\n\n        # replace masked positions with -10_000\n        if attention_mask is not None:\n            mask_value = jnp.finfo(self.dtype).min\n            attention_mask = jax.lax.select(\n                attention_mask &gt; 0,\n                jnp.full(attention_mask.shape, 0.0).astype(self.dtype),\n                jnp.full(attention_mask.shape, mask_value).astype(self.dtype),\n            )\n\n        if position_bias is None:\n            # compute position bias (only for first layer)\n            position_bias = self._create_position_bias(\n                key_states, query_states, attention_mask, init_cache, seq_length, causal_attention_mask_shift\n            )\n\n            if attention_mask is not None:\n                position_bias = position_bias + attention_mask\n\n        # create dropout rng\n        dropout_rng = None\n        if not deterministic and self.dropout &gt; 0.0:\n            dropout_rng = self.make_rng(\"dropout\")\n\n        # Softmax(QK^T)\n        attn_weights = dot_product_attention_weights(\n            query_states,\n            key_states,\n            bias=position_bias,\n            dropout_rng=dropout_rng,\n            dropout_rate=self.dropout,\n            broadcast_dropout=True,\n            deterministic=deterministic,\n            dtype=self.dtype,\n        )\n\n        attn_weights = with_sharding_constraint(attn_weights, PartitionSpec(\n            (\"dp\", \"fsdp\"), \"sp\" if query_states.shape[1] != 1 else None, None, None\n        ))\n\n        # multiply with value states\n        attn_output = jnp.einsum(\"...hqk,...khd-&gt;...qhd\", attn_weights, value_states)\n\n        # bring back to (batch_size, seq_length, d_model)\n        attn_output = self._merge_heads(attn_output)\n        if self.config.shard_attention_computation:\n            attn_output = with_sharding_constraint(\n                attn_output, PartitionSpec(\n                    (\"dp\", \"fsdp\"),\n                    \"sp\" if attn_output.shape[1] != 1 else None,\n                    \"tp\"\n                )\n            )\n        # apply output matrix\n        attn_output = self.o(attn_output)\n\n        outputs = (attn_output, position_bias)\n\n        if output_attentions:\n            outputs = outputs + (attn_weights,)\n\n        return outputs\n</code></pre>"},{"location":"generated-modules-t5-modelling_t5_flax/#src.python.easydel.modules.t5.modelling_t5_flax.FlaxT5Attention.compute_bias","title":"<code>compute_bias(query_length, key_length)</code>","text":"<p>Compute binned relative position bias</p> Source code in <code>src/python/easydel/modules/t5/modelling_t5_flax.py</code> <pre><code>def compute_bias(self, query_length, key_length):\n    \"\"\"Compute binned relative position bias\"\"\"\n    context_position = jnp.arange(query_length, dtype=\"i4\")[:, None]\n    memory_position = jnp.arange(key_length, dtype=\"i4\")[None, :]\n\n    relative_position = memory_position - context_position\n    relative_position_bucket = self._relative_position_bucket(\n        relative_position,\n        bidirectional=(not self.causal),\n        num_buckets=self.relative_attention_num_buckets,\n        max_distance=self.relative_attention_max_distance,\n    )\n\n    values = self.relative_attention_bias(relative_position_bucket)\n    values = values.transpose((2, 0, 1))[None, :, :, :]\n    return values\n</code></pre>"},{"location":"generated-modules-t5-modelling_t5_flax/#src.python.easydel.modules.t5.modelling_t5_flax.shift_tokens_right","title":"<code>shift_tokens_right(input_ids, pad_token_id, decoder_start_token_id)</code>","text":"<p>Shift input ids one token to the right.</p> Source code in <code>src/python/easydel/modules/t5/modelling_t5_flax.py</code> <pre><code>def shift_tokens_right(input_ids: np.array, pad_token_id: int, decoder_start_token_id: int) -&gt; chex.Array:\n    \"\"\"\n    Shift input ids one token to the right.\n    \"\"\"\n    shifted_input_ids = jnp.zeros_like(input_ids)\n    shifted_input_ids = shifted_input_ids.at[:, 1:].set(input_ids[:, :-1])\n    shifted_input_ids = shifted_input_ids.at[:, 0].set(decoder_start_token_id)\n\n    shifted_input_ids = jnp.where(shifted_input_ids == -100, pad_token_id, shifted_input_ids)\n    return shifted_input_ids\n</code></pre>"},{"location":"generated-modules-t5-t5_configuration/","title":"modules.t5.t5_configuration","text":""},{"location":"generated-modules-whisper-modelling_whisper_flax/","title":"modules.whisper.modelling_whisper_flax","text":""},{"location":"generated-modules-whisper-whisper_configuration/","title":"modules.whisper.whisper_configuration","text":""},{"location":"generated-partitioning-partitioner/","title":"partitioning.partitioner","text":""},{"location":"generated-partitioning-partitioner/#src.python.easydel.partitioning.partitioner.get_partitions","title":"<code>get_partitions(jax_attn_format=True, fsdp_on_batch=True)</code>","text":"<p>The get_partitions function is a helper function that returns an EasyDeLPartitions object. The EasyDeLPartitions object contains the PartitionSpec objects for each of the five tensors in the attention computation: query, key, value, bias and attention. The PartitionSpec objects are used to specify how each tensor should be partitioned across devices (i.e., which dimensions of each tensor should be split across devices). For example, if we want to split the batch dimension of all five tensors across two devices then we would set ``query_partition_spec=key_partition_spec=value_partition_spec=</p> <p>Parameters:</p> Name Type Description Default <code>jax_attn_format</code> <code>bool</code> <p>bool: Specify whether the attention</p> <code>True</code> <code>fsdp_on_batch</code> <code>bool</code> <p>bool: Determine whether the batch dimension is partitioned</p> <code>True</code> <p>Returns:</p> Type Description <code>EasyDeLPartitions</code> <p>A easydelpartitions object</p> Source code in <code>src/python/easydel/partitioning/partitioner.py</code> <pre><code>def get_partitions(\n        jax_attn_format: bool = True,\n        fsdp_on_batch: bool = True\n) -&gt; EasyDeLPartitions:\n    \"\"\"The get_partitions function is a helper function that returns an EasyDeLPartitions object.\n    The EasyDeLPartitions object contains the PartitionSpec objects for each of the five tensors in\n    the attention computation: query, key, value, bias and attention. The PartitionSpec objects are\n    used to specify how each tensor should be partitioned across devices (i.e., which dimensions of\n    each tensor should be split across devices). For example, if we want to split the batch dimension\n    of all five tensors across two devices then we would set ``query_partition_spec=key_partition_spec=value_partition_spec=\n\n    Args:\n        jax_attn_format: bool: Specify whether the attention\n        fsdp_on_batch: bool: Determine whether the batch dimension is\n            partitioned\n\n    Returns:\n        A easydelpartitions object\n    \"\"\"\n    if jax_attn_format:\n        if fsdp_on_batch:\n            query_partition_spec = PartitionSpec(\"fsdp\", None, \"sp\", None)\n            generation_query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"tp\", None, None)\n            key_partition_spec = PartitionSpec(\"fsdp\", None, \"sp\", None)\n            value_partition_spec = PartitionSpec(\"fsdp\", None, \"sp\", None)\n            bias_partition_spec = PartitionSpec(\"fsdp\", None, \"sp\", None)\n            attention_partition_spec = PartitionSpec(\"fsdp\", None, \"sp\", None)\n            generation_bias_partition_spec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n        else:\n            query_partition_spec = PartitionSpec(\"dp\", \"fsdp\", \"tp\", \"sp\", None)\n            generation_query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"tp\", None, None)\n            key_partition_spec = PartitionSpec(\"dp\", \"fsdp\", \"tp\", \"sp\", None)\n            value_partition_spec = PartitionSpec(\"dp\", \"fsdp\", \"tp\", \"sp\", None)\n            bias_partition_spec = PartitionSpec(\"dp\", None, \"fsdp\", None)\n            attention_partition_spec = PartitionSpec(\"dp\", \"fsdp\", \"tp\", \"sp\", None)\n\n            generation_bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None)\n    else:\n        if fsdp_on_batch:\n            query_partition_spec = PartitionSpec(\"fsdp\", \"sp\", None, None)\n            generation_query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"tp\", None, None)\n            key_partition_spec = PartitionSpec(\"fsdp\", \"sp\", None, None)\n            value_partition_spec = PartitionSpec(\"fsdp\", \"sp\", None, None)\n            bias_partition_spec = PartitionSpec(\"fsdp\", \"sp\", None, None)\n            attention_partition_spec = PartitionSpec(\"fsdp\", \"sp\", None, None)\n\n            generation_bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None)\n        else:\n            query_partition_spec = PartitionSpec(\"dp\", \"sp\", \"fsdp\", None)\n            generation_query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"tp\", None, None)\n            key_partition_spec = PartitionSpec(\"dp\", \"sp\", \"fsdp\", None)\n            value_partition_spec = PartitionSpec(\"dp\", \"sp\", \"fsdp\", None)\n            bias_partition_spec = PartitionSpec(\"dp\", \"fsdp\", None, None)\n            attention_partition_spec = PartitionSpec(\"dp\", \"sp\", \"fsdp\", None)\n            generation_bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None)\n    return EasyDeLPartitions(\n        query_partition_spec=query_partition_spec,\n        key_partition_spec=key_partition_spec,\n        value_partition_spec=value_partition_spec,\n        bias_partition_spec=bias_partition_spec,\n        attention_partition_spec=attention_partition_spec,\n        generation_query_partition_spec=generation_query_partition_spec,\n        generation_bias_partition_spec=generation_bias_partition_spec\n    )\n</code></pre>"},{"location":"generated-reinforcement_learning-core/","title":"reinforcement_learning.core","text":""},{"location":"generated-reinforcement_learning-core/#src.python.easydel.reinforcement_learning.core.add_suffix","title":"<code>add_suffix(input_dict, suffix)</code>","text":"<p>Add suffix to dict keys.</p> Source code in <code>src/python/easydel/reinforcement_learning/core.py</code> <pre><code>def add_suffix(input_dict, suffix):\n    \"\"\"Add suffix to dict keys.\"\"\"\n    return dict((k + suffix, v) for k, v in input_dict.items())\n</code></pre>"},{"location":"generated-reinforcement_learning-core/#src.python.easydel.reinforcement_learning.core.multinomial","title":"<code>multinomial(logits, num_samples, replacement=False)</code>","text":"<p>Implements the <code>torch.multinomial</code> function in JAX.</p> <p>Parameters:</p> Name Type Description Default <code>logits</code> <code>array</code> <p>The unnormalized log probabilities of the events.</p> required <code>num_samples</code> <code>int</code> <p>The number of samples to draw.</p> required <code>replacement</code> <code>bool</code> <p>Don't use this ;</p> <code>False</code> <p>Returns:     jnp.array: A matrix of shape (num_samples, batch_size) containing the         sampled indices.</p> Source code in <code>src/python/easydel/reinforcement_learning/core.py</code> <pre><code>def multinomial(logits, num_samples: int, replacement: bool = False):\n    \"\"\"Implements the `torch.multinomial` function in JAX.\n\n    Args:\n        logits (jnp.array): The unnormalized log probabilities of the events.\n        num_samples (int): The number of samples to draw.\n        replacement (bool): Don't use this ;\\\n\n    Returns:\n        jnp.array: A matrix of shape (num_samples, batch_size) containing the\n            sampled indices.\n    \"\"\"\n    logits = jax.nn.log_softmax(logits, axis=-1)\n    if replacement:\n        return jax.random.categorical(logits, num_samples)\n    else:\n        samples = []\n        for _ in range(num_samples):\n            sample = jax.random.categorical(logits, 1)\n            samples.append(sample[0])\n            logits = logits.at[sample[0]].set(-jnp.inf)\n        return jnp.array(samples)\n</code></pre>"},{"location":"generated-reinforcement_learning-models-modelling_casual_language_rl/","title":"reinforcement_learning.models.modelling_casual_language_rl","text":""},{"location":"generated-reinforcement_learning-models-modelling_casual_language_rl/#src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl.ValueHead","title":"<code>ValueHead</code>","text":"<p>               Bases: <code>Module</code></p> Source code in <code>src/python/easydel/reinforcement_learning/models/modelling_casual_language_rl.py</code> <pre><code>class ValueHead(nn.Module):\n    summary_dropout_prob: float = 0.0\n    dtype: jnp.dtype = jnp.float32\n    param_dtype: jnp.dtype = jnp.float32\n    precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\")\n    kernel_init: Callable = nn.initializers.orthogonal()\n\n    def setup(self):\n        \"\"\"The setup function is called by the model's constructor.\n        It initializes all the layers in your model, and assigns them to member variables.\n        The setup function should be used for any initialization that needs to happen before running forward().\n        This includes things like loading weights from a file, or setting up an optimizer.\n\n        Args:\n            self: Represent the instance of the class\n        \"\"\"\n        self.dropout = flax.linen.Dropout(self.summary_dropout_prob)\n\n        self.summary = Linear(\n            1,\n            dtype=self.dtype,\n            param_dtype=self.param_dtype,\n            precision=self.precision,\n            kernel_init=self.kernel_init,\n            use_bias=False\n        )\n\n    def __call__(self, hidden_states: chex.Array, deterministic: bool = True):\n        \"\"\"The __call__ function is the main function of a class.\n        It is called when an instance of the class (an object) is invoked as a function, e.g., x(arg).\n        The __call__ method enables instances of a class to be called like standard Python functions.\n\n        Args:\n            self: Represent the instance of the class\n            hidden_states: chex.Array: Pass the hidden states of the\n                previous layer\n            deterministic: bool: Determine whether to use dropout\n\n        Returns:\n            A tensor of shape (batch_size, num_classes)\n        \"\"\"\n        return self.summary(self.dropout(hidden_states, deterministic=deterministic))\n</code></pre>"},{"location":"generated-reinforcement_learning-models-modelling_casual_language_rl/#src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl.ValueHead.__call__","title":"<code>__call__(hidden_states, deterministic=True)</code>","text":"<p>The call function is the main function of a class. It is called when an instance of the class (an object) is invoked as a function, e.g., x(arg). The call method enables instances of a class to be called like standard Python functions.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>hidden_states</code> <code>Array</code> <p>chex.Array: Pass the hidden states of the previous layer</p> required <code>deterministic</code> <code>bool</code> <p>bool: Determine whether to use dropout</p> <code>True</code> <p>Returns:</p> Type Description <p>A tensor of shape (batch_size, num_classes)</p> Source code in <code>src/python/easydel/reinforcement_learning/models/modelling_casual_language_rl.py</code> <pre><code>def __call__(self, hidden_states: chex.Array, deterministic: bool = True):\n    \"\"\"The __call__ function is the main function of a class.\n    It is called when an instance of the class (an object) is invoked as a function, e.g., x(arg).\n    The __call__ method enables instances of a class to be called like standard Python functions.\n\n    Args:\n        self: Represent the instance of the class\n        hidden_states: chex.Array: Pass the hidden states of the\n            previous layer\n        deterministic: bool: Determine whether to use dropout\n\n    Returns:\n        A tensor of shape (batch_size, num_classes)\n    \"\"\"\n    return self.summary(self.dropout(hidden_states, deterministic=deterministic))\n</code></pre>"},{"location":"generated-reinforcement_learning-models-modelling_casual_language_rl/#src.python.easydel.reinforcement_learning.models.modelling_casual_language_rl.ValueHead.setup","title":"<code>setup()</code>","text":"<p>The setup function is called by the model's constructor. It initializes all the layers in your model, and assigns them to member variables. The setup function should be used for any initialization that needs to happen before running forward(). This includes things like loading weights from a file, or setting up an optimizer.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required Source code in <code>src/python/easydel/reinforcement_learning/models/modelling_casual_language_rl.py</code> <pre><code>def setup(self):\n    \"\"\"The setup function is called by the model's constructor.\n    It initializes all the layers in your model, and assigns them to member variables.\n    The setup function should be used for any initialization that needs to happen before running forward().\n    This includes things like loading weights from a file, or setting up an optimizer.\n\n    Args:\n        self: Represent the instance of the class\n    \"\"\"\n    self.dropout = flax.linen.Dropout(self.summary_dropout_prob)\n\n    self.summary = Linear(\n        1,\n        dtype=self.dtype,\n        param_dtype=self.param_dtype,\n        precision=self.precision,\n        kernel_init=self.kernel_init,\n        use_bias=False\n    )\n</code></pre>"},{"location":"generated-reinforcement_learning-trainer-partitioner_config/","title":"reinforcement_learning.trainer.partitioner_config","text":""},{"location":"generated-reinforcement_learning-trainer-ppo_config/","title":"reinforcement_learning.trainer.ppo_config","text":""},{"location":"generated-reinforcement_learning-trainer-ppo_config/#src.python.easydel.reinforcement_learning.trainer.ppo_config.PPOConfig","title":"<code>PPOConfig</code>","text":"Source code in <code>src/python/easydel/reinforcement_learning/trainer/ppo_config.py</code> <pre><code>class PPOConfig:\n    def __init__(\n            self,\n            exp_name: str = os.path.basename(sys.argv[0])[: -len(\".py\")],\n            seed: int = 0,\n            task_name: Optional[str] = None,\n            model_name: Optional[str] = None,\n            query_dataset: Optional[str] = None,\n            reward_model: Optional[str] = None,\n            remove_unused_columns: bool = True,\n            tracker_kwargs: Optional[dict] = None,\n            accelerator_kwargs: Optional[dict] = None,\n            project_kwargs: Optional[dict] = None,\n            tracker_project_name: str = \"trl\",\n            push_to_hub_if_best_kwargs: Optional[dict] = None,\n            steps: int = 20000,\n            learning_rate: float = 1e-5,\n            adap_kl_ctrl: bool = True,\n            init_kl_coef: Optional[float] = 0.2,\n            kl_penalty: Literal[\"kl\", \"abs\", \"mse\", \"full\"] = \"kl\",\n            target: Optional[float] = 6,\n            horizon: Optional[float] = 10000,\n            gamma: float = 1,\n            lam: float = 0.95,\n            cliprange: float = 0.2,\n            cliprange_value: float = 0.2,\n            vf_coef: float = 0.1,\n            batch_size: int = 256,\n            gradient_accumulation_steps: int = 1,\n            ppo_epochs: int = 4,\n            max_grad_norm: Optional[float] = None,\n            target_kl: float = 1,\n            compare_steps: int = 1,\n            ratio_threshold: float = 10.0,\n            use_score_scaling: bool = False,\n            use_score_norm: bool = False,\n            score_clip: Optional[float] = None,\n            whiten_rewards: bool = False,\n            is_encoder_decoder: Optional[bool] = None,\n            warmup_steps: Optional[int] = 0,\n            learning_rate_end: float = 1e-5,\n            extra_optimizer_kwargs: dict | None = None,\n            weight_decay: Optional[float] = 0.01,\n    ):\n        \"\"\"Configuration class for PPOTrainer\n\n        Args:\n            exp_name: str : the name of this experiment (by default is\n                the file name without the extension name)\n            seed: int :Seed value for random generations\n            task_name: Optional[str] : Name of task to use - used only\n                for tracking purposes\n            model_name: Optional[str] :Name of model to use - used only\n                for tracking purposes\n            query_dataset: Optional[str] :Name of dataset to query -\n                used only for tracking purposes\n            reward_model: Optional[str] :The reward model to use - used\n                only for tracking purposes\n            remove_unused_columns: bool : Remove unused columns from the\n                dataset if `datasets.Dataset` is used\n            tracker_kwargs: Optional[dict] : Keyword arguments for the\n                tracker\n            accelerator_kwargs: Optional[dict] :Keyword arguments for\n                the accelerator\n            project_kwargs: Optional[dict] : Keyword arguments for the\n                accelerator project config (e.g. `logging_dir`)\n            tracker_project_name: str :Name of project to use for\n                tracking\n            push_to_hub_if_best_kwargs: Optional[dict] :Keyword\n                arguments for pushing model to the hub during training\n            steps: int : Number of training steps\n            learning_rate: float :Adam learning rate\n            adap_kl_ctrl: bool :Use adaptive KL control, otherwise\n                linear\n            init_kl_coef: Optional[float] : Initial KL penalty\n                coefficient (used for adaptive and linear control)\n            kl_penalty: Literal[\"kl\", \"abs\", \"mse\", \"full\"] : kl penalty\n                options: 'kl': model_logp - ref_logp,\n            target: Optional[float] :Target KL value for adaptive KL\n                control\n            horizon: Optional[float] :Horizon for adaptive KL control\n            gamma: float :Gamma parameter for advantage calculation\n            lam: float : Lambda parameter for advantage calculation\n            cliprange: float : Range for clipping in PPO policy gradient\n                loss\n            cliprange_value: float : Range for clipping values in loss\n                calculation\n            vf_coef: float : Scaling factor for value loss\n            batch_size: int :Number of samples per optimisation step\n            gradient_accumulation_steps: int :The number of gradient\n                accumulation steps\n            ppo_epochs: int : Number of optimisation epochs per batch of\n                samples\n            max_grad_norm: Optional[float] :Maximum gradient norm for\n                gradient clipping\n            target_kl: float :Stop early if we exceed this value by over\n                50%\n            compare_steps: int : Number of steps between comparison of\n                the current reward with the best seen so far\n            ratio_threshold: float :Skip mini-batches with high PPO\n                ratios that can cause loss spikes\n            use_score_scaling: bool : Use score scaling\n            use_score_norm: bool : Use score normalization. Only\n                applicable if use_score_scaling is True\n            score_clip: Optional[float] :Score clipping\n            whiten_rewards: bool :Whiten the rewards before compute\n                advantages\n            is_encoder_decoder: Optional[bool] :TO BE FILLED In RUNTIME:\n                Whether the model is an encoder-decoder model\n            warmup_steps: Optional[int]:\n            learning_rate_end: float :\n            extra_optimizer_kwargs: dict | None :\n            weight_decay: Optional[float] : Weight decay is Optimizer\n                Weight decay :\\\n        (e.g. pretrained_model_name_or_path).\n        'abs': abs(kl),  'mse': mean squared error mse(kl) and 'full': the actual kl for all tokens in the distribution\n        \"\"\"\n\n        tracker_kwargs = tracker_kwargs if tracker_kwargs is not None else {}\n        accelerator_kwargs = accelerator_kwargs if accelerator_kwargs is not None else {}\n        project_kwargs = project_kwargs if project_kwargs is not None else {}\n        push_to_hub_if_best_kwargs = push_to_hub_if_best_kwargs if push_to_hub_if_best_kwargs is not None else {}\n        self.exp_name = exp_name\n        self.seed = seed\n        self.task_name = task_name\n        self.model_name = model_name\n        self.query_dataset = query_dataset\n        self.reward_model = reward_model\n        self.remove_unused_columns = remove_unused_columns\n        self.tracker_kwargs = tracker_kwargs\n        self.accelerator_kwargs = accelerator_kwargs\n        self.project_kwargs = project_kwargs\n        self.tracker_project_name = tracker_project_name\n        self.push_to_hub_if_best_kwargs = push_to_hub_if_best_kwargs\n        self.steps = steps\n        self.learning_rate = learning_rate\n        self.adap_kl_ctrl = adap_kl_ctrl\n        self.init_kl_coef = init_kl_coef\n        self.kl_penalty = kl_penalty\n        self.target = target\n        self.horizon = horizon\n        self.gamma = gamma\n        self.lam = lam\n        self.cliprange = cliprange\n        self.cliprange_value = cliprange_value\n        self.vf_coef = vf_coef\n        self.batch_size = batch_size\n        self.gradient_accumulation_steps = gradient_accumulation_steps\n        self.ppo_epochs = ppo_epochs\n        self.max_grad_norm = max_grad_norm\n        self.target_kl = target_kl\n        self.compare_steps = compare_steps\n        self.ratio_threshold = ratio_threshold\n        self.use_score_scaling = use_score_scaling\n        self.use_score_norm = use_score_norm\n        self.score_clip = score_clip\n        self.whiten_rewards = whiten_rewards\n        self.is_encoder_decoder = is_encoder_decoder\n        self.warmup_steps = warmup_steps\n        self.learning_rate_end = learning_rate_end\n        self.extra_optimizer_kwargs = extra_optimizer_kwargs\n        self.weight_decay = weight_decay\n        self.total_ppo_epochs = int(np.ceil(self.steps / (self.batch_size * self.gradient_accumulation_steps)))\n        assert self.kl_penalty in [\"kl\", \"abs\", \"mse\", \"full\"]\n\n    def to_dict(self):\n        output_dict = {}\n        for key, value in self.__dict__.items():\n            output_dict[key] = value\n        return flatten_dict(output_dict)\n</code></pre>"},{"location":"generated-reinforcement_learning-trainer-ppo_config/#src.python.easydel.reinforcement_learning.trainer.ppo_config.PPOConfig.__init__","title":"<code>__init__(exp_name=os.path.basename(sys.argv[0])[:-len('.py')], seed=0, task_name=None, model_name=None, query_dataset=None, reward_model=None, remove_unused_columns=True, tracker_kwargs=None, accelerator_kwargs=None, project_kwargs=None, tracker_project_name='trl', push_to_hub_if_best_kwargs=None, steps=20000, learning_rate=1e-05, adap_kl_ctrl=True, init_kl_coef=0.2, kl_penalty='kl', target=6, horizon=10000, gamma=1, lam=0.95, cliprange=0.2, cliprange_value=0.2, vf_coef=0.1, batch_size=256, gradient_accumulation_steps=1, ppo_epochs=4, max_grad_norm=None, target_kl=1, compare_steps=1, ratio_threshold=10.0, use_score_scaling=False, use_score_norm=False, score_clip=None, whiten_rewards=False, is_encoder_decoder=None, warmup_steps=0, learning_rate_end=1e-05, extra_optimizer_kwargs=None, weight_decay=0.01)</code>","text":"<p>Configuration class for PPOTrainer</p> <p>Parameters:</p> Name Type Description Default <code>exp_name</code> <code>str</code> <p>str : the name of this experiment (by default is the file name without the extension name)</p> <code>basename(argv[0])[:-len('.py')]</code> <code>seed</code> <code>int</code> <p>int :Seed value for random generations</p> <code>0</code> <code>task_name</code> <code>Optional[str]</code> <p>Optional[str] : Name of task to use - used only for tracking purposes</p> <code>None</code> <code>model_name</code> <code>Optional[str]</code> <p>Optional[str] :Name of model to use - used only for tracking purposes</p> <code>None</code> <code>query_dataset</code> <code>Optional[str]</code> <p>Optional[str] :Name of dataset to query - used only for tracking purposes</p> <code>None</code> <code>reward_model</code> <code>Optional[str]</code> <p>Optional[str] :The reward model to use - used only for tracking purposes</p> <code>None</code> <code>remove_unused_columns</code> <code>bool</code> <p>bool : Remove unused columns from the dataset if <code>datasets.Dataset</code> is used</p> <code>True</code> <code>tracker_kwargs</code> <code>Optional[dict]</code> <p>Optional[dict] : Keyword arguments for the tracker</p> <code>None</code> <code>accelerator_kwargs</code> <code>Optional[dict]</code> <p>Optional[dict] :Keyword arguments for the accelerator</p> <code>None</code> <code>project_kwargs</code> <code>Optional[dict]</code> <p>Optional[dict] : Keyword arguments for the accelerator project config (e.g. <code>logging_dir</code>)</p> <code>None</code> <code>tracker_project_name</code> <code>str</code> <p>str :Name of project to use for tracking</p> <code>'trl'</code> <code>push_to_hub_if_best_kwargs</code> <code>Optional[dict]</code> <p>Optional[dict] :Keyword arguments for pushing model to the hub during training</p> <code>None</code> <code>steps</code> <code>int</code> <p>int : Number of training steps</p> <code>20000</code> <code>learning_rate</code> <code>float</code> <p>float :Adam learning rate</p> <code>1e-05</code> <code>adap_kl_ctrl</code> <code>bool</code> <p>bool :Use adaptive KL control, otherwise linear</p> <code>True</code> <code>init_kl_coef</code> <code>Optional[float]</code> <p>Optional[float] : Initial KL penalty coefficient (used for adaptive and linear control)</p> <code>0.2</code> <code>kl_penalty</code> <code>Literal['kl', 'abs', 'mse', 'full']</code> <p>Literal[\"kl\", \"abs\", \"mse\", \"full\"] : kl penalty options: 'kl': model_logp - ref_logp,</p> <code>'kl'</code> <code>target</code> <code>Optional[float]</code> <p>Optional[float] :Target KL value for adaptive KL control</p> <code>6</code> <code>horizon</code> <code>Optional[float]</code> <p>Optional[float] :Horizon for adaptive KL control</p> <code>10000</code> <code>gamma</code> <code>float</code> <p>float :Gamma parameter for advantage calculation</p> <code>1</code> <code>lam</code> <code>float</code> <p>float : Lambda parameter for advantage calculation</p> <code>0.95</code> <code>cliprange</code> <code>float</code> <p>float : Range for clipping in PPO policy gradient loss</p> <code>0.2</code> <code>cliprange_value</code> <code>float</code> <p>float : Range for clipping values in loss calculation</p> <code>0.2</code> <code>vf_coef</code> <code>float</code> <p>float : Scaling factor for value loss</p> <code>0.1</code> <code>batch_size</code> <code>int</code> <p>int :Number of samples per optimisation step</p> <code>256</code> <code>gradient_accumulation_steps</code> <code>int</code> <p>int :The number of gradient accumulation steps</p> <code>1</code> <code>ppo_epochs</code> <code>int</code> <p>int : Number of optimisation epochs per batch of samples</p> <code>4</code> <code>max_grad_norm</code> <code>Optional[float]</code> <p>Optional[float] :Maximum gradient norm for gradient clipping</p> <code>None</code> <code>target_kl</code> <code>float</code> <p>float :Stop early if we exceed this value by over 50%</p> <code>1</code> <code>compare_steps</code> <code>int</code> <p>int : Number of steps between comparison of the current reward with the best seen so far</p> <code>1</code> <code>ratio_threshold</code> <code>float</code> <p>float :Skip mini-batches with high PPO ratios that can cause loss spikes</p> <code>10.0</code> <code>use_score_scaling</code> <code>bool</code> <p>bool : Use score scaling</p> <code>False</code> <code>use_score_norm</code> <code>bool</code> <p>bool : Use score normalization. Only applicable if use_score_scaling is True</p> <code>False</code> <code>score_clip</code> <code>Optional[float]</code> <p>Optional[float] :Score clipping</p> <code>None</code> <code>whiten_rewards</code> <code>bool</code> <p>bool :Whiten the rewards before compute advantages</p> <code>False</code> <code>is_encoder_decoder</code> <code>Optional[bool]</code> <p>Optional[bool] :TO BE FILLED In RUNTIME: Whether the model is an encoder-decoder model</p> <code>None</code> <code>warmup_steps</code> <code>Optional[int]</code> <p>Optional[int]:</p> <code>0</code> <code>learning_rate_end</code> <code>float</code> <p>float :</p> <code>1e-05</code> <code>extra_optimizer_kwargs</code> <code>dict | None</code> <p>dict | None :</p> <code>None</code> <code>weight_decay</code> <code>Optional[float]</code> <p>Optional[float] : Weight decay is Optimizer Weight decay :        (e.g. pretrained_model_name_or_path).</p> <code>0.01</code> <p>'abs': abs(kl),  'mse': mean squared error mse(kl) and 'full': the actual kl for all tokens in the distribution</p> Source code in <code>src/python/easydel/reinforcement_learning/trainer/ppo_config.py</code> <pre><code>def __init__(\n        self,\n        exp_name: str = os.path.basename(sys.argv[0])[: -len(\".py\")],\n        seed: int = 0,\n        task_name: Optional[str] = None,\n        model_name: Optional[str] = None,\n        query_dataset: Optional[str] = None,\n        reward_model: Optional[str] = None,\n        remove_unused_columns: bool = True,\n        tracker_kwargs: Optional[dict] = None,\n        accelerator_kwargs: Optional[dict] = None,\n        project_kwargs: Optional[dict] = None,\n        tracker_project_name: str = \"trl\",\n        push_to_hub_if_best_kwargs: Optional[dict] = None,\n        steps: int = 20000,\n        learning_rate: float = 1e-5,\n        adap_kl_ctrl: bool = True,\n        init_kl_coef: Optional[float] = 0.2,\n        kl_penalty: Literal[\"kl\", \"abs\", \"mse\", \"full\"] = \"kl\",\n        target: Optional[float] = 6,\n        horizon: Optional[float] = 10000,\n        gamma: float = 1,\n        lam: float = 0.95,\n        cliprange: float = 0.2,\n        cliprange_value: float = 0.2,\n        vf_coef: float = 0.1,\n        batch_size: int = 256,\n        gradient_accumulation_steps: int = 1,\n        ppo_epochs: int = 4,\n        max_grad_norm: Optional[float] = None,\n        target_kl: float = 1,\n        compare_steps: int = 1,\n        ratio_threshold: float = 10.0,\n        use_score_scaling: bool = False,\n        use_score_norm: bool = False,\n        score_clip: Optional[float] = None,\n        whiten_rewards: bool = False,\n        is_encoder_decoder: Optional[bool] = None,\n        warmup_steps: Optional[int] = 0,\n        learning_rate_end: float = 1e-5,\n        extra_optimizer_kwargs: dict | None = None,\n        weight_decay: Optional[float] = 0.01,\n):\n    \"\"\"Configuration class for PPOTrainer\n\n    Args:\n        exp_name: str : the name of this experiment (by default is\n            the file name without the extension name)\n        seed: int :Seed value for random generations\n        task_name: Optional[str] : Name of task to use - used only\n            for tracking purposes\n        model_name: Optional[str] :Name of model to use - used only\n            for tracking purposes\n        query_dataset: Optional[str] :Name of dataset to query -\n            used only for tracking purposes\n        reward_model: Optional[str] :The reward model to use - used\n            only for tracking purposes\n        remove_unused_columns: bool : Remove unused columns from the\n            dataset if `datasets.Dataset` is used\n        tracker_kwargs: Optional[dict] : Keyword arguments for the\n            tracker\n        accelerator_kwargs: Optional[dict] :Keyword arguments for\n            the accelerator\n        project_kwargs: Optional[dict] : Keyword arguments for the\n            accelerator project config (e.g. `logging_dir`)\n        tracker_project_name: str :Name of project to use for\n            tracking\n        push_to_hub_if_best_kwargs: Optional[dict] :Keyword\n            arguments for pushing model to the hub during training\n        steps: int : Number of training steps\n        learning_rate: float :Adam learning rate\n        adap_kl_ctrl: bool :Use adaptive KL control, otherwise\n            linear\n        init_kl_coef: Optional[float] : Initial KL penalty\n            coefficient (used for adaptive and linear control)\n        kl_penalty: Literal[\"kl\", \"abs\", \"mse\", \"full\"] : kl penalty\n            options: 'kl': model_logp - ref_logp,\n        target: Optional[float] :Target KL value for adaptive KL\n            control\n        horizon: Optional[float] :Horizon for adaptive KL control\n        gamma: float :Gamma parameter for advantage calculation\n        lam: float : Lambda parameter for advantage calculation\n        cliprange: float : Range for clipping in PPO policy gradient\n            loss\n        cliprange_value: float : Range for clipping values in loss\n            calculation\n        vf_coef: float : Scaling factor for value loss\n        batch_size: int :Number of samples per optimisation step\n        gradient_accumulation_steps: int :The number of gradient\n            accumulation steps\n        ppo_epochs: int : Number of optimisation epochs per batch of\n            samples\n        max_grad_norm: Optional[float] :Maximum gradient norm for\n            gradient clipping\n        target_kl: float :Stop early if we exceed this value by over\n            50%\n        compare_steps: int : Number of steps between comparison of\n            the current reward with the best seen so far\n        ratio_threshold: float :Skip mini-batches with high PPO\n            ratios that can cause loss spikes\n        use_score_scaling: bool : Use score scaling\n        use_score_norm: bool : Use score normalization. Only\n            applicable if use_score_scaling is True\n        score_clip: Optional[float] :Score clipping\n        whiten_rewards: bool :Whiten the rewards before compute\n            advantages\n        is_encoder_decoder: Optional[bool] :TO BE FILLED In RUNTIME:\n            Whether the model is an encoder-decoder model\n        warmup_steps: Optional[int]:\n        learning_rate_end: float :\n        extra_optimizer_kwargs: dict | None :\n        weight_decay: Optional[float] : Weight decay is Optimizer\n            Weight decay :\\\n    (e.g. pretrained_model_name_or_path).\n    'abs': abs(kl),  'mse': mean squared error mse(kl) and 'full': the actual kl for all tokens in the distribution\n    \"\"\"\n\n    tracker_kwargs = tracker_kwargs if tracker_kwargs is not None else {}\n    accelerator_kwargs = accelerator_kwargs if accelerator_kwargs is not None else {}\n    project_kwargs = project_kwargs if project_kwargs is not None else {}\n    push_to_hub_if_best_kwargs = push_to_hub_if_best_kwargs if push_to_hub_if_best_kwargs is not None else {}\n    self.exp_name = exp_name\n    self.seed = seed\n    self.task_name = task_name\n    self.model_name = model_name\n    self.query_dataset = query_dataset\n    self.reward_model = reward_model\n    self.remove_unused_columns = remove_unused_columns\n    self.tracker_kwargs = tracker_kwargs\n    self.accelerator_kwargs = accelerator_kwargs\n    self.project_kwargs = project_kwargs\n    self.tracker_project_name = tracker_project_name\n    self.push_to_hub_if_best_kwargs = push_to_hub_if_best_kwargs\n    self.steps = steps\n    self.learning_rate = learning_rate\n    self.adap_kl_ctrl = adap_kl_ctrl\n    self.init_kl_coef = init_kl_coef\n    self.kl_penalty = kl_penalty\n    self.target = target\n    self.horizon = horizon\n    self.gamma = gamma\n    self.lam = lam\n    self.cliprange = cliprange\n    self.cliprange_value = cliprange_value\n    self.vf_coef = vf_coef\n    self.batch_size = batch_size\n    self.gradient_accumulation_steps = gradient_accumulation_steps\n    self.ppo_epochs = ppo_epochs\n    self.max_grad_norm = max_grad_norm\n    self.target_kl = target_kl\n    self.compare_steps = compare_steps\n    self.ratio_threshold = ratio_threshold\n    self.use_score_scaling = use_score_scaling\n    self.use_score_norm = use_score_norm\n    self.score_clip = score_clip\n    self.whiten_rewards = whiten_rewards\n    self.is_encoder_decoder = is_encoder_decoder\n    self.warmup_steps = warmup_steps\n    self.learning_rate_end = learning_rate_end\n    self.extra_optimizer_kwargs = extra_optimizer_kwargs\n    self.weight_decay = weight_decay\n    self.total_ppo_epochs = int(np.ceil(self.steps / (self.batch_size * self.gradient_accumulation_steps)))\n    assert self.kl_penalty in [\"kl\", \"abs\", \"mse\", \"full\"]\n</code></pre>"},{"location":"generated-reinforcement_learning-trainer-ppo_trainer/","title":"reinforcement_learning.trainer.ppo_trainer","text":""},{"location":"generated-reinforcement_learning-trainer-training_configs/","title":"reinforcement_learning.trainer.training_configs","text":""},{"location":"generated-reinforcement_learning-trainer-training_configs/#src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig","title":"<code>RewardConfig</code>  <code>dataclass</code>","text":"Source code in <code>src/python/easydel/reinforcement_learning/trainer/training_configs.py</code> <pre><code>@dataclass\nclass RewardConfig:\n    max_length: Optional[int] = None\n    \"\"\"\n    The maximum length of the sequences in the batch. This argument is \n    required if you want to use the default data collator.\n    \"\"\"\n    gradient_checkpointing: Optional[bool] = True\n    \"\"\"If True, use gradient checkpointing to save memory at the expense of slower backward pass.\"\"\"\n    gradient_checkpointing_kwargs: Optional[dict] = None\n    \"\"\"Keyword arguments to pass to the gradient checkpointing function.\"\"\"\n</code></pre>"},{"location":"generated-reinforcement_learning-trainer-training_configs/#src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig.gradient_checkpointing","title":"<code>gradient_checkpointing: Optional[bool] = True</code>  <code>class-attribute</code> <code>instance-attribute</code>","text":"<p>If True, use gradient checkpointing to save memory at the expense of slower backward pass.</p>"},{"location":"generated-reinforcement_learning-trainer-training_configs/#src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig.gradient_checkpointing_kwargs","title":"<code>gradient_checkpointing_kwargs: Optional[dict] = None</code>  <code>class-attribute</code> <code>instance-attribute</code>","text":"<p>Keyword arguments to pass to the gradient checkpointing function.</p>"},{"location":"generated-reinforcement_learning-trainer-training_configs/#src.python.easydel.reinforcement_learning.trainer.training_configs.RewardConfig.max_length","title":"<code>max_length: Optional[int] = None</code>  <code>class-attribute</code> <code>instance-attribute</code>","text":"<p>The maximum length of the sequences in the batch. This argument is  required if you want to use the default data collator.</p>"},{"location":"generated-reinforcement_learning-trainer-utils/","title":"reinforcement_learning.trainer.utils","text":""},{"location":"generated-reinforcement_learning-utils-collectors/","title":"reinforcement_learning.utils.collectors","text":""},{"location":"generated-reinforcement_learning-utils-collectors/#src.python.easydel.reinforcement_learning.utils.collectors.DPODataCollatorWithPadding","title":"<code>DPODataCollatorWithPadding</code>  <code>dataclass</code>","text":"<p>DPO DataCollator class that pads the tokenized inputs to the maximum length of the batch.</p> <p>Parameters:</p> Name Type Description Default <code>pad_token_id</code> <code>int</code> <p>int: The tokenizers pad_token_id.</p> <code>0</code> <code>label_pad_token_id</code> <code>int</code> <p>int: The label used for masking.</p> <code>-100</code> <code>is_encoder_decoder</code> <code>Optional[bool]</code> <p>Optional[bool]: Whether you model has an encoder_decoder architecture</p> <code>False</code> Source code in <code>src/python/easydel/reinforcement_learning/utils/collectors.py</code> <pre><code>@dataclass\nclass DPODataCollatorWithPadding:\n    r\"\"\"DPO DataCollator class that pads the tokenized inputs to the maximum length of the batch.\n\n    Args:\n        pad_token_id: int: The tokenizers pad_token_id.\n        label_pad_token_id: int: The label used for masking.\n        is_encoder_decoder: Optional[bool]: Whether you model has an\n            encoder_decoder architecture\n    \"\"\"\n\n    pad_token_id: int = 0\n    label_pad_token_id: int = -100\n    is_encoder_decoder: Optional[bool] = False\n\n    def __call__(self, features: List[Dict[str, Any]]) -&gt; Dict[str, Any]:\n        padded_batch = {}\n        for k in features[0].keys():\n            if k.endswith(\"_input_ids\") or k.endswith(\"_attention_mask\") or k.endswith(\"_labels\"):\n                if self.is_encoder_decoder:\n                    to_pad = [jnp.array(ex[k], dtype=\"i4\") for ex in features]\n\n                    if (k.startswith(\"prompt\")) and (k.endswith(\"input_ids\")):\n                        padding_value = self.pad_token_id\n                    elif k.endswith(\"_attention_mask\"):\n                        padding_value = 0\n                    elif (k.startswith(\"chosen\")) or (k.startswith(\"rejected\")) or (\"decoder\" in k):\n                        padding_value = self.label_pad_token_id\n                    else:\n                        raise ValueError(f\"Unexpected key in batch '{k}'\")\n                    padded_batch[k] = pad_sequence(to_pad, batch_first=True, padding_value=padding_value).astype(\"i4\")\n                else:\n                    if \"prompt\" in k:\n                        to_pad = [jnp.array(ex[k][::-1], dtype=\"i4\") for ex in features]\n                    else:\n                        to_pad = [jnp.array(ex[k], dtype=\"i4\") for ex in features]\n                    if k.endswith(\"_input_ids\"):\n                        padding_value = self.pad_token_id\n                    elif k.endswith(\"_labels\"):\n                        padding_value = self.label_pad_token_id\n                    elif k.endswith(\"_attention_mask\"):\n                        padding_value = 0\n                    else:\n                        raise ValueError(f\"Unexpected key in batch '{k}'\")\n                    padded_batch[k] = pad_sequence(to_pad, batch_first=True, padding_value=padding_value).astype(\"i4\")\n                    if \"prompt\" in k:\n                        padded_batch[k] = jnp.flip(padded_batch[k], axis=[1])\n            elif k.endswith(\"_logps\"):\n                padded_batch[k] = jnp.array([ex[k] for ex in features])\n            else:\n                padded_batch[k] = [ex[k] for ex in features]\n        return padded_batch\n</code></pre>"},{"location":"generated-serve-gradio_user_interface_base/","title":"serve.gradio_user_interface_base","text":""},{"location":"generated-serve-gradio_user_interface_base/#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference","title":"<code>GradioUserInference</code>","text":"Source code in <code>src/python/easydel/serve/gradio_user_interface_base.py</code> <pre><code>class GradioUserInference:\n    @staticmethod\n    def chat_interface_components(\n            sample_func: typing.Callable,\n            max_sequence_length: int,\n            max_new_tokens: int,\n            max_compile_tokens: int\n    ):\n        \"\"\"The function `chat_interface_components` creates the components for a chat interface, including\n        a chat history, message box, buttons for submitting, stopping, and clearing the conversation,\n        and sliders for advanced options.\n        \"\"\"\n\n        _max_length = max_sequence_length\n        _max_new_tokens = max_new_tokens\n        _max_compile_tokens = max_compile_tokens\n\n        with gr.Column(\"100%\"):\n            gr.Markdown(\n                \"# &lt;h1&gt;&lt;center style='color:white;'&gt;Powered by \"\n                \"[EasyDeL](https://github.com/erfanzar/EasyDeL)&lt;/center&gt;&lt;/h1&gt;\",\n            )\n            history = gr.Chatbot(\n                elem_id=\"easydel\",\n                label=\"easydel\",\n                container=True,\n                height=\"65vh\",\n            )\n            prompt = gr.Textbox(\n                show_label=False, placeholder='Enter Your Prompt Here.', container=False\n            )\n            with gr.Row():\n                submit = gr.Button(\n                    value=\"Run\",\n                    variant=\"primary\"\n                )\n                stop = gr.Button(\n                    value='Stop'\n                )\n                clear = gr.Button(\n                    value='Clear Conversation'\n                )\n            with gr.Accordion(open=False, label=\"Advanced Options\"):\n                system_prompt = gr.Textbox(\n                    value=\"\",\n                    show_label=False,\n                    label=\"System Prompt\",\n                    placeholder='System Prompt',\n                    container=False\n                )\n\n                max_sequence_length = gr.Slider(\n                    value=_max_length,\n                    maximum=10000,\n                    minimum=1,\n                    label='Max Tokens',\n                    step=1\n                )\n\n                max_new_tokens = gr.Slider(\n                    value=_max_new_tokens,\n                    maximum=10000,\n                    minimum=_max_compile_tokens,\n                    label='Max New Tokens',\n                    step=_max_compile_tokens\n                )\n\n                max_compile_tokens = gr.Slider(\n                    value=_max_compile_tokens,\n                    maximum=_max_compile_tokens,\n                    minimum=_max_compile_tokens,\n                    label='Max Compile Tokens',\n                    step=_max_compile_tokens\n                )\n\n                temperature = gr.Slider(\n                    value=0.8,\n                    maximum=1,\n                    minimum=0.1,\n                    label='Temperature',\n                    step=0.01\n                )\n                top_p = gr.Slider(\n                    value=0.9,\n                    maximum=1,\n                    minimum=0.1,\n                    label='Top P',\n                    step=0.01\n                )\n                top_k = gr.Slider(\n                    value=50,\n                    maximum=100,\n                    minimum=1,\n                    label='Top K',\n                    step=1\n                )\n                repetition_penalty = gr.Slider(\n                    value=1.2,\n                    maximum=5,\n                    minimum=0.1,\n                    label='Repetition Penalty'\n                )\n                greedy = gr.Radio(\n                    value=True,\n                    label=\"Do Sample or Greedy Generation\"\n                )\n\n                mode = gr.Dropdown(\n                    choices=[\"Chat\", \"Instruct\"],\n                    value=\"Chat\",\n                    label=\"Mode\",\n                    multiselect=False\n                )\n\n        inputs = [\n            prompt,\n            history,\n            system_prompt,\n            mode,\n            max_sequence_length,\n            max_new_tokens,\n            max_compile_tokens,\n            greedy,\n            temperature,\n            top_p,\n            top_k,\n            repetition_penalty\n        ]\n\n        clear.click(fn=lambda: [], outputs=[history])\n        sub_event = submit.click(\n            fn=sample_func, inputs=inputs, outputs=[prompt, history]\n        )\n        txt_event = prompt.submit(\n            fn=sample_func, inputs=inputs, outputs=[prompt, history]\n        )\n        stop.click(\n            fn=None,\n            inputs=None,\n            outputs=None,\n            cancels=[txt_event, sub_event]\n        )\n\n    def sample_gradio(\n            self,\n            prompt: str,\n            history: List[List[str]],\n            system_prompt: typing.Optional[str],\n            mode: str,\n            max_sequence_length: int,\n            max_new_tokens: int,\n            max_compile_tokens: int,\n            greedy: bool,\n            temperature: float,\n            top_p: float,\n            top_k: int,\n            repetition_penalty: float\n    ):\n        raise NotImplementedError()\n\n    def build_inference(\n            self,\n            sample_func: typing.Callable,\n            max_sequence_length: int,\n            max_new_tokens: int,\n            max_compile_tokens: int\n    ) -&gt; gr.Blocks:\n        \"\"\"The function \"build_inference\" returns a gr.Blocks object that model\n        interface components.\n\n        Returns:\n            a gr.Blocks object.\n        \"\"\"\n        with gr.Blocks(\n                theme=seafoam\n        ) as block:\n            self.chat_interface_components(\n                sample_func=sample_func,\n                max_sequence_length=max_sequence_length,\n                max_new_tokens=max_new_tokens,\n                max_compile_tokens=max_compile_tokens\n            )\n        return block\n\n    def __repr__(self):\n\n        \"\"\"The __repr__ function is used to generate a string representation of an object.\n        This function should return a string that can be parsed by the Python interpreter\n        to recreate the object. The __repr__ function is called when you use print() on an\n        object, or when you type its name in the REPL.\n\n        Args:\n            self: Refer to the instance of the class\n\n        Returns:\n            A string representation of the object\n        \"\"\"\n        string = f\"{self.__class__.__name__}(\\n\"\n        for k, v in self.__dict__.items():\n            if not k.startswith(\"_\"):\n\n                try:\n                    repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                    string += repr_src if len(repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n                except TypeError:\n                    ...\n\n        return string + \")\"\n\n    def __str__(self):\n\n        \"\"\"The __str__ function is called when you use the print function or when str() is used.\n        It should return a string representation of the object.\n\n        Args:\n            self: Refer to the instance of the class\n\n        Returns:\n            The object's string representation\n        \"\"\"\n        return self.__repr__()\n</code></pre>"},{"location":"generated-serve-gradio_user_interface_base/#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.__repr__","title":"<code>__repr__()</code>","text":"<p>The repr function is used to generate a string representation of an object. This function should return a string that can be parsed by the Python interpreter to recreate the object. The repr function is called when you use print() on an object, or when you type its name in the REPL.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <p>Returns:</p> Type Description <p>A string representation of the object</p> Source code in <code>src/python/easydel/serve/gradio_user_interface_base.py</code> <pre><code>def __repr__(self):\n\n    \"\"\"The __repr__ function is used to generate a string representation of an object.\n    This function should return a string that can be parsed by the Python interpreter\n    to recreate the object. The __repr__ function is called when you use print() on an\n    object, or when you type its name in the REPL.\n\n    Args:\n        self: Refer to the instance of the class\n\n    Returns:\n        A string representation of the object\n    \"\"\"\n    string = f\"{self.__class__.__name__}(\\n\"\n    for k, v in self.__dict__.items():\n        if not k.startswith(\"_\"):\n\n            try:\n                repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                string += repr_src if len(repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n            except TypeError:\n                ...\n\n    return string + \")\"\n</code></pre>"},{"location":"generated-serve-gradio_user_interface_base/#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.__str__","title":"<code>__str__()</code>","text":"<p>The str function is called when you use the print function or when str() is used. It should return a string representation of the object.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <p>Returns:</p> Type Description <p>The object's string representation</p> Source code in <code>src/python/easydel/serve/gradio_user_interface_base.py</code> <pre><code>def __str__(self):\n\n    \"\"\"The __str__ function is called when you use the print function or when str() is used.\n    It should return a string representation of the object.\n\n    Args:\n        self: Refer to the instance of the class\n\n    Returns:\n        The object's string representation\n    \"\"\"\n    return self.__repr__()\n</code></pre>"},{"location":"generated-serve-gradio_user_interface_base/#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.build_inference","title":"<code>build_inference(sample_func, max_sequence_length, max_new_tokens, max_compile_tokens)</code>","text":"<p>The function \"build_inference\" returns a gr.Blocks object that model interface components.</p> <p>Returns:</p> Type Description <code>Blocks</code> <p>a gr.Blocks object.</p> Source code in <code>src/python/easydel/serve/gradio_user_interface_base.py</code> <pre><code>def build_inference(\n        self,\n        sample_func: typing.Callable,\n        max_sequence_length: int,\n        max_new_tokens: int,\n        max_compile_tokens: int\n) -&gt; gr.Blocks:\n    \"\"\"The function \"build_inference\" returns a gr.Blocks object that model\n    interface components.\n\n    Returns:\n        a gr.Blocks object.\n    \"\"\"\n    with gr.Blocks(\n            theme=seafoam\n    ) as block:\n        self.chat_interface_components(\n            sample_func=sample_func,\n            max_sequence_length=max_sequence_length,\n            max_new_tokens=max_new_tokens,\n            max_compile_tokens=max_compile_tokens\n        )\n    return block\n</code></pre>"},{"location":"generated-serve-gradio_user_interface_base/#src.python.easydel.serve.gradio_user_interface_base.GradioUserInference.chat_interface_components","title":"<code>chat_interface_components(sample_func, max_sequence_length, max_new_tokens, max_compile_tokens)</code>  <code>staticmethod</code>","text":"<p>The function <code>chat_interface_components</code> creates the components for a chat interface, including a chat history, message box, buttons for submitting, stopping, and clearing the conversation, and sliders for advanced options.</p> Source code in <code>src/python/easydel/serve/gradio_user_interface_base.py</code> <pre><code>@staticmethod\ndef chat_interface_components(\n        sample_func: typing.Callable,\n        max_sequence_length: int,\n        max_new_tokens: int,\n        max_compile_tokens: int\n):\n    \"\"\"The function `chat_interface_components` creates the components for a chat interface, including\n    a chat history, message box, buttons for submitting, stopping, and clearing the conversation,\n    and sliders for advanced options.\n    \"\"\"\n\n    _max_length = max_sequence_length\n    _max_new_tokens = max_new_tokens\n    _max_compile_tokens = max_compile_tokens\n\n    with gr.Column(\"100%\"):\n        gr.Markdown(\n            \"# &lt;h1&gt;&lt;center style='color:white;'&gt;Powered by \"\n            \"[EasyDeL](https://github.com/erfanzar/EasyDeL)&lt;/center&gt;&lt;/h1&gt;\",\n        )\n        history = gr.Chatbot(\n            elem_id=\"easydel\",\n            label=\"easydel\",\n            container=True,\n            height=\"65vh\",\n        )\n        prompt = gr.Textbox(\n            show_label=False, placeholder='Enter Your Prompt Here.', container=False\n        )\n        with gr.Row():\n            submit = gr.Button(\n                value=\"Run\",\n                variant=\"primary\"\n            )\n            stop = gr.Button(\n                value='Stop'\n            )\n            clear = gr.Button(\n                value='Clear Conversation'\n            )\n        with gr.Accordion(open=False, label=\"Advanced Options\"):\n            system_prompt = gr.Textbox(\n                value=\"\",\n                show_label=False,\n                label=\"System Prompt\",\n                placeholder='System Prompt',\n                container=False\n            )\n\n            max_sequence_length = gr.Slider(\n                value=_max_length,\n                maximum=10000,\n                minimum=1,\n                label='Max Tokens',\n                step=1\n            )\n\n            max_new_tokens = gr.Slider(\n                value=_max_new_tokens,\n                maximum=10000,\n                minimum=_max_compile_tokens,\n                label='Max New Tokens',\n                step=_max_compile_tokens\n            )\n\n            max_compile_tokens = gr.Slider(\n                value=_max_compile_tokens,\n                maximum=_max_compile_tokens,\n                minimum=_max_compile_tokens,\n                label='Max Compile Tokens',\n                step=_max_compile_tokens\n            )\n\n            temperature = gr.Slider(\n                value=0.8,\n                maximum=1,\n                minimum=0.1,\n                label='Temperature',\n                step=0.01\n            )\n            top_p = gr.Slider(\n                value=0.9,\n                maximum=1,\n                minimum=0.1,\n                label='Top P',\n                step=0.01\n            )\n            top_k = gr.Slider(\n                value=50,\n                maximum=100,\n                minimum=1,\n                label='Top K',\n                step=1\n            )\n            repetition_penalty = gr.Slider(\n                value=1.2,\n                maximum=5,\n                minimum=0.1,\n                label='Repetition Penalty'\n            )\n            greedy = gr.Radio(\n                value=True,\n                label=\"Do Sample or Greedy Generation\"\n            )\n\n            mode = gr.Dropdown(\n                choices=[\"Chat\", \"Instruct\"],\n                value=\"Chat\",\n                label=\"Mode\",\n                multiselect=False\n            )\n\n    inputs = [\n        prompt,\n        history,\n        system_prompt,\n        mode,\n        max_sequence_length,\n        max_new_tokens,\n        max_compile_tokens,\n        greedy,\n        temperature,\n        top_p,\n        top_k,\n        repetition_penalty\n    ]\n\n    clear.click(fn=lambda: [], outputs=[history])\n    sub_event = submit.click(\n        fn=sample_func, inputs=inputs, outputs=[prompt, history]\n    )\n    txt_event = prompt.submit(\n        fn=sample_func, inputs=inputs, outputs=[prompt, history]\n    )\n    stop.click(\n        fn=None,\n        inputs=None,\n        outputs=None,\n        cancels=[txt_event, sub_event]\n    )\n</code></pre>"},{"location":"generated-serve-jax_serve/","title":"serve.jax_serve","text":""},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer","title":"<code>JAXServer</code>","text":"<p>               Bases: <code>GradioUserInference</code></p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>class JAXServer(GradioUserInference):\n\n    def __init__(self, server_config=None):\n\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It sets up all the attributes that will be used by other methods in the class.\n\n        Args:\n            self: Refer to the current instance of a class\n            server_config: Pass the JAXServerConfig object\n\n        Returns:\n            A fastapi object\n        \"\"\"\n        (\n            self.process_uvicorn,\n            self.prefix_tokenizer,\n            self.params,\n            self.tokenizer,\n            self.model,\n            self.partition_specs,\n            self.generate_function,\n            self.greedy_generate_function\n        ) = [None] * 8\n        assert server_config is None or isinstance(server_config,\n                                                   JAXServerConfig), \"server_config can be None or JAXServerConfig Type\"\n        if server_config is None:\n            server_config = JAXServerConfig()\n\n        self.server_config = server_config\n        self._funcs_generated = False\n        self.number_of_served_request_until_last_up_time = 0\n\n        self.rng_generator = RNG(42)\n        initialise_tracking(0.5)\n        array = jnp.ones((len(jax.devices()), 1)).reshape(self.server_config.mesh_axes_shape)\n        self.mesh = Mesh(mesh_utils.create_device_mesh(array.shape), self.server_config.mesh_axes_names)\n\n        self.app = FastAPI()\n        self.app.post(\"/chat\")(self.forward_chat)\n        self.app.post(\"/instruct\")(self.forward_instruct)\n        self.app.get(\"/status\")(self.status)\n        self.app = gr.mount_gradio_app(self.app, self.gradio_inference(), \"/gradio_chat\")\n\n    def status(self):\n        \"\"\"The status function returns a dictionary with the following keys:\n            server_config: A dictionary containing all the configuration parameters for this server.\n            devices: A string describing which devices are available to JAX.\n            number_of_backends: The number of backends available to JAX.  This is usually equal to the number of GPUs\n            on your machine, but can be less if you have not installed CUDA or if you have disabled some GPUs in your\n             system BIOS settings (e.g., because they are defective).  It can also be more than one if you have multiple\n              machines connected via MPI and running under Horov\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A dictionary with the following keys:\n        \"\"\"\n        return {\n            \"server_config\": {k: v for k, v in self.server_config.__dict__.items()},\n            \"devices\": f\"{jax.devices()}\",\n            \"number_of_backends\": len(jax.devices()),\n            \"status\": \"Ready\",\n            \"number_of_served_request_until_last_up_time\": f\"{self.number_of_served_request_until_last_up_time}\",\n            \"memory\": f\"{get_mem()}\"\n        }\n\n    @staticmethod\n    def get_memory():\n        \"\"\"The get_memory function returns the total memory of the system in bytes.\n\n        Returns:\n            The amount of memory used by the program\n        \"\"\"\n        return get_mem()\n\n    def configure_generate_functions(self, model, tokenizer):\n\n        \"\"\"The configure_generate_functions function is used to configure the generation functions for a given model.\n\n        Args:\n            self: Access variables within the class\n            model: Generate the model\n            tokenizer: Get the eos_token_id, pad_token_id and bos token\n                id\n\n        Returns:\n            A function that takes in three parameters:\n        \"\"\"\n        assert self.partition_specs is not None, \"you should first shard params with using ``shard_params`` method\"\n\n        if tokenizer.pad_token is None:\n            logging.info(\n                \"Tokenizer does not contain padding token setting padding token to eos token for open end generation\")\n            tokenizer.pad_token = tokenizer.eos_token\n\n        try:\n            tokenizer.padding_side = \"left\"\n            tokenizer.truncation_side = \"left\"\n            self.prefix_tokenizer = copy.deepcopy(tokenizer)\n            tokenizer.padding_side = \"right\"\n            tokenizer.truncation_side = \"right\"\n            self.tokenizer = copy.deepcopy(tokenizer)\n        except:\n            warnings.warn(\n                f\"The class Model of Tokenizer {type(tokenizer)} do not support deepcopy option \"\n            )\n            if self.server_config.use_prefix_tokenizer:\n                tokenizer.padding_side = \"left\"\n                tokenizer.truncation_side = \"left\"\n            else:\n                tokenizer.padding_side = \"right\"\n                tokenizer.truncation_side = \"right\"\n            self.prefix_tokenizer = tokenizer\n\n        @functools.partial(\n            pjit,\n            in_shardings=(self.partition_specs, PartitionSpec(), PartitionSpec()),\n            out_shardings=(PartitionSpec())\n        )\n        def greedy_generate(parameters, input_ids, attention_mask):\n            input_ids = with_sharding_constraint(input_ids, self.server_config.generation_ps)\n            attention_mask = with_sharding_constraint(attention_mask, self.server_config.generation_ps)\n            predict = model.generate(\n                input_ids,\n                attention_mask=attention_mask,\n                params=parameters,\n                generation_config=GenerationConfig(\n                    max_new_tokens=self.server_config.max_compile_tokens,\n\n                    eos_token_id=self.server_config.eos_token_id or tokenizer.eos_token_id,\n                    pad_token_id=self.server_config.pad_token_id or tokenizer.pad_token_id,\n                    bos_token_id=self.server_config.bos_token_id or tokenizer.bos_token_id,\n\n                    do_sample=False,\n                    num_beams=1,\n                )\n            ).sequences[:, input_ids.shape[1]:]\n            return predict\n\n        @functools.partial(\n            pjit,\n            in_shardings=(self.partition_specs, PartitionSpec(), PartitionSpec()),\n            out_shardings=(PartitionSpec())\n        )\n        def generate(parameters, input_ids, attention_mask):\n            input_ids = with_sharding_constraint(input_ids, self.server_config.generation_ps)\n            attention_mask = with_sharding_constraint(attention_mask, self.server_config.generation_ps)\n            predict = model.generate(\n                input_ids,\n                attention_mask=attention_mask,\n                params=parameters,\n                generation_config=GenerationConfig(\n                    max_new_tokens=self.server_config.max_compile_tokens,\n\n                    eos_token_id=self.server_config.eos_token_id or tokenizer.eos_token_id,\n                    pad_token_id=self.server_config.pad_token_id or tokenizer.pad_token_id,\n                    bos_token_id=self.server_config.bos_token_id or tokenizer.bos_token_id,\n\n                    temperature=self.server_config.temperature,\n                    do_sample=True,\n                    num_beams=1,\n                    top_p=self.server_config.top_p,\n                    top_k=self.server_config.top_k,\n                    repetition_penalty=self.server_config.repetition_penalty\n                )\n            ).sequences[:, input_ids.shape[1]:]\n            return predict\n\n        self.generate_function = generate\n        self.greedy_generate_function = greedy_generate\n        self._funcs_generated = True\n\n    def auto_configure(self, model, params, tokenizer, partition_rules):\n        \"\"\"The auto_configure function is a helper function that will automatically configure the model for distributed training.\n        It does this by:\n            1) sharding the parameters of the model based on partition_rules, and then\n            2) configuring generate functions to be used in distributed training.\n\n        Args:\n            self: Represent the instance of the class\n            model: Configure the model\n            params: Store the parameters that are used to configure the\n                model\n            tokenizer: Tokenize the input text\n            partition_rules: Specify how the parameters should be\n                partitioned\n\n        Returns:\n            A dictionary with the following keys:\n        \"\"\"\n        self.shard_params(params=params, partition_rules=partition_rules)\n        self.configure_generate_functions(model, tokenizer)\n\n    def generate(\n            self,\n            params: Union[flax.core.FrozenDict, dict],\n            input_ids: chex.Array,\n            attention_mask: chex.Array,\n    ):\n        \"\"\"The generate function is used to generate a sequence of tokens from the model.\n\n        Args:\n            self: Access variables that belong to the class\n            params: Union[flax.core.FrozenDict, dict]: Pass the\n                parameters of the model to be used in generating text\n            input_ids: chex.Array: Pass the input to the model\n            attention_mask: chex.Array: Mask the padding tokens\n\n        Returns:\n            The logits of the model\n        \"\"\"\n        if not self._funcs_generated:\n            raise NotImplementedError(\n                \"this method will be implemented automatically after using ``configure_generate_functions`` function\"\n            )\n        else:\n            with self.mesh:\n                return self.generate_function(\n                    params, input_ids, attention_mask\n                )\n\n    @classmethod\n    def load(\n            cls,\n            model: transformers.FlaxPreTrainedModel,\n            config_model: transformers.PretrainedConfig,\n            tokenizer: transformers.PreTrainedTokenizer,\n            path: Union[str, os.PathLike],\n            server_config=None,\n            add_params_field: bool = True,\n            init_shape: tuple = (1, 1),\n            do_memory_log: bool = False,\n            verbose: bool = True\n    ) -&gt; \"JAXServer\":\n        \"\"\"The load function is used to load a pretrained model from disk.\n\n        Args:\n            cls: Refer to the class itself\n            model: transformers.FlaxPreTrainedModel: Initialize the\n                server\n            config_model: transformers.PretrainedConfig: Get the\n                partition rules\n            tokenizer: transformers.PreTrainedTokenizer: Load the\n                tokenizer from the model\n            path: Union[str, os.PathLike]: Specify the path to the\n                checkpoint file\n            server_config: Configure the server\n            add_params_field: bool: Add a params field to the server\n            init_shape: tuple: Specify the shape of the input to be used\n                for generating shard_fns\n            do_memory_log: bool: Log the memory usage of the server\n            verbose: bool: Print the compilation process\n\n        Returns:\n            A server\n        \"\"\"\n        assert hasattr(model,\n                       \"init_weights\"), \"model must contain init_weights func in order to init params for shard_fns\"\n        assert hasattr(config_model,\n                       \"get_partition_rules\"), \"config_model must contain get_partition_rules functions\"\n        server = cls(server_config=server_config)\n        logging.info(\n            \"running _init() func in order to make shard_fns\"\n        )\n        with jax.default_device(jax.devices(\"cpu\")[0]):\n            def _init():\n                return model.init_weights(jax.random.PRNGKey(0), init_shape)\n\n            shape = jax.eval_shape(_init)\n        logging.info(\n            \"matching partition rules\"\n        )\n        rules = match_partition_rules(params=shape, rules=config_model.get_partition_rules(True))\n\n        with server.mesh:\n            shard_fns, _ = make_shard_and_gather_fns(rules, get_dtype(server.server_config.dtype))\n            logging.info(\n                \"loading checkpoints\"\n            )\n\n            shard_fns = flax.traverse_util.flatten_dict(shard_fns)\n            server.params = {}\n            with open(path, \"rb\") as stream:\n                unpacker = msgpack.Unpacker(stream, read_size=83886080, max_buffer_size=0)\n                pbar = tqdm.tqdm(unpacker)\n                for key, value in pbar:\n                    key = tuple(key)\n                    tensor = from_bytes(None, value)\n                    tensor = shard_fns[key](tensor)\n                    server.params[key] = tensor\n                    if do_memory_log:\n                        pbar.write(server.get_memory())\n                    pbar.set_description(\"Sharding Params\")\n        server.params = flax.traverse_util.unflatten_dict(server.params)\n        server.params = {\"params\": server.params} if add_params_field else server.params\n\n        server.rules = {\"params\": rules} if add_params_field else rules\n        logging.info(\n            \"configuring generate functions for the server\"\n        )\n        server.configure_generate_functions(model, tokenizer)\n\n        if server.server_config.pre_compile:\n            server.compile(verbose=verbose)\n        return server\n\n    @classmethod\n    def from_torch_pretrained(\n            cls,\n            server_config: JAXServerConfig,\n            pretrained_model_name_or_path: str,\n            device=jax.devices('cpu')[0],\n            dtype: jax.numpy.dtype = jax.numpy.float32,\n            param_dtype: jax.numpy.dtype = jax.numpy.float32,\n            precision: Optional[jax.lax.Precision] = jax.lax.Precision(\"fastest\"),\n            sharding_axis_dims: Sequence[int] = (1, -1, 1, 1),\n            sharding_axis_names: Sequence[str] = (\"dp\", \"fsdp\", \"tp\", \"sp\"),\n            query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            generation_query_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, \"tp\", None),\n            key_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            value_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n            generation_bias_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), None, None, None),\n            attention_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\", \"tp\", None),\n            shard_attention_computation: bool = True,\n            input_shape: Sequence[int] = (1, 1),\n            shard_fns: Optional[Mapping[tuple, Callable]] = None,\n            backend: Optional[str] = None,\n            add_params_field: bool = True,\n            do_memory_log: bool = False,\n            model_config_kwargs: Optional[Mapping[str, Any]] = None,\n            verbose: bool = True,\n            **kwargs\n    ) -&gt; \"JAXServer\":\n\n        model, params = AutoEasyDeLModelForCausalLM.from_pretrained(\n            pretrained_model_name_or_path=pretrained_model_name_or_path,\n            device=device,\n            dtype=dtype,\n            param_dtype=param_dtype,\n            precision=precision,\n            sharding_axis_names=sharding_axis_names,\n            sharding_axis_dims=sharding_axis_dims,\n            query_partition_spec=query_partition_spec,\n            generation_query_partition_spec=generation_query_partition_spec,\n            generation_bias_partition_spec=generation_bias_partition_spec,\n            attention_partition_spec=attention_partition_spec,\n            value_partition_spec=value_partition_spec,\n            key_partition_spec=key_partition_spec,\n            bias_partition_spec=bias_partition_spec,\n            shard_attention_computation=shard_attention_computation,\n            shard_fns=shard_fns,\n            input_shape=input_shape,\n            backend=backend,\n            config_kwargs=model_config_kwargs,\n            **kwargs\n        )\n\n        return cls.from_parameters(\n            model=model,\n            config_model=model.config,\n            tokenizer=transformers.AutoTokenizer.from_pretrained(pretrained_model_name_or_path),\n            params=params,\n            server_config=server_config,\n            verbose=verbose,\n            do_memory_log=do_memory_log,\n            add_params_field=add_params_field,\n            shard_parameters=False\n        )\n\n    @classmethod\n    def from_parameters(\n            cls,\n            model: transformers.FlaxPreTrainedModel,\n            config_model: transformers.PretrainedConfig,\n            tokenizer: transformers.PreTrainedTokenizer,\n            params: Dict,\n            server_config: JAXServerConfig = None,\n            add_params_field: bool = True,\n            do_memory_log: bool = False,\n            shard_parameters: bool = False,\n            verbose: bool = True\n    ) -&gt; \"JAXServer\":\n        \"\"\"The from_parameters function is used to load a model from the parameters of a pretrained model.\n        It takes in the following arguments:\n            - cls: The class of the server you are loading, this should be Server or TPU_Server depending on\n            what backend you want to use.\n            - model: A FlaxPreTrainedModel object that contains all of your models functions and parameters. This can\n             be found in transformers/flax_utils/models/*model*.py\n                where *model* is replaced with whatever transformer you are using (e.g., bert). You can also create\n                 your own custom\n\n        Args:\n            cls: Create a new instance of the class\n            model: transformers.FlaxPreTrainedModel: Load the model\n            config_model: transformers.PretrainedConfig: Get the\n                partition rules\n            tokenizer: transformers.PreTrainedTokenizer: Tokenize the\n                input text\n            params: Dict: Pass in the parameters of the model\n            server_config: Pass in the server_config file for the server\n            add_params_field: bool: Add a params field to the server\n            do_memory_log: bool: Log the memory usage of the server\n            shard_parameters: bool: whenever a shard model parameters.\n            verbose: bool: Print out the status of the compilation\n\n        Returns:\n            A server object\n        \"\"\"\n        assert hasattr(model, \"init_weights\"), (\n            \"model must contain init_weights func in order to init params for shard_fns\"\n        )\n        assert hasattr(config_model, \"get_partition_rules\"), (\n            \"config_model must contain get_partition_rules functions\"\n        )\n        server = cls(server_config=server_config)\n        if shard_parameters:\n            with server.mesh:\n\n                logging.info(\n                    \"matching partition rules\"\n                )\n                partition_specs = match_partition_rules(params=params, rules=config_model.get_partition_rules(True))\n                shard_fns, _ = make_shard_and_gather_fns(partition_specs, get_dtype(server.server_config.dtype))\n                logging.info(\n                    \"sharding parameters across all of the chosen backend(tpu/gpu/cpu)s\"\n                )\n                params = flax.traverse_util.flatten_dict(params)\n                shard_fns = flax.traverse_util.flatten_dict(shard_fns)\n                pbar = tqdm.tqdm(params.keys())\n                for key in pbar:\n                    key = tuple(key)\n                    params[key] = shard_fns[key](params[key])\n                    if do_memory_log:\n                        pbar.write(server.get_memory())\n                    pbar.set_description(\"Sharding Params\")\n                params = flax.traverse_util.unflatten_dict(params)\n        else:\n            partition_specs = jax.tree_util.tree_map(get_partitions, params)\n        server.params = {\"params\": params} if add_params_field else params\n        server.partition_specs = {\"params\": partition_specs} if add_params_field else partition_specs\n        logging.info(\n            \"configuring generate functions for the server\"\n        )\n        server.configure_generate_functions(model, tokenizer)\n        if server.server_config.pre_compile:\n            server.compile(verbose=verbose)\n        return server\n\n    def compile(self, verbose: bool = True) -&gt; bool:\n        \"\"\"The compile function is used to compile the model for use in inference.\n        It does this by running through all possible combinations of rules and actions,\n        and compiling them into functions that can be called later on during inference.\n        This allows us to avoid having to recompile the model every time we want to run it,\n        which would be very slow.\n\n        Args:\n            self: Represent the instance of the class\n            verbose: bool: Print out the compiling process\n\n        Returns:\n            True, but what does it do?\n        \"\"\"\n        assert self._funcs_generated, \"funcs are not generated yet\"\n        assert self.partition_specs is not None, \"rules should not be None\"\n        if self.server_config.use_prefix_tokenizer:\n            if verbose:\n                logger.info(\"Compiling greedy generate function\")\n\n            r, a = [None] * 2\n            for r, a in self.sample(\n                    string=\"\",\n                    max_new_tokens=self.server_config.max_compile_tokens,\n                    greedy=True\n            ):\n                ...\n            if verbose:\n                logger.info(\"Compiling non-greedy generate function\")\n            for r, a in self.sample(\n                    string=\"\",\n                    max_new_tokens=self.server_config.max_compile_tokens,\n                    greedy=False\n            ):\n                ...\n\n        else:\n            warnings.warn(\n                \"Skip Compiling the compiling process is useless \"\n                \"when you are not using prefix tokenizer\",\n            )\n        return True\n\n    def greedy_generate(self,\n                        params: Union[flax.core.FrozenDict, dict],\n                        input_ids: chex.Array,\n                        attention_mask: chex.Array,\n                        ):\n        \"\"\"The greedy_generate function is a helper function that takes in the model parameters, input_ids and attention_mask\n        and returns the generated tokens. It uses greedy search to generate tokens one at a time.\n\n        Args:\n            self: Refer to the object itself\n            params: Union[flax.core.FrozenDict, dict]: Pass the\n                parameters to the model\n            input_ids: chex.Array: Pass in the input sequence\n            attention_mask: chex.Array: Mask the input tokens\n        :param : Specify the parameters of the model\n\n        Returns:\n            generated_ids\n        \"\"\"\n        if not self._funcs_generated:\n            raise NotImplementedError(\n                \"this method will be implemented automatically after using ``configure_generate_functions`` function\"\n            )\n        else:\n            with self.mesh:\n                return self.greedy_generate_function(\n                    params, input_ids, attention_mask\n                )\n\n    def shard_params(self, params, partition_rules):\n\n        \"\"\"The shard_params function takes in a set of parameters and a partition rule.\n        The partition rule is used to determine how the parameters should be sharded across devices.\n        For example, if we have two devices, one with 4GB of memory and another with 8GB of memory,\n        we may want to shard our model such that the device with more memory has more parameters on it.\n        This function returns an updated version of params where each parameter is now stored on its own device.\n\n        Args:\n            self: Bind the instance of the class to a method\n            params: Pass the parameters of the model to be sharded\n            partition_rules: Specify how the parameters should be\n                partitioned\n\n        Returns:\n            The sharded parameters\n        \"\"\"\n        logging.log(\n            logging.INFO,\n            \"the parameters will be sharded and ba saved inside server you can access them by ``JAXServer.params``\")\n        rules = match_partition_rules(params=params, rules=partition_rules)\n        self.partition_specs = rules\n        shard_fns, _ = make_shard_and_gather_fns(rules, get_dtype(self.server_config.dtype))\n\n        with self.mesh:\n            self.params = jax.tree_map(\n                lambda f, p: f(p), shard_fns, params\n            )\n\n        return self.params\n\n    def forward_chat(self, data: ChatRequest):\n\n        \"\"\"The forward_chat function is the main function of this class.\n        It takes in a ChatRequest object, which contains a prompt and history.\n        The prompt is the user\"s input to be processed by the chatbot, while history\n        is an array of previous inputs and outputs from both sides (user and bot).\n        The forward_chat function then formats these inputs into one string that can be processed by our model.\n        This formatted string is then passed through our sample() method, which returns an output response as well as\n        how many tokens were used to generate it.\n\n        Args:\n            self: Access the attributes and methods of the class\n            data: ChatRequest: Pass in the data from the request\n\n        Returns:\n            A dictionary with the following keys:\n        \"\"\"\n        if not self._funcs_generated:\n            return {\n                \"status\": \"down\"\n            }\n\n        string = self.format_chat(\n            prompt=data.prompt,\n            system=None,\n            history=data.history\n        )\n\n        response, used_tokens = [None] * 2\n        for response, used_tokens in self.sample(\n                string=string,\n                greedy=data.greedy,\n                max_new_tokens=None\n        ):\n            ...\n        self.number_of_served_request_until_last_up_time += 1\n        return {\n            \"input\": f\"{string}\",\n            \"response\": response,\n            \"tokens_used\": used_tokens,\n        }\n\n    def format_instruct(self, system: str, instruction: str) -&gt; str:\n        \"\"\"Here you will get the system and instruction from user, and you can apply your prompting style\"\"\"\n        conversation = []\n        if system is not None and system != \"\":\n            conversation.append({\n                \"role\": \"system\", \"content\": system\n            })\n        conversation.append({\n            \"role\": \"user\", \"content\": instruction\n        })\n        return self.tokenizer.apply_chat_template(\n            conversation,\n            tokenize=False,\n            add_generation_prompt=True,\n        )\n\n    def format_chat(self, history: List[List[str]], prompt: str, system: Union[str, None]) -&gt; str:\n        \"\"\"Here you will get the system, prompt and history from user, and you can apply your prompting style\"\"\"\n        conversation = []\n        if system is not None and system != \"\":\n            conversation.append({\n                \"role\": \"system\", \"content\": system\n            })\n        for conv in history:\n            conversation.append(\n                {\n                    \"role\": \"user\", \"content\": conv[0]\n                }\n            )\n            conversation.append(\n                {\n                    \"role\": \"assistant\", \"content\": conv[1]\n                }\n            )\n\n        conversation.append(\n            {\n                \"role\": \"user\", \"content\": prompt\n            }\n        )\n        return self.tokenizer.apply_chat_template(\n            conversation,\n            tokenize=False,\n            add_generation_prompt=True,\n        )\n\n    def forward_instruct(self, data: InstructRequest):\n        \"\"\"The forward_instruct function is the main function of this class.\n        It takes in a InstructRequest object, which contains the system and instruction to be processed.\n        The function then formats the input string using format_instruct, and passes it into sample().\n        sample() returns a tuple containing (response, used_tokens). The response is returned as part of\n        the response dictionary. If no valid responses are found by sample(), None will be returned instead.\n\n        Args:\n            self: Bind the method to the object\n            data: InstructRequest: Pass the system and instruction to\n                the function\n\n        Returns:\n            A dictionary with three keys:\n        \"\"\"\n        if not self._funcs_generated:\n            return {\n                \"status\": \"down\"\n            }\n\n        response, used_tokens = [None] * 2\n        string = self.format_instruct(\n            system=data.system,\n            instruction=data.instruction\n        )\n        for response, used_tokens in self.sample(\n                string=string,\n                greedy=data.greedy,\n                max_new_tokens=None\n        ):\n            ...\n        self.number_of_served_request_until_last_up_time += 1\n        return {\n            \"input\": f\"{string}\",\n            \"response\": response,\n            \"tokens_used\": used_tokens,\n        }\n\n    def forward_instruct_non_api(self, prompt, system, greedy):\n        \"\"\"The forward_instruct_non_api function is a wrapper for the forward_instruct function.\n        It takes in a prompt, system, and greedy flag as arguments and returns the response from\n        the forward_instruct function. The purpose of this wrapper is to allow users to call\n        forward_instruct without having to create an InstructRequest object.\n\n        Args:\n            self: Represent the instance of the class\n            prompt: Pass the instruction to the system\n            system: Specify which system to use for the instruction\n            greedy: Determine whether the system should return\n\n        Returns:\n            The response from the forward_instruct function\n        \"\"\"\n        data = InstructRequest(\n            prompt=prompt,\n            system=system,\n            greedy=greedy\n        )\n        return self.forward_instruct(data)\n\n    def forward_chat_non_api(self, prompt, history, greedy):\n        \"\"\"The forward_chat_non_api function is a wrapper for the forward_chat function.\n        It takes in a prompt, history, and greedy parameter and returns the response from\n        the forward_chat function. The purpose of this wrapper is to allow users to use\n        the chatbot without having to create ChatRequest objects.\n\n        Args:\n            self: Represent the instance of the class\n            prompt: Pass the user's input to the model\n            history: Pass the history of the conversation to the model\n            greedy: Determine whether the model should use a greedy\n                search\n\n        Returns:\n            A chat-response object\n        \"\"\"\n        data = ChatRequest(\n            prompt=prompt,\n            history=history,\n            greedy=greedy\n        )\n        return self.forward_chat(data)\n\n    def sample_gradio(\n            self,\n            prompt: str,\n            history: List[List[str]],\n            system_prompt: Union[str, None],\n            mode: str,\n            max_sequence_length: int,\n            max_new_tokens: int,\n            max_compile_tokens: int,\n            greedy: bool,\n            temperature: float,\n            top_p: float,\n            top_k: int,\n            repetition_penalty: float\n    ):\n        if mode.lower() == \"chat\":\n            string = self.format_chat(\n                history=history,\n                system=system_prompt,\n                prompt=prompt\n            )\n        elif mode.lower() == \"instruct\":\n            history = []\n            string = self.format_instruct(\n                system=system_prompt,\n                instruction=prompt\n            )\n        else:\n            raise ValueError(\"UnKnown Mode for sample_gradio available modes are only Chat or Instruct\")\n        history.append([prompt, \"\"])\n        for response, _ in self.sample(\n                string=string,\n                greedy=greedy,\n                max_new_tokens=max_new_tokens,\n        ):\n            history[-1][-1] = response[0]\n            yield \"\", history\n\n    def sample(self,\n               string: str,\n               *,\n               greedy: bool = False,\n               max_new_tokens: int = None,\n               **kwargs\n               ):\n        \"\"\"The sample function is the main function of a model. It takes in an input string and returns a list of strings\n        that are generated from that input string. The sample function can be called multiple times with different inputs,\n        and each time it will return a new set of outputs based on those inputs.\n\n        Args:\n            self: Access the class attributes\n            string: str: Pass the string that we want to generate\n            : Pass a variable number of arguments to a function\n            greedy: bool: Determine whether to use the greedy or non-\n                greedy version of the generate function\n            max_new_tokens: int: Set the number of tokens to generate\n            **kwargs: Pass any additional parameters to the sample\n                function\n\n        Returns:\n            A generator that yields the predicted text and the number of\n            tokens generated\n        \"\"\"\n\n        fixed_pad = self.server_config.max_sequence_length - self.server_config.max_compile_tokens\n        tokens = self.prefix_tokenizer(\n            [string] * self.server_config.batch_size,\n            max_length=fixed_pad,\n            padding=\"max_length\",\n            return_tensors=\"jax\"\n        ) if self.server_config.use_prefix_tokenizer else self.tokenizer(\n            [string] * self.server_config.batch_size,\n            return_tensors=\"jax\"\n        )\n\n        input_ids = tokens.input_ids\n        attention_mask = tokens.attention_mask\n        num_generated_tokens = 0\n\n        for _ in range((max_new_tokens or self.server_config.max_new_tokens) // self.server_config.max_compile_tokens):\n            inputs_to_gen = dict(\n                params=self.params,\n                input_ids=input_ids,\n                attention_mask=attention_mask\n            )\n            predicted_token = self.greedy_generate(**inputs_to_gen) if greedy else self.generate(**inputs_to_gen)\n            predicted_token = predicted_token[\n                predicted_token != self.tokenizer.pad_token_id if (\n                        self.server_config.pad_token_id is None\n                ) else predicted_token != self.server_config.pad_token_id\n            ]\n            if predicted_token.ndim == 1:\n                predicted_token = predicted_token.reshape(self.server_config.batch_size, -1)\n            num_generated_tokens += predicted_token.shape[-1]\n            plus_attn_mask = jnp.ones((len(attention_mask), self.server_config.max_compile_tokens), dtype=jnp.int32)\n\n            input_ids = jnp.concatenate(\n                (input_ids, predicted_token), axis=-1\n            )[:, -fixed_pad:]\n\n            attention_mask = jnp.concatenate(\n                (attention_mask, plus_attn_mask), dtype=jnp.int32,\n                axis=-1\n            )[:, -fixed_pad:]\n\n            returns = (\n                self.tokenizer.batch_decode(input_ids[:, -num_generated_tokens:], skip_special_tokens=True),\n                num_generated_tokens\n            )\n\n            yield returns\n\n            if self.server_config.use_mxn_break_point:\n                if predicted_token.shape[-1] != self.server_config.max_compile_tokens:\n                    break\n\n            if (\n                    predicted_token[0][-1] == (self.server_config.eos_token_id or self.tokenizer.eos_token_id)\n                    or\n                    predicted_token[0][-1] == (self.server_config.eos_token_id or self.prefix_tokenizer.eos_token_id)\n            ):\n                break\n\n    def fire(self):\n        \"\"\"The fire function is a wrapper around the uvicorn.run function that allows you\n         to run your model in a separate process\n        from the main one. This is useful for running models on GPUs, as it prevents any\n        other processes from using them while\n        the model is being served.\n\n        Args:\n            self: Refer to the instance of the class\n\n        Returns:\n            A process, which is a child of the main process\n        \"\"\"\n        assert self._funcs_generated, \"you have to first add your model and parameters into server before using fire \" \\\n                                      \"with using ``configure_generate_functions``\"\n\n        def run():\n            uvicorn.run(self.app, host=self.server_config.host, port=self.server_config.port)\n\n        self.process_uvicorn = mp.Process(target=run)\n        self.process_uvicorn.start()\n\n    def end(self):\n        \"\"\"The end function is used to stop the server.\n            It will wait for the process to end before returning.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            The process_uvicorn\n        \"\"\"\n        if self.process_uvicorn is not None:\n            self.process_uvicorn.join()\n        else:\n            logging.warning(\"you have to fire server before ending that this command will be ignored\")\n\n    def gradio_inference(self):\n        return self.build_inference(\n            sample_func=self.sample_gradio,\n            max_sequence_length=self.server_config.max_sequence_length,\n            max_new_tokens=self.server_config.max_new_tokens,\n            max_compile_tokens=self.server_config.max_compile_tokens,\n        )\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.__init__","title":"<code>__init__(server_config=None)</code>","text":"<p>The init function is called when the class is instantiated. It sets up all the attributes that will be used by other methods in the class.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the current instance of a class</p> required <code>server_config</code> <p>Pass the JAXServerConfig object</p> <code>None</code> <p>Returns:</p> Type Description <p>A fastapi object</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def __init__(self, server_config=None):\n\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It sets up all the attributes that will be used by other methods in the class.\n\n    Args:\n        self: Refer to the current instance of a class\n        server_config: Pass the JAXServerConfig object\n\n    Returns:\n        A fastapi object\n    \"\"\"\n    (\n        self.process_uvicorn,\n        self.prefix_tokenizer,\n        self.params,\n        self.tokenizer,\n        self.model,\n        self.partition_specs,\n        self.generate_function,\n        self.greedy_generate_function\n    ) = [None] * 8\n    assert server_config is None or isinstance(server_config,\n                                               JAXServerConfig), \"server_config can be None or JAXServerConfig Type\"\n    if server_config is None:\n        server_config = JAXServerConfig()\n\n    self.server_config = server_config\n    self._funcs_generated = False\n    self.number_of_served_request_until_last_up_time = 0\n\n    self.rng_generator = RNG(42)\n    initialise_tracking(0.5)\n    array = jnp.ones((len(jax.devices()), 1)).reshape(self.server_config.mesh_axes_shape)\n    self.mesh = Mesh(mesh_utils.create_device_mesh(array.shape), self.server_config.mesh_axes_names)\n\n    self.app = FastAPI()\n    self.app.post(\"/chat\")(self.forward_chat)\n    self.app.post(\"/instruct\")(self.forward_instruct)\n    self.app.get(\"/status\")(self.status)\n    self.app = gr.mount_gradio_app(self.app, self.gradio_inference(), \"/gradio_chat\")\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.auto_configure","title":"<code>auto_configure(model, params, tokenizer, partition_rules)</code>","text":"<p>The auto_configure function is a helper function that will automatically configure the model for distributed training. It does this by:     1) sharding the parameters of the model based on partition_rules, and then     2) configuring generate functions to be used in distributed training.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>model</code> <p>Configure the model</p> required <code>params</code> <p>Store the parameters that are used to configure the model</p> required <code>tokenizer</code> <p>Tokenize the input text</p> required <code>partition_rules</code> <p>Specify how the parameters should be partitioned</p> required <p>Returns:</p> Type Description <p>A dictionary with the following keys:</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def auto_configure(self, model, params, tokenizer, partition_rules):\n    \"\"\"The auto_configure function is a helper function that will automatically configure the model for distributed training.\n    It does this by:\n        1) sharding the parameters of the model based on partition_rules, and then\n        2) configuring generate functions to be used in distributed training.\n\n    Args:\n        self: Represent the instance of the class\n        model: Configure the model\n        params: Store the parameters that are used to configure the\n            model\n        tokenizer: Tokenize the input text\n        partition_rules: Specify how the parameters should be\n            partitioned\n\n    Returns:\n        A dictionary with the following keys:\n    \"\"\"\n    self.shard_params(params=params, partition_rules=partition_rules)\n    self.configure_generate_functions(model, tokenizer)\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.compile","title":"<code>compile(verbose=True)</code>","text":"<p>The compile function is used to compile the model for use in inference. It does this by running through all possible combinations of rules and actions, and compiling them into functions that can be called later on during inference. This allows us to avoid having to recompile the model every time we want to run it, which would be very slow.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>verbose</code> <code>bool</code> <p>bool: Print out the compiling process</p> <code>True</code> <p>Returns:</p> Type Description <code>bool</code> <p>True, but what does it do?</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def compile(self, verbose: bool = True) -&gt; bool:\n    \"\"\"The compile function is used to compile the model for use in inference.\n    It does this by running through all possible combinations of rules and actions,\n    and compiling them into functions that can be called later on during inference.\n    This allows us to avoid having to recompile the model every time we want to run it,\n    which would be very slow.\n\n    Args:\n        self: Represent the instance of the class\n        verbose: bool: Print out the compiling process\n\n    Returns:\n        True, but what does it do?\n    \"\"\"\n    assert self._funcs_generated, \"funcs are not generated yet\"\n    assert self.partition_specs is not None, \"rules should not be None\"\n    if self.server_config.use_prefix_tokenizer:\n        if verbose:\n            logger.info(\"Compiling greedy generate function\")\n\n        r, a = [None] * 2\n        for r, a in self.sample(\n                string=\"\",\n                max_new_tokens=self.server_config.max_compile_tokens,\n                greedy=True\n        ):\n            ...\n        if verbose:\n            logger.info(\"Compiling non-greedy generate function\")\n        for r, a in self.sample(\n                string=\"\",\n                max_new_tokens=self.server_config.max_compile_tokens,\n                greedy=False\n        ):\n            ...\n\n    else:\n        warnings.warn(\n            \"Skip Compiling the compiling process is useless \"\n            \"when you are not using prefix tokenizer\",\n        )\n    return True\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.configure_generate_functions","title":"<code>configure_generate_functions(model, tokenizer)</code>","text":"<p>The configure_generate_functions function is used to configure the generation functions for a given model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables within the class</p> required <code>model</code> <p>Generate the model</p> required <code>tokenizer</code> <p>Get the eos_token_id, pad_token_id and bos token id</p> required <p>Returns:</p> Type Description <p>A function that takes in three parameters:</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def configure_generate_functions(self, model, tokenizer):\n\n    \"\"\"The configure_generate_functions function is used to configure the generation functions for a given model.\n\n    Args:\n        self: Access variables within the class\n        model: Generate the model\n        tokenizer: Get the eos_token_id, pad_token_id and bos token\n            id\n\n    Returns:\n        A function that takes in three parameters:\n    \"\"\"\n    assert self.partition_specs is not None, \"you should first shard params with using ``shard_params`` method\"\n\n    if tokenizer.pad_token is None:\n        logging.info(\n            \"Tokenizer does not contain padding token setting padding token to eos token for open end generation\")\n        tokenizer.pad_token = tokenizer.eos_token\n\n    try:\n        tokenizer.padding_side = \"left\"\n        tokenizer.truncation_side = \"left\"\n        self.prefix_tokenizer = copy.deepcopy(tokenizer)\n        tokenizer.padding_side = \"right\"\n        tokenizer.truncation_side = \"right\"\n        self.tokenizer = copy.deepcopy(tokenizer)\n    except:\n        warnings.warn(\n            f\"The class Model of Tokenizer {type(tokenizer)} do not support deepcopy option \"\n        )\n        if self.server_config.use_prefix_tokenizer:\n            tokenizer.padding_side = \"left\"\n            tokenizer.truncation_side = \"left\"\n        else:\n            tokenizer.padding_side = \"right\"\n            tokenizer.truncation_side = \"right\"\n        self.prefix_tokenizer = tokenizer\n\n    @functools.partial(\n        pjit,\n        in_shardings=(self.partition_specs, PartitionSpec(), PartitionSpec()),\n        out_shardings=(PartitionSpec())\n    )\n    def greedy_generate(parameters, input_ids, attention_mask):\n        input_ids = with_sharding_constraint(input_ids, self.server_config.generation_ps)\n        attention_mask = with_sharding_constraint(attention_mask, self.server_config.generation_ps)\n        predict = model.generate(\n            input_ids,\n            attention_mask=attention_mask,\n            params=parameters,\n            generation_config=GenerationConfig(\n                max_new_tokens=self.server_config.max_compile_tokens,\n\n                eos_token_id=self.server_config.eos_token_id or tokenizer.eos_token_id,\n                pad_token_id=self.server_config.pad_token_id or tokenizer.pad_token_id,\n                bos_token_id=self.server_config.bos_token_id or tokenizer.bos_token_id,\n\n                do_sample=False,\n                num_beams=1,\n            )\n        ).sequences[:, input_ids.shape[1]:]\n        return predict\n\n    @functools.partial(\n        pjit,\n        in_shardings=(self.partition_specs, PartitionSpec(), PartitionSpec()),\n        out_shardings=(PartitionSpec())\n    )\n    def generate(parameters, input_ids, attention_mask):\n        input_ids = with_sharding_constraint(input_ids, self.server_config.generation_ps)\n        attention_mask = with_sharding_constraint(attention_mask, self.server_config.generation_ps)\n        predict = model.generate(\n            input_ids,\n            attention_mask=attention_mask,\n            params=parameters,\n            generation_config=GenerationConfig(\n                max_new_tokens=self.server_config.max_compile_tokens,\n\n                eos_token_id=self.server_config.eos_token_id or tokenizer.eos_token_id,\n                pad_token_id=self.server_config.pad_token_id or tokenizer.pad_token_id,\n                bos_token_id=self.server_config.bos_token_id or tokenizer.bos_token_id,\n\n                temperature=self.server_config.temperature,\n                do_sample=True,\n                num_beams=1,\n                top_p=self.server_config.top_p,\n                top_k=self.server_config.top_k,\n                repetition_penalty=self.server_config.repetition_penalty\n            )\n        ).sequences[:, input_ids.shape[1]:]\n        return predict\n\n    self.generate_function = generate\n    self.greedy_generate_function = greedy_generate\n    self._funcs_generated = True\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.end","title":"<code>end()</code>","text":"<p>The end function is used to stop the server.     It will wait for the process to end before returning.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>The process_uvicorn</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def end(self):\n    \"\"\"The end function is used to stop the server.\n        It will wait for the process to end before returning.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        The process_uvicorn\n    \"\"\"\n    if self.process_uvicorn is not None:\n        self.process_uvicorn.join()\n    else:\n        logging.warning(\"you have to fire server before ending that this command will be ignored\")\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.fire","title":"<code>fire()</code>","text":"<p>The fire function is a wrapper around the uvicorn.run function that allows you  to run your model in a separate process from the main one. This is useful for running models on GPUs, as it prevents any other processes from using them while the model is being served.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <p>Returns:</p> Type Description <p>A process, which is a child of the main process</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def fire(self):\n    \"\"\"The fire function is a wrapper around the uvicorn.run function that allows you\n     to run your model in a separate process\n    from the main one. This is useful for running models on GPUs, as it prevents any\n    other processes from using them while\n    the model is being served.\n\n    Args:\n        self: Refer to the instance of the class\n\n    Returns:\n        A process, which is a child of the main process\n    \"\"\"\n    assert self._funcs_generated, \"you have to first add your model and parameters into server before using fire \" \\\n                                  \"with using ``configure_generate_functions``\"\n\n    def run():\n        uvicorn.run(self.app, host=self.server_config.host, port=self.server_config.port)\n\n    self.process_uvicorn = mp.Process(target=run)\n    self.process_uvicorn.start()\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.format_chat","title":"<code>format_chat(history, prompt, system)</code>","text":"<p>Here you will get the system, prompt and history from user, and you can apply your prompting style</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def format_chat(self, history: List[List[str]], prompt: str, system: Union[str, None]) -&gt; str:\n    \"\"\"Here you will get the system, prompt and history from user, and you can apply your prompting style\"\"\"\n    conversation = []\n    if system is not None and system != \"\":\n        conversation.append({\n            \"role\": \"system\", \"content\": system\n        })\n    for conv in history:\n        conversation.append(\n            {\n                \"role\": \"user\", \"content\": conv[0]\n            }\n        )\n        conversation.append(\n            {\n                \"role\": \"assistant\", \"content\": conv[1]\n            }\n        )\n\n    conversation.append(\n        {\n            \"role\": \"user\", \"content\": prompt\n        }\n    )\n    return self.tokenizer.apply_chat_template(\n        conversation,\n        tokenize=False,\n        add_generation_prompt=True,\n    )\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.format_instruct","title":"<code>format_instruct(system, instruction)</code>","text":"<p>Here you will get the system and instruction from user, and you can apply your prompting style</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def format_instruct(self, system: str, instruction: str) -&gt; str:\n    \"\"\"Here you will get the system and instruction from user, and you can apply your prompting style\"\"\"\n    conversation = []\n    if system is not None and system != \"\":\n        conversation.append({\n            \"role\": \"system\", \"content\": system\n        })\n    conversation.append({\n        \"role\": \"user\", \"content\": instruction\n    })\n    return self.tokenizer.apply_chat_template(\n        conversation,\n        tokenize=False,\n        add_generation_prompt=True,\n    )\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.forward_chat","title":"<code>forward_chat(data)</code>","text":"<p>The forward_chat function is the main function of this class. It takes in a ChatRequest object, which contains a prompt and history. The prompt is the user\"s input to be processed by the chatbot, while history is an array of previous inputs and outputs from both sides (user and bot). The forward_chat function then formats these inputs into one string that can be processed by our model. This formatted string is then passed through our sample() method, which returns an output response as well as how many tokens were used to generate it.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access the attributes and methods of the class</p> required <code>data</code> <code>ChatRequest</code> <p>ChatRequest: Pass in the data from the request</p> required <p>Returns:</p> Type Description <p>A dictionary with the following keys:</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def forward_chat(self, data: ChatRequest):\n\n    \"\"\"The forward_chat function is the main function of this class.\n    It takes in a ChatRequest object, which contains a prompt and history.\n    The prompt is the user\"s input to be processed by the chatbot, while history\n    is an array of previous inputs and outputs from both sides (user and bot).\n    The forward_chat function then formats these inputs into one string that can be processed by our model.\n    This formatted string is then passed through our sample() method, which returns an output response as well as\n    how many tokens were used to generate it.\n\n    Args:\n        self: Access the attributes and methods of the class\n        data: ChatRequest: Pass in the data from the request\n\n    Returns:\n        A dictionary with the following keys:\n    \"\"\"\n    if not self._funcs_generated:\n        return {\n            \"status\": \"down\"\n        }\n\n    string = self.format_chat(\n        prompt=data.prompt,\n        system=None,\n        history=data.history\n    )\n\n    response, used_tokens = [None] * 2\n    for response, used_tokens in self.sample(\n            string=string,\n            greedy=data.greedy,\n            max_new_tokens=None\n    ):\n        ...\n    self.number_of_served_request_until_last_up_time += 1\n    return {\n        \"input\": f\"{string}\",\n        \"response\": response,\n        \"tokens_used\": used_tokens,\n    }\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.forward_chat_non_api","title":"<code>forward_chat_non_api(prompt, history, greedy)</code>","text":"<p>The forward_chat_non_api function is a wrapper for the forward_chat function. It takes in a prompt, history, and greedy parameter and returns the response from the forward_chat function. The purpose of this wrapper is to allow users to use the chatbot without having to create ChatRequest objects.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>prompt</code> <p>Pass the user's input to the model</p> required <code>history</code> <p>Pass the history of the conversation to the model</p> required <code>greedy</code> <p>Determine whether the model should use a greedy search</p> required <p>Returns:</p> Type Description <p>A chat-response object</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def forward_chat_non_api(self, prompt, history, greedy):\n    \"\"\"The forward_chat_non_api function is a wrapper for the forward_chat function.\n    It takes in a prompt, history, and greedy parameter and returns the response from\n    the forward_chat function. The purpose of this wrapper is to allow users to use\n    the chatbot without having to create ChatRequest objects.\n\n    Args:\n        self: Represent the instance of the class\n        prompt: Pass the user's input to the model\n        history: Pass the history of the conversation to the model\n        greedy: Determine whether the model should use a greedy\n            search\n\n    Returns:\n        A chat-response object\n    \"\"\"\n    data = ChatRequest(\n        prompt=prompt,\n        history=history,\n        greedy=greedy\n    )\n    return self.forward_chat(data)\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.forward_instruct","title":"<code>forward_instruct(data)</code>","text":"<p>The forward_instruct function is the main function of this class. It takes in a InstructRequest object, which contains the system and instruction to be processed. The function then formats the input string using format_instruct, and passes it into sample(). sample() returns a tuple containing (response, used_tokens). The response is returned as part of the response dictionary. If no valid responses are found by sample(), None will be returned instead.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Bind the method to the object</p> required <code>data</code> <code>InstructRequest</code> <p>InstructRequest: Pass the system and instruction to the function</p> required <p>Returns:</p> Type Description <p>A dictionary with three keys:</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def forward_instruct(self, data: InstructRequest):\n    \"\"\"The forward_instruct function is the main function of this class.\n    It takes in a InstructRequest object, which contains the system and instruction to be processed.\n    The function then formats the input string using format_instruct, and passes it into sample().\n    sample() returns a tuple containing (response, used_tokens). The response is returned as part of\n    the response dictionary. If no valid responses are found by sample(), None will be returned instead.\n\n    Args:\n        self: Bind the method to the object\n        data: InstructRequest: Pass the system and instruction to\n            the function\n\n    Returns:\n        A dictionary with three keys:\n    \"\"\"\n    if not self._funcs_generated:\n        return {\n            \"status\": \"down\"\n        }\n\n    response, used_tokens = [None] * 2\n    string = self.format_instruct(\n        system=data.system,\n        instruction=data.instruction\n    )\n    for response, used_tokens in self.sample(\n            string=string,\n            greedy=data.greedy,\n            max_new_tokens=None\n    ):\n        ...\n    self.number_of_served_request_until_last_up_time += 1\n    return {\n        \"input\": f\"{string}\",\n        \"response\": response,\n        \"tokens_used\": used_tokens,\n    }\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.forward_instruct_non_api","title":"<code>forward_instruct_non_api(prompt, system, greedy)</code>","text":"<p>The forward_instruct_non_api function is a wrapper for the forward_instruct function. It takes in a prompt, system, and greedy flag as arguments and returns the response from the forward_instruct function. The purpose of this wrapper is to allow users to call forward_instruct without having to create an InstructRequest object.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>prompt</code> <p>Pass the instruction to the system</p> required <code>system</code> <p>Specify which system to use for the instruction</p> required <code>greedy</code> <p>Determine whether the system should return</p> required <p>Returns:</p> Type Description <p>The response from the forward_instruct function</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def forward_instruct_non_api(self, prompt, system, greedy):\n    \"\"\"The forward_instruct_non_api function is a wrapper for the forward_instruct function.\n    It takes in a prompt, system, and greedy flag as arguments and returns the response from\n    the forward_instruct function. The purpose of this wrapper is to allow users to call\n    forward_instruct without having to create an InstructRequest object.\n\n    Args:\n        self: Represent the instance of the class\n        prompt: Pass the instruction to the system\n        system: Specify which system to use for the instruction\n        greedy: Determine whether the system should return\n\n    Returns:\n        The response from the forward_instruct function\n    \"\"\"\n    data = InstructRequest(\n        prompt=prompt,\n        system=system,\n        greedy=greedy\n    )\n    return self.forward_instruct(data)\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.from_parameters","title":"<code>from_parameters(model, config_model, tokenizer, params, server_config=None, add_params_field=True, do_memory_log=False, shard_parameters=False, verbose=True)</code>  <code>classmethod</code>","text":"<p>The from_parameters function is used to load a model from the parameters of a pretrained model. It takes in the following arguments:     - cls: The class of the server you are loading, this should be Server or TPU_Server depending on     what backend you want to use.     - model: A FlaxPreTrainedModel object that contains all of your models functions and parameters. This can      be found in transformers/flax_utils/models/model.py         where model is replaced with whatever transformer you are using (e.g., bert). You can also create          your own custom</p> <p>Parameters:</p> Name Type Description Default <code>cls</code> <p>Create a new instance of the class</p> required <code>model</code> <code>FlaxPreTrainedModel</code> <p>transformers.FlaxPreTrainedModel: Load the model</p> required <code>config_model</code> <code>PretrainedConfig</code> <p>transformers.PretrainedConfig: Get the partition rules</p> required <code>tokenizer</code> <code>PreTrainedTokenizer</code> <p>transformers.PreTrainedTokenizer: Tokenize the input text</p> required <code>params</code> <code>Dict</code> <p>Dict: Pass in the parameters of the model</p> required <code>server_config</code> <code>JAXServerConfig</code> <p>Pass in the server_config file for the server</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add a params field to the server</p> <code>True</code> <code>do_memory_log</code> <code>bool</code> <p>bool: Log the memory usage of the server</p> <code>False</code> <code>shard_parameters</code> <code>bool</code> <p>bool: whenever a shard model parameters.</p> <code>False</code> <code>verbose</code> <code>bool</code> <p>bool: Print out the status of the compilation</p> <code>True</code> <p>Returns:</p> Type Description <code>JAXServer</code> <p>A server object</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>@classmethod\ndef from_parameters(\n        cls,\n        model: transformers.FlaxPreTrainedModel,\n        config_model: transformers.PretrainedConfig,\n        tokenizer: transformers.PreTrainedTokenizer,\n        params: Dict,\n        server_config: JAXServerConfig = None,\n        add_params_field: bool = True,\n        do_memory_log: bool = False,\n        shard_parameters: bool = False,\n        verbose: bool = True\n) -&gt; \"JAXServer\":\n    \"\"\"The from_parameters function is used to load a model from the parameters of a pretrained model.\n    It takes in the following arguments:\n        - cls: The class of the server you are loading, this should be Server or TPU_Server depending on\n        what backend you want to use.\n        - model: A FlaxPreTrainedModel object that contains all of your models functions and parameters. This can\n         be found in transformers/flax_utils/models/*model*.py\n            where *model* is replaced with whatever transformer you are using (e.g., bert). You can also create\n             your own custom\n\n    Args:\n        cls: Create a new instance of the class\n        model: transformers.FlaxPreTrainedModel: Load the model\n        config_model: transformers.PretrainedConfig: Get the\n            partition rules\n        tokenizer: transformers.PreTrainedTokenizer: Tokenize the\n            input text\n        params: Dict: Pass in the parameters of the model\n        server_config: Pass in the server_config file for the server\n        add_params_field: bool: Add a params field to the server\n        do_memory_log: bool: Log the memory usage of the server\n        shard_parameters: bool: whenever a shard model parameters.\n        verbose: bool: Print out the status of the compilation\n\n    Returns:\n        A server object\n    \"\"\"\n    assert hasattr(model, \"init_weights\"), (\n        \"model must contain init_weights func in order to init params for shard_fns\"\n    )\n    assert hasattr(config_model, \"get_partition_rules\"), (\n        \"config_model must contain get_partition_rules functions\"\n    )\n    server = cls(server_config=server_config)\n    if shard_parameters:\n        with server.mesh:\n\n            logging.info(\n                \"matching partition rules\"\n            )\n            partition_specs = match_partition_rules(params=params, rules=config_model.get_partition_rules(True))\n            shard_fns, _ = make_shard_and_gather_fns(partition_specs, get_dtype(server.server_config.dtype))\n            logging.info(\n                \"sharding parameters across all of the chosen backend(tpu/gpu/cpu)s\"\n            )\n            params = flax.traverse_util.flatten_dict(params)\n            shard_fns = flax.traverse_util.flatten_dict(shard_fns)\n            pbar = tqdm.tqdm(params.keys())\n            for key in pbar:\n                key = tuple(key)\n                params[key] = shard_fns[key](params[key])\n                if do_memory_log:\n                    pbar.write(server.get_memory())\n                pbar.set_description(\"Sharding Params\")\n            params = flax.traverse_util.unflatten_dict(params)\n    else:\n        partition_specs = jax.tree_util.tree_map(get_partitions, params)\n    server.params = {\"params\": params} if add_params_field else params\n    server.partition_specs = {\"params\": partition_specs} if add_params_field else partition_specs\n    logging.info(\n        \"configuring generate functions for the server\"\n    )\n    server.configure_generate_functions(model, tokenizer)\n    if server.server_config.pre_compile:\n        server.compile(verbose=verbose)\n    return server\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.generate","title":"<code>generate(params, input_ids, attention_mask)</code>","text":"<p>The generate function is used to generate a sequence of tokens from the model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access variables that belong to the class</p> required <code>params</code> <code>Union[FrozenDict, dict]</code> <p>Union[flax.core.FrozenDict, dict]: Pass the parameters of the model to be used in generating text</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass the input to the model</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask the padding tokens</p> required <p>Returns:</p> Type Description <p>The logits of the model</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def generate(\n        self,\n        params: Union[flax.core.FrozenDict, dict],\n        input_ids: chex.Array,\n        attention_mask: chex.Array,\n):\n    \"\"\"The generate function is used to generate a sequence of tokens from the model.\n\n    Args:\n        self: Access variables that belong to the class\n        params: Union[flax.core.FrozenDict, dict]: Pass the\n            parameters of the model to be used in generating text\n        input_ids: chex.Array: Pass the input to the model\n        attention_mask: chex.Array: Mask the padding tokens\n\n    Returns:\n        The logits of the model\n    \"\"\"\n    if not self._funcs_generated:\n        raise NotImplementedError(\n            \"this method will be implemented automatically after using ``configure_generate_functions`` function\"\n        )\n    else:\n        with self.mesh:\n            return self.generate_function(\n                params, input_ids, attention_mask\n            )\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.get_memory","title":"<code>get_memory()</code>  <code>staticmethod</code>","text":"<p>The get_memory function returns the total memory of the system in bytes.</p> <p>Returns:</p> Type Description <p>The amount of memory used by the program</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>@staticmethod\ndef get_memory():\n    \"\"\"The get_memory function returns the total memory of the system in bytes.\n\n    Returns:\n        The amount of memory used by the program\n    \"\"\"\n    return get_mem()\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.greedy_generate","title":"<code>greedy_generate(params, input_ids, attention_mask)</code>","text":"<p>The greedy_generate function is a helper function that takes in the model parameters, input_ids and attention_mask and returns the generated tokens. It uses greedy search to generate tokens one at a time.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>params</code> <code>Union[FrozenDict, dict]</code> <p>Union[flax.core.FrozenDict, dict]: Pass the parameters to the model</p> required <code>input_ids</code> <code>Array</code> <p>chex.Array: Pass in the input sequence</p> required <code>attention_mask</code> <code>Array</code> <p>chex.Array: Mask the input tokens</p> required <p>:param : Specify the parameters of the model</p> <p>Returns:</p> Type Description <p>generated_ids</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def greedy_generate(self,\n                    params: Union[flax.core.FrozenDict, dict],\n                    input_ids: chex.Array,\n                    attention_mask: chex.Array,\n                    ):\n    \"\"\"The greedy_generate function is a helper function that takes in the model parameters, input_ids and attention_mask\n    and returns the generated tokens. It uses greedy search to generate tokens one at a time.\n\n    Args:\n        self: Refer to the object itself\n        params: Union[flax.core.FrozenDict, dict]: Pass the\n            parameters to the model\n        input_ids: chex.Array: Pass in the input sequence\n        attention_mask: chex.Array: Mask the input tokens\n    :param : Specify the parameters of the model\n\n    Returns:\n        generated_ids\n    \"\"\"\n    if not self._funcs_generated:\n        raise NotImplementedError(\n            \"this method will be implemented automatically after using ``configure_generate_functions`` function\"\n        )\n    else:\n        with self.mesh:\n            return self.greedy_generate_function(\n                params, input_ids, attention_mask\n            )\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.load","title":"<code>load(model, config_model, tokenizer, path, server_config=None, add_params_field=True, init_shape=(1, 1), do_memory_log=False, verbose=True)</code>  <code>classmethod</code>","text":"<p>The load function is used to load a pretrained model from disk.</p> <p>Parameters:</p> Name Type Description Default <code>cls</code> <p>Refer to the class itself</p> required <code>model</code> <code>FlaxPreTrainedModel</code> <p>transformers.FlaxPreTrainedModel: Initialize the server</p> required <code>config_model</code> <code>PretrainedConfig</code> <p>transformers.PretrainedConfig: Get the partition rules</p> required <code>tokenizer</code> <code>PreTrainedTokenizer</code> <p>transformers.PreTrainedTokenizer: Load the tokenizer from the model</p> required <code>path</code> <code>Union[str, PathLike]</code> <p>Union[str, os.PathLike]: Specify the path to the checkpoint file</p> required <code>server_config</code> <p>Configure the server</p> <code>None</code> <code>add_params_field</code> <code>bool</code> <p>bool: Add a params field to the server</p> <code>True</code> <code>init_shape</code> <code>tuple</code> <p>tuple: Specify the shape of the input to be used for generating shard_fns</p> <code>(1, 1)</code> <code>do_memory_log</code> <code>bool</code> <p>bool: Log the memory usage of the server</p> <code>False</code> <code>verbose</code> <code>bool</code> <p>bool: Print the compilation process</p> <code>True</code> <p>Returns:</p> Type Description <code>JAXServer</code> <p>A server</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>@classmethod\ndef load(\n        cls,\n        model: transformers.FlaxPreTrainedModel,\n        config_model: transformers.PretrainedConfig,\n        tokenizer: transformers.PreTrainedTokenizer,\n        path: Union[str, os.PathLike],\n        server_config=None,\n        add_params_field: bool = True,\n        init_shape: tuple = (1, 1),\n        do_memory_log: bool = False,\n        verbose: bool = True\n) -&gt; \"JAXServer\":\n    \"\"\"The load function is used to load a pretrained model from disk.\n\n    Args:\n        cls: Refer to the class itself\n        model: transformers.FlaxPreTrainedModel: Initialize the\n            server\n        config_model: transformers.PretrainedConfig: Get the\n            partition rules\n        tokenizer: transformers.PreTrainedTokenizer: Load the\n            tokenizer from the model\n        path: Union[str, os.PathLike]: Specify the path to the\n            checkpoint file\n        server_config: Configure the server\n        add_params_field: bool: Add a params field to the server\n        init_shape: tuple: Specify the shape of the input to be used\n            for generating shard_fns\n        do_memory_log: bool: Log the memory usage of the server\n        verbose: bool: Print the compilation process\n\n    Returns:\n        A server\n    \"\"\"\n    assert hasattr(model,\n                   \"init_weights\"), \"model must contain init_weights func in order to init params for shard_fns\"\n    assert hasattr(config_model,\n                   \"get_partition_rules\"), \"config_model must contain get_partition_rules functions\"\n    server = cls(server_config=server_config)\n    logging.info(\n        \"running _init() func in order to make shard_fns\"\n    )\n    with jax.default_device(jax.devices(\"cpu\")[0]):\n        def _init():\n            return model.init_weights(jax.random.PRNGKey(0), init_shape)\n\n        shape = jax.eval_shape(_init)\n    logging.info(\n        \"matching partition rules\"\n    )\n    rules = match_partition_rules(params=shape, rules=config_model.get_partition_rules(True))\n\n    with server.mesh:\n        shard_fns, _ = make_shard_and_gather_fns(rules, get_dtype(server.server_config.dtype))\n        logging.info(\n            \"loading checkpoints\"\n        )\n\n        shard_fns = flax.traverse_util.flatten_dict(shard_fns)\n        server.params = {}\n        with open(path, \"rb\") as stream:\n            unpacker = msgpack.Unpacker(stream, read_size=83886080, max_buffer_size=0)\n            pbar = tqdm.tqdm(unpacker)\n            for key, value in pbar:\n                key = tuple(key)\n                tensor = from_bytes(None, value)\n                tensor = shard_fns[key](tensor)\n                server.params[key] = tensor\n                if do_memory_log:\n                    pbar.write(server.get_memory())\n                pbar.set_description(\"Sharding Params\")\n    server.params = flax.traverse_util.unflatten_dict(server.params)\n    server.params = {\"params\": server.params} if add_params_field else server.params\n\n    server.rules = {\"params\": rules} if add_params_field else rules\n    logging.info(\n        \"configuring generate functions for the server\"\n    )\n    server.configure_generate_functions(model, tokenizer)\n\n    if server.server_config.pre_compile:\n        server.compile(verbose=verbose)\n    return server\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.sample","title":"<code>sample(string, *, greedy=False, max_new_tokens=None, **kwargs)</code>","text":"<p>The sample function is the main function of a model. It takes in an input string and returns a list of strings that are generated from that input string. The sample function can be called multiple times with different inputs, and each time it will return a new set of outputs based on those inputs.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access the class attributes</p> required <code>string</code> <code>str</code> <p>str: Pass the string that we want to generate</p> required <code></code> <p>Pass a variable number of arguments to a function</p> required <code>greedy</code> <code>bool</code> <p>bool: Determine whether to use the greedy or non- greedy version of the generate function</p> <code>False</code> <code>max_new_tokens</code> <code>int</code> <p>int: Set the number of tokens to generate</p> <code>None</code> <code>**kwargs</code> <p>Pass any additional parameters to the sample function</p> <code>{}</code> <p>Returns:</p> Type Description <p>A generator that yields the predicted text and the number of</p> <p>tokens generated</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def sample(self,\n           string: str,\n           *,\n           greedy: bool = False,\n           max_new_tokens: int = None,\n           **kwargs\n           ):\n    \"\"\"The sample function is the main function of a model. It takes in an input string and returns a list of strings\n    that are generated from that input string. The sample function can be called multiple times with different inputs,\n    and each time it will return a new set of outputs based on those inputs.\n\n    Args:\n        self: Access the class attributes\n        string: str: Pass the string that we want to generate\n        : Pass a variable number of arguments to a function\n        greedy: bool: Determine whether to use the greedy or non-\n            greedy version of the generate function\n        max_new_tokens: int: Set the number of tokens to generate\n        **kwargs: Pass any additional parameters to the sample\n            function\n\n    Returns:\n        A generator that yields the predicted text and the number of\n        tokens generated\n    \"\"\"\n\n    fixed_pad = self.server_config.max_sequence_length - self.server_config.max_compile_tokens\n    tokens = self.prefix_tokenizer(\n        [string] * self.server_config.batch_size,\n        max_length=fixed_pad,\n        padding=\"max_length\",\n        return_tensors=\"jax\"\n    ) if self.server_config.use_prefix_tokenizer else self.tokenizer(\n        [string] * self.server_config.batch_size,\n        return_tensors=\"jax\"\n    )\n\n    input_ids = tokens.input_ids\n    attention_mask = tokens.attention_mask\n    num_generated_tokens = 0\n\n    for _ in range((max_new_tokens or self.server_config.max_new_tokens) // self.server_config.max_compile_tokens):\n        inputs_to_gen = dict(\n            params=self.params,\n            input_ids=input_ids,\n            attention_mask=attention_mask\n        )\n        predicted_token = self.greedy_generate(**inputs_to_gen) if greedy else self.generate(**inputs_to_gen)\n        predicted_token = predicted_token[\n            predicted_token != self.tokenizer.pad_token_id if (\n                    self.server_config.pad_token_id is None\n            ) else predicted_token != self.server_config.pad_token_id\n        ]\n        if predicted_token.ndim == 1:\n            predicted_token = predicted_token.reshape(self.server_config.batch_size, -1)\n        num_generated_tokens += predicted_token.shape[-1]\n        plus_attn_mask = jnp.ones((len(attention_mask), self.server_config.max_compile_tokens), dtype=jnp.int32)\n\n        input_ids = jnp.concatenate(\n            (input_ids, predicted_token), axis=-1\n        )[:, -fixed_pad:]\n\n        attention_mask = jnp.concatenate(\n            (attention_mask, plus_attn_mask), dtype=jnp.int32,\n            axis=-1\n        )[:, -fixed_pad:]\n\n        returns = (\n            self.tokenizer.batch_decode(input_ids[:, -num_generated_tokens:], skip_special_tokens=True),\n            num_generated_tokens\n        )\n\n        yield returns\n\n        if self.server_config.use_mxn_break_point:\n            if predicted_token.shape[-1] != self.server_config.max_compile_tokens:\n                break\n\n        if (\n                predicted_token[0][-1] == (self.server_config.eos_token_id or self.tokenizer.eos_token_id)\n                or\n                predicted_token[0][-1] == (self.server_config.eos_token_id or self.prefix_tokenizer.eos_token_id)\n        ):\n            break\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.shard_params","title":"<code>shard_params(params, partition_rules)</code>","text":"<p>The shard_params function takes in a set of parameters and a partition rule. The partition rule is used to determine how the parameters should be sharded across devices. For example, if we have two devices, one with 4GB of memory and another with 8GB of memory, we may want to shard our model such that the device with more memory has more parameters on it. This function returns an updated version of params where each parameter is now stored on its own device.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Bind the instance of the class to a method</p> required <code>params</code> <p>Pass the parameters of the model to be sharded</p> required <code>partition_rules</code> <p>Specify how the parameters should be partitioned</p> required <p>Returns:</p> Type Description <p>The sharded parameters</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def shard_params(self, params, partition_rules):\n\n    \"\"\"The shard_params function takes in a set of parameters and a partition rule.\n    The partition rule is used to determine how the parameters should be sharded across devices.\n    For example, if we have two devices, one with 4GB of memory and another with 8GB of memory,\n    we may want to shard our model such that the device with more memory has more parameters on it.\n    This function returns an updated version of params where each parameter is now stored on its own device.\n\n    Args:\n        self: Bind the instance of the class to a method\n        params: Pass the parameters of the model to be sharded\n        partition_rules: Specify how the parameters should be\n            partitioned\n\n    Returns:\n        The sharded parameters\n    \"\"\"\n    logging.log(\n        logging.INFO,\n        \"the parameters will be sharded and ba saved inside server you can access them by ``JAXServer.params``\")\n    rules = match_partition_rules(params=params, rules=partition_rules)\n    self.partition_specs = rules\n    shard_fns, _ = make_shard_and_gather_fns(rules, get_dtype(self.server_config.dtype))\n\n    with self.mesh:\n        self.params = jax.tree_map(\n            lambda f, p: f(p), shard_fns, params\n        )\n\n    return self.params\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServer.status","title":"<code>status()</code>","text":"The status function returns a dictionary with the following keys <p>server_config: A dictionary containing all the configuration parameters for this server. devices: A string describing which devices are available to JAX. number_of_backends: The number of backends available to JAX.  This is usually equal to the number of GPUs on your machine, but can be less if you have not installed CUDA or if you have disabled some GPUs in your  system BIOS settings (e.g., because they are defective).  It can also be more than one if you have multiple   machines connected via MPI and running under Horov</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>A dictionary with the following keys:</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def status(self):\n    \"\"\"The status function returns a dictionary with the following keys:\n        server_config: A dictionary containing all the configuration parameters for this server.\n        devices: A string describing which devices are available to JAX.\n        number_of_backends: The number of backends available to JAX.  This is usually equal to the number of GPUs\n        on your machine, but can be less if you have not installed CUDA or if you have disabled some GPUs in your\n         system BIOS settings (e.g., because they are defective).  It can also be more than one if you have multiple\n          machines connected via MPI and running under Horov\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A dictionary with the following keys:\n    \"\"\"\n    return {\n        \"server_config\": {k: v for k, v in self.server_config.__dict__.items()},\n        \"devices\": f\"{jax.devices()}\",\n        \"number_of_backends\": len(jax.devices()),\n        \"status\": \"Ready\",\n        \"number_of_served_request_until_last_up_time\": f\"{self.number_of_served_request_until_last_up_time}\",\n        \"memory\": f\"{get_mem()}\"\n    }\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServerConfig","title":"<code>JAXServerConfig</code>  <code>dataclass</code>","text":"<p>:param host: str: Set the host address of the server :param port: int: Specify the port number that the server will run on :param batch_size: int: Set the batch size of the model :param max_sequence_length: int: Set the maximum length of the text that can be generated :param max_new_tokens: int: Determine how many tokens can be added to the vocabulary :param max_compile_tokens: int: Set the maximum number of tokens that can be streamed at a time :param generation_ps: PartitionSpec : PartitionSpec to use for sharding data :param temperature: float: Control the randomness of the output :param top_p: float: Control the diversity of the text generated :param top_k: int: Limit the number of tokens that can be generated :param logging: bool: Print out the progress of the server :param mesh_axes_names: Sequence[str]: Specify the names of the axes in the mesh tensor :param mesh_axes_shape: Sequence[int]: Specify the shape of the mesh :param dtype: str: Specify the data type of the model :param stream_tokens_for_gradio: bool: Determine whether the stream tokens :param use_prefix_tokenizer: bool: Determine if the tokenizer should be used to generate tokens :param pre_compile: bool: Pre-compile the model</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>@dataclass\nclass JAXServerConfig:\n    \"\"\"\n    :param host: str: Set the host address of the server\n    :param port: int: Specify the port number that the server will run on\n    :param batch_size: int: Set the batch size of the model\n    :param max_sequence_length: int: Set the maximum length of the text that can be generated\n    :param max_new_tokens: int: Determine how many tokens can be added to the vocabulary\n    :param max_compile_tokens: int: Set the maximum number of tokens that can be streamed at a time\n    :param generation_ps: PartitionSpec : PartitionSpec to use for sharding data\n    :param temperature: float: Control the randomness of the output\n    :param top_p: float: Control the diversity of the text generated\n    :param top_k: int: Limit the number of tokens that can be generated\n    :param logging: bool: Print out the progress of the server\n    :param mesh_axes_names: Sequence[str]: Specify the names of the axes in the mesh tensor\n    :param mesh_axes_shape: Sequence[int]: Specify the shape of the mesh\n    :param dtype: str: Specify the data type of the model\n    :param stream_tokens_for_gradio: bool: Determine whether the stream tokens\n    :param use_prefix_tokenizer: bool: Determine if the tokenizer should be used to generate tokens\n    :param pre_compile: bool: Pre-compile the model\n    \"\"\"\n    host: str = \"0.0.0.0\"\n    port: int = 2059\n    batch_size: int = 1\n\n    max_sequence_length: int = 4096\n    max_new_tokens: int = 4096\n    max_compile_tokens: int = 64\n    temperature: float = 0.4\n    top_p: float = 0.95\n    top_k: int = 50\n    repetition_penalty: float = 1.2\n\n    eos_token_id: Optional[int] = None\n    pad_token_id: Optional[int] = None\n    bos_token_id: Optional[int] = None\n\n    logging: bool = True\n\n    mesh_axes_names: Sequence[str] = (\"dp\", \"fsdp\", \"tp\", \"sp\")\n    mesh_axes_shape: Sequence[int] = (1, 1, 1, -1)\n    generation_ps: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\")\n\n    dtype: Union[jnp.dtype, str] = \"fp16\"\n\n    stream_tokens_for_gradio: bool = True\n    use_prefix_tokenizer: bool = True\n    pre_compile: bool = True\n\n    use_mxn_break_point: bool = True\n\n    def __post_init__(self):\n        assert self.max_new_tokens % self.max_compile_tokens == 0, (\n            f\"max_new_tokens should be divisible by max_compile_tokens  {self.max_new_tokens % self.max_compile_tokens}\"\n        )\n\n    def __repr__(self):\n\n        \"\"\"\n        The __repr__ function is used to generate a string representation of an object.\n        This function should return a string that can be parsed by the Python interpreter\n        to recreate the object. The __repr__ function is called when you use print() on an\n        object, or when you type its name in the REPL.\n\n        :param self: Refer to the instance of the class\n        :return: A string representation of the object\n        \"\"\"\n        string = f\"{self.__class__.__name__}(\\n\"\n        for k, v in self.__dict__.items():\n            if not k.startswith(\"_\"):\n\n                try:\n                    repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                    string += repr_src if len(repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n                except TypeError:\n                    ...\n\n        return string + \")\"\n\n    def __str__(self):\n\n        \"\"\"\n        The __str__ function is called when you use the print function or when str() is used.\n        It should return a string representation of the object.\n\n        :param self: Refer to the instance of the class\n        :return: The object's string representation\n        \"\"\"\n        return self.__repr__()\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServerConfig.__repr__","title":"<code>__repr__()</code>","text":"<p>The repr function is used to generate a string representation of an object. This function should return a string that can be parsed by the Python interpreter to recreate the object. The repr function is called when you use print() on an object, or when you type its name in the REPL.</p> <p>:param self: Refer to the instance of the class :return: A string representation of the object</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def __repr__(self):\n\n    \"\"\"\n    The __repr__ function is used to generate a string representation of an object.\n    This function should return a string that can be parsed by the Python interpreter\n    to recreate the object. The __repr__ function is called when you use print() on an\n    object, or when you type its name in the REPL.\n\n    :param self: Refer to the instance of the class\n    :return: A string representation of the object\n    \"\"\"\n    string = f\"{self.__class__.__name__}(\\n\"\n    for k, v in self.__dict__.items():\n        if not k.startswith(\"_\"):\n\n            try:\n                repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                string += repr_src if len(repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n            except TypeError:\n                ...\n\n    return string + \")\"\n</code></pre>"},{"location":"generated-serve-jax_serve/#src.python.easydel.serve.jax_serve.JAXServerConfig.__str__","title":"<code>__str__()</code>","text":"<p>The str function is called when you use the print function or when str() is used. It should return a string representation of the object.</p> <p>:param self: Refer to the instance of the class :return: The object's string representation</p> Source code in <code>src/python/easydel/serve/jax_serve.py</code> <pre><code>def __str__(self):\n\n    \"\"\"\n    The __str__ function is called when you use the print function or when str() is used.\n    It should return a string representation of the object.\n\n    :param self: Refer to the instance of the class\n    :return: The object's string representation\n    \"\"\"\n    return self.__repr__()\n</code></pre>"},{"location":"generated-serve-prompters-base_prompter/","title":"serve.prompters.base_prompter","text":""},{"location":"generated-serve-prompters-base_prompter/#src.python.easydel.serve.prompters.base_prompter.BasePrompter","title":"<code>BasePrompter</code>","text":"<p>               Bases: <code>ABC</code></p> Source code in <code>src/python/easydel/serve/prompters/base_prompter.py</code> <pre><code>class BasePrompter(abc.ABC):\n    def __init__(\n            self,\n            prompter_type: str,\n            user_message_token: str,\n            assistant_message_token: str,\n            end_of_turn_token: Optional[str] = None,\n    ):\n        self.prompter_type = prompter_type\n        self.user_message_token = user_message_token\n        self.assistant_message_token = assistant_message_token\n        self.end_of_turn_token = end_of_turn_token\n\n    @abstractmethod\n    def format_history_prefix(\n            self,\n            history: list[list[str]],\n            system_message: str,\n    ) -&gt; str:\n        raise NotImplementedError(\"NotImplementedYet !\")\n\n    @abstractmethod\n    def format_message(\n            self,\n            prompt: str,\n            history: list[list[str]],\n            system_message: Optional[str],\n            prefix: Optional[str]\n    ) -&gt; str:\n        raise NotImplementedError(\"NotImplementedYet !\")\n\n    def content_finder(\n            self,\n            prompt: str,\n            formatted_prompt: str,\n            history: list[list[str]],\n            system_message: str,\n            external_data: Union[str, Any]\n    ) -&gt; str:\n        raise NotImplementedError(\"NotImplementedYet !\")\n\n    def filter_response(\n            self,\n            response: str,\n    ) -&gt; str:\n        response = response.replace(\n            self.user_message_token, \"\"\n        ).replace(\n            self.assistant_message_token, \"\"\n        )\n        return response\n\n    def get_stop_signs(self) -&gt; List[str]:\n        return [self.user_message_token, self.end_of_turn_token, self.assistant_message_token]\n\n    def retrival_qa_template(\n            self,\n            question: str,\n            contexts: list[str],\n            base_question: Optional[str] = None,\n            context_seperator_char: str = \"\\n\"\n    ):\n        base_question = base_question or (\n            \"Use the following pieces of context to answer the question at the end. If you don't know the answer, \"\n            \"just say that you don't know, don't try to make up an answer.\\n\\n{context}\\n\\nQuestion: {question}\"\n        )\n        assert isinstance(contexts, list), \"provide a list of strings\"\n        context = context_seperator_char.join(context for context in contexts)\n\n        return self.user_message_token + base_question.format(\n            context=context,\n            question=question\n        ) + self.assistant_message_token\n\n    def __repr__(self):\n        \"\"\"The __repr__ function is used to generate a string representation of an object.\n        This function should return a string that can be parsed by the Python interpreter\n        to recreate the object. The __repr__ function is called when you use print() on an\n        object, or when you type its name in the REPL.\n\n        Args:\n            self: Refer to the instance of the class\n\n        Returns:\n            A string representation of the object\n        \"\"\"\n        string = f\"{self.__class__.__name__}(\\n\"\n        for k, v in self.__dict__.items():\n            if not k.startswith(\"_\"):\n                try:\n                    repr_src = f\"\\t{k} : \" + \\\n                               v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                    string += repr_src if len(\n                        repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n                except TypeError:\n                    ...\n        return string + \")\"\n\n    def __str__(self):\n        \"\"\"The __str__ function is called when you use the print function or when str() is used.\n        It should return a string representation of the object.\n\n        Args:\n            self: Refer to the instance of the class\n\n        Returns:\n            The object's string representation\n        \"\"\"\n        return self.__repr__()\n</code></pre>"},{"location":"generated-serve-prompters-base_prompter/#src.python.easydel.serve.prompters.base_prompter.BasePrompter.__repr__","title":"<code>__repr__()</code>","text":"<p>The repr function is used to generate a string representation of an object. This function should return a string that can be parsed by the Python interpreter to recreate the object. The repr function is called when you use print() on an object, or when you type its name in the REPL.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <p>Returns:</p> Type Description <p>A string representation of the object</p> Source code in <code>src/python/easydel/serve/prompters/base_prompter.py</code> <pre><code>def __repr__(self):\n    \"\"\"The __repr__ function is used to generate a string representation of an object.\n    This function should return a string that can be parsed by the Python interpreter\n    to recreate the object. The __repr__ function is called when you use print() on an\n    object, or when you type its name in the REPL.\n\n    Args:\n        self: Refer to the instance of the class\n\n    Returns:\n        A string representation of the object\n    \"\"\"\n    string = f\"{self.__class__.__name__}(\\n\"\n    for k, v in self.__dict__.items():\n        if not k.startswith(\"_\"):\n            try:\n                repr_src = f\"\\t{k} : \" + \\\n                           v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                string += repr_src if len(\n                    repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n            except TypeError:\n                ...\n    return string + \")\"\n</code></pre>"},{"location":"generated-serve-prompters-base_prompter/#src.python.easydel.serve.prompters.base_prompter.BasePrompter.__str__","title":"<code>__str__()</code>","text":"<p>The str function is called when you use the print function or when str() is used. It should return a string representation of the object.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <p>Returns:</p> Type Description <p>The object's string representation</p> Source code in <code>src/python/easydel/serve/prompters/base_prompter.py</code> <pre><code>def __str__(self):\n    \"\"\"The __str__ function is called when you use the print function or when str() is used.\n    It should return a string representation of the object.\n\n    Args:\n        self: Refer to the instance of the class\n\n    Returns:\n        The object's string representation\n    \"\"\"\n    return self.__repr__()\n</code></pre>"},{"location":"generated-serve-prompters-cargo_prompter/","title":"serve.prompters.cargo_prompter","text":""},{"location":"generated-serve-prompters-chatml_prompter/","title":"serve.prompters.chatml_prompter","text":""},{"location":"generated-serve-prompters-gemma_prompter/","title":"serve.prompters.gemma_prompter","text":""},{"location":"generated-serve-prompters-guanaco_prompter/","title":"serve.prompters.guanaco_prompter","text":""},{"location":"generated-serve-prompters-llama2_prompter/","title":"serve.prompters.llama2_prompter","text":""},{"location":"generated-serve-prompters-openchat_prompter/","title":"serve.prompters.openchat_prompter","text":""},{"location":"generated-serve-prompters-zephyr_prompter/","title":"serve.prompters.zephyr_prompter","text":""},{"location":"generated-serve-serve_engine-client/","title":"serve.serve_engine.client","text":""},{"location":"generated-serve-serve_engine-configuration/","title":"serve.serve_engine.configuration","text":""},{"location":"generated-serve-serve_engine-configuration/#src.python.easydel.serve.serve_engine.configuration.EasyServeConfig","title":"<code>EasyServeConfig</code>  <code>dataclass</code>","text":"<p>Parameters:</p> Name Type Description Default <code>host</code> <code>str</code> <p>str: Set the host address of the server</p> <code>'0.0.0.0'</code> <code>port</code> <code>int</code> <p>int: Specify the port number that the server will run on</p> <code>2059</code> <code>batch_size</code> <code>int</code> <p>int: Set the batch size of the model</p> <code>1</code> <code>max_sequence_length</code> <code>int</code> <p>int: Set the maximum length of the text that can be generated</p> <code>4096</code> <code>max_new_tokens</code> <code>int</code> <p>int: Determine how many tokens can be added to the vocabulary</p> <code>4096</code> <code>max_compile_tokens</code> <code>int</code> <p>int: Set the maximum number of tokens that can be streamed at a time</p> <code>64</code> <code>generation_ps</code> <code>PartitionSpec</code> <p>jax.sharding.PartitionSpec : PartitionSpec to use for sharding data</p> <code>PartitionSpec('dp', 'fsdp')</code> <code>temperature</code> <code>float</code> <p>float: Control the randomness of the output</p> <code>0.1</code> <code>top_p</code> <code>float</code> <p>float: Control the diversity of the text generated</p> <code>0.95</code> <code>top_k</code> <code>int</code> <p>int: Limit the number of tokens that can be generated</p> <code>50</code> <code>logging</code> <code>bool</code> <p>bool: Print out the progress of the server</p> <code>True</code> <code>mesh_axes_names</code> <code>Sequence[str]</code> <p>Sequence[str]: Specify the names of the axes in the mesh tensor</p> <code>('dp', 'fsdp', 'tp', 'sp')</code> <code>mesh_axes_shape</code> <code>Sequence[int]</code> <p>Sequence[int]: Specify the shape of the mesh</p> <code>(1, -1, 1, 1)</code> <code>dtype</code> <code>str</code> <p>str: Specify the data type of the model</p> <code>'fp16'</code> <code>use_prefix_tokenizer</code> <code>bool</code> <p>bool: Determine if the tokenizer should be used to generate tokens</p> <code>True</code> <code>pre_compile</code> <code>bool</code> <p>bool: Pre-compile the model</p> <code>True</code> <p>Returns:</p> Type Description <p>Nothing</p> Source code in <code>src/python/easydel/serve/serve_engine/configuration.py</code> <pre><code>@dataclass\nclass EasyServeConfig:\n    \"\"\"\n    Args:\n        host: str: Set the host address of the server\n        port: int: Specify the port number that the server will run on\n        batch_size: int: Set the batch size of the model\n        max_sequence_length: int: Set the maximum length of the text\n            that can be generated\n        max_new_tokens: int: Determine how many tokens can be added to\n            the vocabulary\n        max_compile_tokens: int: Set the maximum number of tokens that\n            can be streamed at a time\n        generation_ps: jax.sharding.PartitionSpec : PartitionSpec to use\n            for sharding data\n        temperature: float: Control the randomness of the output\n        top_p: float: Control the diversity of the text generated\n        top_k: int: Limit the number of tokens that can be generated\n        logging: bool: Print out the progress of the server\n        mesh_axes_names: Sequence[str]: Specify the names of the axes in\n            the mesh tensor\n        mesh_axes_shape: Sequence[int]: Specify the shape of the mesh\n        dtype: str: Specify the data type of the model\n        use_prefix_tokenizer: bool: Determine if the tokenizer should be\n            used to generate tokens\n        pre_compile: bool: Pre-compile the model\n\n    Returns:\n        Nothing\n    \"\"\"\n    host: str = \"0.0.0.0\"\n    port: int = 2059\n\n    batch_size: int = 1\n    max_sequence_length: int = 4096\n    max_new_tokens: int = 4096\n    max_compile_tokens: int = 64\n    temperature: float = 0.1\n    top_p: float = 0.95\n    top_k: int = 50\n    repetition_penalty: float = 1.2\n    greedy: bool = False\n\n    logging: bool = True\n\n    mesh_axes_names: Sequence[str] = (\"dp\", \"fsdp\", \"tp\", \"sp\")\n    mesh_axes_shape: Sequence[int] = (1, -1, 1, 1)\n    generation_ps: PartitionSpec = PartitionSpec(\"dp\", \"fsdp\")\n    dtype: str = \"fp16\"\n\n    eos_token_id: Optional[int] = None\n    pad_token_id: Optional[int] = None\n    bos_token_id: Optional[int] = None\n\n    use_prefix_tokenizer: bool = True\n    pre_compile: bool = True\n\n    verbose: bool = True\n\n    use_mxn_break_point: bool = True\n\n    def __repr__(self):\n\n        \"\"\"The __repr__ function is used to generate a string representation of an object.\n        This function should return a string that can be parsed by the Python interpreter\n        to recreate the object. The __repr__ function is called when you use print() on an\n        object, or when you type its name in the REPL.\n\n        Args:\n            self: Refer to the instance of the class\n\n        Returns:\n            A string representation of the object\n        \"\"\"\n        string = f\"{self.__class__.__name__}(\\n\"\n        for k, v in self.__dict__.items():\n            if not k.startswith(\"_\"):\n\n                try:\n                    repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                    string += repr_src if len(repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n                except TypeError:\n                    ...\n\n        return string + \")\"\n\n    def __str__(self):\n\n        \"\"\"The __str__ function is called when you use the print function or when str() is used.\n        It should return a string representation of the object.\n\n        Args:\n            self: Refer to the instance of the class\n\n        Returns:\n            The object's string representation\n        \"\"\"\n        return self.__repr__()\n</code></pre>"},{"location":"generated-serve-serve_engine-configuration/#src.python.easydel.serve.serve_engine.configuration.EasyServeConfig.__repr__","title":"<code>__repr__()</code>","text":"<p>The repr function is used to generate a string representation of an object. This function should return a string that can be parsed by the Python interpreter to recreate the object. The repr function is called when you use print() on an object, or when you type its name in the REPL.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <p>Returns:</p> Type Description <p>A string representation of the object</p> Source code in <code>src/python/easydel/serve/serve_engine/configuration.py</code> <pre><code>def __repr__(self):\n\n    \"\"\"The __repr__ function is used to generate a string representation of an object.\n    This function should return a string that can be parsed by the Python interpreter\n    to recreate the object. The __repr__ function is called when you use print() on an\n    object, or when you type its name in the REPL.\n\n    Args:\n        self: Refer to the instance of the class\n\n    Returns:\n        A string representation of the object\n    \"\"\"\n    string = f\"{self.__class__.__name__}(\\n\"\n    for k, v in self.__dict__.items():\n        if not k.startswith(\"_\"):\n\n            try:\n                repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                string += repr_src if len(repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n            except TypeError:\n                ...\n\n    return string + \")\"\n</code></pre>"},{"location":"generated-serve-serve_engine-configuration/#src.python.easydel.serve.serve_engine.configuration.EasyServeConfig.__str__","title":"<code>__str__()</code>","text":"<p>The str function is called when you use the print function or when str() is used. It should return a string representation of the object.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <p>Returns:</p> Type Description <p>The object's string representation</p> Source code in <code>src/python/easydel/serve/serve_engine/configuration.py</code> <pre><code>def __str__(self):\n\n    \"\"\"The __str__ function is called when you use the print function or when str() is used.\n    It should return a string representation of the object.\n\n    Args:\n        self: Refer to the instance of the class\n\n    Returns:\n        The object's string representation\n    \"\"\"\n    return self.__repr__()\n</code></pre>"},{"location":"generated-serve-serve_engine-serve/","title":"serve.serve_engine.serve","text":""},{"location":"generated-serve-serve_engine-serve/#src.python.easydel.serve.serve_engine.serve.EasyServe","title":"<code>EasyServe</code>","text":"Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code> <pre><code>class EasyServe:\n    def __init__(\n            self,\n            llm: EasyDeLFlaxPretrainedModel,\n            params: Union[FrozenDict, dict],\n            tokenizer: PreTrainedTokenizerBase,\n            prefix_tokenizer: PreTrainedTokenizerBase,\n            greedy_generate_function: Callable,\n            non_greedy_generate_function: Callable,\n            serve_config: EasyServeConfig,\n    ):\n        self.llm = llm\n        self.params = params\n        self.tokenizer = tokenizer\n        self.prefix_tokenizer = prefix_tokenizer\n        self.greedy_generate_function = greedy_generate_function\n        self.non_greedy_generate_function = non_greedy_generate_function\n        self.serve_config = serve_config\n        if serve_config.pre_compile:\n            self.compile(verbose=serve_config.verbose)\n\n    def get_generation_function(self, greedy: bool):\n        return self.greedy_generate_function if greedy else self.non_greedy_generate_function\n\n    def conversation_template(self, conversation: List[Dict]) -&gt; str:\n        \"\"\"The conversation_template function takes a list of ConversationItem objects and returns a string.\n        where system message, user message, and assistant message are the content fields of the ConversationItem objects.\n        If there is no system message in the conversation, then it will be omitted from the template.\n\n        Args:\n            self: Refer to the current instance of a class\n            conversation: List[ConversationItem]: Pass in the\n                conversation items\n\n        Returns:\n            A string that is a concatenation of the messages in the\n            conversation\n        \"\"\"\n        return self.tokenizer.apply_chat_template(\n            conversation=conversation,\n            add_generation_prompt=True,\n            tokenize=False\n        )\n\n    async def generate(self, socket):\n        data = json.loads(await socket.recv())\n        prompt = self.conversation_template(data[\"conversation\"])\n        max_new_tokens = data.get(\"max_new_tokens\", None) or self.serve_config.max_new_tokens\n        greedy = data.get(\"greedy\", None) or self.serve_config.greedy\n        start = time.time()\n        send_data = {}\n        prl_res = 0\n        for response, num_token_generated in self.sample(\n                string=prompt,\n                max_new_tokens=max_new_tokens,\n                greedy=greedy,\n\n        ):\n            generation_duration = time.time() - start\n            tokens_pre_second = num_token_generated / generation_duration\n\n            send_data = {\n                \"response\": response[prl_res:],\n                \"num_token_generated\": num_token_generated,\n                \"greedy\": greedy,\n                \"model_prompt\": prompt,\n                \"generation_duration\": generation_duration,\n                \"tokens_pre_second\": tokens_pre_second,\n                \"done\": False\n            }\n            prl_res += len(response)\n            await socket.send(json.dumps(send_data))\n\n        send_data[\"done\"] = True\n        send_data[\"response\"] = \"\"\n        await socket.send(json.dumps(send_data))\n\n    async def handle_client(self, socket: websocket.WebSocket, path: str):\n        try:\n            logger.info(\"connection open\")\n            if path == \"/stream/v1/conversation\":\n                await self.generate(socket)\n            elif path == \"/\":\n                await socket.send(json.dumps({\"status\": \"AgentX server is Running...\"}))\n            else:\n                await socket.send(json.dumps({\"error\": f\"invalid path {path}\"}))\n        except websockets.ConnectionClosed:\n            logger.info(\"connection closed\")\n        except Exception as e:\n            logger.warning(f\"Error: {e}\")\n\n    @staticmethod\n    def create_shard_and_gather_functions(\n            parameters: dict,\n            partition_rules: Tuple[Tuple[str, PartitionSpec]],\n            dtype: Union[jax.numpy.dtype, str] = \"fp16\"\n    ):\n\n        \"\"\"The create_shard_and_gather_functions function takes in a dictionary of parameters,\n        a tuple of partition rules, and an optional dtype. It then matches the partition rules to the\n        parameters and creates shard functions for each parameter. The shard functions are used to\n        split up a parameter into shards (or partitions) that can be stored on different devices.\n        The gather function is used to combine all the shards back together again.\n\n        Args:\n            parameters: dict: Specify the parameters of the model\n            partition_rules: Tuple[Tuple[str,  PartitionSpec]]: Specify\n                which parameters to partition\n            dtype: jax.numpy.dtype | str: Specify the data type of the\n                parameters\n\n        Returns:\n            A tuple of three elements:\n        \"\"\"\n        partition_specs = match_partition_rules(partition_rules, parameters)\n        shard_fns, gather_fns = make_shard_and_gather_fns(\n            partition_specs=partition_specs,\n            dtype_specs=get_dtype(dtype)\n        )\n        return shard_fns, gather_fns, partition_specs\n\n    @staticmethod\n    def shard_parameters(\n            mesh: Mesh,\n            params: Union[FrozenDict, dict],\n            partition_rules: Tuple[Tuple[str, PartitionSpec]],\n            serve_config: EasyServeConfig,\n    ):\n\n        \"\"\"The shard_parameters function takes a set of parameters and partitions them according to the partition_rules.\n\n        Args:\n            mesh: Mesh: Create a mesh object that is used to shard the\n                parameters\n            params: FrozenDict | dict: Pass in the parameters of the\n                model\n            partition_rules: Tuple[Tuple[str, PartitionSpec]]: Specify\n                the partitioning rules for each parameter\n            serve_config: EasyServeConfig: Specify the dtype of the\n                parameters\n        :param : Create a mesh of devices\n\n        Returns:\n            sharded parameters\n        \"\"\"\n\n        partition_specs = match_partition_rules(params=params, rules=partition_rules)\n        shard_fns, _ = make_shard_and_gather_fns(partition_specs, get_dtype(serve_config.dtype))\n\n        with mesh:\n            params = jax.tree_map(\n                lambda func, param: func(param), shard_fns, params\n            )\n\n        return params\n\n    @staticmethod\n    def create_generation_functions_and_tokenizers(\n            model: EasyDeLFlaxPretrainedModel,\n            tokenizer: PreTrainedTokenizerBase,\n            serve_config: EasyServeConfig,\n            partition_specs: dict[str, PartitionSpec]\n    ) -&gt; LLMBaseReq:\n        \"\"\"The create_generation_functions_and_tokenizers function is used to create the functions that will be used for\n        generation. It also creates a tokenizer object that can be used to encode and decode text. The function takes in\n        a model, a tokenizer, an EasyServeConfig object (which contains all the parameters needed for generation), and\n        partition_specs which are specifications about how data should be partitioned across devices.\n\n        Args:\n            model: EasyDeLFlaxPretrainedModel: Create the model and\n                tokenizer\n            tokenizer: PreTrainedTokenizerBase: Create a tokenizer\n                object\n            serve_config: EasyServeConfig: Create the generation\n                function\n            partition_specs: dict[str, PartitionSpec]: Specify the\n                sharding of the model parameters\n\n        Returns:\n            An LLMBaseReq object\n        \"\"\"\n        if tokenizer.pad_token is None:\n            logging.info(\n                \"Tokenizer does not contain padding token setting padding token to eos token for open end generation\")\n            tokenizer.pad_token = tokenizer.eos_token\n\n        try:\n            tokenizer.padding_side = \"left\"\n            tokenizer.truncation_side = \"left\"\n            prefix_tokenizer = copy.deepcopy(tokenizer)\n            tokenizer.padding_side = \"right\"\n            tokenizer.truncation_side = \"right\"\n            tokenizer = copy.deepcopy(tokenizer)\n\n        except:\n            warnings.warn(\n                f\"The class Model of Tokenizer {type(tokenizer)} do not support deepcopy option \"\n            )\n            if serve_config.use_prefix_tokenizer:\n                tokenizer.padding_side = \"left\"\n                tokenizer.truncation_side = \"left\"\n            else:\n                tokenizer.padding_side = \"right\"\n                tokenizer.truncation_side = \"right\"\n            prefix_tokenizer = tokenizer\n\n        @functools.partial(\n            pjit,\n            in_shardings=(partition_specs, PartitionSpec(), PartitionSpec()),\n            out_shardings=(PartitionSpec())\n        )\n        def greedy_generate_function(\n                parameters,\n                input_ids,\n                attention_mask\n        ):\n            input_ids = with_sharding_constraint(input_ids, serve_config.generation_ps)\n            attention_mask = with_sharding_constraint(attention_mask, serve_config.generation_ps)\n            predict = model.generate(\n                input_ids,\n                attention_mask=attention_mask,\n                params=parameters,\n                generation_config=GenerationConfig(\n                    max_new_tokens=serve_config.max_compile_tokens,\n\n                    eos_token_id=serve_config.eos_token_id or tokenizer.eos_token_id,\n                    pad_token_id=serve_config.pad_token_id or tokenizer.pad_token_id,\n                    bos_token_id=serve_config.bos_token_id or tokenizer.bos_token_id,\n\n                    do_sample=False,\n                    num_beams=1,\n                )\n            ).sequences[:, input_ids.shape[1]:]\n            return predict\n\n        @functools.partial(\n            pjit,\n            in_shardings=(partition_specs, PartitionSpec(), PartitionSpec()),\n            out_shardings=(PartitionSpec())\n        )\n        def non_greedy_generate_function(\n                parameters,\n                input_ids,\n                attention_mask\n        ):\n            input_ids = with_sharding_constraint(input_ids, serve_config.generation_ps)\n            attention_mask = with_sharding_constraint(attention_mask, serve_config.generation_ps)\n            predict = model.generate(\n                input_ids,\n                attention_mask=attention_mask,\n                params=parameters,\n                generation_config=GenerationConfig(\n                    max_new_tokens=serve_config.max_compile_tokens,\n\n                    eos_token_id=serve_config.eos_token_id or tokenizer.eos_token_id,\n                    pad_token_id=serve_config.pad_token_id or tokenizer.pad_token_id,\n                    bos_token_id=serve_config.bos_token_id or tokenizer.bos_token_id,\n\n                    temperature=serve_config.temperature,\n                    repetition_penalty=serve_config.repetition_penalty,\n                    do_sample=True,\n                    num_beams=1,\n                    top_p=serve_config.top_p,\n                    top_k=serve_config.top_k,\n                )\n            ).sequences[:, input_ids.shape[1]:]\n            return predict\n\n        return LLMBaseReq(\n            greedy_generate_function=greedy_generate_function,\n            non_greedy_generate_function=non_greedy_generate_function,\n            tokenizer=tokenizer,\n            prefix_tokenizer=prefix_tokenizer\n        )\n\n    @classmethod\n    def from_parameters(\n            cls,\n            llm: EasyDeLFlaxPretrainedModel,\n            params: dict,\n            tokenizer: PreTrainedTokenizerBase,\n            serve_config: EasyServeConfig,\n            partition_rules: Tuple[Tuple[str, PartitionSpec]],\n            shard_parameters: bool = True,\n    ):\n\n        \"\"\"The from_parameters function is the main entry point for creating a model that can be served.\n        It takes in a pretrained model, parameters, tokenizer and serve_config as input and returns an object of type\n        EasyServe.\n\n        Args:\n            cls: Create a new instance of the class\n            llm: EasyDeLFlaxPretrainedModel: Pass the model to the class\n            params: dict: Pass the parameters of the model\n            tokenizer: PreTrainedTokenizerBase: Create the tokenizer and\n                prefix_tokenizer\n            serve_config: EasyServeConfig: Configure the model for\n                serving\n            partition_rules: Tuple[Tuple[str, PartitionSpec]]: Partition\n                the parameters of the model\n            shard_parameters: bool: Specify whether the parameters\n                should be sharded or not\n        :param : Shard the parameters of the model\n\n        Returns:\n            A EasyServe object\n        \"\"\"\n        shard_fns, gather_fns, partition_specs = cls.create_shard_and_gather_functions(\n            parameters=params,\n            partition_rules=partition_rules,\n            dtype=serve_config.dtype\n        )\n        llm_base_req = cls.create_generation_functions_and_tokenizers(\n            model=llm,\n            tokenizer=tokenizer,\n            partition_specs=partition_specs,\n            serve_config=serve_config\n        )\n\n        if shard_parameters:\n            params = cls.shard_parameters(\n                params=params,\n                partition_rules=partition_rules,\n                serve_config=serve_config,\n                mesh=llm.config.jax_mesh()\n            )\n\n        return cls(\n            llm=llm,\n            serve_config=serve_config,\n            tokenizer=llm_base_req.tokenizer,\n            prefix_tokenizer=llm_base_req.prefix_tokenizer,\n            params=params,\n            greedy_generate_function=llm_base_req.greedy_generate_function,\n            non_greedy_generate_function=llm_base_req.non_greedy_generate_function,\n        )\n\n    def sample(\n            self,\n            string: str,\n            *,\n            greedy: bool = False,\n            max_new_tokens: int = None,\n            **kwargs\n    ):\n        \"\"\"The process function is the main function of a model. It takes in an input string and returns a list of strings\n        that are generated from that input string. The process function can be called multiple times with different inputs,\n        and each time it will return a new set of outputs based on those inputs.\n\n        Args:\n            self: Access the class attributes\n            string: str: Pass the string that we want to generate\n            greedy: bool: Determine whether to use the greedy or non-\n                greedy version of the generate function\n            max_new_tokens: int: Set the number of tokens to generate\n            **kwargs: Pass any additional parameters to the process\n                function\n\n        Returns:\n            A generator that yields the predicted text and the number of\n            tokens generated\n        \"\"\"\n        with self.llm.config.jax_mesh():\n            fixed_pad = self.serve_config.max_sequence_length - self.serve_config.max_compile_tokens\n            tokens = self.prefix_tokenizer(\n                string,\n                max_length=fixed_pad,\n                padding=\"max_length\",\n                return_tensors=\"jax\"\n            ) if self.serve_config.use_prefix_tokenizer else self.tokenizer(\n                string,\n                return_tensors=\"jax\"\n            )\n\n            input_ids = tokens.input_ids\n            attention_mask = tokens.attention_mask\n            num_generated_tokens = 0\n\n            for _ in range(\n                    (max_new_tokens or self.serve_config.max_new_tokens) // self.serve_config.max_compile_tokens):\n\n                predicted_token = self.get_generation_function(greedy=greedy)(\n                    self.params,\n                    input_ids,\n                    attention_mask\n                )\n\n                num_generated_tokens += predicted_token.shape[-1]\n                plus_attn_mask = jnp.ones(\n                    (len(attention_mask), self.serve_config.max_compile_tokens),\n                    dtype=\"i4\"\n                )\n\n                input_ids = jnp.concatenate(\n                    (input_ids, predicted_token), dtype=\"i4\",\n                    axis=-1\n                )[:, -fixed_pad:]\n\n                attention_mask = jnp.concatenate(\n                    (attention_mask, plus_attn_mask), dtype=\"i4\",\n                    axis=-1\n                )[:, -fixed_pad:]\n\n                returns = (\n                    self.tokenizer.decode(\n                        input_ids[0][-num_generated_tokens:],  # type:ignore\n                        skip_special_tokens=True\n                    ),\n                    num_generated_tokens\n                )\n\n                yield returns\n\n                if self.serve_config.use_mxn_break_point:\n                    if self.serve_config.max_compile_tokens != predicted_token.shape[-1]:\n                        break\n                if (\n                        predicted_token[0][-1] == (self.serve_config.eos_token_id or self.tokenizer.eos_token_id)\n                        or\n                        predicted_token[0][-1] == (self.serve_config.eos_token_id or self.prefix_tokenizer.eos_token_id)\n                ):\n                    break\n\n    def compile(self, verbose: bool = True) -&gt; bool:\n        \"\"\"The compile function is used to compile the model for use in inference.\n        It does this by running through all possible combinations of rules and actions,\n        and compiling them into functions that can be called later on during inference.\n        This allows us to avoid having to recompile the model every time we want to run it,\n        which would be very slow.\n\n        Args:\n            self: Represent the instance of the class\n            verbose: bool: Print out the compiling process\n\n        Returns:\n            True, but what does it do?\n        \"\"\"\n        if self.serve_config.use_prefix_tokenizer:\n            if verbose:\n                logger.info(\"Compiling greedy generate function\")\n            response, tokens = [None] * 2\n            for response, tokens in self.sample(\n                    string=\"\",\n                    max_new_tokens=self.serve_config.max_compile_tokens,\n                    greedy=True\n            ):\n                ...\n            if verbose:\n                logger.info(\"Compiling non-greedy generate function\")\n            for response, tokens in self.sample(\n                    string=\"\",\n                    max_new_tokens=self.serve_config.max_compile_tokens,\n                    greedy=False\n            ):\n                ...\n\n        else:\n            warnings.warn(\n                \"Skip Compiling the compiling process is useless \"\n                \"when you are not using prefix tokenizer\",\n            )\n        return True\n\n    def __repr__(self):\n\n        \"\"\"The __repr__ function is used to generate a string representation of an object.\n        This function should return a string that can be parsed by the Python interpreter\n        to recreate the object. The __repr__ function is called when you use print() on an\n        object, or when you type its name in the REPL.\n\n        Args:\n            self: Refer to the instance of the class\n\n        Returns:\n            A string representation of the object\n        \"\"\"\n        string = f\"{self.__class__.__name__}(\\n\"\n        for k, v in self.__dict__.items():\n            if not k.startswith(\"_\"):\n                try:\n                    repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                    string += repr_src if len(repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n                except TypeError:\n                    ...\n        return string + \")\"\n\n    def __str__(self):\n\n        \"\"\"The __str__ function is called when you use the print function or when str() is used.\n        It should return a string representation of the object.\n\n        Args:\n            self: Refer to the instance of the class\n\n        Returns:\n            The object's string representation\n        \"\"\"\n        return self.__repr__()\n\n    def fire(self):\n        async def run_engine():\n            async with websockets.serve(self.handle_client, self.serve_config.host, self.serve_config.port) as ws:\n                logger.info(f\"Starting EasyDeL websocket server on {self.serve_config.host}:{self.serve_config.port}\")\n                await ws.wait_closed()\n\n        asyncio.run(run_engine())\n</code></pre>"},{"location":"generated-serve-serve_engine-serve/#src.python.easydel.serve.serve_engine.serve.EasyServe.__repr__","title":"<code>__repr__()</code>","text":"<p>The repr function is used to generate a string representation of an object. This function should return a string that can be parsed by the Python interpreter to recreate the object. The repr function is called when you use print() on an object, or when you type its name in the REPL.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <p>Returns:</p> Type Description <p>A string representation of the object</p> Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code> <pre><code>def __repr__(self):\n\n    \"\"\"The __repr__ function is used to generate a string representation of an object.\n    This function should return a string that can be parsed by the Python interpreter\n    to recreate the object. The __repr__ function is called when you use print() on an\n    object, or when you type its name in the REPL.\n\n    Args:\n        self: Refer to the instance of the class\n\n    Returns:\n        A string representation of the object\n    \"\"\"\n    string = f\"{self.__class__.__name__}(\\n\"\n    for k, v in self.__dict__.items():\n        if not k.startswith(\"_\"):\n            try:\n                repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                string += repr_src if len(repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n            except TypeError:\n                ...\n    return string + \")\"\n</code></pre>"},{"location":"generated-serve-serve_engine-serve/#src.python.easydel.serve.serve_engine.serve.EasyServe.__str__","title":"<code>__str__()</code>","text":"<p>The str function is called when you use the print function or when str() is used. It should return a string representation of the object.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the instance of the class</p> required <p>Returns:</p> Type Description <p>The object's string representation</p> Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code> <pre><code>def __str__(self):\n\n    \"\"\"The __str__ function is called when you use the print function or when str() is used.\n    It should return a string representation of the object.\n\n    Args:\n        self: Refer to the instance of the class\n\n    Returns:\n        The object's string representation\n    \"\"\"\n    return self.__repr__()\n</code></pre>"},{"location":"generated-serve-serve_engine-serve/#src.python.easydel.serve.serve_engine.serve.EasyServe.compile","title":"<code>compile(verbose=True)</code>","text":"<p>The compile function is used to compile the model for use in inference. It does this by running through all possible combinations of rules and actions, and compiling them into functions that can be called later on during inference. This allows us to avoid having to recompile the model every time we want to run it, which would be very slow.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>verbose</code> <code>bool</code> <p>bool: Print out the compiling process</p> <code>True</code> <p>Returns:</p> Type Description <code>bool</code> <p>True, but what does it do?</p> Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code> <pre><code>def compile(self, verbose: bool = True) -&gt; bool:\n    \"\"\"The compile function is used to compile the model for use in inference.\n    It does this by running through all possible combinations of rules and actions,\n    and compiling them into functions that can be called later on during inference.\n    This allows us to avoid having to recompile the model every time we want to run it,\n    which would be very slow.\n\n    Args:\n        self: Represent the instance of the class\n        verbose: bool: Print out the compiling process\n\n    Returns:\n        True, but what does it do?\n    \"\"\"\n    if self.serve_config.use_prefix_tokenizer:\n        if verbose:\n            logger.info(\"Compiling greedy generate function\")\n        response, tokens = [None] * 2\n        for response, tokens in self.sample(\n                string=\"\",\n                max_new_tokens=self.serve_config.max_compile_tokens,\n                greedy=True\n        ):\n            ...\n        if verbose:\n            logger.info(\"Compiling non-greedy generate function\")\n        for response, tokens in self.sample(\n                string=\"\",\n                max_new_tokens=self.serve_config.max_compile_tokens,\n                greedy=False\n        ):\n            ...\n\n    else:\n        warnings.warn(\n            \"Skip Compiling the compiling process is useless \"\n            \"when you are not using prefix tokenizer\",\n        )\n    return True\n</code></pre>"},{"location":"generated-serve-serve_engine-serve/#src.python.easydel.serve.serve_engine.serve.EasyServe.conversation_template","title":"<code>conversation_template(conversation)</code>","text":"<p>The conversation_template function takes a list of ConversationItem objects and returns a string. where system message, user message, and assistant message are the content fields of the ConversationItem objects. If there is no system message in the conversation, then it will be omitted from the template.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the current instance of a class</p> required <code>conversation</code> <code>List[Dict]</code> <p>List[ConversationItem]: Pass in the conversation items</p> required <p>Returns:</p> Type Description <code>str</code> <p>A string that is a concatenation of the messages in the</p> <code>str</code> <p>conversation</p> Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code> <pre><code>def conversation_template(self, conversation: List[Dict]) -&gt; str:\n    \"\"\"The conversation_template function takes a list of ConversationItem objects and returns a string.\n    where system message, user message, and assistant message are the content fields of the ConversationItem objects.\n    If there is no system message in the conversation, then it will be omitted from the template.\n\n    Args:\n        self: Refer to the current instance of a class\n        conversation: List[ConversationItem]: Pass in the\n            conversation items\n\n    Returns:\n        A string that is a concatenation of the messages in the\n        conversation\n    \"\"\"\n    return self.tokenizer.apply_chat_template(\n        conversation=conversation,\n        add_generation_prompt=True,\n        tokenize=False\n    )\n</code></pre>"},{"location":"generated-serve-serve_engine-serve/#src.python.easydel.serve.serve_engine.serve.EasyServe.create_generation_functions_and_tokenizers","title":"<code>create_generation_functions_and_tokenizers(model, tokenizer, serve_config, partition_specs)</code>  <code>staticmethod</code>","text":"<p>The create_generation_functions_and_tokenizers function is used to create the functions that will be used for generation. It also creates a tokenizer object that can be used to encode and decode text. The function takes in a model, a tokenizer, an EasyServeConfig object (which contains all the parameters needed for generation), and partition_specs which are specifications about how data should be partitioned across devices.</p> <p>Parameters:</p> Name Type Description Default <code>model</code> <code>EasyDeLFlaxPretrainedModel</code> <p>EasyDeLFlaxPretrainedModel: Create the model and tokenizer</p> required <code>tokenizer</code> <code>PreTrainedTokenizerBase</code> <p>PreTrainedTokenizerBase: Create a tokenizer object</p> required <code>serve_config</code> <code>EasyServeConfig</code> <p>EasyServeConfig: Create the generation function</p> required <code>partition_specs</code> <code>dict[str, PartitionSpec]</code> <p>dict[str, PartitionSpec]: Specify the sharding of the model parameters</p> required <p>Returns:</p> Type Description <code>LLMBaseReq</code> <p>An LLMBaseReq object</p> Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code> <pre><code>@staticmethod\ndef create_generation_functions_and_tokenizers(\n        model: EasyDeLFlaxPretrainedModel,\n        tokenizer: PreTrainedTokenizerBase,\n        serve_config: EasyServeConfig,\n        partition_specs: dict[str, PartitionSpec]\n) -&gt; LLMBaseReq:\n    \"\"\"The create_generation_functions_and_tokenizers function is used to create the functions that will be used for\n    generation. It also creates a tokenizer object that can be used to encode and decode text. The function takes in\n    a model, a tokenizer, an EasyServeConfig object (which contains all the parameters needed for generation), and\n    partition_specs which are specifications about how data should be partitioned across devices.\n\n    Args:\n        model: EasyDeLFlaxPretrainedModel: Create the model and\n            tokenizer\n        tokenizer: PreTrainedTokenizerBase: Create a tokenizer\n            object\n        serve_config: EasyServeConfig: Create the generation\n            function\n        partition_specs: dict[str, PartitionSpec]: Specify the\n            sharding of the model parameters\n\n    Returns:\n        An LLMBaseReq object\n    \"\"\"\n    if tokenizer.pad_token is None:\n        logging.info(\n            \"Tokenizer does not contain padding token setting padding token to eos token for open end generation\")\n        tokenizer.pad_token = tokenizer.eos_token\n\n    try:\n        tokenizer.padding_side = \"left\"\n        tokenizer.truncation_side = \"left\"\n        prefix_tokenizer = copy.deepcopy(tokenizer)\n        tokenizer.padding_side = \"right\"\n        tokenizer.truncation_side = \"right\"\n        tokenizer = copy.deepcopy(tokenizer)\n\n    except:\n        warnings.warn(\n            f\"The class Model of Tokenizer {type(tokenizer)} do not support deepcopy option \"\n        )\n        if serve_config.use_prefix_tokenizer:\n            tokenizer.padding_side = \"left\"\n            tokenizer.truncation_side = \"left\"\n        else:\n            tokenizer.padding_side = \"right\"\n            tokenizer.truncation_side = \"right\"\n        prefix_tokenizer = tokenizer\n\n    @functools.partial(\n        pjit,\n        in_shardings=(partition_specs, PartitionSpec(), PartitionSpec()),\n        out_shardings=(PartitionSpec())\n    )\n    def greedy_generate_function(\n            parameters,\n            input_ids,\n            attention_mask\n    ):\n        input_ids = with_sharding_constraint(input_ids, serve_config.generation_ps)\n        attention_mask = with_sharding_constraint(attention_mask, serve_config.generation_ps)\n        predict = model.generate(\n            input_ids,\n            attention_mask=attention_mask,\n            params=parameters,\n            generation_config=GenerationConfig(\n                max_new_tokens=serve_config.max_compile_tokens,\n\n                eos_token_id=serve_config.eos_token_id or tokenizer.eos_token_id,\n                pad_token_id=serve_config.pad_token_id or tokenizer.pad_token_id,\n                bos_token_id=serve_config.bos_token_id or tokenizer.bos_token_id,\n\n                do_sample=False,\n                num_beams=1,\n            )\n        ).sequences[:, input_ids.shape[1]:]\n        return predict\n\n    @functools.partial(\n        pjit,\n        in_shardings=(partition_specs, PartitionSpec(), PartitionSpec()),\n        out_shardings=(PartitionSpec())\n    )\n    def non_greedy_generate_function(\n            parameters,\n            input_ids,\n            attention_mask\n    ):\n        input_ids = with_sharding_constraint(input_ids, serve_config.generation_ps)\n        attention_mask = with_sharding_constraint(attention_mask, serve_config.generation_ps)\n        predict = model.generate(\n            input_ids,\n            attention_mask=attention_mask,\n            params=parameters,\n            generation_config=GenerationConfig(\n                max_new_tokens=serve_config.max_compile_tokens,\n\n                eos_token_id=serve_config.eos_token_id or tokenizer.eos_token_id,\n                pad_token_id=serve_config.pad_token_id or tokenizer.pad_token_id,\n                bos_token_id=serve_config.bos_token_id or tokenizer.bos_token_id,\n\n                temperature=serve_config.temperature,\n                repetition_penalty=serve_config.repetition_penalty,\n                do_sample=True,\n                num_beams=1,\n                top_p=serve_config.top_p,\n                top_k=serve_config.top_k,\n            )\n        ).sequences[:, input_ids.shape[1]:]\n        return predict\n\n    return LLMBaseReq(\n        greedy_generate_function=greedy_generate_function,\n        non_greedy_generate_function=non_greedy_generate_function,\n        tokenizer=tokenizer,\n        prefix_tokenizer=prefix_tokenizer\n    )\n</code></pre>"},{"location":"generated-serve-serve_engine-serve/#src.python.easydel.serve.serve_engine.serve.EasyServe.create_shard_and_gather_functions","title":"<code>create_shard_and_gather_functions(parameters, partition_rules, dtype='fp16')</code>  <code>staticmethod</code>","text":"<p>The create_shard_and_gather_functions function takes in a dictionary of parameters, a tuple of partition rules, and an optional dtype. It then matches the partition rules to the parameters and creates shard functions for each parameter. The shard functions are used to split up a parameter into shards (or partitions) that can be stored on different devices. The gather function is used to combine all the shards back together again.</p> <p>Parameters:</p> Name Type Description Default <code>parameters</code> <code>dict</code> <p>dict: Specify the parameters of the model</p> required <code>partition_rules</code> <code>Tuple[Tuple[str, PartitionSpec]]</code> <p>Tuple[Tuple[str,  PartitionSpec]]: Specify which parameters to partition</p> required <code>dtype</code> <code>Union[dtype, str]</code> <p>jax.numpy.dtype | str: Specify the data type of the parameters</p> <code>'fp16'</code> <p>Returns:</p> Type Description <p>A tuple of three elements:</p> Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code> <pre><code>@staticmethod\ndef create_shard_and_gather_functions(\n        parameters: dict,\n        partition_rules: Tuple[Tuple[str, PartitionSpec]],\n        dtype: Union[jax.numpy.dtype, str] = \"fp16\"\n):\n\n    \"\"\"The create_shard_and_gather_functions function takes in a dictionary of parameters,\n    a tuple of partition rules, and an optional dtype. It then matches the partition rules to the\n    parameters and creates shard functions for each parameter. The shard functions are used to\n    split up a parameter into shards (or partitions) that can be stored on different devices.\n    The gather function is used to combine all the shards back together again.\n\n    Args:\n        parameters: dict: Specify the parameters of the model\n        partition_rules: Tuple[Tuple[str,  PartitionSpec]]: Specify\n            which parameters to partition\n        dtype: jax.numpy.dtype | str: Specify the data type of the\n            parameters\n\n    Returns:\n        A tuple of three elements:\n    \"\"\"\n    partition_specs = match_partition_rules(partition_rules, parameters)\n    shard_fns, gather_fns = make_shard_and_gather_fns(\n        partition_specs=partition_specs,\n        dtype_specs=get_dtype(dtype)\n    )\n    return shard_fns, gather_fns, partition_specs\n</code></pre>"},{"location":"generated-serve-serve_engine-serve/#src.python.easydel.serve.serve_engine.serve.EasyServe.from_parameters","title":"<code>from_parameters(llm, params, tokenizer, serve_config, partition_rules, shard_parameters=True)</code>  <code>classmethod</code>","text":"<p>The from_parameters function is the main entry point for creating a model that can be served. It takes in a pretrained model, parameters, tokenizer and serve_config as input and returns an object of type EasyServe.</p> <p>Parameters:</p> Name Type Description Default <code>cls</code> <p>Create a new instance of the class</p> required <code>llm</code> <code>EasyDeLFlaxPretrainedModel</code> <p>EasyDeLFlaxPretrainedModel: Pass the model to the class</p> required <code>params</code> <code>dict</code> <p>dict: Pass the parameters of the model</p> required <code>tokenizer</code> <code>PreTrainedTokenizerBase</code> <p>PreTrainedTokenizerBase: Create the tokenizer and prefix_tokenizer</p> required <code>serve_config</code> <code>EasyServeConfig</code> <p>EasyServeConfig: Configure the model for serving</p> required <code>partition_rules</code> <code>Tuple[Tuple[str, PartitionSpec]]</code> <p>Tuple[Tuple[str, PartitionSpec]]: Partition the parameters of the model</p> required <code>shard_parameters</code> <code>bool</code> <p>bool: Specify whether the parameters should be sharded or not</p> <code>True</code> <p>:param : Shard the parameters of the model</p> <p>Returns:</p> Type Description <p>A EasyServe object</p> Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code> <pre><code>@classmethod\ndef from_parameters(\n        cls,\n        llm: EasyDeLFlaxPretrainedModel,\n        params: dict,\n        tokenizer: PreTrainedTokenizerBase,\n        serve_config: EasyServeConfig,\n        partition_rules: Tuple[Tuple[str, PartitionSpec]],\n        shard_parameters: bool = True,\n):\n\n    \"\"\"The from_parameters function is the main entry point for creating a model that can be served.\n    It takes in a pretrained model, parameters, tokenizer and serve_config as input and returns an object of type\n    EasyServe.\n\n    Args:\n        cls: Create a new instance of the class\n        llm: EasyDeLFlaxPretrainedModel: Pass the model to the class\n        params: dict: Pass the parameters of the model\n        tokenizer: PreTrainedTokenizerBase: Create the tokenizer and\n            prefix_tokenizer\n        serve_config: EasyServeConfig: Configure the model for\n            serving\n        partition_rules: Tuple[Tuple[str, PartitionSpec]]: Partition\n            the parameters of the model\n        shard_parameters: bool: Specify whether the parameters\n            should be sharded or not\n    :param : Shard the parameters of the model\n\n    Returns:\n        A EasyServe object\n    \"\"\"\n    shard_fns, gather_fns, partition_specs = cls.create_shard_and_gather_functions(\n        parameters=params,\n        partition_rules=partition_rules,\n        dtype=serve_config.dtype\n    )\n    llm_base_req = cls.create_generation_functions_and_tokenizers(\n        model=llm,\n        tokenizer=tokenizer,\n        partition_specs=partition_specs,\n        serve_config=serve_config\n    )\n\n    if shard_parameters:\n        params = cls.shard_parameters(\n            params=params,\n            partition_rules=partition_rules,\n            serve_config=serve_config,\n            mesh=llm.config.jax_mesh()\n        )\n\n    return cls(\n        llm=llm,\n        serve_config=serve_config,\n        tokenizer=llm_base_req.tokenizer,\n        prefix_tokenizer=llm_base_req.prefix_tokenizer,\n        params=params,\n        greedy_generate_function=llm_base_req.greedy_generate_function,\n        non_greedy_generate_function=llm_base_req.non_greedy_generate_function,\n    )\n</code></pre>"},{"location":"generated-serve-serve_engine-serve/#src.python.easydel.serve.serve_engine.serve.EasyServe.sample","title":"<code>sample(string, *, greedy=False, max_new_tokens=None, **kwargs)</code>","text":"<p>The process function is the main function of a model. It takes in an input string and returns a list of strings that are generated from that input string. The process function can be called multiple times with different inputs, and each time it will return a new set of outputs based on those inputs.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access the class attributes</p> required <code>string</code> <code>str</code> <p>str: Pass the string that we want to generate</p> required <code>greedy</code> <code>bool</code> <p>bool: Determine whether to use the greedy or non- greedy version of the generate function</p> <code>False</code> <code>max_new_tokens</code> <code>int</code> <p>int: Set the number of tokens to generate</p> <code>None</code> <code>**kwargs</code> <p>Pass any additional parameters to the process function</p> <code>{}</code> <p>Returns:</p> Type Description <p>A generator that yields the predicted text and the number of</p> <p>tokens generated</p> Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code> <pre><code>def sample(\n        self,\n        string: str,\n        *,\n        greedy: bool = False,\n        max_new_tokens: int = None,\n        **kwargs\n):\n    \"\"\"The process function is the main function of a model. It takes in an input string and returns a list of strings\n    that are generated from that input string. The process function can be called multiple times with different inputs,\n    and each time it will return a new set of outputs based on those inputs.\n\n    Args:\n        self: Access the class attributes\n        string: str: Pass the string that we want to generate\n        greedy: bool: Determine whether to use the greedy or non-\n            greedy version of the generate function\n        max_new_tokens: int: Set the number of tokens to generate\n        **kwargs: Pass any additional parameters to the process\n            function\n\n    Returns:\n        A generator that yields the predicted text and the number of\n        tokens generated\n    \"\"\"\n    with self.llm.config.jax_mesh():\n        fixed_pad = self.serve_config.max_sequence_length - self.serve_config.max_compile_tokens\n        tokens = self.prefix_tokenizer(\n            string,\n            max_length=fixed_pad,\n            padding=\"max_length\",\n            return_tensors=\"jax\"\n        ) if self.serve_config.use_prefix_tokenizer else self.tokenizer(\n            string,\n            return_tensors=\"jax\"\n        )\n\n        input_ids = tokens.input_ids\n        attention_mask = tokens.attention_mask\n        num_generated_tokens = 0\n\n        for _ in range(\n                (max_new_tokens or self.serve_config.max_new_tokens) // self.serve_config.max_compile_tokens):\n\n            predicted_token = self.get_generation_function(greedy=greedy)(\n                self.params,\n                input_ids,\n                attention_mask\n            )\n\n            num_generated_tokens += predicted_token.shape[-1]\n            plus_attn_mask = jnp.ones(\n                (len(attention_mask), self.serve_config.max_compile_tokens),\n                dtype=\"i4\"\n            )\n\n            input_ids = jnp.concatenate(\n                (input_ids, predicted_token), dtype=\"i4\",\n                axis=-1\n            )[:, -fixed_pad:]\n\n            attention_mask = jnp.concatenate(\n                (attention_mask, plus_attn_mask), dtype=\"i4\",\n                axis=-1\n            )[:, -fixed_pad:]\n\n            returns = (\n                self.tokenizer.decode(\n                    input_ids[0][-num_generated_tokens:],  # type:ignore\n                    skip_special_tokens=True\n                ),\n                num_generated_tokens\n            )\n\n            yield returns\n\n            if self.serve_config.use_mxn_break_point:\n                if self.serve_config.max_compile_tokens != predicted_token.shape[-1]:\n                    break\n            if (\n                    predicted_token[0][-1] == (self.serve_config.eos_token_id or self.tokenizer.eos_token_id)\n                    or\n                    predicted_token[0][-1] == (self.serve_config.eos_token_id or self.prefix_tokenizer.eos_token_id)\n            ):\n                break\n</code></pre>"},{"location":"generated-serve-serve_engine-serve/#src.python.easydel.serve.serve_engine.serve.EasyServe.shard_parameters","title":"<code>shard_parameters(mesh, params, partition_rules, serve_config)</code>  <code>staticmethod</code>","text":"<p>The shard_parameters function takes a set of parameters and partitions them according to the partition_rules.</p> <p>Parameters:</p> Name Type Description Default <code>mesh</code> <code>Mesh</code> <p>Mesh: Create a mesh object that is used to shard the parameters</p> required <code>params</code> <code>Union[FrozenDict, dict]</code> <p>FrozenDict | dict: Pass in the parameters of the model</p> required <code>partition_rules</code> <code>Tuple[Tuple[str, PartitionSpec]]</code> <p>Tuple[Tuple[str, PartitionSpec]]: Specify the partitioning rules for each parameter</p> required <code>serve_config</code> <code>EasyServeConfig</code> <p>EasyServeConfig: Specify the dtype of the parameters</p> required <p>:param : Create a mesh of devices</p> <p>Returns:</p> Type Description <p>sharded parameters</p> Source code in <code>src/python/easydel/serve/serve_engine/serve.py</code> <pre><code>@staticmethod\ndef shard_parameters(\n        mesh: Mesh,\n        params: Union[FrozenDict, dict],\n        partition_rules: Tuple[Tuple[str, PartitionSpec]],\n        serve_config: EasyServeConfig,\n):\n\n    \"\"\"The shard_parameters function takes a set of parameters and partitions them according to the partition_rules.\n\n    Args:\n        mesh: Mesh: Create a mesh object that is used to shard the\n            parameters\n        params: FrozenDict | dict: Pass in the parameters of the\n            model\n        partition_rules: Tuple[Tuple[str, PartitionSpec]]: Specify\n            the partitioning rules for each parameter\n        serve_config: EasyServeConfig: Specify the dtype of the\n            parameters\n    :param : Create a mesh of devices\n\n    Returns:\n        sharded parameters\n    \"\"\"\n\n    partition_specs = match_partition_rules(params=params, rules=partition_rules)\n    shard_fns, _ = make_shard_and_gather_fns(partition_specs, get_dtype(serve_config.dtype))\n\n    with mesh:\n        params = jax.tree_map(\n            lambda func, param: func(param), shard_fns, params\n        )\n\n    return params\n</code></pre>"},{"location":"generated-serve-torch_serve/","title":"serve.torch_serve","text":""},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServer","title":"<code>PyTorchServer</code>","text":"<p>               Bases: <code>GradioUserInference</code></p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>class PyTorchServer(GradioUserInference):\n\n    def __init__(self, server_config: PyTorchServerConfig):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It sets up the instance of the class, and defines all its attributes.\n        The __init__ function can accept arguments, which are passed at instantiation.\n\n        Args:\n            self: Represent the instance of the class\n            server_config: PyTorchServerConfig: Pass the configuration\n                parameters to the class\n\n        Returns:\n            The app, which is a fastapi object\n        \"\"\"\n        self.model, self.tokenizer = [None] * 2\n\n        self.server_config = server_config\n        self.process_uvicorn = None\n        self.app = FastAPI()\n        self.number_of_served_request_until_last_up_time = 0\n        self.device_rolling = self.get_gpu_memory(self.server_config.max_number_of_gpus)\n        self.dict_max_memory_sharding = {\n            i: str(\n                int(\n                    mem * self.server_config.max_gpu_perc_to_use\n                )\n            ) + \"GiB\" for i, mem in\n            enumerate(self.device_rolling)\n        }\n        self.app.post(\"/chat\")(self.forward_chat_fast_api)\n        self.app.post(\"/instruct\")(self.forward_instruct_fast_api)\n        self.app.get(\"/status\")(self.status)\n        self.app = gr.mount_gradio_app(self.app, self.gradio_inference(), \"/gradio_chat\")\n\n    @staticmethod\n    def get_gpu_memory(num_gpus_req=None):\n\n        \"\"\"The get_gpu_memory function returns the amount of available GPU memory in GB.\n\n        Args:\n            num_gpus_req: Specify the number of gpus to be used\n\n        Returns:\n            The amount of free memory on each gpu\n        \"\"\"\n        gpu_m = []\n        dc = torch.cuda.device_count()\n        num_gpus = torch.cuda.device_count() if num_gpus_req is None else min(num_gpus_req, dc)\n\n        for gpu_id in range(num_gpus):\n            with torch.cuda.device(gpu_id):\n                gpu_properties = torch.cuda.get_device_properties(torch.cuda.current_device())\n                gpu_m.append(\n                    (gpu_properties.total_memory / (1024 ** 3)) - (torch.cuda.memory_allocated() / (1024 ** 3)))\n        return gpu_m\n\n    def get_model_load_kwargs(self):\n        \"\"\"The get_model_load_kwargs function is used to set the torch_dtype, device_map and max_memory parameters for loading a model.\n\n        Args:\n            self: Bind the method to an object\n\n        Returns:\n            A dictionary with the following keys:\n        \"\"\"\n        if self.server_config.dtype == \"fp16\":\n            dtype = torch.float16\n        elif self.server_config.dtype == \"fp32\":\n            dtype = torch.float32\n        elif self.server_config.dtype == \"bf16\":\n            dtype = torch.bfloat16\n        else:\n            raise ValueError(\"unknown type available types are [fp32 fp16 bf16]\")\n        load_kwargs = {\n            \"torch_dtype\": dtype,\n            \"device_map\": \"auto\",\n            \"max_memory\": self.dict_max_memory_sharding\n        }\n        return load_kwargs\n\n    def status(self):\n\n        \"\"\"The status function returns a dictionary with the following keys:\n            server_config: A dictionary of configuration parameters.\n            devices: The number of GPUs available to the server.\n            device_sharding: Whether device sharding is enabled. If True, then each request will be served by\n            a different GPU (if multiple GPUs are available). If False, then all requests will be served by\n            the same GPU (or CPU if no GPUs are available). This parameter can also be set in your client\"s\n            initialization function via torch-serve\"s DeviceShardingStrategy\n            class. See https://pytorch-lightning.readthedoc\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A dictionary with the following keys:\n        \"\"\"\n        return {\n            \"server_config\": {k: v for k, v in self.server_config.__dict__.items()},\n            \"devices\": f\"{torch.cuda.device_count()}\",\n            \"device_sharding\": self.device_rolling,\n            \"max_memory\": self.dict_max_memory_sharding,\n            \"status\": \"Ready\",\n            \"number_of_served_request_until_last_up_time\": f\"{self.number_of_served_request_until_last_up_time}\"\n        }\n\n    def forward_instruct_fast_api(self, data: InstructRequest):\n        \"\"\"The forward_instruct_fast_api function is a ReST API endpoint that takes in an InstructRequest object and returns\n        a response. The InstructRequest object contains the following fields:\n            - system (str): A string representing the name of the system to be instructed. This should match one of the\n                systems defined in your server_config file, or else it will default to &amp;quot;default&amp;quot;. If you want to instruct multiple\n                systems at once, use forward_instruct_fast instead.\n\n        Args:\n            self: Refer to the object itself\n            data: InstructRequest: Pass in the data that is used to\n                generate the response\n\n        Returns:\n            A dictionary with a single key, response\n        \"\"\"\n        string = self.format_instruct(\n            system=data.system,\n            instruction=data.instruction\n        )\n        response = self.sample(\n            string=string,\n            max_sequence_length=self.server_config.max_sequence_length,\n            temperature=data.temperature,\n            stream=False,\n            top_k=self.server_config.top_k,\n            top_p=self.server_config.top_p,\n            max_new_tokens=self.server_config.max_new_tokens\n        )\n        return {\n            \"response\": response\n        }\n\n    def forward_chat_fast_api(self, data: ChatRequest):\n        \"\"\"The forward_chat_fast_api function is a ReST API endpoint that takes in a ChatRequest object and returns the\n        response from the model.\n\n        Args:\n            self: Refer to the object itself\n            data: ChatRequest: Pass the data from the serve_engine to\n                the function\n\n        Returns:\n            A dictionary with a single key, response\n        \"\"\"\n        string = self.format_chat(\n            system=data.system,\n            history=data.history,\n            prompt=data.prompt,\n        )\n        response = self.sample(\n            string=string,\n            max_sequence_length=self.server_config.max_sequence_length,\n            temperature=data.temperature,\n            stream=False,\n            top_k=self.server_config.top_k,\n            top_p=self.server_config.top_p,\n            max_new_tokens=self.server_config.max_new_tokens\n        )\n        return {\n            \"response\": response\n        }\n\n    def format_instruct(self, system: str, instruction: str) -&gt; str:\n        \"\"\"Here you will get the system and instruction from user, and you can apply your prompting style\"\"\"\n        conversation = []\n        if system is not None and system != \"\":\n            conversation.append({\n                \"role\": \"system\", \"content\": system\n            })\n        conversation.append({\n            \"role\": \"user\", \"content\": instruction\n        })\n        return self.tokenizer.apply_chat_template(\n            conversation,\n            tokenize=False,\n            add_generation_prompt=True,\n        )\n\n    def format_chat(self, history: List[List[str]], prompt: str, system: typing.Union[str, None]) -&gt; str:\n        \"\"\"Here you will get the system, prompt and history from user, and you can apply your prompting style\"\"\"\n        conversation = []\n        if system is not None and system != \"\":\n            conversation.append({\n                \"role\": \"system\", \"content\": system\n            })\n        for conv in history:\n            conversation.append(\n                {\n                    \"role\": \"user\", \"content\": conv[0]\n                }\n            )\n            conversation.append(\n                {\n                    \"role\": \"assistant\", \"content\": conv[1]\n                }\n            )\n\n        conversation.append(\n            {\n                \"role\": \"user\", \"content\": prompt\n            }\n        )\n        return self.tokenizer.apply_chat_template(\n            conversation,\n            tokenize=False,\n            add_generation_prompt=True,\n        )\n\n    def sample(\n            self,\n            string: str,\n            max_new_tokens: Optional[int] = None,\n            max_sequence_length: Optional[int] = None,\n            temperature: Optional[float] = 0.6,\n            top_k: Optional[int] = 50,\n            top_p: Optional[float] = 0.9,\n            repetition_penalty: Optional[float] = 1.2,\n            stream: bool = True,\n            sample: bool = True\n    ):\n        \"\"\"The sample function is the main function of this class. It takes a string as input and returns a generator that yields strings.\n\n        Args:\n            self: Represent the instance of the class\n            string: str: Pass the string to be generated\n            max_new_tokens: Optional[int]: Limit the number of new\n                tokens that can be generated\n            max_sequence_length: Optional[int]: Set the maximum length\n                of the generated text\n            temperature: Optional[float]: Control the randomness of the\n                text generation\n            top_k: Optional[int]: Filter out the top k tokens with the\n                highest probability\n            top_p: Optional[int]: Control the probability of sampling\n                from the top n tokens\n            repetition_penalty: optional[float]: repetition penalty for\n                generation\n            stream: bool: Determine whether to stream the output or not\n            sample: optional[bool]: Indicate whether to sample from the\n                distribution or take the argmax\n\n        Returns:\n            A generator\n        \"\"\"\n        assert self.model is not None, \"you should first load model with ``load`` method\"\n        tokens = self.tokenizer(\n            string,\n            return_tensors=\"pt\"\n        )\n        input_ids = tokens.input_ids.to(self.model.device)\n        attention_mask = tokens.attention_mask.to(self.model.device)\n\n        iterator_streamer = TextIteratorStreamer(\n            tokenizer=self.tokenizer,\n            skip_prompt=True,\n            skip_special_tokens=True\n        )\n\n        if stream:\n            kwargs = dict(\n                input_ids=input_ids,\n                attention_mask=attention_mask,\n                streamer=iterator_streamer,\n                generation_config=transformers.GenerationConfig(\n                    bos_token_id=self.server_config.bos_token_id or self.tokenizer.bos_token_id,\n                    eos_token_id=self.server_config.eos_token_id or self.tokenizer.eos_token_id,\n                    pad_token_id=self.server_config.pad_token_id or self.tokenizer.pad_token_id,\n                    max_length=max_sequence_length or self.server_config.max_sequence_length,\n                    temperature=temperature,\n                    top_k=top_k,\n                    top_p=top_p,\n                    max_new_tokens=max_new_tokens or self.server_config.max_new_tokens,\n                    num_beams=1,\n                    do_sample=sample,\n                    repetition_penalty=repetition_penalty or self.server_config.repetition_penalty\n                )\n            )\n            thread_ = threading.Thread(\n                target=self.model.generate,\n                kwargs=kwargs\n            )\n            thread_.start()\n            for string in iterator_streamer:\n                yield string\n        else:\n            kwargs = dict(\n                input_ids=input_ids,\n                attention_mask=attention_mask,\n                generation_config=transformers.GenerationConfig(\n                    bos_token_id=self.tokenizer.bos_token_id,\n                    eos_token_id=self.tokenizer.eos_token_id,\n                    pad_token_id=self.tokenizer.pad_token_id,\n                    max_length=max_sequence_length or self.server_config.max_sequence_length,\n                    temperature=temperature,\n                    top_k=top_k,\n                    top_p=top_p,\n                    max_new_tokens=max_new_tokens or self.server_config.max_new_tokens,\n                    num_beams=1\n                )\n            )\n            pred = self.tokenizer.decode(self.model.generate(\n                **kwargs\n            ).logits[0])\n            return pred\n\n    def load(self, pretrained_model_name_or_path: str, tokenizer_repo: str = None, auto_config: bool = True, **kwargs):\n        \"\"\"The load function is used to load a model from the HuggingFace Model Hub.\n\n        Args:\n            self: Represent the instance of the class\n            pretrained_model_name_or_path: str: Specify the name of the\n                model to be loaded\n            tokenizer_repo: str: Specify the repo id of the tokenizer\n            auto_config: bool: Determine whether the model should be\n                loaded with a server_config file or not\n            **kwargs: Pass a variable number of keyword arguments to the\n                function\n\n        Returns:\n            A tuple of model and tokenizer\n        \"\"\"\n        load_kwargs = kwargs if not auto_config else self.get_model_load_kwargs()\n        load_kwargs = load_kwargs | kwargs\n        model = transformers.AutoModelForCausalLM.from_pretrained(\n            pretrained_model_name_or_path,\n            trust_remote_code=True,\n            **load_kwargs\n        )\n        tokenizer = transformers.AutoTokenizer.from_pretrained(\n            tokenizer_repo or pretrained_model_name_or_path,\n            trust_remote_code=True\n        )\n\n        self.model = model\n        self.tokenizer = tokenizer\n\n    def sample_gradio(\n            self,\n            prompt: str,\n            history: List[List[str]],\n            system_prompt: Optional[str],\n            mode: str,\n            max_sequence_length: int,\n            max_new_tokens: int,\n            max_compile_tokens: int,\n            greedy: bool,\n            temperature: float,\n            top_p: float,\n            top_k: int,\n            repetition_penalty: float\n    ):\n\n        if mode.lower() == \"chat\":\n            string = self.format_chat(\n                history=history,\n                system=system_prompt,\n                prompt=prompt\n            )\n        elif mode.lower() == \"instruct\":\n            history = []\n            string = self.format_instruct(\n                system=system_prompt,\n                instruction=prompt\n            )\n        else:\n            raise ValueError(\"UnKnown Mode for sample_gradio available modes are only Chat or Instruct\")\n        history.append([prompt, \"\"])\n        responses = \"\"\n        for response in self.sample(\n                string=string,\n                max_new_tokens=max_new_tokens,\n                temperature=temperature,\n                max_sequence_length=max_sequence_length,\n                top_p=top_p,\n                top_k=top_k,\n                repetition_penalty=repetition_penalty,\n                stream=True\n        ):\n            responses += response\n            history[-1][-1] = responses\n            yield \"\", history\n\n    def gradio_inference(self):\n        return self.build_inference(\n            sample_func=self.sample_gradio,\n            max_sequence_length=self.server_config.max_sequence_length,\n            max_new_tokens=self.server_config.max_new_tokens,\n            max_compile_tokens=1,\n        )\n\n    def fire(self):\n        \"\"\"The fire function starts the uvicorn server in a separate process.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A process that runs the uvicorn server\n        \"\"\"\n\n        def run():\n            uvicorn.run(self.app, host=self.server_config.host, port=self.server_config.port)\n\n        self.process_uvicorn = mp.Process(target=run)\n        self.process_uvicorn.start()\n\n    def end(self):\n        \"\"\"The end function is used to stop the server.\n            It will wait for the process to end before returning.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A boolean value\n        \"\"\"\n        if self.process_uvicorn is not None:\n            self.process_uvicorn.join()\n        else:\n            logging.warning(\"you have to fire server before ending that this command will be ignored\")\n\n    @classmethod\n    def from_huggingface(\n            cls,\n            server_config: PyTorchServerConfig,\n            pretrained_model_name_or_path_model: str,\n            pretrained_model_name_or_path_tokenizer: Optional[str] = None,\n            model_kwarguments: Optional[dict] = None,\n            tokenizer_kwarguments: Optional[dict] = None,\n            auto_config: bool = True\n    ):\n\n        from transformers import AutoModelForCausalLM, AutoTokenizer\n\n        server = cls(server_config=server_config)\n\n        if model_kwarguments is None:\n            model_kwarguments = {}\n\n        if tokenizer_kwarguments is None:\n            tokenizer_kwarguments = {}\n\n        if pretrained_model_name_or_path_tokenizer is None:\n            pretrained_model_name_or_path_tokenizer = pretrained_model_name_or_path_model\n\n        if auto_config:\n            config_a = server.get_model_load_kwargs()\n            for k in list(model_kwarguments.keys()):\n                if k in list(config_a.keys()):\n                    _ = config_a.pop(k, None)\n                    logger.info(f\"Key {k} is removed from AutoConfig [Using Given Value]\")\n            model_kwarguments = model_kwarguments | config_a\n        model = AutoModelForCausalLM.from_pretrained(\n            pretrained_model_name_or_path_model,\n            **model_kwarguments\n        )\n        tokenizer = AutoTokenizer.from_pretrained(\n            pretrained_model_name_or_path_tokenizer,\n            **tokenizer_kwarguments\n        )\n\n        server.model = model\n        server.tokenizer = tokenizer\n        return server\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServer.__init__","title":"<code>__init__(server_config)</code>","text":"<p>The init function is called when the class is instantiated. It sets up the instance of the class, and defines all its attributes. The init function can accept arguments, which are passed at instantiation.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>server_config</code> <code>PyTorchServerConfig</code> <p>PyTorchServerConfig: Pass the configuration parameters to the class</p> required <p>Returns:</p> Type Description <p>The app, which is a fastapi object</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>def __init__(self, server_config: PyTorchServerConfig):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It sets up the instance of the class, and defines all its attributes.\n    The __init__ function can accept arguments, which are passed at instantiation.\n\n    Args:\n        self: Represent the instance of the class\n        server_config: PyTorchServerConfig: Pass the configuration\n            parameters to the class\n\n    Returns:\n        The app, which is a fastapi object\n    \"\"\"\n    self.model, self.tokenizer = [None] * 2\n\n    self.server_config = server_config\n    self.process_uvicorn = None\n    self.app = FastAPI()\n    self.number_of_served_request_until_last_up_time = 0\n    self.device_rolling = self.get_gpu_memory(self.server_config.max_number_of_gpus)\n    self.dict_max_memory_sharding = {\n        i: str(\n            int(\n                mem * self.server_config.max_gpu_perc_to_use\n            )\n        ) + \"GiB\" for i, mem in\n        enumerate(self.device_rolling)\n    }\n    self.app.post(\"/chat\")(self.forward_chat_fast_api)\n    self.app.post(\"/instruct\")(self.forward_instruct_fast_api)\n    self.app.get(\"/status\")(self.status)\n    self.app = gr.mount_gradio_app(self.app, self.gradio_inference(), \"/gradio_chat\")\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServer.end","title":"<code>end()</code>","text":"<p>The end function is used to stop the server.     It will wait for the process to end before returning.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>A boolean value</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>def end(self):\n    \"\"\"The end function is used to stop the server.\n        It will wait for the process to end before returning.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A boolean value\n    \"\"\"\n    if self.process_uvicorn is not None:\n        self.process_uvicorn.join()\n    else:\n        logging.warning(\"you have to fire server before ending that this command will be ignored\")\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServer.fire","title":"<code>fire()</code>","text":"<p>The fire function starts the uvicorn server in a separate process.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>A process that runs the uvicorn server</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>def fire(self):\n    \"\"\"The fire function starts the uvicorn server in a separate process.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A process that runs the uvicorn server\n    \"\"\"\n\n    def run():\n        uvicorn.run(self.app, host=self.server_config.host, port=self.server_config.port)\n\n    self.process_uvicorn = mp.Process(target=run)\n    self.process_uvicorn.start()\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServer.format_chat","title":"<code>format_chat(history, prompt, system)</code>","text":"<p>Here you will get the system, prompt and history from user, and you can apply your prompting style</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>def format_chat(self, history: List[List[str]], prompt: str, system: typing.Union[str, None]) -&gt; str:\n    \"\"\"Here you will get the system, prompt and history from user, and you can apply your prompting style\"\"\"\n    conversation = []\n    if system is not None and system != \"\":\n        conversation.append({\n            \"role\": \"system\", \"content\": system\n        })\n    for conv in history:\n        conversation.append(\n            {\n                \"role\": \"user\", \"content\": conv[0]\n            }\n        )\n        conversation.append(\n            {\n                \"role\": \"assistant\", \"content\": conv[1]\n            }\n        )\n\n    conversation.append(\n        {\n            \"role\": \"user\", \"content\": prompt\n        }\n    )\n    return self.tokenizer.apply_chat_template(\n        conversation,\n        tokenize=False,\n        add_generation_prompt=True,\n    )\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServer.format_instruct","title":"<code>format_instruct(system, instruction)</code>","text":"<p>Here you will get the system and instruction from user, and you can apply your prompting style</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>def format_instruct(self, system: str, instruction: str) -&gt; str:\n    \"\"\"Here you will get the system and instruction from user, and you can apply your prompting style\"\"\"\n    conversation = []\n    if system is not None and system != \"\":\n        conversation.append({\n            \"role\": \"system\", \"content\": system\n        })\n    conversation.append({\n        \"role\": \"user\", \"content\": instruction\n    })\n    return self.tokenizer.apply_chat_template(\n        conversation,\n        tokenize=False,\n        add_generation_prompt=True,\n    )\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServer.forward_chat_fast_api","title":"<code>forward_chat_fast_api(data)</code>","text":"<p>The forward_chat_fast_api function is a ReST API endpoint that takes in a ChatRequest object and returns the response from the model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>data</code> <code>ChatRequest</code> <p>ChatRequest: Pass the data from the serve_engine to the function</p> required <p>Returns:</p> Type Description <p>A dictionary with a single key, response</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>def forward_chat_fast_api(self, data: ChatRequest):\n    \"\"\"The forward_chat_fast_api function is a ReST API endpoint that takes in a ChatRequest object and returns the\n    response from the model.\n\n    Args:\n        self: Refer to the object itself\n        data: ChatRequest: Pass the data from the serve_engine to\n            the function\n\n    Returns:\n        A dictionary with a single key, response\n    \"\"\"\n    string = self.format_chat(\n        system=data.system,\n        history=data.history,\n        prompt=data.prompt,\n    )\n    response = self.sample(\n        string=string,\n        max_sequence_length=self.server_config.max_sequence_length,\n        temperature=data.temperature,\n        stream=False,\n        top_k=self.server_config.top_k,\n        top_p=self.server_config.top_p,\n        max_new_tokens=self.server_config.max_new_tokens\n    )\n    return {\n        \"response\": response\n    }\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServer.forward_instruct_fast_api","title":"<code>forward_instruct_fast_api(data)</code>","text":"<p>The forward_instruct_fast_api function is a ReST API endpoint that takes in an InstructRequest object and returns a response. The InstructRequest object contains the following fields:     - system (str): A string representing the name of the system to be instructed. This should match one of the         systems defined in your server_config file, or else it will default to \"default\". If you want to instruct multiple         systems at once, use forward_instruct_fast instead.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <code>data</code> <code>InstructRequest</code> <p>InstructRequest: Pass in the data that is used to generate the response</p> required <p>Returns:</p> Type Description <p>A dictionary with a single key, response</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>def forward_instruct_fast_api(self, data: InstructRequest):\n    \"\"\"The forward_instruct_fast_api function is a ReST API endpoint that takes in an InstructRequest object and returns\n    a response. The InstructRequest object contains the following fields:\n        - system (str): A string representing the name of the system to be instructed. This should match one of the\n            systems defined in your server_config file, or else it will default to &amp;quot;default&amp;quot;. If you want to instruct multiple\n            systems at once, use forward_instruct_fast instead.\n\n    Args:\n        self: Refer to the object itself\n        data: InstructRequest: Pass in the data that is used to\n            generate the response\n\n    Returns:\n        A dictionary with a single key, response\n    \"\"\"\n    string = self.format_instruct(\n        system=data.system,\n        instruction=data.instruction\n    )\n    response = self.sample(\n        string=string,\n        max_sequence_length=self.server_config.max_sequence_length,\n        temperature=data.temperature,\n        stream=False,\n        top_k=self.server_config.top_k,\n        top_p=self.server_config.top_p,\n        max_new_tokens=self.server_config.max_new_tokens\n    )\n    return {\n        \"response\": response\n    }\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServer.get_gpu_memory","title":"<code>get_gpu_memory(num_gpus_req=None)</code>  <code>staticmethod</code>","text":"<p>The get_gpu_memory function returns the amount of available GPU memory in GB.</p> <p>Parameters:</p> Name Type Description Default <code>num_gpus_req</code> <p>Specify the number of gpus to be used</p> <code>None</code> <p>Returns:</p> Type Description <p>The amount of free memory on each gpu</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>@staticmethod\ndef get_gpu_memory(num_gpus_req=None):\n\n    \"\"\"The get_gpu_memory function returns the amount of available GPU memory in GB.\n\n    Args:\n        num_gpus_req: Specify the number of gpus to be used\n\n    Returns:\n        The amount of free memory on each gpu\n    \"\"\"\n    gpu_m = []\n    dc = torch.cuda.device_count()\n    num_gpus = torch.cuda.device_count() if num_gpus_req is None else min(num_gpus_req, dc)\n\n    for gpu_id in range(num_gpus):\n        with torch.cuda.device(gpu_id):\n            gpu_properties = torch.cuda.get_device_properties(torch.cuda.current_device())\n            gpu_m.append(\n                (gpu_properties.total_memory / (1024 ** 3)) - (torch.cuda.memory_allocated() / (1024 ** 3)))\n    return gpu_m\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServer.get_model_load_kwargs","title":"<code>get_model_load_kwargs()</code>","text":"<p>The get_model_load_kwargs function is used to set the torch_dtype, device_map and max_memory parameters for loading a model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Bind the method to an object</p> required <p>Returns:</p> Type Description <p>A dictionary with the following keys:</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>def get_model_load_kwargs(self):\n    \"\"\"The get_model_load_kwargs function is used to set the torch_dtype, device_map and max_memory parameters for loading a model.\n\n    Args:\n        self: Bind the method to an object\n\n    Returns:\n        A dictionary with the following keys:\n    \"\"\"\n    if self.server_config.dtype == \"fp16\":\n        dtype = torch.float16\n    elif self.server_config.dtype == \"fp32\":\n        dtype = torch.float32\n    elif self.server_config.dtype == \"bf16\":\n        dtype = torch.bfloat16\n    else:\n        raise ValueError(\"unknown type available types are [fp32 fp16 bf16]\")\n    load_kwargs = {\n        \"torch_dtype\": dtype,\n        \"device_map\": \"auto\",\n        \"max_memory\": self.dict_max_memory_sharding\n    }\n    return load_kwargs\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServer.load","title":"<code>load(pretrained_model_name_or_path, tokenizer_repo=None, auto_config=True, **kwargs)</code>","text":"<p>The load function is used to load a model from the HuggingFace Model Hub.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>pretrained_model_name_or_path</code> <code>str</code> <p>str: Specify the name of the model to be loaded</p> required <code>tokenizer_repo</code> <code>str</code> <p>str: Specify the repo id of the tokenizer</p> <code>None</code> <code>auto_config</code> <code>bool</code> <p>bool: Determine whether the model should be loaded with a server_config file or not</p> <code>True</code> <code>**kwargs</code> <p>Pass a variable number of keyword arguments to the function</p> <code>{}</code> <p>Returns:</p> Type Description <p>A tuple of model and tokenizer</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>def load(self, pretrained_model_name_or_path: str, tokenizer_repo: str = None, auto_config: bool = True, **kwargs):\n    \"\"\"The load function is used to load a model from the HuggingFace Model Hub.\n\n    Args:\n        self: Represent the instance of the class\n        pretrained_model_name_or_path: str: Specify the name of the\n            model to be loaded\n        tokenizer_repo: str: Specify the repo id of the tokenizer\n        auto_config: bool: Determine whether the model should be\n            loaded with a server_config file or not\n        **kwargs: Pass a variable number of keyword arguments to the\n            function\n\n    Returns:\n        A tuple of model and tokenizer\n    \"\"\"\n    load_kwargs = kwargs if not auto_config else self.get_model_load_kwargs()\n    load_kwargs = load_kwargs | kwargs\n    model = transformers.AutoModelForCausalLM.from_pretrained(\n        pretrained_model_name_or_path,\n        trust_remote_code=True,\n        **load_kwargs\n    )\n    tokenizer = transformers.AutoTokenizer.from_pretrained(\n        tokenizer_repo or pretrained_model_name_or_path,\n        trust_remote_code=True\n    )\n\n    self.model = model\n    self.tokenizer = tokenizer\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServer.sample","title":"<code>sample(string, max_new_tokens=None, max_sequence_length=None, temperature=0.6, top_k=50, top_p=0.9, repetition_penalty=1.2, stream=True, sample=True)</code>","text":"<p>The sample function is the main function of this class. It takes a string as input and returns a generator that yields strings.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>string</code> <code>str</code> <p>str: Pass the string to be generated</p> required <code>max_new_tokens</code> <code>Optional[int]</code> <p>Optional[int]: Limit the number of new tokens that can be generated</p> <code>None</code> <code>max_sequence_length</code> <code>Optional[int]</code> <p>Optional[int]: Set the maximum length of the generated text</p> <code>None</code> <code>temperature</code> <code>Optional[float]</code> <p>Optional[float]: Control the randomness of the text generation</p> <code>0.6</code> <code>top_k</code> <code>Optional[int]</code> <p>Optional[int]: Filter out the top k tokens with the highest probability</p> <code>50</code> <code>top_p</code> <code>Optional[float]</code> <p>Optional[int]: Control the probability of sampling from the top n tokens</p> <code>0.9</code> <code>repetition_penalty</code> <code>Optional[float]</code> <p>optional[float]: repetition penalty for generation</p> <code>1.2</code> <code>stream</code> <code>bool</code> <p>bool: Determine whether to stream the output or not</p> <code>True</code> <code>sample</code> <code>bool</code> <p>optional[bool]: Indicate whether to sample from the distribution or take the argmax</p> <code>True</code> <p>Returns:</p> Type Description <p>A generator</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>def sample(\n        self,\n        string: str,\n        max_new_tokens: Optional[int] = None,\n        max_sequence_length: Optional[int] = None,\n        temperature: Optional[float] = 0.6,\n        top_k: Optional[int] = 50,\n        top_p: Optional[float] = 0.9,\n        repetition_penalty: Optional[float] = 1.2,\n        stream: bool = True,\n        sample: bool = True\n):\n    \"\"\"The sample function is the main function of this class. It takes a string as input and returns a generator that yields strings.\n\n    Args:\n        self: Represent the instance of the class\n        string: str: Pass the string to be generated\n        max_new_tokens: Optional[int]: Limit the number of new\n            tokens that can be generated\n        max_sequence_length: Optional[int]: Set the maximum length\n            of the generated text\n        temperature: Optional[float]: Control the randomness of the\n            text generation\n        top_k: Optional[int]: Filter out the top k tokens with the\n            highest probability\n        top_p: Optional[int]: Control the probability of sampling\n            from the top n tokens\n        repetition_penalty: optional[float]: repetition penalty for\n            generation\n        stream: bool: Determine whether to stream the output or not\n        sample: optional[bool]: Indicate whether to sample from the\n            distribution or take the argmax\n\n    Returns:\n        A generator\n    \"\"\"\n    assert self.model is not None, \"you should first load model with ``load`` method\"\n    tokens = self.tokenizer(\n        string,\n        return_tensors=\"pt\"\n    )\n    input_ids = tokens.input_ids.to(self.model.device)\n    attention_mask = tokens.attention_mask.to(self.model.device)\n\n    iterator_streamer = TextIteratorStreamer(\n        tokenizer=self.tokenizer,\n        skip_prompt=True,\n        skip_special_tokens=True\n    )\n\n    if stream:\n        kwargs = dict(\n            input_ids=input_ids,\n            attention_mask=attention_mask,\n            streamer=iterator_streamer,\n            generation_config=transformers.GenerationConfig(\n                bos_token_id=self.server_config.bos_token_id or self.tokenizer.bos_token_id,\n                eos_token_id=self.server_config.eos_token_id or self.tokenizer.eos_token_id,\n                pad_token_id=self.server_config.pad_token_id or self.tokenizer.pad_token_id,\n                max_length=max_sequence_length or self.server_config.max_sequence_length,\n                temperature=temperature,\n                top_k=top_k,\n                top_p=top_p,\n                max_new_tokens=max_new_tokens or self.server_config.max_new_tokens,\n                num_beams=1,\n                do_sample=sample,\n                repetition_penalty=repetition_penalty or self.server_config.repetition_penalty\n            )\n        )\n        thread_ = threading.Thread(\n            target=self.model.generate,\n            kwargs=kwargs\n        )\n        thread_.start()\n        for string in iterator_streamer:\n            yield string\n    else:\n        kwargs = dict(\n            input_ids=input_ids,\n            attention_mask=attention_mask,\n            generation_config=transformers.GenerationConfig(\n                bos_token_id=self.tokenizer.bos_token_id,\n                eos_token_id=self.tokenizer.eos_token_id,\n                pad_token_id=self.tokenizer.pad_token_id,\n                max_length=max_sequence_length or self.server_config.max_sequence_length,\n                temperature=temperature,\n                top_k=top_k,\n                top_p=top_p,\n                max_new_tokens=max_new_tokens or self.server_config.max_new_tokens,\n                num_beams=1\n            )\n        )\n        pred = self.tokenizer.decode(self.model.generate(\n            **kwargs\n        ).logits[0])\n        return pred\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServer.status","title":"<code>status()</code>","text":"The status function returns a dictionary with the following keys <p>server_config: A dictionary of configuration parameters. devices: The number of GPUs available to the server. device_sharding: Whether device sharding is enabled. If True, then each request will be served by a different GPU (if multiple GPUs are available). If False, then all requests will be served by the same GPU (or CPU if no GPUs are available). This parameter can also be set in your client\"s initialization function via torch-serve\"s DeviceShardingStrategy class. See https://pytorch-lightning.readthedoc</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>A dictionary with the following keys:</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>def status(self):\n\n    \"\"\"The status function returns a dictionary with the following keys:\n        server_config: A dictionary of configuration parameters.\n        devices: The number of GPUs available to the server.\n        device_sharding: Whether device sharding is enabled. If True, then each request will be served by\n        a different GPU (if multiple GPUs are available). If False, then all requests will be served by\n        the same GPU (or CPU if no GPUs are available). This parameter can also be set in your client\"s\n        initialization function via torch-serve\"s DeviceShardingStrategy\n        class. See https://pytorch-lightning.readthedoc\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A dictionary with the following keys:\n    \"\"\"\n    return {\n        \"server_config\": {k: v for k, v in self.server_config.__dict__.items()},\n        \"devices\": f\"{torch.cuda.device_count()}\",\n        \"device_sharding\": self.device_rolling,\n        \"max_memory\": self.dict_max_memory_sharding,\n        \"status\": \"Ready\",\n        \"number_of_served_request_until_last_up_time\": f\"{self.number_of_served_request_until_last_up_time}\"\n    }\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServerConfig","title":"<code>PyTorchServerConfig</code>  <code>dataclass</code>","text":"<p>It sets up the instance of the class, and defines all its attributes.</p> <p>:param host: Specify the ip address of the server :param port: Specify the port number that will be used by the server :param batch_size: Determine the number of samples to be generated in a single batch :param max_sequence_length: Set the maximum length of a sentence :param max_new_tokens: Limit the number of new tokens that can be generated in a single batch :param temperature: Control the randomness of the generated text :param pad_token_id: Optional[int]: The id of the Padding Token :param bos_token_id: Optional[int]: The id of the Start of sentence Token :param eos_token_id: Optional[int]: The id of the End of sentence Token :param top_p: Control the probability of sampling from the top candidates :param top_k: Limit the number of tokens that are considered for each token :param logging: Control whether the server will print out :param dtype: Specify the data type of the tensors :param max_number_of_gpus: Limit the number of gpus used by the server :param max_gpu_perc_to_use: Specify the maximum percentage of gpu memory that can be used by the server :param max_compile_tokens: int: Limit the number of tokens that can be streamed to a single client</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>@dataclass\nclass PyTorchServerConfig:\n    \"\"\"\n    It sets up the instance of the class, and defines all its attributes.\n\n    :param host: Specify the ip address of the server\n    :param port: Specify the port number that will be used by the server\n    :param batch_size: Determine the number of samples to be generated in a single batch\n    :param max_sequence_length: Set the maximum length of a sentence\n    :param max_new_tokens: Limit the number of new tokens that can be generated in a single batch\n    :param temperature: Control the randomness of the generated text\n    :param pad_token_id: Optional[int]: The id of the Padding Token\n    :param bos_token_id: Optional[int]: The id of the Start of sentence Token\n    :param eos_token_id: Optional[int]: The id of the End of sentence Token\n    :param top_p: Control the probability of sampling from the top candidates\n    :param top_k: Limit the number of tokens that are considered for each token\n    :param logging: Control whether the server will print out\n    :param dtype: Specify the data type of the tensors\n    :param max_number_of_gpus: Limit the number of gpus used by the server\n    :param max_gpu_perc_to_use: Specify the maximum percentage of gpu memory that can be used by the server\n    :param max_compile_tokens: int: Limit the number of tokens that can be streamed to a single client\n    \"\"\"\n    host: str = \"0.0.0.0\"\n    port: int = 2059\n    batch_size: int = 1\n\n    max_sequence_length: int = 4096\n    max_new_tokens: int = 4096\n    max_compile_tokens: int = 1\n    temperature: float = 0.8\n    top_p: float = 0.95\n    top_k: int = 50\n    sample: bool = True\n    repetition_penalty: float = 1.2\n\n    eos_token_id: Optional[int] = None\n    pad_token_id: Optional[int] = None\n    bos_token_id: Optional[int] = None\n\n    logging: bool = True\n\n    dtype: str = \"fp16\"\n\n    stream_tokens_for_gradio: bool = True\n    use_prefix_tokenizer: bool = True\n    pre_compile: bool = True\n\n    use_mxn_break_point: bool = True\n    max_number_of_gpus: typing.Optional[int] = None\n    max_gpu_perc_to_use: float = 0.95\n\n    def __repr__(self):\n\n        \"\"\"\n        The __repr__ function is used to generate a string representation of an object.\n        This function should return a string that can be parsed by the Python interpreter\n        to recreate the object. The __repr__ function is called when you use print() on an\n        object, or when you type its name in the REPL.\n\n        :param self: Refer to the instance of the class\n        :return: A string representation of the object\n        \"\"\"\n        string = f\"{self.__class__.__name__}(\\n\"\n        for k, v in self.__dict__.items():\n            if not k.startswith(\"_\"):\n\n                try:\n                    repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                    string += repr_src if len(repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n                except TypeError:\n                    ...\n\n        return string + \")\"\n\n    def __str__(self):\n\n        \"\"\"\n        The __str__ function is called when you use the print function or when str() is used.\n        It should return a string representation of the object.\n\n        :param self: Refer to the instance of the class\n        :return: The object's string representation\n        \"\"\"\n        return self.__repr__()\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServerConfig.__repr__","title":"<code>__repr__()</code>","text":"<p>The repr function is used to generate a string representation of an object. This function should return a string that can be parsed by the Python interpreter to recreate the object. The repr function is called when you use print() on an object, or when you type its name in the REPL.</p> <p>:param self: Refer to the instance of the class :return: A string representation of the object</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>def __repr__(self):\n\n    \"\"\"\n    The __repr__ function is used to generate a string representation of an object.\n    This function should return a string that can be parsed by the Python interpreter\n    to recreate the object. The __repr__ function is called when you use print() on an\n    object, or when you type its name in the REPL.\n\n    :param self: Refer to the instance of the class\n    :return: A string representation of the object\n    \"\"\"\n    string = f\"{self.__class__.__name__}(\\n\"\n    for k, v in self.__dict__.items():\n        if not k.startswith(\"_\"):\n\n            try:\n                repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                string += repr_src if len(repr_src) &lt; 500 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n            except TypeError:\n                ...\n\n    return string + \")\"\n</code></pre>"},{"location":"generated-serve-torch_serve/#src.python.easydel.serve.torch_serve.PyTorchServerConfig.__str__","title":"<code>__str__()</code>","text":"<p>The str function is called when you use the print function or when str() is used. It should return a string representation of the object.</p> <p>:param self: Refer to the instance of the class :return: The object's string representation</p> Source code in <code>src/python/easydel/serve/torch_serve.py</code> <pre><code>def __str__(self):\n\n    \"\"\"\n    The __str__ function is called when you use the print function or when str() is used.\n    It should return a string representation of the object.\n\n    :param self: Refer to the instance of the class\n    :return: The object's string representation\n    \"\"\"\n    return self.__repr__()\n</code></pre>"},{"location":"generated-serve-utils/","title":"serve.utils","text":""},{"location":"generated-serve-utils/#src.python.easydel.serve.utils.Seafoam","title":"<code>Seafoam</code>","text":"<p>               Bases: <code>Base</code></p> Source code in <code>src/python/easydel/serve/utils.py</code> <pre><code>class Seafoam(Base):\n    def __init__(\n            self,\n            *,\n            primary_hue: Union[colors.Color, str] = colors.emerald,\n            secondary_hue: Union[colors.Color, str] = colors.blue,\n            neutral_hue: Union[colors.Color, str] = colors.gray,\n            spacing_size: Union[sizes.Size, str] = sizes.spacing_md,\n            radius_size: Union[sizes.Size, str] = sizes.radius_md,\n            text_size: Union[sizes.Size, str] = sizes.text_lg,\n            font: Union[fonts.Font, str]\n            = (\n                    fonts.GoogleFont(\"Quicksand\"),\n                    \"ui-sans-serif\",\n                    \"sans-serif\",\n            ),\n            font_mono: Union[fonts.Font, str]\n            = (\n                    fonts.GoogleFont(\"IBM Plex Mono\"),\n                    \"ui-monospace\",\n                    \"monospace\",\n            ),\n    ):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It sets up the object with all of its instance variables and other things it needs to function properly.\n\n        Args:\n            self: Represent the instance of the object\n            : Unpack the list of parameters into a tuple\n            primary_hue: Union[colors.Color,str]: Set the primary color\n                of the theme\n            secondary_hue: Union[colors.Color,str]: Set the secondary\n                color of the theme\n            neutral_hue: Union[colors.Color,str]: Set the neutral color\n                of the theme\n            spacing_size: Union[sizes.Size,str]: Set the spacing size of\n                the theme\n            radius_size: Union[sizes.Size,str]: Set the radius of the\n                buttons and other elements\n            text_size: Union[sizes.Size,str]: Set the size of the text\n                in the app\n\n        Returns:\n            The class object\n        \"\"\"\n\n        super().__init__(\n            primary_hue=primary_hue,\n            secondary_hue=secondary_hue,\n            neutral_hue=neutral_hue,\n            spacing_size=spacing_size,\n            radius_size=radius_size,\n            text_size=text_size,\n            font=font,\n            font_mono=font_mono,\n\n        )\n        super().set(\n            body_background_fill=\"linear-gradient(90deg, *secondary_800, *neutral_900)\",\n            body_background_fill_dark=\"linear-gradient(90deg, *secondary_800, *neutral_900)\",\n            button_primary_background_fill=\"linear-gradient(90deg, *primary_300, *secondary_400)\",\n            button_primary_background_fill_hover=\"linear-gradient(90deg, *primary_200, *secondary_300)\",\n            button_primary_text_color=\"white\",\n            button_primary_background_fill_dark=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n            slider_color=\"*secondary_300\",\n            slider_color_dark=\"*secondary_400\",\n            block_title_text_weight=\"600\",\n            block_border_width=\"0px\",\n            block_shadow=\"*shadow_drop_lg\",\n            button_shadow=\"*shadow_drop_lg\",\n            button_large_padding=\"4px\",\n            border_color_primary=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n            border_color_primary_dark=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n            table_border_color=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n            table_border_color_dark=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n            button_primary_border_color=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n            button_primary_border_color_dark=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n            panel_border_color=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n            panel_border_color_dark=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n            block_border_color=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n            block_border_color_dark=\"linear-gradient(90deg, *primary_600, *secondary_800)\"\n        )\n</code></pre>"},{"location":"generated-serve-utils/#src.python.easydel.serve.utils.Seafoam.__init__","title":"<code>__init__(*, primary_hue=colors.emerald, secondary_hue=colors.blue, neutral_hue=colors.gray, spacing_size=sizes.spacing_md, radius_size=sizes.radius_md, text_size=sizes.text_lg, font=(fonts.GoogleFont('Quicksand'), 'ui-sans-serif', 'sans-serif'), font_mono=(fonts.GoogleFont('IBM Plex Mono'), 'ui-monospace', 'monospace'))</code>","text":"<p>The init function is called when the class is instantiated. It sets up the object with all of its instance variables and other things it needs to function properly.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the object</p> required <code></code> <p>Unpack the list of parameters into a tuple</p> required <code>primary_hue</code> <code>Union[Color, str]</code> <p>Union[colors.Color,str]: Set the primary color of the theme</p> <code>emerald</code> <code>secondary_hue</code> <code>Union[Color, str]</code> <p>Union[colors.Color,str]: Set the secondary color of the theme</p> <code>blue</code> <code>neutral_hue</code> <code>Union[Color, str]</code> <p>Union[colors.Color,str]: Set the neutral color of the theme</p> <code>gray</code> <code>spacing_size</code> <code>Union[Size, str]</code> <p>Union[sizes.Size,str]: Set the spacing size of the theme</p> <code>spacing_md</code> <code>radius_size</code> <code>Union[Size, str]</code> <p>Union[sizes.Size,str]: Set the radius of the buttons and other elements</p> <code>radius_md</code> <code>text_size</code> <code>Union[Size, str]</code> <p>Union[sizes.Size,str]: Set the size of the text in the app</p> <code>text_lg</code> <p>Returns:</p> Type Description <p>The class object</p> Source code in <code>src/python/easydel/serve/utils.py</code> <pre><code>def __init__(\n        self,\n        *,\n        primary_hue: Union[colors.Color, str] = colors.emerald,\n        secondary_hue: Union[colors.Color, str] = colors.blue,\n        neutral_hue: Union[colors.Color, str] = colors.gray,\n        spacing_size: Union[sizes.Size, str] = sizes.spacing_md,\n        radius_size: Union[sizes.Size, str] = sizes.radius_md,\n        text_size: Union[sizes.Size, str] = sizes.text_lg,\n        font: Union[fonts.Font, str]\n        = (\n                fonts.GoogleFont(\"Quicksand\"),\n                \"ui-sans-serif\",\n                \"sans-serif\",\n        ),\n        font_mono: Union[fonts.Font, str]\n        = (\n                fonts.GoogleFont(\"IBM Plex Mono\"),\n                \"ui-monospace\",\n                \"monospace\",\n        ),\n):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It sets up the object with all of its instance variables and other things it needs to function properly.\n\n    Args:\n        self: Represent the instance of the object\n        : Unpack the list of parameters into a tuple\n        primary_hue: Union[colors.Color,str]: Set the primary color\n            of the theme\n        secondary_hue: Union[colors.Color,str]: Set the secondary\n            color of the theme\n        neutral_hue: Union[colors.Color,str]: Set the neutral color\n            of the theme\n        spacing_size: Union[sizes.Size,str]: Set the spacing size of\n            the theme\n        radius_size: Union[sizes.Size,str]: Set the radius of the\n            buttons and other elements\n        text_size: Union[sizes.Size,str]: Set the size of the text\n            in the app\n\n    Returns:\n        The class object\n    \"\"\"\n\n    super().__init__(\n        primary_hue=primary_hue,\n        secondary_hue=secondary_hue,\n        neutral_hue=neutral_hue,\n        spacing_size=spacing_size,\n        radius_size=radius_size,\n        text_size=text_size,\n        font=font,\n        font_mono=font_mono,\n\n    )\n    super().set(\n        body_background_fill=\"linear-gradient(90deg, *secondary_800, *neutral_900)\",\n        body_background_fill_dark=\"linear-gradient(90deg, *secondary_800, *neutral_900)\",\n        button_primary_background_fill=\"linear-gradient(90deg, *primary_300, *secondary_400)\",\n        button_primary_background_fill_hover=\"linear-gradient(90deg, *primary_200, *secondary_300)\",\n        button_primary_text_color=\"white\",\n        button_primary_background_fill_dark=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n        slider_color=\"*secondary_300\",\n        slider_color_dark=\"*secondary_400\",\n        block_title_text_weight=\"600\",\n        block_border_width=\"0px\",\n        block_shadow=\"*shadow_drop_lg\",\n        button_shadow=\"*shadow_drop_lg\",\n        button_large_padding=\"4px\",\n        border_color_primary=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n        border_color_primary_dark=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n        table_border_color=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n        table_border_color_dark=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n        button_primary_border_color=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n        button_primary_border_color_dark=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n        panel_border_color=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n        panel_border_color_dark=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n        block_border_color=\"linear-gradient(90deg, *primary_600, *secondary_800)\",\n        block_border_color_dark=\"linear-gradient(90deg, *primary_600, *secondary_800)\"\n    )\n</code></pre>"},{"location":"generated-serve-utils/#src.python.easydel.serve.utils.create_generate_function","title":"<code>create_generate_function(model, generation_config, params, generation_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp'), output_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp'), logits_processor=None, return_prediction_only=True)</code>","text":"<p>Create a sharded function for text generation using a Flax model.</p> <pre><code>:param model :EasyDeLFlaxPretrainedModel: The Flax model used for text generation.\n:param generation_config :GenerationConfig: Configuration for text generation.\n:param params :dict or jax.tree_util.PyTreeDef: Parameters of the model or a PyTree representing the model's\n    parameters.\n:param generation_partition_spec :PartitionSpec: Sharding specification for generation inputs. Defaults to\n    PartitionSpec((\"dp\", \"fsdp\"), \"sp\").\n:param output_partition_spec: PartitionSpec: Sharding specification for output sequences. Defaults to\n    PartitionSpec((\"dp\", \"fsdp\"), \"sp\").\n:param logits_processor :LogitsProcessor: Processor for model logits. Defaults to None.\n:param return_prediction_only :bool: Whether to return only the generated sequences. Defaults to True.\n</code></pre> <p>Returns:</p> Type Description <code>Callable[[Union[dict, PyTreeDef], Array, Array], Array]</code> <p>Callable[[Any, chex.Array, chex.Array], chex.Array]: Sharded</p> <code>Callable[[Union[dict, PyTreeDef], Array, Array], Array]</code> <p>function for text generation.</p> Source code in <code>src/python/easydel/serve/utils.py</code> <pre><code>def create_generate_function(\n        model: EasyDeLFlaxPretrainedModel,\n        generation_config: GenerationConfig,\n        params: Union[dict, jax.tree_util.PyTreeDef],\n        generation_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\"),\n        output_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\"),\n        logits_processor: Optional[LogitsProcessor] = None,\n        return_prediction_only: bool = True\n) -&gt; Callable[[Union[dict, jax.tree_util.PyTreeDef], chex.Array, chex.Array], chex.Array]:\n    \"\"\"Create a sharded function for text generation using a Flax model.\n\n        :param model :EasyDeLFlaxPretrainedModel: The Flax model used for text generation.\n        :param generation_config :GenerationConfig: Configuration for text generation.\n        :param params :dict or jax.tree_util.PyTreeDef: Parameters of the model or a PyTree representing the model's\n            parameters.\n        :param generation_partition_spec :PartitionSpec: Sharding specification for generation inputs. Defaults to\n            PartitionSpec((\"dp\", \"fsdp\"), \"sp\").\n        :param output_partition_spec: PartitionSpec: Sharding specification for output sequences. Defaults to\n            PartitionSpec((\"dp\", \"fsdp\"), \"sp\").\n        :param logits_processor :LogitsProcessor: Processor for model logits. Defaults to None.\n        :param return_prediction_only :bool: Whether to return only the generated sequences. Defaults to True.\n\n    Returns:\n        Callable[[Any, chex.Array, chex.Array], chex.Array]: Sharded\n        function for text generation.\n    \"\"\"\n\n    def generate_fn(\n            parameters: Union[dict, jax.tree_util.PyTreeDef],\n            input_ids: chex.Array,\n            attention_mask: chex.Array\n    ) -&gt; chex.Array:\n        \"\"\"Generate text sequences using the provided model and parameters.\n\n        Args:\n            parameters: Union[dict, jax.tree_util.PyTreeDef]: Model\n                parameters.\n            input_ids: chex.Array: Input token IDs.\n            attention_mask: chex.Array: Attention mask.\n\n        Returns:\n            Generated array sequences.\n        \"\"\"\n        input_ids = with_sharding_constraint(\n            input_ids,\n            generation_partition_spec\n        )\n        attention_mask = with_sharding_constraint(\n            attention_mask,\n            generation_partition_spec\n        )\n        predict = model.generate(\n            input_ids,\n            attention_mask=attention_mask,\n            params=parameters,\n            generation_config=generation_config,\n            logits_processor=logits_processor\n        )\n        return predict.sequences[:, input_ids.shape[1]:] if return_prediction_only else predict.sequences\n\n    return pjit(\n        generate_fn,\n        in_shardings=(\n            jax.tree_util.tree_map(get_partitions, params),\n            generation_partition_spec,\n            generation_partition_spec\n        ),\n        out_shardings=output_partition_spec\n    )\n</code></pre>"},{"location":"generated-serve-utils/#src.python.easydel.serve.utils.get_partitions","title":"<code>get_partitions(tree)</code>","text":"<p>Retrieve sharding specifications for model parameters.</p> Source code in <code>src/python/easydel/serve/utils.py</code> <pre><code>def get_partitions(tree):\n    \"\"\"Retrieve sharding specifications for model parameters.\"\"\"\n    if not isinstance(tree, fjformer.linen.LinearBitKernel):\n        return getattr(tree.sharding, \"spec\", PartitionSpec(None))\n    else:\n        kernel_sharding = getattr(tree.kernel.sharding, \"spec\", PartitionSpec(None))\n        scale_sharding = getattr(tree.scale.sharding, \"spec\", PartitionSpec(None))\n        return fjformer.linen.LinearBitKernel(\n            kernel=kernel_sharding,  # type:ignore\n            scale=scale_sharding,  # type:ignore\n        )\n</code></pre>"},{"location":"generated-smi-smi/","title":"smi.smi","text":""},{"location":"generated-smi-smi/#src.python.easydel.smi.smi.get_mem","title":"<code>get_mem(dir_prefix='/dev/shm' if sys.platform != 'win32' else '.')</code>","text":"<p>The get_mem function is a wrapper around the go tool pprof command. It takes in an optional argument, dir_prefix, which defaults to /dev/shm. The function then runs the go tool pprof command with arguments -tags and dir_prefix/memory.prof, and returns its stdout as a string.</p> <p>Parameters:</p> Name Type Description Default <code>dir_prefix</code> <code>str</code> <p>str: Specify the directory where</p> <code>'/dev/shm' if platform != 'win32' else '.'</code> <p>Returns:</p> Type Description <p>A string of the memory profile</p> Source code in <code>src/python/easydel/smi/smi.py</code> <pre><code>def get_mem(dir_prefix: str = \"/dev/shm\" if sys.platform != \"win32\" else \".\"):\n    \"\"\"The get_mem function is a wrapper around the go tool pprof command.\n    It takes in an optional argument, dir_prefix, which defaults to /dev/shm.\n    The function then runs the go tool pprof command with arguments -tags and dir_prefix/memory.prof,\n    and returns its stdout as a string.\n\n    Args:\n        dir_prefix: str: Specify the directory where\n\n    Returns:\n        A string of the memory profile\n    \"\"\"\n    return subprocess.run(\n        args=['go', 'tool', 'pprof', '-tags', f'{dir_prefix}/memory.prof'],\n        stdout=subprocess.PIPE,\n        stderr=subprocess.DEVNULL,\n    ).stdout.decode('utf-8')\n</code></pre>"},{"location":"generated-smi-smi/#src.python.easydel.smi.smi.initialise_tracking","title":"<code>initialise_tracking(interval=0.5, dir_prefix='/dev/shm' if sys.platform != 'win32' else '.')</code>","text":"<p>The initialise_tracking function starts a daemon thread that periodically saves the current memory profile to disk.</p> <p>Parameters:</p> Name Type Description Default <code>interval</code> <code>float</code> <p>float: Specify the time interval between each memory profile</p> <code>0.5</code> <code>dir_prefix</code> <code>str</code> <p>str: Specify the directory where the memory profile will be saved</p> <code>'/dev/shm' if platform != 'win32' else '.'</code> <p>Returns:</p> Type Description <code>None</code> <p>Nothing, but it starts a thread that</p> Source code in <code>src/python/easydel/smi/smi.py</code> <pre><code>def initialise_tracking(interval: float = 0.5,\n                        dir_prefix: str = \"/dev/shm\" if sys.platform != \"win32\" else \".\") -&gt; None:\n    \"\"\"The initialise_tracking function starts a daemon thread that periodically saves the current memory profile to disk.\n\n    Args:\n        interval: float: Specify the time interval between each memory\n            profile\n        dir_prefix: str: Specify the directory where the memory profile\n            will be saved\n\n    Returns:\n        Nothing, but it starts a thread that\n    \"\"\"\n\n    def inner():\n        while True:\n            jax.profiler.save_device_memory_profile(f'{dir_prefix}/memory.prof.new')\n            os.rename(f'{dir_prefix}/memory.prof.new', f'{dir_prefix}/memory.prof')\n            time.sleep(interval)\n\n    thread = threading.Thread(target=inner, daemon=True)\n    thread.start()\n</code></pre>"},{"location":"generated-smi-smi/#src.python.easydel.smi.smi.run","title":"<code>run(note_book=None, interval=1, dir_prefix='/dev/shm', dpr=True)</code>","text":"<p>The run function is a simple wrapper around the go tool pprof command. It runs the command every interval seconds and prints out its output to stdout. If you are running this in a notebook, it will print to IPython's display instead of stdout.</p> <p>Parameters:</p> Name Type Description Default <code>note_book</code> <p>Determine whether the program is running in a notebook or not</p> <code>None</code> <code>interval</code> <code>float</code> <p>float: Specify the time interval between each refresh</p> <code>1</code> <code>dir_prefix</code> <code>str</code> <p>str: Specify the directory where the memory</p> <code>'/dev/shm'</code> <code>dpr</code> <p>Control whether the output is displayed in a notebook or not</p> <code>True</code> <p>Returns:</p> Type Description <p>The output of the pprof command</p> Source code in <code>src/python/easydel/smi/smi.py</code> <pre><code>def run(note_book=None, interval: float = 1, dir_prefix: str = '/dev/shm', dpr=True):\n    \"\"\"The run function is a simple wrapper around the go tool pprof command.\n    It runs the command every interval seconds and prints out its output to stdout.\n    If you are running this in a notebook, it will print to IPython's display instead of stdout.\n\n    Args:\n        note_book: Determine whether the program is running in a\n            notebook or not\n        interval: float: Specify the time interval between each refresh\n        dir_prefix: str: Specify the directory where the memory\n        dpr: Control whether the output is displayed in a notebook or\n            not\n\n    Returns:\n        The output of the pprof command\n    \"\"\"\n    if note_book is None:\n        import os\n\n        def is_notebook():\n            \"\"\"Returns True if the code is being run in a notebook, False otherwise.\"\"\"\n            return os.environ.get(\"IPYTHON\") is not None\n\n        note_book = is_notebook()\n    std = curses.initscr() if not note_book else None\n    try:\n        while True:\n            if not note_book and dpr:\n                std.clear()\n            output = subprocess.run(\n                args=['go', 'tool', 'pprof', '-tags', f'{dir_prefix}/memory.prof'],\n                stdout=subprocess.PIPE,\n                stderr=subprocess.DEVNULL,\n            ).stdout.decode('utf-8')\n            if not note_book and dpr:\n                std.addstr(output)\n                std.refresh()\n            if note_book and dpr:\n                IPython.display.clear_output(True)\n                print(output)\n\n            with open(f'{dir_prefix}/memory.json', 'w') as fin:\n                json.dump({\n                    'log': output\n                }, fin)\n            time.sleep(interval)\n    except KeyboardInterrupt:\n        curses.endwin()\n</code></pre>"},{"location":"generated-trainer-base_trainer/","title":"trainer.base_trainer","text":""},{"location":"generated-trainer-base_trainer/#src.python.easydel.trainer.base_trainer.BaseTrainer","title":"<code>BaseTrainer</code>","text":"Source code in <code>src/python/easydel/trainer/base_trainer.py</code> <pre><code>class BaseTrainer:\n    def __init__(\n            self,\n            arguments: TrainArguments,\n            dataset_train: Dataset,\n            dataset_eval: Dataset = None,\n            finetune: bool = True,\n            checkpoint_path: Union[str, os.PathLike] = None,\n            _do_init_fns: bool = True\n    ):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It sets up all the variables that are needed for training, including:\n        - The timer to keep track of how long each epoch takes.\n        - The dataloaders for both training and evaluation (if provided).\n        - The model itself, which will be created from a checkpoint if one was provided.  Otherwise,\n         it will be created from scratch using the arguments passed in by the user.\n         Note that this function also handles creating a mesh if one was not already specified in arguments\n         or loaded from a checkpoint file (see below).\n          This means that you can pass in either\n\n        Args:\n            self: Represent the instance of the class\n            arguments: TrainArguments: Pass the arguments to the trainer\n            dataset_train: Dataset: Pass the training dataset to the\n                trainer\n            dataset_eval: Dataset: Pass the validation dataset\n            finetune: bool: Load the model from a checkpoint\n            checkpoint_path: Union[str,os.PathLike] : Load the\n                checkpoint path\n            _do_init_fns: bool: Initialize the functions\n\n        Returns:\n            Nothing, it just initializes the class\n        \"\"\"\n        # Loggers\n        self.timer = getattr(self, \"timer\", None)\n        self.wandb_runtime: Run | RunDisabled | None = getattr(self, \"wandb_runtime\", None)\n\n        # Data\n        self.dataloader_train = getattr(self, \"dataloader_train\", None)\n        self.dataloader_eval = getattr(self, \"dataloader_eval\", None)\n        self.max_training_steps = getattr(self, \"max_training_steps\", None)\n        self.max_evaluation_steps = getattr(self, \"max_evaluation_steps\", None)\n        self.dataset_train = dataset_train\n        self.dataset_eval = dataset_eval\n\n        # Model Related\n        self.model = getattr(self, \"model\", None)\n        self.config = getattr(self, \"config\", None)\n        self.scheduler = getattr(self, \"scheduler\", None)\n        self.tx = getattr(self, \"tx\", None)\n        self.model_state = getattr(self, \"model_state\", None)\n\n        # LoRA Related\n        self.rapture = arguments.rapture\n        self.lora_parameters = getattr(self, \"lora_parameters\", None)\n        self.lora_model = getattr(self, \"lora_model\", None)\n        self.lora_tx = getattr(self, \"lora_tx\", None)\n        self.lora_opt_state = getattr(self, \"lora_opt_state\", None)\n        self.lora_apply_fn = getattr(self, \"lora_apply_fn\", None)\n\n        # PJit functions\n        self.create_sharded_state_from_params_function = getattr(\n            self,\n            \"create_sharded_state_from_params_function\",\n            None\n        )\n        self.sharded_train_step_function = getattr(self, \"sharded_train_step_function\", None)\n        self.sharded_eval_step_function = getattr(self, \"sharded_eval_step_function\", None)\n        self.initialize_state_function = getattr(self, \"initialize_state_function\", None)\n        self.mesh = getattr(self, \"mesh\", None)\n\n        # Checkpoint Managers\n        self.checkpoint_manager: fjformer.CheckpointManager | None = getattr(self, \"checkpoint_manager\", None)\n\n        # EasyState\n        self.state_shape = getattr(self, \"state_shape\", None)\n        self.state_partition_spec = getattr(self, \"state_partition_spec\", None)\n        self.sharded_state = getattr(self, \"sharded_state\", None)\n\n        # Rest\n\n        self.arguments = arguments\n        self.finetune = finetune\n        self.checkpoint_path = checkpoint_path\n        self.dtype = arguments.dtype\n        self.param_dtype = arguments.param_dtype\n        if self.arguments.track_memory:\n            if not self.arguments.performance_mode:\n                initialise_tracking()\n                self.arguments._stop_capturing_memory = False\n                self._start_capturing_memory().start()\n        if finetune:\n            if checkpoint_path is None:\n                prefix_print(\n                    \"Warning\",\n                    \"In case of using `finetune = True` and Passing `checkpoint_path = None`\"\n                    \" you should pass parameters in train function\"\n                )\n        if _do_init_fns:\n            self.initialize_trainer_utils()\n        else:\n            prefix_print(\n                \"Warning\",\n                \"you have set `_do_init_fns = False` so function will not me initialized you have \"\n                f\"to do in manually (simply with `trainer.initialize_trainer_utils()` )\"\n            )\n\n    def __str__(self):\n        string = f\"{self.__class__.__name__}(\"\n        for key, value in self.__dict__.items():\n            try:\n                string += value.__str__().replace(\"\\n\", \"\\n\\t\")\n            except TypeError:\n                ...\n        string += \")\"\n        return string\n\n    def __repr__(self):\n        return self.__str__()\n\n    @staticmethod\n    def finish():\n        \"\"\"The finish function is called when the experiment ends.\n        It can be used to save data, upload files, or do any other cleanup tasks.\n\n        Returns:\n            A dictionary of the run's metadata\n        \"\"\"\n        wandb.finish()\n\n    def _start_capturing_memory(self, dir_prefix: str = \"/dev/shm\" if sys.platform != \"win32\" else \".\"):\n        def _start():\n            while True:\n                information_queries = {}\n                for key in [\"Used\", \"Usage Percent\"]:\n                    for device, info in get_capacity_matrix(dir_prefix=dir_prefix).items():\n                        information_queries[f\"accelerators/{device.replace('_', ' ')} ({key})\"] = float(\n                            info[key].replace(\"%\", \"\").replace(\"GB\", \"\")\n                        )\n                self.arguments._captured_memory = information_queries\n                if self.arguments.stop_capturing_memory:\n                    break\n                time.sleep(1.5)\n\n        return threading.Thread(target=_start)\n\n    def initialize_trainer_utils(self):\n        \"\"\"The initialize_trainer_utils function is responsible for initializing the following:\n            - wandb_runtime (if you use_wandb is True)\n            - timer object (for logging time taken by various functions)\n            - dataloader objects for training and evaluation data, along with max steps per epoch.\n              The configure_dataloader function accomplishes this task.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A tuple of functions\n        \"\"\"\n        self.wandb_runtime = None\n        if self.arguments.use_wandb:\n            self.wandb_runtime = self.arguments.get_wandb_init()\n        self.timer = Timers(\n            use_wandb=False,\n            tensorboard_writer=self.arguments.get_board()\n        )\n\n        self.timer(\"configure dataloaders\").start()\n        dataset_configurations = self.configure_dataloader()\n        self.dataloader_train = dataset_configurations.dataloader_train\n        self.max_training_steps = dataset_configurations.max_training_steps\n        self.dataloader_eval = dataset_configurations.dataloader_eval\n        self.max_evaluation_steps = dataset_configurations.max_evaluation_steps\n\n        self.timer(\"configure dataloaders\").stop()\n\n        self.timer.log([\"configure dataloaders\"])\n\n        self.timer(\"configure Model, Optimizer, Scheduler and Config\").start()\n        model_configurations = self.configure_model()\n        model = model_configurations.model\n        tx = model_configurations.tx\n        scheduler = model_configurations.scheduler\n        config = model_configurations.config\n        self.model = model\n        self.tx = tx\n        self.scheduler = scheduler\n        self.config = config\n        if self.rapture is not None:\n            lora_modules = self.rapture.apply_lora(\n                module=model,\n                parameters=self.arguments.rapture_config.parameters,\n                tx=tx,\n            )\n            self.lora_parameters = lora_modules.lora_parameters\n            self.lora_apply_fn = lora_modules.lora_module.__call__\n            self.lora_opt_state = lora_modules.lora_opt_state\n            self.lora_model = lora_modules.lora_module\n            self.lora_tx = lora_modules.lora_tx\n\n        self.timer(\"configure Model, Optimizer, Scheduler and Config\").stop()\n        self.timer.log([\"configure Model, Optimizer, Scheduler and Config\"])\n        self.timer(\"configure functions and sharding them\").start()\n        function_configurations = self.configure_functions()\n        self.create_sharded_state_from_params_function = \\\n            function_configurations.create_sharded_state_from_params_function\n        self.sharded_train_step_function = function_configurations.sharded_train_step_function\n        self.sharded_eval_step_function = function_configurations.sharded_eval_step_function\n        self.mesh = function_configurations.mesh\n        self.checkpoint_manager = function_configurations.checkpoint_manager\n        self.initialize_state_function = function_configurations.initialize_state_function\n        self.timer(\"configure functions and sharding them\").stop()\n        self.timer.log([\"configure functions and sharding them\"])\n\n    @abstractmethod\n    def create_collate_function(\n            self,\n            max_sequence_length: int,\n            truncation_mode: Literal[\"keep_end\", \"keep_start\"]\n    ) -&gt; Callable:\n        raise NotImplementedError\n\n    @abc.abstractmethod\n    def configure_functions(self) -&gt; TrainerConfigureFunctionFuncOutput:\n        \"\"\"The configure_functions function is responsible for configuring the functions that will be used in training.\n        It does this by first defining a function called function_configurations, which initializes the model parameters and returns\n        them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate\n        on a batch of data, including:\n\n        Args:\n            self: Access the class attributes\n\n        Returns:\n            A TrainerConfigureFunctionFuncOutput object\n        \"\"\"\n        raise NotImplementedError\n\n    def configure_dataloader(self) -&gt; TrainerConfigureDataloaderFuncOutput:\n        \"\"\"The configure_dataloader function is used to configure the dataloader for training and evaluation.\n\n        Args:\n            self: Refer to the class instance itself\n\n        Returns:\n            A TrainerConfigureDataloaderFuncOutput object\n        \"\"\"\n\n        def create_tf_dataset(dataset: Dataset, is_train: bool) -&gt; Iterator[ndarray[Any, Any]]:\n            return (\n                dataset.to_tf_dataset(\n                    collate_fn=self.create_collate_function(\n                        max_sequence_length=self.arguments.max_sequence_length,\n                        truncation_mode=self.arguments.truncation_mode\n                    ),\n                    batch_size=self.arguments.total_batch_size,\n                    drop_remainder=True,\n                    shuffle=not is_train,\n                    num_workers=self.arguments.dataloader_num_workers\n                )\n                .repeat(self.arguments.num_train_epochs if is_train else 1)\n                .prefetch(tf.data.experimental.AUTOTUNE)\n                .as_numpy_iterator()\n            )\n\n        def create_tf_dataset_from_iterable(dataset: IterableDataset, is_train: bool) -&gt; Iterator[ndarray[Any, Any]]:\n            return (\n                tf.data.Dataset.from_generator(\n                    lambda: dataset,\n                    output_signature={\n                        col: tf.TensorSpec(shape=(self.arguments.max_sequence_length,), dtype=tf.int32)\n                        for col in next(iter(dataset)).keys()\n                    }\n                )\n                .repeat(self.arguments.num_train_epochs if is_train else 1)\n                .batch(self.arguments.total_batch_size, drop_remainder=False)\n                .prefetch(tf.data.experimental.AUTOTUNE)\n                .as_numpy_iterator()\n            )\n\n        def calculate_steps(dataset: Union[Dataset, IterableDataset], is_train: bool):\n            \"\"\"Return total number of steps to train or evaluate on.\"\"\"\n            if hasattr(dataset, \"__len__\"):\n                num_steps = len(dataset) * (self.arguments.num_train_epochs if is_train else 1)\n                max_steps = self.arguments.max_training_steps if is_train else self.arguments.max_evaluation_steps\n                return min(num_steps, max_steps) if max_steps else num_steps\n            else:\n                num_steps = self.arguments.max_training_steps if is_train else self.arguments.max_evaluation_steps\n                if not num_steps:\n                    raise ValueError(\n                        f\"Specify the number of {'training' if is_train else 'evaluation'} steps for a generator/streaming dataset.\")\n                return num_steps\n\n        def to_tf_dataloader(dataset: Union[Dataset, IterableDataset], is_train: bool):\n            if hasattr(dataset, \"__len__\"):\n                return create_tf_dataset(dataset, is_train)\n            else:\n                return create_tf_dataset_from_iterable(dataset, is_train)\n\n        max_training_steps = calculate_steps(self.dataset_train, is_train=True)\n        dataloader_train = to_tf_dataloader(self.dataset_train, is_train=True)\n\n        if self.dataset_eval is not None and self.arguments.do_eval:\n            max_evaluation_steps = calculate_steps(self.dataset_eval, is_train=False)\n            dataloader_eval = to_tf_dataloader(self.dataset_eval, is_train=False)\n        else:\n            dataloader_eval, max_evaluation_steps = None, 0\n\n        return TrainerConfigureDataloaderFuncOutput(\n            dataloader_train=dataloader_train,\n            max_training_steps=max_training_steps,\n            dataloader_eval=dataloader_eval,\n            max_evaluation_steps=max_evaluation_steps\n        )\n\n    def configure_model(self) -&gt; TrainerConfigureModelFuncOutput:\n        \"\"\"The configure_model function is responsible for creating the model, optimizer and scheduler.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A model, optimizer, scheduler and config  in\n            TrainerConfigureModelFuncOutput Object\n        \"\"\"\n        extra_configs = {} if self.arguments.extra_configs is None else self.arguments.extra_configs\n        if self.arguments.model_class is not None:\n\n            if not hasattr(self.arguments.configs_to_initialize_model_class[\"config\"], \"get_partition_rules\"):\n                assert self.arguments.custom_rule is not None, (\n                    \"if you are using custom model to init you must\"\n                    \" pass custom_rule for partition rules \"\n                )\n\n            self.arguments.configs_to_initialize_model_class[\"config\"].axis_dims = self.arguments.sharding_array\n\n            model = self.arguments.model_class(\n                **self.arguments.configs_to_initialize_model_class,\n                _do_init=False\n            )\n\n            config = self.arguments.configs_to_initialize_model_class[\"config\"]\n\n        else:\n            extra_configs[\"gradient_checkpointing\"] = self.arguments.gradient_checkpointing\n\n            model = AutoEasyDeLModelForCausalLM.from_pretrained(\n                self.arguments.model_huggingface_repo_id,\n                dtype=self.arguments.dtype,\n                param_dtype=self.arguments.param_dtype,\n                _do_init=False\n            )\n            if hasattr(model, \"config\"):\n                for k, v in extra_configs.items():\n                    setattr(model.config, k, v)\n                config = model.config\n            else:\n                config = None\n                warnings.warn(\n                    \"Config is being set to None due to not detecting Model Configuration from taken Model \"\n                    \"this will cause errors later.\"\n                )\n        tx, scheduler = self.arguments.get_optimizer_and_scheduler(self.max_training_steps)\n        return TrainerConfigureModelFuncOutput(\n            model=model,\n            tx=tx,\n            scheduler=scheduler,\n            config=config\n        )\n\n    def _save_state(\n            self,\n            state: \"EasyDeLState\",  # type: ignore\n            gather_fns: Optional[Any | Mapping[str, Callable] | dict[Callable]],\n            milestone: bool = False,\n            save_dir: Optional[str] = None,\n    ) -&gt; str:\n        step = int(\n            jax.device_get(\n                state.step\n            )\n        ) + self.arguments.step_start_point if self.arguments.step_start_point is not None else int(\n            jax.device_get(\n                state.step\n            )\n        )\n        checkpoint_name = f\"{self.arguments.model_name}-S{step}\"\n        filename = f\"{checkpoint_name}_{step}\" if milestone else f\"{checkpoint_name}\"\n        filename += \".easy\"\n        termcolor.cprint(f\"Saving Model {filename}.\", color=\"cyan\", force_color=True)\n\n        checkpoint_dir = os.path.join(self.arguments.save_dir,\n                                      self.arguments.model_name) if save_dir is None else save_dir\n        state.save_state(\n            filename=filename,\n            checkpoint_dir=checkpoint_dir,\n            gather_fns=gather_fns,\n            float_dtype=self.dtype,\n            verbose=self.arguments.verbose,\n            save_optimizer=self.arguments.save_optimizer_state,\n        )\n        open(os.path.join(checkpoint_dir, \"README.md\"), \"w\").write(self._get_information())\n        return filename\n\n    @abc.abstractmethod\n    def train(self):\n        \"\"\"abstract of Train Function to train model\"\"\"\n\n    @abc.abstractmethod\n    def eval(self, state):\n        \"\"\"abstract of Eval Function to evaluate model\"\"\"\n\n    def _get_information(self):\n        makrdown = f\"\"\"\n---\ntags:\n- EasyDeL\n- {self.arguments.model_class.config_class.model_type}\n---\n# {self.arguments.model_name}\n\n## Trained With [EasyDeL](https://github.com/erfanzar/EasyDeL)\n\nEasyDeL is an open-source framework designed to enhance and streamline the training process of machine learning\nmodels. With a primary focus on Jax, EasyDeL aims to provide convenient and effective solutions for \ntraining Flax/Jax models on TPU/GPU for both serving and training purposes.\n\n## Training Detail\n\n- Model Architecture : {self.arguments.model_class.config_class.model_type}\n- Platform : {jax.devices()[0].platform.upper()}\n- Number of Devices : {len(jax.devices())}\n- Learning Rate Start : {self.arguments.learning_rate}\n- Learning Rate End : {self.arguments.learning_rate_end}\n- Optimizer : {self.arguments.optimizer}\n- Scheduler : {self.arguments.scheduler}\n- Warmup Steps : {self.arguments.warmup_steps}\n- Weight Decay : {self.arguments.weight_decay}\n- Z Loss : {self.arguments.z_loss}\n- Epoch : {self.arguments.num_train_epochs}\n- Batch size : {self.arguments.total_batch_size}\n- Sequence Length : {self.arguments.max_sequence_length}\n- EasyDeL init InputShape : {self.arguments.init_input_shape}\n- Dtype : {self.arguments.dtype}\n- Params Dtype : {self.arguments.param_dtype}\n- Gradient checkpointing : {self.arguments.gradient_checkpointing}\n- Fully Sharded Data Parallel : {self.arguments.fully_sharded_data_parallel}\n- Force batch GradientAccumulation : {self.arguments.force_batch_and_gradient_accumulation_steps_calculation}\n- Gradient Accumulation Steps : {self.arguments.gradient_accumulation_steps}\n- Max Training Steps : {self.arguments.max_training_steps}\n- Max Evaluation Steps : {self.arguments.max_evaluation_steps}\n- Training Time : {self.arguments.training_time}\n\n#### Sharding Partition Rules\n```python\npartition_rules = {\n        self.arguments.custom_rule if self.arguments.custom_rule is not None else\n        self.arguments.model_class.config_class.get_partition_rules(self.arguments.fully_sharded_data_parallel)\n        }\n```\n        \"\"\"\n        return makrdown\n\n    def save_pretrained(\n            self,\n            state: \"EasyDeLState\",  # type: ignore\n            save_dir: Optional[str] = None,\n            gather_fns: Optional[Any | Mapping[str, Callable] | dict[Callable]] = None,\n            to_torch: bool = False,\n            base_hf_auto_class=AutoModelForCausalLM,\n            easystate_to_huggingface_model_kwargs: Optional[dict] = None,\n            add_params_field_to_torch_convertation: bool = False,\n            torch_save_pretrained_kwargs: Optional[dict] = None\n    ):\n        if torch_save_pretrained_kwargs is None:\n            torch_save_pretrained_kwargs = {}\n        if easystate_to_huggingface_model_kwargs is None:\n            easystate_to_huggingface_model_kwargs = {}\n        if save_dir is None:\n            save_dir = os.path.join(self.arguments.save_dir, self.arguments.model_name)\n        if to_torch:\n            from ..transform.easydel_transform import easystate_to_huggingface_model\n\n            if easystate_to_huggingface_model_kwargs is None:\n                easystate_to_huggingface_model_kwargs = {}\n\n            model_config = state.module_config\n            if model_config is None:\n                model_config = state.module.config_class\n            model_type = model_config.model_type\n\n            model_class = base_hf_auto_class._model_mapping[type(model_config)]  # noqa\n\n            unsafe_dict = state.unsafe_dict(model_config.__dict__)\n            hf_model_config = AutoConfig.for_model(model_type=model_type)\n            blocked_statics = [\"torch_dtype\"]\n            kss = list(hf_model_config.__dict__.keys())\n            for k, v in unsafe_dict.items():\n                if not k.startswith(\"_\") and k in kss and k not in blocked_statics:\n                    if isinstance(v, str):\n                        if v.isnumeric():\n                            v = float(v)\n                            if v.is_integer():\n                                v = int(v)\n\n                    setattr(hf_model_config, k, v)\n            hf_model = easystate_to_huggingface_model(\n                state=state,\n                base_huggingface_module=model_class,\n                config=hf_model_config,\n                **easystate_to_huggingface_model_kwargs\n            )\n\n            open(os.path.join(save_dir, \"README.md\"), \"w\").write(self._get_information())\n            hf_model.save_pretrained(save_dir, **torch_save_pretrained_kwargs)\n            return hf_model\n        else:\n            self._save_state(\n                state=state,\n                gather_fns=gather_fns,\n                save_dir=save_dir\n            )\n            return state\n</code></pre>"},{"location":"generated-trainer-base_trainer/#src.python.easydel.trainer.base_trainer.BaseTrainer.__init__","title":"<code>__init__(arguments, dataset_train, dataset_eval=None, finetune=True, checkpoint_path=None, _do_init_fns=True)</code>","text":"<p>The init function is called when the class is instantiated. It sets up all the variables that are needed for training, including: - The timer to keep track of how long each epoch takes. - The dataloaders for both training and evaluation (if provided). - The model itself, which will be created from a checkpoint if one was provided.  Otherwise,  it will be created from scratch using the arguments passed in by the user.  Note that this function also handles creating a mesh if one was not already specified in arguments  or loaded from a checkpoint file (see below).   This means that you can pass in either</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>arguments</code> <code>TrainArguments</code> <p>TrainArguments: Pass the arguments to the trainer</p> required <code>dataset_train</code> <code>Dataset</code> <p>Dataset: Pass the training dataset to the trainer</p> required <code>dataset_eval</code> <code>Dataset</code> <p>Dataset: Pass the validation dataset</p> <code>None</code> <code>finetune</code> <code>bool</code> <p>bool: Load the model from a checkpoint</p> <code>True</code> <code>checkpoint_path</code> <code>Union[str, PathLike]</code> <p>Union[str,os.PathLike] : Load the checkpoint path</p> <code>None</code> <code>_do_init_fns</code> <code>bool</code> <p>bool: Initialize the functions</p> <code>True</code> <p>Returns:</p> Type Description <p>Nothing, it just initializes the class</p> Source code in <code>src/python/easydel/trainer/base_trainer.py</code> <pre><code>def __init__(\n        self,\n        arguments: TrainArguments,\n        dataset_train: Dataset,\n        dataset_eval: Dataset = None,\n        finetune: bool = True,\n        checkpoint_path: Union[str, os.PathLike] = None,\n        _do_init_fns: bool = True\n):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It sets up all the variables that are needed for training, including:\n    - The timer to keep track of how long each epoch takes.\n    - The dataloaders for both training and evaluation (if provided).\n    - The model itself, which will be created from a checkpoint if one was provided.  Otherwise,\n     it will be created from scratch using the arguments passed in by the user.\n     Note that this function also handles creating a mesh if one was not already specified in arguments\n     or loaded from a checkpoint file (see below).\n      This means that you can pass in either\n\n    Args:\n        self: Represent the instance of the class\n        arguments: TrainArguments: Pass the arguments to the trainer\n        dataset_train: Dataset: Pass the training dataset to the\n            trainer\n        dataset_eval: Dataset: Pass the validation dataset\n        finetune: bool: Load the model from a checkpoint\n        checkpoint_path: Union[str,os.PathLike] : Load the\n            checkpoint path\n        _do_init_fns: bool: Initialize the functions\n\n    Returns:\n        Nothing, it just initializes the class\n    \"\"\"\n    # Loggers\n    self.timer = getattr(self, \"timer\", None)\n    self.wandb_runtime: Run | RunDisabled | None = getattr(self, \"wandb_runtime\", None)\n\n    # Data\n    self.dataloader_train = getattr(self, \"dataloader_train\", None)\n    self.dataloader_eval = getattr(self, \"dataloader_eval\", None)\n    self.max_training_steps = getattr(self, \"max_training_steps\", None)\n    self.max_evaluation_steps = getattr(self, \"max_evaluation_steps\", None)\n    self.dataset_train = dataset_train\n    self.dataset_eval = dataset_eval\n\n    # Model Related\n    self.model = getattr(self, \"model\", None)\n    self.config = getattr(self, \"config\", None)\n    self.scheduler = getattr(self, \"scheduler\", None)\n    self.tx = getattr(self, \"tx\", None)\n    self.model_state = getattr(self, \"model_state\", None)\n\n    # LoRA Related\n    self.rapture = arguments.rapture\n    self.lora_parameters = getattr(self, \"lora_parameters\", None)\n    self.lora_model = getattr(self, \"lora_model\", None)\n    self.lora_tx = getattr(self, \"lora_tx\", None)\n    self.lora_opt_state = getattr(self, \"lora_opt_state\", None)\n    self.lora_apply_fn = getattr(self, \"lora_apply_fn\", None)\n\n    # PJit functions\n    self.create_sharded_state_from_params_function = getattr(\n        self,\n        \"create_sharded_state_from_params_function\",\n        None\n    )\n    self.sharded_train_step_function = getattr(self, \"sharded_train_step_function\", None)\n    self.sharded_eval_step_function = getattr(self, \"sharded_eval_step_function\", None)\n    self.initialize_state_function = getattr(self, \"initialize_state_function\", None)\n    self.mesh = getattr(self, \"mesh\", None)\n\n    # Checkpoint Managers\n    self.checkpoint_manager: fjformer.CheckpointManager | None = getattr(self, \"checkpoint_manager\", None)\n\n    # EasyState\n    self.state_shape = getattr(self, \"state_shape\", None)\n    self.state_partition_spec = getattr(self, \"state_partition_spec\", None)\n    self.sharded_state = getattr(self, \"sharded_state\", None)\n\n    # Rest\n\n    self.arguments = arguments\n    self.finetune = finetune\n    self.checkpoint_path = checkpoint_path\n    self.dtype = arguments.dtype\n    self.param_dtype = arguments.param_dtype\n    if self.arguments.track_memory:\n        if not self.arguments.performance_mode:\n            initialise_tracking()\n            self.arguments._stop_capturing_memory = False\n            self._start_capturing_memory().start()\n    if finetune:\n        if checkpoint_path is None:\n            prefix_print(\n                \"Warning\",\n                \"In case of using `finetune = True` and Passing `checkpoint_path = None`\"\n                \" you should pass parameters in train function\"\n            )\n    if _do_init_fns:\n        self.initialize_trainer_utils()\n    else:\n        prefix_print(\n            \"Warning\",\n            \"you have set `_do_init_fns = False` so function will not me initialized you have \"\n            f\"to do in manually (simply with `trainer.initialize_trainer_utils()` )\"\n        )\n</code></pre>"},{"location":"generated-trainer-base_trainer/#src.python.easydel.trainer.base_trainer.BaseTrainer.configure_dataloader","title":"<code>configure_dataloader()</code>","text":"<p>The configure_dataloader function is used to configure the dataloader for training and evaluation.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the class instance itself</p> required <p>Returns:</p> Type Description <code>TrainerConfigureDataloaderFuncOutput</code> <p>A TrainerConfigureDataloaderFuncOutput object</p> Source code in <code>src/python/easydel/trainer/base_trainer.py</code> <pre><code>def configure_dataloader(self) -&gt; TrainerConfigureDataloaderFuncOutput:\n    \"\"\"The configure_dataloader function is used to configure the dataloader for training and evaluation.\n\n    Args:\n        self: Refer to the class instance itself\n\n    Returns:\n        A TrainerConfigureDataloaderFuncOutput object\n    \"\"\"\n\n    def create_tf_dataset(dataset: Dataset, is_train: bool) -&gt; Iterator[ndarray[Any, Any]]:\n        return (\n            dataset.to_tf_dataset(\n                collate_fn=self.create_collate_function(\n                    max_sequence_length=self.arguments.max_sequence_length,\n                    truncation_mode=self.arguments.truncation_mode\n                ),\n                batch_size=self.arguments.total_batch_size,\n                drop_remainder=True,\n                shuffle=not is_train,\n                num_workers=self.arguments.dataloader_num_workers\n            )\n            .repeat(self.arguments.num_train_epochs if is_train else 1)\n            .prefetch(tf.data.experimental.AUTOTUNE)\n            .as_numpy_iterator()\n        )\n\n    def create_tf_dataset_from_iterable(dataset: IterableDataset, is_train: bool) -&gt; Iterator[ndarray[Any, Any]]:\n        return (\n            tf.data.Dataset.from_generator(\n                lambda: dataset,\n                output_signature={\n                    col: tf.TensorSpec(shape=(self.arguments.max_sequence_length,), dtype=tf.int32)\n                    for col in next(iter(dataset)).keys()\n                }\n            )\n            .repeat(self.arguments.num_train_epochs if is_train else 1)\n            .batch(self.arguments.total_batch_size, drop_remainder=False)\n            .prefetch(tf.data.experimental.AUTOTUNE)\n            .as_numpy_iterator()\n        )\n\n    def calculate_steps(dataset: Union[Dataset, IterableDataset], is_train: bool):\n        \"\"\"Return total number of steps to train or evaluate on.\"\"\"\n        if hasattr(dataset, \"__len__\"):\n            num_steps = len(dataset) * (self.arguments.num_train_epochs if is_train else 1)\n            max_steps = self.arguments.max_training_steps if is_train else self.arguments.max_evaluation_steps\n            return min(num_steps, max_steps) if max_steps else num_steps\n        else:\n            num_steps = self.arguments.max_training_steps if is_train else self.arguments.max_evaluation_steps\n            if not num_steps:\n                raise ValueError(\n                    f\"Specify the number of {'training' if is_train else 'evaluation'} steps for a generator/streaming dataset.\")\n            return num_steps\n\n    def to_tf_dataloader(dataset: Union[Dataset, IterableDataset], is_train: bool):\n        if hasattr(dataset, \"__len__\"):\n            return create_tf_dataset(dataset, is_train)\n        else:\n            return create_tf_dataset_from_iterable(dataset, is_train)\n\n    max_training_steps = calculate_steps(self.dataset_train, is_train=True)\n    dataloader_train = to_tf_dataloader(self.dataset_train, is_train=True)\n\n    if self.dataset_eval is not None and self.arguments.do_eval:\n        max_evaluation_steps = calculate_steps(self.dataset_eval, is_train=False)\n        dataloader_eval = to_tf_dataloader(self.dataset_eval, is_train=False)\n    else:\n        dataloader_eval, max_evaluation_steps = None, 0\n\n    return TrainerConfigureDataloaderFuncOutput(\n        dataloader_train=dataloader_train,\n        max_training_steps=max_training_steps,\n        dataloader_eval=dataloader_eval,\n        max_evaluation_steps=max_evaluation_steps\n    )\n</code></pre>"},{"location":"generated-trainer-base_trainer/#src.python.easydel.trainer.base_trainer.BaseTrainer.configure_functions","title":"<code>configure_functions()</code>  <code>abstractmethod</code>","text":"<p>The configure_functions function is responsible for configuring the functions that will be used in training. It does this by first defining a function called function_configurations, which initializes the model parameters and returns them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate on a batch of data, including:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access the class attributes</p> required <p>Returns:</p> Type Description <code>TrainerConfigureFunctionFuncOutput</code> <p>A TrainerConfigureFunctionFuncOutput object</p> Source code in <code>src/python/easydel/trainer/base_trainer.py</code> <pre><code>@abc.abstractmethod\ndef configure_functions(self) -&gt; TrainerConfigureFunctionFuncOutput:\n    \"\"\"The configure_functions function is responsible for configuring the functions that will be used in training.\n    It does this by first defining a function called function_configurations, which initializes the model parameters and returns\n    them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate\n    on a batch of data, including:\n\n    Args:\n        self: Access the class attributes\n\n    Returns:\n        A TrainerConfigureFunctionFuncOutput object\n    \"\"\"\n    raise NotImplementedError\n</code></pre>"},{"location":"generated-trainer-base_trainer/#src.python.easydel.trainer.base_trainer.BaseTrainer.configure_model","title":"<code>configure_model()</code>","text":"<p>The configure_model function is responsible for creating the model, optimizer and scheduler.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <code>TrainerConfigureModelFuncOutput</code> <p>A model, optimizer, scheduler and config  in</p> <code>TrainerConfigureModelFuncOutput</code> <p>TrainerConfigureModelFuncOutput Object</p> Source code in <code>src/python/easydel/trainer/base_trainer.py</code> <pre><code>def configure_model(self) -&gt; TrainerConfigureModelFuncOutput:\n    \"\"\"The configure_model function is responsible for creating the model, optimizer and scheduler.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A model, optimizer, scheduler and config  in\n        TrainerConfigureModelFuncOutput Object\n    \"\"\"\n    extra_configs = {} if self.arguments.extra_configs is None else self.arguments.extra_configs\n    if self.arguments.model_class is not None:\n\n        if not hasattr(self.arguments.configs_to_initialize_model_class[\"config\"], \"get_partition_rules\"):\n            assert self.arguments.custom_rule is not None, (\n                \"if you are using custom model to init you must\"\n                \" pass custom_rule for partition rules \"\n            )\n\n        self.arguments.configs_to_initialize_model_class[\"config\"].axis_dims = self.arguments.sharding_array\n\n        model = self.arguments.model_class(\n            **self.arguments.configs_to_initialize_model_class,\n            _do_init=False\n        )\n\n        config = self.arguments.configs_to_initialize_model_class[\"config\"]\n\n    else:\n        extra_configs[\"gradient_checkpointing\"] = self.arguments.gradient_checkpointing\n\n        model = AutoEasyDeLModelForCausalLM.from_pretrained(\n            self.arguments.model_huggingface_repo_id,\n            dtype=self.arguments.dtype,\n            param_dtype=self.arguments.param_dtype,\n            _do_init=False\n        )\n        if hasattr(model, \"config\"):\n            for k, v in extra_configs.items():\n                setattr(model.config, k, v)\n            config = model.config\n        else:\n            config = None\n            warnings.warn(\n                \"Config is being set to None due to not detecting Model Configuration from taken Model \"\n                \"this will cause errors later.\"\n            )\n    tx, scheduler = self.arguments.get_optimizer_and_scheduler(self.max_training_steps)\n    return TrainerConfigureModelFuncOutput(\n        model=model,\n        tx=tx,\n        scheduler=scheduler,\n        config=config\n    )\n</code></pre>"},{"location":"generated-trainer-base_trainer/#src.python.easydel.trainer.base_trainer.BaseTrainer.eval","title":"<code>eval(state)</code>  <code>abstractmethod</code>","text":"<p>abstract of Eval Function to evaluate model</p> Source code in <code>src/python/easydel/trainer/base_trainer.py</code> <pre><code>@abc.abstractmethod\ndef eval(self, state):\n    \"\"\"abstract of Eval Function to evaluate model\"\"\"\n</code></pre>"},{"location":"generated-trainer-base_trainer/#src.python.easydel.trainer.base_trainer.BaseTrainer.finish","title":"<code>finish()</code>  <code>staticmethod</code>","text":"<p>The finish function is called when the experiment ends. It can be used to save data, upload files, or do any other cleanup tasks.</p> <p>Returns:</p> Type Description <p>A dictionary of the run's metadata</p> Source code in <code>src/python/easydel/trainer/base_trainer.py</code> <pre><code>@staticmethod\ndef finish():\n    \"\"\"The finish function is called when the experiment ends.\n    It can be used to save data, upload files, or do any other cleanup tasks.\n\n    Returns:\n        A dictionary of the run's metadata\n    \"\"\"\n    wandb.finish()\n</code></pre>"},{"location":"generated-trainer-base_trainer/#src.python.easydel.trainer.base_trainer.BaseTrainer.initialize_trainer_utils","title":"<code>initialize_trainer_utils()</code>","text":"The initialize_trainer_utils function is responsible for initializing the following <ul> <li>wandb_runtime (if you use_wandb is True)</li> <li>timer object (for logging time taken by various functions)</li> <li>dataloader objects for training and evaluation data, along with max steps per epoch.   The configure_dataloader function accomplishes this task.</li> </ul> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>A tuple of functions</p> Source code in <code>src/python/easydel/trainer/base_trainer.py</code> <pre><code>def initialize_trainer_utils(self):\n    \"\"\"The initialize_trainer_utils function is responsible for initializing the following:\n        - wandb_runtime (if you use_wandb is True)\n        - timer object (for logging time taken by various functions)\n        - dataloader objects for training and evaluation data, along with max steps per epoch.\n          The configure_dataloader function accomplishes this task.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A tuple of functions\n    \"\"\"\n    self.wandb_runtime = None\n    if self.arguments.use_wandb:\n        self.wandb_runtime = self.arguments.get_wandb_init()\n    self.timer = Timers(\n        use_wandb=False,\n        tensorboard_writer=self.arguments.get_board()\n    )\n\n    self.timer(\"configure dataloaders\").start()\n    dataset_configurations = self.configure_dataloader()\n    self.dataloader_train = dataset_configurations.dataloader_train\n    self.max_training_steps = dataset_configurations.max_training_steps\n    self.dataloader_eval = dataset_configurations.dataloader_eval\n    self.max_evaluation_steps = dataset_configurations.max_evaluation_steps\n\n    self.timer(\"configure dataloaders\").stop()\n\n    self.timer.log([\"configure dataloaders\"])\n\n    self.timer(\"configure Model, Optimizer, Scheduler and Config\").start()\n    model_configurations = self.configure_model()\n    model = model_configurations.model\n    tx = model_configurations.tx\n    scheduler = model_configurations.scheduler\n    config = model_configurations.config\n    self.model = model\n    self.tx = tx\n    self.scheduler = scheduler\n    self.config = config\n    if self.rapture is not None:\n        lora_modules = self.rapture.apply_lora(\n            module=model,\n            parameters=self.arguments.rapture_config.parameters,\n            tx=tx,\n        )\n        self.lora_parameters = lora_modules.lora_parameters\n        self.lora_apply_fn = lora_modules.lora_module.__call__\n        self.lora_opt_state = lora_modules.lora_opt_state\n        self.lora_model = lora_modules.lora_module\n        self.lora_tx = lora_modules.lora_tx\n\n    self.timer(\"configure Model, Optimizer, Scheduler and Config\").stop()\n    self.timer.log([\"configure Model, Optimizer, Scheduler and Config\"])\n    self.timer(\"configure functions and sharding them\").start()\n    function_configurations = self.configure_functions()\n    self.create_sharded_state_from_params_function = \\\n        function_configurations.create_sharded_state_from_params_function\n    self.sharded_train_step_function = function_configurations.sharded_train_step_function\n    self.sharded_eval_step_function = function_configurations.sharded_eval_step_function\n    self.mesh = function_configurations.mesh\n    self.checkpoint_manager = function_configurations.checkpoint_manager\n    self.initialize_state_function = function_configurations.initialize_state_function\n    self.timer(\"configure functions and sharding them\").stop()\n    self.timer.log([\"configure functions and sharding them\"])\n</code></pre>"},{"location":"generated-trainer-base_trainer/#src.python.easydel.trainer.base_trainer.BaseTrainer.train","title":"<code>train()</code>  <code>abstractmethod</code>","text":"<p>abstract of Train Function to train model</p> Source code in <code>src/python/easydel/trainer/base_trainer.py</code> <pre><code>@abc.abstractmethod\ndef train(self):\n    \"\"\"abstract of Train Function to train model\"\"\"\n</code></pre>"},{"location":"generated-trainer-causal_language_model_trainer-causal_language_model_trainer/","title":"trainer.causal_language_model_trainer.causal_language_model_trainer","text":""},{"location":"generated-trainer-causal_language_model_trainer-causal_language_model_trainer/#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer","title":"<code>CausalLanguageModelTrainer</code>","text":"<p>               Bases: <code>BaseTrainer</code></p> Source code in <code>src/python/easydel/trainer/causal_language_model_trainer/causal_language_model_trainer.py</code> <pre><code>class CausalLanguageModelTrainer(BaseTrainer):\n\n    def create_collate_function(\n            self,\n            max_sequence_length: int,\n            truncation_mode: typing.Literal[\"keep_end\", \"keep_start\"] = \"keep_end\",\n    ) -&gt; Callable:\n        def collate_fn(batch):\n            results = {}\n            for key in batch[0].keys():\n                if truncation_mode == \"keep_end\":\n                    corrected_sequence = [\n                        jnp.array(f[key])[..., -max_sequence_length:] for f in batch\n                    ]\n                else:\n                    corrected_sequence = [\n                        jnp.array(f[key])[..., :max_sequence_length] for f in batch\n                    ]\n                results[key] = jnp.stack(corrected_sequence).reshape(\n                    -1,\n                    corrected_sequence[0].shape[-1]\n                )\n            return results\n\n        return collate_fn\n\n    def configure_functions(self) -&gt; TrainerConfigureFunctionFuncOutput:\n        \"\"\"The configure_functions function is responsible for configuring the functions that will be used in training.\n        It does this by first defining a function called function_configurations, which initializes the model parameters and returns\n        them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate\n        on a batch of data, including:\n\n        Args:\n            self: Access the class attributes\n\n        Returns:\n            A TrainerConfigureFunctionFuncOutput object\n        \"\"\"\n\n        def initialize_state_function():\n            initialized_parameters = self.model.init_weights(\n                jax.random.PRNGKey(0),\n                self.arguments.init_input_shape\n            )\n\n            if self.arguments.dtype == jnp.bfloat16:\n                initialized_parameters = self.model.to_bf16(initialized_parameters)\n            elif self.arguments.dtype == jnp.float16:\n                initialized_parameters = self.model.to_fp16(initialized_parameters)\n\n            tx = self.tx\n            parameters = flax.core.freeze({\"params\": initialized_parameters})\n            tx_init = copy.deepcopy(self.arguments.optimizer_kwargs)\n\n            if self.rapture is not None:\n                lora_parameters = self.lora_parameters\n                if self.arguments.dtype == jnp.bfloat16:\n                    lora_parameters = self.model.to_bf16(lora_parameters)\n                elif self.arguments.dtype == jnp.float16:\n                    lora_parameters = self.model.to_fp16(lora_parameters)\n\n                return EasyDeLState(\n                    step=0,\n                    apply_fn=self.lora_apply_fn,\n                    params=lora_parameters,\n                    tx=self.lora_tx,\n                    opt_state=self.lora_opt_state,\n                    tx_init=EasyDeLState.safe_dict(tx_init),\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.lora_model,\n                    module_config=self.model.config,\n                    module_config_args=None,\n                )\n            else:\n                return EasyDeLState.create(\n                    tx=tx,\n                    params=parameters,\n                    apply_fn=self.model.__call__,\n                    module_config=copy.deepcopy(self.model.config),\n                    tx_init=tx_init,\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.model,\n                    module_config_args=None\n                )\n\n        def create_state_from_params_function(parameters):\n            if self.rapture is None:\n                return EasyDeLState.create(\n                    tx=self.tx,\n                    params=parameters,\n                    apply_fn=self.model.__call__,\n                    module_config=copy.deepcopy(self.model.config),\n                    tx_init=copy.deepcopy(self.arguments.optimizer_kwargs),\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.model,\n                    module_config_args=None\n                )\n            else:\n                return EasyDeLState(\n                    step=0,\n                    apply_fn=self.lora_apply_fn,\n                    params=parameters,\n                    tx=self.lora_tx,\n                    opt_state=self.lora_opt_state,\n                    tx_init=EasyDeLState.safe_dict(copy.deepcopy(self.arguments.optimizer_kwargs)),\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.lora_model,\n                    module_config=self.model.config,\n                    module_config_args=None,\n                )\n\n        state_shape = jax.eval_shape(initialize_state_function)\n        state_partition_spec = match_partition_rules(\n            self.config.get_partition_rules(\n                fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n            ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n            state_shape\n        )\n        create_sharded_state_from_params_function = pjit(\n            create_state_from_params_function,\n            in_shardings=(state_partition_spec.params,),\n            out_shardings=state_partition_spec,\n            donate_argnums=(0,)\n        )\n        sharded_train_step_function = pjit(\n            create_casual_language_model_train_step(\n                partition_spec=self.arguments.step_partition_spec,\n                label_smoothing_factor=self.arguments.label_smoothing_factor,\n                z_loss=self.arguments.z_loss,\n            ),\n            in_shardings=(state_partition_spec, PartitionSpec()),\n            out_shardings=(state_partition_spec, PartitionSpec(), PartitionSpec()),\n            donate_argnums=(0, 0),\n        )\n\n        sharded_eval_step_function = pjit(\n            create_casual_language_model_evaluation_step(self.arguments.step_partition_spec),\n            in_shardings=(state_partition_spec, PartitionSpec()),\n            out_shardings=(PartitionSpec(), PartitionSpec(), PartitionSpec()),\n            donate_argnums=(0, 0),\n        )\n\n        mesh = self.arguments.get_mesh()\n        self.arguments.ckpt_path_exists()\n        checkpoint_manager = self.arguments.get_streaming_checkpointer()\n        self.state_partition_spec = state_partition_spec\n        self.state_shape = state_shape\n\n        return TrainerConfigureFunctionFuncOutput(\n            create_sharded_state_from_params_function=create_sharded_state_from_params_function,\n            sharded_train_step_function=sharded_train_step_function,\n            sharded_eval_step_function=sharded_eval_step_function,\n            mesh=mesh,\n            checkpoint_manager=checkpoint_manager,\n            initialize_state_function=initialize_state_function\n        )\n\n    def initialize_state(\n            self,\n            model_parameters: Optional[flax.core.FrozenDict] = None,\n            state: Optional[EasyDeLState] = None,\n    ) -&gt; Tuple[EasyDeLState, Mapping[str, Callable], Mapping[str, Callable]]:\n        if model_parameters is None and state is None and self.rapture is None and self.checkpoint_path is None:\n            raise RuntimeError(\n                \"You are passing `model_parameters=None`, `state=None`, and `checkpoint_path=None` and also you are not\"\n                \" using LoRA, if you are \"\n                \"Using LoRA make sure to pass parameters and Rapture Config correctly otherwise pass the \"\n                \"model_parameters or state.\"\n            )\n        if model_parameters is None and state is None:\n            model_parameters = self.lora_parameters\n        with self.mesh:\n            shard_fns, gather_fns = make_shard_and_gather_fns(\n                self.state_partition_spec,\n                dtype_specs=self.dtype\n            )\n            if state is not None:\n                sharded_state = state\n                params = sharded_state.params if not self.arguments.do_shard_fns else jax.tree_util.tree_map(\n                    lambda f, x: f(x),\n                    shard_fns.params,\n                    sharded_state.params\n                )\n                sharded_state.params = params\n                if sharded_state.opt_state is None:\n                    prefix_print(\n                        \"Action\", \"Optimizer State is not Found!, initializing one.\"\n                    )\n                    with jax.default_device(self.arguments.offload_device):\n                        sharded_state = sharded_state.init_opt_state()\n                        opt_state = sharded_state.opt_state if not self.arguments.do_shard_fns else jax.tree_util.tree_map(\n                            lambda f, x: f(x),\n                            shard_fns.opt_state,\n                            sharded_state.opt_state\n                        )\n                        sharded_state = sharded_state.replace(\n                            opt_state=opt_state\n                        )\n            elif self.finetune:\n\n                if model_parameters is None and self.checkpoint_path is not None:\n                    prefix_print(\n                        \"Action\", f\"Loading Model From {self.checkpoint_path}\"\n                    )\n                    with jax.default_device(self.arguments.offload_device):\n                        sharded_state = EasyDeLState.load_state(\n                            verbose=self.arguments.verbose,\n                            state_shard_fns=shard_fns,\n                            init_optimizer_state=True,\n                            checkpoint_path=self.checkpoint_path,\n                            input_shape=self.arguments.init_input_shape,\n                            config_kwargs=self.arguments.loaded_model_config_kwargs\n                        )\n                        state_shape = jax.eval_shape(lambda: sharded_state)\n                        state_partition_spec = match_partition_rules(\n                            self.config.get_partition_rules(\n                                fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n                            ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n                            state_shape\n                        )\n                        sharded_train_step_function = pjit(\n                            create_casual_language_model_train_step(\n                                partition_spec=self.arguments.step_partition_spec,\n                                label_smoothing_factor=self.arguments.label_smoothing_factor,\n                                z_loss=self.arguments.z_loss,\n                            ),\n                            in_shardings=(state_partition_spec, PartitionSpec()),\n                            out_shardings=(state_partition_spec, PartitionSpec(), PartitionSpec()),\n                            donate_argnums=(0, 0),\n                        )\n\n                        sharded_eval_step_function = pjit(\n                            create_casual_language_model_evaluation_step(self.arguments.step_partition_spec),\n                            in_shardings=(state_partition_spec, PartitionSpec()),\n                            out_shardings=(PartitionSpec(), PartitionSpec(), PartitionSpec()),\n                            donate_argnums=(0, 0),\n                        )\n\n                        self.state_partition_spec = state_partition_spec\n                        self.state_shape = state_shape\n                        self.sharded_train_step_function = sharded_train_step_function\n                        self.sharded_eval_step_function = sharded_eval_step_function\n\n                    if self.arguments.remove_ckpt_after_load:\n                        os.remove(self.checkpoint_path)\n                elif model_parameters is not None and self.checkpoint_path is None:\n                    prefix_print(\n                        \"Action\", f\"Sharding Passed Parameters\"\n                    )\n                    from flax.core import unfreeze\n                    if not isinstance(model_parameters, flax.core.FrozenDict):\n                        prefix_print(\n                            \"Warning\",\n                            \"Model Parameters should be like FrozenDict({'params': params}) make sure to \"\n                            \"pass as type FrozenDict in case of not getting UnExcepted Errors \"\n                        )\n\n                    model_parameters = model_parameters if not self.arguments.do_shard_fns else jax.tree_util.tree_map(\n                        lambda f, x: f(x),\n                        shard_fns.params,\n                        model_parameters,\n                    )\n                    sharded_state = self.create_sharded_state_from_params_function(model_parameters)\n                elif model_parameters is not None and self.checkpoint_path is not None:\n                    raise EasyDeLTimerError(\n                        \"You can't pass `model_parameters` and `checkpoint_path` at same time\"\n                    )\n                else:\n                    raise EasyDeLTimerError(\n                        \"You should pass `model_parameters` or `checkpoint_path` to trainer in order to load model\"\n                    )\n            else:\n                sharded_state = self.initialize_state_function()\n                params = sharded_state.params if not self.arguments.do_shard_fns else jax.tree_util.tree_map(\n                    lambda f, x: f(x),\n                    shard_fns.params,\n                    sharded_state.params\n                )\n                sharded_state.params = params\n\n            self.sharded_state = sharded_state\n            return sharded_state, shard_fns, gather_fns\n\n    def _save_state(\n            self,\n            state: EasyDeLState,\n            gather_fns: Optional[Any | Mapping[str, Callable] | dict[Callable]],\n            milestone: bool = False\n    ) -&gt; str:\n        step = int(\n            jax.device_get(\n                state.step\n            )\n        ) + self.arguments.step_start_point if self.arguments.step_start_point is not None else int(\n            jax.device_get(\n                state.step\n            )\n        )\n\n        checkpoint_dir = os.path.join(self.arguments.save_dir, self.arguments.model_name)\n        filename_extension = \".easy\"\n        if self.arguments.save_total_limit:\n            checkpoint_files = glob(os.path.join(checkpoint_dir, f\"*{filename_extension}\"))\n            checkpoint_files.sort(key=os.path.getmtime)\n            for old_checkpoint in checkpoint_files[:-self.arguments.save_total_limit]:\n                os.remove(old_checkpoint)\n                termcolor.cprint(f\"Removed old checkpoint: {old_checkpoint}\", color=\"red\", force_color=True)\n\n        checkpoint_name = f\"{self.arguments.model_name}-S{step}\"\n        filename = f\"{checkpoint_name}_{step}\" if milestone else f\"{checkpoint_name}\"\n        filename += \".easy\"\n        termcolor.cprint(f\"Saving Model {filename}.\", color=\"cyan\", force_color=True)\n        state.save_state(\n            filename=filename,\n            checkpoint_dir=checkpoint_dir,\n            gather_fns=gather_fns,\n            float_dtype=self.dtype,\n            verbose=self.arguments.verbose,\n            save_optimizer=self.arguments.save_optimizer_state,\n        )\n        return filename\n\n    def train(\n            self,\n            model_parameters: Optional[flax.core.FrozenDict] = None,\n            state: Optional[EasyDeLState] = None\n    ) -&gt; CausalLMTrainerOutput:\n        \"\"\"The train function is the main function of this module.\n        It takes a model_parameters argument which can be used to load a pretrained model and finetune it.\n        The train function returns an CausalLMTrainerOutput object that contains the last saved file name, predict func,\n        train state, mesh and checkpoint streamer.\n\n        Args:\n            self: Make the class methods aware of other methods and\n                attributes within the class\n            model_parameters: flax.core.FrozenDict: Load a pre-trained\n                model\n            state: Optional[EasyDeLState]: Ready to Use State\n\n        Returns:\n            An object of type \"CausalLMTrainerOutput\"\n        \"\"\"\n\n        def get_layer_names(frozen_dict, prefix=\"\"):\n            layer_names = {}\n            for key, value in frozen_dict.items():\n                if isinstance(value, FrozenDict):\n                    layer_names.update(get_layer_names(value, prefix=f\"{prefix}_{key}\"))\n                else:\n                    layer_name = f\"{prefix}_{key}\".lstrip(\"/\")\n                    layer_names[layer_name] = value\n            return layer_names\n\n        def count_model_parameters(_p):\n            termcolor.cprint(\n                f\"Model Contain {sum(n.size for n in jax.tree_util.tree_flatten(flax.core.unfreeze(_p))[0]) / 1e9} \"\n                f\"Billion Parameters\",\n                color=\"red\", force_color=True\n            )\n\n        checkpoint_path = \"SAVING_SKIPPED\"\n        if self.arguments.performance_mode:\n            termcolor.cprint(\n                \"Performance Mode is ON, we will ignore the Memory Tracking, WANDB Logging, and extra information \"\n                \"Process.\",\n                color=\"red\",\n                force_color=True\n            )\n        start_time = time.time()\n        sharded_state, shard_fns, gather_fns = self.initialize_state(\n            model_parameters=model_parameters,\n            state=state\n        )\n\n        count_model_parameters(sharded_state.params)\n        with self.mesh:\n            pbar = tqdm(total=self.max_training_steps)\n            current_step = int(jax.device_get(sharded_state.step))\n            loss_sum = None\n            accuracy_sum = None\n            pbar.update(sharded_state.step.tolist())  # type: ignore\n            if self.wandb_runtime is not None:\n                model_parameters_number = sum(\n                    n.size for n in\n                    jax.tree_util.tree_flatten(flax.core.unfreeze(sharded_state.params))[0]\n                ) / 1e9\n                self.wandb_runtime.log(\n                    {\n                        \"Number of Model Parameters (Billion)\": model_parameters_number\n                    }\n                )\n                wandb.summary[\"Number of Model Parameters (Billion)\"] = model_parameters_number\n            try:\n                train_iter = iter(self.dataloader_train)\n                for epoch in range(self.arguments.num_train_epochs):\n                    time_s = time.time()\n                    for _ in range(self.max_training_steps // self.arguments.num_train_epochs):\n                        try:\n                            batch = next(train_iter)\n                        except StopIteration:\n                            train_iter = iter(self.dataloader_train)\n                            batch = next(train_iter)\n                        current_step += 1\n                        if (\n                                self.arguments.step_start_point is not None\n                                and\n                                self.arguments.step_start_point &gt; current_step\n                        ):\n                            pbar.update(1)\n                        elif current_step &lt; self.max_training_steps:\n\n                            time_prev = time_s\n                            time_s = time.time()\n                            step_time = time_s - time_prev\n\n                            for ssb in self.arguments.ids_to_pop_from_dataset:\n                                _ = batch.pop(ssb, None)\n\n                            (\n                                sharded_state,\n                                loss,\n                                metrics,\n                            ) = self.sharded_train_step_function(sharded_state, batch)\n\n                            trained_tokens = jnp.multiply(\n                                self.arguments.max_sequence_length, jnp.multiply(\n                                    current_step,\n                                    self.arguments.total_batch_size\n                                )\n                            )  # It's faster\n\n                            with jax.spmd_mode(\"allow_all\"):\n                                calculating_metrics_start = time.time()\n                                loss_sum = loss if loss_sum is None else loss_sum + loss\n                                accuracy = metrics[\"accuracy\"]\n                                accuracy_sum = accuracy if accuracy_sum is None else accuracy_sum + accuracy\n                                mean_loss = loss_sum / (current_step - self.arguments.step_start_point)\n                                mean_accuracy = accuracy_sum / (current_step - self.arguments.step_start_point)\n                                perplexity = jnp.exp(loss)\n                                calculating_metrics_end = time.time()\n                                train_metrics = {\n                                    \"train/loss\": loss.tolist(),\n                                    \"train/mean_loss\": mean_loss.tolist(),\n                                    \"train/accuracy\": accuracy,\n                                    \"train/mean_accuracy\": mean_accuracy.tolist(),\n                                    \"train/learning_rate\": self.scheduler(current_step).tolist(),\n                                    \"train/step\": current_step,\n                                    \"train/step_time\": step_time,\n                                    \"train/perplexity\": perplexity.tolist(),\n                                    \"train/trained_tokens\": trained_tokens,\n                                    \"train/regularization_z_loss\": metrics[\"regularization_z_loss\"].tolist(),\n                                    \"train/epoch\": epoch,\n                                }\n                            if self.arguments.log_grad_norms:\n                                train_metrics.update(\n                                    {\n                                        \"train/max_grad_norm\": metrics[\"max_grad_norm\"].tolist(),\n                                        \"train/mean_grad_norm\": metrics[\"mean_grad_norm\"].tolist(),\n                                    }\n                                )\n                            aux_loss = metrics.get(\"aux_loss\", None)\n                            if aux_loss is not None:\n                                train_metrics.update(\n                                    {\n                                        \"train/aux_loss\": aux_loss.tolist()\n                                    }\n                                )\n                            pbar.update(1)\n                            pbar.set_postfix(**{k.replace(\"train/\", \"\"): v for k, v in train_metrics.items()})\n                            if not self.arguments.performance_mode:\n                                if self.arguments.log_grad_norms:\n                                    train_metrics.update({\n                                        f\"grad_norm/{layer_name}\": grad_norm.tolist()\n                                        for layer_name, grad_norm in get_layer_names(metrics[\"grad_norms\"]).items()\n                                    })\n                                train_metrics.update(\n                                    {\n                                        \"time_cal/calculating_metrics_step_time\": (\n                                                calculating_metrics_end - calculating_metrics_start\n                                        )\n                                    }\n                                )\n                                train_metrics.update(self.arguments.captured_memory)\n                            if self.wandb_runtime is not None and not self.arguments.performance_mode:\n                                with jax.spmd_mode(\"allow_all\"):\n                                    self.wandb_runtime.log(train_metrics)\n                            if self.arguments.training_time is not None:\n                                if time.time() - start_time &gt; self.arguments.training_time:\n                                    raise EasyDeLTimerError(\"Time Out\")\n                        else:\n                            break\n                        if self.arguments.save_steps is not None and current_step % self.arguments.save_steps == 0:\n                            if self.rapture is None:\n                                filename = self._save_state(\n                                    state=sharded_state,\n                                    gather_fns=gather_fns,\n                                    milestone=True\n                                )\n                                checkpoint_path = f\"{str(self.arguments.get_path())}/{filename}\"\n                            else:\n                                print(\n                                    termcolor.colored(\n                                        \"Info : \", color=\"red\", force_color=True\n                                    ),\n                                    termcolor.colored(\n                                        \"You can not use `save_steps` while using LoRA \"\n                                        \"right now. this action will be skipped\", color=\"white\", force_color=True\n                                    )\n                                )\n            except KeyboardInterrupt:\n                termcolor.cprint(\n                    \"KeyboardInterrupt At training model Will return Current State of the Model with Parameters.\",\n                    color=\"cyan\",\n                    force_color=True\n                )\n\n            except EasyDeLTimerError:\n                termcolor.cprint(\n                    \"Training reached out maximum training Time Killing training Process \"\n                    \"and Will return Current State of the Model with Parameters.\",\n                    color=\"cyan\",\n                    force_color=True\n                )\n            if self.arguments.merge_lora_rapture_parameters and self.rapture is not None:\n                print(\n                    termcolor.colored(\n                        \"Info : \", color=\"red\", force_color=True\n                    ),\n                    termcolor.colored(\n                        \"Merging LoRA Parameters.\", color=\"white\", force_color=True\n                    )\n                )\n                sharded_state = sharded_state.replace(\n                    params=self.rapture.merge_parameters(sharded_state.params)\n                )\n            output = CausalLMTrainerOutput(\n                state=sharded_state,\n                mesh=self.mesh,\n                shard_fns=shard_fns,\n                gather_fns=gather_fns,\n                checkpoint_manager=self.checkpoint_manager,\n            )\n            if self.arguments.save_steps is None or self.arguments.do_last_save:\n                shard_fns, gather_fns = make_shard_and_gather_fns(\n                    match_partition_rules(\n                        self.config.get_partition_rules(\n                            fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n                        ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n                        jax.eval_shape(lambda: sharded_state)\n                    ),\n                    dtype_specs=self.dtype\n                )  # You have to re-init the new shard and gather functions in order to be able to skip LoRA weight\n                # crashing errors and saving errors\n                filename = self._save_state(\n                    state=sharded_state,\n                    gather_fns=gather_fns\n                )\n                checkpoint_path = f\"{str(self.arguments.get_path())}/{filename}\"\n\n            if self.arguments.do_eval:\n                for _ in self.eval(\n                        sharded_state\n                ):\n                    ...\n\n            output.checkpoint_path = checkpoint_path\n            output.last_save_file_name = filename\n            self.arguments._stop_capturing_memory = True\n            wandb.finish()\n\n            return output\n\n    def eval(self, model_state: EasyDeLState) -&gt; typing.Iterator[dict]:\n        \"\"\"Evaluate the Given Model State and yield the eval metrics\"\"\"\n        assert self.dataloader_eval is not None, \"`dataloader_eval` is required by evaluator function.\"\n        with self.mesh:\n            pbar = tqdm(total=self.max_evaluation_steps)\n            pbar.set_description(\"Evaluating\")\n            current_step = 0\n            loss_sum = None\n            accuracy_sum = None\n\n            try:\n                eval_iter = iter(self.dataloader_eval)\n                for _ in range(self.max_evaluation_steps):\n                    try:\n                        batch = next(eval_iter)\n                    except StopIteration:\n                        eval_iter = iter(self.dataloader_eval)\n                        batch = next(eval_iter)\n                    current_step += 1\n                    time_start = time.time()\n                    for key in self.arguments.ids_to_pop_from_dataset:\n                        _ = batch.pop(key, None)\n                    metrics = self.sharded_eval_step_function(\n                        model_state,\n                        batch\n                    )\n                    total_time = time.time() - time_start\n                    (\n                        loss, accuracy, aux_loss\n                    ) = metrics\n\n                    loss_sum = loss.tolist() if loss_sum is None else loss_sum + loss\n                    accuracy_sum = (\n                        accuracy.tolist() if (\n                                accuracy_sum is None\n                        ) else accuracy_sum + accuracy\n                    )\n\n                    eval_metrics = {\n                        \"eval/loss\": loss.tolist(),\n                        \"eval/mean_loss\": loss_sum / (current_step - self.arguments.step_start_point),\n                        \"eval/mean_accuracy_sum\": accuracy_sum / (\n                                current_step - self.arguments.step_start_point\n                        ),\n                        \"eval/step\": current_step,\n                        \"eval/step_time\": total_time,\n                        \"eval/perplexity\": jnp.exp(loss).tolist(),\n                    }\n                    if aux_loss is not None:\n                        eval_metrics.update(\n                            {\"eval/aux_loss\": aux_loss}\n                        )\n                    log_metrics = copy.deepcopy(eval_metrics)\n                    eval_metrics.update(self.arguments.captured_memory)\n                    if self.arguments.use_wandb:\n                        with jax.spmd_mode(\"allow_all\"):\n                            self.wandb_runtime.log(\n                                eval_metrics\n                            )\n\n                    pbar.update(1)\n                    pbar.set_postfix(**{k.replace(\"eval/\", \"\"): v for k, v in log_metrics.items()})\n                    yield log_metrics\n            except KeyboardInterrupt:\n                termcolor.cprint(\n                    \"KeyboardInterrupt At Evaluation model Will return Nothing and just pass.\",\n                    color=\"cyan\",\n                    force_color=True\n                )\n</code></pre>"},{"location":"generated-trainer-causal_language_model_trainer-causal_language_model_trainer/#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer.configure_functions","title":"<code>configure_functions()</code>","text":"<p>The configure_functions function is responsible for configuring the functions that will be used in training. It does this by first defining a function called function_configurations, which initializes the model parameters and returns them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate on a batch of data, including:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access the class attributes</p> required <p>Returns:</p> Type Description <code>TrainerConfigureFunctionFuncOutput</code> <p>A TrainerConfigureFunctionFuncOutput object</p> Source code in <code>src/python/easydel/trainer/causal_language_model_trainer/causal_language_model_trainer.py</code> <pre><code>def configure_functions(self) -&gt; TrainerConfigureFunctionFuncOutput:\n    \"\"\"The configure_functions function is responsible for configuring the functions that will be used in training.\n    It does this by first defining a function called function_configurations, which initializes the model parameters and returns\n    them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate\n    on a batch of data, including:\n\n    Args:\n        self: Access the class attributes\n\n    Returns:\n        A TrainerConfigureFunctionFuncOutput object\n    \"\"\"\n\n    def initialize_state_function():\n        initialized_parameters = self.model.init_weights(\n            jax.random.PRNGKey(0),\n            self.arguments.init_input_shape\n        )\n\n        if self.arguments.dtype == jnp.bfloat16:\n            initialized_parameters = self.model.to_bf16(initialized_parameters)\n        elif self.arguments.dtype == jnp.float16:\n            initialized_parameters = self.model.to_fp16(initialized_parameters)\n\n        tx = self.tx\n        parameters = flax.core.freeze({\"params\": initialized_parameters})\n        tx_init = copy.deepcopy(self.arguments.optimizer_kwargs)\n\n        if self.rapture is not None:\n            lora_parameters = self.lora_parameters\n            if self.arguments.dtype == jnp.bfloat16:\n                lora_parameters = self.model.to_bf16(lora_parameters)\n            elif self.arguments.dtype == jnp.float16:\n                lora_parameters = self.model.to_fp16(lora_parameters)\n\n            return EasyDeLState(\n                step=0,\n                apply_fn=self.lora_apply_fn,\n                params=lora_parameters,\n                tx=self.lora_tx,\n                opt_state=self.lora_opt_state,\n                tx_init=EasyDeLState.safe_dict(tx_init),\n                hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                module=self.lora_model,\n                module_config=self.model.config,\n                module_config_args=None,\n            )\n        else:\n            return EasyDeLState.create(\n                tx=tx,\n                params=parameters,\n                apply_fn=self.model.__call__,\n                module_config=copy.deepcopy(self.model.config),\n                tx_init=tx_init,\n                hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                module=self.model,\n                module_config_args=None\n            )\n\n    def create_state_from_params_function(parameters):\n        if self.rapture is None:\n            return EasyDeLState.create(\n                tx=self.tx,\n                params=parameters,\n                apply_fn=self.model.__call__,\n                module_config=copy.deepcopy(self.model.config),\n                tx_init=copy.deepcopy(self.arguments.optimizer_kwargs),\n                hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                module=self.model,\n                module_config_args=None\n            )\n        else:\n            return EasyDeLState(\n                step=0,\n                apply_fn=self.lora_apply_fn,\n                params=parameters,\n                tx=self.lora_tx,\n                opt_state=self.lora_opt_state,\n                tx_init=EasyDeLState.safe_dict(copy.deepcopy(self.arguments.optimizer_kwargs)),\n                hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                module=self.lora_model,\n                module_config=self.model.config,\n                module_config_args=None,\n            )\n\n    state_shape = jax.eval_shape(initialize_state_function)\n    state_partition_spec = match_partition_rules(\n        self.config.get_partition_rules(\n            fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n        ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n        state_shape\n    )\n    create_sharded_state_from_params_function = pjit(\n        create_state_from_params_function,\n        in_shardings=(state_partition_spec.params,),\n        out_shardings=state_partition_spec,\n        donate_argnums=(0,)\n    )\n    sharded_train_step_function = pjit(\n        create_casual_language_model_train_step(\n            partition_spec=self.arguments.step_partition_spec,\n            label_smoothing_factor=self.arguments.label_smoothing_factor,\n            z_loss=self.arguments.z_loss,\n        ),\n        in_shardings=(state_partition_spec, PartitionSpec()),\n        out_shardings=(state_partition_spec, PartitionSpec(), PartitionSpec()),\n        donate_argnums=(0, 0),\n    )\n\n    sharded_eval_step_function = pjit(\n        create_casual_language_model_evaluation_step(self.arguments.step_partition_spec),\n        in_shardings=(state_partition_spec, PartitionSpec()),\n        out_shardings=(PartitionSpec(), PartitionSpec(), PartitionSpec()),\n        donate_argnums=(0, 0),\n    )\n\n    mesh = self.arguments.get_mesh()\n    self.arguments.ckpt_path_exists()\n    checkpoint_manager = self.arguments.get_streaming_checkpointer()\n    self.state_partition_spec = state_partition_spec\n    self.state_shape = state_shape\n\n    return TrainerConfigureFunctionFuncOutput(\n        create_sharded_state_from_params_function=create_sharded_state_from_params_function,\n        sharded_train_step_function=sharded_train_step_function,\n        sharded_eval_step_function=sharded_eval_step_function,\n        mesh=mesh,\n        checkpoint_manager=checkpoint_manager,\n        initialize_state_function=initialize_state_function\n    )\n</code></pre>"},{"location":"generated-trainer-causal_language_model_trainer-causal_language_model_trainer/#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer.eval","title":"<code>eval(model_state)</code>","text":"<p>Evaluate the Given Model State and yield the eval metrics</p> Source code in <code>src/python/easydel/trainer/causal_language_model_trainer/causal_language_model_trainer.py</code> <pre><code>def eval(self, model_state: EasyDeLState) -&gt; typing.Iterator[dict]:\n    \"\"\"Evaluate the Given Model State and yield the eval metrics\"\"\"\n    assert self.dataloader_eval is not None, \"`dataloader_eval` is required by evaluator function.\"\n    with self.mesh:\n        pbar = tqdm(total=self.max_evaluation_steps)\n        pbar.set_description(\"Evaluating\")\n        current_step = 0\n        loss_sum = None\n        accuracy_sum = None\n\n        try:\n            eval_iter = iter(self.dataloader_eval)\n            for _ in range(self.max_evaluation_steps):\n                try:\n                    batch = next(eval_iter)\n                except StopIteration:\n                    eval_iter = iter(self.dataloader_eval)\n                    batch = next(eval_iter)\n                current_step += 1\n                time_start = time.time()\n                for key in self.arguments.ids_to_pop_from_dataset:\n                    _ = batch.pop(key, None)\n                metrics = self.sharded_eval_step_function(\n                    model_state,\n                    batch\n                )\n                total_time = time.time() - time_start\n                (\n                    loss, accuracy, aux_loss\n                ) = metrics\n\n                loss_sum = loss.tolist() if loss_sum is None else loss_sum + loss\n                accuracy_sum = (\n                    accuracy.tolist() if (\n                            accuracy_sum is None\n                    ) else accuracy_sum + accuracy\n                )\n\n                eval_metrics = {\n                    \"eval/loss\": loss.tolist(),\n                    \"eval/mean_loss\": loss_sum / (current_step - self.arguments.step_start_point),\n                    \"eval/mean_accuracy_sum\": accuracy_sum / (\n                            current_step - self.arguments.step_start_point\n                    ),\n                    \"eval/step\": current_step,\n                    \"eval/step_time\": total_time,\n                    \"eval/perplexity\": jnp.exp(loss).tolist(),\n                }\n                if aux_loss is not None:\n                    eval_metrics.update(\n                        {\"eval/aux_loss\": aux_loss}\n                    )\n                log_metrics = copy.deepcopy(eval_metrics)\n                eval_metrics.update(self.arguments.captured_memory)\n                if self.arguments.use_wandb:\n                    with jax.spmd_mode(\"allow_all\"):\n                        self.wandb_runtime.log(\n                            eval_metrics\n                        )\n\n                pbar.update(1)\n                pbar.set_postfix(**{k.replace(\"eval/\", \"\"): v for k, v in log_metrics.items()})\n                yield log_metrics\n        except KeyboardInterrupt:\n            termcolor.cprint(\n                \"KeyboardInterrupt At Evaluation model Will return Nothing and just pass.\",\n                color=\"cyan\",\n                force_color=True\n            )\n</code></pre>"},{"location":"generated-trainer-causal_language_model_trainer-causal_language_model_trainer/#src.python.easydel.trainer.causal_language_model_trainer.causal_language_model_trainer.CausalLanguageModelTrainer.train","title":"<code>train(model_parameters=None, state=None)</code>","text":"<p>The train function is the main function of this module. It takes a model_parameters argument which can be used to load a pretrained model and finetune it. The train function returns an CausalLMTrainerOutput object that contains the last saved file name, predict func, train state, mesh and checkpoint streamer.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Make the class methods aware of other methods and attributes within the class</p> required <code>model_parameters</code> <code>Optional[FrozenDict]</code> <p>flax.core.FrozenDict: Load a pre-trained model</p> <code>None</code> <code>state</code> <code>Optional[EasyDeLState]</code> <p>Optional[EasyDeLState]: Ready to Use State</p> <code>None</code> <p>Returns:</p> Type Description <code>CausalLMTrainerOutput</code> <p>An object of type \"CausalLMTrainerOutput\"</p> Source code in <code>src/python/easydel/trainer/causal_language_model_trainer/causal_language_model_trainer.py</code> <pre><code>def train(\n        self,\n        model_parameters: Optional[flax.core.FrozenDict] = None,\n        state: Optional[EasyDeLState] = None\n) -&gt; CausalLMTrainerOutput:\n    \"\"\"The train function is the main function of this module.\n    It takes a model_parameters argument which can be used to load a pretrained model and finetune it.\n    The train function returns an CausalLMTrainerOutput object that contains the last saved file name, predict func,\n    train state, mesh and checkpoint streamer.\n\n    Args:\n        self: Make the class methods aware of other methods and\n            attributes within the class\n        model_parameters: flax.core.FrozenDict: Load a pre-trained\n            model\n        state: Optional[EasyDeLState]: Ready to Use State\n\n    Returns:\n        An object of type \"CausalLMTrainerOutput\"\n    \"\"\"\n\n    def get_layer_names(frozen_dict, prefix=\"\"):\n        layer_names = {}\n        for key, value in frozen_dict.items():\n            if isinstance(value, FrozenDict):\n                layer_names.update(get_layer_names(value, prefix=f\"{prefix}_{key}\"))\n            else:\n                layer_name = f\"{prefix}_{key}\".lstrip(\"/\")\n                layer_names[layer_name] = value\n        return layer_names\n\n    def count_model_parameters(_p):\n        termcolor.cprint(\n            f\"Model Contain {sum(n.size for n in jax.tree_util.tree_flatten(flax.core.unfreeze(_p))[0]) / 1e9} \"\n            f\"Billion Parameters\",\n            color=\"red\", force_color=True\n        )\n\n    checkpoint_path = \"SAVING_SKIPPED\"\n    if self.arguments.performance_mode:\n        termcolor.cprint(\n            \"Performance Mode is ON, we will ignore the Memory Tracking, WANDB Logging, and extra information \"\n            \"Process.\",\n            color=\"red\",\n            force_color=True\n        )\n    start_time = time.time()\n    sharded_state, shard_fns, gather_fns = self.initialize_state(\n        model_parameters=model_parameters,\n        state=state\n    )\n\n    count_model_parameters(sharded_state.params)\n    with self.mesh:\n        pbar = tqdm(total=self.max_training_steps)\n        current_step = int(jax.device_get(sharded_state.step))\n        loss_sum = None\n        accuracy_sum = None\n        pbar.update(sharded_state.step.tolist())  # type: ignore\n        if self.wandb_runtime is not None:\n            model_parameters_number = sum(\n                n.size for n in\n                jax.tree_util.tree_flatten(flax.core.unfreeze(sharded_state.params))[0]\n            ) / 1e9\n            self.wandb_runtime.log(\n                {\n                    \"Number of Model Parameters (Billion)\": model_parameters_number\n                }\n            )\n            wandb.summary[\"Number of Model Parameters (Billion)\"] = model_parameters_number\n        try:\n            train_iter = iter(self.dataloader_train)\n            for epoch in range(self.arguments.num_train_epochs):\n                time_s = time.time()\n                for _ in range(self.max_training_steps // self.arguments.num_train_epochs):\n                    try:\n                        batch = next(train_iter)\n                    except StopIteration:\n                        train_iter = iter(self.dataloader_train)\n                        batch = next(train_iter)\n                    current_step += 1\n                    if (\n                            self.arguments.step_start_point is not None\n                            and\n                            self.arguments.step_start_point &gt; current_step\n                    ):\n                        pbar.update(1)\n                    elif current_step &lt; self.max_training_steps:\n\n                        time_prev = time_s\n                        time_s = time.time()\n                        step_time = time_s - time_prev\n\n                        for ssb in self.arguments.ids_to_pop_from_dataset:\n                            _ = batch.pop(ssb, None)\n\n                        (\n                            sharded_state,\n                            loss,\n                            metrics,\n                        ) = self.sharded_train_step_function(sharded_state, batch)\n\n                        trained_tokens = jnp.multiply(\n                            self.arguments.max_sequence_length, jnp.multiply(\n                                current_step,\n                                self.arguments.total_batch_size\n                            )\n                        )  # It's faster\n\n                        with jax.spmd_mode(\"allow_all\"):\n                            calculating_metrics_start = time.time()\n                            loss_sum = loss if loss_sum is None else loss_sum + loss\n                            accuracy = metrics[\"accuracy\"]\n                            accuracy_sum = accuracy if accuracy_sum is None else accuracy_sum + accuracy\n                            mean_loss = loss_sum / (current_step - self.arguments.step_start_point)\n                            mean_accuracy = accuracy_sum / (current_step - self.arguments.step_start_point)\n                            perplexity = jnp.exp(loss)\n                            calculating_metrics_end = time.time()\n                            train_metrics = {\n                                \"train/loss\": loss.tolist(),\n                                \"train/mean_loss\": mean_loss.tolist(),\n                                \"train/accuracy\": accuracy,\n                                \"train/mean_accuracy\": mean_accuracy.tolist(),\n                                \"train/learning_rate\": self.scheduler(current_step).tolist(),\n                                \"train/step\": current_step,\n                                \"train/step_time\": step_time,\n                                \"train/perplexity\": perplexity.tolist(),\n                                \"train/trained_tokens\": trained_tokens,\n                                \"train/regularization_z_loss\": metrics[\"regularization_z_loss\"].tolist(),\n                                \"train/epoch\": epoch,\n                            }\n                        if self.arguments.log_grad_norms:\n                            train_metrics.update(\n                                {\n                                    \"train/max_grad_norm\": metrics[\"max_grad_norm\"].tolist(),\n                                    \"train/mean_grad_norm\": metrics[\"mean_grad_norm\"].tolist(),\n                                }\n                            )\n                        aux_loss = metrics.get(\"aux_loss\", None)\n                        if aux_loss is not None:\n                            train_metrics.update(\n                                {\n                                    \"train/aux_loss\": aux_loss.tolist()\n                                }\n                            )\n                        pbar.update(1)\n                        pbar.set_postfix(**{k.replace(\"train/\", \"\"): v for k, v in train_metrics.items()})\n                        if not self.arguments.performance_mode:\n                            if self.arguments.log_grad_norms:\n                                train_metrics.update({\n                                    f\"grad_norm/{layer_name}\": grad_norm.tolist()\n                                    for layer_name, grad_norm in get_layer_names(metrics[\"grad_norms\"]).items()\n                                })\n                            train_metrics.update(\n                                {\n                                    \"time_cal/calculating_metrics_step_time\": (\n                                            calculating_metrics_end - calculating_metrics_start\n                                    )\n                                }\n                            )\n                            train_metrics.update(self.arguments.captured_memory)\n                        if self.wandb_runtime is not None and not self.arguments.performance_mode:\n                            with jax.spmd_mode(\"allow_all\"):\n                                self.wandb_runtime.log(train_metrics)\n                        if self.arguments.training_time is not None:\n                            if time.time() - start_time &gt; self.arguments.training_time:\n                                raise EasyDeLTimerError(\"Time Out\")\n                    else:\n                        break\n                    if self.arguments.save_steps is not None and current_step % self.arguments.save_steps == 0:\n                        if self.rapture is None:\n                            filename = self._save_state(\n                                state=sharded_state,\n                                gather_fns=gather_fns,\n                                milestone=True\n                            )\n                            checkpoint_path = f\"{str(self.arguments.get_path())}/{filename}\"\n                        else:\n                            print(\n                                termcolor.colored(\n                                    \"Info : \", color=\"red\", force_color=True\n                                ),\n                                termcolor.colored(\n                                    \"You can not use `save_steps` while using LoRA \"\n                                    \"right now. this action will be skipped\", color=\"white\", force_color=True\n                                )\n                            )\n        except KeyboardInterrupt:\n            termcolor.cprint(\n                \"KeyboardInterrupt At training model Will return Current State of the Model with Parameters.\",\n                color=\"cyan\",\n                force_color=True\n            )\n\n        except EasyDeLTimerError:\n            termcolor.cprint(\n                \"Training reached out maximum training Time Killing training Process \"\n                \"and Will return Current State of the Model with Parameters.\",\n                color=\"cyan\",\n                force_color=True\n            )\n        if self.arguments.merge_lora_rapture_parameters and self.rapture is not None:\n            print(\n                termcolor.colored(\n                    \"Info : \", color=\"red\", force_color=True\n                ),\n                termcolor.colored(\n                    \"Merging LoRA Parameters.\", color=\"white\", force_color=True\n                )\n            )\n            sharded_state = sharded_state.replace(\n                params=self.rapture.merge_parameters(sharded_state.params)\n            )\n        output = CausalLMTrainerOutput(\n            state=sharded_state,\n            mesh=self.mesh,\n            shard_fns=shard_fns,\n            gather_fns=gather_fns,\n            checkpoint_manager=self.checkpoint_manager,\n        )\n        if self.arguments.save_steps is None or self.arguments.do_last_save:\n            shard_fns, gather_fns = make_shard_and_gather_fns(\n                match_partition_rules(\n                    self.config.get_partition_rules(\n                        fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n                    ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n                    jax.eval_shape(lambda: sharded_state)\n                ),\n                dtype_specs=self.dtype\n            )  # You have to re-init the new shard and gather functions in order to be able to skip LoRA weight\n            # crashing errors and saving errors\n            filename = self._save_state(\n                state=sharded_state,\n                gather_fns=gather_fns\n            )\n            checkpoint_path = f\"{str(self.arguments.get_path())}/{filename}\"\n\n        if self.arguments.do_eval:\n            for _ in self.eval(\n                    sharded_state\n            ):\n                ...\n\n        output.checkpoint_path = checkpoint_path\n        output.last_save_file_name = filename\n        self.arguments._stop_capturing_memory = True\n        wandb.finish()\n\n        return output\n</code></pre>"},{"location":"generated-trainer-causal_language_model_trainer-fwd_bwd_functions/","title":"trainer.causal_language_model_trainer.fwd_bwd_functions","text":""},{"location":"generated-trainer-causal_language_model_trainer-fwd_bwd_functions/#src.python.easydel.trainer.causal_language_model_trainer.fwd_bwd_functions.create_casual_language_model_evaluation_step","title":"<code>create_casual_language_model_evaluation_step(partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp'))</code>","text":"<p>The create_casual_language_model_evaluation_step function is used to create a function that calculates the loss  and accuracy of a model. It takes in a set of parameters, which are then passed into the state.apply_fn function to generate logits for each token in the batch. The cross entropy loss and accuracy are then calculated from these logits.</p> <p>Parameters:</p> Name Type Description Default <code>partition_spec</code> <p>Specify the partitioning of the model parameters</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp')</code> <p>Returns:</p> Type Description <p>A function that can be used to calculate the loss and accuracy</p> <p>of a model</p> Source code in <code>src/python/easydel/trainer/causal_language_model_trainer/fwd_bwd_functions.py</code> <pre><code>def create_casual_language_model_evaluation_step(\n        partition_spec=PartitionSpec((\"dp\", \"fsdp\"), \"sp\")\n):\n    \"\"\"The create_casual_language_model_evaluation_step function is used to create a function that calculates the loss\n     and accuracy of a model. It takes in a set of parameters, which are then passed into the state.apply_fn function\n    to generate logits for each token in the batch. The cross entropy loss and accuracy are then calculated from these\n    logits.\n\n    Args:\n        partition_spec: Specify the partitioning of the model parameters\n\n    Returns:\n        A function that can be used to calculate the loss and accuracy\n        of a model\n    \"\"\"\n\n    def casual_language_model_evaluation_step(state, batch_eval):\n        \"\"\"The casual_language_model_evaluation_step function is used to calculate the loss and accuracy of a model.\n        It takes in a set of parameters, which are then passed into the state.apply_fn function\n        to generate logits for each token in the batch. The cross entropy loss and accuracy are then calculated from\n        these logits.\n\n        Args:\n            state: Store the model parameters and other information\n                about the training process\n            batch_eval: Pass the batch of data to the function\n\n        Returns:\n            The loss and accuracy of the model\n        \"\"\"\n        batch_eval = with_sharding_constraint(batch_eval, partition_spec)\n\n        def calculate_loss(params):\n            \"\"\"\n            The calculate_loss function is used to calculate the loss and accuracy of a model.\n            It takes in a set of parameters, which are then passed into the state.apply_fn function\n            to generate logits for each token in the batch. The cross entropy loss and accuracy are then calculated\n            from these logits.\n\n            :param params: Pass the model parameters to the function\n            :return: The loss and the accuracy\n\n            \"\"\"\n            labels = batch_eval.get(\"labels\", None)\n            if labels is None:\n                labels = batch_eval[\"input_ids\"][..., 1:]\n            else:\n                labels = labels[..., 1:]\n            model_outputs = state.apply_fn(params=params, **batch_eval, return_dict=True)\n            logits = model_outputs.logits\n            aux_loss = getattr(model_outputs, \"aux_loss\", None)\n            valid = jnp.where(\n                (batch_eval[\"attention_mask\"][:, 1:].astype(jnp.float32) != 0)\n                &amp; (labels &gt; 0),\n                1.0,\n                0.0,\n            )\n            loss, accuracy = cross_entropy_loss_and_accuracy(\n                logits[:, :-1, :],\n                labels,\n                valid,\n            )\n            if aux_loss is not None:\n                loss += aux_loss\n            return loss, (accuracy, aux_loss)\n\n        loss__, (accuracy__, aux_loss__) = calculate_loss(state.params)\n        return loss__, accuracy__, aux_loss__\n\n    return casual_language_model_evaluation_step\n</code></pre>"},{"location":"generated-trainer-causal_language_model_trainer-fwd_bwd_functions/#src.python.easydel.trainer.causal_language_model_trainer.fwd_bwd_functions.create_casual_language_model_train_step","title":"<code>create_casual_language_model_train_step(partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp'), label_smoothing_factor=0.0, z_loss=0.0, gradient_accumulation_steps=1)</code>","text":"<p>The create_casual_language_model_train_step function is a training step function that takes in the current state of the model,and a batch of data. It then calculates the loss and accuracy for this batch, and returns an updated state with new parameters based on these gradients.</p> <p>Parameters:</p> Name Type Description Default <code>partition_spec</code> <p>Specify which devices the model will be split across</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp')</code> <code>label_smoothing_factor</code> <p>A float in [0, 1] specifying the amount of label smoothing to apply, where 0 means no smoothing.</p> <code>0.0</code> <code>z_loss</code> <p>A regularization term that adds a penalty for large weights, where 0 means no regularization.</p> <code>0.0</code> <code>gradient_accumulation_steps</code> <code>int</code> <p>int : gradient accumulation step size from arguments</p> <code>1</code> <p>Returns:</p> Type Description <p>A casual_language_model_train_step function that takes in the</p> <p>current state of the model,</p> Source code in <code>src/python/easydel/trainer/causal_language_model_trainer/fwd_bwd_functions.py</code> <pre><code>def create_casual_language_model_train_step(\n        partition_spec=PartitionSpec((\"dp\", \"fsdp\"), \"sp\"),\n        label_smoothing_factor=0.0,\n        z_loss=0.0,\n        gradient_accumulation_steps: int = 1,\n):\n    \"\"\"The create_casual_language_model_train_step function is a training step function that takes in the current state\n    of the model,and a batch of data. It then calculates the loss and accuracy for this batch, and returns\n    an updated state with new parameters based on these gradients.\n\n    Args:\n        partition_spec: Specify which devices the model will be split\n            across\n        label_smoothing_factor: A float in [0, 1] specifying the amount\n            of label smoothing to apply, where 0 means no smoothing.\n        z_loss: A regularization term that adds a penalty for large\n            weights, where 0 means no regularization.\n        gradient_accumulation_steps: int : gradient accumulation step\n            size from arguments\n\n    Returns:\n        A casual_language_model_train_step function that takes in the\n        current state of the model,\n    \"\"\"\n    assert gradient_accumulation_steps &gt; 0, \"gradient_accumulation_steps must be greater than 0\"  # Ignore\n\n    def casual_language_model_train_step(state, batch):\n        \"\"\"The casual_language_model_train_step function is a training step function that takes in the current state\n        of the model and a batch of data. It then calculates the loss and accuracy for this batch,\n        and returns an updated state with new parameters based on these gradients.\n\n        Args:\n            state: Store the model parameters\n            batch: Pass the data to the model, dict with input_ids(bs,\n                seq_len), labels(bs, seq_len-1), attention_mask(bs,\n                seq_len)\n\n        Returns:\n            A tuple of (state, loss, accuracy)\n        \"\"\"\n        batch = with_sharding_constraint(batch, partition_spec)\n\n        def calculate_loss(params):\n            labels = batch.get(\"labels\", None)\n            if labels is None:\n                labels = batch[\"input_ids\"][..., 1:]\n            else:\n                labels = labels[..., 1:]\n            model_outputs = state.apply_fn(params=params, **batch, return_dict=True)\n            logits = model_outputs.logits\n            aux_loss = getattr(model_outputs, \"aux_loss\", None)\n            loss_normalizing_factor = (\n                SpecialLossNormalizingFactor.NUM_REAL_TARGET_TOKENS\n            )\n            # loss_weights is 1 unless the label is &lt;= 0 or the attention mask is 0\n            loss_weights = jnp.where(\n                (batch[\"attention_mask\"][:, 1:] != 0) &amp; (labels &gt; 0), 1, 0\n            )\n            lnf, weights = get_loss_normalizing_factor_and_weights(\n                loss_normalizing_factor,\n                {\n                    \"decoder_target_tokens\": labels,\n                    \"decoder_loss_weights\": loss_weights,\n                },\n            )\n            (\n                loss,\n                z_loss_computed,\n                weight_sum,\n                accuracy,\n            ) = compute_weighted_cross_entropy_and_accuracy(\n                logits=logits[:, :-1, :],\n                targets=labels,\n                weights=weights,\n                label_smoothing=label_smoothing_factor,\n                z_loss=z_loss,\n                loss_normalizing_factor=lnf,\n            )\n            if aux_loss is not None:\n                loss += aux_loss\n            return loss, (accuracy, z_loss_computed, aux_loss)\n\n        grad_fn = jax.value_and_grad(calculate_loss, has_aux=True)\n        (loss__, (accuracy__, z_loss_computed__, aux_loss__)), grad = grad_fn(state.params)\n        state = state.apply_gradients(grads=grad)\n\n        grad_norms = jax.tree_map(jnp.linalg.norm, grad)\n        max_grad_norm = jax.tree_util.tree_reduce(jnp.maximum, grad_norms)\n        mean_grad_norm = jax.tree_util.tree_reduce(\n            jnp.add, jax.tree_map(jnp.sum, grad_norms)\n        ) / jax.tree_util.tree_reduce(jnp.add, jax.tree_map(jnp.size, grad_norms))\n        metrics = {\n            \"accuracy\": accuracy__,\n            \"regularization_z_loss\": z_loss_computed__,\n            \"max_grad_norm\": max_grad_norm,\n            \"mean_grad_norm\": mean_grad_norm,\n            \"grad_norms\": grad_norms,\n        }\n        if aux_loss__ is not None:\n            metrics.update({\"aux_loss\": aux_loss__})\n        return state, loss__, metrics\n\n    return casual_language_model_train_step\n</code></pre>"},{"location":"generated-trainer-causal_language_model_trainer-modeling_output/","title":"trainer.causal_language_model_trainer.modeling_output","text":""},{"location":"generated-trainer-dpo-dpo_trainer/","title":"trainer.dpo.dpo_trainer","text":""},{"location":"generated-trainer-dpo-dpo_trainer/#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer","title":"<code>DPOTrainer</code>","text":"<p>               Bases: <code>BaseTrainer</code>, <code>ABC</code></p> <p>easydel DPO Trainer Class</p> Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code> <pre><code>class DPOTrainer(BaseTrainer, ABC):\n    \"\"\"\n    easydel DPO Trainer Class\n    \"\"\"\n\n    def __init__(\n            self,\n            arguments: TrainArguments,\n            model_state: EasyDeLState | str,\n            ref_model_state: Optional[EasyDeLState | str] = None,\n            beta: float = 0.1,\n            label_smoothing: float = .0,\n            loss_type: Literal[\"sigmoid\", \"hinge\", \"ipo\", \"kto\"] = \"sigmoid\",\n            label_pad_token_id: int = -100,\n            padding_value: int = None,\n            train_dataset: Optional[Dataset] = None,\n            eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] = None,\n            tokenizer: Optional[PreTrainedTokenizerBase] = None,\n            data_collator: Optional[Callable] = None,\n            max_length: Optional[int] = None,\n            max_prompt_length: Optional[int] = None,\n            max_target_length: Optional[int] = None,\n            precompute_ref_log_probs: bool = False,\n            model_init_kwargs: Optional[Dict] = None,\n            ref_model_init_kwargs: Optional[Dict] = None,\n            reference_free: bool = False,\n            auto_shard_model_state: bool = True,\n            auto_shard_ref_model_state: bool = True,\n            is_encoder_decoder: Optional[bool] = False,\n            dataset_map_arguments: Optional[dict] = None,\n            low_mem_usage: bool = True,\n            auto_fix_data: bool = True,\n            _do_init_fns: bool = True,\n    ):\n\n        \"\"\"\n        The __init__ function is called when the class is instantiated.\n        It sets up the attributes of an object.\n\n\n        :param self: Refer to the object itself\n        :param model_state: EasyDeLState | str: Pass the model state to the trainer\n        :param ref_model_state: Optional[EasyDeLState | str]: Pass the reference model state\n        :param beta: float: Control the strength of the regularization term\n        :param label_smoothing: float: Smooth the labels\n        :param loss_type: Literal[\"sigmoid\", \"hinge\", \"ipo\", \"kto\"] : Determine the loss function used\n        :param arguments: TrainArguments: Pass the arguments to the trainer\n        :param label_pad_token_id: int: Pad the labels\n        :param padding_value: int: Specify the value that is used for padding\n        :param train_dataset: Optional[Dataset]: Load the training dataset\n        :param eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] : Pass the evaluation dataset to the trainer\n        :param tokenizer: Optional[PreTrainedTokenizerBase]: Pass the tokenizer to the trainer\n        :param max_length: Optional[int]: Set the maximum length of the input sequence\n        :param max_prompt_length: Optional[int]: Set the maximum length of the prompt\n        :param max_target_length: Optional[int]: Truncate the target sequence\n        :param data_collator: Optional[Callable]: Function to be used for creating datasets.\n        :param precompute_ref_log_probs: bool: Precompute the log probabilities of the reference model\n        :param model_init_kwargs: Optional[Dict]: Pass in the model_kwargs to model for init process\n        :param ref_model_init_kwargs: Optional[Dict]: Pass the ref_model_init_kwargs to ref_model for init process\n        :param auto_shard_model_state: bool: whenever to automatically shard `model_state`\n        :param auto_shard_ref_model_state: bool: whenever to automatically shard `ref_model_state`\n        :param dataset_map_arguments: Optional[dict]: arguments to be passed to train and eval datasets for\n        tokenizing process with `dataset.map`.\n        :param _do_init_fns: bool : preferred to set ture to trainer will automatically configure\n        model with provided training Arguments\n        :param : Set the padding value for the model\n        \"\"\"\n        assert arguments is not None, (\n            \"You Have to pass arguments that will be used for training but you have passed\"\n            \"`arguments=None`\"\n        )\n        assert isinstance(arguments, TrainArguments), (\n            f\"arguments type must be `TrainArguments` but got {type(arguments)}\"\n        )\n        if model_init_kwargs is None:\n            model_init_kwargs = {}\n        elif not isinstance(model_state, str):\n            raise ValueError(\"You passed model_kwargs to the DPOTrainer. But your model is already instantiated.\")\n\n        if ref_model_init_kwargs is None:\n            ref_model_init_kwargs = {}\n        elif not isinstance(ref_model_state, str):\n            raise ValueError(\n                \"You passed ref_model_kwargs to the DPOTrainer. But your ref_model is already instantiated.\"\n            )\n\n        if isinstance(model_state, str):\n            warnings.warn(\n                \"You passed a model_id to the DPOTrainer. This will automatically create an \"\n                \"`AutoEasyDeLModelForCausalLM` for you.\"\n            )\n            model_state = EasyDeLState.from_pretrained(\n                model_state,\n                **model_init_kwargs\n            )\n        if isinstance(ref_model_state, str):\n            warnings.warn(\n                \"You passed a ref model_id to the DPOTrainer. This will automatically create an \"\n                \"`AutoEasyDeLModelForCausalLM`\"\n            )\n            ref_model_state = EasyDeLState.from_pretrained(\n                ref_model_state,\n                **ref_model_init_kwargs\n            )\n\n        if loss_type in [\"hinge\", \"ipo\", \"kto_pair\"] and label_smoothing &gt; 0:\n            warnings.warn(\n                \"You are using a loss type that does not support label smoothing. Ignoring label_smoothing parameter.\"\n            )\n        self.auto_fix_data = auto_fix_data\n\n        if tokenizer is None:\n            raise ValueError(\"tokenizer must be specified to tokenize a DPO dataset.\")\n        if max_length is None:\n            warnings.warn(\n                \"`max_length` is not set in the DPOTrainer's init\"\n                \" it will default to `512` by default, but you should do it yourself in the future.\",\n                UserWarning,\n            )\n            max_length = 512\n        if max_prompt_length is None:\n            warnings.warn(\n                \"`max_prompt_length` is not set in the DPOTrainer's init\"\n                \" it will default to `128` by default, but you should do it yourself in the future.\",\n                UserWarning,\n            )\n            max_prompt_length = 128\n\n        if max_target_length is None and is_encoder_decoder:\n            warnings.warn(\n                \"When using an encoder decoder architecture, you should set `max_target_length` in the \"\n                \"DPOTrainer's init it will default to `128` by default, but you should do it yourself in the future.\",\n                UserWarning,\n            )\n            max_target_length = 128\n\n        padding_value = padding_value if padding_value is not None else tokenizer.pad_token_id\n        self.max_length = max_length\n        self.label_pad_token_id = label_pad_token_id\n        self.padding_value = padding_value\n        self.max_prompt_length = max_prompt_length\n        self.truncation_mode = arguments.truncation_mode\n\n        self.max_target_length = max_target_length\n        self.tokenizer = tokenizer\n        self.precompute_ref_log_probs = precompute_ref_log_probs\n        self.reference_free = reference_free\n        self.is_encoder_decoder = False\n        self._precomputed_train_ref_log_probs = False\n        self._precomputed_eval_ref_log_probs = False\n        self.beta = beta\n        self.label_smoothing = label_smoothing\n        self.loss_type = loss_type\n        self.low_mem_usage = low_mem_usage\n        data_collator = DPODataCollatorWithPadding(\n            max_prompt_length=self.max_prompt_length,\n            max_target_length=self.max_target_length,\n            pad_token_id=tokenizer.pad_token_id,\n            label_pad_token_id=label_pad_token_id,\n            is_encoder_decoder=False,\n        ) if data_collator is None else data_collator\n        self._stored_metrics = defaultdict(lambda: defaultdict(list))\n        if dataset_map_arguments is None:\n            dataset_map_arguments = {}\n        train_dataset = train_dataset.map(\n            self.tokenize_row,\n            **dataset_map_arguments\n        )\n        if eval_dataset is not None:\n            eval_dataset = eval_dataset.map(\n                self.tokenize_row,\n                **dataset_map_arguments\n            )\n\n        self.arguments = arguments\n        self.hp_name = None\n        self.deepspeed = None\n        self.is_in_train = False\n\n        self.data_collator = data_collator\n        self.train_dataset = train_dataset\n        self.eval_dataset = eval_dataset\n        self.tokenizer = tokenizer\n        self.ref_model_state = ref_model_state\n        self.model_state = model_state\n        self._loggers_initialized = False\n        self.mesh = self.arguments.get_mesh()\n        assert padding_value is not None, \"`padding_value` can not be set as `None` it must be an integer.\"\n\n        self.concatenated_forward = create_concatenated_forward(\n            is_encoder_decoder=self.is_encoder_decoder,\n            padding_value=padding_value,\n            label_pad_token_id=label_pad_token_id,\n        )\n        self.auto_shard_ref_model_state = auto_shard_ref_model_state\n        self.auto_shard_model_state = auto_shard_model_state\n\n        self._cached_p_l_s = None\n        self._cached_c_l_s = None\n        self._cached_r_l_s = None\n        super().__init__(\n            arguments=arguments,\n            dataset_train=train_dataset,\n            dataset_eval=eval_dataset,\n            finetune=True,\n            checkpoint_path=None,\n            _do_init_fns=_do_init_fns\n        )\n\n    def initialize_trainer_utils(self):\n        \"\"\"\n        The initialize_trainer_utils function is responsible for initializing the following:\n            - wandb_runtime (if you use_wandb is True)\n            - timer object (for logging time taken by various functions)\n            - dataloader objects for training and evaluation data, along with max steps per epoch.\n              The configure_dataloader function accomplishes this task.\n\n        :param self: Represent the instance of the class\n        :return: A tuple of functions\n\n        \"\"\"\n        self.wandb_runtime = self.arguments.get_wandb_init() if self.arguments.use_wandb else None\n        self.timer = Timers(\n            use_wandb=False,\n            tensorboard_writer=self.arguments.get_board()\n        )\n\n        self.timer(\"configure dataloaders\").start()\n        dataset_configurations = self.configure_dataloader()\n        self.dataloader_train = dataset_configurations.dataloader_train\n        self.max_training_steps = dataset_configurations.max_training_steps\n        self.dataloader_eval = dataset_configurations.dataloader_eval\n        self.max_evaluation_steps = dataset_configurations.max_evaluation_steps\n\n        self.timer(\"configure dataloaders\").stop()\n\n        self.timer.log([\"configure dataloaders\"])\n\n        self.timer(\"configure Model, Optimizer, Scheduler and Config\").start()\n        model_configurations = self.configure_model()\n        model = model_configurations.model\n        tx = model_configurations.tx\n        scheduler = model_configurations.scheduler\n        config = model_configurations.config\n        self.model = model\n        self.tx = tx\n        self.scheduler = scheduler\n        self.config = config\n        if self.rapture is not None:\n            lora_modules = self.rapture.apply_lora(\n                module=model,\n                parameters=self.arguments.rapture_config.parameters,\n                tx=tx,\n            )\n            self.lora_parameters = lora_modules.lora_parameters\n            self.lora_apply_fn = lora_modules.lora_module.__call__\n            self.lora_opt_state = lora_modules.lora_opt_state\n            self.lora_model = lora_modules.lora_module\n            self.lora_tx = lora_modules.lora_tx\n\n        self.timer(\"configure Model, Optimizer, Scheduler and Config\").stop()\n        self.timer.log([\"configure Model, Optimizer, Scheduler and Config\"])\n\n        self.timer(\"configure functions and sharding them\").start()\n\n        if self.auto_shard_model_state:\n            self.timer(\"Sharding Model State\").start()\n            self.model_state: EasyDeLState = self.shard_states(\n                self.model_state,\n                self.model_state.module.config.get_partition_rules(self.arguments.fully_sharded_data_parallel)\n            )\n\n            termcolor.cprint(\"initializing TX and Schedulers for `model_state`\", force_color=True, color=\"cyan\")\n\n            params_with_opt = (\n                self.model_state.params[\n                    'params'\n                ] if '_overwrite_with_gradient' in self.model_state.params else self.model_state.params\n            )\n            opt_state = self.tx.init(params_with_opt)\n\n            self.model_state = self.model_state.replace(\n                opt_state=opt_state,\n                tx=self.tx\n            )\n\n            self.timer(\"Sharding Model State\").stop()\n            self.timer.log([\"Sharding Model State\"])\n        if self.auto_shard_ref_model_state and self.ref_model_state is not None:\n            self.timer(\"Sharding Ref Model State\").start()\n            self.ref_model_state = self.shard_states(\n                self.ref_model_state,\n                self.ref_model_state.module.config.get_partition_rules(self.arguments.fully_sharded_data_parallel)\n            )\n            self.timer(\"Sharding Ref Model State\").stop()\n            self.timer.log([\"Sharding Ref Model State\"])\n\n        function_configurations = self.configure_functions()\n        self.create_sharded_state_from_params_function = (\n            function_configurations.create_sharded_state_from_params_function\n        )\n        self.sharded_train_step_function = function_configurations.sharded_train_step_function\n        self.sharded_eval_step_function = function_configurations.sharded_eval_step_function\n        self.mesh = function_configurations.mesh\n        self.checkpoint_manager = function_configurations.checkpoint_manager\n        self.initialize_state_function = function_configurations.initialize_state_function\n        self.timer(\"configure functions and sharding them\").stop()\n        self.timer.log([\"configure functions and sharding them\"])\n\n    def create_collate_function(\n            self,\n            max_sequence_length: int,\n            truncation_mode: typing.Literal[\"keep_end\", \"keep_start\"] = \"keep_end\",\n    ) -&gt; Callable:\n        return self.data_collator\n\n    def shard_states(self, state, rules):\n        with self.arguments.get_mesh():\n            partition_spec = match_partition_rules(rules=rules, params=jax.eval_shape(lambda: state))\n\n            def _shard(x):\n                return x\n\n            shard = pjit(\n                _shard,\n                in_shardings=(PartitionSpec(),),\n                out_shardings=partition_spec\n            )\n            return shard(state)\n\n    def configure_dataloader(self) -&gt; TrainerConfigureDataloaderFuncOutput:\n        dataloader_train = self.get_train_dataloader()\n        max_evaluation_steps = None\n        dataloader_eval = None\n\n        max_training_steps = self.arguments.num_train_epochs * len(\n            dataloader_train\n        ) if self.arguments.max_training_steps is None else self.arguments.max_training_steps\n        if self.eval_dataset is not None:\n            dataloader_eval = self.get_eval_dataloader(self.eval_dataset)\n            max_evaluation_steps = len(dataloader_eval)\n        return TrainerConfigureDataloaderFuncOutput(\n            dataloader_train=dataloader_train,  # type:ignore\n            max_training_steps=max_training_steps,\n            dataloader_eval=dataloader_eval,\n            max_evaluation_steps=max_evaluation_steps\n        )\n\n    def configure_functions(self) -&gt; TrainerConfigureFunctionFuncOutput:\n        def initialize_state_function():\n            initialized_parameters = self.model.init_weights(\n                jax.random.PRNGKey(0),\n                self.arguments.init_input_shape\n            )\n\n            if self.arguments.dtype == jnp.bfloat16:\n                initialized_parameters = self.model.to_bf16(initialized_parameters)\n            elif self.arguments.dtype == jnp.float16:\n                initialized_parameters = self.model.to_fp16(initialized_parameters)\n\n            tx = self.tx\n            parameters = flax.core.freeze({\"params\": initialized_parameters})\n            tx_init = copy.deepcopy(self.arguments.optimizer_kwargs)\n\n            if self.rapture is not None:\n                lora_parameters = self.lora_parameters\n                if self.arguments.dtype == jnp.bfloat16:\n                    lora_parameters = self.model.to_bf16(lora_parameters)\n                elif self.arguments.dtype == jnp.float16:\n                    lora_parameters = self.model.to_fp16(lora_parameters)\n\n                return EasyDeLState(\n                    step=0,\n                    apply_fn=self.lora_apply_fn,\n                    params=lora_parameters,\n                    tx=self.lora_tx,\n                    opt_state=self.lora_opt_state,\n                    tx_init=EasyDeLState.safe_dict(tx_init),\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.lora_model,\n                    module_config=self.model_state.module.config,\n                    module_config_args=None,\n                )\n            else:\n                return EasyDeLState.create(\n                    tx=tx,\n                    params=parameters,\n                    apply_fn=self.model.__call__,\n                    module_config=copy.deepcopy(self.model_state.module.config),\n                    tx_init=tx_init,\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.model,\n                    module_config_args=None\n                )\n\n        def create_state_from_params_function(parameters):\n            if self.rapture is None:\n                return EasyDeLState.create(\n                    tx=self.tx,\n                    params=parameters,\n                    apply_fn=self.model.__call__,\n                    module_config=copy.deepcopy(self.model_state.module.config),\n                    tx_init=copy.deepcopy(self.arguments.optimizer_kwargs),\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.model,\n                    module_config_args=None\n                )\n            else:\n                return EasyDeLState(\n                    step=0,\n                    apply_fn=self.lora_apply_fn,\n                    params=parameters,\n                    tx=self.lora_tx,\n                    opt_state=self.lora_opt_state,\n                    tx_init=EasyDeLState.safe_dict(copy.deepcopy(self.arguments.optimizer_kwargs)),\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.lora_model,\n                    module_config=self.model_state.module.config,\n                    module_config_args=None,\n                )\n\n        state_shape = jax.eval_shape(lambda: self.model_state)\n\n        state_partition_spec = match_partition_rules(\n            self.config.get_partition_rules(\n                fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n            ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n            state_shape\n        )\n        create_sharded_state_from_params_function = pjit(\n            create_state_from_params_function,\n            in_shardings=(state_partition_spec.params,),\n            out_shardings=state_partition_spec,\n            donate_argnums=(0,)\n        )\n        train_function = create_dpo_train_function(\n            concatenated_forward=self.concatenated_forward,\n            ref_state=self.ref_model_state,\n            loss_type=self.loss_type,\n            reference_free=self.reference_free,\n            label_smoothing=self.label_smoothing,\n            beta=self.beta\n        )\n        sharded_train_step_function = pjit(\n            train_function,\n            in_shardings=(state_partition_spec, self.arguments.step_partition_spec),\n            out_shardings=(state_partition_spec, PartitionSpec()),\n        )\n\n        eval_function = create_dpo_eval_function(\n            concatenated_forward=self.concatenated_forward,\n            ref_state=self.ref_model_state,\n            loss_type=self.loss_type,\n            reference_free=self.reference_free,\n            label_smoothing=self.label_smoothing,\n            beta=self.beta\n        )\n\n        sharded_eval_step_function = pjit(\n            eval_function,\n            in_shardings=(state_partition_spec, self.arguments.step_partition_spec),\n            out_shardings=(state_partition_spec, PartitionSpec()),\n        )\n\n        self.arguments.ckpt_path_exists()\n        self.state_partition_spec = state_partition_spec\n        self.state_shape = state_shape\n        checkpoint_manager = self.arguments.get_streaming_checkpointer()\n        mesh = self.arguments.get_mesh()\n        return TrainerConfigureFunctionFuncOutput(\n            initialize_state_function=initialize_state_function,\n            sharded_train_step_function=sharded_train_step_function,\n            create_sharded_state_from_params_function=create_sharded_state_from_params_function,\n            checkpoint_manager=checkpoint_manager,\n            mesh=mesh,\n            sharded_eval_step_function=sharded_eval_step_function\n        )\n\n    def configure_model(self) -&gt; TrainerConfigureModelFuncOutput:\n        config = self.model_state.module.config\n        tx, scheduler = self.arguments.get_optimizer_and_scheduler(self.max_training_steps)\n        return TrainerConfigureModelFuncOutput(\n            model=self.model_state.module,\n            config=config,  # type: ignore\n            scheduler=scheduler,\n            tx=tx\n        )\n\n    def _get_train_dataloader(self) -&gt; tensorflow.data.Dataset:\n\n        \"\"\"\n        The _get_train_dataloader function is used to create a tensorflow.data.Dataset object for the training dataset.\n\n        :param self: Represent the instance of the class\n        :return: A dataloader object\n        \"\"\"\n        if self.train_dataset is None:\n            raise ValueError(\"Trainer: training requires a train_dataset.\")\n\n        train_dataset = self.train_dataset\n        data_collator = self.data_collator\n\n        return tensorflow_datasets.as_numpy(\n            train_dataset.to_tf_dataset(\n                batch_size=self.arguments.total_batch_size,\n                collate_fn=data_collator,\n                num_workers=self.arguments.dataloader_num_workers,\n                shuffle=True,\n                drop_remainder=True\n            )\n        )\n\n    def _get_eval_dataloader(self, eval_dataset: Optional[Dataset] = None) -&gt; tensorflow.data.Dataset:\n        \"\"\"\n        Returns the evaluation [`~tensorflow.data.Dataset`].\n\n        Subclass and override this method if you want to inject some custom behavior.\n\n        Args:\n            eval_dataset (`torch.utils.data.Dataset`, *optional*):\n                If provided, will override `self.eval_dataset`. If it is a [`~datasets.Dataset`], columns not accepted\n                by the `model.forward()` method are automatically removed. It must implement `__len__`.\n        \"\"\"\n        if eval_dataset is None and self.eval_dataset is None:\n            raise ValueError(\"Trainer: evaluation requires an eval_dataset.\")\n        eval_dataset = eval_dataset if eval_dataset is not None else self.eval_dataset\n\n        return tensorflow_datasets.as_numpy(\n            eval_dataset.to_tf_dataset(\n                batch_size=self.arguments.total_batch_size,\n                collate_fn=self.data_collator,\n                num_workers=self.arguments.dataloader_num_workers,\n                shuffle=False,\n                drop_remainder=True\n            )\n        )\n\n    def get_train_dataloader(\n            self,\n    ) -&gt; tensorflow.data.Dataset:\n        \"\"\"\n        Returns the training [`~tensorflow.data.Dataset`].\n        \"\"\"\n\n        if self.precompute_ref_log_probs and not self._precomputed_train_ref_log_probs:\n\n            data_loader = tensorflow_datasets.as_numpy(\n                self.train_dataset.to_tf_dataset(\n                    batch_size=self.arguments.total_batch_size,\n                    collate_fn=self.data_collator,\n                    num_workers=self.arguments.dataloader_num_workers,\n                    shuffle=False,\n                    drop_remainder=True\n                )\n            )\n            reference_chosen_log_probs = []\n            reference_rejected_log_probs = []\n            for padded_batch in tqdm(iterable=data_loader, desc=\"Train dataset reference log probs\"):\n                reference_chosen_logp, reference_rejected_logp = self.compute_reference_log_probs(\n                    self.model_state,\n                    padded_batch,\n                )\n                reference_chosen_log_probs.append(reference_chosen_logp)\n                reference_rejected_log_probs.append(reference_rejected_logp)\n\n            all_reference_chosen_log_probs = jnp.concatenate(reference_chosen_log_probs)\n            all_reference_rejected_log_probs = jnp.concatenate(reference_rejected_log_probs)\n            self.train_dataset = self.train_dataset.add_column(\n                name=\"reference_chosen_log_probs\", column=all_reference_chosen_log_probs\n            )\n            self.train_dataset = self.train_dataset.add_column(\n                name=\"reference_rejected_log_probs\", column=all_reference_rejected_log_probs\n            )\n\n            self._precomputed_train_ref_log_probs = True\n        return self._get_train_dataloader()\n\n    def get_eval_dataloader(self, eval_dataset: Optional[Dataset] = None) -&gt; tensorflow.data.Dataset:\n        \"\"\"\n        Returns the evaluation [`~tensorflow.data.Dataset`].\n        \"\"\"\n        if eval_dataset is None and self.eval_dataset is None:\n            raise ValueError(\"Trainer: evaluation requires an eval_dataset.\")\n        eval_dataset = eval_dataset if eval_dataset is not None else self.eval_dataset\n\n        if self.precompute_ref_log_probs and not self._precomputed_eval_ref_log_probs:\n\n            # prepare dataloader\n            data_loader = tensorflow_datasets.as_numpy(\n                eval_dataset.to_tf_dataset(\n                    batch_size=self.arguments.total_batch_size,\n                    collate_fn=self.data_collator,\n                    num_workers=self.arguments.dataloader_num_workers,\n                    shuffle=False,\n                    drop_remainder=True\n                )\n            )\n\n            reference_chosen_log_probs = []\n            reference_rejected_log_probs = []\n            for padded_batch in tqdm(iterable=data_loader, desc=\"Eval dataset reference log probs\"):\n                reference_chosen_logp, reference_rejected_logp = self.compute_reference_log_probs(\n                    self.model_state,\n                    padded_batch\n                )\n                reference_chosen_log_probs.append(reference_chosen_logp.cpu())\n                reference_rejected_log_probs.append(reference_rejected_logp.cpu())\n\n            all_reference_chosen_log_probs = jnp.concatenate(reference_chosen_log_probs)\n            all_reference_rejected_log_probs = jnp.concatenate(reference_rejected_log_probs)\n\n            eval_dataset = eval_dataset.add_column(name=\"reference_chosen_log_probs\",\n                                                   column=all_reference_chosen_log_probs)\n            eval_dataset = eval_dataset.add_column(\n                name=\"reference_rejected_log_probs\", column=all_reference_rejected_log_probs\n            )\n\n            if self.eval_dataset is not None:\n                self.eval_dataset = eval_dataset\n            self._precomputed_eval_ref_log_probs = True\n\n        return self._get_eval_dataloader(eval_dataset=eval_dataset)\n\n    def build_tokenized_answer(self, prompt, answer):\n        \"\"\"\n        Llama tokenizer does satisfy `enc(a + b) = enc(a) + enc(b)`.\n        It does ensure `enc(a + b) = enc(a) + enc(a + b)[len(enc(a)):]`.\n        \"\"\"\n\n        full_tokenized = self.tokenizer(prompt + answer, add_special_tokens=False)\n        prompt_input_ids = self.tokenizer(prompt, add_special_tokens=False)[\"input_ids\"]\n\n        answer_input_ids = full_tokenized[\"input_ids\"][len(prompt_input_ids):]\n        answer_attention_mask = full_tokenized[\"attention_mask\"][len(prompt_input_ids):]\n        prompt_input_ids = jnp.asarray(prompt_input_ids, dtype=\"i4\")\n        answer_input_ids = jnp.asarray(answer_input_ids, dtype=\"i4\")\n        full_concat_input_ids = jnp.concatenate(\n            (\n                prompt_input_ids,\n                answer_input_ids\n            )\n        )\n\n        # Prepare input tokens for token by token comparison\n        full_input_ids = jnp.array(full_tokenized[\"input_ids\"])\n\n        if len(full_input_ids) != len(full_concat_input_ids):\n            raise ValueError(\"Prompt input ids and answer input ids should have the same length.\")\n\n        response_token_ids_start_idx = len(prompt_input_ids)\n        if prompt_input_ids.tolist() != full_tokenized[\"input_ids\"][:response_token_ids_start_idx]:\n            response_token_ids_start_idx -= 1\n\n        prompt_input_ids = full_tokenized[\"input_ids\"][:response_token_ids_start_idx]\n        prompt_attention_mask = full_tokenized[\"attention_mask\"][:response_token_ids_start_idx]\n\n        if len(prompt_input_ids) != len(prompt_attention_mask):\n            raise ValueError(\"Prompt input ids and attention mask should have the same length.\")\n\n        answer_input_ids = full_tokenized[\"input_ids\"][response_token_ids_start_idx:]\n        answer_attention_mask = full_tokenized[\"attention_mask\"][response_token_ids_start_idx:]\n\n        return dict(\n            prompt_input_ids=jnp.array(prompt_input_ids, dtype=\"i4\"),\n            prompt_attention_mask=jnp.array(prompt_attention_mask, dtype=\"i4\"),\n            input_ids=jnp.array(answer_input_ids, dtype=\"i4\"),\n            attention_mask=jnp.array(answer_attention_mask, dtype=\"i4\"),\n        )\n\n    def tokenize_row(self, feature, state: EasyDeLState = None) -&gt; Dict:\n\n        \"\"\"\n        The tokenize_row function is responsible for taking a single row of data and converting it into the format that\n        the model expects. This includes:\n        - Tokenizing the text (using HuggingFace's tokenizer)\n        - Padding/truncating sequences to a fixed length (if necessary)\n        - Creating attention masks, which tell the model which tokens are padding and which aren't.\n\n        :param self: Represent the instance of the class\n        :param feature: Pass in the data from the dataset\n        :param state: EasyDeLState: Keep track of the state of the tokenizer\n        :return: A dictionary of the following keys\n        \"\"\"\n        batch = {}\n        prompt = feature[\"prompt\"]\n        chosen = feature[\"chosen\"]\n        rejected = feature[\"rejected\"]\n\n        if not isinstance(prompt, str):\n            raise ValueError(f\"prompt should be an str but got {type(prompt)} , {prompt}\")\n        prompt_tokens = self.tokenizer(\n            prompt,\n            add_special_tokens=False,\n            return_tensors=\"np\",\n        )\n        prompt_tokens = {f\"prompt_{k}\": v for k, v in prompt_tokens.items()}\n\n        if not isinstance(chosen, str):\n            raise ValueError(f\"chosen should be an str but got {type(chosen)} , {chosen}\")\n        chosen_tokens = self.build_tokenized_answer(prompt, chosen)\n\n        if not isinstance(rejected, str):\n            raise ValueError(f\"rejected should be an str but got {type(rejected)}\")\n        rejected_tokens = self.build_tokenized_answer(prompt, rejected)\n        v2d = lambda ar: ar.reshape(1, -1) if ar.ndim == 1 else ar\n\n        def add_tkn(n, ar):\n            return jnp.concatenate(\n                (\n                    jnp.array(n).reshape(1, 1),\n                    v2d(ar)\n                ), axis=-1\n            )\n\n        def add_post_tkn(n, ar):\n            return jnp.concatenate(\n                (\n                    v2d(ar),\n                    jnp.array(n).reshape(1, 1)\n                ), axis=-1\n            )\n\n        prompt_tokens[\"prompt_input_ids\"] = add_tkn(\n            self.tokenizer.bos_token_id,\n            prompt_tokens[\"prompt_input_ids\"]\n        )\n        chosen_tokens[\"prompt_input_ids\"] = add_tkn(\n            self.tokenizer.bos_token_id,\n            chosen_tokens[\"prompt_input_ids\"]\n        )\n        rejected_tokens[\"prompt_input_ids\"] = add_tkn(\n            self.tokenizer.bos_token_id,\n            rejected_tokens[\"prompt_input_ids\"]\n        )\n\n        prompt_tokens[\"prompt_attention_mask\"] = add_tkn(\n            1, prompt_tokens[\"prompt_attention_mask\"]\n        )\n        chosen_tokens[\"prompt_attention_mask\"] = add_tkn(\n            1, chosen_tokens[\"prompt_attention_mask\"]\n        )\n        rejected_tokens[\"prompt_attention_mask\"] = add_tkn(\n            1, rejected_tokens[\"prompt_attention_mask\"]\n        )\n\n        # add EOS token to end of answer\n        chosen_tokens[\"input_ids\"] = add_post_tkn(self.tokenizer.eos_token_id, chosen_tokens[\"input_ids\"])\n        chosen_tokens[\"attention_mask\"] = add_post_tkn(1, chosen_tokens[\"attention_mask\"])\n\n        rejected_tokens[\"input_ids\"] = add_post_tkn(self.tokenizer.eos_token_id, rejected_tokens[\"input_ids\"])\n        rejected_tokens[\"attention_mask\"] = add_post_tkn(1, rejected_tokens[\"attention_mask\"])\n\n        longer_response_length = max(chosen_tokens[\"input_ids\"].shape[-1], rejected_tokens[\"input_ids\"].shape[-1])\n\n        # if combined sequence is too long, truncate the prompt\n        for answer_tokens in [chosen_tokens, rejected_tokens, prompt_tokens]:\n            length_rn = answer_tokens[\"prompt_input_ids\"].shape[-1] + longer_response_length\n            if length_rn &gt; self.max_length:\n\n                if self.truncation_mode == \"keep_start\":\n                    for k in [\"prompt_input_ids\", \"prompt_attention_mask\"]:\n                        answer_tokens[k] = answer_tokens[k][:, : self.max_prompt_length]\n                elif self.truncation_mode == \"keep_end\":\n                    for k in [\"prompt_input_ids\", \"prompt_attention_mask\"]:\n                        answer_tokens[k] = answer_tokens[k][:, -self.max_prompt_length:]\n                else:\n                    raise ValueError(f\"Unknown truncation mode: {self.truncation_mode}\")\n        # if that's still too long, truncate the response\n        for answer_tokens in [chosen_tokens, rejected_tokens]:\n            if answer_tokens[\"prompt_input_ids\"].shape[-1] + longer_response_length &gt; self.max_length:\n                for k in [\"input_ids\", \"attention_mask\"]:\n                    answer_tokens[k] = answer_tokens[k][:, : self.max_length - self.max_prompt_length]\n\n        chosen_sequence_tokens = {\n            k: jnp.concatenate(\n                (v2d(chosen_tokens[f\"prompt_{k}\"]), v2d(chosen_tokens[k])),\n                axis=-1\n            ) for k in [\"input_ids\", \"attention_mask\"]\n        }\n        rejected_sequence_tokens = {\n            k: jnp.concatenate(\n                (v2d(rejected_tokens[f\"prompt_{k}\"]), v2d(rejected_tokens[k])),\n                axis=-1\n            ) for k in [\"input_ids\", \"attention_mask\"]\n        }\n        chosen_sequence_tokens[\"labels\"] = chosen_sequence_tokens[\"input_ids\"][:]\n        chosen_sequence_tokens[\"labels\"] = chosen_sequence_tokens[\"labels\"].at[\n                                           : len(chosen_tokens[\"prompt_input_ids\"])\n                                           ].set([self.label_pad_token_id] * len(chosen_tokens[\"prompt_input_ids\"]))\n        rejected_sequence_tokens[\"labels\"] = rejected_sequence_tokens[\"input_ids\"][:]\n        rejected_sequence_tokens[\"labels\"] = rejected_sequence_tokens[\"labels\"].at[\n                                             : len(rejected_tokens[\"prompt_input_ids\"])\n                                             ].set(\n            ([self.label_pad_token_id] * len(rejected_tokens[\"prompt_input_ids\"]))\n        )\n\n        for k, tokens_ in {\n            \"chosen_\": chosen_sequence_tokens,\n            \"rejected_\": rejected_sequence_tokens,\n            \"\": prompt_tokens,\n        }.items():\n            for type_key, tokens in tokens_.items():\n                if type_key == \"token_type_ids\":\n                    continue\n\n                b, s = tokens.shape\n\n                if self.max_prompt_length &gt; s:\n                    if k == \"chosen_\":\n                        if type_key == \"input_ids\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_target_length,\n                                pad_value=self.padding_value,\n                                axis=-1\n                            )\n                        elif type_key == \"attention_mask\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_target_length,\n                                pad_value=0,\n                                axis=-1\n                            )\n                        elif type_key == \"labels\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_target_length,\n                                pad_value=self.padding_value,\n                                axis=-1\n                            )\n\n                        tokens = tokens[..., :self.max_target_length]\n\n                        if tokens.shape[-1] != self.max_target_length:\n                            raise ValueError(\n                                f\"there was an error in padding token with `type_key` of {type_key}\"\n                                f\". it must have sequence_length of {self.max_target_length} but we got {tokens.shape[-1]}\"\n                                f\" From {k}{type_key}\"\n                            )\n                        tokens = tokens[..., :self.max_target_length]\n                    elif k == \"rejected_\":\n                        if type_key == \"input_ids\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_target_length,\n                                pad_value=self.padding_value,\n                                axis=-1\n                            )\n                        elif type_key == \"attention_mask\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_target_length,\n                                pad_value=0,\n                                axis=-1\n                            )\n                        elif type_key == \"labels\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_target_length,\n                                pad_value=self.padding_value,\n                                axis=-1\n                            )\n                        tokens = tokens[..., :self.max_target_length]\n                        if tokens.shape[-1] != self.max_target_length:\n                            raise ValueError(\n                                f\"there was an error in padding token with `type_key` of {type_key}\"\n                                f\". it must have sequence_length of {self.max_target_length} but we got {tokens.shape[-1]}\"\n                                f\" From {k}{type_key}\"\n                            )\n                    elif k == \"\":\n                        if type_key == \"prompt_input_ids\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_prompt_length,\n                                pad_value=self.padding_value,\n                                axis=-1\n                            )\n                        elif type_key == \"prompt_attention_mask\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_prompt_length,\n                                pad_value=0,\n                                axis=-1\n                            )\n                        elif type_key == \"prompt_labels\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_prompt_length,\n                                pad_value=self.padding_value,\n                                axis=-1\n                            )\n                        tokens = tokens[..., :self.max_prompt_length]\n                        if tokens.shape[-1] != self.max_prompt_length:\n                            raise ValueError(\n                                f\"there was an error in padding token with `type_key` of {type_key}\"\n                                f\". it must have sequence_length of {self.max_prompt_length} but we got {tokens.shape[-1]}\"\n                                f\" From {k}{type_key}\"\n                            )\n                batch[f\"{k}{type_key}\"] = tokens\n        return batch\n\n    def compute_reference_log_probs(\n            self,\n            state: EasyDeLState,\n            padded_batch: Dict,\n    ) -&gt; tuple[Any, Any]:\n        \"\"\"\n        Computes log probabilities of the reference model for a single padded batch of a DPO specific dataset.\n        \"\"\"\n\n        if self.ref_model_state is None:\n            (\n                reference_chosen_log_probs,\n                reference_rejected_log_probs,\n                _,\n                _,\n            ) = self.concatenated_forward(\n                apply_fn=state.apply_fn,\n                params=state.params,\n                batch=padded_batch,\n            )\n        else:\n            (\n                reference_chosen_log_probs,\n                reference_rejected_log_probs,\n                _,\n                _,\n            ) = self.concatenated_forward(\n                apply_fn=self.ref_model_state.apply_fn,\n                params=self.ref_model_state.params,\n                batch=padded_batch,\n            )\n\n        return reference_chosen_log_probs, reference_rejected_log_probs\n\n    def _save_state(\n            self,\n            state: EasyDeLState,\n            gather_fns: Optional[Any | Mapping[str, Callable] | dict[Callable]],\n            milestone: bool = False\n    ) -&gt; str:\n        step = int(\n            jax.device_get(\n                state.step\n            )\n        ) + self.arguments.step_start_point if self.arguments.step_start_point is not None else int(\n            jax.device_get(\n                state.step\n            )\n        )\n        checkpoint_name = f\"{self.arguments.model_name}-S{step}\"\n        filename = f\"{checkpoint_name}_{step}\" if milestone else f\"{checkpoint_name}\"\n        filename += \".easy\"\n        termcolor.cprint(f\"Saving Model {filename}.\", color=\"cyan\", force_color=True)\n        state.save_state(\n            filename=filename,\n            checkpoint_dir=os.path.join(self.arguments.save_dir, self.arguments.model_name),\n            gather_fns=gather_fns,\n            float_dtype=self.dtype,\n            verbose=self.arguments.verbose,\n            save_optimizer=self.arguments.save_optimizer_state,\n        )\n        return filename\n\n    def train(self) -&gt; DPOTrainerOutput:\n        assert self.model_state is not None, \"model_state can not be None for training purpose\"\n        with self.mesh:\n            with jax.default_device(jax.devices(\"cpu\")[0]) if self.low_mem_usage else leave_alone_context_manager:\n                dir_prefix: str = \"/dev/shm\" if sys.platform != \"win32\" else \".\"\n                checkpoint_path = \"SAVING_SKIPPED\"\n\n                pbar = tqdm(total=self.max_training_steps)\n                pbar.set_description(\"Training\")\n                current_step = self.model_state.step.tolist() if isinstance(\n                    self.model_state.step,\n                    jax.Array\n                ) else self.model_state.step\n\n                loss_sum = None\n                chosen_rewards_sum = None\n                rejected_rewards_sum = None\n\n                try:\n                    for epoch_index in range(self.arguments.num_train_epochs):\n                        for batch in self.dataloader_train:\n                            current_step += 1\n                            if self.arguments.step_start_point &gt; current_step:\n                                ...\n                            elif current_step &lt; self.max_training_steps:\n                                time_start = time.time()\n\n                                self.model_state, metrics = self.sharded_train_step_function(\n                                    self.model_state,\n                                    batch\n                                )\n                                total_time = time.time() - time_start\n                                (\n                                    loss, chosen_rewards, rejected_rewards\n                                ) = metrics.loss, metrics.chosen_rewards[0], metrics.rejected_rewards[0]\n\n                                loss_sum = loss.tolist() if loss_sum is None else loss_sum + loss\n\n                                rejected_rewards_sum = (\n                                    rejected_rewards.tolist() if (\n                                            rejected_rewards_sum is None\n                                    ) else rejected_rewards_sum + rejected_rewards\n                                )\n                                chosen_rewards_sum = (\n                                    chosen_rewards.tolist() if (\n                                            chosen_rewards_sum is None\n                                    ) else chosen_rewards_sum + chosen_rewards\n                                )\n                                train_metrics = {\n                                    \"train/loss\": loss.tolist(),\n                                    \"train/mean_loss\": loss_sum / (current_step - self.arguments.step_start_point),\n                                    \"train/mean_rejected_rewards\": rejected_rewards_sum / (\n                                            current_step - self.arguments.step_start_point\n                                    ),\n                                    \"train/mean_chosen_rewards\": chosen_rewards_sum / (\n                                            current_step - self.arguments.step_start_point\n                                    ),\n                                    \"train/learning_rate\": self.scheduler(\n                                        jax.device_get(self.model_state.step)\n                                    ).tolist(),\n                                    \"train/step\": current_step,\n                                    \"train/step_time\": total_time,\n                                    \"train/perplexity\": jnp.exp(loss).tolist(),\n                                    \"train/epoch\": epoch_index\n                                }\n                                log_metrics = copy.deepcopy(train_metrics)\n                                train_metrics.update(self.arguments.captured_memory)\n                                if self.arguments.use_wandb:\n                                    with jax.spmd_mode(\"allow_all\"):\n                                        self.wandb_runtime.log(\n                                            train_metrics\n                                        )\n                                pbar.update(1)\n                                pbar.set_postfix(**{k.replace(\"train/\", \"\"): v for k, v in log_metrics.items()})\n                            else:\n                                break\n                except KeyboardInterrupt:\n                    termcolor.cprint(\n                        \"KeyboardInterrupt At training model Will return Current State of the Model with Parameters.\",\n                        color=\"cyan\",\n                        force_color=True\n                    )\n\n                except EasyDeLTimerError:\n                    termcolor.cprint(\n                        \"Training reached out maximum training Time Killing training Process \"\n                        \"and Will return Current State of the Model with Parameters.\",\n                        color=\"cyan\",\n                        force_color=True\n                    )\n\n                if self.arguments.merge_lora_rapture_parameters and self.rapture is not None:\n                    print(\n                        termcolor.colored(\n                            \"Info : \", color=\"red\", force_color=True\n                        ),\n                        termcolor.colored(\n                            \"Merging LoRA Parameters.\", color=\"white\", force_color=True\n                        )\n                    )\n                    self.model_state = self.model_state.replace(\n                        params=self.rapture.merge_parameters(self.model_state.params)\n                    )\n\n                shard_fns, gather_fns = make_shard_and_gather_fns(\n                    partition_specs=match_partition_rules(\n                        rules=self.model_state.module.config.get_partition_rules(\n                            self.arguments.fully_sharded_data_parallel\n                        ),\n                        params=jax.eval_shape(lambda: self.model_state)\n                    ),\n                    dtype_specs=self.arguments.dtype\n                )\n                output = DPOTrainerOutput(\n                    state=self.model_state,\n                    mesh=self.mesh,\n                    shard_fns=shard_fns,\n                    gather_fns=gather_fns,\n                    checkpoint_manager=self.checkpoint_manager,\n                )\n                if self.arguments.save_steps is None and self.arguments.do_last_save:\n                    shard_fns, gather_fns = make_shard_and_gather_fns(\n                        match_partition_rules(\n                            self.config.get_partition_rules(\n                                fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n                            ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n                            jax.eval_shape(lambda: self.model_state)\n                        ),\n                        dtype_specs=self.dtype\n                    )  # You have to re-init the new shard and gather functions in order to be able to skip LoRA weight\n                    # crashing errors and saving errors\n                    filename = self._save_state(\n                        state=self.model_state,\n                        gather_fns=gather_fns\n                    )\n                    checkpoint_path = f\"{str(self.arguments.get_path())}/{filename}\"\n\n                if self.arguments.do_eval:\n                    for _ in self.eval(\n                            self.model_state\n                    ):\n                        ...\n\n                output.checkpoint_path = checkpoint_path\n                output.last_save_file_name = filename\n                wandb.finish()\n\n        return output\n\n    def eval(self, model_state: EasyDeLState) -&gt; typing.Iterator[dict]:\n        \"\"\"Evaluate the Given Model State and yield the eval metrics\"\"\"\n        assert self.eval_dataset is not None, \"`dataloader_eval` is required by evaluator function.\"\n        with self.mesh:\n            pbar = tqdm(total=self.max_evaluation_steps)\n            pbar.set_description(\"Evaluating\")\n            current_step = 0\n            loss_sum = None\n            chosen_rewards_sum = None\n            rejected_rewards_sum = None\n\n            try:\n                for batch in self.dataloader_eval:\n                    current_step += 1\n                    time_start = time.time()\n                    for key in self.arguments.ids_to_pop_from_dataset:\n                        _ = batch.pop(key, None)\n                    for key in list(batch.keys()):\n                        if not (\n                                key.endswith(\"_input_ids\")\n                                or key.endswith(\"_attention_mask\")\n                                or key.endswith(\"_labels\")\n                        ):\n                            _ = batch.pop(key, None)\n\n                    metrics = self.sharded_eval_step_function(\n                        model_state,\n                        batch\n                    )\n                    total_time = time.time() - time_start\n                    (\n                        loss, chosen_rewards, rejected_rewards\n                    ) = metrics.loss, metrics.chosen_rewards[0], metrics.rejected_rewards[0]\n\n                    loss_sum = loss.tolist() if loss_sum is None else loss_sum + loss\n                    rejected_rewards_sum = (\n                        rejected_rewards.tolist() if (\n                                rejected_rewards_sum is None\n                        ) else rejected_rewards_sum + rejected_rewards\n                    )\n                    chosen_rewards_sum = (\n                        chosen_rewards.tolist() if (\n                                chosen_rewards_sum is None\n                        ) else chosen_rewards_sum + chosen_rewards\n                    )\n\n                    eval_metrics = {\n                        \"eval/loss\": loss.tolist(),\n                        \"eval/mean_loss\": loss_sum / (current_step - self.arguments.step_start_point),\n                        \"eval/mean_rejected_rewards\": rejected_rewards_sum / (\n                                current_step - self.arguments.step_start_point\n                        ),\n                        \"eval/mean_chosen_rewards\": chosen_rewards_sum / (\n                                current_step - self.arguments.step_start_point\n                        ),\n                        \"eval/step\": current_step,\n                        \"eval/step_time\": total_time,\n                        \"eval/perplexity\": jnp.exp(loss).tolist(),\n                    }\n                    log_metrics = copy.deepcopy(eval_metrics)\n                    eval_metrics.update(self.arguments.captured_memory)\n                    if self.arguments.use_wandb:\n                        with jax.spmd_mode(\"allow_all\"):\n                            self.wandb_runtime.log(\n                                eval_metrics\n                            )\n\n                    pbar.update(1)\n                    pbar.set_postfix(**{k.replace(\"eval/\", \"\"): v for k, v in log_metrics.items()})\n                    yield eval_metrics\n            except KeyboardInterrupt:\n                termcolor.cprint(\n                    \"KeyboardInterrupt At Evaluation model Will return Nothing and just pass.\",\n                    color=\"cyan\",\n                    force_color=True\n                )\n\n    def __repr__(self):\n\n        \"\"\"\n        The __repr__ function is used to generate a string representation of an object.\n        This function should return a string that can be parsed by the Python interpreter\n        to recreate the object. The __repr__ function is called when you use print() on an\n        object, or when you type its name in the REPL.\n\n        :param self: Refer to the instance of the class\n        :return: A string representation of the object\n        \"\"\"\n        string = f\"{self.__class__.__name__}(\\n\"\n        for k, v in self.__dict__.items():\n            if not k.startswith(\"_\"):\n                try:\n                    repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                    string += repr_src if len(repr_src) &lt; 350 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n                except TypeError:\n                    repr_src = f\"\\t{k} : \" + \"EasyDeLReadingError\" + \"\\n\"\n                    string += repr_src if len(repr_src) &lt; 350 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n\n        return string + \")\"\n\n    def __str__(self):\n\n        \"\"\"\n        The __str__ function is called when you use the print function or when str() is used.\n        It should return a string representation of the object.\n\n        :param self: Refer to the instance of the class\n        :return: The object's string representation\n        \"\"\"\n        return self.__repr__()\n</code></pre>"},{"location":"generated-trainer-dpo-dpo_trainer/#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.__init__","title":"<code>__init__(arguments, model_state, ref_model_state=None, beta=0.1, label_smoothing=0.0, loss_type='sigmoid', label_pad_token_id=-100, padding_value=None, train_dataset=None, eval_dataset=None, tokenizer=None, data_collator=None, max_length=None, max_prompt_length=None, max_target_length=None, precompute_ref_log_probs=False, model_init_kwargs=None, ref_model_init_kwargs=None, reference_free=False, auto_shard_model_state=True, auto_shard_ref_model_state=True, is_encoder_decoder=False, dataset_map_arguments=None, low_mem_usage=True, auto_fix_data=True, _do_init_fns=True)</code>","text":"<p>The init function is called when the class is instantiated. It sets up the attributes of an object.</p> <p>:param self: Refer to the object itself :param model_state: EasyDeLState | str: Pass the model state to the trainer :param ref_model_state: Optional[EasyDeLState | str]: Pass the reference model state :param beta: float: Control the strength of the regularization term :param label_smoothing: float: Smooth the labels :param loss_type: Literal[\"sigmoid\", \"hinge\", \"ipo\", \"kto\"] : Determine the loss function used :param arguments: TrainArguments: Pass the arguments to the trainer :param label_pad_token_id: int: Pad the labels :param padding_value: int: Specify the value that is used for padding :param train_dataset: Optional[Dataset]: Load the training dataset :param eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] : Pass the evaluation dataset to the trainer :param tokenizer: Optional[PreTrainedTokenizerBase]: Pass the tokenizer to the trainer :param max_length: Optional[int]: Set the maximum length of the input sequence :param max_prompt_length: Optional[int]: Set the maximum length of the prompt :param max_target_length: Optional[int]: Truncate the target sequence :param data_collator: Optional[Callable]: Function to be used for creating datasets. :param precompute_ref_log_probs: bool: Precompute the log probabilities of the reference model :param model_init_kwargs: Optional[Dict]: Pass in the model_kwargs to model for init process :param ref_model_init_kwargs: Optional[Dict]: Pass the ref_model_init_kwargs to ref_model for init process :param auto_shard_model_state: bool: whenever to automatically shard <code>model_state</code> :param auto_shard_ref_model_state: bool: whenever to automatically shard <code>ref_model_state</code> :param dataset_map_arguments: Optional[dict]: arguments to be passed to train and eval datasets for tokenizing process with <code>dataset.map</code>. :param _do_init_fns: bool : preferred to set ture to trainer will automatically configure model with provided training Arguments :param : Set the padding value for the model</p> Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code> <pre><code>def __init__(\n        self,\n        arguments: TrainArguments,\n        model_state: EasyDeLState | str,\n        ref_model_state: Optional[EasyDeLState | str] = None,\n        beta: float = 0.1,\n        label_smoothing: float = .0,\n        loss_type: Literal[\"sigmoid\", \"hinge\", \"ipo\", \"kto\"] = \"sigmoid\",\n        label_pad_token_id: int = -100,\n        padding_value: int = None,\n        train_dataset: Optional[Dataset] = None,\n        eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] = None,\n        tokenizer: Optional[PreTrainedTokenizerBase] = None,\n        data_collator: Optional[Callable] = None,\n        max_length: Optional[int] = None,\n        max_prompt_length: Optional[int] = None,\n        max_target_length: Optional[int] = None,\n        precompute_ref_log_probs: bool = False,\n        model_init_kwargs: Optional[Dict] = None,\n        ref_model_init_kwargs: Optional[Dict] = None,\n        reference_free: bool = False,\n        auto_shard_model_state: bool = True,\n        auto_shard_ref_model_state: bool = True,\n        is_encoder_decoder: Optional[bool] = False,\n        dataset_map_arguments: Optional[dict] = None,\n        low_mem_usage: bool = True,\n        auto_fix_data: bool = True,\n        _do_init_fns: bool = True,\n):\n\n    \"\"\"\n    The __init__ function is called when the class is instantiated.\n    It sets up the attributes of an object.\n\n\n    :param self: Refer to the object itself\n    :param model_state: EasyDeLState | str: Pass the model state to the trainer\n    :param ref_model_state: Optional[EasyDeLState | str]: Pass the reference model state\n    :param beta: float: Control the strength of the regularization term\n    :param label_smoothing: float: Smooth the labels\n    :param loss_type: Literal[\"sigmoid\", \"hinge\", \"ipo\", \"kto\"] : Determine the loss function used\n    :param arguments: TrainArguments: Pass the arguments to the trainer\n    :param label_pad_token_id: int: Pad the labels\n    :param padding_value: int: Specify the value that is used for padding\n    :param train_dataset: Optional[Dataset]: Load the training dataset\n    :param eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] : Pass the evaluation dataset to the trainer\n    :param tokenizer: Optional[PreTrainedTokenizerBase]: Pass the tokenizer to the trainer\n    :param max_length: Optional[int]: Set the maximum length of the input sequence\n    :param max_prompt_length: Optional[int]: Set the maximum length of the prompt\n    :param max_target_length: Optional[int]: Truncate the target sequence\n    :param data_collator: Optional[Callable]: Function to be used for creating datasets.\n    :param precompute_ref_log_probs: bool: Precompute the log probabilities of the reference model\n    :param model_init_kwargs: Optional[Dict]: Pass in the model_kwargs to model for init process\n    :param ref_model_init_kwargs: Optional[Dict]: Pass the ref_model_init_kwargs to ref_model for init process\n    :param auto_shard_model_state: bool: whenever to automatically shard `model_state`\n    :param auto_shard_ref_model_state: bool: whenever to automatically shard `ref_model_state`\n    :param dataset_map_arguments: Optional[dict]: arguments to be passed to train and eval datasets for\n    tokenizing process with `dataset.map`.\n    :param _do_init_fns: bool : preferred to set ture to trainer will automatically configure\n    model with provided training Arguments\n    :param : Set the padding value for the model\n    \"\"\"\n    assert arguments is not None, (\n        \"You Have to pass arguments that will be used for training but you have passed\"\n        \"`arguments=None`\"\n    )\n    assert isinstance(arguments, TrainArguments), (\n        f\"arguments type must be `TrainArguments` but got {type(arguments)}\"\n    )\n    if model_init_kwargs is None:\n        model_init_kwargs = {}\n    elif not isinstance(model_state, str):\n        raise ValueError(\"You passed model_kwargs to the DPOTrainer. But your model is already instantiated.\")\n\n    if ref_model_init_kwargs is None:\n        ref_model_init_kwargs = {}\n    elif not isinstance(ref_model_state, str):\n        raise ValueError(\n            \"You passed ref_model_kwargs to the DPOTrainer. But your ref_model is already instantiated.\"\n        )\n\n    if isinstance(model_state, str):\n        warnings.warn(\n            \"You passed a model_id to the DPOTrainer. This will automatically create an \"\n            \"`AutoEasyDeLModelForCausalLM` for you.\"\n        )\n        model_state = EasyDeLState.from_pretrained(\n            model_state,\n            **model_init_kwargs\n        )\n    if isinstance(ref_model_state, str):\n        warnings.warn(\n            \"You passed a ref model_id to the DPOTrainer. This will automatically create an \"\n            \"`AutoEasyDeLModelForCausalLM`\"\n        )\n        ref_model_state = EasyDeLState.from_pretrained(\n            ref_model_state,\n            **ref_model_init_kwargs\n        )\n\n    if loss_type in [\"hinge\", \"ipo\", \"kto_pair\"] and label_smoothing &gt; 0:\n        warnings.warn(\n            \"You are using a loss type that does not support label smoothing. Ignoring label_smoothing parameter.\"\n        )\n    self.auto_fix_data = auto_fix_data\n\n    if tokenizer is None:\n        raise ValueError(\"tokenizer must be specified to tokenize a DPO dataset.\")\n    if max_length is None:\n        warnings.warn(\n            \"`max_length` is not set in the DPOTrainer's init\"\n            \" it will default to `512` by default, but you should do it yourself in the future.\",\n            UserWarning,\n        )\n        max_length = 512\n    if max_prompt_length is None:\n        warnings.warn(\n            \"`max_prompt_length` is not set in the DPOTrainer's init\"\n            \" it will default to `128` by default, but you should do it yourself in the future.\",\n            UserWarning,\n        )\n        max_prompt_length = 128\n\n    if max_target_length is None and is_encoder_decoder:\n        warnings.warn(\n            \"When using an encoder decoder architecture, you should set `max_target_length` in the \"\n            \"DPOTrainer's init it will default to `128` by default, but you should do it yourself in the future.\",\n            UserWarning,\n        )\n        max_target_length = 128\n\n    padding_value = padding_value if padding_value is not None else tokenizer.pad_token_id\n    self.max_length = max_length\n    self.label_pad_token_id = label_pad_token_id\n    self.padding_value = padding_value\n    self.max_prompt_length = max_prompt_length\n    self.truncation_mode = arguments.truncation_mode\n\n    self.max_target_length = max_target_length\n    self.tokenizer = tokenizer\n    self.precompute_ref_log_probs = precompute_ref_log_probs\n    self.reference_free = reference_free\n    self.is_encoder_decoder = False\n    self._precomputed_train_ref_log_probs = False\n    self._precomputed_eval_ref_log_probs = False\n    self.beta = beta\n    self.label_smoothing = label_smoothing\n    self.loss_type = loss_type\n    self.low_mem_usage = low_mem_usage\n    data_collator = DPODataCollatorWithPadding(\n        max_prompt_length=self.max_prompt_length,\n        max_target_length=self.max_target_length,\n        pad_token_id=tokenizer.pad_token_id,\n        label_pad_token_id=label_pad_token_id,\n        is_encoder_decoder=False,\n    ) if data_collator is None else data_collator\n    self._stored_metrics = defaultdict(lambda: defaultdict(list))\n    if dataset_map_arguments is None:\n        dataset_map_arguments = {}\n    train_dataset = train_dataset.map(\n        self.tokenize_row,\n        **dataset_map_arguments\n    )\n    if eval_dataset is not None:\n        eval_dataset = eval_dataset.map(\n            self.tokenize_row,\n            **dataset_map_arguments\n        )\n\n    self.arguments = arguments\n    self.hp_name = None\n    self.deepspeed = None\n    self.is_in_train = False\n\n    self.data_collator = data_collator\n    self.train_dataset = train_dataset\n    self.eval_dataset = eval_dataset\n    self.tokenizer = tokenizer\n    self.ref_model_state = ref_model_state\n    self.model_state = model_state\n    self._loggers_initialized = False\n    self.mesh = self.arguments.get_mesh()\n    assert padding_value is not None, \"`padding_value` can not be set as `None` it must be an integer.\"\n\n    self.concatenated_forward = create_concatenated_forward(\n        is_encoder_decoder=self.is_encoder_decoder,\n        padding_value=padding_value,\n        label_pad_token_id=label_pad_token_id,\n    )\n    self.auto_shard_ref_model_state = auto_shard_ref_model_state\n    self.auto_shard_model_state = auto_shard_model_state\n\n    self._cached_p_l_s = None\n    self._cached_c_l_s = None\n    self._cached_r_l_s = None\n    super().__init__(\n        arguments=arguments,\n        dataset_train=train_dataset,\n        dataset_eval=eval_dataset,\n        finetune=True,\n        checkpoint_path=None,\n        _do_init_fns=_do_init_fns\n    )\n</code></pre>"},{"location":"generated-trainer-dpo-dpo_trainer/#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.__repr__","title":"<code>__repr__()</code>","text":"<p>The repr function is used to generate a string representation of an object. This function should return a string that can be parsed by the Python interpreter to recreate the object. The repr function is called when you use print() on an object, or when you type its name in the REPL.</p> <p>:param self: Refer to the instance of the class :return: A string representation of the object</p> Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code> <pre><code>def __repr__(self):\n\n    \"\"\"\n    The __repr__ function is used to generate a string representation of an object.\n    This function should return a string that can be parsed by the Python interpreter\n    to recreate the object. The __repr__ function is called when you use print() on an\n    object, or when you type its name in the REPL.\n\n    :param self: Refer to the instance of the class\n    :return: A string representation of the object\n    \"\"\"\n    string = f\"{self.__class__.__name__}(\\n\"\n    for k, v in self.__dict__.items():\n        if not k.startswith(\"_\"):\n            try:\n                repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                string += repr_src if len(repr_src) &lt; 350 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n            except TypeError:\n                repr_src = f\"\\t{k} : \" + \"EasyDeLReadingError\" + \"\\n\"\n                string += repr_src if len(repr_src) &lt; 350 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n\n    return string + \")\"\n</code></pre>"},{"location":"generated-trainer-dpo-dpo_trainer/#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.__str__","title":"<code>__str__()</code>","text":"<p>The str function is called when you use the print function or when str() is used. It should return a string representation of the object.</p> <p>:param self: Refer to the instance of the class :return: The object's string representation</p> Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code> <pre><code>def __str__(self):\n\n    \"\"\"\n    The __str__ function is called when you use the print function or when str() is used.\n    It should return a string representation of the object.\n\n    :param self: Refer to the instance of the class\n    :return: The object's string representation\n    \"\"\"\n    return self.__repr__()\n</code></pre>"},{"location":"generated-trainer-dpo-dpo_trainer/#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.build_tokenized_answer","title":"<code>build_tokenized_answer(prompt, answer)</code>","text":"<p>Llama tokenizer does satisfy <code>enc(a + b) = enc(a) + enc(b)</code>. It does ensure <code>enc(a + b) = enc(a) + enc(a + b)[len(enc(a)):]</code>.</p> Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code> <pre><code>def build_tokenized_answer(self, prompt, answer):\n    \"\"\"\n    Llama tokenizer does satisfy `enc(a + b) = enc(a) + enc(b)`.\n    It does ensure `enc(a + b) = enc(a) + enc(a + b)[len(enc(a)):]`.\n    \"\"\"\n\n    full_tokenized = self.tokenizer(prompt + answer, add_special_tokens=False)\n    prompt_input_ids = self.tokenizer(prompt, add_special_tokens=False)[\"input_ids\"]\n\n    answer_input_ids = full_tokenized[\"input_ids\"][len(prompt_input_ids):]\n    answer_attention_mask = full_tokenized[\"attention_mask\"][len(prompt_input_ids):]\n    prompt_input_ids = jnp.asarray(prompt_input_ids, dtype=\"i4\")\n    answer_input_ids = jnp.asarray(answer_input_ids, dtype=\"i4\")\n    full_concat_input_ids = jnp.concatenate(\n        (\n            prompt_input_ids,\n            answer_input_ids\n        )\n    )\n\n    # Prepare input tokens for token by token comparison\n    full_input_ids = jnp.array(full_tokenized[\"input_ids\"])\n\n    if len(full_input_ids) != len(full_concat_input_ids):\n        raise ValueError(\"Prompt input ids and answer input ids should have the same length.\")\n\n    response_token_ids_start_idx = len(prompt_input_ids)\n    if prompt_input_ids.tolist() != full_tokenized[\"input_ids\"][:response_token_ids_start_idx]:\n        response_token_ids_start_idx -= 1\n\n    prompt_input_ids = full_tokenized[\"input_ids\"][:response_token_ids_start_idx]\n    prompt_attention_mask = full_tokenized[\"attention_mask\"][:response_token_ids_start_idx]\n\n    if len(prompt_input_ids) != len(prompt_attention_mask):\n        raise ValueError(\"Prompt input ids and attention mask should have the same length.\")\n\n    answer_input_ids = full_tokenized[\"input_ids\"][response_token_ids_start_idx:]\n    answer_attention_mask = full_tokenized[\"attention_mask\"][response_token_ids_start_idx:]\n\n    return dict(\n        prompt_input_ids=jnp.array(prompt_input_ids, dtype=\"i4\"),\n        prompt_attention_mask=jnp.array(prompt_attention_mask, dtype=\"i4\"),\n        input_ids=jnp.array(answer_input_ids, dtype=\"i4\"),\n        attention_mask=jnp.array(answer_attention_mask, dtype=\"i4\"),\n    )\n</code></pre>"},{"location":"generated-trainer-dpo-dpo_trainer/#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.compute_reference_log_probs","title":"<code>compute_reference_log_probs(state, padded_batch)</code>","text":"<p>Computes log probabilities of the reference model for a single padded batch of a DPO specific dataset.</p> Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code> <pre><code>def compute_reference_log_probs(\n        self,\n        state: EasyDeLState,\n        padded_batch: Dict,\n) -&gt; tuple[Any, Any]:\n    \"\"\"\n    Computes log probabilities of the reference model for a single padded batch of a DPO specific dataset.\n    \"\"\"\n\n    if self.ref_model_state is None:\n        (\n            reference_chosen_log_probs,\n            reference_rejected_log_probs,\n            _,\n            _,\n        ) = self.concatenated_forward(\n            apply_fn=state.apply_fn,\n            params=state.params,\n            batch=padded_batch,\n        )\n    else:\n        (\n            reference_chosen_log_probs,\n            reference_rejected_log_probs,\n            _,\n            _,\n        ) = self.concatenated_forward(\n            apply_fn=self.ref_model_state.apply_fn,\n            params=self.ref_model_state.params,\n            batch=padded_batch,\n        )\n\n    return reference_chosen_log_probs, reference_rejected_log_probs\n</code></pre>"},{"location":"generated-trainer-dpo-dpo_trainer/#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.eval","title":"<code>eval(model_state)</code>","text":"<p>Evaluate the Given Model State and yield the eval metrics</p> Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code> <pre><code>def eval(self, model_state: EasyDeLState) -&gt; typing.Iterator[dict]:\n    \"\"\"Evaluate the Given Model State and yield the eval metrics\"\"\"\n    assert self.eval_dataset is not None, \"`dataloader_eval` is required by evaluator function.\"\n    with self.mesh:\n        pbar = tqdm(total=self.max_evaluation_steps)\n        pbar.set_description(\"Evaluating\")\n        current_step = 0\n        loss_sum = None\n        chosen_rewards_sum = None\n        rejected_rewards_sum = None\n\n        try:\n            for batch in self.dataloader_eval:\n                current_step += 1\n                time_start = time.time()\n                for key in self.arguments.ids_to_pop_from_dataset:\n                    _ = batch.pop(key, None)\n                for key in list(batch.keys()):\n                    if not (\n                            key.endswith(\"_input_ids\")\n                            or key.endswith(\"_attention_mask\")\n                            or key.endswith(\"_labels\")\n                    ):\n                        _ = batch.pop(key, None)\n\n                metrics = self.sharded_eval_step_function(\n                    model_state,\n                    batch\n                )\n                total_time = time.time() - time_start\n                (\n                    loss, chosen_rewards, rejected_rewards\n                ) = metrics.loss, metrics.chosen_rewards[0], metrics.rejected_rewards[0]\n\n                loss_sum = loss.tolist() if loss_sum is None else loss_sum + loss\n                rejected_rewards_sum = (\n                    rejected_rewards.tolist() if (\n                            rejected_rewards_sum is None\n                    ) else rejected_rewards_sum + rejected_rewards\n                )\n                chosen_rewards_sum = (\n                    chosen_rewards.tolist() if (\n                            chosen_rewards_sum is None\n                    ) else chosen_rewards_sum + chosen_rewards\n                )\n\n                eval_metrics = {\n                    \"eval/loss\": loss.tolist(),\n                    \"eval/mean_loss\": loss_sum / (current_step - self.arguments.step_start_point),\n                    \"eval/mean_rejected_rewards\": rejected_rewards_sum / (\n                            current_step - self.arguments.step_start_point\n                    ),\n                    \"eval/mean_chosen_rewards\": chosen_rewards_sum / (\n                            current_step - self.arguments.step_start_point\n                    ),\n                    \"eval/step\": current_step,\n                    \"eval/step_time\": total_time,\n                    \"eval/perplexity\": jnp.exp(loss).tolist(),\n                }\n                log_metrics = copy.deepcopy(eval_metrics)\n                eval_metrics.update(self.arguments.captured_memory)\n                if self.arguments.use_wandb:\n                    with jax.spmd_mode(\"allow_all\"):\n                        self.wandb_runtime.log(\n                            eval_metrics\n                        )\n\n                pbar.update(1)\n                pbar.set_postfix(**{k.replace(\"eval/\", \"\"): v for k, v in log_metrics.items()})\n                yield eval_metrics\n        except KeyboardInterrupt:\n            termcolor.cprint(\n                \"KeyboardInterrupt At Evaluation model Will return Nothing and just pass.\",\n                color=\"cyan\",\n                force_color=True\n            )\n</code></pre>"},{"location":"generated-trainer-dpo-dpo_trainer/#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.get_eval_dataloader","title":"<code>get_eval_dataloader(eval_dataset=None)</code>","text":"<p>Returns the evaluation [<code>~tensorflow.data.Dataset</code>].</p> Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code> <pre><code>def get_eval_dataloader(self, eval_dataset: Optional[Dataset] = None) -&gt; tensorflow.data.Dataset:\n    \"\"\"\n    Returns the evaluation [`~tensorflow.data.Dataset`].\n    \"\"\"\n    if eval_dataset is None and self.eval_dataset is None:\n        raise ValueError(\"Trainer: evaluation requires an eval_dataset.\")\n    eval_dataset = eval_dataset if eval_dataset is not None else self.eval_dataset\n\n    if self.precompute_ref_log_probs and not self._precomputed_eval_ref_log_probs:\n\n        # prepare dataloader\n        data_loader = tensorflow_datasets.as_numpy(\n            eval_dataset.to_tf_dataset(\n                batch_size=self.arguments.total_batch_size,\n                collate_fn=self.data_collator,\n                num_workers=self.arguments.dataloader_num_workers,\n                shuffle=False,\n                drop_remainder=True\n            )\n        )\n\n        reference_chosen_log_probs = []\n        reference_rejected_log_probs = []\n        for padded_batch in tqdm(iterable=data_loader, desc=\"Eval dataset reference log probs\"):\n            reference_chosen_logp, reference_rejected_logp = self.compute_reference_log_probs(\n                self.model_state,\n                padded_batch\n            )\n            reference_chosen_log_probs.append(reference_chosen_logp.cpu())\n            reference_rejected_log_probs.append(reference_rejected_logp.cpu())\n\n        all_reference_chosen_log_probs = jnp.concatenate(reference_chosen_log_probs)\n        all_reference_rejected_log_probs = jnp.concatenate(reference_rejected_log_probs)\n\n        eval_dataset = eval_dataset.add_column(name=\"reference_chosen_log_probs\",\n                                               column=all_reference_chosen_log_probs)\n        eval_dataset = eval_dataset.add_column(\n            name=\"reference_rejected_log_probs\", column=all_reference_rejected_log_probs\n        )\n\n        if self.eval_dataset is not None:\n            self.eval_dataset = eval_dataset\n        self._precomputed_eval_ref_log_probs = True\n\n    return self._get_eval_dataloader(eval_dataset=eval_dataset)\n</code></pre>"},{"location":"generated-trainer-dpo-dpo_trainer/#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.get_train_dataloader","title":"<code>get_train_dataloader()</code>","text":"<p>Returns the training [<code>~tensorflow.data.Dataset</code>].</p> Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code> <pre><code>def get_train_dataloader(\n        self,\n) -&gt; tensorflow.data.Dataset:\n    \"\"\"\n    Returns the training [`~tensorflow.data.Dataset`].\n    \"\"\"\n\n    if self.precompute_ref_log_probs and not self._precomputed_train_ref_log_probs:\n\n        data_loader = tensorflow_datasets.as_numpy(\n            self.train_dataset.to_tf_dataset(\n                batch_size=self.arguments.total_batch_size,\n                collate_fn=self.data_collator,\n                num_workers=self.arguments.dataloader_num_workers,\n                shuffle=False,\n                drop_remainder=True\n            )\n        )\n        reference_chosen_log_probs = []\n        reference_rejected_log_probs = []\n        for padded_batch in tqdm(iterable=data_loader, desc=\"Train dataset reference log probs\"):\n            reference_chosen_logp, reference_rejected_logp = self.compute_reference_log_probs(\n                self.model_state,\n                padded_batch,\n            )\n            reference_chosen_log_probs.append(reference_chosen_logp)\n            reference_rejected_log_probs.append(reference_rejected_logp)\n\n        all_reference_chosen_log_probs = jnp.concatenate(reference_chosen_log_probs)\n        all_reference_rejected_log_probs = jnp.concatenate(reference_rejected_log_probs)\n        self.train_dataset = self.train_dataset.add_column(\n            name=\"reference_chosen_log_probs\", column=all_reference_chosen_log_probs\n        )\n        self.train_dataset = self.train_dataset.add_column(\n            name=\"reference_rejected_log_probs\", column=all_reference_rejected_log_probs\n        )\n\n        self._precomputed_train_ref_log_probs = True\n    return self._get_train_dataloader()\n</code></pre>"},{"location":"generated-trainer-dpo-dpo_trainer/#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.initialize_trainer_utils","title":"<code>initialize_trainer_utils()</code>","text":"The initialize_trainer_utils function is responsible for initializing the following <ul> <li>wandb_runtime (if you use_wandb is True)</li> <li>timer object (for logging time taken by various functions)</li> <li>dataloader objects for training and evaluation data, along with max steps per epoch.   The configure_dataloader function accomplishes this task.</li> </ul> <p>:param self: Represent the instance of the class :return: A tuple of functions</p> Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code> <pre><code>def initialize_trainer_utils(self):\n    \"\"\"\n    The initialize_trainer_utils function is responsible for initializing the following:\n        - wandb_runtime (if you use_wandb is True)\n        - timer object (for logging time taken by various functions)\n        - dataloader objects for training and evaluation data, along with max steps per epoch.\n          The configure_dataloader function accomplishes this task.\n\n    :param self: Represent the instance of the class\n    :return: A tuple of functions\n\n    \"\"\"\n    self.wandb_runtime = self.arguments.get_wandb_init() if self.arguments.use_wandb else None\n    self.timer = Timers(\n        use_wandb=False,\n        tensorboard_writer=self.arguments.get_board()\n    )\n\n    self.timer(\"configure dataloaders\").start()\n    dataset_configurations = self.configure_dataloader()\n    self.dataloader_train = dataset_configurations.dataloader_train\n    self.max_training_steps = dataset_configurations.max_training_steps\n    self.dataloader_eval = dataset_configurations.dataloader_eval\n    self.max_evaluation_steps = dataset_configurations.max_evaluation_steps\n\n    self.timer(\"configure dataloaders\").stop()\n\n    self.timer.log([\"configure dataloaders\"])\n\n    self.timer(\"configure Model, Optimizer, Scheduler and Config\").start()\n    model_configurations = self.configure_model()\n    model = model_configurations.model\n    tx = model_configurations.tx\n    scheduler = model_configurations.scheduler\n    config = model_configurations.config\n    self.model = model\n    self.tx = tx\n    self.scheduler = scheduler\n    self.config = config\n    if self.rapture is not None:\n        lora_modules = self.rapture.apply_lora(\n            module=model,\n            parameters=self.arguments.rapture_config.parameters,\n            tx=tx,\n        )\n        self.lora_parameters = lora_modules.lora_parameters\n        self.lora_apply_fn = lora_modules.lora_module.__call__\n        self.lora_opt_state = lora_modules.lora_opt_state\n        self.lora_model = lora_modules.lora_module\n        self.lora_tx = lora_modules.lora_tx\n\n    self.timer(\"configure Model, Optimizer, Scheduler and Config\").stop()\n    self.timer.log([\"configure Model, Optimizer, Scheduler and Config\"])\n\n    self.timer(\"configure functions and sharding them\").start()\n\n    if self.auto_shard_model_state:\n        self.timer(\"Sharding Model State\").start()\n        self.model_state: EasyDeLState = self.shard_states(\n            self.model_state,\n            self.model_state.module.config.get_partition_rules(self.arguments.fully_sharded_data_parallel)\n        )\n\n        termcolor.cprint(\"initializing TX and Schedulers for `model_state`\", force_color=True, color=\"cyan\")\n\n        params_with_opt = (\n            self.model_state.params[\n                'params'\n            ] if '_overwrite_with_gradient' in self.model_state.params else self.model_state.params\n        )\n        opt_state = self.tx.init(params_with_opt)\n\n        self.model_state = self.model_state.replace(\n            opt_state=opt_state,\n            tx=self.tx\n        )\n\n        self.timer(\"Sharding Model State\").stop()\n        self.timer.log([\"Sharding Model State\"])\n    if self.auto_shard_ref_model_state and self.ref_model_state is not None:\n        self.timer(\"Sharding Ref Model State\").start()\n        self.ref_model_state = self.shard_states(\n            self.ref_model_state,\n            self.ref_model_state.module.config.get_partition_rules(self.arguments.fully_sharded_data_parallel)\n        )\n        self.timer(\"Sharding Ref Model State\").stop()\n        self.timer.log([\"Sharding Ref Model State\"])\n\n    function_configurations = self.configure_functions()\n    self.create_sharded_state_from_params_function = (\n        function_configurations.create_sharded_state_from_params_function\n    )\n    self.sharded_train_step_function = function_configurations.sharded_train_step_function\n    self.sharded_eval_step_function = function_configurations.sharded_eval_step_function\n    self.mesh = function_configurations.mesh\n    self.checkpoint_manager = function_configurations.checkpoint_manager\n    self.initialize_state_function = function_configurations.initialize_state_function\n    self.timer(\"configure functions and sharding them\").stop()\n    self.timer.log([\"configure functions and sharding them\"])\n</code></pre>"},{"location":"generated-trainer-dpo-dpo_trainer/#src.python.easydel.trainer.dpo.dpo_trainer.DPOTrainer.tokenize_row","title":"<code>tokenize_row(feature, state=None)</code>","text":"<p>The tokenize_row function is responsible for taking a single row of data and converting it into the format that the model expects. This includes: - Tokenizing the text (using HuggingFace's tokenizer) - Padding/truncating sequences to a fixed length (if necessary) - Creating attention masks, which tell the model which tokens are padding and which aren't.</p> <p>:param self: Represent the instance of the class :param feature: Pass in the data from the dataset :param state: EasyDeLState: Keep track of the state of the tokenizer :return: A dictionary of the following keys</p> Source code in <code>src/python/easydel/trainer/dpo/dpo_trainer.py</code> <pre><code>def tokenize_row(self, feature, state: EasyDeLState = None) -&gt; Dict:\n\n    \"\"\"\n    The tokenize_row function is responsible for taking a single row of data and converting it into the format that\n    the model expects. This includes:\n    - Tokenizing the text (using HuggingFace's tokenizer)\n    - Padding/truncating sequences to a fixed length (if necessary)\n    - Creating attention masks, which tell the model which tokens are padding and which aren't.\n\n    :param self: Represent the instance of the class\n    :param feature: Pass in the data from the dataset\n    :param state: EasyDeLState: Keep track of the state of the tokenizer\n    :return: A dictionary of the following keys\n    \"\"\"\n    batch = {}\n    prompt = feature[\"prompt\"]\n    chosen = feature[\"chosen\"]\n    rejected = feature[\"rejected\"]\n\n    if not isinstance(prompt, str):\n        raise ValueError(f\"prompt should be an str but got {type(prompt)} , {prompt}\")\n    prompt_tokens = self.tokenizer(\n        prompt,\n        add_special_tokens=False,\n        return_tensors=\"np\",\n    )\n    prompt_tokens = {f\"prompt_{k}\": v for k, v in prompt_tokens.items()}\n\n    if not isinstance(chosen, str):\n        raise ValueError(f\"chosen should be an str but got {type(chosen)} , {chosen}\")\n    chosen_tokens = self.build_tokenized_answer(prompt, chosen)\n\n    if not isinstance(rejected, str):\n        raise ValueError(f\"rejected should be an str but got {type(rejected)}\")\n    rejected_tokens = self.build_tokenized_answer(prompt, rejected)\n    v2d = lambda ar: ar.reshape(1, -1) if ar.ndim == 1 else ar\n\n    def add_tkn(n, ar):\n        return jnp.concatenate(\n            (\n                jnp.array(n).reshape(1, 1),\n                v2d(ar)\n            ), axis=-1\n        )\n\n    def add_post_tkn(n, ar):\n        return jnp.concatenate(\n            (\n                v2d(ar),\n                jnp.array(n).reshape(1, 1)\n            ), axis=-1\n        )\n\n    prompt_tokens[\"prompt_input_ids\"] = add_tkn(\n        self.tokenizer.bos_token_id,\n        prompt_tokens[\"prompt_input_ids\"]\n    )\n    chosen_tokens[\"prompt_input_ids\"] = add_tkn(\n        self.tokenizer.bos_token_id,\n        chosen_tokens[\"prompt_input_ids\"]\n    )\n    rejected_tokens[\"prompt_input_ids\"] = add_tkn(\n        self.tokenizer.bos_token_id,\n        rejected_tokens[\"prompt_input_ids\"]\n    )\n\n    prompt_tokens[\"prompt_attention_mask\"] = add_tkn(\n        1, prompt_tokens[\"prompt_attention_mask\"]\n    )\n    chosen_tokens[\"prompt_attention_mask\"] = add_tkn(\n        1, chosen_tokens[\"prompt_attention_mask\"]\n    )\n    rejected_tokens[\"prompt_attention_mask\"] = add_tkn(\n        1, rejected_tokens[\"prompt_attention_mask\"]\n    )\n\n    # add EOS token to end of answer\n    chosen_tokens[\"input_ids\"] = add_post_tkn(self.tokenizer.eos_token_id, chosen_tokens[\"input_ids\"])\n    chosen_tokens[\"attention_mask\"] = add_post_tkn(1, chosen_tokens[\"attention_mask\"])\n\n    rejected_tokens[\"input_ids\"] = add_post_tkn(self.tokenizer.eos_token_id, rejected_tokens[\"input_ids\"])\n    rejected_tokens[\"attention_mask\"] = add_post_tkn(1, rejected_tokens[\"attention_mask\"])\n\n    longer_response_length = max(chosen_tokens[\"input_ids\"].shape[-1], rejected_tokens[\"input_ids\"].shape[-1])\n\n    # if combined sequence is too long, truncate the prompt\n    for answer_tokens in [chosen_tokens, rejected_tokens, prompt_tokens]:\n        length_rn = answer_tokens[\"prompt_input_ids\"].shape[-1] + longer_response_length\n        if length_rn &gt; self.max_length:\n\n            if self.truncation_mode == \"keep_start\":\n                for k in [\"prompt_input_ids\", \"prompt_attention_mask\"]:\n                    answer_tokens[k] = answer_tokens[k][:, : self.max_prompt_length]\n            elif self.truncation_mode == \"keep_end\":\n                for k in [\"prompt_input_ids\", \"prompt_attention_mask\"]:\n                    answer_tokens[k] = answer_tokens[k][:, -self.max_prompt_length:]\n            else:\n                raise ValueError(f\"Unknown truncation mode: {self.truncation_mode}\")\n    # if that's still too long, truncate the response\n    for answer_tokens in [chosen_tokens, rejected_tokens]:\n        if answer_tokens[\"prompt_input_ids\"].shape[-1] + longer_response_length &gt; self.max_length:\n            for k in [\"input_ids\", \"attention_mask\"]:\n                answer_tokens[k] = answer_tokens[k][:, : self.max_length - self.max_prompt_length]\n\n    chosen_sequence_tokens = {\n        k: jnp.concatenate(\n            (v2d(chosen_tokens[f\"prompt_{k}\"]), v2d(chosen_tokens[k])),\n            axis=-1\n        ) for k in [\"input_ids\", \"attention_mask\"]\n    }\n    rejected_sequence_tokens = {\n        k: jnp.concatenate(\n            (v2d(rejected_tokens[f\"prompt_{k}\"]), v2d(rejected_tokens[k])),\n            axis=-1\n        ) for k in [\"input_ids\", \"attention_mask\"]\n    }\n    chosen_sequence_tokens[\"labels\"] = chosen_sequence_tokens[\"input_ids\"][:]\n    chosen_sequence_tokens[\"labels\"] = chosen_sequence_tokens[\"labels\"].at[\n                                       : len(chosen_tokens[\"prompt_input_ids\"])\n                                       ].set([self.label_pad_token_id] * len(chosen_tokens[\"prompt_input_ids\"]))\n    rejected_sequence_tokens[\"labels\"] = rejected_sequence_tokens[\"input_ids\"][:]\n    rejected_sequence_tokens[\"labels\"] = rejected_sequence_tokens[\"labels\"].at[\n                                         : len(rejected_tokens[\"prompt_input_ids\"])\n                                         ].set(\n        ([self.label_pad_token_id] * len(rejected_tokens[\"prompt_input_ids\"]))\n    )\n\n    for k, tokens_ in {\n        \"chosen_\": chosen_sequence_tokens,\n        \"rejected_\": rejected_sequence_tokens,\n        \"\": prompt_tokens,\n    }.items():\n        for type_key, tokens in tokens_.items():\n            if type_key == \"token_type_ids\":\n                continue\n\n            b, s = tokens.shape\n\n            if self.max_prompt_length &gt; s:\n                if k == \"chosen_\":\n                    if type_key == \"input_ids\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_target_length,\n                            pad_value=self.padding_value,\n                            axis=-1\n                        )\n                    elif type_key == \"attention_mask\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_target_length,\n                            pad_value=0,\n                            axis=-1\n                        )\n                    elif type_key == \"labels\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_target_length,\n                            pad_value=self.padding_value,\n                            axis=-1\n                        )\n\n                    tokens = tokens[..., :self.max_target_length]\n\n                    if tokens.shape[-1] != self.max_target_length:\n                        raise ValueError(\n                            f\"there was an error in padding token with `type_key` of {type_key}\"\n                            f\". it must have sequence_length of {self.max_target_length} but we got {tokens.shape[-1]}\"\n                            f\" From {k}{type_key}\"\n                        )\n                    tokens = tokens[..., :self.max_target_length]\n                elif k == \"rejected_\":\n                    if type_key == \"input_ids\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_target_length,\n                            pad_value=self.padding_value,\n                            axis=-1\n                        )\n                    elif type_key == \"attention_mask\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_target_length,\n                            pad_value=0,\n                            axis=-1\n                        )\n                    elif type_key == \"labels\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_target_length,\n                            pad_value=self.padding_value,\n                            axis=-1\n                        )\n                    tokens = tokens[..., :self.max_target_length]\n                    if tokens.shape[-1] != self.max_target_length:\n                        raise ValueError(\n                            f\"there was an error in padding token with `type_key` of {type_key}\"\n                            f\". it must have sequence_length of {self.max_target_length} but we got {tokens.shape[-1]}\"\n                            f\" From {k}{type_key}\"\n                        )\n                elif k == \"\":\n                    if type_key == \"prompt_input_ids\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_prompt_length,\n                            pad_value=self.padding_value,\n                            axis=-1\n                        )\n                    elif type_key == \"prompt_attention_mask\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_prompt_length,\n                            pad_value=0,\n                            axis=-1\n                        )\n                    elif type_key == \"prompt_labels\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_prompt_length,\n                            pad_value=self.padding_value,\n                            axis=-1\n                        )\n                    tokens = tokens[..., :self.max_prompt_length]\n                    if tokens.shape[-1] != self.max_prompt_length:\n                        raise ValueError(\n                            f\"there was an error in padding token with `type_key` of {type_key}\"\n                            f\". it must have sequence_length of {self.max_prompt_length} but we got {tokens.shape[-1]}\"\n                            f\" From {k}{type_key}\"\n                        )\n            batch[f\"{k}{type_key}\"] = tokens\n    return batch\n</code></pre>"},{"location":"generated-trainer-dpo-fwd_bwd_functions/","title":"trainer.dpo.fwd_bwd_functions","text":""},{"location":"generated-trainer-dpo-fwd_bwd_functions/#src.python.easydel.trainer.dpo.fwd_bwd_functions.concatenated_inputs","title":"<code>concatenated_inputs(batch, is_encoder_decoder=False, label_pad_token_id=-100, padding_value=0, truncation_mode='keep_end', fixed_max_length=None)</code>","text":"<p>The concatenated_inputs function takes a batch of chosen and rejected examples, and concatenates them together. This is useful for training the model to predict whether an example was chosen by the human annotator. The function also pads all inputs to the same length as the longest input in that batch.</p> <p>Parameters:</p> Name Type Description Default <code>batch</code> <code>Dict[str, Union[List, Array]]</code> <p>Dict[str,Union[List,chex.Array]]: Pass the batch of data into the function,</p> required <code>is_encoder_decoder</code> <code>bool</code> <p>bool: Determine whether the model is an encoder-decoder model</p> <code>False</code> <code>label_pad_token_id</code> <code>int</code> <p>int: Pad the labels with a value of -100</p> <code>-100</code> <code>padding_value</code> <code>int</code> <p>int: Pad the input_ids and attention_mask arrays to the same length</p> <code>0</code> <code>truncation_mode</code> <code>Literal['keep_end', 'keep_start']</code> <p>typing.Literal[\"keep_end\", \"keep_start\"]: is left padded or not should it keep start of the</p> <code>'keep_end'</code> <code>fixed_max_length</code> <code>int | None</code> <p>int|None: by providing fixed_max_length the func will always return a fixed sequence length and won't use dynamic methods.</p> <code>None</code> <p>Allow for the batch to be a list of arrays or just an array, Specify the type of data that is being passed in</p> <p>array or the end of the array?.</p> <p>Returns:</p> Type Description <code>Dict[str, Array]</code> <p>A dictionary of the concatenated inputs</p> Source code in <code>src/python/easydel/trainer/dpo/fwd_bwd_functions.py</code> <pre><code>def concatenated_inputs(\n        batch: Dict[str, Union[List, chex.Array]],\n        is_encoder_decoder: bool = False,\n        label_pad_token_id: int = -100,\n        padding_value: int = 0,\n        truncation_mode: typing.Literal[\"keep_end\", \"keep_start\"] = \"keep_end\",\n        fixed_max_length: int | None = None\n) -&gt; Dict[str, chex.Array]:\n    \"\"\"The concatenated_inputs function takes a batch of chosen and rejected examples,\n    and concatenates them together. This is useful for training the model to predict whether an example was chosen\n    by the human annotator. The function also pads all inputs to\n    the same length as the longest input in that batch.\n\n    Args:\n        batch: Dict[str,Union[List,chex.Array]]: Pass the batch of data\n            into the function,\n        is_encoder_decoder: bool: Determine whether the model is an\n            encoder-decoder model\n        label_pad_token_id: int: Pad the labels with a value of -100\n        padding_value: int: Pad the input_ids and attention_mask arrays\n            to the same length\n        truncation_mode: typing.Literal[\"keep_end\", \"keep_start\"]: is\n            left padded or not should it keep start of the\n        fixed_max_length: int|None: by providing fixed_max_length the\n            func will always return a fixed sequence length and won't\n            use dynamic methods.\n    Allow for the batch to be a list of arrays or just an array,\n    Specify the type of data that is being passed in\n\n    array or the end of the array?.\n\n    Returns:\n        A dictionary of the concatenated inputs\n    \"\"\"\n    concatenated_batch = {}\n    if fixed_max_length is None:\n        if is_encoder_decoder:\n            max_length = max(batch[\"chosen_labels\"].shape[-1], batch[\"rejected_labels\"].shape[-1])\n        else:\n            max_length = max(batch[\"chosen_input_ids\"].shape[-1], batch[\"rejected_input_ids\"].shape[-1])\n    else:\n        max_length = fixed_max_length\n    for k in batch:\n        if k.startswith(\"chosen\") and isinstance(batch[k], jax.Array):\n            if \"labels\" in k or is_encoder_decoder:\n                pad_value = label_pad_token_id\n            elif k.endswith(\"_input_ids\"):\n                pad_value = padding_value\n            elif k.endswith(\"_attention_mask\"):\n                pad_value = 0\n            else:\n                raise KeyError(\"couldn't find pad_value [Dataset Issue]\")\n            concatenated_key = k.replace(\"chosen\", \"concatenated\")\n            concatenated_batch[concatenated_key] = pad_to_length(batch[k], max_length, pad_value=pad_value)\n    for k in batch:\n        if k.startswith(\"rejected\") and isinstance(batch[k], jax.Array):\n            if \"labels\" in k or is_encoder_decoder:\n                pad_value = label_pad_token_id\n            elif k.endswith(\"_input_ids\"):\n                assert padding_value is not None, \"`padding_value` can not be set as `None`\"\n                pad_value = padding_value\n            elif k.endswith(\"_attention_mask\"):\n                pad_value = 0\n            else:\n                raise KeyError(\"couldn't find pad_value [Dataset Issue]\")\n            concatenated_key = k.replace(\"rejected\", \"concatenated\")\n            v2d = lambda ar: ar.reshape(ar.shape[0], -1)\n            concatenated_batch[concatenated_key] = jnp.concatenate(\n                (\n                    v2d(concatenated_batch[concatenated_key]),\n                    pad_to_length(v2d(batch[k]), max_length, pad_value=pad_value),\n                ),\n                axis=0,\n            )\n    for k in list(concatenated_batch.keys()):\n        val = concatenated_batch[k]\n        if val.ndim == 3:\n            # making 3d array 2d\n            concatenated_batch[k] = val.reshape(val.shape[0], -1)\n    if is_encoder_decoder:\n        concatenated_batch[\"concatenated_input_ids\"] = batch[\"prompt_input_ids\"].repeat(2, 1)\n        concatenated_batch[\"concatenated_attention_mask\"] = (\n            batch[\"prompt_attention_mask\"].repeat(2, 1)\n        )\n\n    return concatenated_batch\n</code></pre>"},{"location":"generated-trainer-dpo-fwd_bwd_functions/#src.python.easydel.trainer.dpo.fwd_bwd_functions.create_concatenated_forward","title":"<code>create_concatenated_forward(is_encoder_decoder, label_pad_token_id, padding_value, truncation_mode='keep_end', fixed_max_length=None)</code>","text":"<p>The create_concatenated_forward function is a helper function that creates a forward pass function for the model. The forward pass function takes in an apply_fn, which is the model's apply_fn, and runs it on concatenated inputs. It returns chosen log probs, rejected log probs, chosen logits and rejected logits.</p> <p>Parameters:</p> Name Type Description Default <code>is_encoder_decoder</code> <p>Determine whether the model is an encoder- decoder model or not</p> required <code>label_pad_token_id</code> <p>Pad the labels to the same length</p> required <code>padding_value</code> <p>Pad the inputs to the same length</p> required <code>truncation_mode</code> <code>Literal['keep_end', 'keep_start']</code> <p>typing.Literal[\"keep_end\",\"keep_start\"]: where to pad and where to keep.</p> <code>'keep_end'</code> <code>fixed_max_length</code> <code>int | None</code> <p>int|None: by providing fixed_max_length the func will always return a fixed sequence length</p> <code>None</code> <p>and won't use dynamic methods.</p> <p>Returns:</p> Type Description <p>A function that takes in a apply_fn, params and a batch of</p> <p>inputs,</p> Source code in <code>src/python/easydel/trainer/dpo/fwd_bwd_functions.py</code> <pre><code>def create_concatenated_forward(\n        is_encoder_decoder,\n        label_pad_token_id,\n        padding_value,\n        truncation_mode: typing.Literal[\"keep_end\", \"keep_start\"] = \"keep_end\",\n        fixed_max_length: int | None = None\n):\n    \"\"\"The create_concatenated_forward function is a helper function that creates a forward pass function for the\n    model. The forward pass function takes in an apply_fn, which is the model's apply_fn, and runs it on concatenated\n    inputs. It returns chosen log probs, rejected log probs, chosen logits and rejected logits.\n\n    Args:\n        is_encoder_decoder: Determine whether the model is an encoder-\n            decoder model or not\n        label_pad_token_id: Pad the labels to the same length\n        padding_value: Pad the inputs to the same length\n        truncation_mode: typing.Literal[\"keep_end\",\"keep_start\"]: where\n            to pad and where to keep.\n        fixed_max_length: int|None: by providing fixed_max_length the\n            func will always return a fixed sequence length\n    and won't use dynamic methods.\n\n    Returns:\n        A function that takes in a apply_fn, params and a batch of\n        inputs,\n    \"\"\"\n\n    def concatenated_forward(\n            apply_fn: Callable,\n            params: dict | flax.core.FrozenDict,\n            batch: Dict[str, Union[List, chex.Array]]\n\n    ) -&gt; Tuple[chex.Array, chex.Array, chex.Array, chex.Array]:\n        \"\"\"The concatenated_forward function is used to compute the log-probabilities of both chosen and rejected labels.\n\n        Args:\n            apply_fn: Callable: Pass in the model function\n            params: dict | flax.core.FrozenDict: Pass the model\n                parameters to the function\n            batch: Dict[str, Union[List, chex.Array]] : Pass the batch\n                of data to the concatenated_forward function\n\n        Returns:\n            The log_probs of the chosen and rejected labels, as well as\n            their corresponding logits\n        \"\"\"\n        assert padding_value is not None, \"`padding_value` can not be set as `None` it must be an integer.\"\n        concatenated_batch = concatenated_inputs(\n            batch,\n            is_encoder_decoder=is_encoder_decoder,\n            label_pad_token_id=label_pad_token_id,\n            padding_value=padding_value,\n            truncation_mode=truncation_mode,\n            fixed_max_length=fixed_max_length\n        )\n        len_chosen = batch[\"chosen_labels\"].shape[0]\n        concatenated_batch[\"concatenated_input_ids\"] = concatenated_batch[\"concatenated_input_ids\"].reshape(\n            concatenated_batch[\"concatenated_input_ids\"].shape[0], -1\n        )\n        concatenated_batch[\"concatenated_labels\"] = concatenated_batch[\"concatenated_labels\"].reshape(\n            concatenated_batch[\"concatenated_labels\"].shape[0], -1\n        )\n        concatenated_batch[\"concatenated_attention_mask\"] = concatenated_batch[\"concatenated_attention_mask\"].reshape(\n            concatenated_batch[\"concatenated_attention_mask\"].shape[0], -1\n        )\n        model_kwargs = (\n            {\n                \"labels\": concatenated_batch[\"concatenated_labels\"],\n                \"decoder_input_ids\": concatenated_batch.pop(\"concatenated_decoder_input_ids\", None),\n            }\n            if is_encoder_decoder\n            else {}\n        )\n        all_logits = apply_fn(\n            concatenated_batch[\"concatenated_input_ids\"],\n            attention_mask=concatenated_batch[\"concatenated_attention_mask\"],\n            params=params,\n            **model_kwargs,\n        ).logits\n\n        all_log_probs = get_batch_log_probs(\n            all_logits,\n            concatenated_batch[\"concatenated_labels\"],\n            average_log_prob=False,\n            is_encoder_decoder=is_encoder_decoder,\n            label_pad_token_id=label_pad_token_id,\n        )\n\n        chosen_log_probs = all_log_probs[:len_chosen]\n        rejected_log_probs = all_log_probs[len_chosen:]\n\n        chosen_logits = all_logits[:len_chosen]\n        rejected_logits = all_logits[len_chosen:]\n\n        return chosen_log_probs, rejected_log_probs, chosen_logits, rejected_logits\n\n    return concatenated_forward\n</code></pre>"},{"location":"generated-trainer-dpo-fwd_bwd_functions/#src.python.easydel.trainer.dpo.fwd_bwd_functions.create_dpo_eval_function","title":"<code>create_dpo_eval_function(concatenated_forward, ref_state=None, beta=0.1, label_smoothing=0, loss_type='sigmoid', reference_free=False)</code>","text":"<p>The create_dpo_eval_function function is a helper function that creates the DPO evaluating step.</p> <p>Parameters:</p> Name Type Description Default <code>concatenated_forward</code> <code>Callable</code> <p>Callable: Define the forward pass of the model</p> required <code>ref_state</code> <code>EasyDeLState</code> <p>EasyDeLState: Specify the reference policy</p> <code>None</code> <code>beta</code> <code>float</code> <p>float: Scale the logits</p> <code>0.1</code> <code>label_smoothing</code> <code>float</code> <p>float: Smooth the labels</p> <code>0</code> <code>loss_type</code> <code>Literal['sigmoid', 'hinge', 'ipo', 'kto']</code> <p>Literal[\"sigmoid\", \"hinge\", \"ipo\", \"kto\"]: Determine the loss function</p> <code>'sigmoid'</code> <code>reference_free</code> <code>bool</code> <p>bool: Indicate whether the reference policy is used or not</p> <code>False</code> <p>Returns:</p> Type Description <p>A function that takes in a state and a batch</p> Source code in <code>src/python/easydel/trainer/dpo/fwd_bwd_functions.py</code> <pre><code>def create_dpo_eval_function(\n        concatenated_forward: Callable,\n        ref_state: EasyDeLState = None,\n        beta: float = 0.1,\n        label_smoothing: float = 0,\n        loss_type: Literal[\"sigmoid\", \"hinge\", \"ipo\", \"kto\"] = \"sigmoid\",\n        reference_free: bool = False,\n):\n    \"\"\"The create_dpo_eval_function function is a helper function that creates the DPO evaluating step.\n\n    Args:\n        concatenated_forward: Callable: Define the forward pass of the\n            model\n        ref_state: EasyDeLState: Specify the reference policy\n        beta: float: Scale the logits\n        label_smoothing: float: Smooth the labels\n        loss_type: Literal[\"sigmoid\", \"hinge\", \"ipo\", \"kto\"]: Determine\n            the loss function\n        reference_free: bool: Indicate whether the reference policy is\n            used or not\n\n    Returns:\n        A function that takes in a state and a batch\n    \"\"\"\n\n    def _sigmoid_dpo_loss(\n            logits: chex.Array,\n            policy_chosen_log_probs: chex.Array = None,  # IGNORED\n            reference_chosen_log_probs: chex.Array = None,  # IGNORED\n            policy_rejected_log_probs: chex.Array = None,  # IGNORED\n            reference_rejected_log_probs: chex.Array = None  # IGNORED\n    ):\n\n        \"\"\"The _sigmoid_dpo_loss function is a helper function for the sigmoid_dpo_loss\n            function. It computes the loss of each example in a batch, given its logits\n            and (optionally) its chosen/rejected log probabilities under both policies.\n\n        Args:\n            logits: chex.Array: Compute the loss\n            policy_chosen_log_probs: chex.Array: Calculate the policy\n                loss\n            reference_chosen_log_probs: chex.Array: Compute the loss for\n                the reference policy # IGNORED\n            policy_rejected_log_probs: chex.Array: Calculate the loss\n                for the rejected samples # IGNORED\n            reference_rejected_log_probs: chex.Array: Calculate the loss\n                of rejected samples # IGNORED\n\n        Returns:\n            an array represent loss\n        \"\"\"\n        losses = (\n                -jax.nn.log_sigmoid(beta * logits) * (1 - label_smoothing)\n                - jax.nn.log_sigmoid(-beta * logits) * label_smoothing\n        )\n        return losses\n\n    def _hinge_dpo_loss(\n            logits: chex.Array,\n            policy_chosen_log_probs: chex.Array,  # IGNORED\n            reference_chosen_log_probs: chex.Array,  # IGNORED\n            policy_rejected_log_probs: chex.Array,  # IGNORED\n            reference_rejected_log_probs: chex.Array  # IGNORED\n    ):\n\n        \"\"\"The _hinge_dpo_loss function is a helper function that computes the loss for DPO.\n\n        Args:\n            logits: chex.Array: Calculate the hinge loss\n            policy_chosen_log_probs: chex.Array: Compute the policy loss\n            reference_chosen_log_probs: chex.Array: Compute the loss for\n                the reference policy # IGNORED\n            policy_rejected_log_probs: chex.Array: Calculate the loss\n                for the rejected samples # IGNORED\n            reference_rejected_log_probs: chex.Array: Calculate the loss\n                of rejected samples # IGNORED\n\n        Returns:\n            an array represent The hinge loss\n        \"\"\"\n        return jax.relu(1 - beta * logits)\n\n    def _ipo_dpo_loss(\n            logits: chex.Array,\n            policy_chosen_log_probs: chex.Array,  # IGNORED\n            reference_chosen_log_probs: chex.Array,  # IGNORED\n            policy_rejected_log_probs: chex.Array,  # IGNORED\n            reference_rejected_log_probs: chex.Array  # IGNORED\n    ):\n        \"\"\"The _ipo_dpo_loss function is a helper function that calculates the loss for\n        the IPO-DPO algorithm. It takes in the logits, policy_chosen_log_probs,\n        reference_chosen_log_probs, policy rejected log probs and reference rejected\n        log probs as inputs. The output of this function is used to calculate the loss\n        for each batch of data.\n\n                :param logits: chex.Array: Calculate the loss\n                :param policy_chosen_log_probs: chex.Array: Compute the\n                :param reference_chosen_log_probs: chex.Array: Compute the loss for the reference policy # IGNORED\n                :param policy_rejected_log_probs: chex.Array: Calculate the loss for the rejected samples # IGNORED\n                :param reference_rejected_log_probs: chex.Array: Calculate the loss of rejected samples # IGNORED\n                :return: an array represent loss\n        \"\"\"\n        return (logits - 1 / (2 * beta)) ** 2\n\n    def _kto_pair_dpo_loss(\n            logits: chex.Array,  # IGNORED\n            policy_chosen_log_probs: chex.Array,\n            reference_chosen_log_probs: chex.Array,\n            policy_rejected_log_probs: chex.Array,\n            reference_rejected_log_probs: chex.Array\n    ):\n\n        \"\"\"The _kto_pair_dpo_loss function is a helper function that computes the loss for\n        a single pair of trajectories. It takes in two sets of log probabilities, one from\n        the policy and one from the reference distribution. The first set are the log\n        probabilities for actions taken by each agent in a trajectory, while the second set\n        are those for actions not taken by each agent (i.e., rejected). The function then\n        computes KL divergences between these two sets of distributions and uses them to compute losses.\n\n        Args:\n            logits: chex.Array: Calculate the log_probs\n            policy_chosen_log_probs: chex.Array: Calculate the chosen_kl\n                # IGNORED\n            reference_chosen_log_probs: chex.Array: Calculate the\n                chosen_kl\n            policy_rejected_log_probs: chex.Array: Calculate the\n                rejected_kl variable\n            reference_rejected_log_probs: chex.Array: Calculate the\n                rejected_kl variable\n\n        Returns:\n            an array represent loss\n        \"\"\"\n        chosen_kl = jax.lax.clamp(\n            min=0,\n            x=jnp.mean(policy_chosen_log_probs - reference_chosen_log_probs),\n            max=1e9\n        )\n        rejected_kl = jax.lax.clamp(\n            min=0,\n            x=jnp.mean(policy_rejected_log_probs - reference_rejected_log_probs),\n            max=1e9\n        )\n\n        chosen_log_ratios = policy_chosen_log_probs - reference_chosen_log_probs\n        rejected_log_ratios = policy_rejected_log_probs - reference_rejected_log_probs\n        losses = jnp.concatenate(\n            (\n                1 - jax.nn.sigmoid(beta * (chosen_log_ratios - rejected_kl)),\n                1 - jax.nn.sigmoid(beta * (chosen_kl - rejected_log_ratios)),\n            ),\n            0,\n        )\n\n        return losses\n\n    if loss_type == \"sigmoid\":\n        _loss_func = _sigmoid_dpo_loss\n    elif loss_type == \"hinge\":\n        _loss_func = _hinge_dpo_loss\n    elif loss_type == \"ipo\":\n        _loss_func = _ipo_dpo_loss\n    elif loss_type == \"kto_pair\":\n        _loss_func = _kto_pair_dpo_loss\n    else:\n        raise ValueError(f\"UnKnown loss_type {loss_type}\")\n\n    def dpo_step(\n            state: EasyDeLState,\n            batch: dict\n    ) -&gt; DPOStepOut:\n\n        \"\"\"The dpo_step function is the core of DPO. It takes a state and a batch,\n        and returns an updated state. The update is done by calculating the loss\n        for each example in the batch, then taking its gradient with respect to\n        the parameters of the policy network (which are stored in `state`). This\n        gradient is then used to update `state`.\n\n        Args:\n            state: EasyDeLState: Store the parameters of the model\n            batch: dict: Pass the data to the model\n\n        Returns:\n            A `DPOStepOut` class\n        \"\"\"\n\n        def calculate_loss(params: dict | flax.core.FrozenDict):\n            (\n                policy_chosen_log_probs,\n                policy_rejected_log_probs,\n                policy_chosen_logits,\n                policy_rejected_logits,\n            ) = concatenated_forward(\n                state.apply_fn,\n                params,\n                batch\n            )\n\n            if \"reference_chosen_log_probs\" in batch and \"reference_rejected_log_probs\" in batch:\n                reference_chosen_log_probs = batch[\"reference_chosen_log_probs\"]\n                reference_rejected_log_probs = batch[\"reference_rejected_log_probs\"]\n            else:\n                if ref_state is None:\n                    (\n                        reference_chosen_log_probs,\n                        reference_rejected_log_probs,\n                        _,\n                        _,\n                    ) = concatenated_forward(\n                        state.apply_fn,\n                        state.params,\n                        batch\n                    )\n                else:\n                    (\n                        reference_chosen_log_probs,\n                        reference_rejected_log_probs,\n                        _,\n                        _,\n                    ) = concatenated_forward(\n                        ref_state.apply_fn,\n                        ref_state.params,\n                        batch\n                    )\n\n            pi_log_ratios = policy_chosen_log_probs - policy_rejected_log_probs\n\n            if reference_free:\n                ref_log_ratios = 0\n            else:\n                ref_log_ratios = reference_chosen_log_probs - reference_rejected_log_probs\n\n            logits = pi_log_ratios - ref_log_ratios\n            losses = _loss_func(\n                logits,\n                policy_chosen_log_probs,\n                reference_chosen_log_probs,\n                policy_rejected_log_probs,\n                reference_rejected_log_probs\n            )\n            chosen_rewards = (\n                    beta\n                    * (\n                            policy_chosen_log_probs - reference_chosen_log_probs\n                    )\n            )\n            rejected_rewards = (\n                    beta\n                    * (\n                            policy_rejected_log_probs\n                            - reference_rejected_log_probs\n                    )\n            )\n            return losses[0], (chosen_rewards, rejected_rewards)\n\n        __loss, (__chosen_rewards, __rejected_rewards) = calculate_loss(state.params)\n\n        return DPOStepOut(\n            loss=__loss,\n            rejected_rewards=__rejected_rewards,\n            chosen_rewards=__chosen_rewards\n        )\n\n    return dpo_step\n</code></pre>"},{"location":"generated-trainer-dpo-fwd_bwd_functions/#src.python.easydel.trainer.dpo.fwd_bwd_functions.create_dpo_train_function","title":"<code>create_dpo_train_function(concatenated_forward, ref_state=None, beta=0.1, label_smoothing=0, loss_type='sigmoid', reference_free=False)</code>","text":"<p>The create_dpo_train_function function is a helper function that creates the DPO training step.</p> <p>Parameters:</p> Name Type Description Default <code>concatenated_forward</code> <code>Callable</code> <p>Callable: Define the forward pass of the model</p> required <code>ref_state</code> <code>EasyDeLState</code> <p>EasyDeLState: Specify the reference policy</p> <code>None</code> <code>beta</code> <code>float</code> <p>float: Scale the logits</p> <code>0.1</code> <code>label_smoothing</code> <code>float</code> <p>float: Smooth the labels</p> <code>0</code> <code>loss_type</code> <code>Literal['sigmoid', 'hinge', 'ipo', 'kto']</code> <p>Literal[\"sigmoid\", \"hinge\", \"ipo\", \"kto\"]: Determine the loss function</p> <code>'sigmoid'</code> <code>reference_free</code> <code>bool</code> <p>bool: Indicate whether the reference policy is used or not</p> <code>False</code> <p>Returns:</p> Type Description <p>A function that takes in a state and a batch</p> Source code in <code>src/python/easydel/trainer/dpo/fwd_bwd_functions.py</code> <pre><code>def create_dpo_train_function(\n        concatenated_forward: Callable,\n        ref_state: EasyDeLState = None,\n        beta: float = 0.1,\n        label_smoothing: float = 0,\n        loss_type: Literal[\"sigmoid\", \"hinge\", \"ipo\", \"kto\"] = \"sigmoid\",\n        reference_free: bool = False,\n):\n    \"\"\"The create_dpo_train_function function is a helper function that creates the DPO training step.\n\n    Args:\n        concatenated_forward: Callable: Define the forward pass of the\n            model\n        ref_state: EasyDeLState: Specify the reference policy\n        beta: float: Scale the logits\n        label_smoothing: float: Smooth the labels\n        loss_type: Literal[\"sigmoid\", \"hinge\", \"ipo\", \"kto\"]: Determine\n            the loss function\n        reference_free: bool: Indicate whether the reference policy is\n            used or not\n\n    Returns:\n        A function that takes in a state and a batch\n    \"\"\"\n\n    def _sigmoid_dpo_loss(\n            logits: chex.Array,\n            policy_chosen_log_probs: chex.Array = None,  # IGNORED\n            reference_chosen_log_probs: chex.Array = None,  # IGNORED\n            policy_rejected_log_probs: chex.Array = None,  # IGNORED\n            reference_rejected_log_probs: chex.Array = None  # IGNORED\n    ):\n\n        \"\"\"The _sigmoid_dpo_loss function is a helper function for the sigmoid_dpo_loss\n            function. It computes the loss of each example in a batch, given its logits\n            and (optionally) its chosen/rejected log probabilities under both policies.\n\n        Args:\n            logits: chex.Array: Compute the loss\n            policy_chosen_log_probs: chex.Array: Calculate the policy\n                loss\n            reference_chosen_log_probs: chex.Array: Compute the loss for\n                the reference policy # IGNORED\n            policy_rejected_log_probs: chex.Array: Calculate the loss\n                for the rejected samples # IGNORED\n            reference_rejected_log_probs: chex.Array: Calculate the loss\n                of rejected samples # IGNORED\n\n        Returns:\n            an array represent loss\n        \"\"\"\n        losses = (\n                -jax.nn.log_sigmoid(beta * logits) * (1 - label_smoothing)\n                - jax.nn.log_sigmoid(-beta * logits) * label_smoothing\n        )\n        return losses\n\n    def _hinge_dpo_loss(\n            logits: chex.Array,\n            policy_chosen_log_probs: chex.Array,  # IGNORED\n            reference_chosen_log_probs: chex.Array,  # IGNORED\n            policy_rejected_log_probs: chex.Array,  # IGNORED\n            reference_rejected_log_probs: chex.Array  # IGNORED\n    ):\n\n        \"\"\"The _hinge_dpo_loss function is a helper function that computes the loss for DPO.\n\n        Args:\n            logits: chex.Array: Calculate the hinge loss\n            policy_chosen_log_probs: chex.Array: Compute the policy loss\n            reference_chosen_log_probs: chex.Array: Compute the loss for\n                the reference policy # IGNORED\n            policy_rejected_log_probs: chex.Array: Calculate the loss\n                for the rejected samples # IGNORED\n            reference_rejected_log_probs: chex.Array: Calculate the loss\n                of rejected samples # IGNORED\n\n        Returns:\n            an array represent The hinge loss\n        \"\"\"\n        return jax.relu(1 - beta * logits)\n\n    def _ipo_dpo_loss(\n            logits: chex.Array,\n            policy_chosen_log_probs: chex.Array,  # IGNORED\n            reference_chosen_log_probs: chex.Array,  # IGNORED\n            policy_rejected_log_probs: chex.Array,  # IGNORED\n            reference_rejected_log_probs: chex.Array  # IGNORED\n    ):\n        \"\"\"The _ipo_dpo_loss function is a helper function that calculates the loss for\n        the IPO-DPO algorithm. It takes in the logits, policy_chosen_log_probs,\n        reference_chosen_log_probs, policy rejected log probs and reference rejected\n        log probs as inputs. The output of this function is used to calculate the loss\n        for each batch of data.\n\n                :param logits: chex.Array: Calculate the loss\n                :param policy_chosen_log_probs: chex.Array: Compute the\n                :param reference_chosen_log_probs: chex.Array: Compute the loss for the reference policy # IGNORED\n                :param policy_rejected_log_probs: chex.Array: Calculate the loss for the rejected samples # IGNORED\n                :param reference_rejected_log_probs: chex.Array: Calculate the loss of rejected samples # IGNORED\n                :return: an array represent loss\n        \"\"\"\n        return (logits - 1 / (2 * beta)) ** 2\n\n    def _kto_pair_dpo_loss(\n            logits: chex.Array,  # IGNORED\n            policy_chosen_log_probs: chex.Array,\n            reference_chosen_log_probs: chex.Array,\n            policy_rejected_log_probs: chex.Array,\n            reference_rejected_log_probs: chex.Array\n    ):\n\n        \"\"\"The _kto_pair_dpo_loss function is a helper function that computes the loss for\n        a single pair of trajectories. It takes in two sets of log probabilities, one from\n        the policy and one from the reference distribution. The first set are the log\n        probabilities for actions taken by each agent in a trajectory, while the second set\n        are those for actions not taken by each agent (i.e., rejected). The function then\n        computes KL divergences between these two sets of distributions and uses them to compute losses.\n\n        Args:\n            logits: chex.Array: Calculate the log_probs\n            policy_chosen_log_probs: chex.Array: Calculate the chosen_kl\n                # IGNORED\n            reference_chosen_log_probs: chex.Array: Calculate the\n                chosen_kl\n            policy_rejected_log_probs: chex.Array: Calculate the\n                rejected_kl variable\n            reference_rejected_log_probs: chex.Array: Calculate the\n                rejected_kl variable\n\n        Returns:\n            an array represent loss\n        \"\"\"\n        chosen_kl = jax.lax.clamp(\n            min=0,\n            x=jnp.mean(policy_chosen_log_probs - reference_chosen_log_probs),\n            max=1e9\n        )\n        rejected_kl = jax.lax.clamp(\n            min=0,\n            x=jnp.mean(policy_rejected_log_probs - reference_rejected_log_probs),\n            max=1e9\n        )\n\n        chosen_log_ratios = policy_chosen_log_probs - reference_chosen_log_probs\n        rejected_log_ratios = policy_rejected_log_probs - reference_rejected_log_probs\n        losses = jnp.concatenate(\n            (\n                1 - jax.nn.sigmoid(beta * (chosen_log_ratios - rejected_kl)),\n                1 - jax.nn.sigmoid(beta * (chosen_kl - rejected_log_ratios)),\n            ),\n            0,\n        )\n\n        return losses\n\n    if loss_type == \"sigmoid\":\n        _loss_func = _sigmoid_dpo_loss\n    elif loss_type == \"hinge\":\n        _loss_func = _hinge_dpo_loss\n    elif loss_type == \"ipo\":\n        _loss_func = _ipo_dpo_loss\n    elif loss_type == \"kto_pair\":\n        _loss_func = _kto_pair_dpo_loss\n    else:\n        raise ValueError(f\"UnKnown loss_type {loss_type}\")\n\n    def dpo_step(\n            state: EasyDeLState,\n            batch: dict\n    ) -&gt; tuple[EasyDeLState, DPOStepOut]:\n\n        \"\"\"The dpo_step function is the core of DPO. It takes a state and a batch,\n        and returns an updated state. The update is done by calculating the loss\n        for each example in the batch, then taking its gradient with respect to\n        the parameters of the policy network (which are stored in `state`). This\n        gradient is then used to update `state`.\n\n        Args:\n            state: EasyDeLState: Store the parameters of the model\n            batch: dict: Pass the data to the model\n\n        Returns:\n            A new state, which is a collection of the parameters and\n            apply_fn\n        \"\"\"\n\n        def calculate_loss(params: dict | flax.core.FrozenDict):\n            (\n                policy_chosen_log_probs,\n                policy_rejected_log_probs,\n                policy_chosen_logits,\n                policy_rejected_logits,\n            ) = concatenated_forward(\n                state.apply_fn,\n                params,\n                batch\n            )\n\n            if \"reference_chosen_log_probs\" in batch and \"reference_rejected_log_probs\" in batch:\n                reference_chosen_log_probs = batch[\"reference_chosen_log_probs\"]\n                reference_rejected_log_probs = batch[\"reference_rejected_log_probs\"]\n            else:\n                if ref_state is None:\n                    (\n                        reference_chosen_log_probs,\n                        reference_rejected_log_probs,\n                        _,\n                        _,\n                    ) = concatenated_forward(\n                        state.apply_fn,\n                        state.params,\n                        batch\n                    )\n                else:\n                    (\n                        reference_chosen_log_probs,\n                        reference_rejected_log_probs,\n                        _,\n                        _,\n                    ) = concatenated_forward(\n                        ref_state.apply_fn,\n                        ref_state.params,\n                        batch\n                    )\n\n            pi_log_ratios = policy_chosen_log_probs - policy_rejected_log_probs\n\n            if reference_free:\n                ref_log_ratios = 0\n            else:\n                ref_log_ratios = reference_chosen_log_probs - reference_rejected_log_probs\n\n            logits = pi_log_ratios - ref_log_ratios\n            losses = _loss_func(\n                logits,\n                policy_chosen_log_probs,\n                reference_chosen_log_probs,\n                policy_rejected_log_probs,\n                reference_rejected_log_probs\n            )\n            chosen_rewards = (\n                    beta\n                    * (\n                            policy_chosen_log_probs - reference_chosen_log_probs\n                    )\n            )\n            rejected_rewards = (\n                    beta\n                    * (\n                            policy_rejected_log_probs\n                            - reference_rejected_log_probs\n                    )\n            )\n            return losses[0], (chosen_rewards, rejected_rewards)\n\n        grad_fn = jax.value_and_grad(calculate_loss, has_aux=True)\n        (__loss, (__chosen_rewards, __rejected_rewards)), grads = grad_fn(state.params)\n        new_state = state.apply_gradients(grads=grads)\n        return new_state, DPOStepOut(\n            loss=__loss,\n            rejected_rewards=__rejected_rewards,\n            chosen_rewards=__chosen_rewards\n        )\n\n    return dpo_step\n</code></pre>"},{"location":"generated-trainer-dpo-fwd_bwd_functions/#src.python.easydel.trainer.dpo.fwd_bwd_functions.get_batch_log_probs","title":"<code>get_batch_log_probs(logits, labels, average_log_prob=False, label_pad_token_id=-100, is_encoder_decoder=False)</code>","text":"<p>The get_batch_log_probs function computes the log probability of a batch of sequences.</p> <p>Parameters:</p> Name Type Description Default <code>logits</code> <code>Array</code> <p>chex.Array: Compute the log_softmax of the input</p> required <code>labels</code> <code>Array</code> <p>chex.Array: Mask the logits</p> required <code>average_log_prob</code> <code>bool</code> <p>bool: Determine whether to average the log prob over the sequence length</p> <code>False</code> <code>label_pad_token_id</code> <code>int</code> <p>int: Mask out the padding tokens in the labels</p> <code>-100</code> <code>is_encoder_decoder</code> <code>bool</code> <p>bool: Indicate whether the model is an encoder-decoder model</p> <code>False</code> <p>:param : Determine whether to average the log probability over all tokens or not</p> <p>Returns:</p> Type Description <code>Array</code> <p>The log probability of the labels given the logits</p> Source code in <code>src/python/easydel/trainer/dpo/fwd_bwd_functions.py</code> <pre><code>def get_batch_log_probs(\n        logits: chex.Array,\n        labels: chex.Array,\n        average_log_prob: bool = False,\n        label_pad_token_id: int = -100,\n        is_encoder_decoder: bool = False,\n) -&gt; chex.Array:\n    \"\"\"The get_batch_log_probs function computes the log probability of a batch of sequences.\n\n    Args:\n        logits: chex.Array: Compute the log_softmax of the input\n        labels: chex.Array: Mask the logits\n        average_log_prob: bool: Determine whether to average the log\n            prob over the sequence length\n        label_pad_token_id: int: Mask out the padding tokens in the\n            labels\n        is_encoder_decoder: bool: Indicate whether the model is an\n            encoder-decoder model\n    :param : Determine whether to average the log probability over all tokens or not\n\n    Returns:\n        The log probability of the labels given the logits\n    \"\"\"\n\n    # sudo code\n    # (per_token_log_probs * loss_mask).sum(-1)\n    # or\n    # (per_token_log_probs * loss_mask).sum(-1) / loss_mask.sum(-1)\n\n    if logits.shape[:-1] != labels.shape:\n        raise ValueError(\"Logits (batch and sequence length dim) and labels must have the same shape.\")\n\n    if not is_encoder_decoder:\n        labels = labels[:, 1:]\n        logits = logits[:, :-1, :]\n\n    batch, seq_len, dim = logits.shape\n    loss_mask = labels != label_pad_token_id\n    labels = jax.lax.select(\n        labels == label_pad_token_id,\n        jnp.zeros(labels.shape, dtype=labels.dtype),\n        labels\n    )\n    logits_log_s = jax.nn.log_softmax(\n        logits, -1\n    )\n    per_token_log_probs = jnp.take_along_axis(\n        logits_log_s,\n        axis=2,\n        indices=labels[:, :, None]\n    ).reshape(batch, seq_len)\n\n    if average_log_prob:\n        log_prob = jnp.sum((per_token_log_probs * loss_mask), axis=-1) / jnp.sum(loss_mask, axis=-1)\n    else:\n        log_prob = jnp.sum((per_token_log_probs * loss_mask), axis=-1)\n\n    return log_prob\n</code></pre>"},{"location":"generated-trainer-dpo-modelling_output/","title":"trainer.dpo.modelling_output","text":""},{"location":"generated-trainer-dpo-utils/","title":"trainer.dpo.utils","text":""},{"location":"generated-trainer-dpo-utils/#src.python.easydel.trainer.dpo.utils.DPODataCollatorWithPadding","title":"<code>DPODataCollatorWithPadding</code>  <code>dataclass</code>","text":"<p>DPO DataCollator class that pads the tokenized inputs to the maximum length of the batch.</p> <p>Parameters:</p> Name Type Description Default <code>pad_token_id</code> <code>int</code> <p>int: The tokenizers pad_token_id.</p> <code>0</code> <code>label_pad_token_id</code> <code>int</code> <p>int: The label used for masking.</p> <code>-100</code> <code>is_encoder_decoder</code> <code>Optional[bool]</code> <p>Optional[bool]: Whether you model has an encoder_decoder architecture</p> <code>False</code> Source code in <code>src/python/easydel/trainer/dpo/utils.py</code> <pre><code>@dataclass\nclass DPODataCollatorWithPadding:\n    r\"\"\"DPO DataCollator class that pads the tokenized inputs to the maximum length of the batch.\n\n    Args:\n        pad_token_id: int: The tokenizers pad_token_id.\n        label_pad_token_id: int: The label used for masking.\n        is_encoder_decoder: Optional[bool]: Whether you model has an\n            encoder_decoder architecture\n    \"\"\"\n    max_prompt_length: int\n    max_target_length: int\n    pad_token_id: int = 0\n    label_pad_token_id: int = -100\n    is_encoder_decoder: Optional[bool] = False\n    ids_to_pop_from_dataset: Optional[dict] = None\n    auto_fix_data: bool = True\n\n    def __call__(self, features: List[Dict[str, Any]]) -&gt; Dict[str, Any]:\n        padded_batch = {}\n        for k in features[0].keys():\n            if k.endswith(\"_input_ids\") or k.endswith(\"_attention_mask\") or k.endswith(\"_labels\"):\n                if self.is_encoder_decoder:\n                    to_pad = [jnp.array(ex[k], dtype=\"i4\") for ex in features]\n\n                    if (k.startswith(\"prompt\")) and (k.endswith(\"input_ids\")):\n                        padding_value = self.pad_token_id\n                    elif k.endswith(\"_attention_mask\"):\n                        padding_value = 0\n                    elif (k.startswith(\"chosen\")) or (k.startswith(\"rejected\")) or (\"decoder\" in k):\n                        padding_value = self.label_pad_token_id\n                    else:\n                        raise ValueError(f\"Unexpected key in batch '{k}'\")\n                    padded_batch[k] = pad_sequence(to_pad, batch_first=True, padding_value=padding_value).astype(\"i4\")\n                else:\n                    if \"prompt\" in k:\n                        to_pad = [jnp.array(ex[k][::-1], dtype=\"i4\") for ex in features]\n                    else:\n                        to_pad = [jnp.array(ex[k], dtype=\"i4\") for ex in features]\n                    if k.endswith(\"_input_ids\"):\n                        padding_value = self.pad_token_id\n                    elif k.endswith(\"_labels\"):\n                        padding_value = self.label_pad_token_id\n                    elif k.endswith(\"_attention_mask\"):\n                        padding_value = 0\n                    else:\n                        raise ValueError(f\"Unexpected key in batch '{k}'\")\n                    padded_batch[k] = pad_sequence(to_pad, batch_first=True, padding_value=padding_value).astype(\"i4\")\n                    if \"prompt\" in k:\n                        padded_batch[k] = jnp.flip(padded_batch[k], axis=[1])\n            elif k.endswith(\"_logps\"):\n                padded_batch[k] = jnp.array([ex[k] for ex in features])\n            else:\n                padded_batch[k] = [ex[k] for ex in features]\n        if self.ids_to_pop_from_dataset:\n            for key in self.ids_to_pop_from_dataset:\n                _ = padded_batch.pop(key, None)\n        for key in list(padded_batch.keys()):\n            if not (\n                    key.endswith(\"_input_ids\")\n                    or key.endswith(\"_attention_mask\")\n                    or key.endswith(\"_labels\")\n                    or key.endswith(\"_log_probs\")\n            ):\n                _ = padded_batch.pop(key, None)\n        for k in list(padded_batch.keys()):\n            v = padded_batch[k]\n            padded_batch[k] = v.reshape(v.shape[0], -1)\n        if self.auto_fix_data:\n            padded_batch[\"rejected_input_ids\"] = padded_batch[\"rejected_input_ids\"][..., :self.max_target_length]\n            padded_batch[\n                \"rejected_attention_mask\"\n            ] = padded_batch[\"rejected_attention_mask\"][..., :self.max_target_length]\n            padded_batch[\"rejected_labels\"] = padded_batch[\"rejected_labels\"][..., :self.max_target_length]\n\n            padded_batch[\"chosen_input_ids\"] = padded_batch[\"chosen_input_ids\"][..., :self.max_target_length]\n            padded_batch[\"chosen_attention_mask\"] = padded_batch[\"chosen_attention_mask\"][..., :self.max_target_length]\n            padded_batch[\"chosen_labels\"] = padded_batch[\"chosen_labels\"][..., :self.max_target_length]\n\n            padded_batch[\"prompt_input_ids\"] = padded_batch[\"prompt_input_ids\"][..., :self.max_prompt_length]\n            padded_batch[\n                \"prompt_attention_mask\"\n            ] = padded_batch[\"prompt_attention_mask\"][..., :self.max_prompt_length]\n\n        return padded_batch\n</code></pre>"},{"location":"generated-trainer-orpo-fwd_bwd_functions/","title":"trainer.orpo.fwd_bwd_functions","text":""},{"location":"generated-trainer-orpo-fwd_bwd_functions/#src.python.easydel.trainer.orpo.fwd_bwd_functions.concatenated_inputs","title":"<code>concatenated_inputs(batch, is_encoder_decoder=False, label_pad_token_id=-100, padding_value=0, truncation_mode='keep_end', fixed_max_length=None)</code>","text":"<p>The concatenated_inputs function takes a batch of chosen and rejected examples, and concatenates them together. This is useful for training the model to predict whether an example was chosen by the human annotator. The function also pads all inputs to the same length as the longest input in that batch.</p> <p>Parameters:</p> Name Type Description Default <code>batch</code> <code>Dict[str, Union[List, Array]]</code> <p>Dict[str,Union[List,chex.Array]]: Pass the batch of data into the function,</p> required <code>is_encoder_decoder</code> <code>bool</code> <p>bool: Determine whether the model is an encoder-decoder model</p> <code>False</code> <code>label_pad_token_id</code> <code>int</code> <p>int: Pad the labels with a value of -100</p> <code>-100</code> <code>padding_value</code> <code>int</code> <p>int: Pad the input_ids and attention_mask arrays to the same length</p> <code>0</code> <code>truncation_mode</code> <code>Literal['keep_end', 'keep_start']</code> <p>typing.Literal[\"keep_end\", \"keep_start\"]: is left padded or not should it keep start of the</p> <code>'keep_end'</code> <code>fixed_max_length</code> <code>int | None</code> <p>int|None: by providing fixed_max_length the func will always return a fixed sequence length and won't use dynamic methods.</p> <code>None</code> <p>Allow for the batch to be a list of arrays or just an array, Specify the type of data that is being passed in</p> <p>array or the end of the array?.</p> <p>Returns:</p> Type Description <code>Dict[str, Array]</code> <p>A dictionary of the concatenated inputs</p> Source code in <code>src/python/easydel/trainer/orpo/fwd_bwd_functions.py</code> <pre><code>def concatenated_inputs(\n        batch: Dict[str, Union[List, chex.Array]],\n        is_encoder_decoder: bool = False,\n        label_pad_token_id: int = -100,\n        padding_value: int = 0,\n        truncation_mode: typing.Literal[\"keep_end\", \"keep_start\"] = \"keep_end\",\n        fixed_max_length: int | None = None\n) -&gt; Dict[str, chex.Array]:\n    \"\"\"The concatenated_inputs function takes a batch of chosen and rejected examples,\n    and concatenates them together. This is useful for training the model to predict whether an example was chosen\n    by the human annotator. The function also pads all inputs to\n    the same length as the longest input in that batch.\n\n    Args:\n        batch: Dict[str,Union[List,chex.Array]]: Pass the batch of data\n            into the function,\n        is_encoder_decoder: bool: Determine whether the model is an\n            encoder-decoder model\n        label_pad_token_id: int: Pad the labels with a value of -100\n        padding_value: int: Pad the input_ids and attention_mask arrays\n            to the same length\n        truncation_mode: typing.Literal[\"keep_end\", \"keep_start\"]: is\n            left padded or not should it keep start of the\n        fixed_max_length: int|None: by providing fixed_max_length the\n            func will always return a fixed sequence length and won't\n            use dynamic methods.\n    Allow for the batch to be a list of arrays or just an array,\n    Specify the type of data that is being passed in\n\n    array or the end of the array?.\n\n    Returns:\n        A dictionary of the concatenated inputs\n    \"\"\"\n    concatenated_batch = {}\n    if fixed_max_length is None:\n        if is_encoder_decoder:\n            max_length = max(batch[\"chosen_labels\"].shape[-1], batch[\"rejected_labels\"].shape[-1])\n        else:\n            max_length = max(batch[\"chosen_input_ids\"].shape[-1], batch[\"rejected_input_ids\"].shape[-1])\n    else:\n        max_length = fixed_max_length\n    for k in batch:\n        if k.startswith(\"chosen\") and isinstance(batch[k], jax.Array):\n            if \"labels\" in k or is_encoder_decoder:\n                pad_value = label_pad_token_id\n            elif k.endswith(\"_input_ids\"):\n                pad_value = padding_value\n            elif k.endswith(\"_attention_mask\"):\n                pad_value = 0\n            else:\n                raise KeyError(\"couldn't find pad_value [Dataset Issue]\")\n            concatenated_key = k.replace(\"chosen\", \"concatenated\")\n            concatenated_batch[concatenated_key] = pad_to_length(batch[k], max_length, pad_value=pad_value)\n    for k in batch:\n        if k.startswith(\"rejected\") and isinstance(batch[k], jax.Array):\n            if \"labels\" in k or is_encoder_decoder:\n                pad_value = label_pad_token_id\n            elif k.endswith(\"_input_ids\"):\n                assert padding_value is not None, \"`padding_value` can not be set as `None`\"\n                pad_value = padding_value\n            elif k.endswith(\"_attention_mask\"):\n                pad_value = 0\n            else:\n                raise KeyError(\"couldn't find pad_value [Dataset Issue]\")\n            concatenated_key = k.replace(\"rejected\", \"concatenated\")\n            v2d = lambda ar: ar.reshape(ar.shape[0], -1)\n            concatenated_batch[concatenated_key] = jnp.concatenate(\n                (\n                    v2d(concatenated_batch[concatenated_key]),\n                    pad_to_length(v2d(batch[k]), max_length, pad_value=pad_value),\n                ),\n                axis=0,\n            )\n    for k in list(concatenated_batch.keys()):\n        val = concatenated_batch[k]\n        if val.ndim == 3:\n            # making 3d array 2d\n            concatenated_batch[k] = val.reshape(val.shape[0], -1)\n    if is_encoder_decoder:\n        warnings.warn(\"`concatenated_input_ids` will be repeated (encoder decoder model detected)\")\n        concatenated_batch[\"concatenated_input_ids\"] = batch[\"prompt_input_ids\"].repeat(2, 1)\n        concatenated_batch[\"concatenated_attention_mask\"] = (\n            batch[\"prompt_attention_mask\"].repeat(2, 1)\n        )\n\n    return concatenated_batch\n</code></pre>"},{"location":"generated-trainer-orpo-fwd_bwd_functions/#src.python.easydel.trainer.orpo.fwd_bwd_functions.create_concatenated_forward","title":"<code>create_concatenated_forward(is_encoder_decoder, label_pad_token_id, padding_value, truncation_mode='keep_end', fixed_max_length=None)</code>","text":"<p>The create_concatenated_forward function is a helper function that creates a forward pass function for the model. The forward pass function takes in an apply_fn, which is the model's apply_fn, and runs it on concatenated inputs. It returns chosen log probs, rejected log probs, chosen logits and rejected logits.</p> <p>Parameters:</p> Name Type Description Default <code>is_encoder_decoder</code> <p>Determine whether the model is an encoder- decoder model or not</p> required <code>label_pad_token_id</code> <p>Pad the labels to the same length</p> required <code>padding_value</code> <p>Pad the inputs to the same length</p> required <code>truncation_mode</code> <code>Literal['keep_end', 'keep_start']</code> <p>typing.Literal[\"keep_end\",\"keep_start\"]: where to pad and where to keep.</p> <code>'keep_end'</code> <code>fixed_max_length</code> <code>int | None</code> <p>int|None: by providing fixed_max_length the func will always return a fixed sequence length</p> <code>None</code> <p>and won't use dynamic methods.</p> <p>Returns:</p> Type Description <p>A function that takes in a apply_fn, params and a batch of</p> <p>inputs,</p> Source code in <code>src/python/easydel/trainer/orpo/fwd_bwd_functions.py</code> <pre><code>def create_concatenated_forward(\n        is_encoder_decoder,\n        label_pad_token_id,\n        padding_value,\n        truncation_mode: typing.Literal[\"keep_end\", \"keep_start\"] = \"keep_end\",\n        fixed_max_length: int | None = None\n):\n    \"\"\"The create_concatenated_forward function is a helper function that creates a forward pass function for the\n    model. The forward pass function takes in an apply_fn, which is the model's apply_fn, and runs it on concatenated\n    inputs. It returns chosen log probs, rejected log probs, chosen logits and rejected logits.\n\n    Args:\n        is_encoder_decoder: Determine whether the model is an encoder-\n            decoder model or not\n        label_pad_token_id: Pad the labels to the same length\n        padding_value: Pad the inputs to the same length\n        truncation_mode: typing.Literal[\"keep_end\",\"keep_start\"]: where\n            to pad and where to keep.\n        fixed_max_length: int|None: by providing fixed_max_length the\n            func will always return a fixed sequence length\n    and won't use dynamic methods.\n\n    Returns:\n        A function that takes in a apply_fn, params and a batch of\n        inputs,\n    \"\"\"\n\n    def concatenated_forward(\n            apply_fn: Callable,\n            params: dict | flax.core.FrozenDict,\n            batch: Dict[str, Union[List, chex.Array]]\n\n    ) -&gt; Tuple[chex.Array, chex.Array, chex.Array, chex.Array, chex.Array]:\n        \"\"\"The concatenated_forward function is used to compute the log-probabilities of both chosen and rejected labels.\n\n        Args:\n            apply_fn: Callable: Pass in the model function\n            params: dict | flax.core.FrozenDict: Pass the model\n                parameters to the function\n            batch: Dict[str, Union[List, chex.Array]] : Pass the batch\n                of data to the concatenated_forward function\n\n        Returns:\n            The log_probs of the chosen and rejected labels, as well as\n            their corresponding logits\n        \"\"\"\n        assert padding_value is not None, \"`padding_value` can not be set as `None` it must be an integer.\"\n        concatenated_batch = concatenated_inputs(\n            batch,\n            is_encoder_decoder=is_encoder_decoder,\n            label_pad_token_id=label_pad_token_id,\n            padding_value=padding_value,\n            truncation_mode=truncation_mode,\n            fixed_max_length=fixed_max_length\n        )\n        len_chosen = batch[\"chosen_labels\"].shape[0]\n        concatenated_batch[\"concatenated_input_ids\"] = concatenated_batch[\"concatenated_input_ids\"].reshape(\n            concatenated_batch[\"concatenated_input_ids\"].shape[0], -1\n        )\n        concatenated_batch[\"concatenated_labels\"] = concatenated_batch[\"concatenated_labels\"].reshape(\n            concatenated_batch[\"concatenated_labels\"].shape[0], -1\n        )\n        concatenated_batch[\"concatenated_attention_mask\"] = concatenated_batch[\"concatenated_attention_mask\"].reshape(\n            concatenated_batch[\"concatenated_attention_mask\"].shape[0], -1\n        )\n        model_kwargs = (\n            {\n                \"labels\": concatenated_batch[\"concatenated_labels\"],\n                \"decoder_input_ids\": concatenated_batch.pop(\"concatenated_decoder_input_ids\", None),\n            }\n            if is_encoder_decoder\n            else {}\n        )\n        all_logits = apply_fn(\n            concatenated_batch[\"concatenated_input_ids\"],\n            attention_mask=concatenated_batch[\"concatenated_attention_mask\"],\n            params=params,\n            **model_kwargs,\n        ).logits\n\n        def cross_entropy_loss(logits, labels, mask):\n            if not is_encoder_decoder:\n                logits = logits[..., :-1, :]\n                labels = labels[..., 1:]\n                mask = mask[..., 1:]\n            loss = fjformer.cross_entropy_loss_and_accuracy(logits, labels, mask)[0]\n            return loss\n\n        if is_encoder_decoder:\n            labels = concatenated_batch[\"concatenated_labels\"]\n        else:\n            labels = concatenated_batch[\"concatenated_input_ids\"]\n\n        chosen_nll_loss = cross_entropy_loss(\n            all_logits[:len_chosen],\n            labels[:len_chosen],\n            concatenated_batch[\"concatenated_attention_mask\"][:len_chosen]\n        )\n        all_log_probs = get_batch_log_probs(\n            all_logits,\n            concatenated_batch[\"concatenated_labels\"],\n            average_log_prob=False,\n            is_encoder_decoder=is_encoder_decoder,\n            label_pad_token_id=label_pad_token_id,\n        )\n\n        chosen_log_probs = all_log_probs[:len_chosen]\n        rejected_log_probs = all_log_probs[len_chosen:]\n\n        chosen_logits = all_logits[:len_chosen]\n        rejected_logits = all_logits[len_chosen:]\n        return chosen_log_probs, rejected_log_probs, chosen_logits, rejected_logits, chosen_nll_loss\n\n    return concatenated_forward\n</code></pre>"},{"location":"generated-trainer-orpo-fwd_bwd_functions/#src.python.easydel.trainer.orpo.fwd_bwd_functions.create_orpo_step_function","title":"<code>create_orpo_step_function(concatenated_forward, beta=0.1, mode='train', batch_partition_spec=PartitionSpec(('fsdp', 'dp'), 'sp'))</code>","text":"<p>The create_orpo_step_function function is a helper function that creates the ORPO training step.</p> <p>Parameters:</p> Name Type Description Default <code>concatenated_forward</code> <code>Callable</code> <p>Callable: Define the forward pass of the model</p> required <code>beta</code> <code>float</code> <p>float: Scale the logits</p> <code>0.1</code> <code>mode</code> <code>Literal['train', 'eval']</code> <p>Literal[\"train\", \"eval\"] : \"train\", \"eval\" function modes</p> <code>'train'</code> <code>batch_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Batch PartitionSpec</p> <code>PartitionSpec(('fsdp', 'dp'), 'sp')</code> <p>Returns:</p> Type Description <p>A function that takes in a state and a batch</p> Source code in <code>src/python/easydel/trainer/orpo/fwd_bwd_functions.py</code> <pre><code>def create_orpo_step_function(\n        concatenated_forward: Callable,\n        beta: float = 0.1,\n        mode: Literal[\"train\", \"eval\"] = \"train\",\n        batch_partition_spec: PartitionSpec = PartitionSpec((\"fsdp\", \"dp\"), \"sp\")\n):\n    \"\"\"The create_orpo_step_function function is a helper function that creates the ORPO training step.\n\n    Args:\n        concatenated_forward: Callable: Define the forward pass of the\n            model\n        beta: float: Scale the logits\n        mode: Literal[\"train\", \"eval\"] : \"train\", \"eval\" function modes\n        batch_partition_spec: PartitionSpec: Batch PartitionSpec\n\n    Returns:\n        A function that takes in a state and a batch\n    \"\"\"\n\n    def orpo_step(\n            state: EasyDeLState,\n            batch: dict\n    ) -&gt; tuple[EasyDeLState, ORPOStepOut]:\n        \"\"\"The orpo_step function is the core of ORPO. It takes a state and a batch,\n        and returns an updated state. The update is done by calculating the loss\n        for each example in the batch, then taking its gradient with respect to\n        the parameters of the policy network (which are stored in `state`). This\n        gradient is then used to update `state`.\n\n        Args:\n            state: EasyDeLState: Store the parameters of the model\n            batch: dict: Pass the data to the model\n\n        Returns:\n            A new state, which is a collection of the parameters and\n            apply_fn\n        \"\"\"\n        batch = fjformer.with_sharding_constraint(batch, partition_specs=batch_partition_spec)\n\n        def calculate_loss(params: dict | flax.core.FrozenDict):\n            (\n                policy_chosen_log_probs,\n                policy_rejected_log_probs,\n                policy_chosen_logits,\n                policy_rejected_logits,\n                policy_nll_loss\n            ) = concatenated_forward(\n                state.apply_fn,\n                params,\n                batch\n            )\n\n            losses, chosen_rewards, rejected_rewards, log_odds_ratio, log_odds_chosen = odds_ratio_loss(\n                beta, policy_chosen_log_probs, policy_rejected_log_probs\n            )\n\n            loss = policy_nll_loss - losses.mean()\n\n            reward_accuracies = (chosen_rewards &gt; rejected_rewards).astype(\"float32\")\n            metrics = {}\n            prefix = \"eval_\" if mode == \"eval\" else \"\"\n            metrics[f\"{prefix}rewards/chosen\"] = chosen_rewards.mean()\n            metrics[f\"{prefix}rewards/rejected\"] = rejected_rewards.mean()\n            metrics[f\"{prefix}rewards/accuracies\"] = reward_accuracies.mean()\n            metrics[f\"{prefix}rewards/margins\"] = (chosen_rewards - rejected_rewards).mean()\n            metrics[f\"{prefix}logps/rejected\"] = policy_rejected_log_probs.mean()\n            metrics[f\"{prefix}logps/chosen\"] = policy_chosen_log_probs.mean()\n            metrics[f\"{prefix}logits/rejected\"] = policy_rejected_logits.mean()\n            metrics[f\"{prefix}logits/chosen\"] = policy_chosen_logits.mean()\n            metrics[f\"{prefix}nll_loss\"] = policy_nll_loss.mean()\n            metrics[f\"{prefix}log_odds_ratio\"] = log_odds_ratio\n            metrics[f\"{prefix}log_odds_chosen\"] = log_odds_chosen\n            return loss, metrics\n\n        if mode == \"train\":\n            grad_fn = jax.value_and_grad(calculate_loss, has_aux=True)\n            (__loss, (__metrics)), grads = grad_fn(state.params)\n            new_state = state.apply_gradients(grads=grads)\n        else:\n            __loss, __metrics = calculate_loss(state.params)\n            new_state = state\n        return new_state, ORPOStepOut(\n            loss=__loss,\n            metrics=__metrics\n        )\n\n    return orpo_step\n</code></pre>"},{"location":"generated-trainer-orpo-fwd_bwd_functions/#src.python.easydel.trainer.orpo.fwd_bwd_functions.get_batch_log_probs","title":"<code>get_batch_log_probs(logits, labels, average_log_prob=False, label_pad_token_id=-100, is_encoder_decoder=False)</code>","text":"<p>The get_batch_log_probs function computes the log probability of a batch of sequences.</p> <p>Parameters:</p> Name Type Description Default <code>logits</code> <code>Array</code> <p>chex.Array: Compute the log_softmax of the input</p> required <code>labels</code> <code>Array</code> <p>chex.Array: Mask the logits</p> required <code>average_log_prob</code> <code>bool</code> <p>bool: Determine whether to average the log prob over the sequence length</p> <code>False</code> <code>label_pad_token_id</code> <code>int</code> <p>int: Mask out the padding tokens in the labels</p> <code>-100</code> <code>is_encoder_decoder</code> <code>bool</code> <p>bool: Indicate whether the model is an encoder-decoder model</p> <code>False</code> <p>:param : Determine whether to average the log probability over all tokens or not</p> <p>Returns:</p> Type Description <code>Array</code> <p>The log probability of the labels given the logits</p> Source code in <code>src/python/easydel/trainer/orpo/fwd_bwd_functions.py</code> <pre><code>def get_batch_log_probs(\n        logits: chex.Array,\n        labels: chex.Array,\n        average_log_prob: bool = False,\n        label_pad_token_id: int = -100,\n        is_encoder_decoder: bool = False,\n) -&gt; chex.Array:\n    \"\"\"The get_batch_log_probs function computes the log probability of a batch of sequences.\n\n    Args:\n        logits: chex.Array: Compute the log_softmax of the input\n        labels: chex.Array: Mask the logits\n        average_log_prob: bool: Determine whether to average the log\n            prob over the sequence length\n        label_pad_token_id: int: Mask out the padding tokens in the\n            labels\n        is_encoder_decoder: bool: Indicate whether the model is an\n            encoder-decoder model\n    :param : Determine whether to average the log probability over all tokens or not\n\n    Returns:\n        The log probability of the labels given the logits\n    \"\"\"\n\n    # sudo code\n    # (per_token_log_probs * loss_mask).sum(-1)\n    # or\n    # (per_token_log_probs * loss_mask).sum(-1) / loss_mask.sum(-1)\n\n    if logits.shape[:-1] != labels.shape:\n        raise ValueError(\"Logits (batch and sequence length dim) and labels must have the same shape.\")\n\n    if not is_encoder_decoder:\n        labels = labels[:, 1:]\n        logits = logits[:, :-1, :]\n\n    batch, seq_len, dim = logits.shape\n    loss_mask = labels != label_pad_token_id\n\n    labels = jnp.where(labels == label_pad_token_id, 0, labels)\n\n    per_token_logps = jnp.take_along_axis(\n        jax.nn.log_softmax(logits, axis=-1), axis=2, indices=labels[:, :, None]\n    ).reshape(batch, seq_len)\n\n    if average_log_prob:\n        return (per_token_logps * loss_mask).sum(-1) / loss_mask.sum(-1)\n    else:\n        return (per_token_logps * loss_mask).sum(-1)\n</code></pre>"},{"location":"generated-trainer-orpo-modelling_output/","title":"trainer.orpo.modelling_output","text":""},{"location":"generated-trainer-orpo-orpo_trainer/","title":"trainer.orpo.orpo_trainer","text":""},{"location":"generated-trainer-orpo-orpo_trainer/#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer","title":"<code>ORPOTrainer</code>","text":"<p>               Bases: <code>BaseTrainer</code>, <code>ABC</code></p> <p>easydel ORPO Trainer Class</p> Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code> <pre><code>class ORPOTrainer(BaseTrainer, ABC):\n    \"\"\"\n    easydel ORPO Trainer Class\n    \"\"\"\n\n    def __init__(\n            self,\n            arguments: TrainArguments,\n            max_length: Optional[int] = None,\n            max_prompt_length: Optional[int] = None,\n            max_completion_length: Optional[int] = None,\n            beta: float = 0.1,\n            disable_dropout: bool = True,\n            label_pad_token_id: int = -100,\n            is_encoder_decoder: bool = False,\n            padding_value: int = None,\n            data_collator: Optional[DPODataCollatorWithPadding] = None,\n            train_dataset: Optional[Dataset] = None,\n            eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] = None,\n            tokenizer: Optional[PreTrainedTokenizerBase] = None,\n            _do_init_fns: bool = True,\n            dataset_map_arguments: Optional[Dict[str, Any]] = None,\n            low_mem_usage: bool = False,\n    ):\n\n        \"\"\"\n        The __init__ function is called when the class is instantiated.\n        It sets up the attributes of an object.\n\n\n        :param self: Refer to the object itself\n        :param beta: float: Control the strength of the regularization term\n        :param arguments: TrainArguments: Pass the arguments to the trainer\n        :param label_pad_token_id: int: Pad the labels\n        :param padding_value: int: Specify the value that is used for padding\n        :param train_dataset: Optional[Dataset]: Load the training dataset\n        :param eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] : Pass the evaluation dataset to the trainer\n        :param tokenizer: Optional[PreTrainedTokenizerBase]: Pass the tokenizer to the trainer\n        :param max_length: Optional[int]: Set the maximum length of the input sequence\n        :param max_prompt_length: Optional[int]: Set the maximum length of the prompt\n        :param max_completion_length: Optional[int]: Truncate the target sequence\n        :param data_collator: Optional[Callable]: Function to be used for creating datasets.\n        tokenizing process with `dataset.map`.\n        :param _do_init_fns: bool : preferred to set ture to trainer will automatically configure\n        model with provided training Arguments\n        :param : Set the padding value for the model\n        \"\"\"\n\n        assert arguments is not None, (\n            \"You Have to pass arguments that will be used for training but you have passed\"\n            \"`arguments=None`\"\n        )\n        assert isinstance(arguments, TrainArguments), (\n            f\"arguments type must be `TrainArguments` but got {type(arguments)}\"\n        )\n\n        if tokenizer is None:\n            raise ValueError(\"tokenizer must be specified to tokenize a ORPO dataset.\")\n        if max_length is None:\n            warnings.warn(\n                \"`max_length` is not set in the ORPOTrainer's init\"\n                \" it will default to `512` by default, but you should do it yourself in the future.\",\n                UserWarning,\n            )\n            max_length = 512\n        if max_prompt_length is None:\n            warnings.warn(\n                \"`max_prompt_length` is not set in the ORPOTrainer's init\"\n                \" it will default to `128` by default, but you should do it yourself in the future.\",\n                UserWarning,\n            )\n            max_prompt_length = 128\n\n        if max_completion_length is None:\n            warnings.warn(\n                \"When using an encoder decoder architecture, you should set `max_completion_length` in the \"\n                \"ORPOTrainer's init it will default to `128` by default, but you should do it yourself in the future.\",\n                UserWarning,\n            )\n            max_completion_length = 128\n\n        padding_value = padding_value if padding_value is not None else tokenizer.pad_token_id\n        self.max_length = max_length\n        self.label_pad_token_id = label_pad_token_id\n        self.padding_value = padding_value\n        self.max_prompt_length = max_prompt_length\n        self.truncation_mode = arguments.truncation_mode\n        self.disable_dropout = disable_dropout\n        self.max_completion_length = max_completion_length\n        self.tokenizer = tokenizer\n        self.is_encoder_decoder = is_encoder_decoder\n        self.low_mem_usage = low_mem_usage\n        self.beta = beta\n        data_collator = DPODataCollatorWithPadding(\n            max_prompt_length=self.max_prompt_length,\n            max_target_length=self.max_completion_length,\n            pad_token_id=tokenizer.pad_token_id,\n            label_pad_token_id=label_pad_token_id,\n            is_encoder_decoder=False,\n        ) if data_collator is None else data_collator\n        self._stored_metrics = defaultdict(lambda: defaultdict(list))\n        if dataset_map_arguments is None:\n            dataset_map_arguments = {}\n        train_dataset = train_dataset.map(\n            self.tokenize_row,\n            **dataset_map_arguments\n        )\n        if eval_dataset is not None:\n            eval_dataset = eval_dataset.map(\n                self.tokenize_row,\n                **dataset_map_arguments\n            )\n\n        self.arguments = arguments\n        self.hp_name = None\n        self.deepspeed = None\n        self.is_in_train = False\n\n        self.data_collator = data_collator\n        self.train_dataset = train_dataset\n        self.eval_dataset = eval_dataset\n        self.tokenizer = tokenizer\n        self._loggers_initialized = False\n        self.mesh = self.arguments.get_mesh()\n        assert padding_value is not None, \"`padding_value` can not be set as `None` it must be an integer.\"\n\n        self.concatenated_forward = create_concatenated_forward(\n            is_encoder_decoder=self.is_encoder_decoder,\n            padding_value=padding_value,\n            label_pad_token_id=label_pad_token_id,\n        )\n\n        self._cached_p_l_s = None\n        self._cached_c_l_s = None\n        self._cached_r_l_s = None\n\n        super().__init__(\n            arguments=arguments,\n            dataset_train=train_dataset,\n            dataset_eval=eval_dataset,\n            finetune=True,\n            checkpoint_path=None,\n            _do_init_fns=_do_init_fns\n        )\n\n    def build_tokenized_answer(self, prompt, answer):\n        \"\"\"\n        Llama tokenizer does satisfy `enc(a + b) = enc(a) + enc(b)`.\n        It does ensure `enc(a + b) = enc(a) + enc(a + b)[len(enc(a)):]`.\n        \"\"\"\n\n        full_tokenized = self.tokenizer(prompt + answer, add_special_tokens=False)\n        prompt_input_ids = self.tokenizer(prompt, add_special_tokens=False)[\"input_ids\"]\n\n        answer_input_ids = full_tokenized[\"input_ids\"][len(prompt_input_ids):]\n        answer_attention_mask = full_tokenized[\"attention_mask\"][len(prompt_input_ids):]\n        prompt_input_ids = jnp.asarray(prompt_input_ids, dtype=\"i4\")\n        answer_input_ids = jnp.asarray(answer_input_ids, dtype=\"i4\")\n        full_concat_input_ids = jnp.concatenate(\n            (\n                prompt_input_ids,\n                answer_input_ids\n            )\n        )\n\n        # Prepare input tokens for token by token comparison\n        full_input_ids = jnp.array(full_tokenized[\"input_ids\"])\n\n        if len(full_input_ids) != len(full_concat_input_ids):\n            raise ValueError(\"Prompt input ids and answer input ids should have the same length.\")\n\n        response_token_ids_start_idx = len(prompt_input_ids)\n        if prompt_input_ids.tolist() != full_tokenized[\"input_ids\"][:response_token_ids_start_idx]:\n            response_token_ids_start_idx -= 1\n\n        prompt_input_ids = full_tokenized[\"input_ids\"][:response_token_ids_start_idx]\n        prompt_attention_mask = full_tokenized[\"attention_mask\"][:response_token_ids_start_idx]\n\n        if len(prompt_input_ids) != len(prompt_attention_mask):\n            raise ValueError(\"Prompt input ids and attention mask should have the same length.\")\n\n        answer_input_ids = full_tokenized[\"input_ids\"][response_token_ids_start_idx:]\n        answer_attention_mask = full_tokenized[\"attention_mask\"][response_token_ids_start_idx:]\n\n        return dict(\n            prompt_input_ids=jnp.array(prompt_input_ids, dtype=\"i4\"),\n            prompt_attention_mask=jnp.array(prompt_attention_mask, dtype=\"i4\"),\n            input_ids=jnp.array(answer_input_ids, dtype=\"i4\"),\n            attention_mask=jnp.array(answer_attention_mask, dtype=\"i4\"),\n        )\n\n    def tokenize_row(self, feature, state: EasyDeLState = None) -&gt; Dict:\n\n        \"\"\"\n        The tokenize_row function is responsible for taking a single row of data and converting it into the format that\n        the model expects. This includes:\n        - Tokenizing the text (using HuggingFace's tokenizer)\n        - Padding/truncating sequences to a fixed length (if necessary)\n        - Creating attention masks, which tell the model which tokens are padding and which aren't.\n\n        :param self: Represent the instance of the class\n        :param feature: Pass in the data from the dataset\n        :param state: EasyDeLState: Keep track of the state of the tokenizer\n        :return: A dictionary of the following keys\n        \"\"\"\n        batch = {}\n        prompt = feature[\"prompt\"]\n        chosen = feature[\"chosen\"]\n        rejected = feature[\"rejected\"]\n\n        if not isinstance(prompt, str):\n            raise ValueError(f\"prompt should be an str but got {type(prompt)} , {prompt}\")\n        prompt_tokens = self.tokenizer(\n            prompt,\n            add_special_tokens=False,\n            return_tensors=\"np\",\n        )\n        prompt_tokens = {f\"prompt_{k}\": v for k, v in prompt_tokens.items()}\n\n        if not isinstance(chosen, str):\n            raise ValueError(f\"chosen should be an str but got {type(chosen)} , {chosen}\")\n        chosen_tokens = self.build_tokenized_answer(prompt, chosen)\n\n        if not isinstance(rejected, str):\n            raise ValueError(f\"rejected should be an str but got {type(rejected)}\")\n        rejected_tokens = self.build_tokenized_answer(prompt, rejected)\n        v2d = lambda ar: ar.reshape(1, -1) if ar.ndim == 1 else ar\n\n        def add_tkn(n, ar):\n            return jnp.concatenate(\n                (\n                    jnp.array(n).reshape(1, 1),\n                    v2d(ar)\n                ), axis=-1\n            )\n\n        def add_post_tkn(n, ar):\n            return jnp.concatenate(\n                (\n                    v2d(ar),\n                    jnp.array(n).reshape(1, 1)\n                ), axis=-1\n            )\n\n        prompt_tokens[\"prompt_input_ids\"] = add_tkn(\n            self.tokenizer.bos_token_id,\n            prompt_tokens[\"prompt_input_ids\"]\n        )\n        chosen_tokens[\"prompt_input_ids\"] = add_tkn(\n            self.tokenizer.bos_token_id,\n            chosen_tokens[\"prompt_input_ids\"]\n        )\n        rejected_tokens[\"prompt_input_ids\"] = add_tkn(\n            self.tokenizer.bos_token_id,\n            rejected_tokens[\"prompt_input_ids\"]\n        )\n\n        prompt_tokens[\"prompt_attention_mask\"] = add_tkn(\n            1, prompt_tokens[\"prompt_attention_mask\"]\n        )\n        chosen_tokens[\"prompt_attention_mask\"] = add_tkn(\n            1, chosen_tokens[\"prompt_attention_mask\"]\n        )\n        rejected_tokens[\"prompt_attention_mask\"] = add_tkn(\n            1, rejected_tokens[\"prompt_attention_mask\"]\n        )\n\n        # add EOS token to end of answer\n        chosen_tokens[\"input_ids\"] = add_post_tkn(self.tokenizer.eos_token_id, chosen_tokens[\"input_ids\"])\n        chosen_tokens[\"attention_mask\"] = add_post_tkn(1, chosen_tokens[\"attention_mask\"])\n\n        rejected_tokens[\"input_ids\"] = add_post_tkn(self.tokenizer.eos_token_id, rejected_tokens[\"input_ids\"])\n        rejected_tokens[\"attention_mask\"] = add_post_tkn(1, rejected_tokens[\"attention_mask\"])\n\n        longer_response_length = max(chosen_tokens[\"input_ids\"].shape[-1], rejected_tokens[\"input_ids\"].shape[-1])\n\n        # if combined sequence is too long, truncate the prompt\n        for answer_tokens in [chosen_tokens, rejected_tokens, prompt_tokens]:\n            length_rn = answer_tokens[\"prompt_input_ids\"].shape[-1] + longer_response_length\n            if length_rn &gt; self.max_length:\n\n                if self.truncation_mode == \"keep_start\":\n                    for k in [\"prompt_input_ids\", \"prompt_attention_mask\"]:\n                        answer_tokens[k] = answer_tokens[k][:, : self.max_prompt_length]\n                elif self.truncation_mode == \"keep_end\":\n                    for k in [\"prompt_input_ids\", \"prompt_attention_mask\"]:\n                        answer_tokens[k] = answer_tokens[k][:, -self.max_prompt_length:]\n                else:\n                    raise ValueError(f\"Unknown truncation mode: {self.truncation_mode}\")\n        # if that's still too long, truncate the response\n        for answer_tokens in [chosen_tokens, rejected_tokens]:\n            if answer_tokens[\"prompt_input_ids\"].shape[-1] + longer_response_length &gt; self.max_length:\n                for k in [\"input_ids\", \"attention_mask\"]:\n                    answer_tokens[k] = answer_tokens[k][:, : self.max_length - self.max_prompt_length]\n\n        chosen_sequence_tokens = {\n            k: jnp.concatenate(\n                (v2d(chosen_tokens[f\"prompt_{k}\"]), v2d(chosen_tokens[k])),\n                axis=-1\n            ) for k in [\"input_ids\", \"attention_mask\"]\n        }\n        rejected_sequence_tokens = {\n            k: jnp.concatenate(\n                (v2d(rejected_tokens[f\"prompt_{k}\"]), v2d(rejected_tokens[k])),\n                axis=-1\n            ) for k in [\"input_ids\", \"attention_mask\"]\n        }\n        chosen_sequence_tokens[\"labels\"] = chosen_sequence_tokens[\"input_ids\"][:]\n        chosen_sequence_tokens[\"labels\"] = chosen_sequence_tokens[\"labels\"].at[\n                                           : len(chosen_tokens[\"prompt_input_ids\"])\n                                           ].set([self.label_pad_token_id] * len(chosen_tokens[\"prompt_input_ids\"]))\n        rejected_sequence_tokens[\"labels\"] = rejected_sequence_tokens[\"input_ids\"][:]\n        rejected_sequence_tokens[\"labels\"] = rejected_sequence_tokens[\"labels\"].at[\n                                             : len(rejected_tokens[\"prompt_input_ids\"])\n                                             ].set(\n            ([self.label_pad_token_id] * len(rejected_tokens[\"prompt_input_ids\"]))\n        )\n\n        for k, tokens_ in {\n            \"chosen_\": chosen_sequence_tokens,\n            \"rejected_\": rejected_sequence_tokens,\n            \"\": prompt_tokens,\n        }.items():\n            for type_key, tokens in tokens_.items():\n                if type_key == \"token_type_ids\":\n                    continue\n\n                b, s = tokens.shape\n\n                if self.max_prompt_length &gt; s:\n                    if k == \"chosen_\":\n                        if type_key == \"input_ids\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_completion_length,\n                                pad_value=self.padding_value,\n                                axis=-1\n                            )\n                        elif type_key == \"attention_mask\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_completion_length,\n                                pad_value=0,\n                                axis=-1\n                            )\n                        elif type_key == \"labels\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_completion_length,\n                                pad_value=self.padding_value,\n                                axis=-1\n                            )\n\n                        tokens = tokens[..., :self.max_completion_length]\n\n                        if tokens.shape[-1] != self.max_completion_length:\n                            raise ValueError(\n                                f\"there was an error in padding token with `type_key` of {type_key}\"\n                                f\". it must have sequence_length of {self.max_completion_length} but we got {tokens.shape[-1]}\"\n                                f\" From {k}{type_key}\"\n                            )\n                        tokens = tokens[..., :self.max_completion_length]\n                    elif k == \"rejected_\":\n                        if type_key == \"input_ids\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_completion_length,\n                                pad_value=self.padding_value,\n                                axis=-1\n                            )\n                        elif type_key == \"attention_mask\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_completion_length,\n                                pad_value=0,\n                                axis=-1\n                            )\n                        elif type_key == \"labels\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_completion_length,\n                                pad_value=self.padding_value,\n                                axis=-1\n                            )\n                        tokens = tokens[..., :self.max_completion_length]\n                        if tokens.shape[-1] != self.max_completion_length:\n                            raise ValueError(\n                                f\"there was an error in padding token with `type_key` of {type_key}\"\n                                f\". it must have sequence_length of {self.max_completion_length} but we got {tokens.shape[-1]}\"\n                                f\" From {k}{type_key}\"\n                            )\n                    elif k == \"\":\n                        if type_key == \"prompt_input_ids\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_prompt_length,\n                                pad_value=self.padding_value,\n                                axis=-1\n                            )\n                        elif type_key == \"prompt_attention_mask\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_prompt_length,\n                                pad_value=0,\n                                axis=-1\n                            )\n                        elif type_key == \"prompt_labels\":\n                            tokens = pad_to_length(\n                                tokens,\n                                self.max_prompt_length,\n                                pad_value=self.padding_value,\n                                axis=-1\n                            )\n                        tokens = tokens[..., :self.max_prompt_length]\n                        if tokens.shape[-1] != self.max_prompt_length:\n                            raise ValueError(\n                                f\"there was an error in padding token with `type_key` of {type_key}\"\n                                f\". it must have sequence_length of {self.max_prompt_length} but we got {tokens.shape[-1]}\"\n                                f\" From {k}{type_key}\"\n                            )\n                batch[f\"{k}{type_key}\"] = tokens\n        return batch\n\n    def configure_functions(self) -&gt; TrainerConfigureFunctionFuncOutput:\n        \"\"\"\n        The configure_functions function is responsible for configuring the functions that will be used in training.\n        It does this by first defining a function called function_configurations, which initializes the model parameters\n         and returns\n        them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate\n        on a batch of data, including:\n        :param self: Access the class attributes\n        :return: A TrainerConfigureFunctionFuncOutput object\n\n        \"\"\"\n\n        def initialize_state_function():\n            initialized_parameters = self.model.init_weights(\n                jax.random.PRNGKey(0),\n                self.arguments.init_input_shape\n            )\n\n            if self.arguments.dtype == jnp.bfloat16:\n                initialized_parameters = self.model.to_bf16(initialized_parameters)\n            elif self.arguments.dtype == jnp.float16:\n                initialized_parameters = self.model.to_fp16(initialized_parameters)\n\n            tx = self.tx\n            parameters = flax.core.freeze({\"params\": initialized_parameters})\n            tx_init = copy.deepcopy(self.arguments.optimizer_kwargs)\n\n            if self.rapture is not None:\n                lora_parameters = self.lora_parameters\n                if self.arguments.dtype == jnp.bfloat16:\n                    lora_parameters = self.model.to_bf16(lora_parameters)\n                elif self.arguments.dtype == jnp.float16:\n                    lora_parameters = self.model.to_fp16(lora_parameters)\n\n                return EasyDeLState(\n                    step=0,\n                    apply_fn=self.lora_apply_fn,\n                    params=lora_parameters,\n                    tx=self.lora_tx,\n                    opt_state=self.lora_opt_state,\n                    tx_init=EasyDeLState.safe_dict(tx_init),\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.lora_model,\n                    module_config=self.model.config,\n                    module_config_args=None,\n                )\n            else:\n                return EasyDeLState.create(\n                    tx=tx,\n                    params=parameters,\n                    apply_fn=self.model.__call__,\n                    module_config=copy.deepcopy(self.model.config),\n                    tx_init=tx_init,\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.model,\n                    module_config_args=None\n                )\n\n        def create_state_from_params_function(parameters):\n            if self.rapture is None:\n                return EasyDeLState.create(\n                    tx=self.tx,\n                    params=parameters,\n                    apply_fn=self.model.__call__,\n                    module_config=copy.deepcopy(self.model.config),\n                    tx_init=copy.deepcopy(self.arguments.optimizer_kwargs),\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.model,\n                    module_config_args=None\n                )\n            else:\n                return EasyDeLState(\n                    step=0,\n                    apply_fn=self.lora_apply_fn,\n                    params=parameters,\n                    tx=self.lora_tx,\n                    opt_state=self.lora_opt_state,\n                    tx_init=EasyDeLState.safe_dict(copy.deepcopy(self.arguments.optimizer_kwargs)),\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.lora_model,\n                    module_config=self.model.config,\n                    module_config_args=None,\n                )\n\n        state_shape = jax.eval_shape(initialize_state_function)\n        state_partition_spec = match_partition_rules(\n            self.config.get_partition_rules(\n                fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n            ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n            state_shape\n        )\n        create_sharded_state_from_params_function = pjit(\n            create_state_from_params_function,\n            in_shardings=(state_partition_spec.params,),\n            out_shardings=state_partition_spec,\n            donate_argnums=(0,)\n        )\n        sharded_train_step_function = pjit(\n            create_orpo_step_function(\n                mode=\"train\",\n                beta=self.beta,\n                concatenated_forward=self.concatenated_forward,\n                batch_partition_spec=self.arguments.step_partition_spec\n            ),\n            in_shardings=(state_partition_spec, PartitionSpec()),\n            out_shardings=(state_partition_spec, PartitionSpec(),),\n\n        )\n\n        sharded_eval_step_function = pjit(\n            create_orpo_step_function(\n                mode=\"eval\",\n                beta=self.beta,\n                concatenated_forward=self.concatenated_forward,\n                batch_partition_spec=self.arguments.step_partition_spec\n            ),\n            in_shardings=(state_partition_spec, PartitionSpec()),\n            out_shardings=(state_partition_spec, PartitionSpec(),),\n\n        )\n\n        mesh = self.arguments.get_mesh()\n        self.arguments.ckpt_path_exists()\n        checkpoint_manager = self.arguments.get_streaming_checkpointer()\n        self.state_partition_spec = state_partition_spec\n        self.state_shape = state_shape\n\n        return TrainerConfigureFunctionFuncOutput(\n            create_sharded_state_from_params_function=create_sharded_state_from_params_function,\n            sharded_train_step_function=sharded_train_step_function,\n            sharded_eval_step_function=sharded_eval_step_function,\n            mesh=mesh,\n            checkpoint_manager=checkpoint_manager,\n            initialize_state_function=initialize_state_function\n        )\n\n    def initialize_state(\n            self,\n            model_parameters: Optional[flax.core.FrozenDict] = None,\n            state: Optional[EasyDeLState] = None,\n    ) -&gt; Tuple[EasyDeLState, Mapping[str, Callable], Mapping[str, Callable]]:\n        if model_parameters is None and state is None and self.rapture is None and self.checkpoint_path is None:\n            raise RuntimeError(\n                \"You are passing `model_parameters=None`, `state=None`, and `checkpoint_path=None` and also you are not\"\n                \" using LoRA, if you are \"\n                \"Using LoRA make sure to pass parameters and Rapture Config correctly otherwise pass the \"\n                \"model_parameters or state.\"\n            )\n        if model_parameters is None and state is None:\n            model_parameters = self.lora_parameters\n        with self.mesh:\n            shard_fns, gather_fns = make_shard_and_gather_fns(\n                self.state_partition_spec,\n                dtype_specs=self.dtype\n            )\n            if state is not None:\n                sharded_state = state\n                params = sharded_state.params if not self.arguments.do_shard_fns else jax.tree_util.tree_map(\n                    lambda f, x: f(x),\n                    shard_fns.params,\n                    sharded_state.params\n                )\n                sharded_state.params = params\n                if sharded_state.opt_state is None:\n                    prefix_print(\n                        \"Action\", \"Optimizer State is not Found!, initializing one.\"\n                    )\n                    with jax.default_device(self.arguments.offload_device):\n                        sharded_state = sharded_state.init_opt_state()\n                        opt_state = sharded_state.opt_state if not self.arguments.do_shard_fns else jax.tree_util.tree_map(\n                            lambda f, x: f(x),\n                            shard_fns.opt_state,\n                            sharded_state.opt_state\n                        )\n                        sharded_state = sharded_state.replace(\n                            opt_state=opt_state\n                        )\n            elif self.finetune:\n\n                if model_parameters is None and self.checkpoint_path is not None:\n                    prefix_print(\n                        \"Action\", f\"Loading Model From {self.checkpoint_path}\"\n                    )\n                    with jax.default_device(self.arguments.offload_device):\n                        sharded_state = EasyDeLState.load_state(\n                            verbose=self.arguments.verbose,\n                            state_shard_fns=shard_fns,\n                            init_optimizer_state=True,\n                            checkpoint_path=self.checkpoint_path,\n                            input_shape=self.arguments.init_input_shape,\n                            config_kwargs=self.arguments.loaded_model_config_kwargs\n                        )\n                        state_shape = jax.eval_shape(lambda: sharded_state)\n                        state_partition_spec = match_partition_rules(\n                            self.config.get_partition_rules(\n                                fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n                            ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n                            state_shape\n                        )\n                        sharded_train_step_function = pjit(\n                            create_orpo_step_function(\n                                mode=\"train\",\n                                beta=self.beta,\n                                concatenated_forward=self.concatenated_forward,\n                                batch_partition_spec=self.arguments.step_partition_spec\n                            ),\n                            in_shardings=(state_partition_spec, PartitionSpec()),\n                            out_shardings=(state_partition_spec, PartitionSpec(),),\n\n                        )\n\n                        sharded_eval_step_function = pjit(\n                            create_orpo_step_function(\n                                mode=\"eval\",\n                                beta=self.beta,\n                                concatenated_forward=self.concatenated_forward,\n                                batch_partition_spec=self.arguments.step_partition_spec\n                            ),\n                            in_shardings=(state_partition_spec, PartitionSpec()),\n                            out_shardings=(state_partition_spec, PartitionSpec(),),\n                        )\n\n                        self.state_partition_spec = state_partition_spec\n                        self.state_shape = state_shape\n                        self.sharded_train_step_function = sharded_train_step_function\n                        self.sharded_eval_step_function = sharded_eval_step_function\n\n                    if self.arguments.remove_ckpt_after_load:\n                        os.remove(self.checkpoint_path)\n                elif model_parameters is not None and self.checkpoint_path is None:\n                    prefix_print(\n                        \"Action\", f\"Sharding Passed Parameters\"\n                    )\n                    from flax.core import unfreeze\n                    if not isinstance(model_parameters, flax.core.FrozenDict):\n                        prefix_print(\n                            \"Warning\",\n                            \"Model Parameters should be like FrozenDict({'params': params}) make sure to \"\n                            \"pass as type FrozenDict in case of not getting UnExcepted Errors \"\n                        )\n\n                    model_parameters = model_parameters if not self.arguments.do_shard_fns else jax.tree_util.tree_map(\n                        lambda f, x: f(x),\n                        shard_fns.params,\n                        model_parameters,\n                    )\n                    sharded_state = self.create_sharded_state_from_params_function(model_parameters)\n                elif model_parameters is not None and self.checkpoint_path is not None:\n                    raise EasyDeLTimerError(\n                        \"You can't pass `model_parameters` and `checkpoint_path` at same time\"\n                    )\n                else:\n                    raise EasyDeLTimerError(\n                        \"You should pass `model_parameters` or `checkpoint_path` to trainer in order to load model\"\n                    )\n            else:\n                sharded_state = self.initialize_state_function()\n                params = sharded_state.params if not self.arguments.do_shard_fns else jax.tree_util.tree_map(\n                    lambda f, x: f(x),\n                    shard_fns.params,\n                    sharded_state.params\n                )\n                sharded_state.params = params\n\n            self.sharded_state = sharded_state\n            return sharded_state, shard_fns, gather_fns\n\n    def _save_state(\n            self,\n            state: EasyDeLState,\n            gather_fns: Optional[Any | Mapping[str, Callable] | dict[Callable]],\n            milestone: bool = False\n    ) -&gt; str:\n        step = int(\n            jax.device_get(\n                state.step\n            )\n        ) + self.arguments.step_start_point if self.arguments.step_start_point is not None else int(\n            jax.device_get(\n                state.step\n            )\n        )\n\n        checkpoint_dir = os.path.join(self.arguments.save_dir, self.arguments.model_name)\n        filename_extension = \".easy\"\n        if self.arguments.save_total_limit:\n            checkpoint_files = glob(os.path.join(checkpoint_dir, f\"*{filename_extension}\"))\n            checkpoint_files.sort(key=os.path.getmtime)\n            for old_checkpoint in checkpoint_files[:-self.arguments.save_total_limit]:\n                os.remove(old_checkpoint)\n                termcolor.cprint(f\"Removed old checkpoint: {old_checkpoint}\", color=\"red\", force_color=True)\n\n        checkpoint_name = f\"{self.arguments.model_name}-S{step}\"\n        filename = f\"{checkpoint_name}_{step}\" if milestone else f\"{checkpoint_name}\"\n        filename += \".easy\"\n        termcolor.cprint(f\"Saving Model {filename}.\", color=\"cyan\", force_color=True)\n        state.save_state(\n            filename=filename,\n            checkpoint_dir=checkpoint_dir,\n            gather_fns=gather_fns,\n            float_dtype=self.dtype,\n            verbose=self.arguments.verbose,\n            save_optimizer=self.arguments.save_optimizer_state,\n        )\n        return filename\n\n    def initialize_trainer_utils(self):\n        \"\"\"\n        The initialize_trainer_utils function is responsible for initializing the following:\n            - wandb_runtime (if you use_wandb is True)\n            - timer object (for logging time taken by various functions)\n            - dataloader objects for training and evaluation data, along with max steps per epoch.\n              The configure_dataloader function accomplishes this task.\n\n        :param self: Represent the instance of the class\n        :return: A tuple of functions\n\n        \"\"\"\n        self.wandb_runtime = self.arguments.get_wandb_init() if self.arguments.use_wandb else None\n        self.timer = Timers(\n            use_wandb=False,\n            tensorboard_writer=self.arguments.get_board()\n        )\n\n        self.timer(\"configure dataloaders\").start()\n        dataset_configurations = self.configure_dataloader()\n        self.dataloader_train = dataset_configurations.dataloader_train\n        self.max_training_steps = dataset_configurations.max_training_steps\n        self.dataloader_eval = dataset_configurations.dataloader_eval\n        self.max_evaluation_steps = dataset_configurations.max_evaluation_steps\n\n        self.timer(\"configure dataloaders\").stop()\n\n        self.timer.log([\"configure dataloaders\"])\n\n        self.timer(\"configure Model, Optimizer, Scheduler and Config\").start()\n        model_configurations = self.configure_model()\n        model = model_configurations.model\n        tx = model_configurations.tx\n        scheduler = model_configurations.scheduler\n        config = model_configurations.config\n        self.model = model\n        self.tx = tx\n        self.scheduler = scheduler\n        self.config = config\n        if self.rapture is not None:\n            lora_modules = self.rapture.apply_lora(\n                module=model,\n                parameters=self.arguments.rapture_config.parameters,\n                tx=tx,\n            )\n            self.lora_parameters = lora_modules.lora_parameters\n            self.lora_apply_fn = lora_modules.lora_module.__call__\n            self.lora_opt_state = lora_modules.lora_opt_state\n            self.lora_model = lora_modules.lora_module\n            self.lora_tx = lora_modules.lora_tx\n\n        self.timer(\"configure Model, Optimizer, Scheduler and Config\").stop()\n        self.timer.log([\"configure Model, Optimizer, Scheduler and Config\"])\n\n        self.timer(\"configure functions and sharding them\").start()\n\n        function_configurations = self.configure_functions()\n        self.create_sharded_state_from_params_function = (\n            function_configurations.create_sharded_state_from_params_function\n        )\n        self.sharded_train_step_function = function_configurations.sharded_train_step_function\n        self.sharded_eval_step_function = function_configurations.sharded_eval_step_function\n        self.mesh = function_configurations.mesh\n        self.checkpoint_manager = function_configurations.checkpoint_manager\n        self.initialize_state_function = function_configurations.initialize_state_function\n        self.timer(\"configure functions and sharding them\").stop()\n        self.timer.log([\"configure functions and sharding them\"])\n\n    def create_collate_function(\n            self,\n            max_sequence_length: int,\n            truncation_mode: typing.Literal[\"keep_end\", \"keep_start\"] = \"keep_end\",\n    ) -&gt; Callable:\n        return self.data_collator\n\n    def shard_states(self, state, rules):\n        with self.arguments.get_mesh():\n            partition_spec = match_partition_rules(rules=rules, params=jax.eval_shape(lambda: state))\n\n            def _shard(x):\n                return x\n\n            shard = pjit(\n                _shard,\n                in_shardings=(PartitionSpec(),),\n                out_shardings=partition_spec\n            )\n            return shard(state)\n\n    def configure_dataloader(self) -&gt; TrainerConfigureDataloaderFuncOutput:\n        dataloader_train = self.get_train_dataloader()\n        max_evaluation_steps = None\n        dataloader_eval = None\n\n        max_training_steps = self.arguments.num_train_epochs * len(\n            dataloader_train\n        ) if self.arguments.max_training_steps is None else self.arguments.max_training_steps\n        if self.eval_dataset is not None:\n            dataloader_eval = self.get_eval_dataloader(self.eval_dataset)\n            max_evaluation_steps = len(dataloader_eval)\n        return TrainerConfigureDataloaderFuncOutput(\n            dataloader_train=dataloader_train,  # type:ignore\n            max_training_steps=max_training_steps,\n            dataloader_eval=dataloader_eval,\n            max_evaluation_steps=max_evaluation_steps\n        )\n\n    def _get_train_dataloader(self) -&gt; tensorflow.data.Dataset:\n\n        \"\"\"\n        The _get_train_dataloader function is used to create a tensorflow.data.Dataset object for the training dataset.\n\n        :param self: Represent the instance of the class\n        :return: A dataloader object\n        \"\"\"\n        if self.train_dataset is None:\n            raise ValueError(\"Trainer: training requires a train_dataset.\")\n\n        train_dataset = self.train_dataset\n        data_collator = self.data_collator\n\n        return tensorflow_datasets.as_numpy(\n            train_dataset.to_tf_dataset(\n                batch_size=self.arguments.total_batch_size,\n                collate_fn=data_collator,\n                num_workers=self.arguments.dataloader_num_workers,\n                shuffle=True,\n                drop_remainder=True\n            )\n        )\n\n    def _get_eval_dataloader(self, eval_dataset: Optional[Dataset] = None) -&gt; tensorflow.data.Dataset:\n        \"\"\"\n        Returns the evaluation [`~tensorflow.data.Dataset`].\n\n        Subclass and override this method if you want to inject some custom behavior.\n\n        Args:\n            eval_dataset (`torch.utils.data.Dataset`, *optional*):\n                If provided, will override `self.eval_dataset`. If it is a [`~datasets.Dataset`], columns not accepted\n                by the `model.forward()` method are automatically removed. It must implement `__len__`.\n        \"\"\"\n        if eval_dataset is None and self.eval_dataset is None:\n            raise ValueError(\"Trainer: evaluation requires an eval_dataset.\")\n        eval_dataset = eval_dataset if eval_dataset is not None else self.eval_dataset\n\n        return tensorflow_datasets.as_numpy(\n            eval_dataset.to_tf_dataset(\n                batch_size=self.arguments.total_batch_size,\n                collate_fn=self.data_collator,\n                num_workers=self.arguments.dataloader_num_workers,\n                shuffle=False,\n                drop_remainder=True\n            )\n        )\n\n    def get_train_dataloader(\n            self,\n    ) -&gt; tensorflow.data.Dataset:\n        \"\"\"\n        Returns the training [`~tensorflow.data.Dataset`].\n        \"\"\"\n        return self._get_train_dataloader()\n\n    def get_eval_dataloader(self, eval_dataset: Optional[Dataset] = None) -&gt; tensorflow.data.Dataset:\n        \"\"\"\n        Returns the evaluation [`~tensorflow.data.Dataset`].\n        \"\"\"\n        if eval_dataset is None and self.eval_dataset is None:\n            raise ValueError(\"Trainer: evaluation requires an eval_dataset.\")\n        eval_dataset = eval_dataset if eval_dataset is not None else self.eval_dataset\n        return self._get_eval_dataloader(eval_dataset=eval_dataset)\n\n    def train(\n            self,\n            model_parameters: Optional[flax.core.FrozenDict] = None,\n            state: Optional[EasyDeLState] = None\n    ) -&gt; ORPOTrainerOutput:\n        def get_layer_names(frozen_dict, prefix=\"\"):\n            layer_names = {}\n            for key, value in frozen_dict.items():\n                if isinstance(value, FrozenDict):\n                    layer_names.update(get_layer_names(value, prefix=f\"{prefix}_{key}\"))\n                else:\n                    layer_name = f\"{prefix}_{key}\".lstrip(\"/\")\n                    layer_names[layer_name] = value\n            return layer_names\n\n        def count_model_parameters(_p):\n            termcolor.cprint(\n                f\"Model Contain {sum(n.size for n in jax.tree_util.tree_flatten(flax.core.unfreeze(_p))[0]) / 1e9} \"\n                f\"Billion Parameters\",\n                color=\"red\", force_color=True\n            )\n\n        checkpoint_path = \"SAVING_SKIPPED\"\n        if self.arguments.performance_mode:\n            termcolor.cprint(\n                \"Performance Mode is ON, we will ignore the Memory Tracking, WANDB Logging, and extra information \"\n                \"Process.\",\n                color=\"red\",\n                force_color=True\n            )\n        sharded_state, shard_fns, gather_fns = self.initialize_state(\n            model_parameters=model_parameters,\n            state=state\n        )\n        self.model_state = sharded_state\n        count_model_parameters(sharded_state.params)\n        with self.mesh:\n            with jax.default_device(jax.devices(\"cpu\")[0]) if self.low_mem_usage else leave_alone_context_manager():\n                dir_prefix: str = \"/dev/shm\" if sys.platform != \"win32\" else \".\"\n                checkpoint_path = \"SAVING_SKIPPED\"\n\n                pbar = tqdm(total=self.max_training_steps)\n                pbar.set_description(\"Training\")\n                current_step = self.model_state.step.tolist() if isinstance(\n                    self.model_state.step,\n                    jax.Array\n                ) else self.model_state.step\n\n                loss_sum = None\n\n                try:\n                    for epoch_index in range(self.arguments.num_train_epochs):\n                        for batch in self.dataloader_train:\n                            current_step += 1\n                            if self.arguments.step_start_point &gt; current_step:\n                                ...\n                            elif current_step &lt; self.max_training_steps:\n                                time_start = time.time()\n\n                                self.model_state, outputs = self.sharded_train_step_function(\n                                    self.model_state,\n                                    batch\n                                )\n                                total_time = time.time() - time_start\n                                (loss, metrics) = outputs.loss, outputs.metrics\n\n                                loss_sum = loss.tolist() if loss_sum is None else loss_sum + loss\n\n                                train_metrics = {\n                                    \"train/loss\": loss.tolist(),\n                                    \"train/mean_loss\": loss_sum / (current_step - self.arguments.step_start_point),\n                                    \"train/learning_rate\": self.scheduler(\n                                        jax.device_get(self.model_state.step)).tolist(),\n                                    \"train/step\": current_step,\n                                    \"train/step_time\": total_time,\n                                    \"train/perplexity\": jnp.exp(loss).tolist(),\n                                    \"train/epoch\": epoch_index\n                                }\n                                train_metrics.update(metrics)\n                                log_metrics = copy.deepcopy(train_metrics)\n                                train_metrics.update(self.arguments.captured_memory)\n                                if self.arguments.use_wandb:\n                                    with jax.spmd_mode(\"allow_all\"):\n                                        self.wandb_runtime.log(\n                                            train_metrics\n                                        )\n                                pbar.update(1)\n                                pbar.set_postfix(**{k.replace(\"train/\", \"\"): v for k, v in log_metrics.items()})\n                            else:\n                                break\n                except KeyboardInterrupt:\n                    termcolor.cprint(\n                        \"KeyboardInterrupt At training model Will return Current State of the Model with Parameters.\",\n                        color=\"cyan\",\n                        force_color=True\n                    )\n\n                except EasyDeLTimerError:\n                    termcolor.cprint(\n                        \"Training reached out maximum training Time Killing training Process \"\n                        \"and Will return Current State of the Model with Parameters.\",\n                        color=\"cyan\",\n                        force_color=True\n                    )\n\n                if self.arguments.merge_lora_rapture_parameters and self.rapture is not None:\n                    print(\n                        termcolor.colored(\n                            \"Info : \", color=\"red\", force_color=True\n                        ),\n                        termcolor.colored(\n                            \"Merging LoRA Parameters.\", color=\"white\", force_color=True\n                        )\n                    )\n                    self.model_state = self.model_state.replace(\n                        params=self.rapture.merge_parameters(self.model_state.params)\n                    )\n\n                shard_fns, gather_fns = make_shard_and_gather_fns(\n                    partition_specs=match_partition_rules(\n                        rules=self.model_state.module.config.get_partition_rules(\n                            self.arguments.fully_sharded_data_parallel\n                        ),\n                        params=jax.eval_shape(lambda: self.model_state)\n                    ),\n                    dtype_specs=self.arguments.dtype\n                )\n                output = ORPOTrainerOutput(\n                    state=self.model_state,\n                    mesh=self.mesh,\n                    shard_fns=shard_fns,\n                    gather_fns=gather_fns,\n                    checkpoint_manager=self.checkpoint_manager,\n                )\n                if self.arguments.save_steps is None and self.arguments.do_last_save:\n                    shard_fns, gather_fns = make_shard_and_gather_fns(\n                        match_partition_rules(\n                            self.config.get_partition_rules(\n                                fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n                            ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n                            jax.eval_shape(lambda: self.model_state)\n                        ),\n                        dtype_specs=self.dtype\n                    )  # You have to re-init the new shard and gather functions in order to be able to skip LoRA weight\n                    # crashing errors and saving errors\n                    filename = self._save_state(\n                        state=self.model_state,\n                        gather_fns=gather_fns\n                    )\n                    checkpoint_path = f\"{str(self.arguments.get_path())}/{filename}\"\n\n                if self.arguments.do_eval:\n                    for _ in self.eval(\n                            self.model_state\n                    ):\n                        ...\n\n                output.checkpoint_path = checkpoint_path\n                output.last_save_file_name = filename\n                wandb.finish()\n\n        return output\n\n    def eval(self, model_state: EasyDeLState) -&gt; typing.Iterator[dict]:\n        \"\"\"Evaluate the Given Model State and yield the eval metrics\"\"\"\n        assert self.eval_dataset is not None, \"`dataloader_eval` is required by evaluator function.\"\n        with self.mesh:\n            pbar = tqdm(total=self.max_evaluation_steps)\n            pbar.set_description(\"Evaluating\")\n            current_step = 0\n            loss_sum = None\n            try:\n                for batch in self.dataloader_eval:\n                    current_step += 1\n                    time_start = time.time()\n                    for key in self.arguments.ids_to_pop_from_dataset:\n                        _ = batch.pop(key, None)\n                    for key in list(batch.keys()):\n                        if not (\n                                key.endswith(\"_input_ids\")\n                                or key.endswith(\"_attention_mask\")\n                                or key.endswith(\"_labels\")\n                        ):\n                            _ = batch.pop(key, None)\n\n                    _, outputs = self.sharded_eval_step_function(\n                        model_state,\n                        batch\n                    )\n                    total_time = time.time() - time_start\n                    (\n                        loss, metrics\n                    ) = outputs.loss, outputs.metrics\n\n                    loss_sum = loss.tolist() if loss_sum is None else loss_sum + loss\n\n                    eval_metrics = {\n                        \"eval/loss\": loss.tolist(),\n                        \"eval/mean_loss\": loss_sum / (current_step - self.arguments.step_start_point),\n                        \"eval/step\": current_step,\n                        \"eval/step_time\": total_time,\n                        \"eval/perplexity\": jnp.exp(loss).tolist(),\n                    }\n                    eval_metrics.update(metrics)\n                    log_metrics = copy.deepcopy(eval_metrics)\n                    eval_metrics.update(self.arguments.captured_memory)\n                    if self.arguments.use_wandb:\n                        with jax.spmd_mode(\"allow_all\"):\n                            self.wandb_runtime.log(\n                                eval_metrics\n                            )\n\n                    pbar.update(1)\n                    pbar.set_postfix(**{k.replace(\"eval/\", \"\"): v for k, v in log_metrics.items()})\n                    yield eval_metrics\n            except KeyboardInterrupt:\n                termcolor.cprint(\n                    \"KeyboardInterrupt At Evaluation model Will return Nothing and just pass.\",\n                    color=\"cyan\",\n                    force_color=True\n                )\n\n    def __repr__(self):\n\n        \"\"\"\n        The __repr__ function is used to generate a string representation of an object.\n        This function should return a string that can be parsed by the Python interpreter\n        to recreate the object. The __repr__ function is called when you use print() on an\n        object, or when you type its name in the REPL.\n\n        :param self: Refer to the instance of the class\n        :return: A string representation of the object\n        \"\"\"\n        string = f\"{self.__class__.__name__}(\\n\"\n        for k, v in self.__dict__.items():\n            if not k.startswith(\"_\"):\n                try:\n                    repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                    string += repr_src if len(repr_src) &lt; 350 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n                except TypeError:\n                    repr_src = f\"\\t{k} : \" + \"EasyDeLReadingError\" + \"\\n\"\n                    string += repr_src if len(repr_src) &lt; 350 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n\n        return string + \")\"\n\n    def __str__(self):\n\n        \"\"\"\n        The __str__ function is called when you use the print function or when str() is used.\n        It should return a string representation of the object.\n\n        :param self: Refer to the instance of the class\n        :return: The object's string representation\n        \"\"\"\n        return self.__repr__()\n</code></pre>"},{"location":"generated-trainer-orpo-orpo_trainer/#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.__init__","title":"<code>__init__(arguments, max_length=None, max_prompt_length=None, max_completion_length=None, beta=0.1, disable_dropout=True, label_pad_token_id=-100, is_encoder_decoder=False, padding_value=None, data_collator=None, train_dataset=None, eval_dataset=None, tokenizer=None, _do_init_fns=True, dataset_map_arguments=None, low_mem_usage=False)</code>","text":"<p>The init function is called when the class is instantiated. It sets up the attributes of an object.</p> <p>:param self: Refer to the object itself :param beta: float: Control the strength of the regularization term :param arguments: TrainArguments: Pass the arguments to the trainer :param label_pad_token_id: int: Pad the labels :param padding_value: int: Specify the value that is used for padding :param train_dataset: Optional[Dataset]: Load the training dataset :param eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] : Pass the evaluation dataset to the trainer :param tokenizer: Optional[PreTrainedTokenizerBase]: Pass the tokenizer to the trainer :param max_length: Optional[int]: Set the maximum length of the input sequence :param max_prompt_length: Optional[int]: Set the maximum length of the prompt :param max_completion_length: Optional[int]: Truncate the target sequence :param data_collator: Optional[Callable]: Function to be used for creating datasets. tokenizing process with <code>dataset.map</code>. :param _do_init_fns: bool : preferred to set ture to trainer will automatically configure model with provided training Arguments :param : Set the padding value for the model</p> Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code> <pre><code>def __init__(\n        self,\n        arguments: TrainArguments,\n        max_length: Optional[int] = None,\n        max_prompt_length: Optional[int] = None,\n        max_completion_length: Optional[int] = None,\n        beta: float = 0.1,\n        disable_dropout: bool = True,\n        label_pad_token_id: int = -100,\n        is_encoder_decoder: bool = False,\n        padding_value: int = None,\n        data_collator: Optional[DPODataCollatorWithPadding] = None,\n        train_dataset: Optional[Dataset] = None,\n        eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] = None,\n        tokenizer: Optional[PreTrainedTokenizerBase] = None,\n        _do_init_fns: bool = True,\n        dataset_map_arguments: Optional[Dict[str, Any]] = None,\n        low_mem_usage: bool = False,\n):\n\n    \"\"\"\n    The __init__ function is called when the class is instantiated.\n    It sets up the attributes of an object.\n\n\n    :param self: Refer to the object itself\n    :param beta: float: Control the strength of the regularization term\n    :param arguments: TrainArguments: Pass the arguments to the trainer\n    :param label_pad_token_id: int: Pad the labels\n    :param padding_value: int: Specify the value that is used for padding\n    :param train_dataset: Optional[Dataset]: Load the training dataset\n    :param eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] : Pass the evaluation dataset to the trainer\n    :param tokenizer: Optional[PreTrainedTokenizerBase]: Pass the tokenizer to the trainer\n    :param max_length: Optional[int]: Set the maximum length of the input sequence\n    :param max_prompt_length: Optional[int]: Set the maximum length of the prompt\n    :param max_completion_length: Optional[int]: Truncate the target sequence\n    :param data_collator: Optional[Callable]: Function to be used for creating datasets.\n    tokenizing process with `dataset.map`.\n    :param _do_init_fns: bool : preferred to set ture to trainer will automatically configure\n    model with provided training Arguments\n    :param : Set the padding value for the model\n    \"\"\"\n\n    assert arguments is not None, (\n        \"You Have to pass arguments that will be used for training but you have passed\"\n        \"`arguments=None`\"\n    )\n    assert isinstance(arguments, TrainArguments), (\n        f\"arguments type must be `TrainArguments` but got {type(arguments)}\"\n    )\n\n    if tokenizer is None:\n        raise ValueError(\"tokenizer must be specified to tokenize a ORPO dataset.\")\n    if max_length is None:\n        warnings.warn(\n            \"`max_length` is not set in the ORPOTrainer's init\"\n            \" it will default to `512` by default, but you should do it yourself in the future.\",\n            UserWarning,\n        )\n        max_length = 512\n    if max_prompt_length is None:\n        warnings.warn(\n            \"`max_prompt_length` is not set in the ORPOTrainer's init\"\n            \" it will default to `128` by default, but you should do it yourself in the future.\",\n            UserWarning,\n        )\n        max_prompt_length = 128\n\n    if max_completion_length is None:\n        warnings.warn(\n            \"When using an encoder decoder architecture, you should set `max_completion_length` in the \"\n            \"ORPOTrainer's init it will default to `128` by default, but you should do it yourself in the future.\",\n            UserWarning,\n        )\n        max_completion_length = 128\n\n    padding_value = padding_value if padding_value is not None else tokenizer.pad_token_id\n    self.max_length = max_length\n    self.label_pad_token_id = label_pad_token_id\n    self.padding_value = padding_value\n    self.max_prompt_length = max_prompt_length\n    self.truncation_mode = arguments.truncation_mode\n    self.disable_dropout = disable_dropout\n    self.max_completion_length = max_completion_length\n    self.tokenizer = tokenizer\n    self.is_encoder_decoder = is_encoder_decoder\n    self.low_mem_usage = low_mem_usage\n    self.beta = beta\n    data_collator = DPODataCollatorWithPadding(\n        max_prompt_length=self.max_prompt_length,\n        max_target_length=self.max_completion_length,\n        pad_token_id=tokenizer.pad_token_id,\n        label_pad_token_id=label_pad_token_id,\n        is_encoder_decoder=False,\n    ) if data_collator is None else data_collator\n    self._stored_metrics = defaultdict(lambda: defaultdict(list))\n    if dataset_map_arguments is None:\n        dataset_map_arguments = {}\n    train_dataset = train_dataset.map(\n        self.tokenize_row,\n        **dataset_map_arguments\n    )\n    if eval_dataset is not None:\n        eval_dataset = eval_dataset.map(\n            self.tokenize_row,\n            **dataset_map_arguments\n        )\n\n    self.arguments = arguments\n    self.hp_name = None\n    self.deepspeed = None\n    self.is_in_train = False\n\n    self.data_collator = data_collator\n    self.train_dataset = train_dataset\n    self.eval_dataset = eval_dataset\n    self.tokenizer = tokenizer\n    self._loggers_initialized = False\n    self.mesh = self.arguments.get_mesh()\n    assert padding_value is not None, \"`padding_value` can not be set as `None` it must be an integer.\"\n\n    self.concatenated_forward = create_concatenated_forward(\n        is_encoder_decoder=self.is_encoder_decoder,\n        padding_value=padding_value,\n        label_pad_token_id=label_pad_token_id,\n    )\n\n    self._cached_p_l_s = None\n    self._cached_c_l_s = None\n    self._cached_r_l_s = None\n\n    super().__init__(\n        arguments=arguments,\n        dataset_train=train_dataset,\n        dataset_eval=eval_dataset,\n        finetune=True,\n        checkpoint_path=None,\n        _do_init_fns=_do_init_fns\n    )\n</code></pre>"},{"location":"generated-trainer-orpo-orpo_trainer/#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.__repr__","title":"<code>__repr__()</code>","text":"<p>The repr function is used to generate a string representation of an object. This function should return a string that can be parsed by the Python interpreter to recreate the object. The repr function is called when you use print() on an object, or when you type its name in the REPL.</p> <p>:param self: Refer to the instance of the class :return: A string representation of the object</p> Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code> <pre><code>def __repr__(self):\n\n    \"\"\"\n    The __repr__ function is used to generate a string representation of an object.\n    This function should return a string that can be parsed by the Python interpreter\n    to recreate the object. The __repr__ function is called when you use print() on an\n    object, or when you type its name in the REPL.\n\n    :param self: Refer to the instance of the class\n    :return: A string representation of the object\n    \"\"\"\n    string = f\"{self.__class__.__name__}(\\n\"\n    for k, v in self.__dict__.items():\n        if not k.startswith(\"_\"):\n            try:\n                repr_src = f\"\\t{k} : \" + v.__str__().replace(\"\\n\", \"\\n\\t\") + \"\\n\"\n                string += repr_src if len(repr_src) &lt; 350 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n            except TypeError:\n                repr_src = f\"\\t{k} : \" + \"EasyDeLReadingError\" + \"\\n\"\n                string += repr_src if len(repr_src) &lt; 350 else f\"\\t{k} : \" + f\"{v.__class__.__name__}(...)\" + \"\\n\"\n\n    return string + \")\"\n</code></pre>"},{"location":"generated-trainer-orpo-orpo_trainer/#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.__str__","title":"<code>__str__()</code>","text":"<p>The str function is called when you use the print function or when str() is used. It should return a string representation of the object.</p> <p>:param self: Refer to the instance of the class :return: The object's string representation</p> Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code> <pre><code>def __str__(self):\n\n    \"\"\"\n    The __str__ function is called when you use the print function or when str() is used.\n    It should return a string representation of the object.\n\n    :param self: Refer to the instance of the class\n    :return: The object's string representation\n    \"\"\"\n    return self.__repr__()\n</code></pre>"},{"location":"generated-trainer-orpo-orpo_trainer/#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.build_tokenized_answer","title":"<code>build_tokenized_answer(prompt, answer)</code>","text":"<p>Llama tokenizer does satisfy <code>enc(a + b) = enc(a) + enc(b)</code>. It does ensure <code>enc(a + b) = enc(a) + enc(a + b)[len(enc(a)):]</code>.</p> Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code> <pre><code>def build_tokenized_answer(self, prompt, answer):\n    \"\"\"\n    Llama tokenizer does satisfy `enc(a + b) = enc(a) + enc(b)`.\n    It does ensure `enc(a + b) = enc(a) + enc(a + b)[len(enc(a)):]`.\n    \"\"\"\n\n    full_tokenized = self.tokenizer(prompt + answer, add_special_tokens=False)\n    prompt_input_ids = self.tokenizer(prompt, add_special_tokens=False)[\"input_ids\"]\n\n    answer_input_ids = full_tokenized[\"input_ids\"][len(prompt_input_ids):]\n    answer_attention_mask = full_tokenized[\"attention_mask\"][len(prompt_input_ids):]\n    prompt_input_ids = jnp.asarray(prompt_input_ids, dtype=\"i4\")\n    answer_input_ids = jnp.asarray(answer_input_ids, dtype=\"i4\")\n    full_concat_input_ids = jnp.concatenate(\n        (\n            prompt_input_ids,\n            answer_input_ids\n        )\n    )\n\n    # Prepare input tokens for token by token comparison\n    full_input_ids = jnp.array(full_tokenized[\"input_ids\"])\n\n    if len(full_input_ids) != len(full_concat_input_ids):\n        raise ValueError(\"Prompt input ids and answer input ids should have the same length.\")\n\n    response_token_ids_start_idx = len(prompt_input_ids)\n    if prompt_input_ids.tolist() != full_tokenized[\"input_ids\"][:response_token_ids_start_idx]:\n        response_token_ids_start_idx -= 1\n\n    prompt_input_ids = full_tokenized[\"input_ids\"][:response_token_ids_start_idx]\n    prompt_attention_mask = full_tokenized[\"attention_mask\"][:response_token_ids_start_idx]\n\n    if len(prompt_input_ids) != len(prompt_attention_mask):\n        raise ValueError(\"Prompt input ids and attention mask should have the same length.\")\n\n    answer_input_ids = full_tokenized[\"input_ids\"][response_token_ids_start_idx:]\n    answer_attention_mask = full_tokenized[\"attention_mask\"][response_token_ids_start_idx:]\n\n    return dict(\n        prompt_input_ids=jnp.array(prompt_input_ids, dtype=\"i4\"),\n        prompt_attention_mask=jnp.array(prompt_attention_mask, dtype=\"i4\"),\n        input_ids=jnp.array(answer_input_ids, dtype=\"i4\"),\n        attention_mask=jnp.array(answer_attention_mask, dtype=\"i4\"),\n    )\n</code></pre>"},{"location":"generated-trainer-orpo-orpo_trainer/#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.configure_functions","title":"<code>configure_functions()</code>","text":"<p>The configure_functions function is responsible for configuring the functions that will be used in training. It does this by first defining a function called function_configurations, which initializes the model parameters  and returns them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate on a batch of data, including: :param self: Access the class attributes :return: A TrainerConfigureFunctionFuncOutput object</p> Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code> <pre><code>def configure_functions(self) -&gt; TrainerConfigureFunctionFuncOutput:\n    \"\"\"\n    The configure_functions function is responsible for configuring the functions that will be used in training.\n    It does this by first defining a function called function_configurations, which initializes the model parameters\n     and returns\n    them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate\n    on a batch of data, including:\n    :param self: Access the class attributes\n    :return: A TrainerConfigureFunctionFuncOutput object\n\n    \"\"\"\n\n    def initialize_state_function():\n        initialized_parameters = self.model.init_weights(\n            jax.random.PRNGKey(0),\n            self.arguments.init_input_shape\n        )\n\n        if self.arguments.dtype == jnp.bfloat16:\n            initialized_parameters = self.model.to_bf16(initialized_parameters)\n        elif self.arguments.dtype == jnp.float16:\n            initialized_parameters = self.model.to_fp16(initialized_parameters)\n\n        tx = self.tx\n        parameters = flax.core.freeze({\"params\": initialized_parameters})\n        tx_init = copy.deepcopy(self.arguments.optimizer_kwargs)\n\n        if self.rapture is not None:\n            lora_parameters = self.lora_parameters\n            if self.arguments.dtype == jnp.bfloat16:\n                lora_parameters = self.model.to_bf16(lora_parameters)\n            elif self.arguments.dtype == jnp.float16:\n                lora_parameters = self.model.to_fp16(lora_parameters)\n\n            return EasyDeLState(\n                step=0,\n                apply_fn=self.lora_apply_fn,\n                params=lora_parameters,\n                tx=self.lora_tx,\n                opt_state=self.lora_opt_state,\n                tx_init=EasyDeLState.safe_dict(tx_init),\n                hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                module=self.lora_model,\n                module_config=self.model.config,\n                module_config_args=None,\n            )\n        else:\n            return EasyDeLState.create(\n                tx=tx,\n                params=parameters,\n                apply_fn=self.model.__call__,\n                module_config=copy.deepcopy(self.model.config),\n                tx_init=tx_init,\n                hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                module=self.model,\n                module_config_args=None\n            )\n\n    def create_state_from_params_function(parameters):\n        if self.rapture is None:\n            return EasyDeLState.create(\n                tx=self.tx,\n                params=parameters,\n                apply_fn=self.model.__call__,\n                module_config=copy.deepcopy(self.model.config),\n                tx_init=copy.deepcopy(self.arguments.optimizer_kwargs),\n                hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                module=self.model,\n                module_config_args=None\n            )\n        else:\n            return EasyDeLState(\n                step=0,\n                apply_fn=self.lora_apply_fn,\n                params=parameters,\n                tx=self.lora_tx,\n                opt_state=self.lora_opt_state,\n                tx_init=EasyDeLState.safe_dict(copy.deepcopy(self.arguments.optimizer_kwargs)),\n                hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                module=self.lora_model,\n                module_config=self.model.config,\n                module_config_args=None,\n            )\n\n    state_shape = jax.eval_shape(initialize_state_function)\n    state_partition_spec = match_partition_rules(\n        self.config.get_partition_rules(\n            fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n        ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n        state_shape\n    )\n    create_sharded_state_from_params_function = pjit(\n        create_state_from_params_function,\n        in_shardings=(state_partition_spec.params,),\n        out_shardings=state_partition_spec,\n        donate_argnums=(0,)\n    )\n    sharded_train_step_function = pjit(\n        create_orpo_step_function(\n            mode=\"train\",\n            beta=self.beta,\n            concatenated_forward=self.concatenated_forward,\n            batch_partition_spec=self.arguments.step_partition_spec\n        ),\n        in_shardings=(state_partition_spec, PartitionSpec()),\n        out_shardings=(state_partition_spec, PartitionSpec(),),\n\n    )\n\n    sharded_eval_step_function = pjit(\n        create_orpo_step_function(\n            mode=\"eval\",\n            beta=self.beta,\n            concatenated_forward=self.concatenated_forward,\n            batch_partition_spec=self.arguments.step_partition_spec\n        ),\n        in_shardings=(state_partition_spec, PartitionSpec()),\n        out_shardings=(state_partition_spec, PartitionSpec(),),\n\n    )\n\n    mesh = self.arguments.get_mesh()\n    self.arguments.ckpt_path_exists()\n    checkpoint_manager = self.arguments.get_streaming_checkpointer()\n    self.state_partition_spec = state_partition_spec\n    self.state_shape = state_shape\n\n    return TrainerConfigureFunctionFuncOutput(\n        create_sharded_state_from_params_function=create_sharded_state_from_params_function,\n        sharded_train_step_function=sharded_train_step_function,\n        sharded_eval_step_function=sharded_eval_step_function,\n        mesh=mesh,\n        checkpoint_manager=checkpoint_manager,\n        initialize_state_function=initialize_state_function\n    )\n</code></pre>"},{"location":"generated-trainer-orpo-orpo_trainer/#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.eval","title":"<code>eval(model_state)</code>","text":"<p>Evaluate the Given Model State and yield the eval metrics</p> Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code> <pre><code>def eval(self, model_state: EasyDeLState) -&gt; typing.Iterator[dict]:\n    \"\"\"Evaluate the Given Model State and yield the eval metrics\"\"\"\n    assert self.eval_dataset is not None, \"`dataloader_eval` is required by evaluator function.\"\n    with self.mesh:\n        pbar = tqdm(total=self.max_evaluation_steps)\n        pbar.set_description(\"Evaluating\")\n        current_step = 0\n        loss_sum = None\n        try:\n            for batch in self.dataloader_eval:\n                current_step += 1\n                time_start = time.time()\n                for key in self.arguments.ids_to_pop_from_dataset:\n                    _ = batch.pop(key, None)\n                for key in list(batch.keys()):\n                    if not (\n                            key.endswith(\"_input_ids\")\n                            or key.endswith(\"_attention_mask\")\n                            or key.endswith(\"_labels\")\n                    ):\n                        _ = batch.pop(key, None)\n\n                _, outputs = self.sharded_eval_step_function(\n                    model_state,\n                    batch\n                )\n                total_time = time.time() - time_start\n                (\n                    loss, metrics\n                ) = outputs.loss, outputs.metrics\n\n                loss_sum = loss.tolist() if loss_sum is None else loss_sum + loss\n\n                eval_metrics = {\n                    \"eval/loss\": loss.tolist(),\n                    \"eval/mean_loss\": loss_sum / (current_step - self.arguments.step_start_point),\n                    \"eval/step\": current_step,\n                    \"eval/step_time\": total_time,\n                    \"eval/perplexity\": jnp.exp(loss).tolist(),\n                }\n                eval_metrics.update(metrics)\n                log_metrics = copy.deepcopy(eval_metrics)\n                eval_metrics.update(self.arguments.captured_memory)\n                if self.arguments.use_wandb:\n                    with jax.spmd_mode(\"allow_all\"):\n                        self.wandb_runtime.log(\n                            eval_metrics\n                        )\n\n                pbar.update(1)\n                pbar.set_postfix(**{k.replace(\"eval/\", \"\"): v for k, v in log_metrics.items()})\n                yield eval_metrics\n        except KeyboardInterrupt:\n            termcolor.cprint(\n                \"KeyboardInterrupt At Evaluation model Will return Nothing and just pass.\",\n                color=\"cyan\",\n                force_color=True\n            )\n</code></pre>"},{"location":"generated-trainer-orpo-orpo_trainer/#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.get_eval_dataloader","title":"<code>get_eval_dataloader(eval_dataset=None)</code>","text":"<p>Returns the evaluation [<code>~tensorflow.data.Dataset</code>].</p> Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code> <pre><code>def get_eval_dataloader(self, eval_dataset: Optional[Dataset] = None) -&gt; tensorflow.data.Dataset:\n    \"\"\"\n    Returns the evaluation [`~tensorflow.data.Dataset`].\n    \"\"\"\n    if eval_dataset is None and self.eval_dataset is None:\n        raise ValueError(\"Trainer: evaluation requires an eval_dataset.\")\n    eval_dataset = eval_dataset if eval_dataset is not None else self.eval_dataset\n    return self._get_eval_dataloader(eval_dataset=eval_dataset)\n</code></pre>"},{"location":"generated-trainer-orpo-orpo_trainer/#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.get_train_dataloader","title":"<code>get_train_dataloader()</code>","text":"<p>Returns the training [<code>~tensorflow.data.Dataset</code>].</p> Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code> <pre><code>def get_train_dataloader(\n        self,\n) -&gt; tensorflow.data.Dataset:\n    \"\"\"\n    Returns the training [`~tensorflow.data.Dataset`].\n    \"\"\"\n    return self._get_train_dataloader()\n</code></pre>"},{"location":"generated-trainer-orpo-orpo_trainer/#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.initialize_trainer_utils","title":"<code>initialize_trainer_utils()</code>","text":"The initialize_trainer_utils function is responsible for initializing the following <ul> <li>wandb_runtime (if you use_wandb is True)</li> <li>timer object (for logging time taken by various functions)</li> <li>dataloader objects for training and evaluation data, along with max steps per epoch.   The configure_dataloader function accomplishes this task.</li> </ul> <p>:param self: Represent the instance of the class :return: A tuple of functions</p> Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code> <pre><code>def initialize_trainer_utils(self):\n    \"\"\"\n    The initialize_trainer_utils function is responsible for initializing the following:\n        - wandb_runtime (if you use_wandb is True)\n        - timer object (for logging time taken by various functions)\n        - dataloader objects for training and evaluation data, along with max steps per epoch.\n          The configure_dataloader function accomplishes this task.\n\n    :param self: Represent the instance of the class\n    :return: A tuple of functions\n\n    \"\"\"\n    self.wandb_runtime = self.arguments.get_wandb_init() if self.arguments.use_wandb else None\n    self.timer = Timers(\n        use_wandb=False,\n        tensorboard_writer=self.arguments.get_board()\n    )\n\n    self.timer(\"configure dataloaders\").start()\n    dataset_configurations = self.configure_dataloader()\n    self.dataloader_train = dataset_configurations.dataloader_train\n    self.max_training_steps = dataset_configurations.max_training_steps\n    self.dataloader_eval = dataset_configurations.dataloader_eval\n    self.max_evaluation_steps = dataset_configurations.max_evaluation_steps\n\n    self.timer(\"configure dataloaders\").stop()\n\n    self.timer.log([\"configure dataloaders\"])\n\n    self.timer(\"configure Model, Optimizer, Scheduler and Config\").start()\n    model_configurations = self.configure_model()\n    model = model_configurations.model\n    tx = model_configurations.tx\n    scheduler = model_configurations.scheduler\n    config = model_configurations.config\n    self.model = model\n    self.tx = tx\n    self.scheduler = scheduler\n    self.config = config\n    if self.rapture is not None:\n        lora_modules = self.rapture.apply_lora(\n            module=model,\n            parameters=self.arguments.rapture_config.parameters,\n            tx=tx,\n        )\n        self.lora_parameters = lora_modules.lora_parameters\n        self.lora_apply_fn = lora_modules.lora_module.__call__\n        self.lora_opt_state = lora_modules.lora_opt_state\n        self.lora_model = lora_modules.lora_module\n        self.lora_tx = lora_modules.lora_tx\n\n    self.timer(\"configure Model, Optimizer, Scheduler and Config\").stop()\n    self.timer.log([\"configure Model, Optimizer, Scheduler and Config\"])\n\n    self.timer(\"configure functions and sharding them\").start()\n\n    function_configurations = self.configure_functions()\n    self.create_sharded_state_from_params_function = (\n        function_configurations.create_sharded_state_from_params_function\n    )\n    self.sharded_train_step_function = function_configurations.sharded_train_step_function\n    self.sharded_eval_step_function = function_configurations.sharded_eval_step_function\n    self.mesh = function_configurations.mesh\n    self.checkpoint_manager = function_configurations.checkpoint_manager\n    self.initialize_state_function = function_configurations.initialize_state_function\n    self.timer(\"configure functions and sharding them\").stop()\n    self.timer.log([\"configure functions and sharding them\"])\n</code></pre>"},{"location":"generated-trainer-orpo-orpo_trainer/#src.python.easydel.trainer.orpo.orpo_trainer.ORPOTrainer.tokenize_row","title":"<code>tokenize_row(feature, state=None)</code>","text":"<p>The tokenize_row function is responsible for taking a single row of data and converting it into the format that the model expects. This includes: - Tokenizing the text (using HuggingFace's tokenizer) - Padding/truncating sequences to a fixed length (if necessary) - Creating attention masks, which tell the model which tokens are padding and which aren't.</p> <p>:param self: Represent the instance of the class :param feature: Pass in the data from the dataset :param state: EasyDeLState: Keep track of the state of the tokenizer :return: A dictionary of the following keys</p> Source code in <code>src/python/easydel/trainer/orpo/orpo_trainer.py</code> <pre><code>def tokenize_row(self, feature, state: EasyDeLState = None) -&gt; Dict:\n\n    \"\"\"\n    The tokenize_row function is responsible for taking a single row of data and converting it into the format that\n    the model expects. This includes:\n    - Tokenizing the text (using HuggingFace's tokenizer)\n    - Padding/truncating sequences to a fixed length (if necessary)\n    - Creating attention masks, which tell the model which tokens are padding and which aren't.\n\n    :param self: Represent the instance of the class\n    :param feature: Pass in the data from the dataset\n    :param state: EasyDeLState: Keep track of the state of the tokenizer\n    :return: A dictionary of the following keys\n    \"\"\"\n    batch = {}\n    prompt = feature[\"prompt\"]\n    chosen = feature[\"chosen\"]\n    rejected = feature[\"rejected\"]\n\n    if not isinstance(prompt, str):\n        raise ValueError(f\"prompt should be an str but got {type(prompt)} , {prompt}\")\n    prompt_tokens = self.tokenizer(\n        prompt,\n        add_special_tokens=False,\n        return_tensors=\"np\",\n    )\n    prompt_tokens = {f\"prompt_{k}\": v for k, v in prompt_tokens.items()}\n\n    if not isinstance(chosen, str):\n        raise ValueError(f\"chosen should be an str but got {type(chosen)} , {chosen}\")\n    chosen_tokens = self.build_tokenized_answer(prompt, chosen)\n\n    if not isinstance(rejected, str):\n        raise ValueError(f\"rejected should be an str but got {type(rejected)}\")\n    rejected_tokens = self.build_tokenized_answer(prompt, rejected)\n    v2d = lambda ar: ar.reshape(1, -1) if ar.ndim == 1 else ar\n\n    def add_tkn(n, ar):\n        return jnp.concatenate(\n            (\n                jnp.array(n).reshape(1, 1),\n                v2d(ar)\n            ), axis=-1\n        )\n\n    def add_post_tkn(n, ar):\n        return jnp.concatenate(\n            (\n                v2d(ar),\n                jnp.array(n).reshape(1, 1)\n            ), axis=-1\n        )\n\n    prompt_tokens[\"prompt_input_ids\"] = add_tkn(\n        self.tokenizer.bos_token_id,\n        prompt_tokens[\"prompt_input_ids\"]\n    )\n    chosen_tokens[\"prompt_input_ids\"] = add_tkn(\n        self.tokenizer.bos_token_id,\n        chosen_tokens[\"prompt_input_ids\"]\n    )\n    rejected_tokens[\"prompt_input_ids\"] = add_tkn(\n        self.tokenizer.bos_token_id,\n        rejected_tokens[\"prompt_input_ids\"]\n    )\n\n    prompt_tokens[\"prompt_attention_mask\"] = add_tkn(\n        1, prompt_tokens[\"prompt_attention_mask\"]\n    )\n    chosen_tokens[\"prompt_attention_mask\"] = add_tkn(\n        1, chosen_tokens[\"prompt_attention_mask\"]\n    )\n    rejected_tokens[\"prompt_attention_mask\"] = add_tkn(\n        1, rejected_tokens[\"prompt_attention_mask\"]\n    )\n\n    # add EOS token to end of answer\n    chosen_tokens[\"input_ids\"] = add_post_tkn(self.tokenizer.eos_token_id, chosen_tokens[\"input_ids\"])\n    chosen_tokens[\"attention_mask\"] = add_post_tkn(1, chosen_tokens[\"attention_mask\"])\n\n    rejected_tokens[\"input_ids\"] = add_post_tkn(self.tokenizer.eos_token_id, rejected_tokens[\"input_ids\"])\n    rejected_tokens[\"attention_mask\"] = add_post_tkn(1, rejected_tokens[\"attention_mask\"])\n\n    longer_response_length = max(chosen_tokens[\"input_ids\"].shape[-1], rejected_tokens[\"input_ids\"].shape[-1])\n\n    # if combined sequence is too long, truncate the prompt\n    for answer_tokens in [chosen_tokens, rejected_tokens, prompt_tokens]:\n        length_rn = answer_tokens[\"prompt_input_ids\"].shape[-1] + longer_response_length\n        if length_rn &gt; self.max_length:\n\n            if self.truncation_mode == \"keep_start\":\n                for k in [\"prompt_input_ids\", \"prompt_attention_mask\"]:\n                    answer_tokens[k] = answer_tokens[k][:, : self.max_prompt_length]\n            elif self.truncation_mode == \"keep_end\":\n                for k in [\"prompt_input_ids\", \"prompt_attention_mask\"]:\n                    answer_tokens[k] = answer_tokens[k][:, -self.max_prompt_length:]\n            else:\n                raise ValueError(f\"Unknown truncation mode: {self.truncation_mode}\")\n    # if that's still too long, truncate the response\n    for answer_tokens in [chosen_tokens, rejected_tokens]:\n        if answer_tokens[\"prompt_input_ids\"].shape[-1] + longer_response_length &gt; self.max_length:\n            for k in [\"input_ids\", \"attention_mask\"]:\n                answer_tokens[k] = answer_tokens[k][:, : self.max_length - self.max_prompt_length]\n\n    chosen_sequence_tokens = {\n        k: jnp.concatenate(\n            (v2d(chosen_tokens[f\"prompt_{k}\"]), v2d(chosen_tokens[k])),\n            axis=-1\n        ) for k in [\"input_ids\", \"attention_mask\"]\n    }\n    rejected_sequence_tokens = {\n        k: jnp.concatenate(\n            (v2d(rejected_tokens[f\"prompt_{k}\"]), v2d(rejected_tokens[k])),\n            axis=-1\n        ) for k in [\"input_ids\", \"attention_mask\"]\n    }\n    chosen_sequence_tokens[\"labels\"] = chosen_sequence_tokens[\"input_ids\"][:]\n    chosen_sequence_tokens[\"labels\"] = chosen_sequence_tokens[\"labels\"].at[\n                                       : len(chosen_tokens[\"prompt_input_ids\"])\n                                       ].set([self.label_pad_token_id] * len(chosen_tokens[\"prompt_input_ids\"]))\n    rejected_sequence_tokens[\"labels\"] = rejected_sequence_tokens[\"input_ids\"][:]\n    rejected_sequence_tokens[\"labels\"] = rejected_sequence_tokens[\"labels\"].at[\n                                         : len(rejected_tokens[\"prompt_input_ids\"])\n                                         ].set(\n        ([self.label_pad_token_id] * len(rejected_tokens[\"prompt_input_ids\"]))\n    )\n\n    for k, tokens_ in {\n        \"chosen_\": chosen_sequence_tokens,\n        \"rejected_\": rejected_sequence_tokens,\n        \"\": prompt_tokens,\n    }.items():\n        for type_key, tokens in tokens_.items():\n            if type_key == \"token_type_ids\":\n                continue\n\n            b, s = tokens.shape\n\n            if self.max_prompt_length &gt; s:\n                if k == \"chosen_\":\n                    if type_key == \"input_ids\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_completion_length,\n                            pad_value=self.padding_value,\n                            axis=-1\n                        )\n                    elif type_key == \"attention_mask\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_completion_length,\n                            pad_value=0,\n                            axis=-1\n                        )\n                    elif type_key == \"labels\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_completion_length,\n                            pad_value=self.padding_value,\n                            axis=-1\n                        )\n\n                    tokens = tokens[..., :self.max_completion_length]\n\n                    if tokens.shape[-1] != self.max_completion_length:\n                        raise ValueError(\n                            f\"there was an error in padding token with `type_key` of {type_key}\"\n                            f\". it must have sequence_length of {self.max_completion_length} but we got {tokens.shape[-1]}\"\n                            f\" From {k}{type_key}\"\n                        )\n                    tokens = tokens[..., :self.max_completion_length]\n                elif k == \"rejected_\":\n                    if type_key == \"input_ids\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_completion_length,\n                            pad_value=self.padding_value,\n                            axis=-1\n                        )\n                    elif type_key == \"attention_mask\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_completion_length,\n                            pad_value=0,\n                            axis=-1\n                        )\n                    elif type_key == \"labels\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_completion_length,\n                            pad_value=self.padding_value,\n                            axis=-1\n                        )\n                    tokens = tokens[..., :self.max_completion_length]\n                    if tokens.shape[-1] != self.max_completion_length:\n                        raise ValueError(\n                            f\"there was an error in padding token with `type_key` of {type_key}\"\n                            f\". it must have sequence_length of {self.max_completion_length} but we got {tokens.shape[-1]}\"\n                            f\" From {k}{type_key}\"\n                        )\n                elif k == \"\":\n                    if type_key == \"prompt_input_ids\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_prompt_length,\n                            pad_value=self.padding_value,\n                            axis=-1\n                        )\n                    elif type_key == \"prompt_attention_mask\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_prompt_length,\n                            pad_value=0,\n                            axis=-1\n                        )\n                    elif type_key == \"prompt_labels\":\n                        tokens = pad_to_length(\n                            tokens,\n                            self.max_prompt_length,\n                            pad_value=self.padding_value,\n                            axis=-1\n                        )\n                    tokens = tokens[..., :self.max_prompt_length]\n                    if tokens.shape[-1] != self.max_prompt_length:\n                        raise ValueError(\n                            f\"there was an error in padding token with `type_key` of {type_key}\"\n                            f\". it must have sequence_length of {self.max_prompt_length} but we got {tokens.shape[-1]}\"\n                            f\" From {k}{type_key}\"\n                        )\n            batch[f\"{k}{type_key}\"] = tokens\n    return batch\n</code></pre>"},{"location":"generated-trainer-orpo-utils/","title":"trainer.orpo.utils","text":""},{"location":"generated-trainer-sft-stf_trainer/","title":"trainer.sft.stf_trainer","text":""},{"location":"generated-trainer-sft-stf_trainer/#src.python.easydel.trainer.sft.stf_trainer.SFTTrainer","title":"<code>SFTTrainer</code>","text":"<p>               Bases: <code>CausalLanguageModelTrainer</code>, <code>ABC</code></p> Source code in <code>src/python/easydel/trainer/sft/stf_trainer.py</code> <pre><code>class SFTTrainer(CausalLanguageModelTrainer, ABC):\n\n    def __init__(\n            self,\n            arguments: TrainArguments,\n            tokenizer: PreTrainedTokenizerBase,\n            train_dataset: Optional[Dataset] = None,\n            eval_dataset: Optional[Union[Dataset, Dict[str, Dataset]]] = None,\n            dataset_text_field: Optional[str] = None,\n            packing: Optional[bool] = False,\n            formatting_func: Optional[Callable] = None,\n            num_of_sequences: Optional[int] = 1024,\n            chars_per_token: Optional[float] = 3.6,\n            dataset_num_proc: Optional[int] = None,\n            dataset_batch_size: int = 1000,\n            neftune_noise_alpha: Optional[float] = None,\n            dataset_kwargs: Optional[Dict] = None,\n            eval_packing: Optional[bool] = None,\n            checkpoint_path: Optional[str] = None,\n            remove_unused_columns=True,\n            _do_init_fns: bool = True\n    ):\n\n        if getattr(tokenizer, \"pad_token\", None) is None:\n            tokenizer.pad_token = tokenizer.eos_token\n\n        self.dataset_num_proc = dataset_num_proc\n        self.dataset_batch_size = dataset_batch_size\n\n        self._trainer_supports_neftune = hasattr(arguments, \"neftune_noise_alpha\")\n\n        if neftune_noise_alpha is not None and self._trainer_supports_neftune:\n            arguments.neftune_noise_alpha = neftune_noise_alpha\n            warnings.warn(\n                \"You passed a `neftune_noise_alpha` argument to the SFTTrainer, the value you passed will override \"\n                \"the one in the `TrainArguments`.\"\n            )\n        elif not self._trainer_supports_neftune:\n            self.neftune_noise_alpha = neftune_noise_alpha\n\n        if formatting_func is None and dataset_text_field is None:\n            formatting_func = get_formatting_func_from_dataset(train_dataset, tokenizer)  # type: ignore\n\n        if not packing:\n            if dataset_text_field is None and formatting_func is None:\n                raise ValueError(\n                    \"You passed `packing=False` to the SFTTrainer, but you didn't pass a \"\n                    \"`dataset_text_field` or `formatting_func` argument.\"\n                )\n\n        if dataset_kwargs is None:\n            dataset_kwargs = {}\n        if train_dataset is not None:\n            train_dataset = self._prepare_dataset(\n                train_dataset,\n                tokenizer,\n                packing,\n                dataset_text_field,\n                arguments.max_sequence_length,\n                formatting_func,\n                num_of_sequences,\n                chars_per_token,\n                remove_unused_columns=remove_unused_columns,\n                **dataset_kwargs,\n            )\n        if eval_dataset is not None:\n            _multiple = isinstance(eval_dataset, dict)\n            _eval_datasets = eval_dataset if _multiple else {\"singleton\": eval_dataset}\n\n            eval_packing = packing if eval_packing is None else eval_packing\n\n            for _eval_dataset_name, _eval_dataset in _eval_datasets.items():\n                _eval_datasets[_eval_dataset_name] = self._prepare_dataset(\n                    _eval_dataset,\n                    tokenizer,\n                    eval_packing,\n                    dataset_text_field,\n                    arguments.max_sequence_length,\n                    formatting_func,\n                    num_of_sequences,\n                    chars_per_token,\n                    remove_unused_columns=remove_unused_columns,\n                    **dataset_kwargs,\n                )\n            if not _multiple:\n                eval_dataset = _eval_datasets[\"singleton\"]\n        if tokenizer.padding_side is not None and tokenizer.padding_side != \"right\":\n            warnings.warn(\n                \"You passed a tokenizer with `padding_side` not equal to `right` to the SFTTrainer. This might lead \"\n                \"to some unexpected behaviour due to overflow issues when training a model in half-precision. \"\n                \"You might consider adding `tokenizer.padding_side = 'right'` to your code.\"\n            )\n\n        super().__init__(\n            arguments=arguments,\n            dataset_train=train_dataset,\n            dataset_eval=eval_dataset,\n            finetune=True,\n            checkpoint_path=checkpoint_path,\n            _do_init_fns=_do_init_fns,\n        )\n\n    def configure_dataloader(self) -&gt; TrainerConfigureDataloaderFuncOutput:\n\n        \"\"\"\n        The configure_dataloader function is used to configure the dataloader for training and evaluation.\n\n        :param self: Refer to the class instance itself\n        :return: A TrainerConfigureDataloaderFuncOutput object\n\n        \"\"\"\n\n        dataloader_train = tfds.as_numpy(\n            self.dataset_train.to_tf_dataset(\n                batch_size=self.arguments.total_batch_size,\n                drop_remainder=True,\n                num_workers=self.arguments.dataloader_num_workers,\n                collate_fn=self.create_collate_function(\n                    max_sequence_length=self.arguments.max_sequence_length,\n                    truncation_mode=self.arguments.truncation_mode\n                )\n            )\n        )\n        max_training_steps = self.arguments.num_train_epochs * len(\n            dataloader_train\n        ) if self.arguments.max_training_steps is None else self.arguments.max_training_steps\n        if self.dataset_eval is not None and self.arguments.do_eval:\n            dataloader_eval = tfds.as_numpy(\n                self.dataset_eval.to_tf_dataset(\n                    batch_size=self.arguments.total_batch_size,\n                    drop_remainder=True,\n                    shuffle=True,\n                    num_workers=self.arguments.dataloader_num_workers,\n                    collate_fn=self.create_collate_function(\n                        max_sequence_length=self.arguments.max_sequence_length,\n                        truncation_mode=self.arguments.truncation_mode\n                    )\n                )\n            )\n            max_evaluation_steps = len(\n                dataloader_eval\n            ) if self.arguments.max_training_steps is None else self.arguments.max_training_steps\n        else:\n            dataloader_eval, max_evaluation_steps = None, 0\n\n        return TrainerConfigureDataloaderFuncOutput(\n            dataloader_train=dataloader_train,\n            max_training_steps=max_training_steps,\n            dataloader_eval=dataloader_eval,\n            max_evaluation_steps=max_evaluation_steps\n        )\n\n    def _prepare_dataset(\n            self,\n            dataset,\n            tokenizer,\n            packing,\n            dataset_text_field,\n            max_seq_length,\n            formatting_func,\n            num_of_sequences,\n            chars_per_token,\n            remove_unused_columns=True,\n            append_concat_token=True,\n            add_special_tokens=True,\n    ):\n        if dataset is None:\n            raise ValueError(\"The dataset should not be None\")\n\n        if not packing:\n            return self._prepare_non_packed_dataloader(\n                tokenizer,\n                dataset,\n                dataset_text_field,\n                max_seq_length,\n                formatting_func,\n                add_special_tokens,\n                remove_unused_columns,\n            )\n\n        else:\n            return self._prepare_packed_dataloader(\n                tokenizer,\n                dataset,\n                dataset_text_field,\n                max_seq_length,\n                num_of_sequences,\n                chars_per_token,\n                formatting_func,\n                append_concat_token,\n                add_special_tokens,\n            )\n\n    def _prepare_non_packed_dataloader(\n            self,\n            tokenizer,\n            dataset,\n            dataset_text_field,\n            max_seq_length,\n            formatting_func=None,\n            add_special_tokens=True,\n            remove_unused_columns=True,\n    ):\n        use_formatting_func = formatting_func is not None and dataset_text_field is None\n        self._dataset_sanity_checked = False\n\n        def tokenize(element):\n            inner = element[dataset_text_field] if not use_formatting_func else formatting_func(element)\n            outputs = tokenizer(\n                inner,\n                add_special_tokens=add_special_tokens,\n                truncation=True,\n                padding=\"max_length\",\n                max_length=max_seq_length,\n                return_overflowing_tokens=False,\n                return_length=False,\n            )\n\n            if use_formatting_func and not self._dataset_sanity_checked:\n                if not isinstance(formatting_func(element), list):\n                    raise ValueError(\n                        \"The `formatting_func` should return a list of processed strings since it can lead\"\n                        \" to silent bugs.\"\n                    )\n                else:\n                    self._dataset_sanity_checked = True\n\n            return {\"input_ids\": outputs[\"input_ids\"], \"attention_mask\": outputs[\"attention_mask\"]}\n\n        signature_columns = [\"input_ids\", \"labels\", \"attention_mask\"]\n\n        extra_columns = list(set(dataset.column_names) - set(signature_columns))\n\n        if not remove_unused_columns and len(extra_columns) &gt; 0:\n            warnings.warn(\n                \"You passed `remove_unused_columns=False` on a non-packed dataset. This might create some issues with \"\n                \"the default collator and yield to errors. If you want to inspect dataset other columns \"\n                f\"(in this case {extra_columns}), you can subclass `DataCollatorForLanguageModeling` in case you \"\n                \"used the default collator and create your own data collator in order to inspect the \"\n                \"unused dataset columns.\"\n            )\n\n        tokenized_dataset = dataset.map(\n            tokenize,\n            batched=False,\n            remove_columns=dataset.column_names if remove_unused_columns else None,\n            num_proc=self.dataset_num_proc,\n            batch_size=self.dataset_batch_size,\n        )\n\n        return tokenized_dataset\n\n    @staticmethod\n    def _prepare_packed_dataloader(\n            tokenizer,\n            dataset,\n            dataset_text_field,\n            max_seq_length,\n            num_of_sequences,\n            chars_per_token,\n            formatting_func=None,\n            append_concat_token=True,\n            add_special_tokens=True,\n    ):\n        if dataset_text_field is not None or formatting_func is not None:\n            if tokenizer is None:\n                raise ValueError(\n                    \"You need to pass a tokenizer when using `dataset_text_field` with `SFTTrainer`.\"\n                )\n\n            constant_length_iterator = create_constant_length_dataset(\n                tokenizer=tokenizer,\n                dataset=dataset,\n                dataset_text_field=dataset_text_field,\n                formatting_func=formatting_func,\n                seq_length=max_seq_length,\n                infinite=False,\n                num_of_sequences=num_of_sequences,\n                chars_per_token=chars_per_token,\n                eos_token_id=tokenizer.eos_token_id,\n                append_concat_token=append_concat_token,\n                add_special_tokens=add_special_tokens,\n            )\n\n            def data_generator(inner_constant_length_iterator):\n                for d in inner_constant_length_iterator():\n                    yield d\n\n            try:\n                packed_dataset = Dataset.from_generator(\n                    data_generator, gen_kwargs={\"inner_constant_length_iterator\": constant_length_iterator}\n                )\n            except (DatasetGenerationError, SchemaInferenceError) as exc:\n                raise ValueError(\n                    \"Error occurred while packing the dataset. \"\n                    \"Make sure that your dataset has enough samples to at least yield one packed sequence.\\n\"\n                    \"External Information : {}\".format(exc)\n                ) from exc\n            return packed_dataset\n        else:\n            raise ValueError(\n                \"You need to pass a `dataset_text_field` or `formatting_func` argument to the SFTTrainer if you want \"\n                \"to use the `ConstantLengthDataset`.\"\n            )\n</code></pre>"},{"location":"generated-trainer-sft-stf_trainer/#src.python.easydel.trainer.sft.stf_trainer.SFTTrainer.configure_dataloader","title":"<code>configure_dataloader()</code>","text":"<p>The configure_dataloader function is used to configure the dataloader for training and evaluation.</p> <p>:param self: Refer to the class instance itself :return: A TrainerConfigureDataloaderFuncOutput object</p> Source code in <code>src/python/easydel/trainer/sft/stf_trainer.py</code> <pre><code>def configure_dataloader(self) -&gt; TrainerConfigureDataloaderFuncOutput:\n\n    \"\"\"\n    The configure_dataloader function is used to configure the dataloader for training and evaluation.\n\n    :param self: Refer to the class instance itself\n    :return: A TrainerConfigureDataloaderFuncOutput object\n\n    \"\"\"\n\n    dataloader_train = tfds.as_numpy(\n        self.dataset_train.to_tf_dataset(\n            batch_size=self.arguments.total_batch_size,\n            drop_remainder=True,\n            num_workers=self.arguments.dataloader_num_workers,\n            collate_fn=self.create_collate_function(\n                max_sequence_length=self.arguments.max_sequence_length,\n                truncation_mode=self.arguments.truncation_mode\n            )\n        )\n    )\n    max_training_steps = self.arguments.num_train_epochs * len(\n        dataloader_train\n    ) if self.arguments.max_training_steps is None else self.arguments.max_training_steps\n    if self.dataset_eval is not None and self.arguments.do_eval:\n        dataloader_eval = tfds.as_numpy(\n            self.dataset_eval.to_tf_dataset(\n                batch_size=self.arguments.total_batch_size,\n                drop_remainder=True,\n                shuffle=True,\n                num_workers=self.arguments.dataloader_num_workers,\n                collate_fn=self.create_collate_function(\n                    max_sequence_length=self.arguments.max_sequence_length,\n                    truncation_mode=self.arguments.truncation_mode\n                )\n            )\n        )\n        max_evaluation_steps = len(\n            dataloader_eval\n        ) if self.arguments.max_training_steps is None else self.arguments.max_training_steps\n    else:\n        dataloader_eval, max_evaluation_steps = None, 0\n\n    return TrainerConfigureDataloaderFuncOutput(\n        dataloader_train=dataloader_train,\n        max_training_steps=max_training_steps,\n        dataloader_eval=dataloader_eval,\n        max_evaluation_steps=max_evaluation_steps\n    )\n</code></pre>"},{"location":"generated-trainer-sft-utils/","title":"trainer.sft.utils","text":""},{"location":"generated-trainer-training_configurations/","title":"trainer.training_configurations","text":""},{"location":"generated-trainer-training_configurations/#src.python.easydel.trainer.training_configurations.TrainArguments","title":"<code>TrainArguments</code>","text":"<p>               Bases: <code>OrderedDict</code></p> Source code in <code>src/python/easydel/trainer/training_configurations.py</code> <pre><code>class TrainArguments(\n    OrderedDict\n):\n    def __init__(\n            self,\n            model_name: str,\n            num_train_epochs: int,\n            model_class: Optional[EasyDeLFlaxPretrainedModel | Type[EasyDeLFlaxPretrainedModel]] = None,\n            model_huggingface_repo_id: Optional[str] = None,\n            total_batch_size: int = 32,\n            max_training_steps: Optional[int] = None,\n            max_evaluation_steps: Optional[int] = None,\n            optimizer: AVAILABLE_OPTIMIZERS = EasyDeLOptimizers.ADAMW,\n            scheduler: AVAILABLE_SCHEDULERS = EasyDeLSchedulers.NONE,\n            learning_rate: Union[int, float] = 5e-5,\n            learning_rate_end: Optional[float] = 5e-6,\n            gradient_accumulation_steps: int = 1,\n            weight_decay: float = 0.01,\n            label_smoothing_factor: float = 0.0,\n            z_loss: float = 0.0,\n            gradient_checkpointing: AVAILABLE_GRADIENT_CHECKPOINTS = EasyDeLGradientCheckPointers.NOTHING_SAVEABLE,\n            max_sequence_length: Optional[int] = 4096,\n            sharding_array: Union[tuple, int] = (1, -1, 1, 1),\n            is_fine_tuning: bool = True,\n            do_train: bool = True,\n            do_eval: bool = False,\n            do_test: Optional[bool] = False,\n            train_on_inputs: bool = True,\n            backend: Optional[str] = None,\n            extra_optimizer_kwargs: dict = None,\n            save_steps: Optional[int] = None,\n            save_dir: str = \"EasyDeL-Checkpoints\",\n            save_total_limit: Optional[int] = None,\n            dtype: jnp.dtype = jnp.bfloat16,\n            param_dtype: jnp.dtype = jnp.bfloat16,\n            fully_sharded_data_parallel: bool = True,\n            use_wandb: bool = True,\n            custom_rule: Mapping[str, PartitionSpec] = None,\n            extra_configs: Optional[dict] = None,\n            ids_to_pop_from_dataset: Optional[list] = None,\n            remove_ckpt_after_load: bool = False,\n            configs_to_initialize_model_class: Optional[dict] = None,\n            do_last_save: bool = True,\n            model_parameters: Optional[dict] = None,\n            do_shard_fns: bool = True,\n            track_memory: Optional[bool] = None,\n            loss_re_mat: str = \"\",\n            loss_chunk: int = 1024,\n            truncation_mode: typing.Literal[\"keep_end\", \"keep_start\"] = \"keep_end\",\n            warmup_steps: int = 500,\n            init_input_shape: Tuple[int, int] = (1, 1),\n            step_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\"),\n            training_time: Optional[str] = None,\n            dataloader_num_workers: Optional[int] = 0,\n            dataloader_pin_memory: Optional[bool] = False,\n            jax_distributed_config: Optional[dict] = None,\n            log_all_workers: bool = False,\n            wandb_entity: Optional[str] = None,\n            save_optimizer_state: bool = False,\n            step_start_point: Optional[int] = None,\n            verbose: bool = True,\n            offload_device: jax.Device = jax.devices(\"cpu\")[0],\n            rapture_config: Optional[EasyDeLXRapTureConfig] = None,\n            merge_lora_rapture_parameters: bool = True,\n            state_apply_fn_kwarguments_to_model: Optional[dict] = None,\n            remove_unused_columns: bool = True,\n            force_batch_and_gradient_accumulation_steps_calculation: bool = False,\n            performance_mode: bool = False,\n            neftune_noise_alpha: Optional[float] = None,\n            log_grad_norms: bool = True,\n            loaded_model_config_kwargs: Optional[dict] = None,\n            **kwargs\n    ):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It sets up the attributes of an object, which are sometimes called fields or properties.\n        The __init__ function can accept arguments, just like a normal function.\n\n        Args:\n            self: Represent the instance of the class\n            model_name: str: Specify the model name\n            num_train_epochs: int: Set the number of epochs for training\n            model_huggingface_repo_id: Optional[str]: Load a pretrained\n                model from the huggingface model hub\n            model_class: Optional[EasyDeLFlaxPretrainedModel]: Pass a\n                model class to the trainer\n            total_batch_size: int: Set the batch size of the model\n            max_training_steps: Optional[int]: Set the maximum total\n                number of training steps across all epochs\n            max_evaluation_steps: Optional[int]: Set the maximum number\n                of steps to evaluate for\n            optimizer: AVAILABLE_OPTIMIZERS: Specify the optimizer used\n                to train the model\n            scheduler: AVAILABLE_SCHEDULERS: Set the learning rate\n                scheduler\n            learning_rate: Union[int, float] : Set the learning rate for\n                the optimizer\n            learning_rate_end: Optional[float]: Set the learning rate at\n                the end of training\n            gradient_accumulation_steps: int: Accumulate gradients over\n                multiple batches\n            weight_decay: float: Specify the weight decay to be used by\n                the optimizer\n            label_smoothing_factor: float: Set the label smoothing\n                factor to be used by the loss function\n            z_loss: float: Set the z loss factor to be used by the loss\n                function\n            gradient_checkpointing: AVAILABLE_GRADIENT_CHECKPOINTS:\n                Determine how to use gradient checkpointing\n            max_sequence_length: Optional[int]: Set the maximum length\n                of the input sequence\n            sharding_array: Union[tuple,int]: Specify the mesh of\n                devices to use for training\n            is_fine_tuning: bool: Tell the model whether or not to\n                initialize the weights of\n            do_train: bool: Indicate whether to train the model or not\n            do_eval: bool: Determine whether to run evaluation on the\n                validation set after training\n            do_test: Optional[bool]: Determine if the model should be\n                tested\n            train_on_inputs: bool: Use input_ids instead of labels,\n                overrides ignored (-100) tokens in the labels\n            backend: Optional[str]: Specify the backend of jax\n            extra_optimizer_kwargs: dict: Pass extra arguments to the\n                optimizer\n            save_steps: Optional[int]: Save the model after every n\n                steps\n            save_dir: str: Define the directory where the checkpoints\n                will be saved\n            save_total_limit: int: Set the maximum number of checkpoints\n                to keep, older checkpoints will be deleted\n            dtype: jnp.dtype: Set the dtype of the model parameters\n            param_dtype: jnp.dtype: Specify the data type of the model\n                parameters\n            fully_sharded_data_parallel: bool: Determine if the model\n                should be fully fsdp or not\n            use_wandb: bool: Enable or disable the wandb logging\n            custom_rule: Mapping[str, PartitionSpec]: Specify the\n                partitioning rules of the model\n            extra_configs: Optional[dict]: Pass extra configurations to\n                the model class\n            ids_to_pop_from_dataset: Optional[list]: Remove some of the\n                ids from the dataset\n            remove_ckpt_after_load: bool: Remove the checkpoint after\n                loading it\n            configs_to_initialize_model_class: Optional[dict]: Pass\n                extra configurations to the model class\n            do_last_save: bool: Save the model after training is\n                complete\n            model_parameters: Optional[dict]: Pass the model parameters\n                to the model class\n            do_shard_fns: bool: Shard the model functions across devices\n            track_memory: bool: Track the memory usage of the model\n            loss_re_mat: str: Specify the regular expression to match\n                the loss function name\n            loss_chunk: int: Chunk the loss to avoid memory overflow\n            truncation_mode: typing.Literal[\"keep_end\", \"keep_start\"]:\n                Determine if the input is left padded or not and which\n                side of the array should remain in case of using maximum\n                padding.\n            warmup_steps: int: Specify the number of steps to warm up\n                the learning rate\n            init_input_shape: Tuple[int, int]: Initialize the model with\n                a shape that is not (batch_size, length)\n            step_partition_spec: PartitionSpec: Partition the model for\n                training\n            training_time: Optional[str]: Set a time limit for the\n                training process\n            dataloader_num_workers: Optional[int]: Set the number of\n                workers used by pytorch's\n            dataloader_pin_memory: Optional[bool]: Pin the memory of the\n                dataloader\n            jax_distributed_config: Optional[dict]: Configure the jax\n                distributed backend\n            log_all_workers: bool: Log all workers in wandb,\n            wandb_entity: Optional[str]: Specify the entity to use when\n                logging to weights &amp;amp; biases\n            save_optimizer_state: bool: when ever to save optimizer\n                state and other args in checkpoint\n            step_start_point: Optional[int]: start training from given\n                step for example instead of starting training from step\n                0 it will start from 20000 and leave the data behind\n            verbose: bool: when ever to turn verbose mode of or on\n            offload_device: jax.Device: device to be used to offload\n                parameters on\n            rapture_config: Optional[EasyDeLXRaptureConfig]: LoRA Config\n                for models\n            merge_lora_rapture_parameters: bool: whenever to merge lora\n                parameters with original parameters before saving\n            state_apply_fn_kwarguments_to_model: Optional[dict]:\n                state_apply_fn_kwarguments_to_model is a dictionary that\n                be used to apply the parameters and extra things that\n                you want to deliver to model.\n            remove_unused_columns: bool: when ever to remove the unused\n                data columns from dataset\n            force_batch_and_gradient_accumulation_steps_calculation:\n                bool: whether to force batch and gradient to be applied\n                as total batch_size (e.g total_batch_size =\n                total_batch_size * gradient_accumulation_steps be\n                applied)\n            performance_mode: bool: whether to optimize the whole\n                training process this will cut off some logging options\n                and optimize training process.\n            neftune_noise_alpha: Optional[float]: If not `None`, this\n                will activate NEFTune noise embeddings. This has been\n                proven to drastically improve model performances for\n                instruction fine-tuning.\n            loaded_model_config_kwargs: Optional[dict]: config key\n                arguments to be passed to the model while being loaded\n            **kwargs: Pass keyword, variable-length argument list\n        from checkpoint\n        \"\"\"\n        super().__init__()\n\n        if ids_to_pop_from_dataset is None:\n            ids_to_pop_from_dataset = []\n        if extra_optimizer_kwargs is None:\n            extra_optimizer_kwargs = {}\n\n        if model_class is None and model_huggingface_repo_id is None:\n            print(\n                termcolor.colored(\n                    \"Warning : \", color=\"red\", force_color=True\n                ) + termcolor.colored(\n                    \"You should at least pass model_class or model_huggingface_repo_id if you want to use \"\n                    \"CasualLanguageModel Trainer But in case that you want to use \"\n                    \"DPOTrainer or ORPOTrainer you can ignore this warning\", color=\"white\",\n                    force_color=True\n                )\n            )\n        assert backend in AVAILABLE_BACKENDS, (\n            f\"{backend} is not recognized, \"\n            f\"available backends are {AVAILABLE_BACKENDS}\"\n        )\n\n        if track_memory is None:\n            # https://github.com/erfanzar/EasyDeL/pull/100/commits/523ce7b1515d7896d456759d0bcd0bd02369bd10\n            print(\n                termcolor.colored(\"Information : \", color=\"red\", force_color=True),\n                termcolor.colored(\n                    \"track_memory is set to False by default inorder make make training faster. \"\n                    \"you can turn it on with just passing `track_memory=True` in TrainArguments\",\n                    color=\"white\", force_color=True\n                )\n            )\n            track_memory = False\n\n        available_backends = len(jax.devices(backend))\n        if force_batch_and_gradient_accumulation_steps_calculation:\n            total_batch_size *= gradient_accumulation_steps  # Changed and will be handled inside FJFormer\n        array_devices = jnp.ones((available_backends, 1)).reshape(sharding_array)\n        JaxDistributedConfig.initialize(jax_distributed_config)\n        self.force_batch_and_gradient_accumulation_steps_calculation = (\n            force_batch_and_gradient_accumulation_steps_calculation\n        )\n        self.available_backends = available_backends\n        self.array_devices_shape = array_devices.shape\n        self.model_huggingface_repo_id = model_huggingface_repo_id\n        self.num_train_epochs = num_train_epochs\n        self.wandb_entity = wandb_entity\n        self.total_batch_size = total_batch_size\n        self.max_training_steps = max_training_steps\n        self.max_evaluation_steps = max_evaluation_steps\n        self.optimizer = optimizer\n        self.scheduler = scheduler\n        self.extra_optimizer_kwargs = extra_optimizer_kwargs\n        self.learning_rate = learning_rate\n        self.learning_rate_end = learning_rate_end\n        self.weight_decay = weight_decay\n        self.label_smoothing_factor = label_smoothing_factor\n        self.z_loss = z_loss\n        self.model_name = model_name\n        self.gradient_checkpointing = gradient_checkpointing\n        self.max_sequence_length = max_sequence_length\n        self.sharding_array = sharding_array\n        self.is_fine_tuning = is_fine_tuning\n        self.do_train = do_train\n        self.do_eval = do_eval\n        self.do_test = do_test\n        self.train_on_inputs = train_on_inputs\n        self.save_steps = save_steps\n        self.save_dir = save_dir\n        self.save_total_limit = save_total_limit\n        self.dtype = dtype\n        self.warmup_steps = warmup_steps\n        self.param_dtype = param_dtype\n        self.fully_sharded_data_parallel = fully_sharded_data_parallel\n        self.use_wandb = use_wandb\n        self.custom_rule = custom_rule\n        self.extra_configs = extra_configs\n        self.ids_to_pop_from_dataset = ids_to_pop_from_dataset\n        self.remove_ckpt_after_load = remove_ckpt_after_load\n        self.model_class = model_class\n        self.configs_to_initialize_model_class = configs_to_initialize_model_class\n        self.do_last_save = do_last_save\n        self.model_parameters = model_parameters\n        self.do_shard_fns = do_shard_fns\n        self.gradient_accumulation_steps = gradient_accumulation_steps\n        self.track_memory = track_memory\n        self.loss_chunk = loss_chunk\n        self.loss_re_mat = loss_re_mat\n        self.init_input_shape = init_input_shape\n        self.truncation_mode = truncation_mode\n        self.step_partition_spec = step_partition_spec\n        self.jax_distributed_config = jax_distributed_config\n        self.log_all_workers = log_all_workers\n        self.dataloader_num_workers = dataloader_num_workers\n        self.dataloader_pin_memory = dataloader_pin_memory\n        self.save_optimizer_state = save_optimizer_state\n        self.step_start_point = step_start_point if step_start_point is not None else 0\n        self.verbose = verbose\n        self.offload_device = offload_device\n        self.performance_mode = performance_mode\n        self.neftune_noise_alpha = neftune_noise_alpha\n        self.loaded_model_config_kwargs = loaded_model_config_kwargs\n        if use_wandb and performance_mode:\n            self.use_wandb = False\n        self.optimizer_kwargs = dict(\n            learning_rate=self.learning_rate,\n            learning_rate_end=self.learning_rate_end,\n            optimizer=self.optimizer,\n            scheduler=self.scheduler,\n            extra_optimizer_kwargs=self.extra_optimizer_kwargs,\n            warmup_steps=self.warmup_steps,\n            gradient_accumulation_steps=self.gradient_accumulation_steps,\n            weight_decay=self.weight_decay,\n            steps=self.max_training_steps,\n        )\n        self.training_time = self._time_to_seconds(training_time) if training_time is not None else None\n        torch.set_default_device(\"cpu\")\n        self.merge_lora_rapture_parameters = merge_lora_rapture_parameters\n        self.rapture = None\n        self.rapture_config = None\n        self.remove_unused_columns = remove_unused_columns\n        self._stop_capturing_memory = False\n        self._captured_memory = {}\n        self.log_grad_norms = log_grad_norms\n        if rapture_config is not None and log_grad_norms:\n            warnings.warn(\n                \"setting `log_grad_norms` to off since using log grad norms while using LoRA is not Supported.\"\n            )\n            self.log_grad_norms = False\n        self.state_apply_fn_kwarguments_to_model = (\n            state_apply_fn_kwarguments_to_model\n        ) if state_apply_fn_kwarguments_to_model is not None else {}\n        if rapture_config is not None:\n            print(\n                termcolor.colored(\"Warning : \", color=\"red\", force_color=True),\n                termcolor.colored(\n                    \"You are using LoRA (Low-Rank Adaptation of Large Language Models) and this feature is\"\n                    \"still in Beta mode so it might act unexpected\", color=\"red\", force_color=True\n                )\n            )\n            self.rapture_config = rapture_config\n            self.rapture = XRapTure(config=rapture_config)\n        self.__dict__.update(**kwargs)\n\n    @staticmethod\n    def _time_to_seconds(time_str):\n        pattern = r\"(\\d+)\\s*(h|min)\"\n        match = re.match(pattern, time_str.lower())\n\n        if match:\n            value = int(match.group(1))\n            unit = match.group(2).lower()\n\n            if unit == \"h\":\n                return value * 3600  # Convert hours to seconds\n            elif unit == \"min\":\n                return value * 60  # Convert minutes to seconds\n        else:\n            raise SyntaxError(\n                \"Invalid input format it should be like 50Min for M and 23H for hours\")\n\n    def __call__(self):\n        return {k: v for k, v in self.__dict__.items()}\n\n    def get_meter_dict(self):\n        \"\"\"The get_meter_dict function is used to return a dictionary of the hyperparameters.\n        The function iterates through all the attributes in the class and returns a dictionary with\n        the key as &amp;quot;hyperparameters/{k}&amp;quot; and value as v for each attribute k,v in self.__dict__ if it is an\n         instance of int, float, str, bool or torch.Tensor.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A dictionary of hyperparameters\n        \"\"\"\n        return {\n            f\"hyperparameters/{k}\": v for k, v in self.__dict__.items() if\n            isinstance(v, (int, float, str, bool, torch.Tensor))\n        }\n\n    def get_wandb_init(self) -&gt; Run | RunDisabled | None:\n        \"\"\"The get_wandb_init function is a helper function that returns the wandb.init() call with\n        the project name, config object, and tags set to appropriate values for this model.\n\n        Args:\n            self: Pass the class instance to the function\n\n        Returns:\n            A wandb or None\n        \"\"\"\n        return wandb.init(\n            project=f\"EasyDeL-{self.model_name}\",\n            config=self(),\n            tags=[\n                \"EasyDeL\",\n                \"FJFormer\",\n                \"OST-OpenSourceTransformers\",\n                \"Jax/Flax\"\n            ],\n            entity=self.wandb_entity\n\n        ) if self.log_all_workers or (jax.process_index() == 0) else None\n\n    def __str__(self):\n        string = f\"{self.__class__.__name__}(\\n\"\n        for k, v in self.__call__().items():\n            if isinstance(v, Callable):\n                def string_func(it_self):\n                    string_ = f\"{it_self.__class__.__name__}(\\n\"\n                    for k_, v_ in it_self.__dict__.items():\n                        string_ += f\"\\t\\t{k_} : {v_}\\n\"\n                    string_ += \"\\t)\"\n                    return string_\n\n                v.__str__ = string_func\n                v = v.__str__(v)\n            string += f\"\\t{k} : {v}\\n\"\n        string += \")\"\n        return string\n\n    def get_path(self):\n        \"\"\"The get_path function returns a pathlib.Path object, which is a class that\n        represents file paths and provides methods for interacting with the files at\n        those paths. The get_path function takes no arguments and returns an instance of\n        the Path class initialized with two arguments: self.save_dir (a string) and\n        self.model_name (also a string). The save directory is the directory where we'll\n        store our model checkpoints, while the model name will be used to create unique\n        filenames for each checkpoint.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A pathlib\n        \"\"\"\n        return pathlib.Path(\n            self.save_dir, self.model_name\n        )\n\n    def ckpt_path_exists(self):\n        \"\"\"The ckpt_path_exists function checks to see if the path exists. If it does not, then it creates a new directory.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A path\n        \"\"\"\n        path = self.get_path()\n        if not path.exists():\n            path.mkdir(parents=True)\n\n    def get_mesh(self):\n        \"\"\"The get_mesh function is used to create a mesh object that can be used\n        to define the geometry of the device. The mesh object contains two arrays:\n        a list of vertices and a list of faces. Each face is defined by three indices,\n        which correspond to three vertices in the vertex array. The get_mesh function\n        is called when creating an instance of DeviceGeometry, which is then passed\n        into an instance of DeviceSimulation.\n\n        Args:\n            self: Refer to the object itself\n\n        Returns:\n            A mesh object with the device array shape and the mesh names\n        \"\"\"\n        return Mesh(\n            create_device_mesh(\n                self.array_devices_shape\n            ),\n            self.get_mesh_names()\n        )\n\n    def __repr__(self):\n        return self.__str__()\n\n    @staticmethod\n    def get_mesh_names():\n        return \"dp\", \"fsdp\", \"tp\", \"sp\"\n\n    def get_optimizer_and_scheduler(\n            self,\n            steps: int | None = None\n    ):\n        self.optimizer_kwargs[\"steps\"] = steps or self.optimizer_kwargs[\"steps\"]\n        return get_optimizer_and_scheduler(\n            **self.optimizer_kwargs\n        )\n\n    def get_streaming_checkpointer(self):\n        \"\"\"The get_streaming_checkpointer function is used to save the model's weights.\n        The streaming checkpointer saves the model's weights in a file called &amp;quot;checkpoint&amp;quot; and then\n        saves a copy of that file with an incrementing number appended to it (e.g., checkpoint_001,\n        checkpoint_002, etc.). This allows you to keep multiple versions of your trained models.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A CheckpointManager object\n        \"\"\"\n        return CheckpointManager(\n            os.path.join(self.save_dir, self.model_name),\n            save_optimizer_state=self.save_optimizer_state,\n            verbose=self.verbose\n        )\n\n    def get_board(self):\n        \"\"\"The get_board function is a helper function that returns a TensorBoard object.\n        The TensorBoard object is used to log the training and validation loss, as well as\n        the accuracy of the model during training. The get_board function takes no arguments,\n        and returns an instance of torch.utils.tensorboard SummaryWriter class.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            A summary-writer object\n        \"\"\"\n        return torch.utils.tensorboard.SummaryWriter(\n            log_dir=str(self.get_path()),\n            comment=f\"{self.model_name}\",\n            filename_suffix=\"easydel\"\n        )\n\n    @property\n    def stop_capturing_memory(self):\n        return self._stop_capturing_memory\n\n    @property\n    def captured_memory(self):\n        return self._captured_memory\n</code></pre>"},{"location":"generated-trainer-training_configurations/#src.python.easydel.trainer.training_configurations.TrainArguments.__init__","title":"<code>__init__(model_name, num_train_epochs, model_class=None, model_huggingface_repo_id=None, total_batch_size=32, max_training_steps=None, max_evaluation_steps=None, optimizer=EasyDeLOptimizers.ADAMW, scheduler=EasyDeLSchedulers.NONE, learning_rate=5e-05, learning_rate_end=5e-06, gradient_accumulation_steps=1, weight_decay=0.01, label_smoothing_factor=0.0, z_loss=0.0, gradient_checkpointing=EasyDeLGradientCheckPointers.NOTHING_SAVEABLE, max_sequence_length=4096, sharding_array=(1, -1, 1, 1), is_fine_tuning=True, do_train=True, do_eval=False, do_test=False, train_on_inputs=True, backend=None, extra_optimizer_kwargs=None, save_steps=None, save_dir='EasyDeL-Checkpoints', save_total_limit=None, dtype=jnp.bfloat16, param_dtype=jnp.bfloat16, fully_sharded_data_parallel=True, use_wandb=True, custom_rule=None, extra_configs=None, ids_to_pop_from_dataset=None, remove_ckpt_after_load=False, configs_to_initialize_model_class=None, do_last_save=True, model_parameters=None, do_shard_fns=True, track_memory=None, loss_re_mat='', loss_chunk=1024, truncation_mode='keep_end', warmup_steps=500, init_input_shape=(1, 1), step_partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp'), training_time=None, dataloader_num_workers=0, dataloader_pin_memory=False, jax_distributed_config=None, log_all_workers=False, wandb_entity=None, save_optimizer_state=False, step_start_point=None, verbose=True, offload_device=jax.devices('cpu')[0], rapture_config=None, merge_lora_rapture_parameters=True, state_apply_fn_kwarguments_to_model=None, remove_unused_columns=True, force_batch_and_gradient_accumulation_steps_calculation=False, performance_mode=False, neftune_noise_alpha=None, log_grad_norms=True, loaded_model_config_kwargs=None, **kwargs)</code>","text":"<p>The init function is called when the class is instantiated. It sets up the attributes of an object, which are sometimes called fields or properties. The init function can accept arguments, just like a normal function.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>model_name</code> <code>str</code> <p>str: Specify the model name</p> required <code>num_train_epochs</code> <code>int</code> <p>int: Set the number of epochs for training</p> required <code>model_huggingface_repo_id</code> <code>Optional[str]</code> <p>Optional[str]: Load a pretrained model from the huggingface model hub</p> <code>None</code> <code>model_class</code> <code>Optional[EasyDeLFlaxPretrainedModel | Type[EasyDeLFlaxPretrainedModel]]</code> <p>Optional[EasyDeLFlaxPretrainedModel]: Pass a model class to the trainer</p> <code>None</code> <code>total_batch_size</code> <code>int</code> <p>int: Set the batch size of the model</p> <code>32</code> <code>max_training_steps</code> <code>Optional[int]</code> <p>Optional[int]: Set the maximum total number of training steps across all epochs</p> <code>None</code> <code>max_evaluation_steps</code> <code>Optional[int]</code> <p>Optional[int]: Set the maximum number of steps to evaluate for</p> <code>None</code> <code>optimizer</code> <code>AVAILABLE_OPTIMIZERS</code> <p>AVAILABLE_OPTIMIZERS: Specify the optimizer used to train the model</p> <code>ADAMW</code> <code>scheduler</code> <code>AVAILABLE_SCHEDULERS</code> <p>AVAILABLE_SCHEDULERS: Set the learning rate scheduler</p> <code>NONE</code> <code>learning_rate</code> <code>Union[int, float]</code> <p>Union[int, float] : Set the learning rate for the optimizer</p> <code>5e-05</code> <code>learning_rate_end</code> <code>Optional[float]</code> <p>Optional[float]: Set the learning rate at the end of training</p> <code>5e-06</code> <code>gradient_accumulation_steps</code> <code>int</code> <p>int: Accumulate gradients over multiple batches</p> <code>1</code> <code>weight_decay</code> <code>float</code> <p>float: Specify the weight decay to be used by the optimizer</p> <code>0.01</code> <code>label_smoothing_factor</code> <code>float</code> <p>float: Set the label smoothing factor to be used by the loss function</p> <code>0.0</code> <code>z_loss</code> <code>float</code> <p>float: Set the z loss factor to be used by the loss function</p> <code>0.0</code> <code>gradient_checkpointing</code> <code>AVAILABLE_GRADIENT_CHECKPOINTS</code> <p>AVAILABLE_GRADIENT_CHECKPOINTS: Determine how to use gradient checkpointing</p> <code>NOTHING_SAVEABLE</code> <code>max_sequence_length</code> <code>Optional[int]</code> <p>Optional[int]: Set the maximum length of the input sequence</p> <code>4096</code> <code>sharding_array</code> <code>Union[tuple, int]</code> <p>Union[tuple,int]: Specify the mesh of devices to use for training</p> <code>(1, -1, 1, 1)</code> <code>is_fine_tuning</code> <code>bool</code> <p>bool: Tell the model whether or not to initialize the weights of</p> <code>True</code> <code>do_train</code> <code>bool</code> <p>bool: Indicate whether to train the model or not</p> <code>True</code> <code>do_eval</code> <code>bool</code> <p>bool: Determine whether to run evaluation on the validation set after training</p> <code>False</code> <code>do_test</code> <code>Optional[bool]</code> <p>Optional[bool]: Determine if the model should be tested</p> <code>False</code> <code>train_on_inputs</code> <code>bool</code> <p>bool: Use input_ids instead of labels, overrides ignored (-100) tokens in the labels</p> <code>True</code> <code>backend</code> <code>Optional[str]</code> <p>Optional[str]: Specify the backend of jax</p> <code>None</code> <code>extra_optimizer_kwargs</code> <code>dict</code> <p>dict: Pass extra arguments to the optimizer</p> <code>None</code> <code>save_steps</code> <code>Optional[int]</code> <p>Optional[int]: Save the model after every n steps</p> <code>None</code> <code>save_dir</code> <code>str</code> <p>str: Define the directory where the checkpoints will be saved</p> <code>'EasyDeL-Checkpoints'</code> <code>save_total_limit</code> <code>Optional[int]</code> <p>int: Set the maximum number of checkpoints to keep, older checkpoints will be deleted</p> <code>None</code> <code>dtype</code> <code>dtype</code> <p>jnp.dtype: Set the dtype of the model parameters</p> <code>bfloat16</code> <code>param_dtype</code> <code>dtype</code> <p>jnp.dtype: Specify the data type of the model parameters</p> <code>bfloat16</code> <code>fully_sharded_data_parallel</code> <code>bool</code> <p>bool: Determine if the model should be fully fsdp or not</p> <code>True</code> <code>use_wandb</code> <code>bool</code> <p>bool: Enable or disable the wandb logging</p> <code>True</code> <code>custom_rule</code> <code>Mapping[str, PartitionSpec]</code> <p>Mapping[str, PartitionSpec]: Specify the partitioning rules of the model</p> <code>None</code> <code>extra_configs</code> <code>Optional[dict]</code> <p>Optional[dict]: Pass extra configurations to the model class</p> <code>None</code> <code>ids_to_pop_from_dataset</code> <code>Optional[list]</code> <p>Optional[list]: Remove some of the ids from the dataset</p> <code>None</code> <code>remove_ckpt_after_load</code> <code>bool</code> <p>bool: Remove the checkpoint after loading it</p> <code>False</code> <code>configs_to_initialize_model_class</code> <code>Optional[dict]</code> <p>Optional[dict]: Pass extra configurations to the model class</p> <code>None</code> <code>do_last_save</code> <code>bool</code> <p>bool: Save the model after training is complete</p> <code>True</code> <code>model_parameters</code> <code>Optional[dict]</code> <p>Optional[dict]: Pass the model parameters to the model class</p> <code>None</code> <code>do_shard_fns</code> <code>bool</code> <p>bool: Shard the model functions across devices</p> <code>True</code> <code>track_memory</code> <code>Optional[bool]</code> <p>bool: Track the memory usage of the model</p> <code>None</code> <code>loss_re_mat</code> <code>str</code> <p>str: Specify the regular expression to match the loss function name</p> <code>''</code> <code>loss_chunk</code> <code>int</code> <p>int: Chunk the loss to avoid memory overflow</p> <code>1024</code> <code>truncation_mode</code> <code>Literal['keep_end', 'keep_start']</code> <p>typing.Literal[\"keep_end\", \"keep_start\"]: Determine if the input is left padded or not and which side of the array should remain in case of using maximum padding.</p> <code>'keep_end'</code> <code>warmup_steps</code> <code>int</code> <p>int: Specify the number of steps to warm up the learning rate</p> <code>500</code> <code>init_input_shape</code> <code>Tuple[int, int]</code> <p>Tuple[int, int]: Initialize the model with a shape that is not (batch_size, length)</p> <code>(1, 1)</code> <code>step_partition_spec</code> <code>PartitionSpec</code> <p>PartitionSpec: Partition the model for training</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp')</code> <code>training_time</code> <code>Optional[str]</code> <p>Optional[str]: Set a time limit for the training process</p> <code>None</code> <code>dataloader_num_workers</code> <code>Optional[int]</code> <p>Optional[int]: Set the number of workers used by pytorch's</p> <code>0</code> <code>dataloader_pin_memory</code> <code>Optional[bool]</code> <p>Optional[bool]: Pin the memory of the dataloader</p> <code>False</code> <code>jax_distributed_config</code> <code>Optional[dict]</code> <p>Optional[dict]: Configure the jax distributed backend</p> <code>None</code> <code>log_all_workers</code> <code>bool</code> <p>bool: Log all workers in wandb,</p> <code>False</code> <code>wandb_entity</code> <code>Optional[str]</code> <p>Optional[str]: Specify the entity to use when logging to weights &amp; biases</p> <code>None</code> <code>save_optimizer_state</code> <code>bool</code> <p>bool: when ever to save optimizer state and other args in checkpoint</p> <code>False</code> <code>step_start_point</code> <code>Optional[int]</code> <p>Optional[int]: start training from given step for example instead of starting training from step 0 it will start from 20000 and leave the data behind</p> <code>None</code> <code>verbose</code> <code>bool</code> <p>bool: when ever to turn verbose mode of or on</p> <code>True</code> <code>offload_device</code> <code>Device</code> <p>jax.Device: device to be used to offload parameters on</p> <code>devices('cpu')[0]</code> <code>rapture_config</code> <code>Optional[EasyDeLXRapTureConfig]</code> <p>Optional[EasyDeLXRaptureConfig]: LoRA Config for models</p> <code>None</code> <code>merge_lora_rapture_parameters</code> <code>bool</code> <p>bool: whenever to merge lora parameters with original parameters before saving</p> <code>True</code> <code>state_apply_fn_kwarguments_to_model</code> <code>Optional[dict]</code> <p>Optional[dict]: state_apply_fn_kwarguments_to_model is a dictionary that be used to apply the parameters and extra things that you want to deliver to model.</p> <code>None</code> <code>remove_unused_columns</code> <code>bool</code> <p>bool: when ever to remove the unused data columns from dataset</p> <code>True</code> <code>force_batch_and_gradient_accumulation_steps_calculation</code> <code>bool</code> <p>bool: whether to force batch and gradient to be applied as total batch_size (e.g total_batch_size = total_batch_size * gradient_accumulation_steps be applied)</p> <code>False</code> <code>performance_mode</code> <code>bool</code> <p>bool: whether to optimize the whole training process this will cut off some logging options and optimize training process.</p> <code>False</code> <code>neftune_noise_alpha</code> <code>Optional[float]</code> <p>Optional[float]: If not <code>None</code>, this will activate NEFTune noise embeddings. This has been proven to drastically improve model performances for instruction fine-tuning.</p> <code>None</code> <code>loaded_model_config_kwargs</code> <code>Optional[dict]</code> <p>Optional[dict]: config key arguments to be passed to the model while being loaded</p> <code>None</code> <code>**kwargs</code> <p>Pass keyword, variable-length argument list</p> <code>{}</code> <p>from checkpoint</p> Source code in <code>src/python/easydel/trainer/training_configurations.py</code> <pre><code>def __init__(\n        self,\n        model_name: str,\n        num_train_epochs: int,\n        model_class: Optional[EasyDeLFlaxPretrainedModel | Type[EasyDeLFlaxPretrainedModel]] = None,\n        model_huggingface_repo_id: Optional[str] = None,\n        total_batch_size: int = 32,\n        max_training_steps: Optional[int] = None,\n        max_evaluation_steps: Optional[int] = None,\n        optimizer: AVAILABLE_OPTIMIZERS = EasyDeLOptimizers.ADAMW,\n        scheduler: AVAILABLE_SCHEDULERS = EasyDeLSchedulers.NONE,\n        learning_rate: Union[int, float] = 5e-5,\n        learning_rate_end: Optional[float] = 5e-6,\n        gradient_accumulation_steps: int = 1,\n        weight_decay: float = 0.01,\n        label_smoothing_factor: float = 0.0,\n        z_loss: float = 0.0,\n        gradient_checkpointing: AVAILABLE_GRADIENT_CHECKPOINTS = EasyDeLGradientCheckPointers.NOTHING_SAVEABLE,\n        max_sequence_length: Optional[int] = 4096,\n        sharding_array: Union[tuple, int] = (1, -1, 1, 1),\n        is_fine_tuning: bool = True,\n        do_train: bool = True,\n        do_eval: bool = False,\n        do_test: Optional[bool] = False,\n        train_on_inputs: bool = True,\n        backend: Optional[str] = None,\n        extra_optimizer_kwargs: dict = None,\n        save_steps: Optional[int] = None,\n        save_dir: str = \"EasyDeL-Checkpoints\",\n        save_total_limit: Optional[int] = None,\n        dtype: jnp.dtype = jnp.bfloat16,\n        param_dtype: jnp.dtype = jnp.bfloat16,\n        fully_sharded_data_parallel: bool = True,\n        use_wandb: bool = True,\n        custom_rule: Mapping[str, PartitionSpec] = None,\n        extra_configs: Optional[dict] = None,\n        ids_to_pop_from_dataset: Optional[list] = None,\n        remove_ckpt_after_load: bool = False,\n        configs_to_initialize_model_class: Optional[dict] = None,\n        do_last_save: bool = True,\n        model_parameters: Optional[dict] = None,\n        do_shard_fns: bool = True,\n        track_memory: Optional[bool] = None,\n        loss_re_mat: str = \"\",\n        loss_chunk: int = 1024,\n        truncation_mode: typing.Literal[\"keep_end\", \"keep_start\"] = \"keep_end\",\n        warmup_steps: int = 500,\n        init_input_shape: Tuple[int, int] = (1, 1),\n        step_partition_spec: PartitionSpec = PartitionSpec((\"dp\", \"fsdp\"), \"sp\"),\n        training_time: Optional[str] = None,\n        dataloader_num_workers: Optional[int] = 0,\n        dataloader_pin_memory: Optional[bool] = False,\n        jax_distributed_config: Optional[dict] = None,\n        log_all_workers: bool = False,\n        wandb_entity: Optional[str] = None,\n        save_optimizer_state: bool = False,\n        step_start_point: Optional[int] = None,\n        verbose: bool = True,\n        offload_device: jax.Device = jax.devices(\"cpu\")[0],\n        rapture_config: Optional[EasyDeLXRapTureConfig] = None,\n        merge_lora_rapture_parameters: bool = True,\n        state_apply_fn_kwarguments_to_model: Optional[dict] = None,\n        remove_unused_columns: bool = True,\n        force_batch_and_gradient_accumulation_steps_calculation: bool = False,\n        performance_mode: bool = False,\n        neftune_noise_alpha: Optional[float] = None,\n        log_grad_norms: bool = True,\n        loaded_model_config_kwargs: Optional[dict] = None,\n        **kwargs\n):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It sets up the attributes of an object, which are sometimes called fields or properties.\n    The __init__ function can accept arguments, just like a normal function.\n\n    Args:\n        self: Represent the instance of the class\n        model_name: str: Specify the model name\n        num_train_epochs: int: Set the number of epochs for training\n        model_huggingface_repo_id: Optional[str]: Load a pretrained\n            model from the huggingface model hub\n        model_class: Optional[EasyDeLFlaxPretrainedModel]: Pass a\n            model class to the trainer\n        total_batch_size: int: Set the batch size of the model\n        max_training_steps: Optional[int]: Set the maximum total\n            number of training steps across all epochs\n        max_evaluation_steps: Optional[int]: Set the maximum number\n            of steps to evaluate for\n        optimizer: AVAILABLE_OPTIMIZERS: Specify the optimizer used\n            to train the model\n        scheduler: AVAILABLE_SCHEDULERS: Set the learning rate\n            scheduler\n        learning_rate: Union[int, float] : Set the learning rate for\n            the optimizer\n        learning_rate_end: Optional[float]: Set the learning rate at\n            the end of training\n        gradient_accumulation_steps: int: Accumulate gradients over\n            multiple batches\n        weight_decay: float: Specify the weight decay to be used by\n            the optimizer\n        label_smoothing_factor: float: Set the label smoothing\n            factor to be used by the loss function\n        z_loss: float: Set the z loss factor to be used by the loss\n            function\n        gradient_checkpointing: AVAILABLE_GRADIENT_CHECKPOINTS:\n            Determine how to use gradient checkpointing\n        max_sequence_length: Optional[int]: Set the maximum length\n            of the input sequence\n        sharding_array: Union[tuple,int]: Specify the mesh of\n            devices to use for training\n        is_fine_tuning: bool: Tell the model whether or not to\n            initialize the weights of\n        do_train: bool: Indicate whether to train the model or not\n        do_eval: bool: Determine whether to run evaluation on the\n            validation set after training\n        do_test: Optional[bool]: Determine if the model should be\n            tested\n        train_on_inputs: bool: Use input_ids instead of labels,\n            overrides ignored (-100) tokens in the labels\n        backend: Optional[str]: Specify the backend of jax\n        extra_optimizer_kwargs: dict: Pass extra arguments to the\n            optimizer\n        save_steps: Optional[int]: Save the model after every n\n            steps\n        save_dir: str: Define the directory where the checkpoints\n            will be saved\n        save_total_limit: int: Set the maximum number of checkpoints\n            to keep, older checkpoints will be deleted\n        dtype: jnp.dtype: Set the dtype of the model parameters\n        param_dtype: jnp.dtype: Specify the data type of the model\n            parameters\n        fully_sharded_data_parallel: bool: Determine if the model\n            should be fully fsdp or not\n        use_wandb: bool: Enable or disable the wandb logging\n        custom_rule: Mapping[str, PartitionSpec]: Specify the\n            partitioning rules of the model\n        extra_configs: Optional[dict]: Pass extra configurations to\n            the model class\n        ids_to_pop_from_dataset: Optional[list]: Remove some of the\n            ids from the dataset\n        remove_ckpt_after_load: bool: Remove the checkpoint after\n            loading it\n        configs_to_initialize_model_class: Optional[dict]: Pass\n            extra configurations to the model class\n        do_last_save: bool: Save the model after training is\n            complete\n        model_parameters: Optional[dict]: Pass the model parameters\n            to the model class\n        do_shard_fns: bool: Shard the model functions across devices\n        track_memory: bool: Track the memory usage of the model\n        loss_re_mat: str: Specify the regular expression to match\n            the loss function name\n        loss_chunk: int: Chunk the loss to avoid memory overflow\n        truncation_mode: typing.Literal[\"keep_end\", \"keep_start\"]:\n            Determine if the input is left padded or not and which\n            side of the array should remain in case of using maximum\n            padding.\n        warmup_steps: int: Specify the number of steps to warm up\n            the learning rate\n        init_input_shape: Tuple[int, int]: Initialize the model with\n            a shape that is not (batch_size, length)\n        step_partition_spec: PartitionSpec: Partition the model for\n            training\n        training_time: Optional[str]: Set a time limit for the\n            training process\n        dataloader_num_workers: Optional[int]: Set the number of\n            workers used by pytorch's\n        dataloader_pin_memory: Optional[bool]: Pin the memory of the\n            dataloader\n        jax_distributed_config: Optional[dict]: Configure the jax\n            distributed backend\n        log_all_workers: bool: Log all workers in wandb,\n        wandb_entity: Optional[str]: Specify the entity to use when\n            logging to weights &amp;amp; biases\n        save_optimizer_state: bool: when ever to save optimizer\n            state and other args in checkpoint\n        step_start_point: Optional[int]: start training from given\n            step for example instead of starting training from step\n            0 it will start from 20000 and leave the data behind\n        verbose: bool: when ever to turn verbose mode of or on\n        offload_device: jax.Device: device to be used to offload\n            parameters on\n        rapture_config: Optional[EasyDeLXRaptureConfig]: LoRA Config\n            for models\n        merge_lora_rapture_parameters: bool: whenever to merge lora\n            parameters with original parameters before saving\n        state_apply_fn_kwarguments_to_model: Optional[dict]:\n            state_apply_fn_kwarguments_to_model is a dictionary that\n            be used to apply the parameters and extra things that\n            you want to deliver to model.\n        remove_unused_columns: bool: when ever to remove the unused\n            data columns from dataset\n        force_batch_and_gradient_accumulation_steps_calculation:\n            bool: whether to force batch and gradient to be applied\n            as total batch_size (e.g total_batch_size =\n            total_batch_size * gradient_accumulation_steps be\n            applied)\n        performance_mode: bool: whether to optimize the whole\n            training process this will cut off some logging options\n            and optimize training process.\n        neftune_noise_alpha: Optional[float]: If not `None`, this\n            will activate NEFTune noise embeddings. This has been\n            proven to drastically improve model performances for\n            instruction fine-tuning.\n        loaded_model_config_kwargs: Optional[dict]: config key\n            arguments to be passed to the model while being loaded\n        **kwargs: Pass keyword, variable-length argument list\n    from checkpoint\n    \"\"\"\n    super().__init__()\n\n    if ids_to_pop_from_dataset is None:\n        ids_to_pop_from_dataset = []\n    if extra_optimizer_kwargs is None:\n        extra_optimizer_kwargs = {}\n\n    if model_class is None and model_huggingface_repo_id is None:\n        print(\n            termcolor.colored(\n                \"Warning : \", color=\"red\", force_color=True\n            ) + termcolor.colored(\n                \"You should at least pass model_class or model_huggingface_repo_id if you want to use \"\n                \"CasualLanguageModel Trainer But in case that you want to use \"\n                \"DPOTrainer or ORPOTrainer you can ignore this warning\", color=\"white\",\n                force_color=True\n            )\n        )\n    assert backend in AVAILABLE_BACKENDS, (\n        f\"{backend} is not recognized, \"\n        f\"available backends are {AVAILABLE_BACKENDS}\"\n    )\n\n    if track_memory is None:\n        # https://github.com/erfanzar/EasyDeL/pull/100/commits/523ce7b1515d7896d456759d0bcd0bd02369bd10\n        print(\n            termcolor.colored(\"Information : \", color=\"red\", force_color=True),\n            termcolor.colored(\n                \"track_memory is set to False by default inorder make make training faster. \"\n                \"you can turn it on with just passing `track_memory=True` in TrainArguments\",\n                color=\"white\", force_color=True\n            )\n        )\n        track_memory = False\n\n    available_backends = len(jax.devices(backend))\n    if force_batch_and_gradient_accumulation_steps_calculation:\n        total_batch_size *= gradient_accumulation_steps  # Changed and will be handled inside FJFormer\n    array_devices = jnp.ones((available_backends, 1)).reshape(sharding_array)\n    JaxDistributedConfig.initialize(jax_distributed_config)\n    self.force_batch_and_gradient_accumulation_steps_calculation = (\n        force_batch_and_gradient_accumulation_steps_calculation\n    )\n    self.available_backends = available_backends\n    self.array_devices_shape = array_devices.shape\n    self.model_huggingface_repo_id = model_huggingface_repo_id\n    self.num_train_epochs = num_train_epochs\n    self.wandb_entity = wandb_entity\n    self.total_batch_size = total_batch_size\n    self.max_training_steps = max_training_steps\n    self.max_evaluation_steps = max_evaluation_steps\n    self.optimizer = optimizer\n    self.scheduler = scheduler\n    self.extra_optimizer_kwargs = extra_optimizer_kwargs\n    self.learning_rate = learning_rate\n    self.learning_rate_end = learning_rate_end\n    self.weight_decay = weight_decay\n    self.label_smoothing_factor = label_smoothing_factor\n    self.z_loss = z_loss\n    self.model_name = model_name\n    self.gradient_checkpointing = gradient_checkpointing\n    self.max_sequence_length = max_sequence_length\n    self.sharding_array = sharding_array\n    self.is_fine_tuning = is_fine_tuning\n    self.do_train = do_train\n    self.do_eval = do_eval\n    self.do_test = do_test\n    self.train_on_inputs = train_on_inputs\n    self.save_steps = save_steps\n    self.save_dir = save_dir\n    self.save_total_limit = save_total_limit\n    self.dtype = dtype\n    self.warmup_steps = warmup_steps\n    self.param_dtype = param_dtype\n    self.fully_sharded_data_parallel = fully_sharded_data_parallel\n    self.use_wandb = use_wandb\n    self.custom_rule = custom_rule\n    self.extra_configs = extra_configs\n    self.ids_to_pop_from_dataset = ids_to_pop_from_dataset\n    self.remove_ckpt_after_load = remove_ckpt_after_load\n    self.model_class = model_class\n    self.configs_to_initialize_model_class = configs_to_initialize_model_class\n    self.do_last_save = do_last_save\n    self.model_parameters = model_parameters\n    self.do_shard_fns = do_shard_fns\n    self.gradient_accumulation_steps = gradient_accumulation_steps\n    self.track_memory = track_memory\n    self.loss_chunk = loss_chunk\n    self.loss_re_mat = loss_re_mat\n    self.init_input_shape = init_input_shape\n    self.truncation_mode = truncation_mode\n    self.step_partition_spec = step_partition_spec\n    self.jax_distributed_config = jax_distributed_config\n    self.log_all_workers = log_all_workers\n    self.dataloader_num_workers = dataloader_num_workers\n    self.dataloader_pin_memory = dataloader_pin_memory\n    self.save_optimizer_state = save_optimizer_state\n    self.step_start_point = step_start_point if step_start_point is not None else 0\n    self.verbose = verbose\n    self.offload_device = offload_device\n    self.performance_mode = performance_mode\n    self.neftune_noise_alpha = neftune_noise_alpha\n    self.loaded_model_config_kwargs = loaded_model_config_kwargs\n    if use_wandb and performance_mode:\n        self.use_wandb = False\n    self.optimizer_kwargs = dict(\n        learning_rate=self.learning_rate,\n        learning_rate_end=self.learning_rate_end,\n        optimizer=self.optimizer,\n        scheduler=self.scheduler,\n        extra_optimizer_kwargs=self.extra_optimizer_kwargs,\n        warmup_steps=self.warmup_steps,\n        gradient_accumulation_steps=self.gradient_accumulation_steps,\n        weight_decay=self.weight_decay,\n        steps=self.max_training_steps,\n    )\n    self.training_time = self._time_to_seconds(training_time) if training_time is not None else None\n    torch.set_default_device(\"cpu\")\n    self.merge_lora_rapture_parameters = merge_lora_rapture_parameters\n    self.rapture = None\n    self.rapture_config = None\n    self.remove_unused_columns = remove_unused_columns\n    self._stop_capturing_memory = False\n    self._captured_memory = {}\n    self.log_grad_norms = log_grad_norms\n    if rapture_config is not None and log_grad_norms:\n        warnings.warn(\n            \"setting `log_grad_norms` to off since using log grad norms while using LoRA is not Supported.\"\n        )\n        self.log_grad_norms = False\n    self.state_apply_fn_kwarguments_to_model = (\n        state_apply_fn_kwarguments_to_model\n    ) if state_apply_fn_kwarguments_to_model is not None else {}\n    if rapture_config is not None:\n        print(\n            termcolor.colored(\"Warning : \", color=\"red\", force_color=True),\n            termcolor.colored(\n                \"You are using LoRA (Low-Rank Adaptation of Large Language Models) and this feature is\"\n                \"still in Beta mode so it might act unexpected\", color=\"red\", force_color=True\n            )\n        )\n        self.rapture_config = rapture_config\n        self.rapture = XRapTure(config=rapture_config)\n    self.__dict__.update(**kwargs)\n</code></pre>"},{"location":"generated-trainer-training_configurations/#src.python.easydel.trainer.training_configurations.TrainArguments.ckpt_path_exists","title":"<code>ckpt_path_exists()</code>","text":"<p>The ckpt_path_exists function checks to see if the path exists. If it does not, then it creates a new directory.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>A path</p> Source code in <code>src/python/easydel/trainer/training_configurations.py</code> <pre><code>def ckpt_path_exists(self):\n    \"\"\"The ckpt_path_exists function checks to see if the path exists. If it does not, then it creates a new directory.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A path\n    \"\"\"\n    path = self.get_path()\n    if not path.exists():\n        path.mkdir(parents=True)\n</code></pre>"},{"location":"generated-trainer-training_configurations/#src.python.easydel.trainer.training_configurations.TrainArguments.get_board","title":"<code>get_board()</code>","text":"<p>The get_board function is a helper function that returns a TensorBoard object. The TensorBoard object is used to log the training and validation loss, as well as the accuracy of the model during training. The get_board function takes no arguments, and returns an instance of torch.utils.tensorboard SummaryWriter class.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>A summary-writer object</p> Source code in <code>src/python/easydel/trainer/training_configurations.py</code> <pre><code>def get_board(self):\n    \"\"\"The get_board function is a helper function that returns a TensorBoard object.\n    The TensorBoard object is used to log the training and validation loss, as well as\n    the accuracy of the model during training. The get_board function takes no arguments,\n    and returns an instance of torch.utils.tensorboard SummaryWriter class.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A summary-writer object\n    \"\"\"\n    return torch.utils.tensorboard.SummaryWriter(\n        log_dir=str(self.get_path()),\n        comment=f\"{self.model_name}\",\n        filename_suffix=\"easydel\"\n    )\n</code></pre>"},{"location":"generated-trainer-training_configurations/#src.python.easydel.trainer.training_configurations.TrainArguments.get_mesh","title":"<code>get_mesh()</code>","text":"<p>The get_mesh function is used to create a mesh object that can be used to define the geometry of the device. The mesh object contains two arrays: a list of vertices and a list of faces. Each face is defined by three indices, which correspond to three vertices in the vertex array. The get_mesh function is called when creating an instance of DeviceGeometry, which is then passed into an instance of DeviceSimulation.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Refer to the object itself</p> required <p>Returns:</p> Type Description <p>A mesh object with the device array shape and the mesh names</p> Source code in <code>src/python/easydel/trainer/training_configurations.py</code> <pre><code>def get_mesh(self):\n    \"\"\"The get_mesh function is used to create a mesh object that can be used\n    to define the geometry of the device. The mesh object contains two arrays:\n    a list of vertices and a list of faces. Each face is defined by three indices,\n    which correspond to three vertices in the vertex array. The get_mesh function\n    is called when creating an instance of DeviceGeometry, which is then passed\n    into an instance of DeviceSimulation.\n\n    Args:\n        self: Refer to the object itself\n\n    Returns:\n        A mesh object with the device array shape and the mesh names\n    \"\"\"\n    return Mesh(\n        create_device_mesh(\n            self.array_devices_shape\n        ),\n        self.get_mesh_names()\n    )\n</code></pre>"},{"location":"generated-trainer-training_configurations/#src.python.easydel.trainer.training_configurations.TrainArguments.get_meter_dict","title":"<code>get_meter_dict()</code>","text":"<p>The get_meter_dict function is used to return a dictionary of the hyperparameters. The function iterates through all the attributes in the class and returns a dictionary with the key as \"hyperparameters/{k}\" and value as v for each attribute k,v in self.dict if it is an  instance of int, float, str, bool or torch.Tensor.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>A dictionary of hyperparameters</p> Source code in <code>src/python/easydel/trainer/training_configurations.py</code> <pre><code>def get_meter_dict(self):\n    \"\"\"The get_meter_dict function is used to return a dictionary of the hyperparameters.\n    The function iterates through all the attributes in the class and returns a dictionary with\n    the key as &amp;quot;hyperparameters/{k}&amp;quot; and value as v for each attribute k,v in self.__dict__ if it is an\n     instance of int, float, str, bool or torch.Tensor.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A dictionary of hyperparameters\n    \"\"\"\n    return {\n        f\"hyperparameters/{k}\": v for k, v in self.__dict__.items() if\n        isinstance(v, (int, float, str, bool, torch.Tensor))\n    }\n</code></pre>"},{"location":"generated-trainer-training_configurations/#src.python.easydel.trainer.training_configurations.TrainArguments.get_path","title":"<code>get_path()</code>","text":"<p>The get_path function returns a pathlib.Path object, which is a class that represents file paths and provides methods for interacting with the files at those paths. The get_path function takes no arguments and returns an instance of the Path class initialized with two arguments: self.save_dir (a string) and self.model_name (also a string). The save directory is the directory where we'll store our model checkpoints, while the model name will be used to create unique filenames for each checkpoint.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>A pathlib</p> Source code in <code>src/python/easydel/trainer/training_configurations.py</code> <pre><code>def get_path(self):\n    \"\"\"The get_path function returns a pathlib.Path object, which is a class that\n    represents file paths and provides methods for interacting with the files at\n    those paths. The get_path function takes no arguments and returns an instance of\n    the Path class initialized with two arguments: self.save_dir (a string) and\n    self.model_name (also a string). The save directory is the directory where we'll\n    store our model checkpoints, while the model name will be used to create unique\n    filenames for each checkpoint.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A pathlib\n    \"\"\"\n    return pathlib.Path(\n        self.save_dir, self.model_name\n    )\n</code></pre>"},{"location":"generated-trainer-training_configurations/#src.python.easydel.trainer.training_configurations.TrainArguments.get_streaming_checkpointer","title":"<code>get_streaming_checkpointer()</code>","text":"<p>The get_streaming_checkpointer function is used to save the model's weights. The streaming checkpointer saves the model's weights in a file called \"checkpoint\" and then saves a copy of that file with an incrementing number appended to it (e.g., checkpoint_001, checkpoint_002, etc.). This allows you to keep multiple versions of your trained models.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>A CheckpointManager object</p> Source code in <code>src/python/easydel/trainer/training_configurations.py</code> <pre><code>def get_streaming_checkpointer(self):\n    \"\"\"The get_streaming_checkpointer function is used to save the model's weights.\n    The streaming checkpointer saves the model's weights in a file called &amp;quot;checkpoint&amp;quot; and then\n    saves a copy of that file with an incrementing number appended to it (e.g., checkpoint_001,\n    checkpoint_002, etc.). This allows you to keep multiple versions of your trained models.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        A CheckpointManager object\n    \"\"\"\n    return CheckpointManager(\n        os.path.join(self.save_dir, self.model_name),\n        save_optimizer_state=self.save_optimizer_state,\n        verbose=self.verbose\n    )\n</code></pre>"},{"location":"generated-trainer-training_configurations/#src.python.easydel.trainer.training_configurations.TrainArguments.get_wandb_init","title":"<code>get_wandb_init()</code>","text":"<p>The get_wandb_init function is a helper function that returns the wandb.init() call with the project name, config object, and tags set to appropriate values for this model.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Pass the class instance to the function</p> required <p>Returns:</p> Type Description <code>Run | RunDisabled | None</code> <p>A wandb or None</p> Source code in <code>src/python/easydel/trainer/training_configurations.py</code> <pre><code>def get_wandb_init(self) -&gt; Run | RunDisabled | None:\n    \"\"\"The get_wandb_init function is a helper function that returns the wandb.init() call with\n    the project name, config object, and tags set to appropriate values for this model.\n\n    Args:\n        self: Pass the class instance to the function\n\n    Returns:\n        A wandb or None\n    \"\"\"\n    return wandb.init(\n        project=f\"EasyDeL-{self.model_name}\",\n        config=self(),\n        tags=[\n            \"EasyDeL\",\n            \"FJFormer\",\n            \"OST-OpenSourceTransformers\",\n            \"Jax/Flax\"\n        ],\n        entity=self.wandb_entity\n\n    ) if self.log_all_workers or (jax.process_index() == 0) else None\n</code></pre>"},{"location":"generated-trainer-utils/","title":"trainer.utils","text":""},{"location":"generated-trainer-utils/#src.python.easydel.trainer.utils.DataCollatorForCompletionOnlyLM","title":"<code>DataCollatorForCompletionOnlyLM</code>","text":"<p>Data collator used for completion tasks. It ensures that all the tokens of the labels are set to an 'ignore_index' when they do not come from the assistant. This ensures that the loss is only calculated on the completion made by the assistant.</p> Source code in <code>src/python/easydel/trainer/utils.py</code> <pre><code>class DataCollatorForCompletionOnlyLM:\n    \"\"\"Data collator used for completion tasks. It ensures that all the tokens of the labels are set to an 'ignore_index'\n    when they do not come from the assistant. This ensures that the loss is only\n    calculated on the completion made by the assistant.\n    \"\"\"\n\n    def __init__(\n            self,\n            tokenizer: Union[str, PreTrainedTokenizerBase],\n            response_template: Union[str, List[int]],\n            instruction_template: Optional[Union[str, List[int]]] = None,\n            *args,\n            mlm: bool = False,\n            ignore_index: int = -100,\n            **kwargs,\n    ):\n        if isinstance(tokenizer, str):\n            tokenizer = AutoTokenizer.from_pretrained(tokenizer)\n            self.tokenizer = tokenizer\n        self.instruction_template = instruction_template\n        if isinstance(instruction_template, str):\n            self.instruction_token_ids = self.tokenizer.encode(self.instruction_template, add_special_tokens=False)\n        else:\n            self.instruction_token_ids = instruction_template\n\n        self.response_template = response_template\n        if isinstance(response_template, str):\n            self.response_token_ids = self.tokenizer.encode(self.response_template, add_special_tokens=False)\n        else:\n            self.response_token_ids = response_template\n\n        if not mlm and self.instruction_template and self.tokenizer.pad_token_id == self.tokenizer.eos_token_id:\n            warnings.warn(\n                \"The pad_token_id and eos_token_id values of this tokenizer are identical. \"\n                \"If you are planning for multi-turn training, \"\n                \"it can result in the model continuously generating questions and answers without eos token. \"\n                \"To avoid this, set the pad_token_id to a different value.\"\n            )\n\n        self.ignore_index = ignore_index\n\n    def _whole_word_mask(self, input_tokens: List[str], max_predictions=512):\n        if not isinstance(self.tokenizer, (BertTokenizer, BertTokenizerFast)):\n            warnings.warn(\n                \"DataCollatorForWholeWordMask is only suitable for BertTokenizer-like tokenizers. \"\n                \"Please refer to the documentation for more information.\"\n            )\n\n        cand_indexes = []\n        for i, token in enumerate(input_tokens):\n            if token == \"[CLS]\" or token == \"[SEP]\":\n                continue\n\n            if len(cand_indexes) &gt;= 1 and token.startswith(\"##\"):\n                cand_indexes[-1].append(i)\n            else:\n                cand_indexes.append([i])\n\n        random.shuffle(cand_indexes)\n        num_to_predict = min(max_predictions, max(1, int(round(len(input_tokens) * 0.15))))\n        masked_lms = []\n        covered_indexes = set()\n        for index_set in cand_indexes:\n            if len(masked_lms) &gt;= num_to_predict:\n                break\n            if len(masked_lms) + len(index_set) &gt; num_to_predict:\n                continue\n            is_any_index_covered = False\n            for index in index_set:\n                if index in covered_indexes:\n                    is_any_index_covered = True\n                    break\n            if is_any_index_covered:\n                continue\n            for index in index_set:\n                covered_indexes.add(index)\n                masked_lms.append(index)\n\n        if len(covered_indexes) != len(masked_lms):\n            raise ValueError(\"Length of covered_indexes is not equal to length of masked_lms.\")\n        mask_labels = [1 if i in covered_indexes else 0 for i in range(len(input_tokens))]\n        return mask_labels\n\n    def jax_mask_tokens(self, inputs: Any, special_tokens_mask: Optional[Any] = None) -&gt; Tuple[Any, Any]:\n        \"\"\"Prepare masked tokens inputs/labels for masked language modeling: 80% MASK, 10% random, 10% original.\"\"\"\n        labels = np.copy(inputs)\n        probability_matrix = np.full(labels.shape, 0.15)\n        if special_tokens_mask is None:\n            special_tokens_mask = [\n                self.tokenizer.get_special_tokens_mask(val, already_has_special_tokens=True) for val in labels.tolist()\n            ]\n            special_tokens_mask = np.array(special_tokens_mask, dtype=bool)\n        else:\n            special_tokens_mask = special_tokens_mask.astype(bool)\n\n        probability_matrix[special_tokens_mask] = 0\n        masked_indices = np.random.binomial(1, probability_matrix, size=probability_matrix.shape).astype(bool)\n        labels[~masked_indices] = -100\n        indices_replaced = np.random.binomial(1, 0.8, size=labels.shape).astype(bool) &amp; masked_indices\n        inputs[indices_replaced] = self.tokenizer.mask_token_id\n        indices_random = (\n                np.random.binomial(1, 0.5, size=labels.shape).astype(bool) &amp; masked_indices &amp; ~indices_replaced\n        )\n        random_words = np.random.randint(\n            low=0, high=len(self.tokenizer), size=np.count_nonzero(indices_random), dtype=np.int64\n        )\n        inputs[indices_random] = random_words\n        return inputs, labels\n\n    def jax_call(self, examples: List[Union[List[int], Any, Dict[str, Any]]]) -&gt; Dict[str, Any]:\n        if isinstance(examples[0], Mapping):\n            input_ids = [e[\"input_ids\"] for e in examples]\n        else:\n            input_ids = examples\n            examples = [{\"input_ids\": e} for e in examples]\n\n        batch_input = _collate_batch(input_ids, self.tokenizer, )\n\n        mask_labels = []\n        for e in examples:\n            ref_tokens = []\n            for ida in tolist(e[\"input_ids\"]):\n                token = self.tokenizer._convert_id_to_token(ida)\n                ref_tokens.append(token)\n\n            # For Chinese tokens, we need extra inf to mark sub-word, e.g [\u559c,\u6b22]-&gt; [\u559c\uff0c##\u6b22]\n            if \"chinese_ref\" in e:\n                ref_pos = tolist(e[\"chinese_ref\"])\n                len_seq = len(e[\"input_ids\"])\n                for i in range(len_seq):\n                    if i in ref_pos:\n                        ref_tokens[i] = \"##\" + ref_tokens[i]\n            mask_labels.append(self._whole_word_mask(ref_tokens))\n        batch_mask = _collate_batch(mask_labels, self.tokenizer, )\n        inputs, labels = self.jax_mask_tokens(batch_input, batch_mask)\n        return {\"input_ids\": inputs, \"labels\": labels}\n\n    def __call__(\n            self,\n            examples: List[Union[List[int], Any, Dict[str, Any]]]\n    ) -&gt; Dict[str, Any]:\n        batch = self.jax_call(examples)\n\n        if self.instruction_template is None:\n            for i in range(len(examples)):\n                response_token_ids_start_idx = None\n\n                for idx in jnp.where(batch[\"labels\"][i] == self.response_token_ids[0])[0]:\n                    if (\n                            self.response_token_ids\n                            == batch[\"labels\"][i][idx: idx + len(self.response_token_ids)].tolist()\n                    ):\n                        response_token_ids_start_idx = idx\n\n                if response_token_ids_start_idx is None:\n                    warnings.warn(\n                        f\"Could not find response key `{self.response_template}` in the \"\n                        f'following instance: {self.tokenizer.decode(batch[\"input_ids\"][i])} '\n                        f\"This instance will be ignored in loss calculation. \"\n                        f\"Note, if this happens often, consider increasing the `max_seq_length`.\"\n                    )\n                    batch[\"labels\"][i, :] = self.ignore_index\n                else:\n                    response_token_ids_end_idx = response_token_ids_start_idx + len(self.response_token_ids)\n                    batch[\"labels\"][i, :response_token_ids_end_idx] = self.ignore_index\n\n        else:\n            for i in range(len(examples)):\n                response_token_ids_idxs = []\n                human_token_ids_idxs = []\n\n                for assistant_idx in jnp.where(batch[\"labels\"][i] == self.response_token_ids[0])[0]:\n                    if (\n                            self.response_token_ids\n                            == batch[\"labels\"][i][assistant_idx: assistant_idx + len(self.response_token_ids)].tolist()\n                    ):\n                        response_token_ids_idxs.append(assistant_idx + len(self.response_token_ids))\n\n                if len(response_token_ids_idxs) == 0:\n                    warnings.warn(\n                        f\"Could not find response key `{self.response_template}` in the \"\n                        f'following instance: {self.tokenizer.decode(batch[\"input_ids\"][i])} '\n                        f\"This instance will be ignored in loss calculation. \"\n                        f\"Note, if this happens often, consider increasing the `max_seq_length`.\"\n                    )\n                    batch[\"labels\"][i, :] = self.ignore_index\n\n                human_token_ids = self.instruction_token_ids\n                for human_idx in jnp.where(batch[\"labels\"][i] == human_token_ids[0])[0]:\n                    if human_token_ids == batch[\"labels\"][i][human_idx: human_idx + len(human_token_ids)].tolist():\n                        human_token_ids_idxs.append(human_idx)\n\n                if len(human_token_ids_idxs) == 0:\n                    warnings.warn(\n                        f\"Could not find instruction key `{self.instruction_template}` in the \"\n                        f'following instance: {self.tokenizer.decode(batch[\"input_ids\"][i])} '\n                        f\"This instance will be ignored in loss calculation. \"\n                        f\"Note, if this happens often, consider increasing the `max_seq_length`.\"\n                    )\n                    batch[\"labels\"][i, :] = self.ignore_index\n\n                if (\n                        len(human_token_ids_idxs) &gt; 0\n                        and len(response_token_ids_idxs) &gt; 0\n                        and human_token_ids_idxs[0] &gt; response_token_ids_idxs[0]\n                ):\n                    human_token_ids_idxs = [0] + human_token_ids_idxs\n\n                for idx, (start, end) in enumerate(zip(human_token_ids_idxs, response_token_ids_idxs)):\n                    if idx != 0:\n                        batch[\"labels\"][i, start:end] = self.ignore_index\n                    else:\n                        batch[\"labels\"][i, :end] = self.ignore_index\n\n                if len(response_token_ids_idxs) &lt; len(human_token_ids_idxs):\n                    batch[\"labels\"][i, human_token_ids_idxs[-1]:] = self.ignore_index\n\n        return batch\n</code></pre>"},{"location":"generated-trainer-utils/#src.python.easydel.trainer.utils.DataCollatorForCompletionOnlyLM.jax_mask_tokens","title":"<code>jax_mask_tokens(inputs, special_tokens_mask=None)</code>","text":"<p>Prepare masked tokens inputs/labels for masked language modeling: 80% MASK, 10% random, 10% original.</p> Source code in <code>src/python/easydel/trainer/utils.py</code> <pre><code>def jax_mask_tokens(self, inputs: Any, special_tokens_mask: Optional[Any] = None) -&gt; Tuple[Any, Any]:\n    \"\"\"Prepare masked tokens inputs/labels for masked language modeling: 80% MASK, 10% random, 10% original.\"\"\"\n    labels = np.copy(inputs)\n    probability_matrix = np.full(labels.shape, 0.15)\n    if special_tokens_mask is None:\n        special_tokens_mask = [\n            self.tokenizer.get_special_tokens_mask(val, already_has_special_tokens=True) for val in labels.tolist()\n        ]\n        special_tokens_mask = np.array(special_tokens_mask, dtype=bool)\n    else:\n        special_tokens_mask = special_tokens_mask.astype(bool)\n\n    probability_matrix[special_tokens_mask] = 0\n    masked_indices = np.random.binomial(1, probability_matrix, size=probability_matrix.shape).astype(bool)\n    labels[~masked_indices] = -100\n    indices_replaced = np.random.binomial(1, 0.8, size=labels.shape).astype(bool) &amp; masked_indices\n    inputs[indices_replaced] = self.tokenizer.mask_token_id\n    indices_random = (\n            np.random.binomial(1, 0.5, size=labels.shape).astype(bool) &amp; masked_indices &amp; ~indices_replaced\n    )\n    random_words = np.random.randint(\n        low=0, high=len(self.tokenizer), size=np.count_nonzero(indices_random), dtype=np.int64\n    )\n    inputs[indices_random] = random_words\n    return inputs, labels\n</code></pre>"},{"location":"generated-trainer-utils/#src.python.easydel.trainer.utils.JaxDistributedConfig","title":"<code>JaxDistributedConfig</code>","text":"<p>               Bases: <code>object</code></p> <p>From EasyLM Utility class for initializing JAX distributed.</p> Source code in <code>src/python/easydel/trainer/utils.py</code> <pre><code>class JaxDistributedConfig(object):\n    \"\"\"\n    From EasyLM\n    Utility class for initializing JAX distributed.\n    \"\"\"\n\n    @staticmethod\n    def get_default_config(updates=None):\n        config = ConfigDict()\n        config.initialize_jax_distributed = False\n        config.coordinator_address = placeholder(str)\n        config.num_processes = placeholder(int)\n        config.process_id = placeholder(int)\n        config.local_device_ids = placeholder(str)\n\n        if updates is not None:\n            config.update(ConfigDict(updates).copy_and_resolve_references())\n        return config\n\n    @classmethod\n    def initialize(cls, config):\n        config = cls.get_default_config(config)\n        if config.initialize_jax_distributed:\n            if config.local_device_ids is not None:\n                local_device_ids = [int(x) for x in config.local_device_ids.split(',')]\n            else:\n                local_device_ids = None\n\n            jax.distributed.initialize(\n                coordinator_address=config.coordinator_address,\n                num_processes=config.num_processes,\n                process_id=config.process_id,\n                local_device_ids=local_device_ids,\n            )\n</code></pre>"},{"location":"generated-trainer-utils/#src.python.easydel.trainer.utils.conversations_formatting_function","title":"<code>conversations_formatting_function(tokenizer, messages_field)</code>","text":"<p>return a callable function that takes in a \"messages\" dataset and returns a formatted dataset, based on the tokenizer apply chat template to the dataset</p> Source code in <code>src/python/easydel/trainer/utils.py</code> <pre><code>def conversations_formatting_function(tokenizer: AutoTokenizer, messages_field: Literal[\"messages\", \"conversations\"]):\n    r\"\"\"\n    return a callable function that takes in a \"messages\" dataset and returns a formatted dataset, based on the tokenizer\n    apply chat template to the dataset\n    \"\"\"\n\n    def format_dataset(examples):\n        if isinstance(examples[messages_field][0], list):\n            output_texts = []\n            for i in range(len(examples[messages_field])):\n                output_texts.append(\n                    tokenizer.apply_chat_template(examples[messages_field][i], tokenize=False))  # type: ignore\n            return output_texts\n        else:\n            return tokenizer.apply_chat_template(examples[messages_field], tokenize=False)  # type: ignore\n\n    return format_dataset\n</code></pre>"},{"location":"generated-trainer-utils/#src.python.easydel.trainer.utils.get_formatting_func_from_dataset","title":"<code>get_formatting_func_from_dataset(dataset, tokenizer)</code>","text":"<p>from TRL Finds the correct formatting function based on the dataset structure. Currently supported datasets are: - <code>ChatML</code> with [{\"role\": str, \"content\": str}] - <code>instruction</code> with [{\"prompt\": str, \"completion\": str}]</p> <p>Parameters:</p> Name Type Description Default <code>dataset</code> <code>Dataset</code> <p>User dataset</p> required <code>tokenizer</code> <code>AutoTokenizer</code> <p>Tokenizer used for formatting</p> required <p>Returns:</p> Name Type Description <code>Callable</code> <code>Optional[Callable]</code> <p>Formatting function if the dataset format is supported else None</p> Source code in <code>src/python/easydel/trainer/utils.py</code> <pre><code>def get_formatting_func_from_dataset(\n        dataset: Union[Dataset, \"ConstantLengthDataset\"], tokenizer: AutoTokenizer  # type: ignore\n) -&gt; Optional[Callable]:\n    r\"\"\"from TRL\n    Finds the correct formatting function based on the dataset structure. Currently supported datasets are:\n    - `ChatML` with [{\"role\": str, \"content\": str}]\n    - `instruction` with [{\"prompt\": str, \"completion\": str}]\n\n    Args:\n        dataset (Dataset): User dataset\n        tokenizer (AutoTokenizer): Tokenizer used for formatting\n\n    Returns:\n        Callable: Formatting function if the dataset format is supported else None\n    \"\"\"\n    if isinstance(dataset, Dataset):\n        if \"messages\" in dataset.features:\n            if dataset.features[\"messages\"] == FORMAT_MAPPING[\"chatml\"]:\n                logging.info(\"Formatting dataset with chatml format\")\n                return conversations_formatting_function(tokenizer, \"messages\")\n        if \"conversations\" in dataset.features:\n            if dataset.features[\"conversations\"] == FORMAT_MAPPING[\"chatml\"]:\n                logging.info(\"Formatting dataset with chatml format\")\n                return conversations_formatting_function(tokenizer, \"conversations\")\n        elif dataset.features == FORMAT_MAPPING[\"instruction\"]:\n            logging.info(\"Formatting dataset with instruction format\")\n            return instructions_formatting_function(tokenizer)\n\n    return None\n</code></pre>"},{"location":"generated-trainer-utils/#src.python.easydel.trainer.utils.instructions_formatting_function","title":"<code>instructions_formatting_function(tokenizer)</code>","text":"<p>from TRL return a callable function that takes in an \"instructions\" dataset and returns a formatted dataset, based on the tokenizer apply chat template to the dataset</p> Source code in <code>src/python/easydel/trainer/utils.py</code> <pre><code>def instructions_formatting_function(tokenizer: AutoTokenizer):\n    r\"\"\"from TRL\n    return a callable function that takes in an \"instructions\" dataset and returns a formatted dataset, based on the tokenizer\n    apply chat template to the dataset\n    \"\"\"\n\n    def format_dataset(examples):\n        if isinstance(examples[\"prompt\"], list):\n            output_texts = []\n            for i in range(len(examples[\"prompt\"])):\n                converted_sample = [\n                    {\"role\": \"user\", \"content\": examples[\"prompt\"][i]},\n                    {\"role\": \"assistant\", \"content\": examples[\"completion\"][i]},\n                ]\n                output_texts.append(tokenizer.apply_chat_template(converted_sample, tokenize=False))  # type: ignore\n            return output_texts\n        else:\n            converted_sample = [\n                {\"role\": \"user\", \"content\": examples[\"prompt\"]},\n                {\"role\": \"assistant\", \"content\": examples[\"completion\"]},\n            ]\n            return tokenizer.apply_chat_template(converted_sample, tokenize=False)  # type: ignore\n\n    return format_dataset\n</code></pre>"},{"location":"generated-trainer-utils/#src.python.easydel.trainer.utils.tolist","title":"<code>tolist(x)</code>","text":"<p>from HF Args:     x:</p> <p>Returns: X as List</p> Source code in <code>src/python/easydel/trainer/utils.py</code> <pre><code>def tolist(x):\n    \"\"\"from HF\n    Args:\n        x:\n\n    Returns: X as List\n\n    \"\"\"\n    if isinstance(x, list):\n        return x\n    elif hasattr(x, \"numpy\"):\n        x = x.numpy()\n    return x.tolist()\n</code></pre>"},{"location":"generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/","title":"trainer.vision_causal_language_model_trainer.fwd_bwd_functions","text":""},{"location":"generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/#src.python.easydel.trainer.vision_causal_language_model_trainer.fwd_bwd_functions.create_vision_casual_language_model_evaluation_step","title":"<code>create_vision_casual_language_model_evaluation_step(partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp'))</code>","text":"<p>The create_vision_casual_language_model_evaluation_step function is used to create a function that calculates the  loss and accuracy of a model. It takes in a set of parameters, which are then passed into the state.apply_fn function to generate logits for each token in the batch. The cross entropy loss and accuracy are then calculated from these logits.</p> <p>Parameters:</p> Name Type Description Default <code>partition_spec</code> <p>Specify the partitioning of the model parameters</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp')</code> <p>Returns:</p> Type Description <p>A function that can be used to calculate the loss and accuracy</p> <p>of a model</p> Source code in <code>src/python/easydel/trainer/vision_causal_language_model_trainer/fwd_bwd_functions.py</code> <pre><code>def create_vision_casual_language_model_evaluation_step(partition_spec=PartitionSpec((\"dp\", \"fsdp\"), \"sp\")):\n    \"\"\"The create_vision_casual_language_model_evaluation_step function is used to create a function that calculates the\n     loss and accuracy of a model. It takes in a set of parameters, which are then passed into the state.apply_fn function\n    to generate logits for each token in the batch. The cross entropy loss and accuracy are then calculated from these\n    logits.\n\n    Args:\n        partition_spec: Specify the partitioning of the model parameters\n\n    Returns:\n        A function that can be used to calculate the loss and accuracy\n        of a model\n    \"\"\"\n\n    def vision_casual_language_model_evaluation_step(state, batch) -&gt; [\n        EasyDeLState,\n        chex.Array,\n        VisionCausalLanguageModelStepOutput\n    ]:\n        \"\"\"The vision_casual_language_model_train_step function is a training step function that takes in the current state\n        of the model and a batch of data. It then calculates the loss and accuracy for this batch,\n        and returns an updated state with new parameters based on these gradients.\n\n        Args:\n            state: Store the model parameters\n            batch: Pass the data to the model\n\n        Returns:\n            A tuple of (state, loss,\n            VisionCausalLanguageModelStepOutput)\n        \"\"\"\n        batch = with_sharding_constraint(batch, partition_spec)\n\n        def calculate_loss(params):\n            labels = batch.get(\"labels\", None)\n            if labels is None:\n                labels = batch[\"input_ids\"][..., 1:]\n            else:\n                labels = labels[..., 1:]\n            label_vision_mask = batch.pop(\"label_vision_mask\")\n            model_outputs = state.apply_fn(params=params, **batch, return_dict=True)\n            logits = model_outputs.logits\n            aux_loss = getattr(model_outputs, \"aux_loss\", None)\n\n            vision_loss, vision_accuracy = cross_entropy_loss_and_accuracy(\n                logits[:, :-1, :],\n                jnp.where(label_vision_mask, labels, 0),\n                batch[\"attention_mask\"].astype(jnp.float32)[:, 1:] * label_vision_mask\n            )\n            text_loss, text_accuracy = cross_entropy_loss_and_accuracy(\n                logits[:, :-1, :],\n                jnp.where(label_vision_mask, 0, labels),\n                batch[\"attention_mask\"].astype(jnp.float32)[:, 1:] * (1.0 - label_vision_mask)\n            )\n\n            loss = 0.5 * (vision_loss + text_loss + (aux_loss if aux_loss is not None else 0.))\n\n            return loss, VisionCausalLanguageModelStepOutput(\n                loss=loss,\n                text_accuracy=text_accuracy,\n                vision_accuracy=vision_accuracy,\n                text_loss=text_loss,\n                vision_loss=vision_loss\n            )\n\n        loss__, metrics = calculate_loss(state.params)\n        return loss__, metrics\n\n    return vision_casual_language_model_evaluation_step\n</code></pre>"},{"location":"generated-trainer-vision_causal_language_model_trainer-fwd_bwd_functions/#src.python.easydel.trainer.vision_causal_language_model_trainer.fwd_bwd_functions.create_vision_casual_language_model_train_step","title":"<code>create_vision_casual_language_model_train_step(partition_spec=PartitionSpec(('dp', 'fsdp'), 'sp'))</code>","text":"<p>The create_vision_casual_language_model_train_step function is a training step function that takes in the current  state of the model,and a batch of data. It then calculates the loss and accuracy for this batch, and returns an updated state with new parameters based on these gradients.</p> <p>Parameters:</p> Name Type Description Default <code>partition_spec</code> <p>Specify which devices the model will be split across</p> <code>PartitionSpec(('dp', 'fsdp'), 'sp')</code> <p>Returns:</p> Type Description <p>A casual_language_model_train_step function that takes in the</p> <p>current state of the model,</p> Source code in <code>src/python/easydel/trainer/vision_causal_language_model_trainer/fwd_bwd_functions.py</code> <pre><code>def create_vision_casual_language_model_train_step(partition_spec=PartitionSpec((\"dp\", \"fsdp\"), \"sp\")):\n    \"\"\"The create_vision_casual_language_model_train_step function is a training step function that takes in the current\n     state of the model,and a batch of data. It then calculates the loss and accuracy for this batch, and returns\n    an updated state with new parameters based on these gradients.\n\n    Args:\n        partition_spec: Specify which devices the model will be split\n            across\n\n    Returns:\n        A casual_language_model_train_step function that takes in the\n        current state of the model,\n    \"\"\"\n\n    def vision_casual_language_model_train_step(state, batch) -&gt; [\n        EasyDeLState,\n        chex.Array,\n        VisionCausalLanguageModelStepOutput\n    ]:\n        \"\"\"The vision_casual_language_model_train_step function is a training step function that takes in the current state\n        of the model and a batch of data. It then calculates the loss and accuracy for this batch,\n        and returns an updated state with new parameters based on these gradients.\n\n        Args:\n            state: Store the model parameters\n            batch: Pass the data to the model\n\n        Returns:\n            A tuple of (state, loss,\n            VisionCausalLanguageModelStepOutput)\n        \"\"\"\n        batch = with_sharding_constraint(batch, partition_spec)\n\n        def calculate_loss(params):\n            labels = batch.get(\"labels\", None)\n            if labels is None:\n                labels = batch[\"input_ids\"][..., 1:]\n            else:\n                labels = labels[..., 1:]\n            label_vision_mask = batch.pop(\"label_vision_mask\")\n\n            model_outputs = state.apply_fn(params=params, **batch, return_dict=True)\n            logits = model_outputs.logits\n            aux_loss = getattr(model_outputs, \"aux_loss\", None)\n\n            vision_loss, vision_accuracy = cross_entropy_loss_and_accuracy(\n                logits[:, :-1, :],\n                jnp.where(label_vision_mask, labels, 0),\n                batch[\"attention_mask\"].astype(jnp.float32)[:, 1:] * label_vision_mask\n            )\n            text_loss, text_accuracy = cross_entropy_loss_and_accuracy(\n                logits[:, :-1, :],\n                jnp.where(label_vision_mask, 0, labels),\n                batch[\"attention_mask\"].astype(jnp.float32)[:, 1:] * (1.0 - label_vision_mask)\n            )\n\n            loss = 0.5 * (vision_loss + text_loss + (aux_loss if aux_loss is not None else 0.))\n\n            return loss, VisionCausalLanguageModelStepOutput(\n                loss=loss,\n                text_accuracy=text_accuracy,\n                vision_accuracy=vision_accuracy,\n                text_loss=text_loss,\n                vision_loss=vision_loss\n            )\n\n        grad_fn = jax.value_and_grad(calculate_loss, has_aux=True)\n        (loss__, metrics), grad = grad_fn(state.params)\n        state = state.apply_gradients(grads=grad)\n        return state, loss__, metrics\n\n    return vision_casual_language_model_train_step\n</code></pre>"},{"location":"generated-trainer-vision_causal_language_model_trainer-modelling_output/","title":"trainer.vision_causal_language_model_trainer.modelling_output","text":""},{"location":"generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/","title":"trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer","text":""},{"location":"generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/#src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer","title":"<code>VisionCausalLanguageModelTrainer</code>","text":"<p>               Bases: <code>CausalLanguageModelTrainer</code></p> Source code in <code>src/python/easydel/trainer/vision_causal_language_model_trainer/vision_causal_language_model_trainer.py</code> <pre><code>class VisionCausalLanguageModelTrainer(CausalLanguageModelTrainer):\n\n    def create_collate_function(\n            self,\n            max_sequence_length: int,\n            truncation_mode: typing.Literal[\"keep_end\", \"keep_start\"] = \"keep_end\",\n    ) -&gt; Callable:\n        def collate_fn(batch):\n            results = {}\n            corrected_sequence = None\n            for key in batch[0].keys():\n                if truncation_mode == \"keep_end\":\n                    corrected_sequence = [\n                        jnp.array(f[key])[..., -max_sequence_length:] for f in batch\n                    ]\n                else:\n                    corrected_sequence = [\n                        jnp.array(f[key])[..., :max_sequence_length] for f in batch\n                    ]\n                results[key] = jnp.stack(corrected_sequence).reshape(\n                    -1,\n                    corrected_sequence[0].shape[-1]\n                )\n            return results\n\n        return collate_fn\n\n    def configure_functions(self) -&gt; TrainerConfigureFunctionFuncOutput:\n        \"\"\"The configure_functions function is responsible for configuring the functions that will be used in training.\n        It does this by first defining a function called function_configurations, which initializes the model parameters and returns\n        them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate\n        on a batch of data, including:\n\n        Args:\n            self: Access the class attributes\n\n        Returns:\n            A TrainerConfigureFunctionFuncOutput object\n        \"\"\"\n\n        def initialize_state_function():\n            initialized_parameters = self.model.init_weights(\n                jax.random.PRNGKey(0),\n                self.arguments.init_input_shape\n            )\n\n            if self.arguments.dtype == jnp.bfloat16:\n                initialized_parameters = self.model.to_bf16(initialized_parameters)\n            elif self.arguments.dtype == jnp.float16:\n                initialized_parameters = self.model.to_fp16(initialized_parameters)\n\n            tx = self.tx\n            parameters = flax.core.freeze({\"params\": initialized_parameters})\n            tx_init = copy.deepcopy(self.arguments.optimizer_kwargs)\n\n            if self.rapture is not None:\n                lora_parameters = self.lora_parameters\n                if self.arguments.dtype == jnp.bfloat16:\n                    lora_parameters = self.model.to_bf16(lora_parameters)\n                elif self.arguments.dtype == jnp.float16:\n                    lora_parameters = self.model.to_fp16(lora_parameters)\n\n                return EasyDeLState(\n                    step=0,\n                    apply_fn=self.lora_apply_fn,\n                    params=lora_parameters,\n                    tx=self.lora_tx,\n                    opt_state=self.lora_opt_state,\n                    tx_init=EasyDeLState.safe_dict(tx_init),\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.lora_model,\n                    module_config=self.model.config,\n                    module_config_args=None,\n                )\n            else:\n                return EasyDeLState.create(\n                    tx=tx,\n                    params=parameters,\n                    apply_fn=self.model.__call__,\n                    module_config=copy.deepcopy(self.model.config),\n                    tx_init=tx_init,\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.model,\n                    module_config_args=None\n                )\n\n        def create_state_from_params_function(parameters):\n            if self.rapture is None:\n                return EasyDeLState.create(\n                    tx=self.tx,\n                    params=parameters,\n                    apply_fn=self.model.__call__,\n                    module_config=copy.deepcopy(self.model.config),\n                    tx_init=copy.deepcopy(self.arguments.optimizer_kwargs),\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.model,\n                    module_config_args=None\n                )\n            else:\n                return EasyDeLState(\n                    step=0,\n                    apply_fn=self.lora_apply_fn,\n                    params=parameters,\n                    tx=self.lora_tx,\n                    opt_state=self.lora_opt_state,\n                    tx_init=EasyDeLState.safe_dict(copy.deepcopy(self.arguments.optimizer_kwargs)),\n                    hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                    module=self.lora_model,\n                    module_config=self.model.config,\n                    module_config_args=None,\n                )\n\n        state_shape = jax.eval_shape(initialize_state_function)\n        state_partition_spec = match_partition_rules(\n            self.config.get_partition_rules(\n                fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n            ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n            state_shape\n        )\n        create_sharded_state_from_params_function = pjit(\n            create_state_from_params_function,\n            in_shardings=(state_partition_spec.params,),\n            out_shardings=state_partition_spec,\n            donate_argnums=(0,)\n        )\n        sharded_train_step_function = pjit(\n            create_vision_casual_language_model_train_step(self.arguments.step_partition_spec),\n            in_shardings=(state_partition_spec, PartitionSpec()),\n            out_shardings=(state_partition_spec, PartitionSpec(), PartitionSpec()),\n            donate_argnums=(0, 0),\n        )\n\n        sharded_eval_step_function = pjit(\n            create_vision_casual_language_model_evaluation_step(self.arguments.step_partition_spec),\n            in_shardings=(state_partition_spec, PartitionSpec()),\n            out_shardings=(PartitionSpec(), PartitionSpec()),\n            donate_argnums=(0, 0),\n        )\n\n        mesh = self.arguments.get_mesh()\n        self.arguments.ckpt_path_exists()\n        checkpoint_manager = self.arguments.get_streaming_checkpointer()\n        self.state_partition_spec = state_partition_spec\n        self.state_shape = state_shape\n\n        return TrainerConfigureFunctionFuncOutput(\n            create_sharded_state_from_params_function=create_sharded_state_from_params_function,\n            sharded_train_step_function=sharded_train_step_function,\n            sharded_eval_step_function=sharded_eval_step_function,\n            mesh=mesh,\n            checkpoint_manager=checkpoint_manager,\n            initialize_state_function=initialize_state_function\n        )\n\n    def initialize_state(\n            self,\n            model_parameters: Optional[flax.core.FrozenDict] = None,\n            state: Optional[EasyDeLState] = None,\n    ) -&gt; typing.Tuple[EasyDeLState, Mapping[str, Callable], Mapping[str, Callable]]:\n        if model_parameters is None and state is None and self.rapture is None and self.checkpoint_path is None:\n            raise RuntimeError(\n                \"You are passing `model_parameters=None`, `state=None`, and `checkpoint_path=None` and also you are not\"\n                \" using LoRA, if you are \"\n                \"Using LoRA make sure to pass parameters and Rapture Config correctly otherwise pass the \"\n                \"model_parameters or state.\"\n            )\n        if model_parameters is None and state is None:\n            model_parameters = self.lora_parameters\n        with self.mesh:\n            shard_fns, gather_fns = make_shard_and_gather_fns(\n                self.state_partition_spec,\n                dtype_specs=self.dtype\n            )\n            if state is not None:\n                sharded_state = state\n                params = sharded_state.params if not self.arguments.do_shard_fns else jax.tree_util.tree_map(\n                    lambda f, x: f(x),\n                    shard_fns.params,\n                    sharded_state.params\n                )\n                sharded_state.params = params\n                if sharded_state.opt_state is None:\n                    prefix_print(\n                        \"Action\", \"Optimizer State is not Found!, initializing one.\"\n                    )\n                    with jax.default_device(self.arguments.offload_device):\n                        sharded_state = sharded_state.init_opt_state()\n                        opt_state = sharded_state.opt_state if not self.arguments.do_shard_fns else jax.tree_util.tree_map(\n                            lambda f, x: f(x),\n                            shard_fns.opt_state,\n                            sharded_state.opt_state\n                        )\n                        sharded_state = sharded_state.replace(\n                            opt_state=opt_state\n                        )\n            elif self.finetune:\n\n                if model_parameters is None and self.checkpoint_path is not None:\n                    prefix_print(\n                        \"Action\", f\"Loading Model From {self.checkpoint_path}\"\n                    )\n                    with jax.default_device(self.arguments.offload_device):\n                        sharded_state = EasyDeLState.load_state(\n                            verbose=self.arguments.verbose,\n                            state_shard_fns=shard_fns,\n                            init_optimizer_state=True,\n                            checkpoint_path=self.checkpoint_path,\n                            input_shape=self.arguments.init_input_shape\n                        )\n                        # sharded_state = sharded_state.replace(\n                        #     tx=self.tx,\n                        # )\n                        state_shape = jax.eval_shape(lambda: sharded_state)\n                        state_partition_spec = match_partition_rules(\n                            self.config.get_partition_rules(\n                                fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n                            ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n                            state_shape\n                        )\n                        sharded_train_step_function = pjit(\n                            create_vision_casual_language_model_train_step(\n                                partition_spec=self.arguments.step_partition_spec,\n                            ),\n                            in_shardings=(state_partition_spec, PartitionSpec()),\n                            out_shardings=(state_partition_spec, PartitionSpec(), PartitionSpec()),\n                            donate_argnums=(0, 0),\n                        )\n\n                        sharded_eval_step_function = pjit(\n                            create_vision_casual_language_model_evaluation_step(self.arguments.step_partition_spec),\n                            in_shardings=(state_partition_spec, PartitionSpec()),\n                            out_shardings=(PartitionSpec(), PartitionSpec()),\n                            donate_argnums=(0, 0),\n                        )\n\n                        self.state_partition_spec = state_partition_spec\n                        self.state_shape = state_shape\n                        self.sharded_train_step_function = sharded_train_step_function\n                        self.sharded_eval_step_function = sharded_eval_step_function\n\n                    if self.arguments.remove_ckpt_after_load:\n                        os.remove(self.checkpoint_path)\n                elif model_parameters is not None and self.checkpoint_path is None:\n                    prefix_print(\n                        \"Action\", f\"Sharding Passed Parameters\"\n                    )\n                    from flax.core import unfreeze\n                    if not isinstance(model_parameters, flax.core.FrozenDict):\n                        prefix_print(\n                            \"Warning\",\n                            \"Model Parameters should be like FrozenDict({'params': params}) make sure to \"\n                            \"pass as type FrozenDict in case of not getting UnExcepted Errors \"\n                        )\n\n                    model_parameters = model_parameters if not self.arguments.do_shard_fns else jax.tree_util.tree_map(\n                        lambda f, x: f(x),\n                        shard_fns.params,\n                        model_parameters,\n                    )\n                    sharded_state = self.create_sharded_state_from_params_function(model_parameters)\n                elif model_parameters is not None and self.checkpoint_path is not None:\n                    raise EasyDeLTimerError(\n                        \"You can't pass `model_parameters` and `checkpoint_path` at same time\"\n                    )\n                else:\n                    raise EasyDeLTimerError(\n                        \"You should pass `model_parameters` or `checkpoint_path` to trainer in order to load model\"\n                    )\n            else:\n                sharded_state = self.initialize_state_function()\n                params = sharded_state.params if not self.arguments.do_shard_fns else jax.tree_util.tree_map(\n                    lambda f, x: f(x),\n                    shard_fns.params,\n                    sharded_state.params\n                )\n                sharded_state.params = params\n\n            self.sharded_state = sharded_state\n            return sharded_state, shard_fns, gather_fns\n\n    def train(\n            self,\n            model_parameters: Optional[flax.core.FrozenDict] = None,\n            state: Optional[EasyDeLState] = None\n    ) -&gt; VisionCausalLMTrainerOutput:\n        \"\"\"The train function is the main function of this module.\n        It takes a model_parameters argument which can be used to load a pretrained model and finetune it.\n        The train function returns an TrainerOutput object that contains the last saved file name, predict func,\n        train state, mesh and checkpoint streamer.\n\n        Args:\n            self: Make the class methods aware of other methods and\n                attributes within the class\n            model_parameters: flax.core.FrozenDict: Load a pre-trained\n                model\n            state: Optional[EasyDeLState]: Ready to Use State\n\n        Returns:\n            An object of type \"TrainerOutput\"\n        \"\"\"\n\n        def count_model_parameters(_p):\n            termcolor.cprint(\n                f\"Model Contain {sum(n.size for n in jax.tree_util.tree_flatten(flax.core.unfreeze(_p))[0]) / 1e9} \"\n                f\"Billion Parameters\",\n                color=\"red\", force_color=True\n            )\n\n        checkpoint_path = \"SAVING_SKIPPED\"\n        start_time = time.time()\n        sharded_state, shard_fns, gather_fns = self.initialize_state(\n            model_parameters=model_parameters,\n            state=state\n        )\n\n        count_model_parameters(sharded_state.params)\n        with self.mesh:\n            pbar = tqdm(total=self.max_training_steps)\n            current_step = int(jax.device_get(sharded_state.step))\n\n            loss_sum = None\n            vision_loss_sum = None\n            vision_accuracy_sum = None\n            text_loss_sum = None\n            text_accuracy_sum = None\n            pbar.update(sharded_state.step.tolist())  # type: ignore\n            learning_rates = []\n            if self.wandb_runtime is not None:\n                model_parameters_number = sum(\n                    n.size for n in\n                    jax.tree_util.tree_flatten(flax.core.unfreeze(sharded_state.params))[0]\n                ) / 1e9\n                self.wandb_runtime.log(\n                    {\n                        \"Number of Model Parameters (Billion)\": model_parameters_number\n                    }\n                )\n                wandb.summary[\"Number of Model Parameters (Billion)\"] = model_parameters_number\n            try:\n                for epoch in range(self.arguments.num_train_epochs):\n                    for batch in self.dataloader_train:\n                        current_step += 1\n                        if (\n                                self.arguments.step_start_point is not None\n                                and\n                                self.arguments.step_start_point &gt; current_step\n                        ):\n                            pbar.update(1)\n                        elif current_step &lt; self.max_training_steps:\n\n                            for ssb in self.arguments.ids_to_pop_from_dataset:\n                                _ = batch.pop(ssb, None)\n                            time_s = time.time()\n                            outputs_and_metrics: tuple[\n                                EasyDeLState, chex.Array, VisionCausalLanguageModelStepOutput\n                            ] = self.sharded_train_step_function(\n                                sharded_state,\n                                batch\n                            )\n                            sharded_state, loss, information_and_accuracies = outputs_and_metrics\n                            ttl_time = time.time() - time_s\n                            loss_sum = loss.tolist() if loss_sum is None else loss_sum + loss\n                            vision_loss = information_and_accuracies.vision_loss\n                            vision_accuracy = information_and_accuracies.vision_accuracy\n                            text_loss = information_and_accuracies.text_loss\n                            text_accuracy = information_and_accuracies.text_accuracy\n\n                            loss_sum = loss.tolist() if loss_sum is None else loss_sum + loss\n                            vision_accuracy_sum = vision_accuracy.tolist() if vision_accuracy_sum is None else (\n                                    vision_accuracy_sum + vision_accuracy\n                            )\n                            vision_loss_sum = vision_loss.tolist() if vision_loss_sum is None else (\n                                    vision_loss_sum + vision_loss\n                            )\n                            text_loss_sum = text_loss.tolist() if text_loss_sum is None else text_loss_sum + text_loss\n                            text_accuracy_sum = text_accuracy.tolist() if text_accuracy_sum is None else (\n                                    text_accuracy_sum + text_accuracy\n                            )\n                            learning_rates.append(self.scheduler(current_step).tolist())\n                            pbar.update(1)\n\n                            trained_tokens = jnp.multiply(\n                                self.arguments.max_sequence_length, jnp.multiply(\n                                    current_step,\n                                    self.arguments.total_batch_size\n                                )\n                            )\n\n                            total_roved_steps = (current_step - self.arguments.step_start_point)\n\n                            with jax.spmd_mode(\"allow_all\"):\n                                train_metrics = {\n\n                                    \"train/loss\": loss.tolist(),\n                                    \"train/mean_loss\": loss_sum / total_roved_steps,\n\n                                    \"train/vision_accuracy\": vision_accuracy,\n                                    \"train/vision_loss\": vision_loss,\n                                    \"train/text_loss\": text_loss,\n                                    \"train/text_accuracy\": text_accuracy,\n\n                                    \"train/mean_vision_accuracy\": vision_accuracy_sum / total_roved_steps,\n                                    \"train/mean_vision_loss\": vision_loss_sum / total_roved_steps,\n                                    \"train/mean_text_loss\": text_loss_sum / total_roved_steps,\n                                    \"train/mean_text_accuracy\": text_accuracy_sum / total_roved_steps,\n\n                                    \"train/learning_rate\": self.scheduler(current_step).tolist(),\n                                    \"train/step\": current_step,\n                                    \"train/step_time\": ttl_time,\n                                    \"train/perplexity\": jnp.exp(loss).tolist(),\n                                    \"train/trained_tokens\": trained_tokens,\n                                    \"train/epoch\": epoch,\n                                }\n\n                                log_metrics = copy.deepcopy(train_metrics)\n                                train_metrics.update(\n                                    **self.arguments.captured_memory\n                                )\n                                if self.wandb_runtime is not None:\n                                    self.wandb_runtime.log(\n                                        train_metrics\n                                    )\n\n                            pbar.set_postfix(**{k.replace(\"train/\", \"\"): v for k, v in log_metrics.items()})\n                            if self.arguments.training_time is not None:\n                                if time.time() - start_time &gt; self.arguments.training_time:\n                                    raise EasyDeLTimerError(\"Time Out\")\n                        else:\n                            break\n                        if self.arguments.save_steps is not None and current_step % self.arguments.save_steps == 0:\n                            if self.rapture is None:\n                                filename = self._save_state(\n                                    state=sharded_state,\n                                    gather_fns=gather_fns,\n                                    milestone=True\n                                )\n                                checkpoint_path = f\"{str(self.arguments.get_path())}/{filename}\"\n                            else:\n                                print(\n                                    termcolor.colored(\n                                        \"Info : \", color=\"red\", force_color=True\n                                    ),\n                                    termcolor.colored(\n                                        \"You can not use `save_steps` while using LoRA \"\n                                        \"right now. this action will be skipped\", color=\"white\", force_color=True\n                                    )\n                                )\n            except KeyboardInterrupt:\n                termcolor.cprint(\n                    \"KeyboardInterrupt At training model Will return Current State of the Model with Parameters.\",\n                    color=\"cyan\",\n                    force_color=True\n                )\n\n            except EasyDeLTimerError:\n                termcolor.cprint(\n                    \"Training reached out maximum training Time Killing training Process \"\n                    \"and Will return Current State of the Model with Parameters.\",\n                    color=\"cyan\",\n                    force_color=True\n                )\n            if self.arguments.merge_lora_rapture_parameters and self.rapture is not None:\n                print(\n                    termcolor.colored(\n                        \"Info : \", color=\"red\", force_color=True\n                    ),\n                    termcolor.colored(\n                        \"Merging LoRA Parameters.\", color=\"white\", force_color=True\n                    )\n                )\n                sharded_state = sharded_state.replace(\n                    params=self.rapture.merge_parameters(sharded_state.params)\n                )\n            output = VisionCausalLMTrainerOutput(\n                state=sharded_state,\n                mesh=self.mesh,\n                shard_fns=shard_fns,\n                gather_fns=gather_fns,\n                checkpoint_manager=self.checkpoint_manager,\n            )\n            if self.arguments.save_steps is None and self.arguments.do_last_save:\n                shard_fns, gather_fns = make_shard_and_gather_fns(\n                    match_partition_rules(\n                        self.config.get_partition_rules(\n                            fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n                        ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n                        jax.eval_shape(lambda: sharded_state)\n                    ),\n                    dtype_specs=self.dtype\n                )  # You have to re-init the new shard and gather functions in order to be able to skip LoRA weight\n                # crashing errors and saving errors\n                filename = self._save_state(\n                    state=sharded_state,\n                    gather_fns=gather_fns\n                )\n                checkpoint_path = f\"{str(self.arguments.get_path())}/{filename}\"\n\n            if self.arguments.do_eval:\n                for _ in self.eval(\n                        sharded_state\n                ):\n                    ...\n\n            output.checkpoint_path = checkpoint_path\n            output.last_save_file_name = filename\n            wandb.finish()\n\n            return output\n\n    def eval(self, model_state: EasyDeLState) -&gt; typing.Iterator[dict]:\n        \"\"\"Evaluate the Given Model State and yield the eval metrics\"\"\"\n        assert self.dataloader_eval is not None, \"`dataloader_eval` is required by evaluator function.\"\n        with self.mesh:\n\n            pbar = tqdm(total=self.max_evaluation_steps)\n            pbar.set_description(\"Evaluating\")\n            current_step = 0\n            loss_sum = None\n            vision_loss_sum = None\n            vision_accuracy_sum = None\n            text_loss_sum = None\n            text_accuracy_sum = None\n\n            try:\n                for batch in self.dataloader_eval:\n                    current_step += 1\n                    time_start = time.time()\n                    for key in self.arguments.ids_to_pop_from_dataset:\n                        _ = batch.pop(key, None)\n\n                    metrics: tuple[chex.Array, VisionCausalLanguageModelStepOutput] = self.sharded_eval_step_function(\n                        model_state,\n                        batch\n                    )\n                    total_time = time.time() - time_start\n                    (\n                        loss, information_and_accuracies\n                    ) = metrics\n\n                    vision_loss = information_and_accuracies.vision_loss\n                    vision_accuracy = information_and_accuracies.vision_accuracy\n                    text_loss = information_and_accuracies.text_loss\n                    text_accuracy = information_and_accuracies.text_accuracy\n\n                    loss_sum = loss.tolist() if loss_sum is None else loss_sum + loss\n                    vision_accuracy_sum = vision_accuracy.tolist() if vision_accuracy_sum is None else (\n                            vision_accuracy_sum + vision_accuracy\n                    )\n                    vision_loss_sum = vision_loss.tolist() if vision_loss_sum is None else vision_loss_sum + vision_loss\n                    text_loss_sum = text_loss.tolist() if text_loss_sum is None else text_loss_sum + text_loss\n                    text_accuracy_sum = text_accuracy.tolist() if text_accuracy_sum is None else (\n                            text_accuracy_sum + text_accuracy\n                    )\n\n                    total_roved_steps = (current_step - self.arguments.step_start_point)\n\n                    eval_metrics = {\n                        \"eval/loss\": loss.tolist(),\n                        \"eval/mean_loss\": loss_sum / total_roved_steps,\n\n                        \"eval/vision_accuracy\": vision_accuracy,\n                        \"eval/vision_loss\": vision_loss,\n                        \"eval/text_loss\": text_loss,\n                        \"eval/text_accuracy\": text_accuracy,\n\n                        \"eval/mean_vision_accuracy\": vision_accuracy_sum / total_roved_steps,\n                        \"eval/mean_vision_loss\": vision_loss_sum / total_roved_steps,\n                        \"eval/mean_text_loss\": text_loss_sum / total_roved_steps,\n                        \"eval/mean_text_accuracy\": text_accuracy_sum / total_roved_steps,\n\n                        \"eval/step\": current_step,\n                        \"eval/step_time\": total_time,\n                        \"eval/perplexity\": jnp.exp(loss).tolist(),\n                    }\n                    log_metrics = copy.deepcopy(eval_metrics)\n                    eval_metrics.update(**self.arguments.captured_memory)\n                    pbar.update(1)\n                    pbar.set_postfix(**{k.replace(\"eval/\", \"\"): v for k, v in log_metrics.items()})\n                    yield eval_metrics\n            except KeyboardInterrupt:\n                termcolor.cprint(\n                    \"KeyboardInterrupt At Evaluation model Will return Nothing and just pass.\",\n                    color=\"cyan\",\n                    force_color=True\n                )\n</code></pre>"},{"location":"generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/#src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer.configure_functions","title":"<code>configure_functions()</code>","text":"<p>The configure_functions function is responsible for configuring the functions that will be used in training. It does this by first defining a function called function_configurations, which initializes the model parameters and returns them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate on a batch of data, including:</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access the class attributes</p> required <p>Returns:</p> Type Description <code>TrainerConfigureFunctionFuncOutput</code> <p>A TrainerConfigureFunctionFuncOutput object</p> Source code in <code>src/python/easydel/trainer/vision_causal_language_model_trainer/vision_causal_language_model_trainer.py</code> <pre><code>def configure_functions(self) -&gt; TrainerConfigureFunctionFuncOutput:\n    \"\"\"The configure_functions function is responsible for configuring the functions that will be used in training.\n    It does this by first defining a function called function_configurations, which initializes the model parameters and returns\n    them as a EasyDeLState object. The EasyDeLState object contains all the information needed to train or evaluate\n    on a batch of data, including:\n\n    Args:\n        self: Access the class attributes\n\n    Returns:\n        A TrainerConfigureFunctionFuncOutput object\n    \"\"\"\n\n    def initialize_state_function():\n        initialized_parameters = self.model.init_weights(\n            jax.random.PRNGKey(0),\n            self.arguments.init_input_shape\n        )\n\n        if self.arguments.dtype == jnp.bfloat16:\n            initialized_parameters = self.model.to_bf16(initialized_parameters)\n        elif self.arguments.dtype == jnp.float16:\n            initialized_parameters = self.model.to_fp16(initialized_parameters)\n\n        tx = self.tx\n        parameters = flax.core.freeze({\"params\": initialized_parameters})\n        tx_init = copy.deepcopy(self.arguments.optimizer_kwargs)\n\n        if self.rapture is not None:\n            lora_parameters = self.lora_parameters\n            if self.arguments.dtype == jnp.bfloat16:\n                lora_parameters = self.model.to_bf16(lora_parameters)\n            elif self.arguments.dtype == jnp.float16:\n                lora_parameters = self.model.to_fp16(lora_parameters)\n\n            return EasyDeLState(\n                step=0,\n                apply_fn=self.lora_apply_fn,\n                params=lora_parameters,\n                tx=self.lora_tx,\n                opt_state=self.lora_opt_state,\n                tx_init=EasyDeLState.safe_dict(tx_init),\n                hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                module=self.lora_model,\n                module_config=self.model.config,\n                module_config_args=None,\n            )\n        else:\n            return EasyDeLState.create(\n                tx=tx,\n                params=parameters,\n                apply_fn=self.model.__call__,\n                module_config=copy.deepcopy(self.model.config),\n                tx_init=tx_init,\n                hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                module=self.model,\n                module_config_args=None\n            )\n\n    def create_state_from_params_function(parameters):\n        if self.rapture is None:\n            return EasyDeLState.create(\n                tx=self.tx,\n                params=parameters,\n                apply_fn=self.model.__call__,\n                module_config=copy.deepcopy(self.model.config),\n                tx_init=copy.deepcopy(self.arguments.optimizer_kwargs),\n                hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                module=self.model,\n                module_config_args=None\n            )\n        else:\n            return EasyDeLState(\n                step=0,\n                apply_fn=self.lora_apply_fn,\n                params=parameters,\n                tx=self.lora_tx,\n                opt_state=self.lora_opt_state,\n                tx_init=EasyDeLState.safe_dict(copy.deepcopy(self.arguments.optimizer_kwargs)),\n                hyperparameters=EasyDeLState.create_hyperparameters(self.model.config.model_type),\n                module=self.lora_model,\n                module_config=self.model.config,\n                module_config_args=None,\n            )\n\n    state_shape = jax.eval_shape(initialize_state_function)\n    state_partition_spec = match_partition_rules(\n        self.config.get_partition_rules(\n            fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n        ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n        state_shape\n    )\n    create_sharded_state_from_params_function = pjit(\n        create_state_from_params_function,\n        in_shardings=(state_partition_spec.params,),\n        out_shardings=state_partition_spec,\n        donate_argnums=(0,)\n    )\n    sharded_train_step_function = pjit(\n        create_vision_casual_language_model_train_step(self.arguments.step_partition_spec),\n        in_shardings=(state_partition_spec, PartitionSpec()),\n        out_shardings=(state_partition_spec, PartitionSpec(), PartitionSpec()),\n        donate_argnums=(0, 0),\n    )\n\n    sharded_eval_step_function = pjit(\n        create_vision_casual_language_model_evaluation_step(self.arguments.step_partition_spec),\n        in_shardings=(state_partition_spec, PartitionSpec()),\n        out_shardings=(PartitionSpec(), PartitionSpec()),\n        donate_argnums=(0, 0),\n    )\n\n    mesh = self.arguments.get_mesh()\n    self.arguments.ckpt_path_exists()\n    checkpoint_manager = self.arguments.get_streaming_checkpointer()\n    self.state_partition_spec = state_partition_spec\n    self.state_shape = state_shape\n\n    return TrainerConfigureFunctionFuncOutput(\n        create_sharded_state_from_params_function=create_sharded_state_from_params_function,\n        sharded_train_step_function=sharded_train_step_function,\n        sharded_eval_step_function=sharded_eval_step_function,\n        mesh=mesh,\n        checkpoint_manager=checkpoint_manager,\n        initialize_state_function=initialize_state_function\n    )\n</code></pre>"},{"location":"generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/#src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer.eval","title":"<code>eval(model_state)</code>","text":"<p>Evaluate the Given Model State and yield the eval metrics</p> Source code in <code>src/python/easydel/trainer/vision_causal_language_model_trainer/vision_causal_language_model_trainer.py</code> <pre><code>def eval(self, model_state: EasyDeLState) -&gt; typing.Iterator[dict]:\n    \"\"\"Evaluate the Given Model State and yield the eval metrics\"\"\"\n    assert self.dataloader_eval is not None, \"`dataloader_eval` is required by evaluator function.\"\n    with self.mesh:\n\n        pbar = tqdm(total=self.max_evaluation_steps)\n        pbar.set_description(\"Evaluating\")\n        current_step = 0\n        loss_sum = None\n        vision_loss_sum = None\n        vision_accuracy_sum = None\n        text_loss_sum = None\n        text_accuracy_sum = None\n\n        try:\n            for batch in self.dataloader_eval:\n                current_step += 1\n                time_start = time.time()\n                for key in self.arguments.ids_to_pop_from_dataset:\n                    _ = batch.pop(key, None)\n\n                metrics: tuple[chex.Array, VisionCausalLanguageModelStepOutput] = self.sharded_eval_step_function(\n                    model_state,\n                    batch\n                )\n                total_time = time.time() - time_start\n                (\n                    loss, information_and_accuracies\n                ) = metrics\n\n                vision_loss = information_and_accuracies.vision_loss\n                vision_accuracy = information_and_accuracies.vision_accuracy\n                text_loss = information_and_accuracies.text_loss\n                text_accuracy = information_and_accuracies.text_accuracy\n\n                loss_sum = loss.tolist() if loss_sum is None else loss_sum + loss\n                vision_accuracy_sum = vision_accuracy.tolist() if vision_accuracy_sum is None else (\n                        vision_accuracy_sum + vision_accuracy\n                )\n                vision_loss_sum = vision_loss.tolist() if vision_loss_sum is None else vision_loss_sum + vision_loss\n                text_loss_sum = text_loss.tolist() if text_loss_sum is None else text_loss_sum + text_loss\n                text_accuracy_sum = text_accuracy.tolist() if text_accuracy_sum is None else (\n                        text_accuracy_sum + text_accuracy\n                )\n\n                total_roved_steps = (current_step - self.arguments.step_start_point)\n\n                eval_metrics = {\n                    \"eval/loss\": loss.tolist(),\n                    \"eval/mean_loss\": loss_sum / total_roved_steps,\n\n                    \"eval/vision_accuracy\": vision_accuracy,\n                    \"eval/vision_loss\": vision_loss,\n                    \"eval/text_loss\": text_loss,\n                    \"eval/text_accuracy\": text_accuracy,\n\n                    \"eval/mean_vision_accuracy\": vision_accuracy_sum / total_roved_steps,\n                    \"eval/mean_vision_loss\": vision_loss_sum / total_roved_steps,\n                    \"eval/mean_text_loss\": text_loss_sum / total_roved_steps,\n                    \"eval/mean_text_accuracy\": text_accuracy_sum / total_roved_steps,\n\n                    \"eval/step\": current_step,\n                    \"eval/step_time\": total_time,\n                    \"eval/perplexity\": jnp.exp(loss).tolist(),\n                }\n                log_metrics = copy.deepcopy(eval_metrics)\n                eval_metrics.update(**self.arguments.captured_memory)\n                pbar.update(1)\n                pbar.set_postfix(**{k.replace(\"eval/\", \"\"): v for k, v in log_metrics.items()})\n                yield eval_metrics\n        except KeyboardInterrupt:\n            termcolor.cprint(\n                \"KeyboardInterrupt At Evaluation model Will return Nothing and just pass.\",\n                color=\"cyan\",\n                force_color=True\n            )\n</code></pre>"},{"location":"generated-trainer-vision_causal_language_model_trainer-vision_causal_language_model_trainer/#src.python.easydel.trainer.vision_causal_language_model_trainer.vision_causal_language_model_trainer.VisionCausalLanguageModelTrainer.train","title":"<code>train(model_parameters=None, state=None)</code>","text":"<p>The train function is the main function of this module. It takes a model_parameters argument which can be used to load a pretrained model and finetune it. The train function returns an TrainerOutput object that contains the last saved file name, predict func, train state, mesh and checkpoint streamer.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Make the class methods aware of other methods and attributes within the class</p> required <code>model_parameters</code> <code>Optional[FrozenDict]</code> <p>flax.core.FrozenDict: Load a pre-trained model</p> <code>None</code> <code>state</code> <code>Optional[EasyDeLState]</code> <p>Optional[EasyDeLState]: Ready to Use State</p> <code>None</code> <p>Returns:</p> Type Description <code>VisionCausalLMTrainerOutput</code> <p>An object of type \"TrainerOutput\"</p> Source code in <code>src/python/easydel/trainer/vision_causal_language_model_trainer/vision_causal_language_model_trainer.py</code> <pre><code>def train(\n        self,\n        model_parameters: Optional[flax.core.FrozenDict] = None,\n        state: Optional[EasyDeLState] = None\n) -&gt; VisionCausalLMTrainerOutput:\n    \"\"\"The train function is the main function of this module.\n    It takes a model_parameters argument which can be used to load a pretrained model and finetune it.\n    The train function returns an TrainerOutput object that contains the last saved file name, predict func,\n    train state, mesh and checkpoint streamer.\n\n    Args:\n        self: Make the class methods aware of other methods and\n            attributes within the class\n        model_parameters: flax.core.FrozenDict: Load a pre-trained\n            model\n        state: Optional[EasyDeLState]: Ready to Use State\n\n    Returns:\n        An object of type \"TrainerOutput\"\n    \"\"\"\n\n    def count_model_parameters(_p):\n        termcolor.cprint(\n            f\"Model Contain {sum(n.size for n in jax.tree_util.tree_flatten(flax.core.unfreeze(_p))[0]) / 1e9} \"\n            f\"Billion Parameters\",\n            color=\"red\", force_color=True\n        )\n\n    checkpoint_path = \"SAVING_SKIPPED\"\n    start_time = time.time()\n    sharded_state, shard_fns, gather_fns = self.initialize_state(\n        model_parameters=model_parameters,\n        state=state\n    )\n\n    count_model_parameters(sharded_state.params)\n    with self.mesh:\n        pbar = tqdm(total=self.max_training_steps)\n        current_step = int(jax.device_get(sharded_state.step))\n\n        loss_sum = None\n        vision_loss_sum = None\n        vision_accuracy_sum = None\n        text_loss_sum = None\n        text_accuracy_sum = None\n        pbar.update(sharded_state.step.tolist())  # type: ignore\n        learning_rates = []\n        if self.wandb_runtime is not None:\n            model_parameters_number = sum(\n                n.size for n in\n                jax.tree_util.tree_flatten(flax.core.unfreeze(sharded_state.params))[0]\n            ) / 1e9\n            self.wandb_runtime.log(\n                {\n                    \"Number of Model Parameters (Billion)\": model_parameters_number\n                }\n            )\n            wandb.summary[\"Number of Model Parameters (Billion)\"] = model_parameters_number\n        try:\n            for epoch in range(self.arguments.num_train_epochs):\n                for batch in self.dataloader_train:\n                    current_step += 1\n                    if (\n                            self.arguments.step_start_point is not None\n                            and\n                            self.arguments.step_start_point &gt; current_step\n                    ):\n                        pbar.update(1)\n                    elif current_step &lt; self.max_training_steps:\n\n                        for ssb in self.arguments.ids_to_pop_from_dataset:\n                            _ = batch.pop(ssb, None)\n                        time_s = time.time()\n                        outputs_and_metrics: tuple[\n                            EasyDeLState, chex.Array, VisionCausalLanguageModelStepOutput\n                        ] = self.sharded_train_step_function(\n                            sharded_state,\n                            batch\n                        )\n                        sharded_state, loss, information_and_accuracies = outputs_and_metrics\n                        ttl_time = time.time() - time_s\n                        loss_sum = loss.tolist() if loss_sum is None else loss_sum + loss\n                        vision_loss = information_and_accuracies.vision_loss\n                        vision_accuracy = information_and_accuracies.vision_accuracy\n                        text_loss = information_and_accuracies.text_loss\n                        text_accuracy = information_and_accuracies.text_accuracy\n\n                        loss_sum = loss.tolist() if loss_sum is None else loss_sum + loss\n                        vision_accuracy_sum = vision_accuracy.tolist() if vision_accuracy_sum is None else (\n                                vision_accuracy_sum + vision_accuracy\n                        )\n                        vision_loss_sum = vision_loss.tolist() if vision_loss_sum is None else (\n                                vision_loss_sum + vision_loss\n                        )\n                        text_loss_sum = text_loss.tolist() if text_loss_sum is None else text_loss_sum + text_loss\n                        text_accuracy_sum = text_accuracy.tolist() if text_accuracy_sum is None else (\n                                text_accuracy_sum + text_accuracy\n                        )\n                        learning_rates.append(self.scheduler(current_step).tolist())\n                        pbar.update(1)\n\n                        trained_tokens = jnp.multiply(\n                            self.arguments.max_sequence_length, jnp.multiply(\n                                current_step,\n                                self.arguments.total_batch_size\n                            )\n                        )\n\n                        total_roved_steps = (current_step - self.arguments.step_start_point)\n\n                        with jax.spmd_mode(\"allow_all\"):\n                            train_metrics = {\n\n                                \"train/loss\": loss.tolist(),\n                                \"train/mean_loss\": loss_sum / total_roved_steps,\n\n                                \"train/vision_accuracy\": vision_accuracy,\n                                \"train/vision_loss\": vision_loss,\n                                \"train/text_loss\": text_loss,\n                                \"train/text_accuracy\": text_accuracy,\n\n                                \"train/mean_vision_accuracy\": vision_accuracy_sum / total_roved_steps,\n                                \"train/mean_vision_loss\": vision_loss_sum / total_roved_steps,\n                                \"train/mean_text_loss\": text_loss_sum / total_roved_steps,\n                                \"train/mean_text_accuracy\": text_accuracy_sum / total_roved_steps,\n\n                                \"train/learning_rate\": self.scheduler(current_step).tolist(),\n                                \"train/step\": current_step,\n                                \"train/step_time\": ttl_time,\n                                \"train/perplexity\": jnp.exp(loss).tolist(),\n                                \"train/trained_tokens\": trained_tokens,\n                                \"train/epoch\": epoch,\n                            }\n\n                            log_metrics = copy.deepcopy(train_metrics)\n                            train_metrics.update(\n                                **self.arguments.captured_memory\n                            )\n                            if self.wandb_runtime is not None:\n                                self.wandb_runtime.log(\n                                    train_metrics\n                                )\n\n                        pbar.set_postfix(**{k.replace(\"train/\", \"\"): v for k, v in log_metrics.items()})\n                        if self.arguments.training_time is not None:\n                            if time.time() - start_time &gt; self.arguments.training_time:\n                                raise EasyDeLTimerError(\"Time Out\")\n                    else:\n                        break\n                    if self.arguments.save_steps is not None and current_step % self.arguments.save_steps == 0:\n                        if self.rapture is None:\n                            filename = self._save_state(\n                                state=sharded_state,\n                                gather_fns=gather_fns,\n                                milestone=True\n                            )\n                            checkpoint_path = f\"{str(self.arguments.get_path())}/{filename}\"\n                        else:\n                            print(\n                                termcolor.colored(\n                                    \"Info : \", color=\"red\", force_color=True\n                                ),\n                                termcolor.colored(\n                                    \"You can not use `save_steps` while using LoRA \"\n                                    \"right now. this action will be skipped\", color=\"white\", force_color=True\n                                )\n                            )\n        except KeyboardInterrupt:\n            termcolor.cprint(\n                \"KeyboardInterrupt At training model Will return Current State of the Model with Parameters.\",\n                color=\"cyan\",\n                force_color=True\n            )\n\n        except EasyDeLTimerError:\n            termcolor.cprint(\n                \"Training reached out maximum training Time Killing training Process \"\n                \"and Will return Current State of the Model with Parameters.\",\n                color=\"cyan\",\n                force_color=True\n            )\n        if self.arguments.merge_lora_rapture_parameters and self.rapture is not None:\n            print(\n                termcolor.colored(\n                    \"Info : \", color=\"red\", force_color=True\n                ),\n                termcolor.colored(\n                    \"Merging LoRA Parameters.\", color=\"white\", force_color=True\n                )\n            )\n            sharded_state = sharded_state.replace(\n                params=self.rapture.merge_parameters(sharded_state.params)\n            )\n        output = VisionCausalLMTrainerOutput(\n            state=sharded_state,\n            mesh=self.mesh,\n            shard_fns=shard_fns,\n            gather_fns=gather_fns,\n            checkpoint_manager=self.checkpoint_manager,\n        )\n        if self.arguments.save_steps is None and self.arguments.do_last_save:\n            shard_fns, gather_fns = make_shard_and_gather_fns(\n                match_partition_rules(\n                    self.config.get_partition_rules(\n                        fully_sharded_data_parallel=self.arguments.fully_sharded_data_parallel\n                    ) if self.arguments.custom_rule is None else self.arguments.custom_rule,\n                    jax.eval_shape(lambda: sharded_state)\n                ),\n                dtype_specs=self.dtype\n            )  # You have to re-init the new shard and gather functions in order to be able to skip LoRA weight\n            # crashing errors and saving errors\n            filename = self._save_state(\n                state=sharded_state,\n                gather_fns=gather_fns\n            )\n            checkpoint_path = f\"{str(self.arguments.get_path())}/{filename}\"\n\n        if self.arguments.do_eval:\n            for _ in self.eval(\n                    sharded_state\n            ):\n                ...\n\n        output.checkpoint_path = checkpoint_path\n        output.last_save_file_name = filename\n        wandb.finish()\n\n        return output\n</code></pre>"},{"location":"generated-transform-easydel_transform/","title":"transform.easydel_transform","text":""},{"location":"generated-transform-easydel_transform/#src.python.easydel.transform.easydel_transform.float_tensor_to_dtype","title":"<code>float_tensor_to_dtype(tensor, dtype)</code>","text":"<p>The float_tensor_to_dtype function is used to convert a tensor's dtype to the specified dtype.</p> <p>:param tensor: Convert the tensor to a float dtype :param dtype: Convert the tensor to a specific dtype :return: A tensor with the specified dtype</p> Source code in <code>src/python/easydel/transform/easydel_transform.py</code> <pre><code>def float_tensor_to_dtype(tensor, dtype):\n    \"\"\"\n    The float_tensor_to_dtype function is used to convert a tensor's dtype to the specified dtype.\n\n    :param tensor: Convert the tensor to a float dtype\n    :param dtype: Convert the tensor to a specific dtype\n    :return: A tensor with the specified dtype\n\n    \"\"\"\n    if dtype is None or dtype == \"\":\n        return tensor\n    if isinstance(dtype, str):\n        dtype = get_dtype(dtype)\n    float_dtypes = (jax.numpy.bfloat16, jax.numpy.float16, jax.numpy.float32, jax.numpy.float64)\n    if getattr(tensor, \"dtype\", None) in float_dtypes:\n        tensor = tensor.astype(dtype)\n    return tensor\n</code></pre>"},{"location":"generated-transform-easydel_transform/#src.python.easydel.transform.easydel_transform.huggingface_to_easydel","title":"<code>huggingface_to_easydel(state_dict, *, device, embedding_layer_names=None, layer_norm_names=None, shard_fns=None, convert_to_8bit=False, params_pattern_selection=None, dtype=jax.numpy.float16, rnn_based_or_rwkv=False, verbose=True, remove_state_dict=False, **kwargs)</code>","text":"<p>The huggingface_to_easydel function takes a huggingface model's state_dict and converts it to an easydel model's flax_dict. The function is designed to be used in conjunction with the load_huggingface function, which loads a huggingface model from disk. The embedding layer name must be specified as well as the device on which the conversion will take place.</p> <p>Parameters:</p> Name Type Description Default <code>state_dict</code> <p>Load the weights from a huggingface model</p> required <code>embedding_layer_names</code> <code>Optional[List[str]]</code> <p>List[str]: Identify the embedding layer in the huggingface model</p> <code>None</code> <code>device</code> <p>Determine which device the model will be loaded on</p> required <code>layer_norm_names</code> <code>Optional[List[str]]</code> <p>Replaces weight or kernel with (scale)</p> <code>None</code> <code>shard_fns</code> <code>Optional[Mapping[tuple, Callable]]</code> <p>Optional[Mapping[tuple, Callable]]: Sharding Function to be used to shard model</p> <code>None</code> <code>convert_to_8bit</code> <code>bool</code> <p>bool: whenever to convert the into 8bit format</p> <code>False</code> <code>params_pattern_selection</code> <code>Optional[Pattern]</code> <p>Optional[re.Pattern]: patter to use to find the parameters of the model which will</p> <code>None</code> <code>dtype</code> <code>dtype</code> <p>jax.numpy.dtype: Specify the data type of the tensors</p> <code>float16</code> <code>rnn_based_or_rwkv</code> <code>bool</code> <p>bool: rnn_based_or_rwkv is a conditioner which decide whenever it finds a value in tree</p> <code>False</code> <code>verbose</code> <code>bool</code> <p>bool: whenever to log sharding or converting process</p> <code>True</code> <code>remove_state_dict</code> <code>bool</code> <p>bool : whether to remove state dict during the transforming process</p> <code>False</code> <p>be converted to 8bit format. that start with time_mix_ it will automatically reshape that for easydel use case</p> <p>Returns:</p> Type Description <p>A dictionary of the weights and biases in a format that can be</p> <p>used by flax (it's an UnFlattenDict)</p> Source code in <code>src/python/easydel/transform/easydel_transform.py</code> <pre><code>def huggingface_to_easydel(\n        state_dict,\n        *,\n        device,\n        embedding_layer_names: Optional[List[str]] = None,\n        layer_norm_names: Optional[List[str]] = None,\n        shard_fns: Optional[Mapping[tuple, Callable]] = None,\n        convert_to_8bit: bool = False,\n        params_pattern_selection: Optional[re.Pattern] = None,\n        dtype: jax.numpy.dtype = jax.numpy.float16,\n        rnn_based_or_rwkv: bool = False,\n        verbose: bool = True,\n        remove_state_dict: bool = False,\n        **kwargs\n):\n    \"\"\"The huggingface_to_easydel function takes a huggingface model's state_dict and converts it to an easydel\n    model's flax_dict. The function is designed to be used in conjunction with the load_huggingface function, which\n    loads a huggingface model from disk. The embedding layer name must be specified as well as the device on which\n    the conversion will take place.\n\n    Args:\n        state_dict: Load the weights from a huggingface model\n        embedding_layer_names: List[str]: Identify the embedding layer\n            in the huggingface model\n        device: Determine which device the model will be loaded on\n        layer_norm_names: Replaces weight or kernel with (scale)\n        shard_fns: Optional[Mapping[tuple, Callable]]: Sharding Function\n            to be used to shard model\n        convert_to_8bit: bool: whenever to convert the into 8bit format\n        params_pattern_selection: Optional[re.Pattern]: patter to use to\n            find the parameters of the model which will\n        dtype: jax.numpy.dtype: Specify the data type of the tensors\n        rnn_based_or_rwkv: bool: rnn_based_or_rwkv is a conditioner\n            which decide whenever it finds a value in tree\n        verbose: bool: whenever to log sharding or converting process\n        remove_state_dict: bool : whether to remove state dict during\n            the transforming process\n    be converted to 8bit format.\n    that start with time_mix_ it will automatically reshape that for easydel use case\n\n    Returns:\n        A dictionary of the weights and biases in a format that can be\n        used by flax (it's an UnFlattenDict)\n    \"\"\"\n    embedding_layer_names = set(embedding_layer_names or [])\n    layer_norm_names = set(layer_norm_names or [])\n    _l = len(\".weight\")\n    _b = len(\".bias\")\n\n    if convert_to_8bit:\n        assert params_pattern_selection is not None, (\n            \"in case of converting parameters to 8bit you should pass \"\n            \"`params_pattern_selection` too, to tell the quantizer which parameters should be quantized.\"\n        )\n\n    with jax.default_device(device):\n        flax_dict = {}\n        pbar = tqdm(total=len(state_dict), disable=not verbose)\n\n        pbar.set_description(\"Converting Model\")\n\n        for key, tensor in list(state_dict.items()):\n            # Determine if renaming is necessary\n            new_key = key\n            if any(layer_name in key for layer_name in embedding_layer_names):\n                new_key = key[:-_l] + \".embedding\"\n            elif rnn_based_or_rwkv and (\"time_mix_\" in key or \"time_\" in key):\n                tensor = tensor.reshape(-1)\n            elif any(layer_norm in key for layer_norm in layer_norm_names):\n                new_key = key.replace(\".weight\", \".scale\")\n            elif \"weight\" in key:\n                if len(tensor.shape) == 2:\n                    tensor = tensor.transpose(0, 1)\n                new_key = key.replace(\".weight\", \".kernel\")\n\n            key_tuple = tuple(new_key.split(\".\"))\n            # Convert tensor to jax.numpy.array without detaching and moving to CPU\n            array = jax.lax.convert_element_type(jnp.asarray(tensor.cpu().detach().numpy()), dtype)\n            if remove_state_dict:\n                del tensor\n                del state_dict[key]\n            # Apply sharding functions if provided\n            if shard_fns and key_tuple in shard_fns:                array = shard_fns[key_tuple](array)\n            if convert_to_8bit:\n                if params_pattern_selection.search(\"/\".join(key_tuple)):\n                    array = fjformer.linen.linen.LinearBitKernel(\n                        *fjformer.linen.linen.quantize(array, int_dtype=jnp.int8)  # type: ignore\n                    )\n            flax_dict[key_tuple] = array\n\n            # Update progress bar less frequently to reduce overhead\n            pbar.update(1)\n        pbar.close()\n        gc.collect()\n        return traverse_util.unflatten_dict(flax_dict)\n</code></pre>"},{"location":"generated-transform-easydel_transform/#src.python.easydel.transform.easydel_transform.match_keywords","title":"<code>match_keywords(string, ts, ns)</code>","text":"<p>The match_keywords function takes a string, and two lists of strings. The first list is the \"must-have\" keywords, and the second list is the \"not-allowed\" keywords. It returns True if all the must-have keywords are in string, but none of not allowed are in it.</p> <p>Parameters:</p> Name Type Description Default <code>string</code> <p>Pass in the text that is being searched</p> required <code>ts</code> <p>Specify the required keywords and ns is used to specify the non-required keywords</p> required <code>ns</code> <p>Specify a list of negative keywords</p> required <p>Returns:</p> Type Description <p>True if all the keywords in ts are present and none of the</p> Source code in <code>src/python/easydel/transform/easydel_transform.py</code> <pre><code>def match_keywords(string, ts, ns):\n    \"\"\"The match_keywords function takes a string, and two lists of strings.\n    The first list is the &amp;quot;must-have&amp;quot; keywords, and the second list is the &amp;quot;not-allowed&amp;quot; keywords.\n    It returns True if all the must-have keywords are in string, but none of not allowed are in it.\n\n    Args:\n        string: Pass in the text that is being searched\n        ts: Specify the required keywords and ns is used to specify the\n            non-required keywords\n        ns: Specify a list of negative keywords\n\n    Returns:\n        True if all the keywords in ts are present and none of the\n    \"\"\"\n    for t in ts:\n        if t not in string:\n            return False\n    for n in ns:\n        if n in string:\n            return False\n    return True\n</code></pre>"},{"location":"generated-transform-easydel_transform/#src.python.easydel.transform.easydel_transform.read_ckpt","title":"<code>read_ckpt(path, shard_fns=None, add_extra_past_fix=None)</code>","text":"<p>The read_ckpt function reads a checkpoint file and returns the tensors in it.</p> <p>Parameters:</p> Name Type Description Default <code>path</code> <code>[str, PathLike]</code> <p>[str, os.PathLike]: Specify the path to the checkpoint file</p> required <code>shard_fns</code> <p>Shard the tensors</p> <code>None</code> <code>add_extra_past_fix</code> <code>list</code> <p>list: Add an extra past to the key</p> <code>None</code> <p>Returns:</p> Type Description <p>A dictionary of tensors</p> Source code in <code>src/python/easydel/transform/easydel_transform.py</code> <pre><code>def read_ckpt(path: [str, os.PathLike], shard_fns=None, add_extra_past_fix: list = None):\n    \"\"\"The read_ckpt function reads a checkpoint file and returns the tensors in it.\n\n    Args:\n        path: [str, os.PathLike]: Specify the path to the checkpoint\n            file\n        shard_fns: Shard the tensors\n        add_extra_past_fix: list: Add an extra past to the key\n\n    Returns:\n        A dictionary of tensors\n    \"\"\"\n    tensors = {}\n    with open(path, \"rb\") as stream:\n        unpacker = msgpack.Unpacker(stream, read_size=83886080, max_buffer_size=0)\n        for key, value in unpacker:\n            if add_extra_past_fix is not None:\n                key = add_extra_past_fix + key\n            key = tuple(key)\n            tensor = from_bytes(None, value)\n            if shard_fns is not None:\n                tensor = shard_fns[key](tensor)\n            tensors[key] = tensor\n    return tensors\n</code></pre>"},{"location":"generated-transform-easydel_transform/#src.python.easydel.transform.easydel_transform.save_ckpt","title":"<code>save_ckpt(train_state, path, gather_fns=None, float_dtype=None)</code>","text":"<p>The save_ckpt function saves the state of a training run to disk.</p> <p>Parameters:</p> Name Type Description Default <code>train_state</code> <p>Store the current state of the training process</p> required <code>path</code> <p>Specify the location of the checkpoint file</p> required <code>gather_fns</code> <p>Specify a function that will be used to convert the tensor to bytes</p> <code>None</code> <code>float_dtype</code> <p>Convert the tensor to a specific dtype</p> <code>None</code> <p>Returns:</p> Type Description <p>Nothing</p> Source code in <code>src/python/easydel/transform/easydel_transform.py</code> <pre><code>def save_ckpt(train_state, path, gather_fns=None, float_dtype=None):\n    \"\"\"The save_ckpt function saves the state of a training run to disk.\n\n    Args:\n        train_state: Store the current state of the training process\n        path: Specify the location of the checkpoint file\n        gather_fns: Specify a function that will be used to convert the\n            tensor to bytes\n        float_dtype: Convert the tensor to a specific dtype\n\n    Returns:\n        Nothing\n    \"\"\"\n\n    train_state = to_state_dict(train_state)\n    packer = msgpack.Packer()\n    flatten_train_state = flatten_dict(train_state)\n    if gather_fns is not None:\n        gather_fns = flatten_dict(to_state_dict(gather_fns))\n\n    with open(path, \"wb\") as stream:\n        for key, value in flatten_train_state.items():\n            if gather_fns is not None:\n                value = gather_fns[key](value)\n            value = float_tensor_to_dtype(value, float_dtype)\n            stream.write(packer.pack((key, to_bytes(value))))\n</code></pre>"},{"location":"generated-transform-falcon/","title":"transform.falcon","text":""},{"location":"generated-transform-falcon/#src.python.easydel.transform.falcon.falcon_from_pretrained","title":"<code>falcon_from_pretrained(model_id, device)</code>","text":"<p>return: Weight or Params for easydel Model , Config</p> Source code in <code>src/python/easydel/transform/falcon.py</code> <pre><code>def falcon_from_pretrained(model_id, device):\n    \"\"\"return: Weight or Params for easydel Model , Config\"\"\"\n    # Requested By vwxyzjn at https://github.com/erfanzar/EasyDeL/issues/15#issue-1881044170\n    config = FalconConfig.from_pretrained(model_id)\n    model = FalconForCausalLM.from_pretrained(model_id)\n    easydel_wights = falcon_convert_pt_to_flax_7b(\n        state_dict=model.state_dict(),\n        config=config,\n        device=device\n    )\n    del model\n    gc.collect()\n    config.add_jax_args()\n    return easydel_wights, config\n</code></pre>"},{"location":"generated-transform-llama/","title":"transform.llama","text":""},{"location":"generated-transform-llama/#src.python.easydel.transform.llama.llama_easydel_to_hf","title":"<code>llama_easydel_to_hf(path, config)</code>","text":"<p>Takes path to easydel saved ckpt and return the model in pytorch (Transformers Huggingface)</p> Source code in <code>src/python/easydel/transform/llama.py</code> <pre><code>def llama_easydel_to_hf(path, config: LlamaConfig):\n    \"\"\"Takes path to easydel saved ckpt and return the model in pytorch (Transformers Huggingface)\"\"\"\n    torch_params = load_and_convert_checkpoint_to_torch(path)\n    edited_params = {}\n    for k, v in torch_params.items():\n        edited_params[k.replace('.kernel', '.weight').replace('.embedding', '.weight')] = v\n    model = LlamaForCausalLM(config=config)\n    model.load_state_dict(edited_params)\n    return model\n</code></pre>"},{"location":"generated-transform-llama/#src.python.easydel.transform.llama.llama_from_pretrained","title":"<code>llama_from_pretrained(model_id, device)</code>","text":"<p>return: Weight or Params for easydel Model , Config</p> Source code in <code>src/python/easydel/transform/llama.py</code> <pre><code>def llama_from_pretrained(model_id, device):\n    \"\"\"return: Weight or Params for easydel Model , Config\"\"\"\n    config = LlamaConfig.from_pretrained(model_id)\n    model = LlamaForCausalLM.from_pretrained(model_id)\n    easydel_wights = llama_convert_hf_to_flax(\n        state_dict=model.state_dict(),\n        config=config,\n        device=device\n    )\n    config.add_jax_args()\n\n    del model\n    gc.collect()\n    return easydel_wights, config\n</code></pre>"},{"location":"generated-transform-mistral/","title":"transform.mistral","text":""},{"location":"generated-transform-mistral/#src.python.easydel.transform.mistral.mistral_easydel_to_hf","title":"<code>mistral_easydel_to_hf(path, config)</code>","text":"<p>Takes path to easydel saved ckpt and return the model in pytorch (Transformers Huggingface)</p> Source code in <code>src/python/easydel/transform/mistral.py</code> <pre><code>def mistral_easydel_to_hf(path, config: MistralConfig):\n    \"\"\"Takes path to easydel saved ckpt and return the model in pytorch (Transformers Huggingface)\"\"\"\n    torch_params = load_and_convert_checkpoint_to_torch(path)\n    edited_params = {}\n    for k, v in torch_params.items():\n        edited_params[k.replace('.kernel', '.weight').replace('.embedding', '.weight')] = v\n    model = MistralForCausalLM(config=config)\n    model.load_state_dict(edited_params)\n    return model\n</code></pre>"},{"location":"generated-transform-mistral/#src.python.easydel.transform.mistral.mistral_from_pretrained","title":"<code>mistral_from_pretrained(model_id, device)</code>","text":"<p>return: Weight or Params for easydel Model , Config</p> Source code in <code>src/python/easydel/transform/mistral.py</code> <pre><code>def mistral_from_pretrained(model_id, device):\n    \"\"\"return: Weight or Params for easydel Model , Config\"\"\"\n    config = MistralConfig.from_pretrained(model_id)\n    model = MistralForCausalLM.from_pretrained(model_id)\n    easydel_wights = mistral_convert_hf_to_flax(\n        state_dict=model.state_dict(),\n        config=config,\n        device=device\n    )\n    config.add_jax_args()\n\n    del model\n    gc.collect()\n    return easydel_wights, config\n</code></pre>"},{"location":"generated-transform-mpt/","title":"transform.mpt","text":""},{"location":"generated-transform-mpt/#src.python.easydel.transform.mpt.mpt_from_pretrained","title":"<code>mpt_from_pretrained(model_id, device, **kwargs)</code>","text":"<p>return: Weight or Params for easydel Model , Config</p> Source code in <code>src/python/easydel/transform/mpt.py</code> <pre><code>def mpt_from_pretrained(model_id, device, **kwargs):\n    \"\"\"return: Weight or Params for easydel Model , Config\"\"\"\n    config = MptConfig.from_pretrained(model_id)\n    model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True, **kwargs)\n\n    easydel_wights = mpt_convert_pt_to_flax_7b(\n        state_dict=model.state_dict(),\n        n_layers=config.num_hidden_layers if hasattr(config, 'num_hidden_layers') else config.n_layers,\n        device=device\n    )\n    config.add_jax_args()\n\n    del model\n    gc.collect()\n    return easydel_wights, config\n</code></pre>"},{"location":"generated-transform-utils/","title":"transform.utils","text":""},{"location":"generated-utils-checker/","title":"utils.checker","text":""},{"location":"generated-utils-prompters/","title":"utils.prompters","text":""},{"location":"generated-utils-prompters/#src.python.easydel.utils.prompters.antitoxin_prompter","title":"<code>antitoxin_prompter(history, prompt, system=None)</code>","text":"<p>The antitoxin_prompter function takes in a history of user-assistant interactions, a prompt from the user, and optionally a system response. It returns an input string that can be fed into the antitoxin model to generate an assistant response.</p> <p>Parameters:</p> Name Type Description Default <code>history</code> <code>List[str]</code> <p>typing.List[str]: Pass in the history of the conversation</p> required <code>prompt</code> <code>str</code> <p>str: Pass the user's input to the assistant</p> required <code>system</code> <code>Optional[str]</code> <p>typing.Optional[str]: Pass the system's response to the prompt</p> <code>None</code> <p>:param : Store the history of user and assistant interaction</p> <p>Returns:</p> Type Description <p>A string that contains the user's prompt,</p> Source code in <code>src/python/easydel/utils/prompters.py</code> <pre><code>def antitoxin_prompter(\n        history: typing.List[str],\n        prompt: str,\n        system: typing.Optional[str] = None,\n):\n    \"\"\"The antitoxin_prompter function takes in a history of user-assistant interactions,\n    a prompt from the user, and optionally a system response. It returns an input string\n    that can be fed into the antitoxin model to generate an assistant response.\n\n    Args:\n        history: typing.List[str]: Pass in the history of the\n            conversation\n        prompt: str: Pass the user's input to the assistant\n        system: typing.Optional[str]: Pass the system's response to the\n            prompt\n    :param : Store the history of user and assistant interaction\n\n    Returns:\n        A string that contains the user's prompt,\n    \"\"\"\n    sys_str = f\"&lt;|im_start|&gt;system\\n{system}&lt;|im_end|&gt;\\n\" if system is not None else \"\"\n    histories = \"\"\n    for user, assistance in history:\n        histories += f\"&lt;|im_start|&gt;user\\n{user}&lt;|im_end|&gt;\\n&lt;|im_start|&gt;assistant\\n{assistance}&lt;|im_end|&gt;\\n\"\n    text = f\"&lt;|im_start|&gt;user\\n{prompt}&lt;|im_end|&gt;\\n&lt;|im_start|&gt;assistant\\n\"\n    return sys_str + histories + text\n</code></pre>"},{"location":"generated-utils-prompters/#src.python.easydel.utils.prompters.antitoxin_prompter_chat_format","title":"<code>antitoxin_prompter_chat_format(history, system=None)</code>","text":"<p>The antitoxin_prompter_chat_format function takes a list of strings and returns a string. The input is the history of the chat, which is a list of tuples where each tuple contains two strings: the user's message and the assistant's response. The output is formatted as follows:</p> <p>Parameters:</p> Name Type Description Default <code>history</code> <code>List[str]</code> <p>typing.List[str]: Pass in the history of user and assistant messages</p> required <code>system</code> <code>Optional[str]</code> <p>typing.Optional[str]: Pass in the system message</p> <code>None</code> <p>:param : Store the history of the conversation</p> <p>Returns:</p> Type Description <p>A string that contains the system message and</p> Source code in <code>src/python/easydel/utils/prompters.py</code> <pre><code>def antitoxin_prompter_chat_format(\n        history: typing.List[str],\n        system: typing.Optional[str] = None,\n):\n    \"\"\"The antitoxin_prompter_chat_format function takes a list of strings and returns a string.\n    The input is the history of the chat, which is a list of tuples where each tuple contains two strings:\n    the user's message and the assistant's response. The output is formatted as follows:\n\n    Args:\n        history: typing.List[str]: Pass in the history of user and\n            assistant messages\n        system: typing.Optional[str]: Pass in the system message\n    :param : Store the history of the conversation\n\n    Returns:\n        A string that contains the system message and\n    \"\"\"\n    sys_str = f\"&lt;|im_start|&gt;system\\n{system}&lt;|im_end|&gt;\\n\" if system is not None else \"\"\n    histories = \"\"\n    for user, assistance in history:\n        histories += f\"&lt;|im_start|&gt;user\\n{user}&lt;|im_end|&gt;\\n&lt;|im_start|&gt;assistant\\n{assistance}&lt;|im_end|&gt;\\n\"\n    return sys_str + histories\n</code></pre>"},{"location":"generated-utils-prompters/#src.python.easydel.utils.prompters.llama2_prompter","title":"<code>llama2_prompter(history, prompt, system=None)</code>","text":"<p>The llama2_prompter function takes a history of user-system interactions, a prompt for the next system response, and optionally a system response. It returns an LLAMA2 formatted string that can be used as input to the LLAMA2 model.</p> <p>Parameters:</p> Name Type Description Default <code>history</code> <code>List[str]</code> <p>typing.List[str]: Store the history of user input and system response</p> required <code>prompt</code> <code>str</code> <p>str: Specify the prompt to be displayed</p> required <code>system</code> <code>Optional[str]</code> <p>typing.Optional[str]: Indicate that the system is optional</p> <code>None</code> <p>:param : Specify the system's response</p> <p>Returns:</p> Type Description <p>A string that is a concatenation of the</p> Source code in <code>src/python/easydel/utils/prompters.py</code> <pre><code>def llama2_prompter(\n        history: typing.List[str],\n        prompt: str,\n        system: typing.Optional[str] = None,\n\n):\n    \"\"\"The llama2_prompter function takes a history of user-system interactions,\n    a prompt for the next system response, and optionally a system response.\n    It returns an LLAMA2 formatted string that can be used as input to the LLAMA2 model.\n\n    Args:\n        history: typing.List[str]: Store the history of user input and\n            system response\n        prompt: str: Specify the prompt to be displayed\n        system: typing.Optional[str]: Indicate that the system is\n            optional\n    :param : Specify the system's response\n\n    Returns:\n        A string that is a concatenation of the\n    \"\"\"\n    do_strip = False\n    if system is not None:\n        texts = [f'&lt;s&gt;[INST] &lt;&lt;SYS&gt;&gt;\\n{system}\\n&lt;&lt;/SYS&gt;&gt;\\n\\n']\n    else:\n        texts = [f'&lt;s&gt;[INST] ']\n    for user_input, response in history:\n        user_input = user_input.strip() if do_strip else user_input\n        do_strip = True\n        texts.append(f'{user_input} [/INST] {response.strip()} &lt;/s&gt;&lt;s&gt;[INST] ')\n    prompt = prompt.strip() if do_strip else prompt\n    texts.append(f'{prompt} [/INST]')\n    return \"\".join(texts)\n</code></pre>"},{"location":"generated-utils-prompters/#src.python.easydel.utils.prompters.llama2_prompter_chat_format","title":"<code>llama2_prompter_chat_format(system, messages)</code>","text":"<p>The llama2_prompter_chat_format function takes a system message and a list of messages, and returns the formatted string that can be used to create an LLAMA2 chat file. The system message is optional, and if it is not provided then the function will return only the user messages. The user messages are expected to be in pairs: one for each speaker (system or human).  The first element of each  pair should be the name of that speaker.</p> <p>Parameters:</p> Name Type Description Default <code>system</code> <code>str</code> <p>str: Store the system message</p> required <code>messages</code> <code>List[str]</code> <p>typing.List[str]: Pass in a list of strings</p> required <p>:param : Add the system message to the beginning of the chat</p> <p>Returns:</p> Type Description <p>A string that is the</p> Source code in <code>src/python/easydel/utils/prompters.py</code> <pre><code>def llama2_prompter_chat_format(\n        system: str,\n        messages: typing.List[str],\n):\n    \"\"\"The llama2_prompter_chat_format function takes a system message and a list of messages,\n    and returns the formatted string that can be used to create an LLAMA2 chat file.\n    The system message is optional, and if it is not provided then the function will return only the user messages.\n    The user messages are expected to be in pairs: one for each speaker (system or human).  The first element of each\n     pair should be the name of that speaker.\n\n    Args:\n        system: str: Store the system message\n        messages: typing.List[str]: Pass in a list of strings\n    :param : Add the system message to the beginning of the chat\n\n    Returns:\n        A string that is the\n    \"\"\"\n    if system is not None:\n        string = [f'&lt;s&gt;[INST] &lt;&lt;SYS&gt;&gt;\\n{system}\\n&lt;&lt;/SYS&gt;&gt;\\n\\n']\n    else:\n        string = [f'&lt;s&gt;[INST] ']\n    for index in range(0, len(messages), 2):\n        string.append(\n            f'{messages[index]} [/INST] {messages[index + 1].strip()} &lt;/s&gt;&lt;s&gt;[INST] ')\n    return \"\".join(string).strip()\n</code></pre>"},{"location":"generated-utils-tensor_utils/","title":"utils.tensor_utils","text":""},{"location":"generated-utils-tensor_utils/#src.python.easydel.utils.tensor_utils.np2jax","title":"<code>np2jax(array)</code>","text":"<p>Convert Numpy Array to JAX Array</p> Source code in <code>src/python/easydel/utils/tensor_utils.py</code> <pre><code>def np2jax(array: np.array) -&gt; chex.Array:\n    \"\"\"Convert Numpy Array to JAX Array\"\"\"\n    return jnp.asarray(array)\n</code></pre>"},{"location":"generated-utils-tensor_utils/#src.python.easydel.utils.tensor_utils.pt2jax","title":"<code>pt2jax(array)</code>","text":"<p>Convert Pytorch Array to JAX Array</p> Source code in <code>src/python/easydel/utils/tensor_utils.py</code> <pre><code>def pt2jax(array: torch.Tensor) -&gt; chex.Array:\n    \"\"\"Convert Pytorch Array to JAX Array\"\"\"\n    return np2jax(pt2np(array))\n</code></pre>"},{"location":"generated-utils-tensor_utils/#src.python.easydel.utils.tensor_utils.pt2np","title":"<code>pt2np(array)</code>","text":"<p>Convert Pytorch Array to Numpy Array</p> Source code in <code>src/python/easydel/utils/tensor_utils.py</code> <pre><code>def pt2np(array: torch.Tensor) -&gt; np.array:\n    \"\"\"Convert Pytorch Array to Numpy Array\"\"\"\n    return array.detach().cpu().numpy()\n</code></pre>"},{"location":"generated-utils-utils/","title":"utils.utils","text":""},{"location":"generated-utils-utils/#src.python.easydel.utils.utils.Timer","title":"<code>Timer</code>","text":"Source code in <code>src/python/easydel/utils/utils.py</code> <pre><code>class Timer:\n\n    def __init__(self, name):\n        \"\"\"The __init__ function is called when the class is instantiated.\n        It sets up the object with a name and initializes other variables.\n\n        Args:\n            self: Represent the instance of the class\n            name: Give the timer a name\n\n        Returns:\n            An instance of the class\n        \"\"\"\n        self.name_ = name\n        self.elapsed_ = 0.0\n        self.started_ = False\n        self.start_time = time.time()\n\n    def start(self):\n        \"\"\"The start function starts the timer.\n                Args:\n                    None\n\n        Args:\n            self: Access the attributes and methods of the class in\n                python\n\n        Returns:\n            Nothing\n        \"\"\"\n        assert not self.started_, \"timer has already been started\"\n        self.start_time = time.time()\n        self.started_ = True\n\n    def stop(self):\n        \"\"\"The stop function stops the timer and adds the time elapsed since start was called to the total elapsed time.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            The time elapsed since the start function was called\n        \"\"\"\n        assert self.started_, \"timer is not started\"\n        self.elapsed_ += time.time() - self.start_time\n        self.started_ = False\n\n    def reset(self):\n        \"\"\"The reset function sets the elapsed time to 0.0 and the started flag to False.\n\n        Args:\n            self: Represent the instance of the class\n\n        Returns:\n            True if the timer was running, false otherwise\n        \"\"\"\n        self.elapsed_ = 0.0\n        self.started_ = False\n\n    def elapsed(self, reset=True):\n        \"\"\"The elapsed function returns the elapsed time in seconds since the timer was started.\n        If reset is True, then it also resets the timer to zero and restarts it.\n        If reset is False, then it leaves the timer running.\n\n        Args:\n            self: Represent the instance of the class\n            reset: Reset the timer\n\n        Returns:\n            The elapsed time in seconds\n        \"\"\"\n        started_ = self.started_\n        if self.started_:\n            self.stop()\n        elapsed_ = self.elapsed_\n        if reset:\n            self.reset()\n        if started_:\n            self.start()\n        return elapsed_\n</code></pre>"},{"location":"generated-utils-utils/#src.python.easydel.utils.utils.Timer.__init__","title":"<code>__init__(name)</code>","text":"<p>The init function is called when the class is instantiated. It sets up the object with a name and initializes other variables.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>name</code> <p>Give the timer a name</p> required <p>Returns:</p> Type Description <p>An instance of the class</p> Source code in <code>src/python/easydel/utils/utils.py</code> <pre><code>def __init__(self, name):\n    \"\"\"The __init__ function is called when the class is instantiated.\n    It sets up the object with a name and initializes other variables.\n\n    Args:\n        self: Represent the instance of the class\n        name: Give the timer a name\n\n    Returns:\n        An instance of the class\n    \"\"\"\n    self.name_ = name\n    self.elapsed_ = 0.0\n    self.started_ = False\n    self.start_time = time.time()\n</code></pre>"},{"location":"generated-utils-utils/#src.python.easydel.utils.utils.Timer.elapsed","title":"<code>elapsed(reset=True)</code>","text":"<p>The elapsed function returns the elapsed time in seconds since the timer was started. If reset is True, then it also resets the timer to zero and restarts it. If reset is False, then it leaves the timer running.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>reset</code> <p>Reset the timer</p> <code>True</code> <p>Returns:</p> Type Description <p>The elapsed time in seconds</p> Source code in <code>src/python/easydel/utils/utils.py</code> <pre><code>def elapsed(self, reset=True):\n    \"\"\"The elapsed function returns the elapsed time in seconds since the timer was started.\n    If reset is True, then it also resets the timer to zero and restarts it.\n    If reset is False, then it leaves the timer running.\n\n    Args:\n        self: Represent the instance of the class\n        reset: Reset the timer\n\n    Returns:\n        The elapsed time in seconds\n    \"\"\"\n    started_ = self.started_\n    if self.started_:\n        self.stop()\n    elapsed_ = self.elapsed_\n    if reset:\n        self.reset()\n    if started_:\n        self.start()\n    return elapsed_\n</code></pre>"},{"location":"generated-utils-utils/#src.python.easydel.utils.utils.Timer.reset","title":"<code>reset()</code>","text":"<p>The reset function sets the elapsed time to 0.0 and the started flag to False.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>True if the timer was running, false otherwise</p> Source code in <code>src/python/easydel/utils/utils.py</code> <pre><code>def reset(self):\n    \"\"\"The reset function sets the elapsed time to 0.0 and the started flag to False.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        True if the timer was running, false otherwise\n    \"\"\"\n    self.elapsed_ = 0.0\n    self.started_ = False\n</code></pre>"},{"location":"generated-utils-utils/#src.python.easydel.utils.utils.Timer.start","title":"<code>start()</code>","text":"<p>The start function starts the timer.         Args:             None</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Access the attributes and methods of the class in python</p> required <p>Returns:</p> Type Description <p>Nothing</p> Source code in <code>src/python/easydel/utils/utils.py</code> <pre><code>def start(self):\n    \"\"\"The start function starts the timer.\n            Args:\n                None\n\n    Args:\n        self: Access the attributes and methods of the class in\n            python\n\n    Returns:\n        Nothing\n    \"\"\"\n    assert not self.started_, \"timer has already been started\"\n    self.start_time = time.time()\n    self.started_ = True\n</code></pre>"},{"location":"generated-utils-utils/#src.python.easydel.utils.utils.Timer.stop","title":"<code>stop()</code>","text":"<p>The stop function stops the timer and adds the time elapsed since start was called to the total elapsed time.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <p>Returns:</p> Type Description <p>The time elapsed since the start function was called</p> Source code in <code>src/python/easydel/utils/utils.py</code> <pre><code>def stop(self):\n    \"\"\"The stop function stops the timer and adds the time elapsed since start was called to the total elapsed time.\n\n    Args:\n        self: Represent the instance of the class\n\n    Returns:\n        The time elapsed since the start function was called\n    \"\"\"\n    assert self.started_, \"timer is not started\"\n    self.elapsed_ += time.time() - self.start_time\n    self.started_ = False\n</code></pre>"},{"location":"generated-utils-utils/#src.python.easydel.utils.utils.Timers","title":"<code>Timers</code>","text":"<p>Group of timers.</p> Source code in <code>src/python/easydel/utils/utils.py</code> <pre><code>class Timers:\n    \"\"\"Group of timers.\"\"\"\n\n    def __init__(self, use_wandb, tensorboard_writer):\n        self.timers = {}\n        self.use_wandb = use_wandb\n        self.tensorboard_writer = tensorboard_writer\n\n    def __call__(self, name):\n        if name not in self.timers:\n            self.timers[name] = Timer(name)\n        return self.timers[name]\n\n    def write(self, names, iteration, normalizer=1.0, reset=False):\n\n        \"\"\"The write function is used to write the elapsed time of a timer to Tensorboard and/or Weights &amp;amp; Biases.\n\n        Args:\n            self: Make the function a method of the class\n            names: Specify which timer(s) to write\n            iteration: Keep track of the number of iterations\n            normalizer: Normalize the time elapsed by a certain value\n            reset: Reset the timer after it has been written to\n                tensorboard\n\n        Returns:\n            Nothing\n        \"\"\"\n        assert normalizer &gt; 0.0\n        for name in names:\n            value = self.timers[name].elapsed(reset=reset) / normalizer\n\n            if self.tensorboard_writer:\n                self.tensorboard_writer.add_scalar(f\"timers/{name}\", value, iteration)\n\n            if self.use_wandb:\n                wandb.log({f\"timers/{name}\": value}, step=iteration)\n\n    def log(self, names, normalizer=1.0, reset=True):\n        \"\"\"The log function is used to print the time elapsed for a given function.\n\n        Args:\n            self: Represent the instance of the class\n            names: Specify the name of the timer that we want to log\n            normalizer: Normalize the time taken to run a function\n            reset: Reset the timer after logging\n\n        Returns:\n            The time taken for the given name\n        \"\"\"\n        assert normalizer &gt; 0.0\n\n        if isinstance(names, str):\n            names = [names]\n        for name in names:\n            elapsed_time = self.timers[name].elapsed(reset=reset) * 1000.0 / normalizer\n            termcolor.cprint(\n                f\"Time Took to Complete Task {name} (microseconds) : \"\n                f\"{termcolor.colored(elapsed_time, color='white', force_color=True)}\",\n                color=\"cyan\",\n                force_color=True\n            )\n</code></pre>"},{"location":"generated-utils-utils/#src.python.easydel.utils.utils.Timers.log","title":"<code>log(names, normalizer=1.0, reset=True)</code>","text":"<p>The log function is used to print the time elapsed for a given function.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Represent the instance of the class</p> required <code>names</code> <p>Specify the name of the timer that we want to log</p> required <code>normalizer</code> <p>Normalize the time taken to run a function</p> <code>1.0</code> <code>reset</code> <p>Reset the timer after logging</p> <code>True</code> <p>Returns:</p> Type Description <p>The time taken for the given name</p> Source code in <code>src/python/easydel/utils/utils.py</code> <pre><code>def log(self, names, normalizer=1.0, reset=True):\n    \"\"\"The log function is used to print the time elapsed for a given function.\n\n    Args:\n        self: Represent the instance of the class\n        names: Specify the name of the timer that we want to log\n        normalizer: Normalize the time taken to run a function\n        reset: Reset the timer after logging\n\n    Returns:\n        The time taken for the given name\n    \"\"\"\n    assert normalizer &gt; 0.0\n\n    if isinstance(names, str):\n        names = [names]\n    for name in names:\n        elapsed_time = self.timers[name].elapsed(reset=reset) * 1000.0 / normalizer\n        termcolor.cprint(\n            f\"Time Took to Complete Task {name} (microseconds) : \"\n            f\"{termcolor.colored(elapsed_time, color='white', force_color=True)}\",\n            color=\"cyan\",\n            force_color=True\n        )\n</code></pre>"},{"location":"generated-utils-utils/#src.python.easydel.utils.utils.Timers.write","title":"<code>write(names, iteration, normalizer=1.0, reset=False)</code>","text":"<p>The write function is used to write the elapsed time of a timer to Tensorboard and/or Weights &amp; Biases.</p> <p>Parameters:</p> Name Type Description Default <code>self</code> <p>Make the function a method of the class</p> required <code>names</code> <p>Specify which timer(s) to write</p> required <code>iteration</code> <p>Keep track of the number of iterations</p> required <code>normalizer</code> <p>Normalize the time elapsed by a certain value</p> <code>1.0</code> <code>reset</code> <p>Reset the timer after it has been written to tensorboard</p> <code>False</code> <p>Returns:</p> Type Description <p>Nothing</p> Source code in <code>src/python/easydel/utils/utils.py</code> <pre><code>def write(self, names, iteration, normalizer=1.0, reset=False):\n\n    \"\"\"The write function is used to write the elapsed time of a timer to Tensorboard and/or Weights &amp;amp; Biases.\n\n    Args:\n        self: Make the function a method of the class\n        names: Specify which timer(s) to write\n        iteration: Keep track of the number of iterations\n        normalizer: Normalize the time elapsed by a certain value\n        reset: Reset the timer after it has been written to\n            tensorboard\n\n    Returns:\n        Nothing\n    \"\"\"\n    assert normalizer &gt; 0.0\n    for name in names:\n        value = self.timers[name].elapsed(reset=reset) / normalizer\n\n        if self.tensorboard_writer:\n            self.tensorboard_writer.add_scalar(f\"timers/{name}\", value, iteration)\n\n        if self.use_wandb:\n            wandb.log({f\"timers/{name}\": value}, step=iteration)\n</code></pre>"},{"location":"generated-utils-utils/#src.python.easydel.utils.utils.get_mesh","title":"<code>get_mesh(shape=(1, -1, 1, 1), axis_names=('dp', 'fsdp', 'tp', 'sp'))</code>","text":"<p>The get_mesh function is a helper function that creates a JAX Mesh object.</p> <p>Parameters:</p> Name Type Description Default <code>shape</code> <code>Sequence[int]</code> <p>typing.Sequence[int]: Specify the shape of the array that is used to create the mesh</p> <code>(1, -1, 1, 1)</code> <code>axis_names</code> <code>Sequence[str]</code> <p>typing.Sequence[int]: Specify the Axis Names in mesh</p> <code>('dp', 'fsdp', 'tp', 'sp')</code> <p>Returns:</p> Type Description <p>A mesh object</p> Source code in <code>src/python/easydel/utils/utils.py</code> <pre><code>def get_mesh(\n        shape: typing.Sequence[int] = (1, -1, 1, 1),\n        axis_names: typing.Sequence[str] = (\"dp\", \"fsdp\", \"tp\", \"sp\")\n):\n    \"\"\"The get_mesh function is a helper function that creates a JAX Mesh object.\n\n    Args:\n        shape: typing.Sequence[int]: Specify the shape of the array that\n            is used to create the mesh\n        axis_names: typing.Sequence[int]: Specify the Axis Names in mesh\n\n    Returns:\n        A mesh object\n    \"\"\"\n    from jax.sharding import Mesh\n    from jax.experimental import mesh_utils\n    array = jnp.ones((len(jax.devices()), 1)).reshape(shape)\n    return Mesh(mesh_utils.create_device_mesh(array.shape), axis_names)\n</code></pre>"}]}
\ No newline at end of file
diff --git a/sitemap.xml b/sitemap.xml
new file mode 100644
index 000000000..0f8724efd
--- /dev/null
+++ b/sitemap.xml
@@ -0,0 +1,3 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
+</urlset>
\ No newline at end of file
diff --git a/sitemap.xml.gz b/sitemap.xml.gz
new file mode 100644
index 0000000000000000000000000000000000000000..aa295fd9d4f37a95e8b1ad654724c7be90a3c184
GIT binary patch
literal 127
zcmV-_0D%7=iwFn+Dp6(v|8r?{Wo=<_E_iKh04<9_3V<LG0Pnp*_MTg}inLoVs0V~e
z38~>)_WXo8&M?ytk3HC}0~zlG)Vu<wo${-3n}B&5%LWEn^jA1YN0wtp0`?fs4l$*~
h$wY0JleiBXlG-y6{t_$RLZ0!v<qJi$pFwQ^000sHHX#52

literal 0
HcmV?d00001